如何思考数据和证据?
清晰的思考,首要是得关注想法和问题。数据分析技巧虽然很重要,但也应该服务于想法和问题。
遗憾的是,大多数人学习统计学或数据分析课程,关注点恰恰相反。
他们学习数学公式,记住统计程序,关注统计细节,却从未思考自己在做什么或为什么要这么做。
这本书的重点是概念性理解。
分析数据时,你是在比较这个世界上的哪些特征?不同类型的比较可以回答什么样的不同问题?对于想要解决的难题,你能提出正确的问题和进行正确的比较吗?
为什么一个听起来很有说服力的答案实际是误导呢?你如何使用创造性的方法来提供一个更有信息量的回答?
这并不是说技术细节不重要。而是我们认为,在缺乏对概念的清晰理解和思考的情况下,使用技术是一种灾难。
一旦你能够清晰地思考定量分析,一旦你理解了为什么提出谨慎而精确的问题如此重要,你自然能学好技术细节。
大多数人都不会成为专业的量化分析师。但我们相信,你会在很多场景下用到这本书中学到的技能。你们每天会读到新闻报道,或最新研究,总有人试图用数据分析来说服你。
这本书将使你具备清晰思维的技能,提出正确的问题,抱持怀疑的态度,区分误导性的证据。
01 一个故事 - 亚伯的误诊
让我们先从一个故事开始。
伊森的第一个孩子亚伯出生于 2006 年。婴儿时期,有 5 个月的时间,他几乎每晚都尖叫和哭泣。亚伯在其他方面都很健康,就是个子有点小。
在他 1 岁的时候,全家搬到了芝加哥。没有那次搬家,你就不会读到这本书(这句话用了一个特殊的说法,叫“反事实”。“反事实”非常重要,你将在第 3 章中了解它)。
注意到亚伯的个头比实际年龄小之后,儿科医生决定给他做检查。检查结果显示他患有乳糜泻一一种以麸质不耐受为特征的消化系统疾病。
好消息是,如果饮食管理得当,乳糜泻不会危及生命,甚至不会进展很严重。坏消息是,在 2007 年,儿童的无麸质饮食,选择相当有限。
图片来自 Pixabay
亚伯实际上做了两种与乳糜泻有关的血液检查。一种结果呈阳性(表明他有这种疾病),另一种呈阴性(表明他没有这种疾病)。
根据医生的说法,阳性的那项测试准确率超过 80%,是一个强有力的诊断。
建议的治疗方案是,让亚伯进行几个月的无麸质饮食,看看他的体重是否增加。如果确实增加了,那要么做一个活检进一步明确一下,要么干脆让亚伯终生不吃麸质。
伊森要求看一下亚伯的血检报告。医生表示没必要,你又不是医生。这个回答既不意外,也能理解。人,尤其是专家和权威人物,往往不喜欢承认自己知识的局限性。
但伊森想为他儿子做出正确的决定,所以他努力争取了信息。
这本书的目标之一,就是当你在生活中利用信息做决定,需要维护自己的利益的时候,能够给你技巧和信心。
任何一项检查,都有两个指标来判断有效性。第一个是假阴性率,即将一个病人测成健康人的概率。第二个是假阳性率,即将一个健康的人测成病人的概率。要正确解读检查结果,你需要同时知道这两个比例。
因此,亚伯医生所说的阳性准确率为 80%,并没有提供多少信息。
这是指 20% 的假阴性率呢?还是假阳性率?还是说查出阳性的人中只有 80% 的人患有乳糜泻?
幸运的是,在谷歌上快速搜索一下,亚伯的两项测试的假阳性和假阴性率的数据都有了。
亚伯测出阳性的那项检查,假阴性率约为 20%。
也就是说,如果 100 名乳糜泻患者参加测试,其中大约 80 人会正确检测出阳性,而另外 20人会错误检测出阴性。这可能就是所谓 80% 准确率的来源。
然而,这个测试有 50% 的假阳性率!
也就是说,没有乳糜泻的人,查出阳性和和查出阴性的概率一样大(值得注意的是,这项检测已不再被推荐用于诊断乳糜泻)。相比之下,亚伯在查出阴性的那项检查,它的假阴性和假阳性率要低得多。
在给亚伯做检查之前,如果要对他患乳糜泻的概率做一个估计,那么考虑到他身材娇小,合理的估计大概是1%。也就是说,大约每 100 个小孩中就有 1 个患有乳糜泻。
再结合检查结果和假阳性率、假阴性率,伊森能够计算出亚伯患有乳糜泻的可能性。
令人惊讶的是,在一项不准确的检查中查出阳性,而在一项准确的检查中查出阴性,实际上意味着,亚伯患乳糜泻的可能性远低于 1%。
图片来自 Pixabay
事实上,我们将在第十五章中向你展示,根据测试结果,亚伯患乳糜泻的可能性大约是千分之一。
亚伯的医生坚信不疑的那项血液检查,实际上强烈支持着相反的结论。亚伯几乎可以肯定没有乳糜泻。
伊森打电话给医生,说明了他的发现,并说,他儿子痴迷意大利面,让他一辈子吃无麸质食物,恐怕不是明智之举。医生回复:乳糜泻这个病,谁得了都难以接受。
伊森换了个新的儿科医生。
亚伯没得乳糜泻,孩子只是个子有点小。如今,他是一个正常身高的孩子,胃口很好。
但如果他的父亲不知道如何思考定量证据,或者缺乏挑战犯错专家的信心,他的童年就是在吃米糕中度过的。米糕很难吃,他大概率还是长不高。
02 相关性是什么
接下去我们进入正题,首先探讨下“相关性是什么”。
相关不等于因果。这是条不错的原则。然而,它没什么用。
因为虽然很多人知道这句话,但几乎没有人知道,什么是相关性,什么是因果关系。
这一章是关于相关性的。相关性是定量分析师用来描述世界、预测未来和回答科学问题的主要工具。是严谨分析师必备的基本技能。但他们必须了解清楚,相关性能回答哪些问题,不能回答哪些问题。
相关性指的是两个特征倾向于同时出现的程度。
这个定义告诉我们,相关性是两个事物之间的关系(事物也叫做世界的特征(features of the world)或变量(variables))。
如果两个特征倾向于同时出现,则它们正相关。如果一个特征的出现与另一个特征的出现无关,则它们不相关。如果一个特征出现时,另一个特征通常不出现,则它们负相关。
世界的两个特征往往同时出现,这代表什么?让我们从一个最简单的例子开始。
假设我们想要评估世界的两个特征之间的相关性,并且每个特征只有两个可能的值(我们称之为二元变量)。
例如,“中午之前”和“中午之后”是一个二元变量(与之相对,以小时、分钟和秒为单位测量的时间不是二元的;它可以取两个以上的值)。
政治学家和经济学家有时会提到“资源诅咒”或“富足悖论”。它指的是,拥有丰富自然资源的国家往往比那些自然资源少的国家经济更不发达,民主程度也更低。自然资源富足的国家,可能更不会在其他领域去发展,也更容易受到暴力和专制的影响。
为了评估资源诅咒的程度,我们可能想知道自然资源与经济或政治制度特征之间的相关性。这得从收集数据开始,我们已经收集好了。
要评估自然资源,我们选取了主要的石油生产国。如果一个国家每百万人每天出口超过 4 万桶石油,我们就把它列为主要的石油生产国。
关于政治制度,我们根据政体指数(Polity IV Project)评估哪些国家是专制国家,哪些国家是民主国家。
下图显示了四种可能类别的数量:民主国家且是主要石油生产国,民主国家且不是主要石油生产国,专制国家且是主要石油生产国,专制国家且不是主要石油生产国。
通过比较,我们可以弄清楚这两个二元变量是否相关:是否主要的石油生产国,专制还是民主。
例如,我们可以问,主要石油生产国,是否比非主要石油生产国更有可能成为专制国家?或者,专制国家是否比民主国家更有可能成为主要石油生产国?
如果一种说法是正确的,那么另一种也一定是正确的。这些比较告诉我们,世界的这两个特征(一个主要的石油生产国 & 一个专制国家)是否会同时出现。
图中,石油产量和专制确实呈正相关。55%的主要石油生产国是专制国家(11/20=55%),而非主要石油生产国中只有约 20% 是专制国家(29/147≈20%)。
另一方面,27.5%的专制国家是主要石油生产国(11/40=27.5%),而只有约 7% 的民主国家是主要石油生产国(9/127≈7%)。
也就是说,主要石油生产国比非主要石油生产国更有可能成为专制国家。同样,专制国家比民主国家更有可能成为主要石油生产国。
图片来自 Pixabay
作为一个描述性的问题,我们发现这种正相关很有趣。它对预测也有潜在的好处。假设在我们的数据之外还有一些其他国家,我们不确定它们的政治体制。只要知道它们是否是主要的石油生产国,就有可能预测它们拥有什么样的政府。
这些知识甚至可能对因果推理有用。例如假如一个国家发现了新的石油储备,美国国务院可能想知道这会对该国的政治制度产生什么影响。这些数据也许会对因果关系提供信息。
上面的例子中,我们画了一个表格列出了所有可能性,但有时候我们的数据没办法做到这样。即便如此,我们也能评估相关性。
例如,假设我们想评估芝加哥的犯罪率和气温之间的关系。
我们也可以画个表格,每一行对应一个日子,每一列对应一天的某个特征。我们通常把行称为观察值(observation),把每一列的特征称为变量(variable)。在这里,观测值是不同的日子。
一个变量可以是当天在芝加哥中途机场测量的平均温度。另一个可以是当天芝加哥市报告的犯罪数量,也可以是《芝加哥论坛报》当天是否在头版刊登了犯罪报道。
正如你所看到的,变量的值可以是二进制的(头版报道与否),可以是离散但不是二进制的(犯罪数量),也可以是连续的(平均温度)。
我们收集了芝加哥在 2018 年的数据,想评估犯罪率和温度之间的相关性。但如何评估两个非二元变量之间的相关性呢?
一个初阶的方法是做散点图。下图显示了芝加哥 2018 年的散点图。
其中,每个点对应一个观察值。也就是说,每个点代表 2018 年芝加哥的某一天。
横轴是中途机场的平均气温。纵轴是当天该市报告的犯罪数量。因此,每个点的位置显示了某一天的平均气温和犯罪数量。
从图中可以看出,温度和犯罪率之间似乎存在正相关关系。
横轴上左边的点(较冷的日子)往往在纵轴上也很低(犯罪率较低的日子),而横轴上右边的点(较温暖的日子)往往在纵轴上也很高(犯罪率较高的日子)。
但是,我们如何量化这种视觉印象呢?其实有很多种统计方法都可以实现。其中一种称为斜率。
假设我们找到了数据的最佳拟合线。所谓最佳拟合,大致是说,使数据点与该线的平均距离最小的那条线(我们将在第 5 章对此进行更精确的描述)。最佳拟合线的斜率是描述两个连续变量之间相关性的一种方式。
下图显示了添加了这条线的散点图。这条线的斜率告诉我们这两个变量之间的关系。
如果斜率为负,则相关性为负。如果斜率为零,则温度和犯罪率不相关。如果斜率为正,则相关性为正。
而斜率的陡峭度告诉我们这两个变量之间的相关性有多强。
在图中,我们看到它们是正相关的:在越温暖的天气里,犯罪率往往越高。更进一步,斜率是 3.1。所以平均来说,温度每增加 1 度(华氏度),就会增加 3.1 起案件。
请注意,如何解释斜率,取决于哪个变量在纵轴上,哪个变量在横轴上。
如果我们以另一种方式画图(下图),描述的还是相同的两个变量之间的关系。但此时,每增加 1 起案件,温度平均要高出 0.18 度。
无论哪个变量在横轴上,斜率的符号(正或负)都是一样的。因为改变变量位于的坐标轴,并不会改变它们的相关关系。但是,线的斜率以及斜率所代表的含义——即它对世界的描述,已经发生了改变。
03 这是个事实还是相关性?
为了确定相关性是否存在,你必须做某种比较。
例如,为了了解温度和犯罪之间的相关性,需要比较炎热和寒冷的日子,看看犯罪水平是否不同。或者,也可以比较犯罪率高和犯罪率低的日子,看看它们的温度是否不同。
也就是说,要评估两个变量之间的相关性,两个变量都要有变化。
例如,如果只在平均气温为 0 度的日子里收集数据,就没有办法评估温度和犯罪之间的相关性。如果只研究有 500 起案件的日子,情况也是如此。
在此之前,先做一个初步的检查也是有帮助的。所以让我们试一试吧。
想想下面这些陈述。哪些描述了相关性,哪些没有?
1. 活到100岁的人通常都服用维生素。
2. 犯罪率高的城市往往会雇佣更多的警察。
3. 成功人士至少要花 1 万个小时来磨练技艺。
4. 大多数有丑闻的政客都赢得了连任。
5. 老年人比年轻人更多参与投票。
虽然每个陈述都反映了一个事实,但并不是所有的事实都描述了相关性——即世界的两个特征是否倾向于同时发生。
表述1、3和4没有描述相关性,而表述2和5描述了相关性。
让我们来解答这个问题。
表述1、 3和4是事实。它们是从数据中得出的,这听起来很科学。而如果我们给每个陈述都加上具体的数字,就可以称之为统计学结果了。但并不是所有的事实或统计数据都描述了相关性。
关键问题是,这些陈述并没有描述世界的两个特征是否倾向于同时发生。也就是说,它们没有比较世界的两个特征的不同取值。
为了更好地理解这一点, 我们来看看表述 4:
大多数有丑闻的政客都赢得了连任。
它讨论了世界的两个特征。第 1 个是政客是否有丑闻。第 2 个是该政客是否成功连任。所暗示的相关性是有丑闻和赢得连任之间的正相关关系。
但是,我们并没有从这一陈述中了解到这两种特征是否会同时发生。也就是说,我们没有比较有丑闻的人和没有丑闻的人的连任率。
图片来自 Pixabay
我们可以评估相关性,但无法通过表述 4 中的数据来评估。要评估相关性,我们需要两个变量的变化——有丑闻和赢得连任。
图个乐子,让我们用真实数据来检验一下。
休斯顿大学的斯科特·贝辛格(Scott Basinger)系统收集过国会丑闻的数据。我们取 2006 年至 2012 年寻求连任的美国众议院议员的数据。
我们列出 4 个类别:有丑闻且连任的议员,有丑闻但没有连任的议员,没有丑闻但连任的议员,以及没有丑闻且没有连任的议员。
在上图中,我们看到,表述4确实是一个事实:70 位有丑闻的议员中,有 62 人(约89%)连任了。
但我们也看到,大多数没有丑闻的议员也赢得了连任。在这些没有丑闻的议员中,1293 人中有 1192 人(约92%)赢得了连任。
通过比较丑闻缠身的议员和没有丑闻的成员,我们现在看到,面对丑闻和赢得连任之间实际上存在轻微的负相关关系。
我们希望现在能弄清楚,为什么表述4没有传达出足够的信息,不足以表明丑闻和连任之间是否存在相关性。
它的问题是,它只描述了有丑闻的政客。它告诉我们,这些政客赢得连任的比失败的多。
但要弄清楚丑闻与赢得连任之间是否存在相关性,我们需要比较有丑闻的政客赢得连任的比例与没有丑闻的政客赢得连任的比例。
如果没有丑闻的议员中只有 85% 的人赢得了连任,那么丑闻与连任之间就存在正相关关系。如果 89% 的人赢得了连任,那么就没有相关性。但既然现在真实比例是 92%,那就存在负相关。
同样,表述1和表述3也没有传达足够的信息来评估相关性。
表述2和5描述了相关性。这两个表述都做了比较。
表述2告诉我们,平均而言,犯罪率高的城市比犯罪率低的城市拥有更大的警察数量。表述5告诉我们,老年人的投票率往往高于年轻人。
在这两种情况下,我们都是在比较一个变量(警力规模或投票率)的差异与另一个变量(犯罪率或年龄)的差异。这就是建立相关性所需要的信息。
就像我们一开始说的,如果你感到困惑,也不要担心。要弄清楚什么样的信息只是在描述一个事实,什么样的的信息是建立相关性所必需的,这是很棘手的。我们将用第 4 章来确保你真正理解它。
以上主要翻译自第一章和第二章,有删节,未翻译“相关性的好处”和“计算方法”。
来源 | Taraaa(ID:Tarasayhi)
作者 | Taraaa ;编辑 | 呼呼大睡
内容仅代表作者独立观点,不代表早读课立场
微信扫码关注该文公众号作者