在用事实说话的现代社会中,统计数字具有独特的魅力;但有些时候,它也会被恶意利用而成为迷惑公众的工具。美国统计专家达莱尔·哈夫的这部经典著作,以风趣的文笔和通俗的案例,揭穿了炮制“数据谎言”的种种伎俩。
名校毕业生都成了富翁?
让我们来看一则新闻报道:“1924级的耶鲁毕业生平均年收入为25111美元”(注:本书初次出版时,美元比现在值钱得多)。好家伙,他们干得可真不赖!
可是,等一等,这个令人印象深刻的数字到底意味着什么?是否像表面看到的那样,足以证明如果你把孩子送进耶鲁大学,年老时就不用辛苦上班了?
在惊鸿一瞥后,关于该数字的两个疑点凸现出来:它惊人的准确,并且大得令人难以置信。要知道,对一群相隔千山万水的人,了解他们的平均收入,而且竟然精确到以元为单位,几乎不太可能。就算是自己去年的收入,也很难知道得如此准确。
单凭常识就能看出这个数字与现实出入很大。那么,是什么使那些实际工资也许只有25111美元一半的人们,最终拥有如此丰厚的平均收入?让我们来揭开这神秘的面纱。
样本偏差让数据失真
可以肯定的是,这则报道必然是基于对某个样本的分析。没有人能够掌握所有仍在世的1924级学生的情况,他们中的许多人已经消失在茫茫人海中。况且,在那些能够取得联系的人中,许多人根本不会回答这种涉及隐私的调查。一般情况下,邮寄问卷的回收率达到5%~10%就已经相当可观了。因此,这个收入数据建立在特定的样本之上:由能够取得联系并愿意回答的耶鲁学生组成。
问题在于,那些在耶鲁大学毕业生通讯录上被注明“地址不详”的迷路羔羊是谁呢?他们是高收入阶层吗?华尔街的金融家、公司领导层,制造企业或公用事业的总裁?不,要找到富人的地址根本不难。那些显赫的人,即使忽略了与校友办公室联系,他们的地址也可以通过《美国名人录》或其他资料找到。
因此,我们可以较合理地推测,那些被遗漏的人在获取学位以后,并没能实现自己的光辉梦想,他们是小职员、技工、酒鬼、仅仅得以糊口的作家或艺术家……将六七个甚至更多这种人的收入相加,才可能达到25111美元。他们不会在班级联谊会上注册,仅仅是因为支付不起路费。那么,谁会将调查问卷丢进废纸篓?我们无法肯定,但可以猜想,其中大部分人并没有赚到足以炫耀的金钱。
现在让我们见识一下25111美元的庐山真面目吧:如果它是真实的数据,也仅仅代表了1924级耶鲁学生中能够联系上的,并愿意站出来说出收入的一个特殊群体。当然,它的真实性还需要满足以下假定:这些绅士们说的都是真话。然而经验告诉我们,人们会说真话的假定往往是不可靠的。
作为总结,记住下面这点是有益的:根据抽样得出的结论必须采用最具代表性的样本,才能排除各种误差,确保结论有价值。这就是耶鲁学生的收入数据失真的原因,也是你在报纸和杂志中读到的许多资料根本不值一提的原因。
(::节选自《统计数字会撒谎》,中国城市出版社2009年3月第一版,未完待续)
今年第一季度,北京连续出现重度雾霾天气,越来越多的中国人因雾霾移居海外。[全文>>]
自信、自我、自由、乐观并且欢迎改变,疏离宗教、政治和社会,自恋而乐观。[全文>>]
13日,中国人民银行以保证金融安全为由,叫停了阿里巴巴和腾讯11日刚刚宣布推出的虚拟信用卡。[全文>>]
中国银监会宣布,包括阿里巴巴、腾讯在内的10家公司,已被选定参与投资中国首批5家民营银行。[全文>>]
许多人认为雷达无所不能。令他们惊讶的是,依靠这项技术至今也找不到消失的MH370航班。[全文>>]
一些票务公司和个人为了与“黄牛”作斗争,无奈之下也得“以牙还牙”,外挂大战愈演愈烈。[全文>>]