在谷歌、facebook和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中,现实数据支撑起了新互联网经济。爱德华.斯诺登揭露了美国政府数据监听的规模和范围,很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。
咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算,从临床试验到医疗保险报销到智能跑鞋,如果能把所有的这些健康相关的数据加以更好的整合分析,那么美国的医疗保险系统每年可以节省3000亿美金的开支,平均每一个美国人可以省下1000美元。
虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统计学中的教训,大数据可能注定会让我们失望。
Spiegelhalter教授曾说到:“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失,它们只会更加突出。”
在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天,在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,然而疾控中心在慢慢汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。
问题的根源在于谷歌不知道(一开始也没法知道)搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的,或许根本不可能。而发现两件事物之间的相关性则要简单和快速的多。就像Viktor Mayer-Sch nberger 和 Kenneth Cukier 在《大数据》这本书中形容的那样:“因果关系不能被忽略,然而曾作为所有结论出发点的它已经被请下宝座了。”
这种不需要任何理论的纯粹的相关性分析方法,其结果难免是脆弱的。如果你不知道相关性背后的原因,你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是,2012年12月份的媒体上充斥着各种关于流感的骇人故事,看到这些报道之后,即使是健康的人也会跑到互联网上搜索相关的词汇。还有另外一种解释,就是谷歌自己的搜索算法,在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。这就好像在足球比赛里挪动了门柱一样,球飞进了错误的大门。
谷歌将使用新的数据再次校准流感趋势这个产品,重新来过。这当然是正确的做法。能够有更多的机会让我们简捷的采集和处理大规模的数据,这当然有一百个理由让人兴奋。然而我们必须从上述例子中汲取足够的教训,才能避免重蹈覆辙。
统计学家们过去花了200多年,总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了,更新更快了,采集的成本也更低了。但我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上它们还在那里。
在1936年,民主党人Alfred Landon与当时的总统Franklin Delano Roosevelt(富兰克林.罗斯福——译者注)竞选下届总统。《读者文摘》这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法,调查人员雄心勃勃,计划寄出1000万份调查问卷,覆盖四分之一的选民。可以预见,洪水般寄回的邮件将超乎想象,然而《文摘》似乎还乐在其中。8月下旬的时候他们写到:“从下周起,1000万张问卷的第一批回执将会到达,这将是后续邮件洪峰的开始。所有这些表格都会被检查三次,核对,交叉存档五份,然后汇总。”
最终《文摘》在两个多月里收到了惊人的240万份回执,在统计计算完成以后,杂志社宣布Landon将会以55比41的优势击败Roosevelt赢得大选,另外4%的选民则会投给第三候选人。
然而真实选举结果与之大相径庭:Roosevelt以61比37的压倒性优势获胜。让《读者文摘》更没面子的是,观点调查的先创人George Gallup通过一场规模小的多的问卷,得出了准确得多的预测结果。Gallup预计Roosevelt将稳操胜券。显然,Gallup先生有他独到的办法。而从数据的角度来看,规模并不能决定一切。
|