从“大数据”中淘金很酷，但方法还很盲目_大数据

从“大数据”中淘金很酷，但方法还很盲目

通信世界网 http://www.cww.net.cn	2014年5月15日 08:12
标签：大数据

在谷歌、facebook和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中，现实数据支撑起了新互联网经济。爱德华.斯诺登揭露了美国政府数据监听的规模和范围，很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。

咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算，从临床试验到医疗保险报销到智能跑鞋，如果能把所有的这些健康相关的数据加以更好的整合分析，那么美国的医疗保险系统每年可以节省3000亿美金的开支，平均每一个美国人可以省下1000美元。

虽然大数据在科学家、企业家和政府眼里看起来充满希望，但如果忽略了一些我们以前所熟知的统计学中的教训，大数据可能注定会让我们失望。

Spiegelhalter教授曾说到：“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失，它们只会更加突出。”

在那篇关于谷歌流感趋势预测的文章发表4年以后，新的一期《自然杂志消息》报道了一则坏消息：在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天，在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了，谷歌的模型显示这一次的流感爆发非常严重，然而疾控中心在慢慢汇总各地数据以后，发现谷歌的预测结果比实际情况要夸大了几乎一倍。

问题的根源在于谷歌不知道（一开始也没法知道）搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的，或许根本不可能。而发现两件事物之间的相关性则要简单和快速的多。就像Viktor Mayer-Sch nberger 和 Kenneth Cukier 在《大数据》这本书中形容的那样：“因果关系不能被忽略，然而曾作为所有结论出发点的它已经被请下宝座了。”

这种不需要任何理论的纯粹的相关性分析方法，其结果难免是脆弱的。如果你不知道相关性背后的原因，你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是，2012年12月份的媒体上充斥着各种关于流感的骇人故事，看到这些报道之后，即使是健康的人也会跑到互联网上搜索相关的词汇。还有另外一种解释，就是谷歌自己的搜索算法，在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。这就好像在足球比赛里挪动了门柱一样，球飞进了错误的大门。

谷歌将使用新的数据再次校准流感趋势这个产品，重新来过。这当然是正确的做法。能够有更多的机会让我们简捷的采集和处理大规模的数据，这当然有一百个理由让人兴奋。然而我们必须从上述例子中汲取足够的教训，才能避免重蹈覆辙。

统计学家们过去花了200多年，总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了，更新更快了，采集的成本也更低了。但我们不能掩耳盗铃，假装这些陷阱都已经被填平了，事实上它们还在那里。

在1936年，民主党人Alfred Landon与当时的总统Franklin Delano Roosevelt（富兰克林.罗斯福——译者注）竞选下届总统。《读者文摘》这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法，调查人员雄心勃勃，计划寄出1000万份调查问卷，覆盖四分之一的选民。可以预见，洪水般寄回的邮件将超乎想象，然而《文摘》似乎还乐在其中。8月下旬的时候他们写到：“从下周起，1000万张问卷的第一批回执将会到达，这将是后续邮件洪峰的开始。所有这些表格都会被检查三次，核对，交叉存档五份，然后汇总。”

最终《文摘》在两个多月里收到了惊人的240万份回执，在统计计算完成以后，杂志社宣布Landon将会以55比41的优势击败Roosevelt赢得大选，另外4%的选民则会投给第三候选人。

然而真实选举结果与之大相径庭：Roosevelt以61比37的压倒性优势获胜。让《读者文摘》更没面子的是，观点调查的先创人George Gallup通过一场规模小的多的问卷，得出了准确得多的预测结果。Gallup预计Roosevelt将稳操胜券。显然，Gallup先生有他独到的办法。而从数据的角度来看，规模并不能决定一切。

[1] [2] [3] [4] [5]

来源：凤凰科技

·从“大数据”中淘金很酷，但方法还很盲目

·十花汤百度达成战略合作开启功能饮品大数据营销新时代

·百度糯米吃货节将至大数据成角逐O2O利器

·Vicor为大数据时代创新配电方案

·大数据市场竞争如何激烈企业如何抢占制高点

·武汉：到2018年大数据产值达2000亿元

·大数据环境下的综合布线技术探析

·分享大数据最佳落地实践助力企业数据驱动型转型

·英特尔携手Cloudera 借力Hadoop领航大数据

·英特尔架构让大数据效率提升90%

文章评论

昵称：验证码：

原创
72小时排行
猜你喜欢

1		中国移动4G资费降门槛流量分享成标配

2		工信部:2014将新建TD-LTE基站30万用户增3000万

3		工信部：我国公共云服务市场仍产业初期阶段

4		中国虚拟运营商发展记录四：170号码拨通+品牌..

5		国美极信推“合尚家”三品牌实体店将大幅推广

6		软件定义成传统数据中心转型趋势

关注通信世界网

官方微信

	“cww-weixin”(或扫描下图二维码)，即可于获得独家的CWW视点分析、最新的通信资讯。

专家观点

	邬贺铨：频率紧张限..
	“中国移动说今年要建20万个基站，到时就超过其他国家4G基站总和。但是..

邬贺铨：SDN存有扩展安全漏洞的风险

邬贺铨：频率紧张限制了4G发展

最新专题

建立安全准入机制应对全球网络安全挑战

首届中国虚拟运营商发展论坛将于517电信日召开

聚焦大数据采集与分析

第六届中国移动支付产业论坛

通信百科
HDMI接口乐视超级电视多芯光纤保偏光纤千兆无源光网络硬判决室分入侵专用控制信道平坦衰落选择性衰落 Slow Fading BD_ADDR Iu-BC 菲涅耳区 “383”改革方案——电信业十八届三中全会“383”改革方案 TOSA ONT 光器件光模块全波光纤 MBGP 逻辑强隔离 HOMEPLUG AV MU-MIMO 3GDT dislam 透传 NAV IPRAN wps LTE-Advanced

方案精选
热门技术

	华为IDC/ISP信息安全管理..
	IDC需要加强信息安全管理互联网接入服务管理是互联网管理的重要组成部分..

华为在3W咖啡部署国内首个商用802.11ac Wi-Fi..

聚变融合–华三发布融合数据中心解决方案

人民邮电出版社
工业和信息化部
人民邮电出版社图书专营店
中国通信企业协会
中国通信学会
中国互联网协会
无线电频谱管理中心
工业和信息化部电信研究院

中国通信标准化协会
中国移动通信联合会
中国邮电器材公司
中国电信
中国移动
中国联通
中国信息协会信息服务网络委员会
爱购服务器之家

新浪科技
搜狐IT
腾讯科技
凤凰网科技
人民网无线频道
中国通信网
移动Labs
中华电子网
通信产业网
企业网

In-Stat
IT价值联盟
中国软件资讯网
通信人才网
慧聪通信网
CTI论坛
CIO选型网
CTO技术网
美通社
赛立信竞争情报网

CRS通信学社
ZDNet至顶网
和讯科技
博趣·兴趣门户
呼叫中心频道
运营与增值
信天下企业短信
新电子
OFweek光通讯网
中云网