首页 >> 通信技术 >> 云计算 >> 正文
 
大数据正解:《大数据时代》带来了什么?
http://www.cww.net.cn   2013年9月17日 15:54    

3.不是因果关系,而是相关关系

这是很多人(包括作者)认为最有价值、最重大的发现,而实际上却也是最收到批评的一个观点。连译者周涛教授在序言里都表示看不下去了,他至于认为如果放弃对因果关系的分析,是人类的堕落。我不说这么高的哲学层面,只从逻辑和技术上讨论一下。

计算机能够提供给我们的结论(到目前为止以及在可见的未来),都是相关性。计算机从未提供过明确的因果关系给人类。是否因果关系,是人类在数据基础上,进行的人为判断。一直有相当多的应用,也是只考虑相关性,不考虑因果关系的:确定因果关系,是需要更大的精力、更多的投入的。所以只看相关性而不看因果性也不是什么新的结论(实际上已经是个很旧的结论了)。而这个相关性是不是可以作为决策的基础呢?这个一样离不开人的判断。有一个这样的故事:通过大量的数据分析,慈善组织得出结论:一个国家、地区的电视机的普及率与发达富裕程度很有关系(冰箱、洗衣机、空调、高跟鞋、牛仔裤,etc.,也会和发达程度有这样的相关性),于是他们就向贫困国家赠送了很多电视,认为此举可以促进该国的经济发展。你可以鬼扯电视的普及与经济文化的密切相关,但是实际上最终发现更可能是经济发展导致了电视的普及,而不是反过来。所以,我们真的不需要因果分析吗?说得玩笑一点:这个世界真的不需要脑子了吗?

作者举了一个例子:谷歌分析搜索关键字来确定哪里可能发生了流行病。认为这就是利用了相关性而不是因果性。这是没有利用因果判断吗?现在在投入巨大的机器资源进行分析之前,分析师已经预计了得病的症状可能会导致人们去网上进行相关搜索(影响了搜索行为)。谷歌存储的用户上网信息肯定远远不止一个搜索关键字,分析师为何不开足马力把“全量”数据、各个指标都分析一遍呢?比如用户上网地点?上网时间?上网频率?上网语言?浏览器版本?客户端操作系统?etc…为何会像导弹一样精确地将机器资源投放到了关键字上呢?

总之,对于这些原则,作者为了显出新意,说得过于绝对。而排除掉绝对的成分后,这些观点也就不显得是创新了。作者把三个数据分析人员一直秉持的原则,当做全新的东西讲了出来。时代在变化,我们或许应该经常重新审视这些原则,来确认自己的思想是不是僵化了、是不是过时了。我赞同作者重新审视这些看法,但是我觉得没必要讲得这么极端。

二、细节论据上可以探讨的地方

除了三个大原则不足以令人完全信服,在一些细节上,作者的引证也不是很严谨。

如第51页,对于拼写检查的算法的优化。作者提到,通过输入大量的数据,4种常见语法检查算法的准确率提高了很多,以此说明大数据发挥了作用。这确实是个很有启发性的例子,可以去做更深入的分析和研究,但是……仅仅4个例子,够得出很有力的结论吗?4个算法,作者没注意到这是一个非常小的样本吗?不能因为这是4个用了大数据的采样,就认为这是一个支持大数据的有力结论了吧。(顺便我很想问问他们:为什么不测试个几十上百的算法呢?是不是面对如此“大量”的计算,也只好折中选择了一个抽样的小样本呢?甚至连样本数量是否合格都顾不上了吗?)

三、这本书有什么用处?

对于这样的一本书,我不明白周涛教授在译序里为什么要建议大家(以后)每个版本都应该买一本。为什么要买?难道作者理清自己脑子的过程很值得我们关注吗?

译序里说:“作者渴求立言立说的野心”,但是我恐怕作者是达不到这个目标的。关于作者的简介为:“《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为‘大数据商业应用第一人’,…早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。”

总体感觉是作者有很多想法,见识过很多案例(这些案例都丰富地体现在书中了,也很有参考价值)。但并非是一个曾经和数据真正绞尽脑汁搏斗过的人(这是我瞎猜的,没有考证过他的经历。考据者请不要告诉他做过什么咨询案例,这离真正体会数据的折磨还很远。)。

[1]  [2]  [3]  
关注通信世界网微信“cww-weixin”,赢TD手机!
来源:CNbeta   编 辑:郄勇志
分享到:
       收藏   打印  论坛   推荐给朋友
关键字搜索:大数据  
猜你还喜欢的内容
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案

企业黄页
会议活动