首页 >> 通信技术 >> 大数据 >> 正文
从“大数据”中淘金很酷,但方法还很盲目
通信世界网 http://www.cww.net.cn 2014年5月15日 08:12
标签:大数据
 

毫无疑问,更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值。也确实已经出现了一些大数据分析的成功实例。剑桥的David Spiegelhalter提到了谷歌翻译,这款产品统计分析了人类已经翻译过的无数文档,并在其中寻找出可以自己复制的模式。谷歌翻译是计算机学家们所谓的“机器学习”的一个应用,机器学习可以在没有预先设定编程逻辑的条件下计算出惊人的结果。谷歌翻译是目前所知的最为接近"无需理论模型、纯数据驱动的算法黑盒子”这一目标的产品。用Spiegelhalter的话来说,它是“一个令人惊讶的成就”。这一成就来自于对海量数据的聪明的处理。

然而大数据并没有解决统计学家和科学家们数百年来所致力的一些难题:对因果关系的理解,对未来的推演,以及如何对一个系统进行干预和优化。

伦敦皇家学院的David Hand教授讲过一句话,“现在我们有了一些新的数据来源,但是没有人想要数据,人们要的是答案”。

要使用大数据来得到这样的答案,还需要在统计学的方法上取得大量长足的进展。

UCL的Patrick Wolfe说,“大数据就好像是蛮荒的美国西部。那些头脑灵活野心勃勃的人会想尽办法利用一切可能的工具,从这些数据中淘出点值钱的东西来,这很酷。但目前我们做的还有些盲目。”

统计学家们正争先恐后的为大数据开发新的工具。这些新的工具当然很重要,但它们只有在吸取而不是遗忘过去统计学精髓的基础上才能成功。

最后,我们再回头来看看大数据的四个基础信条。其一,如果简单的忽略掉那些反面的数据,比如Target的怀孕预测算法,那么我们很容易就会过高的估计算法的精确度。其二,如果我们在一个固定不变的环境里做预测,你可以认为因果关系不再重要。而当我们处在一个变化的世界中(例如流感趋势预测所遇到的那样),或者是我们自己就想要改变这个环境,这种想法就很危险了。其三,“N=所有”,以及采样偏差无关紧要,这些前提在绝大多数的实际情况下都是不成立的。最后,当数据里的假像远远超过真相的时候,还持有“数据足够大的时候,就可以自己说出结论了”这种观点就显得过于天真了。

大数据已经到来,但它并没有带来新的真理。现在的挑战是要吸取统计学中老的教训,在比以前大得多的数据规模下去解决新的问题、获取新的答案。

作者简介:信海光,资深媒体人,微信公众号《信海光微天下》

栏目介绍:《大声谈》是凤凰科技倾力打造的开放性评论专栏,力求汇聚各方精彩观点和思想,为读者提供有营养的内容,为产业提供健康向上的积极声音、以及有见地的意见和建议。投稿请发kj_tg@ifeng.com

免责声明:本文观点仅代表作者观点,与凤凰科技无关通信世界网

[1]  [2]  [3]  [4]  [5]  
 

来源:凤凰科技
相关文章
 
文章评论
 
    昵称:  验证码:
 
关注通信世界网
 
 
官方微信
“cww-weixin”(或扫描下图二维码),即可于获得独家的CWW视点分析、最新的通信资讯。
 
 
专家观点
邬贺铨:频率紧张限..
“中国移动说今年要建20万个基站,到时就超过其他国家4G基站总和。但是..
 
 
最新专题
  • 1

  • 1

  • 1

  • 1

通信百科
 
华为IDC/ISP信息安全管理..
IDC需要加强信息安全管理互联网接入服务管理是互联网管理的重要组成部分..
 
 
 
新浪微博 腾讯微博 微信 rss
人民邮电出版社
工业和信息化部
人民邮电出版社图书专营店
中国通信企业协会
中国通信学会
中国互联网协会
无线电频谱管理中心
工业和信息化部电信研究院
中国通信标准化协会
中国移动通信联合会
中国邮电器材公司
中国电信
中国移动
中国联通
中国信息协会信息服务网络委员会
爱购服务器之家
新浪科技
搜狐IT
腾讯科技
凤凰网科技
人民网无线频道
中国通信网
移动Labs
中华电子网
通信产业网
企业网
In-Stat
IT价值联盟
中国软件资讯网
通信人才网
慧聪通信网
CTI论坛
CIO选型网
CTO技术网
美通社
赛立信竞争情报网
CRS通信学社
ZDNet至顶网
和讯科技
博趣·兴趣门户
呼叫中心频道
运营与增值
信天下企业短信
新电子
OFweek光通讯网
中云网