首页 >> 通信技术 >> 云计算 >> 正文
 
大数据,为什么不是宣扬的那样精彩?
http://www.cww.net.cn   2013年7月29日 14:52    

“大数据”是时下流行的一个术语,是解决技术世界最难解的问题的一站式答案(目前已经变成三个X级别了)。这个词通常用来指分析大量信息数据的科学技术,以检测模型,收集意见并预测复杂问题的解决方法。听起来可能有点枯燥,但是大数据的作者们觉得从防恐到结束贫困再到拯救地球都不是什么大的事情。

“当大数据成为敦促全球性问题的解决办法之一时,带给社会带来巨大的益处,比如探气候变化,根除疾病,推进良好治理和促进经济发展。” Viktor Mayer-Sch?nberger 和Kenneth Cukier在名称很谦虚的《大数据:将改变我们生活、工作、思想的革命》一书中预示。

不管数据是来自iPhone手机,杂货店采购清单,网上交友记录,或是整个国家的匿名健康记录,只要信息量够大,运用我们的计算能力将数据解码,从中获得的结论将是不可计数的。即使奥巴马政府也很吃惊于这个新趋势,5月9日称企业家,研究员和公众“从前不能获取或管理的数据”现在成为了“开创性”的宝藏。

“我们推动个人创新和发现的一个举措就是让大量的美国数据有史以来第一次如果公开,易于获取。有才能的企业家们正在利用这些数据做的事情让人感到相当惊奇。”奥巴马总统说。

但是大数据的确是像宣传的这样神奇吗?我们能够相信这么多的个体和英雄将为我们照亮人类行为的隐秘世界吗?外交政策杂志邀请麻省理工学院公众媒体研究中心的Kate Crawford探讨数据背后的故事。——编辑。

“如果有足够的数据,数据将自证。”

完全没有可能。大数据的推动者们想要我们相信,大量的数据库和代码后,是人类行为模式的客观通用解释,比如消费,犯罪或恐怖行为,健康习惯,还有雇员生产率。但很多大数据的作者不去冷静地思考弱点。数据并不能自我证明,不管数据规模有多大,数据集仍是人类设计的产物。阿帕奇云计算软件框架等大数据工具并不能让人们的思维避免偏移、中断或出现错误假设。在大数据试图反应我们居住的社会的真实情况时,这些因素特别重要,然而我们经常被愚弄,认为计算结果比人类的的观念更客观。大数据与个体知觉和经验一样,有同样多的偏差和盲点。但有一个错误的看法,认为数据越大越好,关联性等于因果。

举例来说,大数据喜欢分析来自社会媒体的数据资源,而且其中必定有很多信息有待发掘。我们被告知,推特数据告诉我们人们离家较远时比较高兴,周四晚上最不高兴。但是有很多理由问一下这个数据真正要反映的是什么。首先,我们从皮尤研究中心知道只有16%的美国在线成年人使用推特,这个人数不能作为有代表性的样本——他们更多倾向于年轻人和城里人,而不是普通人群。其次,我们知道很多推特用户使用自动回复程序“bots”,还有虚假帐户或半人工帐户——使用“bots”和人工共同控制的帐。最新估计数据表明有2000万虚假帐户。因此,在我们进入推特感情评估这个方法的雷区前,先问问这些感情是人们自己的表达还是自动设置的。

但是,即使你确信推特上的大多数都是有血有肉的真人,也存在确认偏向的问题。比如,IBM使用社会信心指数大量分析了推特关于参赛选手的信息,预测2013年澳大利亚网球公开赛中谁将是社会媒体中“最积极的”选手。结果是维多利亚·阿扎伦卡列在第一。但推特上很多人批评阿扎伦卡使用医疗时间超时,引起争议。所以,推特们是喜欢她还是讨厌她?很难相信IBM的计算是正确的。

一旦解决了垃圾数据的问题,我们来考虑一下计算本身是如何偏移的,急急忙忙地划定范围,写程序,迎合需求。

[1]  [2]  [3]  
关注通信世界网微信“cww-weixin”,赢TD手机!
来源:国脉物联网   编 辑:王熙
分享到:
       收藏   打印  论坛   推荐给朋友
关键字搜索:大数据  
猜你还喜欢的内容
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案
企业黄页
会议活动