关于大数据,你想问又不敢问的都在这儿了
Jane McConnell
2016/1/28 17:12:54

前几天我因为社交网站得以和一个老朋友重新取得联系,星期天时他从费城赶到挪威来,就为了约我给他解答一个问题,我想这个问题对他来说一定很重要。他问:“Jane,你说你是做大数据分析的,那大数据到底是什么呢?”

他是一个IT人,了解关于电脑的大部分知识,但是因为有太多人在尝试定义大数据的概念,以致于很多人都彻底地被弄晕了。

我朋友并不是唯一一个被弄混的人。根据最新的Garter大数据产业网络播报,整整有15%的受访者仍然把“了解大数据是什么”视作他们的前三大挑战之一。

而最让我感兴趣的一个数据是,在那些已经投资大数据项目的公司中,仍有9%的受访者在理解大数据这个问题上还有困难。他们投资的到底是什么呢?皇帝的新衣吗?

关于大数据,你想问又不敢问的都在这儿了

考虑到各位的困难,我写下这篇假设的问答,试着解答各位关于大数据的那些想问又不敢问的问题:

Q:大数据只代表那些量很大的数据吗?

A: 虽然从名字上看是这样,但是实际上我们用“大数据”来形容因为某种原因无法适应传统数据库软件工具的数据,而这些软件工具在过去的数十年间一直被用于分析和商业智能。举个例子,大数据也许无法完全适应关系型数据库(例如图像的像素数据),或者需要经过特别的处理才能和其他数据共同使用(例如从机器设备获得的时间序列数据)。

Q: 我们在油气行业不是一直都在用大数据吗?

A: 是的!地震探测和历史学家储存的传感器数据就是两个很好的例子。早期,由于这些数据量很大而难以处理,在典型的数据库工具中表现并不出色,所以我们就将它限制在了预定义的工作流和应用单元当中。结果是我们不知不觉地限制了自己寻求关键业务问题的准确答案的能力。现在的大数据运动都是为了实现以全新的方式去应用这些棘手的、对运营提出了挑战的数据,从而获取更多问题的答案。

Q: 当前的大数据运动究竟在做什么呢?

A: 都是为了实现所有数据的自由支配——不管它是图像、视频、音频、自然语言文本、机器可读文本、传感器数据还是平常的数据库中的老式关系型数据,不管数据量是兆字节还是兆兆字节,不管信息来源是实时的快照还是不断流入的数据流。

Q: 但是要怎么实现呢?关键是这些数据很难管理啊

A: 相比“传统的”数据而言,我们可以采取各种不同的IT解决方案来管理并查询这些数据。我们可以从Yahoo、Google、eBay等互联网企业身上学到很多,他们都是新型工具和技术的领导者。他们每天用到的数据和油气行业一直以来卖力管理的数据非常相似。

他们每天都要检查兆兆字节的网络服务器日志,加深对客户交互的理解;还对社交媒体内容应用了自然语言处理和情感倾向分析;物联网的发展带入了更多FitBit 和苹果智能手表这样的“可穿戴设备”,所以传感器数据也是他们的重点关注之一。

Q: 我们为什么要做大数据?

A: 为什么不呢?我们都知道,油气行业的风险非常高,因为一次油气开采的花费可以高达70亿美元,所以必须根据数据进行商业决策,不能凭直觉拍脑袋。

在交通运输行业中,传感器数据(一种大数据的来源)可以检测引擎行为,并且可以结合引擎性能和引擎或车辆的主数据,例如修理历史、服务和利用历史等数据(在大数据出现之前他们拥有的所有数据来源),方便运营商准确预测引擎故障的时间。对于火车、航空、快递公司而言,这意味着他们可以组织故障车辆进行预防性维护,而不是坐以待毙,让车辆在路上发生故障,使旅客、运货发生滞留。

套用到生产作业中,如果我们可以很好地结合传感器数据与维修记录、地下地质、表面状况(如天气)等信息,就能够改善技术维护计划、物流和供应链,显著降低成本并避免非计划内的关井停产。

在我看来这绝对是一个好的商业决策。

分享到: