日报:硬件和软件方面的提升在大数据的发展过程中分别扮演了怎样的角色?
涂子沛:硬件扮演的角色就是提供物理基础,这可以用摩尔定律来解释,它很大程度上降低了数据的保存成本。例如,1TB的容量足以把整个图书馆的内容保存下来,现在1TB的硬盘大约售价为45美元,也就是说花300元左右就能把整个图书馆拷贝存储下来。而这个价格还在持续下降,未来20年内或许用一杯咖啡的钱就能买到。所以说硬件的发展提供了大数据应用的基础。
而软件则是执行计算的工具。使用数据的唯一方法就是计算,数据的价值是通过软件来体现的。对大数据而言,硬件方面是容量的尺度,而软件则是价值尺度,大数据最后还是要落到这一价值上。另外,因为大量数据的存在,软件本身的功能也会得到大量改善。例如建模,数据多的情况下就可以建一个更好的模型。软件以挖掘数据、使数据产生价值为使命,而大数据的出现反过来促进了软件功能的提高。
日报:在数据的分析和使用中出现了哪些新兴的工具?
涂子沛:主要是数据挖掘和机器学习,它们之间也存在很大差别。
数据挖掘就是建一个固定的模型去分析数据,但机器学习的模型却是灵活可变的。也就是说,数据越多,机器学习的模型就能自我调适让它更加精确。
举个例子,现在图形挖掘中的一大难点就是人脸识别。如果按照数据挖掘的方式来做,可以通过人脸的特点把模型建立起来。但如果是机器学习,一开始只是建一个初步的模型,建好之后再拿成千上万的脸部图给这个机器,它就会自己去判别每一张脸的特点,然后改善模型。原来在数据挖掘的固定模型之下,判别的失误率很高,而机器见的脸越多,它的识别率就越高,判断就越准确。
数据挖掘是一个固定的模式,不会轻易改变。但机器却可以在识别和处理人脸越来越多的基础之上调整各种参数,让自己的模型越来越准确,所以称之为“机器学习”。在这种情况下,机器和人一样获得了智能,甚至能产生判别。
大数据最重要的意义一个是整合,另一个是自动化。通过大量数据的整合,人们能发现以前所不能发现的知识,于是产生了价值。第二,可以通过大数据让机器获得智能,实现自动化,这也是人类使用数据的巅峰状态。
新模式
日报:大数据怎样改变了传统行业的商业模式?
涂子沛:这次回国我参观了通联数据这家公司,这是一家新兴的创业公司,他们要用大数据开发新一代的基金管理和交易的平台,具体做法是收集大量的、多源的、实时的数据,为基金经理和投资者提供数据分析、查询和判断。通联数据也在思考探讨如何用大数据去衡量小微企业的信用,或许这能开创一个新的商业模式。
另外,浙江的银江电子股份公司也在思考如何利用大数据技术来帮助浙江省政府解决医疗保险中的欺诈行为。这样的创新依赖于医疗领域丰富的数据。教育领域也有非常多的数据可以用,比如高考数据要是开放出来让民间去挖掘,一定能得出大量有助于考生填报志愿、优化录取过程的结论。
除此之外,公共领域也有一些新的应用,政府也在尝试破冰。例如,广东省正在用大数据来抓假车牌,我从广东省的经信委得知,仅2013年就抓了50多辆套牌车。
这种基于大数据的竞争是一种精细化竞争的要求和表现。但总体而言,国内的商业竞争还是比较粗放,很多决策也都是拍脑袋。所以在《数据之巅》里面我提出,数据是从“中国制造”到“中国创造”的抓手,也决定着商业形态从粗放向精细化转型。
日报:数据使用方面出现了哪些新的商业模式?
涂子沛:数据的使用要兼顾个人的隐私保护,目前已经出现了一种全新的商业模式:用户授权使用。
|