首页 >> 通信技术 >> 要闻 >> 正文
 
费埃哲首席执行官:数据生来就是不等价的
http://www.cww.net.cn   2012年7月2日 14:05    

几周前,当费埃哲(FICO)首席执行官William Lansing参加斯坦福大学有关大数据会议的时候,他发现,业界关于大数据的热烈讨论已经从三个“V”增加到四个“V”,即Volume(数据量)、Variety(数据类型)、Velocity(处理速度)以及Value(数据价值)。而第四个“V”正意味着业界开始关注数据洞察,强调如何获取大数据的价值。“挖潜数据价值正是FICO成立50余年来一直专注的事。我们的核心业务就是分析各种数据,并做出智能的决策。”Lansing表示,“FICO的市值也在近一年来连续攀升,如今已经达到15亿美元。”

1956年,斯坦福大学的几名数学专家创立了FICO,公司当时的愿景就是希望利用数据分析预测风险变量,从而帮助银行控制信用贷款的规模。如今,FICO的分析技术正保护着全球2/3的信用卡业务,仅在美国就帮助各类机构实现高达100亿美元的审批贷款决策,可见其数据分析与预测技术的功底。“对我们而言,大数据也是大机会。”Lansing近日来到中国,并与本报记者分享了他对大数据的观点。

数据分层的价值

的确,如今大数据是个热门话题,但关于大数据的讨论多数还是围绕基础架构层面展开,比如Hadoop等技术。这些讨论多集中在数据存储、数据处理以及实时管理等方面。Lansing透露,即使是在硅谷,很多新兴企业也都是专注在大数据基础架构领域,比如Cloudera,它能够为开源技术提供商业软件级别支持,在大数据领域,就如红帽支持Linux一样,Cloudera 也在支持 Hadoop,议题多围绕在开发技术如何让大数据更易于读取和存储。然而,围绕大数据分析的话题还远远不够。大家都在讨论如何存储、捕捉大数据,但却很少提及客户究竟可以用这些大数据做什么。

其实,无论哪种类型的企业最关心的就是价值,这意味着,企业需要找出大数据中最相关的变量,然后基于这些变量数据进行建模,并基于模型做出更好的决策。这正是FICO的专长:如果数据处理能力无限,我们能不能基于所有数据做出更好的决策?我们能够为这些额外增加的数据量花费多少资金和精力?这些额外的数据对决策是否重要?处理所有数据的投入产出比如何?这样做是否会影响决策速度甚至是准确度?

这一系列问题的核心就是,数据生来就是不等价的。这至少意味着三个关键点:一、总有一些数据是更重要的数据,应该首先去关注这些更重要的数据,并基于这些重要的数据去进行分析和预测;二、数据的重要性有一个顺序,一些数据是我们要优先采用的数据,一些可以作为分析预测的依据;三、与所有的数据源相同,大数据也难免掺杂着虚假的线索、噪音和干扰,这是数据清洗的问题。所以,我们必须要非常智能地来使用这些数据。

Lansing认为:“数据处理是有范围的,我们会关注某些数据的范围,基于这些数据的范围来做出决策,找出那些更为实用的数据。因此,今天我们还是需要更关注于那些有实用价值的数据,这样的数据更多的是结构化数据。”

举例来说,银行机构需要通过所有数据了解他们的客户。这些大数据可能包括很多非结构化的数据,比如文本数据、图像数据,甚至是Facebook上面的数据。如果有一个银行的客户经常喝醉酒,我们是否可以根据他醉酒的频率来进行预测并确定他的信用评分呢?显然,这些数据可能有一定的额外价值,但并非是最实用的数据,而且我们还需要考虑在这些额外的琐碎数据上花费如此多的精力是否值得。如今,无论是美国还是中国的银行机构,都更关注实用的数据,并且采用那些被经验认为具有预测性的数据去进行分析。这些数据可能不见得是大数据中的非结构性数据,但是银行认为它们具有良好的预测性,可以进行分析。

分析方式的改变

大数据时代另一个值得关注的“V”就是Velocity(处理速度),这意味着在大数据的处理方面,不能简单应用传统的数据挖掘技术,数据分析的方式正在发生改变。Lansing也认为,大数据时代同样重要的是速度和效率的提升,客户正从“分批决策”过渡到“即时决策”。

[1]  [2]  
来源:中国计算机报   作 者:陈翔编 辑:高娟    联系电话:010-67110006-853
分享到新浪微博 分享到搜狐微博 分享到腾讯微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到QQ空间 分享到豆瓣 分享到QQ书签       收藏   打印  论坛   推荐给朋友
关键字搜索:数据清洗  反欺诈系统  信用评分模型  Facebook  SaaS  
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案
企业黄页
会议活动