大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会其他各个领域。早在1980年,阿尔文?托夫勒(Alvin Toffler,1980)在《第三次浪潮》一书中就预言大数据将成“第三次浪潮”。奥巴马政府将大数据定义为“未来的新石油”。凯文?凯利(Kevin Kelly,2014)认为所有的生意都是数据生意。2013年互联网金融将“大数据”推向了新的高度。金融的核心是风险控制,将风控与大数据结合、不断完善和优化风控制度和体系,对于互联网金融企业和传统金融企业而言都同等重要。
一.大数据风控发展迅速,但有效性不佳
在应用层面,金融行业利用大数据进行风控已经取得了一定的成效。使用大数据进行风控已成为美国等发达国家互联网金融企业的标准配置。
美国Zest Finance公司开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。
为网上商家提供金融信贷服务的公司Kabbage主要目标客户是ebay、Amazon、PayPal等电商,其通过获取这些企业网店店主的销售、信用记录、顾客流量、评论、商品价格和存货等信息,以及他们在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率水平。
中国互联网金融企业对于大数据风控的运用也如火如荼。
阿里推出了面向社会的信用服务体系芝麻信用,芝麻信用通过分析大量的网络交易及行为数据,对用户进行信用评估,这些信用评估可以帮助互联网金融企业对用户的还款意愿及还款能力做出结论,继而为用户提供相关的金融和经济服务。
腾讯的微众银行推出的“微粒贷”产品,其风控核心就是,通过社交大数据与央行征信等传统银行信用数据结合,运用社交圈、行为特征、交易、基本社会特征、人行征信5个维度对客户综合评级,运用大量的指标构建多重模型,以快速识别客户的信用风险。
对于大数据风控的理论研究尚处于萌芽阶段,本文以“大数据风控”为主题在CNKI数据库进行搜索,与此相关的文献数量可以从侧面反映大数据风控的理论研究现状。
CNKI数据库中以“大数据风控”为主题的文献共46篇。在这些文献中,以报道性的文章较多,重要报纸全文库和特色期刊总共为33篇,占比72%;而理论研究的文章较少,中国学术期刊总库为12篇,占比26%;尚没有CSSCI2014—2015年的来源期刊(如图1)。
图1 CNKI数据库与大数据相关的文献数量和分类
虽然大数据风控在实践上已经有所进展,但是其有效性也受到一些挑战。
例如,以大数据风控为基石的P2P平台就频频暴露出各种各样的问题来。对于P2P平台来说,由于其纯线上操作的特点,大数据风控的有效性是决定其经营状况的重要因素,如果大数据风控有效性较差,则面临的坏账压力较大,容易出现提现困难甚至跑路的问题。
网贷之家的数据显示,2015年上半年新增问题平台419家,是2014年同期的7.5倍,已超过2014年全年问题平台数量。截至2015年10月底,全国问题平台数累积已达1115家。
二.当前大数据风控有效性不足的原因分析
一些学者对于大数据风控的有效性问题进行了研究。
王强(2015)指出当前个人大数据征信的问题,一是数据的真实性,二是数据收集的法律障碍,三是坏账的不可预测性问题。
甚至有作者认为大数据风控是无效的,陈宇(2015)援引各种证据认为大数据风控是无效的。
总体而言,当前大数据风控有效性欠佳的原因主要有以下几个方面:
(一)数据的质量问题
当前大数据风控的有效性欠佳,其首要原因就是数据的真实性不高,包括社交数据和交易数据两个方面。
1.社交数据的真实性问题
美国lending club和facebook合作获取社交数据,在中国宜信也曾大费周折的收集借款人的社交数据,最后两者得出的结论都是社交数据根本就不能用。美国很多大数据征信公司的信息错误率高达50%,垃圾进、垃圾出。
2.交易数据的真实性问题。
当前许多电商平台的刷单现象非常严重,这将导致交易数据的严重失真。随着网购的火爆,有关电商平台“刷单”的报道屡见报端。
电商“刷单”有两种方式,一种是商家找所谓的消费者进行“刷单”。卖家买快递单号,其收件人和寄件人与实际的买家、卖家不一致。
另一种是快递公司发空包,但快递公司并未完成配送,而帮助商家完成平台上的物流信息。
(二)大数据风控的理论有效性问题
从IT技术层面论证大数据风控的实践性案例已经很多,但是在经济金融的理论层面,大数据风控还面临一些问题需要解决。
1.金融信用与社会信用的相关性不确定
目前大数据主要来源于互联网,而人们在网络中的表现并不能完全反映其真实的一面。相同的人群在不同场合呈现的特征是不一样的,尤其是目前人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。
例如有些人不善交际,却将自己做的美食展示在微博上,吸引大量关注,粉丝暴增。因此网络并不能确切地证明某人的社交圈子,也就是说互联网的数据很难还原用户现实中的信息。
2.大数据对于“黑天鹅”事件的滞后性
在现实世界,总会出现不可预测的“黑天鹅”事件,一旦出现则有可能冲击大数据风控模型的基本假设,进而影响大数据风控的有效性。大到美国的次贷危机,小到个人意外事件的发生,在某种程度上大数据风控是无法预测的,但这些事件的发生,对宏观经济和微观主体都会产生重大的影响。
例如,2008年美国次贷危机后产生了一种“策略性违约”行为——贷款主体本身有能力还款,但是其在房价远低于贷款总额的时候,重新购买一套房子,并对之前的房贷断供,贷款者可以此方法进行“套利”。
虽然此类违约者会因此有不良信用记录,但是这对信用报告的影响有限,因为其他的债务按期偿还。而大数据对这种突变事件的预测能力则非常有限。
(三)大数据收集和使用的制度问题
在数据收集和使用的过程中也面临着合法使用的问题。如何高效、适度地开发和使用大数据,不仅仅是一个技术问题,也是一个社会问题,这些泄露的数据大量流入数据黑市,造成了用户安全、企业安全甚至国家安全方面的连锁反应。数据的收集和使用在很多时候都没有征得数据生产主体的同意,这导致了数据的滥用和隐私的泄露。
近年来,个人数据泄露事件频频发生,因个人数据泄露而造成损失的新闻屡见报端。猎豹移动安全实验室发布的《2015年上半年移动安全报告》显示,截至2015年上半年,猎豹共监测到496起数据泄露事件,影响超过544万人。2015年10月19日,乌云网发布消息称,网易的用户数据库疑似泄露。
图2 2005-2014年国内外数据泄密情况
资料来源:上海汉均信息技术有限公司《2005—2014年全球泄密事件分析报告》
数据安全问题也将越来越多的企业推向风口浪尖。
上海汉均信息技术有限公司发布的《2005—2014年全球泄密事件分析报告》显示,10年间,全球泄密事件中,我国泄密事件数量占比为58.5%,其中高频发地域主要是东部沿海经济较发达、产业格局以高技术含量为主的一二线城市(如图2)。
Verizon发布《2015年数据泄露调查报告》,报告覆盖95个国家,其中有61个报告了问题,涉及79790个安全事件(Security Incident),超过2000个(2122个)确认数据泄露(Data Breach)。
三.提高大数据风控有效性的路径
尽管大数据风控的有效运用尚处在诸多障碍,但这并不能成为大数据风控无效的理由。因为对于数据这个资源的挖掘尚处于初级阶段,在消除障碍、解决问题中前行,是大数据风控发展的必然趋势。有效扫除当前大数据风控的障碍需要各方面的共同努力,其中金融企业、金融研究部门和政府监管部门的角色尤为重要。
对于金融企业而言,要从基础数据上保证客户数据的多样化、连续性和实时性,确保数据真实可靠。
对于金融研究者而言,可从经济学、数学等多个角度综合论证大数据风控的有效性,为大数据风控提供理论支持。
对于政府监管部门而言,需要从法律制度、会计制度等方面进行建设,构建数据合理运用的良好环境体系。
(一)对于金融企业而言,要构建多样化、连续性和实时性的基础数据
1.多维度的收集数据,互联互通,打破数据的孤岛
美国征信系统的完善是因为美国政府对其拥有的大数据资源的开放程度日益透明化。
目前我国的大数据风控系统还没有实现互通互联,阿里、银联、平安、腾讯以及众多的P2P公司,都是各自为政,P2P公司拿不到央行的数据,几家大的互联网平台在相关大数据的分享上彼此也未互通有无。
因而,各金融企业要建立互联互通机制,打破数据孤岛,从而能多维度地收集数据,确保数据之间能够相互验证。
2.从供应链交易环节获取数据
获取真实数据最好的途径就是要切入客户的交易环节,尤其是稳定可持续的交易环节,即供应链。
一方面,经过了几十年的发展,当前的供应链都有一套完整上下游进入和退出机制,数据的真实性对于核心企业而言至关重要,因而这些数据的质量非常优异。
另一方面,这些数据和数据维度对于供应链中的企业评价是可靠的,金融企业可以此为基础,加上自身的风险控制经验,构建一套全新的基于数据的信用评价机制。
3.积极布局“物联网+”
物联网覆盖了产品生产、交易和使用的环节,因而互联网只是物联网的一部分。在物联网下,不仅要获取交易环节的数据,更重要的是获取生产环节和使用环节的数据。
因而,金融企业要积极布局“物联网+”,为获取更为全面的数据打下基础。例如,企业机器运行数据,可以收集客户汽车驾驶数据,可穿戴设备的身体状况数据,等等。这些数据都是大数据风控不可或缺的部分。
(二)对于金融研究部门而言,可从经济、金融等多个角度综合论证大数据风控的有效性,为大数据风控提供理论支持
当前对于大数据风控模型的构建大多是从技术的角度探讨的。但是,从经济、金融角度进行的探讨亟待加强,不同的经济假设会使模型推导的结果产生截然不同的变化。因而,从经济、金融等角度对大数据风控有效性的研究就显得很有必要了。比如大数据风控如何顺应经济周期的变化,如何从统计上论证过去的数据对于未来行为判断的准确性,如何解决道德风险所带来的不确定性。例如,唐时达(2015)提出要把数据提升至与传统抵质押品同等重要的高度,建立“数据质押”风控体系。
(三)对于政府监管部门而言,要推动和完善与数据相关的制度建
1.法律制度的建设,对数据的收集和使用予以法律上的保护
我国对于数据保护的制度性举措散见于多部法律中,如宪法、刑法、侵权责任法等,多是以保护个人隐私、通信秘密等形式出现,尚缺乏一部数据保护的专门性法律。这导致了数据的法律边界不明,数据保护法律的操作性不强、数据保护执法机制滞后等问题,制约了数据收集和运用的发展。
对此,最理想的状况是出台一部《信息保护法》。在完善个人信息保护法律制度的道路上,应出台《个人信息保护法》,明确国家机关、商家和其他法人、自然人掌握个人信息的边界和使用的范围[6-7]。齐爱民、盘佳(2015)认为要构建数据主权和数据权法律制度[8]。2014年最高人民法院颁布的《关于审理侵害信息网络传播权民事纠纷案适用法律若干问题的规定》(以下简称《规定》)就是此领域的进展之一,《规定》首次明确了个人信息保护的范围。
2.会计制度建设,对数据资产予以明确的计量
随着数据重要性的提升,数据列入企业资产负债表只是时间问题,数据将和土地、劳动力和资本一样,成为一种生产要素(Viktor Mayer-Sch?nberger,2013)。越来越多的理论界和实务界的研究者都倾向于认为数据将成为个体的财产和资产。
2012年达沃斯世界经济论坛发布的《大数据,大影响》报告认为,数据已经成为一种新的经济资产类别。
姜建清在2014达沃斯世界经济论坛上发表观点,其认为个体的数据其实就是个体财产的一部分,没有经过本人同意不应该被滥用。
因此,需要建立相应的会计制度对于数据价值进行科学有效的评估。有学者对此进行了初步研究。例如,刘玉(2014)从会计的角度对数据的资产可行性进行了分析,探讨了数据资产的计量方法,研究了大数据资产的折旧、披露等问题。
文丨巴曙松;侯畅(东北大学工商管理学院);唐时达(北京大学光华管理学院博士后流动站)
参考文献:
[1]王强“.垃圾进垃圾出”:大数据征信的难题[EB/OL].财新网,2015-04-23.
[2]陈宇.风吹江南之互联网金融[M].上海:东方出版中心,2014,(6):234-240.
[3]梁宵.企业数据安全“乌云”密布:难以估量的“未来”危机[N].中国经营报,2015-11-01(6).
[4]本报记者朱剑红.打破信用信息“孤岛”(政策解读)[N].人民日报,2015-06-26(2).
[5]唐时达,李智华,李晓宏.供应链金融新趋势[J].中国金融,2015,(10):40-41.
[6]叶文辉.大数据征信机构的运作模式及监管对策——以阿里巴巴芝麻信用为例[J].国际金融,2015,(8):18-22.
[7]本报见习记者韩天琪.个人信息保护圈如何划[N].中国科学报,2014-11-02(5).
[8]齐爱民,盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报(哲学社会科学版),2015,(1):64-70.
[9]刘玉.浅论大数据资产的确认与计量[J].商业会计,2014,(18):3-4.