中国联通:基于电信大数据、带动公共创新的实践与再思考

责任编辑:孟月 2017.06.15 11:06 来源:通信世界全媒体

通信世界网消息(CWW)以 “数据为擎 融合共赢” 为主题的第2届中国信息通信大数据大会于今日隆重召开。在会上,中国联通研究院大数据研究中心主任魏进武做了以“基于电信大数据、带动公共创新的实践与再思考”为主题的报告。

魏金武.jpg

以下为演讲实录:

各位领导、各位来宾,上午好,这是我第二次参加咱们信息通信的大会,当然这个大会也开了两届,那么在第一届大会上我提出来是说唱响的,说大数据怎么样构建这个开放的大数据?能共享的大数据?能够和业界来和合作,能不能把大数据平台变成一个公共的基础设施?能不能把面向公共去开放,能够让更多的大数据的有意愿的玩家能够在基于电信的数据做更多的工作,那么秉承着这两个想法,我们在这一年当中,也就是说咱们两届大会之间期间,一直都在把我们的平台像公共化在开放、在推进,那么在这一块里面,也遇到了好多技术上的问题、模式上的问题,因为在一个企业内部,向各个生产主体单元来开放和面向社会公共化的开放,面临压力是不一样的。

所以经过这一年的一些做法,我们把我们的一些实践的情况跟大家做一个汇报,也跟大家做一个分享,同时通过这一年当中我们也有一些体会,在今年的4月份,联通集团整个召开了一个面向六大板块的一个创新业务的研讨会,那么其中大数据是一个大的板块,在这个版块里面我们也把全球的运营商,也就是说通信行业里面大数据的发展情况进行了梳理,大概的话运营商的大数据基本上发展了这么几个阶段,一个就是数据整合阶段就练内功的阶段。

第二个就是通过内部的应用来做尝试大数据的应用阶段。第三个阶段就是推向外部的行业应用,也就是说赚钱。也就是咱们说的数据变现,那么现在全球的运营商基本上都在处于一个内外部应用并举的这么一个发展阶段了。那么其中内部应用这一块,重点可能有面向市场营销、精准营销,包括提升客户体验后端的网络优化,然后前端服务这一块,大致上有这么几种模式,一个就是数据服务,另外一个就是分析服务,还有一块就是平台服务,那么这三个从数据分析到平台,就是他的难度越来越大,但是同样的价值也越来越大。

这三种模式现在在不同的运营商当中都在开展,而且在国外的运营商和国内的运营商,横向来看,认为基本上技术上雷同技术架构大差不差,然后数据类型大差不差,服务模式大差不差,各种应用场景你有的我也有,基本上是这么一个情况。所以就是说在这讲各种应用的案例的没举是没有太大的含义的,但是这个大数据的发展真正的差异在哪?到了现在我们认为制约或者说决定每一个企业大数据的发展的好或赖?在市场上的占用的情况取决于你的规模化的生产组织、运营能力,而不是取决于技术,也不取决于说你的数据有多大的量,或者说你的技术多先进,那么能不能把这个企业里面各个单元的生产单元的,一个生产组织和调动能够规模化的组织起来,这可能是制约每一个企业未来这大数据产业市场上的一个关键。

第二个现在各个大会上都在讲大出来的前景,市场非常广阔。但是经过了这么多年以来,这么几年来大数据的热情,直到现在我们来看的话,基本上实际的市场的投资回报和实际的市场回报和预期的市场空间之间差异是很大的。那么这个原因可能有很多种,其中之一可能就是整个现在大数据还在沉睡,还没有唤醒,当然这个原因可能有好多,但是其中有一个原因可能是最根本的,就是我们的市场真正愿意为做,为了应用大数据而愿意付费的市场空间的刚需并不是那么大。

大家还是处于一个猎奇也好,探索也好,这样的目前更大。这是我们在应用态势的一个基本的判断,当然刚才讲李总也讲了,就是说讲大数据都爱讲生态圈,基本上包含这么几块数据产品服务,那么现在就是说为什么运营商有责任或者说有义务扛起来大数据把大数据变成一个公共基础设施、公共创新环境的这么一个大旗,因为运营商在制约大数据的这三个关键要素里面能够做到全覆盖,所以的话运营商最有希望能把自己的开放生态做好,能够变成国家层面上的一个基础的公共创新平台,就像我们的网络一样,所以就是说运营商在这个大数据生态圈里面,我们期望是说把大数据也像固网以往一样,变成国家级的这么一个公共创新的基础设施,而不是应用层面上那么一个民主高高在上。

现在在这三个要素里面产品和服务,依然是这个产生价值的一个关键,但是这两个我刚才讲了,就是说实际的市场回报并没有那么预期的那么强。为什么?就是因为产品和应用还是中需要进一步的探索,实际的就是说基于数据加刚需的这种市场的需求。直接基于需求的这种驱动力还远远低于说由数据或者说是加需求的这种共同磨合出来的这种探索出来的刺激,出来的新需求更少。那么在这种情况下就更需要说要把这个大数据的能力面向公共来开放,然后给大家一个给整个全社会一个试错的环境,一个寻找探索的一个环境。

在这一方面,中国联通在这一块也充分认识到了,就是说只有合作和开放,才能够实现将来大数据规模化应用的一个主要的途径,那么这点上基本上在联通内部也形成这么两个开放的格局,一个就是构建面向公共开放的创新孵化平台,另外一个面向我们企业内部各个生产主体,包括我们的分公司、子公司开放的这么一个生产平台,那么这个生产平台,主要是开放给我们内部的生产单元来对外变现,对内运营。那么这个开放孵化平台主要是面向全社会来开放,给社会提供一个试错的平台探索的平台,同时也给我们提供一个就是说人才挖掘的环境,然后创新应用的孵化环境,那么基于这种情况,所以能够让这样的联动,也就是说在公共创新孵化平台上的已有的模型应用场景,能够引流到我们生产平台上去,变成可以对外运营服务的。

同时因为我们现在就是说实际上大家在做大数据应用的时候,都可能会遇上一个问题,所以我们在交流的时候说你这样的数据,我这样的数据,咱们一结合就能怎么样?结果说得很热闹,可是事实上落地的时候,两个都是数据,根本见不了面,为什么?回去跟老板一汇报,老板说我的数据也不能出门,他说它的数据也不能出门,结果说得很热闹,结果数据是见不了面的,这是为什么?是因为模糊性的决策是没法决策的。当把一个数据开放摆在决策的领导面前的时候,谁都不敢拍这个板,但是当我们把这个要出什么场景?需要有你的什么字段的数据和我的什么字段的结合的时候,把具体问题摆出来的时候是可以决策的,所以也就是说在这种情况下,在当前数据流通的法律边界很模糊的情况下,我认为公共创新孵化平台是推进,基于不同行业数据融合出来来产生新的应用的一种无奈之举,也是一种可行的办法。

基于这种情况下,联通去年也是对外勉勉强强实现了合同的收入的四个亿,也就是说是在实际的大数据的对外变现的运营,做了一下试水,那么实际上来说是抵不住我们后端大概将近4000个节点的服务器的电费的。但是是从这个数据的端到应用的端,这个流程是跑通了,也就是说尝试有了结果,也就是说把我们从大数据的核型圈、供给圈到增值圈这一套全流程是走通了,这是就是一个尝试。

所以在开放的过程当中我们就会发现,就是说在这个生态圈里面不同的主体上有些主体,说我只有一个待业的行业数据,但是我要做我的应用的时候可能需要其他行业的一点数聚,就刚才讲的这个问题,让不同行业的具体的字段行的数据能够减免。第二个说我有人才,但是我要啥没啥,还有一块说我有需求,我应用场景,但是我要数据没数据。我要IT资源,没IT资源,要人才没人才,然后有些说我有主意,大概这是目前在大数据各个生态圈里面的,有和缺的几个状态,所以在这种情况下可能更需要有一个能够面向公共开放的这么一个环境,然而有同层面情怀的人来在这个上面的人碰撞和探索,所以这就是我们去年两届大会期间做的工作,就推出了一个数极数据空间的这么一个公共的平台。

就是说我们是提供的是平台加数据加应用场景的三种开发模式,也就是说把我电信运营商的全网异构的全量样本数据都想社会能开放,当然是一定历史的数据一定历史时期的数据,让大家社会上的人能够看得懂运营商全网的不断分布在终端上的IT系统上的、网络上、网元上的数据都长什么样,有什么含义?那么希望通过这种方式能够提供一种全社会的众创众筹的这么一个环境,让这个不同层面上的人能够在应用上、模型上,然后知识库上能够贡献和完善,这是一个就是这个平台的一种能力,大概有八类几十种能力。

这是这个平台的特点,就是说在这个平台里面把底层的,然后中间的大数据能力的平台,然后后期面向运营的这种一个管理,然后还有这种服务的容器化调度都得平台上做的实现。另外一块,更重要的是就是这个平台要面向公共开放和面向企业内开放是不一样的,企业内开放,我可以通过行政的文件的要求来约束,而面向公共开放,其中之一个难题就是说把一切的数据加工,就要引擎化分装,我不可能说让他做数据加工都要登录到我的机器的操作系统上去,再来做这个加工,那这样的话就等于不是开放了,那是裸奔了。

第二个就是在这个架构里面,我们也在畅想,就是说两级的一个架构,后端通过提供各种大数据的平台的能力,大概就是几类的能力,四大类的能力在后端,那么前端也提供这么一个整个面向产品、面向应用孵化、面向应用场景接入的这么一个轻量级的平台,能够访问到后台重点的能力上去。那么相对来说我们也和目前几个公共的大数据平台做了一个比对,那么这几个平台从技术上讲那是很丰富的,但是从商业模式上来说运行的并不好,因为他的一个基本的商业模式说你有数据没地方处或者没工具来处理,你到我这来处理。

他们这个事情,其实来说,当我一个团队,当我一个企业有TB级PB级的出去的时候,那么真正我来说我建一个平台在平台的费用不止是什么东西,真是看说这样的数据对我这个企业收益有没有带来更高的提高,所以就是说我只提供一个平台的IT的价值是没有意义的,开展不起来的,所以我们这个平台上是基于平台能力的,也就是说平台的IT能力和运营商的的样本数据以及我们希望或者说我们希望社会力量参与的一些场景来开放出来,大家共同来参与,那么这是这个平台的一些技术要素,大概有这么几个特点。

其中之一就是说包括资源,包括安全的,就是我刚才讲的这个就是加工引擎的封装,另外一块在安全这一块也做了一个,就是说结果数据从后台重载能力平台输出,那么这个也是经过这一年的尝试,也大概就是孵化的内容也覆盖了这么多的行业和内容。我在想运营商的大数据发展到现在,我们基本上把我们的平台架构,把我们的部署环境看,基本上是以旁路式的这种大数据来做的。什么叫旁路式?

然后通过这边采集,出来在旁边一个大的数据平台,比如说联通是把31个省全网全站的数据全部集中在总部了,在旁边堆了一个大数据平台,3000多个节点,4000个节点,然后来做分析服务,可是这样的一些旁路式的大数据服务,这是当年的无奈之举,因为这种方案是三年以前四年以前定的,因为当时的技术只是分布式技术带动的。大数据在今天的时候我们再来看,面临着什么问题,就是说它只适合做群体性的风险而处理性的分析,一个很好的应用就是管理类的应用。也就是说他只是我们过去原来1.0,大数据1.0做BI的时候是管理类的,因为给我们企业老板看,但是现在我这个管理类应用可以给政府看了,他一个全国看了可以给交通部看。等等部委看,但是实际上来说,但是就是说这样的话就是离大数据的真正的变现,可能还有一定的距离,因为管理类的应用是运营商应该尽一定的责任。

怎么办?要让大数据发挥商业价值怎么办?必须要把这个旁路式的大数据逐步的平息掉,大数据有什么基础,那么要拼砌成什么样,也就是说要让数聚,真正的不管是数据的加工还是数据的分析结果,要真正的切入到正向的生产环节里面去提供所谓的即时服务,旁路只是说我们的模型训练少量的样本数据的训练要扔在旁路上去,然后旁路和煮肉实现这个有机的快速的联动,那么这就要求要在主路上要再旁路上都要双加速,那么原来那时候没有这个条件,但是现在技术发展了,尤其是计算历法量,大家看AlphaGo很热闹,AlphaGo真正现在能打败这个打败那个不是算法先进了,也不是说人工智能怎么发展,那算法60年以前就有,主要的是计算力提升,所以他能算得过来,那么同样也是这个基础,也是因为计算力现在提升了。

所以要改这种旁路的大数据,逐步变成主流的大数据,要把群体性分析逐步到个体性分析上去,这样才能让大数据发挥真正的商业价值,这是我一个方面。第二个方面大数据现在真正市场,因为大数据的市场带来的不过两个条件,一个面向下游的市场拓展,比如说我挖掘客户,另外一个面向下游的生产调度节约成本,无外乎就是给客户带来就这两方面的事,那么现在就是说我认为大数据市场方面愿意付钱的刚需还不太多,还处于尝试阶段,那么只有就是说我们的传统行业,通过互联网加这种方式是不断地升级之后形成这种大数据的预期,需求之后,真正愿意付费的这样的刚需才会上来。

现在也就处于大数据2.0时代,主要是以规模化分布式技术驱动的,包括思维的特征,然后技术上能实现了大量的pb级的、多少pb级的融合处理,然后也实现了面向单个用户的静态级的标签的维护和周期细化的更新这样的能力,但是下一步技术驱动的大数据会3.0去发展,我认为主要的特征可能是在智能化和自学习,然后包括刚才讲的AI的核心技术,就是这个机器学习深度学习,那么我们也做了一些尝试,积极学习在我们的存量流量经营,比如说我们的客户流失预警,然后我们的舆情、语义分析这样的一些尝试。

另外一块可能会实现多元素个体化领域化的一个自学习能力,实现这个云大雾的整个的一个整合,那么这时候我们再来看1.0DI,2.0就当前真正扛起这个大数据的,计算的大旗都是CPU,但是到三点零时代唐企大数据的计算的大旗会是GPU,那么这才是真正AlphaGo不断那么快速学习的一个根本的原因,因为那些算法真的60年以前就有不稀奇,那么另外单独的大数据可能无法规模化的发展。

包括刚才也讲了,就是说以这个人为主的消费要变成以物为主的消费或者以产业互联网信息化的这种消费为特征了,另外一个就是说是由原来单纯的网络能力开放变现,可能下一步就向多元化云大雾各种能力开放之后再变现,各种组合了,所以大家说的说场景都是通过这种能力来组合出来,因为物联网整个的产业链从上游的芯片制造、供给到下游的垂直行业、专属行业和通用行业的用户,它是链条很长,也就说互联网的整个产业链上下游就是大数据的本身的客户,同时积累出来也可以像当前的向第三方的客户来服务,这可能就是说云大物整合之后赚钱的点,也就是说能形成一个这么一个生态圈体系内嵌套式的这么一个商业模式,来做这个事情。让这个圈生态圈会做的更大。那么通过这一年尝试,我们享受到了开放合作带来的红利,也希望我们在座的各位都能够共同携起手来,把这个技术模型应用,能够共同把它做大做强做好,谢谢各位!


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容