首页 >> >> 滚动 >> 正文
移动汤人杰:建设分布式的数据挖掘平台
通信世界网
作者:       2016年4月20日 15:39
移动 大数据

通信世界网消息(CWW) 移动汤人杰:建设分布式的数据挖掘平台

2016年4月20日,“中国信息通信大数据大会”于北京召开。在本次大会上,工业和信息化部通信发展司司长闻库、中国通信信息化部副总经理兼CTO范济安、中国电信云计算中心主任赵慧玲等嘉宾出席了本次大会。

以下是中国移动浙江分公司资深架构师汤人杰演讲实录:

浙江移动 汤人杰

浙江公司以前有信息技术部和网管中心两大部分,分别建了若干个大数据平台,每个部门都建了若干个,基本每个应用一个。建了无数多的平台,这里就存在一个很大的问题,数据冗余,

我们可以想象一下光我们我们以往的数据一天有100G,固网数据有600多T,地域数据也很多,表接口有几千张,我们反复抽取四五遍,会带来质量不高,数据标准化程度也会很低,这样反过来制约了应用的创新。因此,我们需要借助云计算,借助PAAS技术,把所有的大数据平台整合成一个具备多租户能力的PAAS平台。

数据的汇聚,我们要从传统的以结构化数据为主转向多结构化。如果真的没有结构的话,任何东西都识别不出来,就算文本也是有结构的,如何从标准的二维表结构展现多种结构的识别,数据的抽取,这是我们在技术构建上要考虑的问题。

另外一块,比如UL,我们如何通过UL最后来获取到用户的行为偏好呢?这里涉及到很复杂的技术,比如通过某种分类的算法,了解这篇文章到底是什么样的语义,包括有些字段语言的识别。另外这只是我们讲的数据的抽取技术,或者数据的趴取技术。数据获取到了怎么去处理?我们数据的处理,运营商大多采用的技术是小型机加存储的方式。你没有很好的横向拓展,因为机器达到顶配了,速度也不够快。解决方案是什么呢?很简单,就一句话,分布式,就是云。要讲到分布式,我们必须讲CAP理论,在CAP理论里面,我们认为在网络发生分裂的时候,要加个前提条件,在这种条件下,我们CAP只能三者选其二,大多数是选CA的,你选择了P,分区容忍性,必然要放弃一致性。这就带来了什么呢?我们说传统的一种单一的数据处理的架构要转化成三种架构同时针对不同的业务层,比如我们会在数据的知识分布快速的交互式查询的情况下,我们有个APP的数据库。通过扁平化的分布式的架构,来提升数据的处理能力,打破数据存储和数据处理的瓶颈。

另外一块,大数据整个分析思维会有一个变化。从传统的样本的分析方法转变到我们对全局数据对特定问题的分析,通过分析,我们会构建一个客户画像,这个客户画像可能是我们很基础的一个共享的模式。同时我们会引入大量的分析算法,除了传统的回归、聚类,包括我们一些传统的分析方法以外,比如会引入时序分析,对用户经过的基站经过时序分析。比如做六度很分析,我们做了两度的交往圈的分析,来分析一些传播的问题。

我们在信息展现上也会做一些突破,用更好的形式,更交互式的,更让人体验更好的形式来进行信息的展现。总的来讲,我们的规划思路就是12个字,数据整合、能力共享、应用创新。实现我们数据统一的开放共享,这个统一的开放共享必然要实现我PAAS层的资源整合,再构建能力层的开放和应用层的开放。

我们来看我们平台具体是怎么建设的,我们浙江移动的平台今年主要是PAAS层的建设,主要是两块,一块是PAAS层的建设,一块是BUS层的建设,PAAS分了三层,我们共建了一个数据交换中心,包括内部的数据采集和数据趴取,数据进来以后,我们通过数据处理层,数据处理层主要建立了两个大的资源池,一个是在线资源池,一个是离线资源池,在线通过流处理技术,我们做了一些创新,我们用了开源的数据库,把它改造成可以动态的分布式的形态。因为我数据库内存可能不够,结合流计算的技术。在离线资源池主要用了MPP和Hadoop,在上层加了一层数据展现层,读写分析,把分析结果沉淀到上面的数据开放层。

我们今年主要做的就是PAAS这一层,把所有的硬件资源,所有的技术组件全部都整合了。我们认为我们底层都是基于容器技术,统一的资源调度,同一套的技术,把资源全部经过多租户的整合。上面我们引入的数据,构建了DAAS,是统一的一套数据模式,后续的应用开发基于统一的数据模型,把数据的问题解决了。应用一定是基于问题的,同时我们有云管理平台,包括调度,包括运维,运维自动化我们参考了蓝鲸。我们内部到底是使用了一些什么样的技术,比如我们是两部分,一个是爬虫,一个是分子检索,流处理平台承载了客流分析,这是政法委要求的。包括我们的精确营销,我们整个Hadoop平台承载了三亿的融客模型,在数据读写分离这一层,我们主要采用了一些多维的数据库。这是我们整体大的数据流向,我们同时支撑在线和离线的数据,包括我们数据挖掘可以同时支持在线和离线。

我们讲一下我们这次做了采集,我们OBM3一共1600多个系统,我们刚刚讲了,我们以往的数据一天将近有100T,固网的数据有600多T,地域系统有三十多个系统,固网目前还有一部分没有采集,确实是量太大了,平台需要扩容。我们在统一建模里面参考了规范,覆盖了参与人、服务、资源、营销管理等七个主题。为对外变现夯实了基础,我们这个平台的建设有如下几个亮点,第一个亮点,我们是在运营商里面首次实现了基于容器技术进行资源隔离的数据中心级资源调度。第二,我们在运营商里面,在大数据组建上我们首次了完全字段式的数据隔离,整个PAAS平台每个租户都是可以实现字段式的数据隔离。我们首次实现了浙江移动三域数据大融合,同时提供了SAAS、PAAS、DAAS三个层面的平台开放。我们构建了我们的安全网端,和合作方合作,通过一系列的审计,一系列的安全网关,对外输出我们的变现能力。

这是强调我们的运维,我们的运维完全也是实时的,基于流式的数据挖掘。我们接入所有的数据,进行一个数据的传输,我们对数据的指标做了关联分析,是用了机器学习和实时回归的算法,不是离线的回归,是实时的回归算法,我们预测指标之间的关系,并且我们分析故障之间的关联关系。这是大数据平台数据资产的架构,数据平台所有的调度和所有的数据,我们有统一的原数据管理库,所有的关系会在管理库统一展现。这是我们讲了后续演进的技术思路,目前有部分组件还没有纳入动态的调度,我们在考虑将整个大数据和网关支撑打通,实现整体调度。绝大部分国内的互联网公司,哪怕是BAT,包括甚至是谷歌,谷歌资源利用率是最高的,也只有二三十,运营商大部分是十都不到,我们怎么把资源利用率大幅提升。第二我们要推动建立一个物理模型,同时要深化PAAS能力,资源可以无缝调度,大数据为什么不可以呢?我们能不能把大数据也实现一键式的分布?能不能引进机器学习,甚至像谷歌一样做深度学习,我们也去利用更好的方法,来解决广告营销推荐的一个准确性的问题。

另外一块,还有安全的问题,我们大量的对外变现应用开始做起来。我们怎么样保证这个数据资产的安全?最后最智慧的是运营体系,一定要用大数据去解决大数据平台的问题。因为以后将来扩展下来,几千上万台机器,你靠现在这种运维模式难以维持,一定用大数据人工智能的方式去自动发现问题,甚至是自愈。

这边我们就讲我们后续将如何引进第三方进行迈向大数据的生态,在大数据汇聚里面,我们会研究和实现多数据源,引入多方的数据,以大数据的形式对外提供,实现各方的数据深维和增值。在数据转换方面,我们和第三方合作,在EPI识别、选址应用等方面提供优质的组件,在大数据变现方面,我们携手第三方的公司,以大数据为基础,与移动一起参与社会化大数据的运营,积极拓展行业应用,实现大数据变现,树立大数据的标杆企业形象。

以上不代表通信世界观点。通信世界网

相关阅读
热门文章
蓝戈沙龙