首页 >> 2009(第三届)移动互联网研讨会 >> 云计算发展与应用 >> 正文
 
图文:中国移动通信研究院 徐萌
http://www.cww.net.cn   2009年12月8日 16:00    通信世界网    

    2009年12月8日—19日,由中国移动通信集团公司主办,中国移动通信研究院承办,信通传媒协办“2009(第三届)移动互联网研讨会”在北京国际会议中心正式召开。本届大会以“无处不在的网络,无所不能的业务”为主题,着重探讨移动互联网领域的技术、应用及其发展趋势。通信世界网将对此次大会盛况进行全程报道。

    中国移动通信研究院 徐萌

    徐萌:大家下午好!云计算作为一个像助推器的技术,会给商务智能带来什么样的改变呢?今天我想跟大家分享一下我们关于云计算,以及数据挖掘两个技术在融合过程中的一些必要的体验。我的这部分演讲主要包括三个部分。

    大家都知道中国移动目前是全世界最大的一个电信运营商,我们目前拥有大约接近5亿用户的数据规模,大家可以想象一下这样的用户情况下,我们有多大量的数据。我举两个典型例子,一是精准营销,在2009年我们仓库容量接近6000TB。二是网络数据,是数据规模更大的数据。如果是网络数据来讲,在一个省公司目前每天数据量可以达到TB级。

    有三方面的需求:1、精准营销方面,主要用一些用户的阈值,用户话单记录进行分析。2、网络优化,网络Qos分析、安全入侵分析、网络规划、信令监测分析。3、移动互联网应用。

    下面看一下我们面临一个什么样的挑战。目前数据量非常大,对于快速响应方面有要求,应用复杂、变化多样,随着竞争越来越复杂,越来越激烈,我们需要有一个响应的速度,来针对市场作出一定的响应。海量数据,如果对它进行存储处理是目前面临最大的挑战。

    我们目前解决方案,大家都知道在运营商里,用的最多的解决方面就是Unix小机+磁盘存储。现在这些系统运行非常稳定,但是它们面临一些新的挑战。我这里举了四个挑战,数据处理量,目前这个解决方案取决于Unix小机和磁盘存储来做的,目前挖掘数据量仅能达到省公司全网数据的1/10左右。性能,受硬件平台影响,要机和磁盘阵列要求很高,扩容的时候,旧有的系统由于封闭型,非常差,投入成本相当高。灵活性,在中国移动来讲是电信领域挖掘需求,并不是通用的需求。

    基于这种背景,我们提出解决方案,BC-PDM,基于Big Cloud平台的并行数据挖掘工具苦。这一层主要提供海量存储和处理能力。中间是我们今天要讲的重点就是BC-PDM平台,包括分析挖掘,数据预处理等等。最上面一层,是我们基于BC-PDM开发的应用,包括移动互联网搜索,包括精准营销、网络优化、互联网分析等等。

    从这个架构来讲,它有哪些特征?基于普通的标准PC服务去做,成本相对比较低。BC-PDM参考和仿造现有的数据去实现,是友好可用的。对电信行业来讲是可定制的用户平台。

    在今年研发里,我们会提供基于web浏览器的工作界面,左边界面是我们现在开发的一个系统,这个工具可以通过界面,用户在浏览器上实现我们需要的数据分析、数据装载、挖掘整个流程。在开发这个过程当中,我们经历了两年时间,第一年我们做基本功能,包括数据预处理,数据挖掘算法和关联规则,基本结构展示等等。今年我们又新增了很多需求,做了数据的探索,又增加了其他一些新的算法和结果展示等等。我们在对这个系统进行评估的时候,主要通过两方面进行,一是关键技术评估,主要指的是我们的工具是否能够达到用户的要求,包括正确性、性能、扩展性。性能方面,我们会评测TB级,百TB级,在线网一些解决方案进行对比。扩展性方面主要128个节点三个环境下的实验。

    实验环境,目前我们有256个节点的环境,通过交换机相连,这些机器就像烤箱里面的靠盘一样,码在机架里面,有13个机架。

    我们在今年9月份发布了BC-PDM0.5版本,在内部发布,这里是一些评测结果。首先从正确度来讲,在BC-PDM0.5实现了14种操作,主要指T的操作,数据抽取、转换的操作,结果的正确度是百分之百,并行和串行相比完全正确。这个结果跟商业工具做对比,结果非常相似,并且符合商业标准。扩展性对比,可以看到ETL,数据处理的操作,扩展性加速比非常好,随着32、128规模节点数上升,我们采用TB级数据,几乎可以达到线性。

    从数据性能来讲,上面柱状图可以看到浅蓝色是现有的时间性能,BC-PDM用了它十倍的数据,挖掘性能大约是9倍。整个应用也是指的从数据装载到数据预处理到挖掘、结果展示的流程。之所以整个应用性能会下来一些,因为我们在每一个之间会有落地的操作,会有一些优化,性能会更好一些。成本相对降低很多。这边主要是数据查询为主的系统,性能跟现有数据不仓库相比可以提高数倍,成本降低4倍。

    举了一个典型的例子,我们在做精准营销用户,通常会建立行为模型,这次我们会从三个方面考虑,用户渠道信号,用户对各种新业务的敏感度以及新业务关联程度,从客户具体的细分分组综合建立客户行为特征模型。

    以客户细分为例,简单理解为我们目前做过全球通、动感地带、神州行三大品牌,根据用户细腻特征,做有新业务推荐、套餐制定等等。把用户细分为六组。主要采用ETL操作,整个应用性能增加约3倍。

    小结:BC-PDM基于Mapreduce和HDFS平台,实现了32种ETL操作及13种数据挖掘算法,同时支持SaaS模式。

    Map chain可以提高工作流的整体性能至7-10倍,具体提高倍数取决于工作流序列的情况。

    下一步工作。BC-PDM二期正在测试中,面临一些新的挑战。数据隐私保护,如果对外提供服务数据隐私保护将是重要问题。为了完善BC-PDM,需要开发更多的ETL操作和算法。如何提高BC-PDM的用户友好性。

    谢谢大家!

编 辑:高娟
关键字搜索:云计算  移动互联网大会  
相关新闻
每日新闻排行
企业黄页
会议活动