首页 >> 终端 >> 智能硬件 >> 正文
腾讯大数据开源第三代高性能计算平台Angel
通信世界网
作者:       2016年12月20日 13:27
数据挖掘 服务器 网络 测试 互联网 LBS 计算机 Oracle 融合 Google

同时,我们第三代的平台,还支持GPU深度学习,支持文本、语音、图像等非结构化的数据。

Angel是基于参数服务器的一个架构,它跑在我们的Gaia平台上面的。

它支持BSP、SSP、ASP三种计算模式;支持数据并行以及工业界更看重的模型并行,因为我们主要碰到的还是模型大的问题;

另外,在网络上我们有个原创的尝试,我们用了港科大杨老师的团队做的诸葛弩来做网络调度,ParameterServer优先服务较慢的Worker,当模型较大时,能明显降低等待时间,任务总体耗时下降5%~15%。

Angel提供很丰富的算法,支持LR、SVM、LDA、GDBT等等,并且集成了非常丰富的数学函数库,另外,还提供非常友好的编程界面,能跟Spark、MR对接,你能像用MR、Spark一样编程。

Angel跟其他平台相比,比如Petuum,和spark等,就我们的测试结果,在同等量级下,Angel的性能要优于其他平台。比如我们用Netflix的数据跑的SGD算法,大家看一下这个图的对比。

同时,Angel更适合超大规模的数据训练。目前Angel支持了很多腾讯内部的现网业务。

这里举两个例子,比如,在构建用户画像方面,以前都是基于Hadoop和Spark来做,跑一次模型要1天甚至几天,话题只有1k;而在Angel上,20多亿文档、几百万个词,3000亿的token,1个小时就跑完了。以前Spark能跑的,现在Angel快几十倍;以前Spark跑不了的,Angel也能轻松跑出来。

再看一个case,视频的点击预测,同等数据量下,Angel的性能是Spark的44倍以上。用了Angel以后,我们维度从千万扩展到亿,训练时间从天缩短到半小时,而准确度也有不小的提升。

Angel不仅仅是一个只做并行计算的平台,它更是一个生态,我们围绕Angel,建立了一个小生态圈,它支持Spark之上的MLLib,支持上亿的维度的训练;我们也支持更复杂的图计算模型;同时支持Caffe、TensorFlow、Torch等深度学习框架,实现这些框架的多机多卡的应用场景。

各位,临近尾声了,我想总结一下腾讯大数据平台发展的三个阶段:

我们从离线计算起步,经过实时计算阶段,进入了机器学习的时代。

我们从跟随开源,发展到自研,我们的发展历经了规模化、实时化,以及智能化的变迁。

最后,我要借这个机会跟大家公布一个消息,那就是:我们的大数据平台将全面开源。

我们会在明年上半年把Angel以及Angel周边的系统进行开源。

我们平台源自开源,我们的发展离不开开源,所以我们会以最大的力度拥抱开源。

其实在开源的道路上,我们一直都在参与:我们第一代平台的核心,TDW-Hive,已经在2014年就开源了;我们还在很多社区项目贡献了很多核心代码,培养了好几个committer。

[1]  [2]  [3]  [4]  [5]  [6]  [7]  
相关阅读
热门文章
蓝戈沙龙