腾讯大数据开源第三代高性能计算平台Angel_智能硬件

腾讯大数据开源第三代高性能计算平台Angel

通信世界网

作者： 2016年12月20日 13:27

数据挖掘服务器网络测试互联网 LBS 计算机 Oracle 融合 Google

12月18日，深圳-腾讯大数据宣布推出面向机器学习的第三代高性能计算平台——Angel，并预计于2017年一季度开放其源代码，鼓励业界工程师、学者和技术人员大规模学习使用，激发机器学习领域的更多创新应用与良好生态发展。

腾讯12月18日在腾讯大数据技术峰会暨KDD China技术峰会上宣布这一消息，腾讯副总裁姚星先生，及腾讯数据平台部总经理、首席数据专家蒋杰先生出席了峰会并发表演讲。

姚星表示：“人工智能的发展在过去60年中几经沉浮，今年终于发出了璀璨光芒，很大的原因就是跟云计算和大数据有关，这是一种演进发展的必然结果。如何处理好大数据，如何在有限的计算资源上对这些大数据进行深入挖掘和分析，这是未来整个产业发展和升级的一个大课题。我相信大数据将成为这次产业升级的基础，核心算法将成为这次产业升级的灵魂。”

“面对腾讯快速增长的数据挖掘需求，我们希望开发一个面向机器学习的、能应对超大规模数据集的、高性能的计算框架，并且它要对用户足够友好，具有很低的使用门槛，就这样，Angel平台应运而生。”蒋杰表示：“机器学习作为人工智能的一个重要类别，正处于发展初期，开源Angel，就是开放腾讯18年来的海量大数据处理经验和先进技术。我们连接一切连接的资源，激发更多创意，让这个好平台逐步转化成有价值的生态系统，让企业运营更有效、产品更智能、用户体验更好。”

Angel是腾讯大数据部门第三代的计算平台，使用Java和Scala语言开发，面向机器学习的高性能分布式计算框架，由腾讯大数据与香港科技大学、北京大学联合研发。它采用参数服务器架构，解决了上一代框架的扩展性问题，支持数据并行及模型并行的计算模式，能支持十亿级别维度的模型训练。

不仅如此，Angel还采用了多种业界最新技术和腾讯大数据自主研发技术，如SSP（Stale synchronous Parallel）、异步分布式SGD、多线程参数共享模式HogWild、网络带宽流量调度算法、计算和网络请求流水化、参数更新索引和训练数据预处理方案等。这些技术使Angel性能大幅提高，达到常见开源系统Spark的数倍到数十倍，能在千万到十亿级的特征维度条件下运行。

在系统易用性上，Angel提供丰富的机器学习算法库及高度抽象的编程接口、数据计算和模型划分的自动方案及参数自适应配置，同时，用户能像使用MR、Spark一样在Angel上编程，我们还建设了拖拽式的一体化的开发运营门户，屏蔽底层系统细节，降低用户使用门槛。另外，Angel还支持深度学习，它支持Caffe、TensorFlow和Torch等业界主流的深度学习框架，为其提供计算加速。

自今年初在腾讯内部上线以来，Angel已应用于腾讯视频、腾讯社交广告及用户画像挖掘等精准推荐业务。

今年11月，腾讯云大数据联合团队在有“计算奥运会”之称的Sort Benchmark排序竞赛中，用时不到99秒完成100TB的数据排序，在测试大规模分布式系统软硬件架构能力和平台计算效率的GraySort和MinuteSort两项排序竞赛中夺得4个冠军，将去年冠军的纪录分别提高二到五倍。冠军的背后是腾讯大数据多年的积累，而Angel更是腾讯大数据下一代的核心计算平台。

[1] [2] [3] [4] [5] [6] [7]

编辑：申晴