腾讯大数据开源第三代高性能计算平台Angel_智能硬件

腾讯大数据开源第三代高性能计算平台Angel

通信世界网

作者： 2016年12月20日 13:27

数据挖掘服务器网络测试互联网 LBS 计算机 Oracle 融合 Google

第一代是离线计算的架构，是基于Hadoop开发的，我们起名叫TDW，腾讯分布式数据仓库的意思。

社区的Hadoop迭代慢，单一集群规模小，稳定性和易用性都很差，不能达到腾讯的要求，因此我们按腾讯的业务运营标准，做了深度定制开发，我们着重发展集群的规模，解决Master单点瓶颈不能扩展的问题，我们优化了调度策略来提高Job的并发性，也加强HA容灾建设，还有很关键的一点的是，我们丰富了Hadoop的周边生态，建设了配套的工具和产品来降低用户的使用门槛，语法上，我们兼容Oracle的语法，方便腾讯各产品部门做程序的迁移，Hadoop大数据的性能很强，但是小数据分析的效率很差，我们就集成了PostgreSQL来提升小数据的分析性能，打通Hadoop和PG的访问界限。

就这样，我们从最开始的几十台、到几百台、到几千台，几年以后，在2013年单一集群达到4400台，2014年单一集群突破8800台，处于业界领先的水平。目前我们的总规模接近3万台。

TDW的建成，解决了我们内部三大业务痛点：

第一，它使我们具备了T/P级的数据处理能力，几十亿、百亿级的数据量，基本上30分钟就能算出来。

第二，它的成本很低，我们可以使用很普通的PC Server，就能达到以前小型机一样的效果；

第三，容灾方面，原来只要有机器宕机，业务的数据肯定就有影响，各种报表、数据查询，都出不来。现在TDW的机器宕机，业务完全无感知，系统会自动做切换、数据备份等等的事情。

正是解决了业务的这些痛点，业务部门都愿意把计算迁移到TDW。到2012年底，我们把所有原来在Oracle和mysql上跑的报表都切换到TDW。

TDW的建成，让我们具备了融合所有产品平台的数据的能力。

以前的各产品的数据都是分散在各自的DB里面的，是一个个数据孤岛，现在，我们以用户为中心，建成了十亿用户量级、每个用户万维特征的用户画像体系。

以前的用户画像，只有十几个维度主要就是用户的一些基础属性，比如年龄、性别、地域等，以前构建一次要耗费很多天，数据都是按月更新，有了TDW，我们每天更新一次。

这个用户画像，应用在腾讯所有跟精准推荐相关的产品里面。

再举个推荐的例子。推荐相信大家现在都耳熟能详，但是放在6年前，这还是一个刚刚新兴起的应用；TDW 为我们提供了一个快速切入快速支撑的能力。通过MapReduce的编程范式，基于 TDW 的平台，我们可以专注于各种推荐算法逻辑本身的实现，比如大家常见的 CF,MF,LR 这些算法，以及各种 hash 聚类算法；这个时候的推荐技术，面对海量的用户群体访问，更多还是基于一种实时查询的服务方式。

第一代平台解决了量大的痛点，但是在速度方面还有问题，数据是离线的，任务计算是离线的，实时性差。所以，我们建设了第二代的大数据平台。

在第一代基础上，集成了Hadoop的第二代——Spark，同时，还融合了Storm流式计算的框架。这一代平台的集成，让我们的计算的粒度从原来的小时，发展到分钟，直至秒级。

[1] [2] [3] [4] [5] [6] [7]

编辑：申晴