首页 >> 终端 >> 智能硬件 >> 正文
腾讯大数据开源第三代高性能计算平台Angel
通信世界网
作者:       2016年12月20日 13:27
数据挖掘 服务器 网络 测试 互联网 LBS 计算机 Oracle 融合 Google

第一代是离线计算的架构,是基于Hadoop开发的,我们起名叫TDW,腾讯分布式数据仓库的意思。

社区的Hadoop迭代慢,单一集群规模小,稳定性和易用性都很差,不能达到腾讯的要求,因此我们按腾讯的业务运营标准,做了深度定制开发,我们着重发展集群的规模,解决Master单点瓶颈不能扩展的问题,我们优化了调度策略来提高Job的并发性,也加强HA容灾建设,还有很关键的一点的是,我们丰富了Hadoop的周边生态,建设了配套的工具和产品来降低用户的使用门槛,语法上,我们兼容Oracle的语法,方便腾讯各产品部门做程序的迁移,Hadoop大数据的性能很强,但是小数据分析的效率很差,我们就集成了PostgreSQL来提升小数据的分析性能,打通Hadoop和PG的访问界限。

就这样,我们从最开始的几十台、到几百台、到几千台,几年以后,在2013年单一集群达到4400台,2014年单一集群突破8800台,处于业界领先的水平。目前我们的总规模接近3万台。

TDW的建成,解决了我们内部三大业务痛点:

第一,它使我们具备了T/P级的数据处理能力,几十亿、百亿级的数据量,基本上30分钟就能算出来。

第二,它的成本很低,我们可以使用很普通的PC Server,就能达到以前小型机一样的效果;

第三,容灾方面,原来只要有机器宕机,业务的数据肯定就有影响,各种报表、数据查询,都出不来。现在TDW的机器宕机,业务完全无感知,系统会自动做切换、数据备份等等的事情。

正是解决了业务的这些痛点,业务部门都愿意把计算迁移到TDW。到2012年底,我们把所有原来在Oracle和mysql上跑的报表都切换到TDW。

TDW的建成,让我们具备了融合所有产品平台的数据的能力。

以前的各产品的数据都是分散在各自的DB里面的,是一个个数据孤岛,现在,我们以用户为中心,建成了十亿用户量级、每个用户万维特征的用户画像体系。

以前的用户画像,只有十几个维度主要就是用户的一些基础属性,比如年龄、性别、地域等,以前构建一次要耗费很多天,数据都是按月更新,有了TDW,我们每天更新一次。

这个用户画像,应用在腾讯所有跟精准推荐相关的产品里面。

再举个推荐的例子。推荐相信大家现在都耳熟能详,但是放在6年前,这还是一个刚刚新兴起的应用;TDW 为我们提供了一个快速切入快速支撑的能力。通过MapReduce的编程范式,基于 TDW 的平台,我们可以专注于各种推荐算法逻辑本身的实现,比如大家常见的 CF,MF,LR 这些算法,以及各种 hash 聚类算法;这个时候的推荐技术,面对海量的用户群体访问,更多还是基于一种实时查询的服务方式。

第一代平台解决了量大的痛点,但是在速度方面还有问题,数据是离线的,任务计算是离线的,实时性差。所以,我们建设了第二代的大数据平台。

在第一代基础上,集成了Hadoop的第二代——Spark,同时,还融合了Storm流式计算的框架。这一代平台的集成,让我们的计算的粒度从原来的小时,发展到分钟,直至秒级。

[1]  [2]  [3]  [4]  [5]  [6]  [7]  
相关阅读
热门文章
蓝戈沙龙