首页 >> 通信新闻 >> 运营 >> 正文
 
中移动完善HugeTable开发 化解大数据存储难题
http://www.cww.net.cn   2012年12月3日 07:28    

12月3日上午消息,在上周由中国计算机学会主办的“Hadoop与大数据技术大会”上,中国移动研究院云计算研究员齐骥表示,随着移动互联网规模高速成长 ,运营商也面临大数据难题,尤其是对数据的存储需求增长,迅速扩容压力与日俱增。

因此,齐骥介绍,中国移动率先在国内启动“大云”计划,以技术研究、原型系统开发为先导,以策略研究为指导,逐步规范化、产品化,形成现网落地并推广。目前,大云产品布局已基本完成,同时,针对运营商IT支撑系统的业务需求,“大云”团队基于开源软件开发了HugeTable大数据仓库。

技术融合:弥补Hive、Hbase不足

据齐骥介绍,传统的解决方案价格昂贵,现有开源系统仅满足部分需求,不满足数据实时上线要求,无法使用单一存储引擎同时支持精确定位查询和OLAP查询,且不支持索引,无法处理投诉查询。

“Hive是基于Hadoop的开源数据仓库框架,拥有数据量元超传统数据库、成本低廉、扩展性好、支持标准SQL查询语言等特点”齐骥表示,“但是,其存在可视化支持不足、不支持数据预处理、应用整合能力不足、查询延迟等问题。”

“Hbase是在Hadoop之上构建的菲关系型、面向列存储的开源分布式结构化数据存储系统,其具有数据有序稀疏数据列存储、行级别数据一致性等特点”齐骥表示,“但是,其存在面向特定应用设计,应用代码重用度不高、缺乏统一接口标准、产品成熟度不高,极限情况下不稳定、需要应用程序做较多工作,与应用耦合太紧等问题。”

相比Hive、Hbase,据齐骥介绍,HugeTable技术可以算是取两者之精华,补两者之不足。“在存储引擎机制方面,它能针对不同的应用场景如OLAP、OLTP,提供不同的存储引擎选择,保证客户存储、查询成本最优;在智能索引机制方面,它能面向不同查询,根据查询代价动态选择索引,进一步缩短查询响应时间;在分布式加载框架方面,它能并行、持续、可预处理的分布加载系统;在可靠性保证方面,它所有模块、服务无单点故障,保证系统在生产环境下可靠运行;在数据访问接口方面,它提供包括NativeAPI、MapReduce API和SQL在内的多种数据访问接口,方便应用的开发和移植。”

未来发展:面向三大开发方向

齐骥表示,HugeTable技术系统是在Hive、Hbase等开源工具基础上进一步完善的成果,使其不再仅满足部分海量数据存储、分析场景,在互联网和运营商领域广泛应用,在解决运营商复杂大数据问题上满足其功能、性能、可用性等方面问题。

为了更好帮助运营商解决大数据难题,进一步提升系统性能,据齐骥介绍,下一步将在实时的大数据分析、列存储技术、多租用户安全性支持这三大方面深度开发。

“比如在信息检测领域,经常需要对数以十亿计的信息检测数据进行多难度的统计分析。而应用要求在10秒钟,甚至更短的时间返回结果,因此需要实现实时的大数据分析。”齐骥如是说。

另外,齐骥表示,虽然已经支持了RCFile这种近似列存的储存引擎,但对于更细粒度的存储支持和基于数据块统计信息的查询优化实际上还需要投入更多的精力。在帐详单领域往往要求储存数据压缩比例达到10:1甚至更高,这就需要先进的列存技术支撑。

[1]  [2]  
来源:中国通信网   编 辑:葛逊    联系电话:15910953501
分享到新浪微博 分享到搜狐微博 分享到腾讯微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到QQ空间 分享到豆瓣 分享到QQ书签       收藏   打印  论坛   推荐给朋友
关键字搜索:大云  齐骥  HugeTable  RCFile  数据存储系统  
猜你还喜欢的内容
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案

企业黄页
会议活动