|
以分布式存储应对大数据应用趋势
http://www.cww.net.cn 2013年10月15日 09:16
通信世界网讯(CWW) 对于拥有庞大用户数量的通信网络运营商来说,其数据的“产量”一直都很大。电信业的数据类型,主要包括客户信息数据(如客户入网资料、套餐情况)、业务过程数据(如通话记录、客户服务记录等)、网络运行数据(如网络性能、客户终端使用情况等)。数据的量级规模需要相应的存储技术解决方案来支撑,解决方案的能力体现为数据容量、数据处理速度和数据吞吐速率等指标。 从传统存储走向分布式存储 传统上,运营商采用关系数据库(RDB)或数据仓库(DW),主要处理电信业务运营过程数据、资源信息、话单记录等结构化的数据类型。对于核心业务(响应时间在1ms之内),一般的数据容量在20TB量级,吞吐速率IOPS在20K~2M量级;对于非核心业务(响应时间在20ms之内),数据容量可能达到3PB,吞吐速率IOPS达到1K~10K量级。传统的存储服务器采用2~16个控制器加上最大1500块硬盘的配置,是可以满足这种量级的关系型数据库应用需求的。 在移动互联网数据业务崛起之后,原有的这些结构化数据在全部数据量中所占的比例迅速降低。运营商经常会看到,80%以上的新增数据都是视频流、网页链接、图片、文本等非结构化或半结构化数据,也就是如今众所周知的“大数据”。对于运营商来说,大数据蕴含着众多的增值业务创新机会,如:存储(日志存储和分析、搜索服务、应用商店内容下载、视频内容存储等),查询(详单、上网记录、投诉系统等),分析处理(在线2G/3G话单处理、WAP内容分析、SMS监控和分析、日志分析、视频文件分析等),以及诸多数据量大、需求灵活多变、需要高聚合带宽访问的抽取/转换/加载(ETL)类应用等。 但要利用大数据实现业务创新,必须重新审视存储解决方案。如果沿用传统的SAN方案,采用专用存储服务器来应对数据扩容的话,需要付出高额的前期投资;而且垂直化的专用存储管理软件,难以让不同的子系统之间共享存储资源,从而降低了运营商的投资回报率。分布式存储的引入,能够很好地解决传统SAN难以根除的容量和性能均衡分布的难题。典型的分布式存储系统,采用1~2U的存储服务器,每台服务器带有8~24块硬盘,在标准的服务器机架上很容易实现性能和容量的扩展,维护也非常简单。 此外,不同类型的数据被访问或被处理的“热度”是不一样的,大量的“冷”数据并不需要很高的响应速度,如果采用可扩展性更灵活的廉价存储方案,能够使运营商节省大量的设备投资成本。在分布式存储系统中,数据类型按照数据的使用“热度”,可以分为在线、近线、离线数据,对不同热度的数据采取不同的技术策略。例如,在线数据如虚拟化的响应时间可能在30ms以内,近线数据如媒体资讯的响应时间可以放宽到100ms以内,而云盘、归档、备份等相对较“冷”的离线数据,响应时间即使超过1s也仍然处在用户可接受的范围之内。 软件定义的存储 [1] [2]
来源:通信世界网 作 者:桐石编 辑:高娟
猜你还喜欢的内容
文章评论【查看评论()】
|
企业黄页 会议活动 |