首页 >> 通信技术 >> 云计算 >> 正文
 
云存储系统“数据去重”如何实现?
http://www.cww.net.cn   2012年8月13日 15:44    

“数据去重”的必要性

● 经济效益

重复数据删除的最大特点就是可以有效的节省用户的存储空间,间接节省了服务商的硬件采购成本、人力能耗和机房的使用空间等等。根据厂商所采用的重删技术和存储数据结构的不同,一般来说采用重复数据删除后,可以使数据有效压缩到原来的1\20左右,比如一个系统正在存入1000G的大小的逻辑数据,而进行重复数据删除后,系统实际只需要50G的物理存储空间,那么数据缩减比例为1\20;也因此节省了许多设备的磁盘空间和数量。

● 访问效率

重复数据删除的另一个重要特点就是在通过互联网并不传输或存储多份相同数据,这样就有效减少对存储空间和网络带宽的占用,进而提高访问和检索效率。

“数据去重”几种方法

数据去重的算法方案一般采用MD-5(即128位的散列)或者SHA-1(即160位的散列)。而两个随机的数据生成相同散列的概率大约是千分之一。如果按照1PB的数据采用MD-5算法来删除重复数据计算,文件所划分的数据大小平均为4kB,那么两个数据生成相同MD-5散列的概率大约是1万亿亿分之一。那么是否能够采取更有效的方法使之数据误删率达到更低呢?下面通过集中方法介绍给出建议。

● 文件级的去重

文件级去重即在文件系统中检查并判断两个文件是否完全相同。如果去重系统发现两个相同的文件,其中之一就会被指向另一个文件的指针所取代。这项技术的优点是不会影响数据的读取性能,而且用户打开文件时,也不需要进行解压缩或者数据重组,它只是简单地将多份访问请求链接到同一份数据。这种方法的缺点是效率问题,与压缩技术或者块级去重相比,它显然无法达到同样高的数据简缩比率。

适合的网络存储架构:NAS网络存储架构。

应用场景:EMC在其Celerra filer (NAS产品)中提供了文件级去重,惠普在他的StorageWorks X系列网络存储系统中提供文件级去重功能,但不具备压缩功能。对于用户来说,文件级去重系统的存储空间简缩能力相对有限。

● 数据块级的去重

这个方案与备份系统中使用的基于哈希值比对的重复数据删除非常相似。它将所有的文件分解成数据块,然后通过散列算法,为每个块创建一个哈希值,并与其他所有数据块的哈希值进行比对,如果两个不同数据块的哈希值完全一致,其中的一个块就会被删除,并用指向另一个块的指针来代替。

适合的网络存储架构:SAN网络存储架构。

应用场景:日立公司发布的Hitachi Content Platform 产品(SAN),简化基础存储,可实现智能化以内容为中心的存储,支持基于数据块级的重复数据删除功能。

● 元数据级的去重

元数据的去重也被称之为内容识别的去重,其基本的技术原理是基于相同文件内或者阵列空间数据对象的元数据进行相关算法,并且形成算法列表码或算法KEY环,再对写入流的元数据进行比对,如果发现相同的元数据,则删除元数据并代之相应的指针。算法KEY环的具体表现如图2。

与上面提到的文件级或数据块级相比较,此元数据级的去重更能节约存储空间。举文件级和元数据级的去重对比例子:一个文件型数据库,ACCESS文件内有个yuncunchu.mdb数据名,如果在这个数据内写入几条记录,那么从文件级别去重的角度来看,该文件重新被替换到整个该数据库中。而采取元数据级别去重的话,则只保存了新写入的几条记录。如图3。

[1]  [2]  [3]  
来源:通信世界网-通信世界周刊   作 者:中国电信“云计算”研究中心 黄种教 雷俊智 龚靖编 辑:高娟    联系电话:010-67110006-853
分享到新浪微博 分享到搜狐微博 分享到腾讯微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到QQ空间 分享到豆瓣 分享到QQ书签       收藏   打印  论坛   推荐给朋友
关键字搜索:云计算  云存储  
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案
企业黄页
会议活动