网络安全 频道

2008年度年度产品奖-IBM TS7650G重复数据删除网关

  【IT168 资讯】带重复数据删除功能的虚拟带库引擎,支持“on-line”模式重复数据删除,两个节点组成一个集群,单节点吞吐能力450MB/秒,双节点900MB/秒,满足客户in-line备份删除的需要,每节点处理PB级数据。

  采用颠覆性的缓存驻留索引模式:一般常见的重复数据删除后处理方式,是把索引存储在磁盘里面,反复读取磁盘,如此一来性能很难保证;而Diligent技术是在备份任务进来后,首先把数据读到服务器的缓存里,索引即驻留在缓存内,并且可压缩成非常小的索引,索引比高达250000:1,因此也保证了不会给缓存带来很大的压力,这也是其可实现高性能的一个前提。

  专利精简算法避免哈希冲突:目前其他重复数据删除厂商主要采用哈希算法(Hashing Algorithms)这种比较方式来进行重复数据的比较。通过复杂的哈希算法计算出一个8K的索引值,再通过该索引值进行比较是不是相同,一旦相同,就认为数据相同,不再存储。但是这种哈希算法存在所谓的哈希冲突,也就说有可能两个数据虽然完全不同,但计算出的哈希值是一模一样的。在这种情况下,盘阵里面也会把数据认为是重复的数据,予以自动删除。IBM System Storage TS7650G采用自己的专利精简算法,当有新的备份数据读入时,在内存里先把特征值进行定位,然后跟内存做比较,通过内存进行比较以后,如果一旦有相似的特征值的时候,再去从磁盘把相关的值读出来,真正做一次二进制比较,确保数据不会有误删除的现象。通过这种计算差异以后,再把新的数据,通过2:1的LZH标准压缩格式存。一方面性能更高,同时可靠性比哈希算法更强,不会出现任何冲突。

 

0
相关文章