由于能够降低成本,重复数据删除技术是目前存储市场上最炙手可热的技术之一。但是它又有多种形式,如果企业想要从中选择最适合自己的一种重复数据删除技术,对每一种都得有所了解。
重复数据删除技术的工作原理是,分析数据集或字节流,只存储及/或只发送不重复的数据;重复数据由指向第一次出现的数据的指针来取代。一些IT专业人士认为,重复数据删除和单实例存储(SIS)是一回事,但其实并非如此。两者的主要区别在于,SIS在文件层面分析数据流,所以如果用户重命名了一个文件,SIS会将该文件视作新文件,因而再次存储;如果使用重复数据删除技术,文件的全部内部内容会被视作是重复内容。因而,SIS节省的存储空间比较小。
数据经过所有重复数据删除技术处理后,最终在磁盘上所占的空间小得多,但实现的方法大不相同。两种很流行的方法分别是固定块长度和可变块长度;如果采用后者,重复数据删除引擎可以改变块大小,并且能识别更多的重复模式,因而减小了所存储的数据量,并增加了节省的空间。嵌入式重复数据删除技术(inline deduplication)和处理后重复数据删除技术(post-process deduplication)也有不同的优缺点。如果采用嵌入式重复数据删除,数据在存储到磁盘上之前,先经重复数据删除处理;这种方法不需要有任何额外的磁盘空间以便在重复数据删除之前存储数据,但是存在以下缺点:
•延长了完成备份所需的时间,导致在办公时间备份窗口比较长,并降低了性能,另外由于前一个备份任务仍在进行,所以无法开始下一个备份任务;
•缺乏灵活性,无法允许重复数据删除处理效果不好的数据保持非重复数据删除的状态;
•常常迫使用户为了恢复单单一个文件而将整个备份内容“还原”,因而减慢了恢复速度。
如果采用处理后重复数据删除技术,经重复数据删除处理之前,备份内容暂时放在基于磁盘的缓存存储器(staging storage)上;一些技术允许在缓存了一定数量的数据流后,开始进行重复数据删除处理,这降低了对缓存存储器大小的要求,同时允许备份尽快完成。
所以,虽然处理后重复数据删除技术需要额外的磁盘空间用于缓存存储区,但它能够加快备份速度,缩小备份窗口,允许对重复数据删除处理效果不好的数据不进行重复数据删除处理,而且提供了更快的恢复速度。
重复数据删除在源/客户端或目标/存储器上进行。源端重复数据删除(source-side deduplication)通常使用位于客户端的重复数据删除引擎,该引擎会对照集中放置的重复数据删除索引来查找重复内容,而这个索引通常放在备份服务器或媒体服务器上;只有不重复的块才会被传送到磁盘上。
源端重复数据删除的优点在于,它减少了争夺网络资源的现象,因为通过网络传送的数据比较少。
不过,如果采用源端重复数据删除技术,用户就要为客户端添加散列算法,这是需要大量占用处理器资源的一种算法。这意味着,原本就在超负荷运行的客户端会变得更不堪重负,可能会导致备份速度减慢、备份窗口延长。
目标端重复数据删除(target-side deduplication)一般更适合数据密集型环境,在存储器层面进行重复数据删除处理,因而不需要功能足够强的客户端,因为生成散列值的工作在目标这一层进行。缺点是,更多的数据将通过网络来发送。
不同厂商提供的不同解决方案对进行重复数据删除处理的时间和地点进行了混合搭配:比如说,一种解决方案可能在源端开始进行嵌入式重复数据删除,另一种解决方案可能在目标端开始处理后重复数据删除。
评估重复数据删除技术时要考虑的最后一个标准就是,确定数据保留多长时间;分析的数据越多,发现重复数据的可能性就越大,因而节省的空间就越大。比如说,一个初始的完整备份将只对照自己来进行重复数据删除;但是当第2周的完整备份执行完毕后,只有自第1周以来被更新或被添加的不重复数据才会存储起来。对备份内容进行重复数据删除处理时,此后每周的备份内容会保留起来,占用数量减少的额外磁盘空间,从而让企业可以在现有数量的存储器上存储更多个备份,保持一段更长的时间,几乎不需要从异地存储器来恢复,除非整个站点出现了故障。
那么,总的说来,用户在规划重复数据删除策略时应该考虑哪些方面?他们的目标将影响应该评估哪些重复数据删除技术。
以下是重复数据删除技术方面的一些典型目标和考虑因素:
•最大限度地节省磁盘空间;
•重复数据删除节省的磁盘空间比SIS更多;
•可变块重复数据删除技术节省的磁盘空间比固定块重复数据删除技术更多;
•嵌入式重复数据删除技术降低了对磁盘空间的要求;
•源端重复数据删除技术可以增加节省的磁盘空间;
•经重复数据删除处理后的数据保留更长时间,这允许用户在同样容量的磁盘存储器上存储更多个备份,保留更长的时间;
•最大限度地提高灵活性;
•处理后重复数据删除技术提供了这种功能:让重复数据删除处理效果不好的数据可以保持非重复数据删除的状态,确保了宝贵时间和处理功能没有浪费在不会得益于重复数据删除的数据上;
•如果采用处理后重复数据删除技术,恢复速度更快;
•处理后重复数据删除技术允许用户在成本最多低至硬件存储器十分之一的现有存储器上存储数据;
•更短的备份窗口;
•可以将处理后重复数据删除安排在备份窗口之外进行;
•目标端重复数据删除技术不会没有必要地延长备份窗口。
重复数据删除技术可以让用户大幅节省时间、人力资源,当然还有预算。
虽然这项技术在不断发展,但如今市面上已经有几款成熟可靠的解决方案。如果企业选择了满足其自身要求的合适产品,就会发现,过去很少有哪项存储技术像重复数据删除技术这样可以给自己的数据中心带来如此重大的作用。