源端重复数据删除是指冗余数据在数据通过网络发送到备份服务器之前就被删除掉了。看上去这似乎是删除冗余数据最合理的位置,然而,如果没有挑战的话确实是这样的,我们将讨论的过程中尝试解决这些问题。
源端重复数据删除的好处在于,在初始备份完成之后只发送唯一的数据。这既可以通过传统重复数据删除流程完成,也可以通过块级的增量备份。利用这种重复数据删除技术,整个流程会将信息变量与已经发送到备份目标的信息进行对比,但是这个对比通常是涉及所有数据的,从多个来源一直到这个目标。例如,如果服务器A和服务器B保存了一份相同的文件,当轮到服务器B发送这份文件的时候,它无需这么做,因为服务器A已经发送过了。我们可以把源端重复数据删除看作是在整个企业内进行对比以在数据发送之前删除冗余数据。
在初始备份之后,块级增量(BLI)备份也只发送增量信息。不过,这些增量片段通常是与文件系统设置的块分区相关的。块级增量备份会对他们在备份目标进行保护的系统保留一个镜像。他们通常是卷到卷的匹配技术,而不是重复数据删除技术。其中大多数采用了某种快照技术来提供时间点后退功能。出于营销的原因,提供了块级增量备份解决方案的厂商希望在重复数据删除领域也有所涉足。他们的技术避免了对冗余备份的需求,而且数据量也小于典型的增量,因为他们只发送和保存变更块而不是整个文件。最后,一些厂商还做后处理的重复数据删除。
关于源端重复数据删除有一个问题,那就是重复数据删除对比步骤对客户方面有什么影响?在前期准备过程中我们所接触的所有厂商都宣称“对客户几乎没有什么影响”。你需要自己验证这个说法。我们只能说,这个问题不像前几年那么严重了。客户端软件逐渐成熟,客户端提供的处理资源也比以前多很多。
通过实验室测试和用户实践我们发现,重复数据删除所带来的影响大约在5%~10%。因为块级增量备份技术是很稳定的数据片段并且只是卷到卷的对比,所以不要求那么多的CPU资源。而且,很多文件系统通过API为请求软件提供了一个变更块的名单。但是,块级增量备份却不具备企业内数据削减功能,除非使用单独的后处理重复数据删除技术。
块级增量备份和源端重复数据删除都有一个挑战,那就是你必须变更备份应用。有些情况下,这是一个颠覆性的变更:新厂商、新软件、新应用代理,一切都是新的。在其他情况下,这是在现有备份应用基础上的增值功能,你需要变更的只是数据交付技术。
源端重复数据删除对于你的环境来说有意义吗?你必须考虑到自身的环境以作出决策。