可选的完整性检查
在实际删除所有的重复数据前,软件执行一次可选的检查,以保证数据100%的完整性。在本阶段中,软件通过将“保留磁带”(代表经过重复数据删除的数据)和原始数据进行比较验证其结构和整个数据内容。
空间回收
在空间回收阶段,软件从文件系统中删除冗余的数据,释放先前被占用的磁盘空间以备他用。保留磁带和原始的、没有经过重复数据删除的磁带交换位置(比如条码、槽位以及属性等),然后软件智能的释放重复的区块并将它们放回空闲空间池。经过这样的处理以后,所有其他需要存储空间的数据处理过程都可以重用先前被重复数据占用的空间。
三、重复数据删除技术的四大优势
重复数据删除技术也就是所谓的容量优化保护技术。它能给客户的计算机系统,尤其是备份系统带来哪些好处呢?
目前,重复数据删除技术主要应用于数据备份,也有公司宣称将把该技术应用在主存储中,但那毕竟不是主流。重复数据删除技术可以提供更大的备份容量,实现更长时间的数据保留,还能实现备份数据的持续验证,提高数据恢复服务水平,方便实现数据容灾等。
更大的备份容量
备份数据中包含太多的冗余部分,在数据全备份中更是如此。尽管增量备份只是备份那些有变化的文件,但增量备份中通常也会包含冗余的数据块。
重复数据删除技术的原理是只保存惟一一份备份数据的数据段。当数据写入到备份设备时,数据会被分成可变长度的数据段。重复数据删除设备会实时将该数据段与已经存储的各数据段进行比较。这种方式可以保证每个惟一的数据段只保留一份。因为重复数据删除设备可以在文件内或文件间,甚至数据块内发现重复的文件和数据段,所以实际所需的存储空间也就比所要保存的数据量低一个数据量级。容量优化效率高低的关键在于算法。容量优化技术依据的原理并不是新出现的,而是在学术圈里存在几十年了。
数据能得到持续验证
目前,市场上采用重复数据删除技术的产品的区别在于,实施重复数据删除的地点和文件被分割的片段大小不同,但更重要的是数据写入备份设备时是如何完成完整性和一致性检查的。在主存储系统中,逻辑一致性检查总会伴随着风险。如果软件缺陷导致写入错误的数据,就可能破坏数据块指针、位图。通常情况下,比较理想的解决办法是在卸载文件系统后运行文件系统检查程序(比如Fsck)。如果文件系统中保存的是备份数据,那么直到进行恢复前,错误是很难被发现的,等到真需要恢复时,可能已经没有足够的时间来纠错了。
备份数据是备份工作中最有价值的部分。备份数据不会被经常访问,而一旦需要访问备份数据时,往往意味着发生了人为或系统的故障,需要进行数据恢复。要检查文件系统在恢复操作时的一致性,需要等到下一次系统重启或者让系统下线,这会增加不必要的风险。因此,优秀的重复数据删除设备应具有端到端的验证过程。
更高的数据恢复服务水平
备份数据恢复服务水平是指数据备份到备份设备中,能否准确、快速、可靠地进行数据恢复。
Oracle数据库通常装载着企业最需要保护的业务数据。企业经常采用全备份或增量备份来保护Oracle数据库。全备份方式的备份和恢复执行起来比较快,这是因为增量备份经常要对整个数据库进行扫描,以便发现改变的数据块,而且增量备份方式在恢复的时候还需要一个全备份和多个增量备份,这也影响了恢复速度。
既然如此,为什么很多企业还要采用增量备份的方式呢?这是因为全备份比增量备份需要更多的备份时间和备份空间。具有重复数据删除功能的备份设备可以很好地解决上述问题。
对于以Oracle为代表的数据库的备份来说,备份时间是由遍历数据块的时间(尤其是增量备份)和数据传输时间组成的。对增量备份来说,数据块的遍历是对数据库进行扫描,以便发现改变的数据块,这需要较长的时间。由于备份设备的性能进一步提高,数据库全备份和增量备份所需的时间已经相差无几。
以磁盘为介质的备份设备具有高性能和在线重复数据删除功能,因此对Oracle数据库进行多个全备份时,只使用了很少的存储空间。企业每天进行全备份和数据块级的增量备份所占用的存储空间基本相同。与普通的备份设备相比,使用重复数据删除技术的备份设备做全备份时,可节省95%的磁盘消耗。
对关键数据进行备份时,采用重复数据删除技术的备份设备可用全备份来替代增量备份,从而提高数据恢复服务水平。
方便实现备份数据的容灾
以数据复制技术为主流的容灾技术都十分关注数据的实时复制,而备份数据的容灾却无人关注。由于重复数据删除技术对备份数据有很好的容量优化能力,每天做全备份只需少量的磁盘增量,而通过WAN或LAN远程传输的正是进行容量优化后的数据,因此可以大大节省网络带宽。
现在,很多企业把备份数据的在线复制当成异地磁带存储的替代解决方案。采用复制解决方案,数据经由LAN或WAN,从本地的主磁盘被拷贝到远程的磁盘存储上。为加强保护,企业还可以提高数据同步的频率,或者将远程站点配置成完全的灾难恢复站点,一旦主站点出现需要停机一段时间的情况,可以在远程站点启动业务操作。
客户在选择具有重复数据删除功能的产品时,应该从容量优化的算法、持续数据验证、数据服务水平、方便高效的容灾等方面进行考察。
四、重复数据删除技术弱点
重复数据删除是目前存储行业最热门的技术之一,用户和厂商们都很看好这种技术。有的厂商在开发硬件,有的厂商在开发软件,还有的厂商同时开发相关的软件和硬件。
跟以前一样,我不打算对比不同厂商的产品或者技术,我只想谈谈你在考虑购买重复数据删除软件或硬件时必须向厂商咨询的一个重要问题,即数据损坏的问题。你可能会想,重复数据删除与数据损坏有什么关系呢,不用着急,我马上就给你解释。 但是必须说明的是,我是从通用硬件和软件的角度来写这篇文章的。有些厂商的产品也许可以或者不可以接近我在文中谈到的全部或者部分问题。 选购哪家厂商的产品以及向厂商咨询什么问题的决定权在你自己手中,笔者不承担任何责任。