重复数据删除技术明显是对磁盘对磁盘备份技术的挑战。上千的公司已给其备份环境实施了某种形式的重复数据删除技术,并感到运行良好。重复数据删除技 术可实现动态数据精简,使公司实现在一个小型磁盘上保留备份数据的多个连续复本。随着越来越多的完整备份数据被发送到系统,精简比例进一步优化,这些复本 已可支持磁盘数据恢复。一个重复数据删除系统(通常是一个设备或用途导向的存储阵列)事实上仅仅是将磁带库扩容。其可提供时长为几周的备份数据on- site复本,也有的可延长到几个月,但是更长时间的则无法实现。
但是在实现了大部分的数据恢复需求之后,这些旧备份数据该用来做什么呢?
1,将其恢复,转移到冗余文件夹中,再将那些数据集转移到正式的档案文件中吗?
2,把这些数据删除?因为这些文件已经完成了最初的使命——支持几周或几个月的数据恢复。
3,或者是,将这些数据保留?
对于大多数企业,答案是将这些数据保留,采用备份系统来管理一个档案文件。尽管重复数据删除技术使这种处理方式很具吸引力,采用备份系统长期存 储数据存在如下缺点:数据安全、数据恢复和数据销毁问题。
我们真正需要的是一个关注归档(archive-focused)的存储系统,比如那些来自Permabit,仍可以压缩或复制数据,但是也可 保留长期数据。备份和重复删除的数据不提供数据加密,其未被锁定以确保数据未经更改,数据无法通过文件或EMAIL的恢复来读取,也无法在必要时被销毁。
加密
必须对数据加以安全防护,这意味着应避免不必要的或无意识的数据存取。这通常意味着必须对数据加密。但重复数据无法加密,除非存储器平台将其整 合,这是因为分别加密确立了数据的唯一性,而唯一的无复本数据则不存在需要去除的重复数据。因此永久保存的备份数据是不能加密。
锁定
除了给数据提供避免意外删除或毁坏的保护,还有其他需要关注的问题。因为有调整和从规的需求,当前,IT管理人员必须使数据可用于法律发现。这 意味着数据可用于支持一个未了诉讼。但法律也需要确保这一数据在用于支持某一未了诉讼(例如监管链)前未经更改。验证监管链未经更改的唯一方法是:将数据 转移到一个WORM数据流中。不幸的是,大多数重复数据备份系统也不提供WORM功能。
恢复
正如上面提到的,数据存储的新需求是构造特定数据以响应法律发现行为。存储系统必须恢复指定时段内任何有问题的文件;否则就要交罚金。其次,历 史数据应该可用于业务领域(例如趋势分析和客户预测程序),实现业务收益最优化。同样,数据归档之后,以前的一个项目或许需要重启或重新研究。关键在于, 如果数据值得在最初就保留,则其应该是可读取并便于访问的,而且不是备份软件的专有格式(在未来的几年中会发生改变)。
因为备份系统的目的是改进备份有效性,配置了重复数据删除技术的备份系统将所有备份工作存储在一起,通常是上千或几十万的文件,同时每一次恢复 都必须对所需文件进行重建。这与磁盘档案(单一终端用户访问共享文件和复制其所需的文件不同)的功能不同。从管理员的角度看,采用备份系统进行长期存储的 结果是搜索所需文件需要额外时间(从冗繁的文件中找出相关文件)。
现在的组织中,邮件系统事实上是一个归档系统。在资源不确定的情况下,由于邮件系统是按时间顺序排列,因此被用于进行数据查询。一些人甚至采用 邮件来存储附件,这样就不需要将其复制到共享文件中。当考虑到采用一个有重复数据删除功能的备份系统来长期存储邮件时,存取和恢复成为问题的关键。
由于邮件系统是一个大型数据库,因此备份系统威胁着邮件系统(以Exchange为例)。将每一信息都作为独立记录进行存储,并将指示器引到现 有的文件附件。其备份过程类似数据库,但是存储的数据信息量更大。进行消息级(Message-level)存储需要一个特殊的模块,并且还需要进行一个 更慢的备份过程,以将数据准备好进行小颗粒精确恢复。
实现数据使用最优化、减少备份循环的方法是实施邮件归档解决方案。这一解决方案用于发送独立文件类型档案中的信息和附件。如果配置了 Permabit Enterprise Archive或类似的档案级解决方案,归档系统就成为了保存信息的唯一仓库。这样不仅效率提高,而且实现了对保留数据的管理。
销毁
采用备份系统管理归档系统带来了另一问题。实现一个数据集的从规和法律审慎意味着不仅仅要给法庭提供文件,也意味着可访问文件的所有复本,这样 他们即可适时销毁文件。必须确保需要销毁的文件已完全销毁——文件及其复本均已彻底销毁。
运行重复数据删除技术的备份系统会有很多备份文件复本。而这些文件或许仅物理存在于一个位置。但由于文件是初次保存,因此仍在虚拟扩展到很多备 份中。众多的冗余文件、虚拟复本,这使得重复数据删除率在最初惊人地高。为了确保所有复本均已销毁,每一项备份工作(以及工作涉及的文件)都必须在文件销 毁之前找到,并全部销毁。
采用备份结构进行长期存储出现的另一个问题是隔离。由于备份任务都是整体写入存储系统,需要删除的候选文件必须从备份任务的整体中隔离出来。这 意味着必须将备份任务恢复,之后才能删除文件。一旦文件被删除,必须将备份任务另存,以保存剩余文件。这是一个复杂的程序,
总结:
备份软件最初的设计目的是进行数据备份,其次是进行数据恢复。备份系统假定数据是可存取、可更改的,并且不用于长期管理这些数据集合。当重复数 据删除技术(数据被长期存储)被用于备份系统,就带来了一些问题。
在这些系统里,当数据老化移出或越过了其更改、恢复的界限,则应该在其成为候选删除文件之前从备份系统中移出。对于已不属于备份循环系统的数 据,应将其存储在用途导向的归档存储系统(采用软件来长期管理应用软件和多代技术的数据集)。这些系统可提供长期存储所需的三种技术:数据安全,数据存取 和数据销毁。