磁带用于计算机已经有60年的历史了,它比现在许多人在工作中使用的技术更旧,磁带备份市场现在与归档市场相比,在整个市场中所占比重非常小,磁带迁移是磁带社区面临的最大问题。
大型归档数据迁移通常是一个持续的过程,有两个关键原因:
1、磁带密度每18-24个月就会以大约2倍的速度增长,但磁带性能只增长了大约20%,这意味着在磁带驱动器数量没有增加的情况下,迁移归档数据所花的时间将会很长。
2、磁带驱动器接口,如光纤通道1Gb和2Gb,不再得到支持,如果不迁移,将需要更多的磁带库,成本会急剧上升。
鉴于这些原因,迁移到新磁带技术是一个不断发展的过程,迁移必须包含其它硬件,如服务器、RAID存储和交换机。
迁移曾经是顺风顺水的,但有许多原因造成这一历史不再复现。我知道只有很少的站点迁移了备份数据,但和我一起工作过的人都知道他们必须迁移归档数据,备份数据在大多数时候都是暂时性的,是的,萨班斯•奥克斯利法案要求保存某些数据,但大多数公司都没有足够重视它。此外,磁带有长达5年的读取时间,因此你可以将它们放入冷存储。
这种类型的数据和归档数据,如医疗记录,哈勃太空望远镜或NOAA卫星图像等进行比较是很微小的,现在,汽车和飞机制造必须要归档全部的结构模型数据和设计信息,万一要出现问题才好执行反查,在不远的将来,我们的基因组将被保存起来。大型归档比磁带密度和磁带性能增长更快,目前,LTO密度增长了近2倍,但性能却只增长了20%左右,每年?每个月?还是定期?。许多站点将归档数据从旧磁带驱动器X迁移到新磁带驱动器Y所花的时间都超过了1年。归档软件现在使从归档软件A厂商转移到B厂商变得更容易了,但是,这仅限于那些没有使用专有磁带格式的厂商,这个过程才会很顺利。我甚至没有遇到过这种情况,因为它和厂商有很大的关系。磁带介质迁移是非常困难的,需要制定详细的计划,确保一切顺利进行。
有一些因素需要考虑:
硬件因素
根据归档软件的不同,有四种类型的硬件必须作为迁移计划的一部分进行评估:
1、磁带驱动器,旧的和新的;
2、用于和这些驱动器通信的光纤通道交换机端口;
3、RAID存储;
4、服务器。
需要的旧和新磁带驱动器数量取决于两个因素:
1、你希望多快完成迁移;
2、用户当前的负载是多少,在迁移期间你想或需要多大的负载才满意。
磁带
确定需要的磁带驱动器数量非常困难,你需要多少新磁带驱动器才能满足用户需求?你需要多少旧磁带驱动器才能满足用户需求?你需要多少新磁带驱动器满足更多数据的迁移?它们会随时发生变化吗?如果某个作业要等待检索归档数据,对中心有多大的影响?很明显,要回答这些问题非常困难,如果你的数据足够准确,其中部分问题的答案可能是标准的,但是,诸如某个作业等待造成的影响这种问题是无法标准化的,从旧磁带往新磁带读取数据要花多长时间完全不可预测。
以LTO-4 800GB,速度120MB/s为例,假定你开始从驱动器读取数据,采用的策略就是读取磁带盒上的所有数据,读取整个驱动器将要2个小时的时间,因此磁带驱动器将要被使用2小时。当然,这是一个和HSM软件有关的策略问题。这仅仅是规划迁移时需要考虑的一个方面。
根据归档数据使用模型(例如,数据是作为计算作业的输入吗?如气候模型),归档支持多少时区,以及用户日常工作时间的不同,归档负载通常是变化的,因此难以作出准确的判断,你必须多准备一点磁带驱动器,因为驱动器通常比预计的使用时间要长。
这通常是一个预算平衡问题,旧磁带驱动器的成本通常很低,新驱动器的成本通常更高,但是,你等待迁移的时间越长,磁带驱动器和磁带的成本越低,但更多时间是花在获取旧驱动器上的数据上,因此,很难确定最优的成本模型。
光纤通道交换机端口
如果你有更多的磁带驱动器和更多的存储,你将需要更多的交换机端口,你可能有足够的剩余端口添加新硬件,如果新的存储或磁带驱动器需要下一代光纤通道,你可能需要升级你的交换机。
RAID存储
大多数归档系统必须读取旧磁带上的数据,写入磁盘,再从磁盘读取写入到新的磁带,如果归档软件要求你使用磁盘作为迁移过程的一部分,你需要增加存储空间和带宽来支持迁移,究竟需要增加多少取决于你有多少剩余带宽和存储空间。例如,端到端读取一个LTO-4磁带,并输出到LTO-5需要使用大量的空间和带宽,如果你想一次性完整写入,你必须读取1.5TB空间,持续140MB/s的带宽写入磁带,如果数据可压缩,最大可达240MB/s。这可能要占你RAID控制器很大一部分带宽,假设是8Gb光纤通道,都要占30%。
服务器
需要将数据读取到磁盘的归档系统(与之相反的是磁带-磁带迁移的归档系统)将需要更多的CPU时间片读取数据,确认检验和写入检验和,它们也需要更多的内存带宽和PCIe总线带宽将数据移出系统,服务器和存储,以及磁带带宽增长相称是最困难的问题。
软件因素
很明显,每个归档软件厂商都有一套工具为迁移数据提供支持,这些工具通常有许多可调整的参数,允许管理员控制迁移速度和对系统产生的影响。一般来说,他们会根据工作负载,而不是读取磁带需要的时间进行适当调整,调整的所有问题必须提前考虑到。
用户
用户通常对资源的可用性抱有较高的期望,一般都会写入SLA(服务水平协议),如果你正在迁移磁带,你必须确定会给用户带来多大影响,并保证不会违背SLA,通常,这需要在迁移时间和响应时间之间进行权衡。
一切都与钱有关
如果你投入的资金和时间有保障,可以在数周内迁移数PB数据,现实中却很少有人这么做,但迁移也不会花上10年才完成,连5年的都少见,在制定迁移计划时,它成为平衡用户需求,需要什么硬件,以及始终存在的财政压力的主要挑战。
最常被忽略的一个方面是维护旧硬件的成本,另一个必须考虑的问题是空间和磁带库卡槽的成本,因空间耗尽,购买另外的磁带库可能比迁移到更高密度的新磁带上更节省成本,一个简单的电子表格不能解决这个问题,必须明确用户的需求,当前硬件配置,维护成本,空间耗尽购买新磁带库的成本,以及它们之间变化时的相互制约关系。磁带迁移不是一件容易的事,不能很精确地完成,有些东西不可能提前预知。
大多数情况下,我依靠以前类似工程取得的经验进行判断,我通常会设法力争在1年,最长18个月内完成迁移,我会尽力增加磁带驱动器和存储的数量,最开始用一定量的磁带和驱动器,随着迁移工作的进行,磁带和驱动器价格的下降,我会再慢慢购买更多的设备。在大型归档环境中,磁带通常是成本最大的项目(例如,50000盒磁带,平均价格85美元一盒,最后也会超过420万美元),因此,尽可能等待更长的时间,会节省更多的成本。
磁带迁移的成本很高,难度也不小,但是,等待磁带和硬件抵达寿命终点的成本可能更高,并且会将你的数据置于危险之中,因此,要掌握好时机,不要等得太久了。
原文出处:http://www.enterprisestorageforum.com/continuity/features/article.php/3933731
原文名:Tape Migration: Ignore It at Your Peril
作者:Henry Newman
译文链接:http://storage.it168.com/a2011/0607/1201/000001201331_all.shtml