(华中科技大学信息存储系统教育部重点实验室 谢长生 曹强)2007年,网络存储各个层面的技术都有了明显的发展,越来越多的重点从底层转向了高层应用。
几年前,在中国购买一个TB容量的存储就是大用户,而2007年购买数百TB的用户已不在少数,购买PB级以上容量的用也不算什么新闻。2007年的诺贝尔物理学奖颁给了对硬盘密度的提高做出巨大贡献的巨磁阻效应的发现者,表明存储已在当今人类社会中具有举足轻重的地位。2007年,存储浪潮正在潮头。回顾这一年,在国际和国内存储技术领域有哪些值得回顾的事件和进展呢?
技术趋于高层
2007年,网络存储各个层面的技术都有明显的发展,重点已经越来越多地从底层转向高层。
从物理层硬件的角度来看,网络存储的基本技术走向是十分明了而简单的: 传输部分越来越快,存储部分越来越大,构成系统的规模越来越大。从传输技术上而言,2007年出现了8Gbps光纤技术和万兆(10Gbps)IP技术的产品。可喜的是,中国本土企业2007年也推出了万兆IP存储产品。本来用于高性能计算机互连的Infiniband也被用在存储的互连上,速度达到 30Gbps。Infiniband作为存储协议已经有了很大进展,作为iSCSI RDMA的存储协议iSER已由IETF标准化。作为存储基本单元的硬盘,其互连的接口也完成了从并行的ATA、SCSI 到串行的SATA、SAS的转换。SATA-2的接口速率为300MB/s,SAS的接口速率为3Gbps,不久,将会有6Gbps甚至12Gbps的 SAS高速接口出现。从存储部分看,在产品级的水平,2007年最大的单个硬盘容量为1TB,磁带的单盘最大容量为1.6TB,蓝光光盘(作为备份用)为 50GB/片。存储系统的规模目前已达到PB级。
有了物理层的速度和容量保证,接下来的问题是如何使各种异构的存储设备和存储管理系统能够互联互通,这是增强信息的共享性和进一步扩大系统规模的基础。SMI-S是国际存储网络工业协会(SNIA)近年来一直在大力推动的互联互通标准。2007年,越来越多的厂家宣布其产品支持SMI-S,未来存储系统的互操作性将越来越好,向着无障碍方向进行。
虚拟存储的概念实际上在早期的计算机虚拟存储器中就已经很好地得以体现,近年来流行的虚拟带库VTL技术实际上也是一种虚拟存储技术。常说的网络存储虚拟化只不过是在更大规模范围内体现存储虚拟化的思想。
存储虚拟化虽然不是一项新概念,但在网络存储范围内却还是一种新的技术。在前几年概念炒作和局部虚拟化的基础上,网络虚拟化现在已经实实在在地进入了各大厂家的产品之中。2007年,虚拟化是存储展会上各大厂家宣传的重点,这说明存储虚拟化已经成为产品特征的一部分,进入实际应用阶段。存储虚拟化的技术将会进一步深入发展,它将和虚拟计算、网格等概念一起,最终使信息基础设施能变得像水和电那样被方便地使用。
数据的可用性和安全性在2007年进一步得到存储界的重视。在设备级对RAID6支持的阵列产品越来越多; 数据的备份与灾难恢复技术越来越被用户重视和接受,需求的增加刺激了技术的进一步发展,连续数据保护(CDP)也成为各大厂家竞相宣传的重点技术。存储安全得到空前的重视,除了从外部端口设防的传统技术外,从存储系统内部和块级进行加密和数据保护的技术纷纷出现。
在发展趋势上,存储管理的重点已经从对存储资源的管理转变到对数据资源的管理,数据的管理最近两年成为存储管理技术发展最快的部分。随着存储系统规模的不断扩大,数据如何在存储系统中进行时空分布成为保证数据的存取性能、安全性和经济性的重要问题。分层存储、数据生命周期管理、重复数据删除以及内容管理等技术在2007年推出的产品中得到了更多地体现。
绿色存储 大行其道
随着全球能源消耗带来的生态环境问题和经济问题,人们的环保意识不断增强,“绿色存储”也成为2007年存储领域出现频率最高的词汇之一。
数据中心已是美国增长速度最快的能耗大户之一,耗电量预计每年增长12%。美国工业界对绿色存储采取了积极的态度,在美国2007 SNW秋季大会上SNIA倡议了成立“SNIA绿色存储促进组织”(SNIA Green Storage Initiative),其成员包括几乎所有工业界主流厂商。SNIA绿色存储促进组织成立的目的,是为了促进能源效率的提高以及厂商间的技术交流,以便降低存储系统能耗和环境影响。
实现存储系统节能的方式有很多,包括硬件和软件等方法。比如COPAN公司采用的大规模非活动磁盘阵列存储 (Massive Array of Idle Disks, MAID)技术,只有在需要时才将一部分磁盘开机运转,而其他不用的磁盘则处于断电状态,因而大大降低磁盘的耗能。前不久HDS公司宣布,为其AMS和 WMS中端系列产品增加全新的节电功能。当用户的应用无需访问数据时,HDS的中端存储产品可以停止向相关磁盘供电; 需要访问这些数据时,又可以快速供电,启动相关磁盘,这项技术能够将能耗和散热成本降低20%以上。
自动精简配置(Thin Provisioning EqualLogic)也是一项有效降低能耗的技术,包括HDS、HP、EMC、EqualLogic、3PAR等在内的许多存储公司都已经在存储系统中增加了此项功能。所谓Thin Provisioning就是在创建卷或LUN时只分配应用程序预计所需的逻辑容量,而存储的物理结构不用被预分区,这样多个卷或 LUN 就可以灵活共享同一空闲存储池,使存储空间的利用率得到显著提高,从而有效节省存储空间和能耗。惠普EVA产品采用了惠普动态智能冷却(HP Dynamic Smart Cooling)技术,可降低20%至45%的冷却成本,这套系统使用装在智能控制节点上的先进软件,持续地对空调设备进行调节,这种调节基于部署在IT 机架上传感器网的实时气温测量,在最需要的时候提供冷却,帮助最终用户降低了成本。
利用根据应用所需随时关闭和启动磁盘用电的功能,可以明显降低磁盘的耗电和散热需求。这种功能在备份和归档环境等数据密集型应用中效果尤其显著。相比传统的模块化阵列,该技术能够将能耗和散热成本降低20%以上。
除了在存储设备和系统上考虑外,机房、机柜设计和安装也是降低能耗的重要方面,例如为每一个机柜设置热气阻隔系统,能在高密度电力环境下,将单一机柜或整排机柜的热气区隔并进行冷却。
2007年存储领域的绿色之风在世界范围内越刮越大,SNIA在美国、欧洲、日本和中国举办的各次SNW大会以及中国的2007年存储峰会,都将绿色存储作为大会的主题。
还有以下在2007年的七大技术热点,也值得回顾和探讨网络存储的未来发展。
1. SMI-S成为国际标准
自2002年SNIA提出SMI-S(Storage Management Initiative Specification)存储管理协议以来,不少厂商已经在自己的产品中增加了对于它的支持。2007年1月,ISO/IEC采纳其成为国际标准,这无疑有力于SMI-S的推广。
SMI-S的目标就是让异构的存储设备和管理系统之间能够分享信息,进而实现互操作。考虑到当前存储市场和应用的现状,大部分集成商往往为用户设计一整套完整解决方案,而这些方案也往往把涉及多个不同厂家设备共存的情况限制在最小范围,另一方面大部分设备提供商也不主动提供自己产品的API,这些都使得SMI-S的实施受到很大的限制。SNIA组织是推动设备和管理互操作性的主要力量。在2007年SNIA和《计算机世界》报联合主办的SNW中国2007大会上,主题演讲就是介绍SMI-S协议。
2. XAM扩展存取方法
XAM(eXtensible Access Method)也是SNIA在大力推广的一种技术。如果说SMI-S努力建立存储设备之间标准管理接口,XAM则力图在存储服务和用户之间建立标准的服务接口和架构,使得对于固定内容的存取标准化。通过XAM,用户可以不必关心底层系统的细节而获得一致的存储服务; 应用开发商也可以集中精力设计出第三方存储应用而不受限于特定的存储平台; 存储设备商则着眼于设备和存取流程的优化上。
XAM包括XAM库和相关的工具集,虚拟实现模块(VIA)(包括参考和厂商)。XAM语义定义两大类对象类型: 主对象和次级对象,其中主对象包括XAM Library、XSystem和XSet; 次对象包括XStream和XIterator。
3. 存储虚拟化
存储虚拟化是个老话题,其本质就是提供一个抽象层和相应的操作来屏蔽存储系统底层的复杂架构和流程,减少用户的管理复杂度。因此在存储系统的各个层面和不同应用领域都广泛使用这个概念。考虑整个存储层次大体分为应用、文件和块设备三个层次,相应的虚拟化技术也大致可以按这三个层次分类。目前大部分设备提供商和服务提供商都在自己的产品中包含存储虚拟化技术,使得用户能够方便地使用。因此2007年“存储虚拟化”不像往年那么频频出现在口头,而是扎扎实实体现在各种产品之中。
然而,当前虚拟化技术离真正完全解决存储管理问题还有很大的距离。其一是如何把各个层次、各种接口的虚拟化存储设备集成为统一存储服务平台,提供一致、高效的存取服务大多数情况下仍然是一道难题; 其二是虚拟化往往以部分性能下降为代价,如何平衡性能和易用性也是必须仔细设计的; 其三,存储虚拟化面临最大的问题就是设计之外的变化,如何定义虚拟化边界和程度,保证用户有合适的管理窗口也需认真考虑。
4. 连续数据保护
在数据保护领域,除传统技术手段如镜像、快照、复制、备份等,连续数据保护也成为大家讨论的焦点之一。
根据SNIA的定义,连续数据保护是一种连续捕获和保存数据变化,并将变化后的数据独立于初始数据进行保存的方法,而且该方法可以实现对过去任意一个时间点的数据恢复。CDP系统可能基于块、文件或应用,并且为数量无限的可变恢复点提供精细的可恢复对象。
其特性包含以下几个方面: 数据的改变受到连续的捕获和跟踪; 所有的数据改变都存储在一个与主存储地点不同的独立地点中; 目标恢复点是任意的,而且不需要在实际恢复之前事先定义。目前几乎所有主流厂商在自己的产品中都可实现对CDP的支持(也许是部分的),或者能够提供 CDP的解决方案。
但CDP技术要求在存储性能、成本和功能之间达成平衡,也就是说CDP并非没有代价。如何监控数据变化、如何保存数据变化以及如何到达恢复点等每个操作都会耗费大量系统资源,进而影响原有的业务流程。因此必须对于整个计算、传输和存储的逻辑和物理过程进行全面的分析,进而提供合适的方案,当然用户也必须认真考虑自己的需求和实施的成本。
5. 存储安全
网络安全技术问题一直受到人们的关注,相对而言存储安全较少受到重视。如果把数据比喻为放在房间里的贵重物品,大部分人认为只要管好自己家“大门”一切就都安全了。殊不知第一,世界上没有保证绝对安全的“门”; 其次随着网络存储的广泛应用,一个“房间”往往不止一扇“门”; 再次,永远存放在一个固定位置的“东西”是没有价值的,数据价值体现在使用中,相应的存取过程必然伴随着一定的风险。因此如果不考虑在数据存储和存取过程中增加安全措施,这种安全是不完全的。一般而言,网络安全系统位于网络存储系统的边界,负责检测、抵御外来的攻击,对内部攻击无能为力; 存储系统的内部攻击需要存储安全系统来承担,从而形成安全存储系统。
目前存在两种研究思路: 首先在传统信息安全C.I.A特性(机密性、完整性、可用性,简称C.I.A特性)基础之上增加存取控制和认可机制,为某一特定应用提出专门的解决方案,例如: 增强文件服务器的安全性、客户端加密文件系统、客户端直接访问磁盘的认证机制和高度可扩展文件系统; 其次从存储系统的体系结构入手,寻找一种安全的、高效的存储模式,比如对象存储模式。存储安全问题这几年在学术界受到广泛的讨论,相应成熟的商业化产品和完整解决方案还有待开发,但相信未来会受到很大的关注,获得更大的发展。
6. 对象存储
将存储管理功能从上层管理软件下移到存储设备,使存储设备具有更多的智能,是对象存储的出发点。从上个世纪90年代中对象存储概念被提出,到2004年ANSI 推出了基于对象的存储设备(OSD)的1.0版本规范之后,对象存储逐渐走出了学术界。对象存储在大规模网络存储系统中已经获得应用,例如Lustre系统。
虽然现在很难找到公认的对象存储定义,但其概念还是基本明确的,区别传统数据块和文件,存储对象可以通过扩展属性的方式对于所保护的数据提供更多的描述,如果存储系统能够针对相应属性进行合理的优化和管理,就能极大地提高数据的管理效率和存取性能。特别是在大规模存储系统中,更加“智能”的数据结合智能存储设备才能对于充分发挥各种部件的效率、提升海量数据管理能力、改进存取过程的性能提供更多的安全性、可用性保障。
7. 数据管理
数据管理的一个重要任务就是对数据在存储资源上进行正确的时空分布。网络存储资源包括半导体存储器、高端高速硬盘、普通硬盘、磁带、光盘等存储资源和高速、中速、低速互联总线和网络等互连资源; 根据可用性和安全性的要求,有些资源还有冗余、备份和安全保护。因此,不同的资源是有着不同代价的。应该将价值最大的数据保存在等级最高的存储资源上,以保证最高的性能、可用性和安全性; 而对不重要的数据,就应该放在代价最小的存储资源上; 对毫无价值的数据,就应当进行删除,以免白白占用存储资源。在保存的数据中,往往有很多数据是重复的,除了保证数据可用性而特意为之以外,保存其他无用的重复数据都是对资源的浪费。在异地数据备份时,重复数据删除后再进行备份将节约大量的存储和带宽资源。
另外,数据的价值是有时间性的,数据在不同时间点的价值是不同的,根据数据的生命周期进行管理,就是体现数据的时间特性。
数据管理的传统技术是分层管理技术,数据生命周期管理和重复数据删除等技术是近年来逐步实用化的技术,内容管理已经具备了根据数据内容的性质来进行管理的思想。
目前的数据管理技术对数据价值重要性的判别大部分是人工的,下一步应该实现自动的标示和识别。扩大元数据(关于数据的数据)的属性、增加对数据重要性和数据生命周期的标识,可能是实现自动数据管理的一条有效途径。