HPC(高性能计算)话题备受瞩目,不仅因为本土系统在业界博得好评,更重要的是高性能计算逐渐走进每个人的生活,并且发挥着不可或缺的作用。比如说金融、气象、能源、制造等行业中的很多企事业都在应用高性能计算,作为普通百姓的衣食住行,我们在刷卡购物、打电话、听天气预报、出门坐车时也已经在享受高性能计算所带来的准确与方便。
谈到HPC,大家最关注的总是计算性能,却鲜有人谈到HPC的存储系统,即并行文件系统。在近期举办的一次沟通会上,中国气象局正研级高工洪文董、中国高性能计算TOP100排行榜发起人袁国兴、中国计算机学会高性能计算专业委员会秘书长张云泉几位HPC领域的专家,不约而同地就HPC领域并行文件系统的重要价值阐述了各自的观点。
并行文件系统是HPC实现资源调度和性能优化的关键因素
在高性能计算领域,尤其以气象部门为例,很多天气预报的模式都是将任务分成多个小任务,最后通过网络将其归结到一起。并行计算快速进行,而相应的数据量也随之激增,这就需要有并行文件系统进行处理。
中国计算机学会高性能计算专业委员会秘书长张云泉在沟通会上表示,在高性能计算领域,需要通过并行来实现加速,而这样的加速对于高性能计算来说,有着重大的意义。
中国气象局正研级高工洪文董说,“要实现HPC系统的科学计算的效能,就一定需要一个并行的文件系统。CPU需要通过并行文件系统将众多的存储硬件管理起来,尤其在气象领域,数据相互之间是有关联的,计算的结果之间要进行交换,这对于并行文件系统的要求就更高。”
因此,洪文董认为,一般的开源并行文件操作系统并不能满足科学计算领域HPC系统的需求,因为在科学计算领域,大多数时候文件系统存储的数据相互之间是需要相互影响的,即它们是分布共享并行文件系统,不像社会计算领域,如电信、网络、物流等,每个文件系统的数据相互之间没有关系,它们是分布并行文件系统。这两种模式对于文件系统的要求是完全不一样的。
中国高性能计算TOP100排行榜发起人袁国兴也认为,在HPC系统中,存储系统的响应速度必须要尽可能地高,同时并行文件系统也需要尽可能地高效,否则,系统产生的数据量激增,即便计算系统速度再快,如果并行文件系统无法快速响应,那么也会急剧降低HPC整体系统的性能。
并行文件系统可以把多个结点上的磁盘组织成为一个大的存储系统,提供更大的存储容量和聚集的I/O带宽,并随系统规模的扩大而扩展,在多种存储环境下发挥着重要的作用,尤其是集群结构的高性能计算领域。
同时,张云泉认为,现在大数据的发展,使得HPC的研究有了新的用武之地,产生了众多的新兴交叉学科。无论对于深度学习还是大数据分析、在线游戏而言,各种全新的应用对于HPC提出了全新的需求,这些对于HPC的存储系统,尤其是并行文件系统提出了各种挑战。
从高性能上看,GPFS即现在的IBM Spectrum Scale,通过将I/O分布在多个硬盘提高性能,能够高效工作在1个节点到4000多个节点的集群环境中,也能够很好地支持SSD盘和闪存阵列。
同时,可靠性是高性能运算的重中之重,在GPFS环境中,某一节点的硬盘连接丢失,不会影响到其他的节点,GPFS使用RSCT的功能持续监控不同文件模块的健康状态,当任 一错误被检测到时,相应的恢复动作将自动执行。GPFS还提供了额外的日志和恢复功能,可以维持元数据的一致性。最大三副本,可支持节点的自动Failover。相较于开源的CEPH,作为商用系统代表的GPFS,经历了大量的实践和检验,相对来说更加稳定和可靠。
洪文董认为,“从商用软件的角度来说,IBM的GPFS是并行文件系统中做得最成功的,也是业界做得最好的。”
IBM Spectrum Scale,以商业的可靠性满足多方高性能存储需求
软件定义存储时代,高性能计算面临着不同时代、不同品牌的存储设备和解决方案的整合的问题,IBM整合了自身所有跟存储相关的软件,推出光谱存储家族,以帮助企业和机构应对高性能计算时代出现的新问题。光谱家族的Spectrum Scale, 即广为人知的IBM并行文件系统明星产品GPFS,也就是HPC领域备受推崇的并行文件系统的商用软件,在2013年的全球top500超级计算机有超过150台的集群使用GPFS文件系统。
如同IBM软件定义解决方案的销售顾问蒋军华在沟通会上所介绍的,IBM光谱家族的Spectrum Scale,是一个为高性能计算设计的高可靠性并行文件系统,它不仅可以在一个高性能计算集群中实现多个计算节点的数据快速存取,还能够实现跨广域网的存储整合与数据共享,帮助用户形成统一的存储资源池,同时,它还解决了数据存储经济性的问题,依靠信息生命周期管理功能帮助用户实现数据的自动分层管理,保证存储资源的高效利用。这些对于高性能计算领域尤其是类似于气象预报等科学计算领域,有着非常重要的价值。
IBM Spectrum Scale是经验证、可扩展且高性能的数据及文件管理解决方案(基于 IBM General Parallel File System 或 GPFS,之前被称作代码名称 Elastic Storage)。 IBM Spectrum Scale 提供世界级的存储管理功能,具有极致的可扩展性、闪存加速性能,以及基于策略的自动存储分层功能(从闪存、磁盘到磁带)。IBM Spectrum Scale可以帮助客户减少 90% 的存储成本,同时提高云、大数据和分析环境中的安全性和管理效率。
首先,IBM Spectrum Scale解决的是数据高可靠性和高可用性。凭借去中心化的系统架构设计,GPFS文件系统元数据和数据都采用分布式架构存储,不论管理节点、文件系统节点或是元数据节点失效后都能恢复,不存在单一故障点,保证了系统的使用。随着高性能计算集群规模和文件系统的增长,元数据的访问也不会成为系统瓶颈。
其次,IBM Spectrum Scale解决的是跨广域网的存储和数据资源整合,帮助用户形成统一的全局文件命名和数据管理。比如,广州遇到南方的暴雨天气期间,由于气象预报计算需求的增加,它需要借助北京的超级计算机计算南方的天气,这其中就涉及到数据的传输和同步。通过Spectrum Scale软件全面整合后能够策略化地去定义数据存放,根据每个气象计算算例后面附带数据量的大小,结合IBM Platform LSF调度软件决定该计算任务是在本地计算还是调度到远端计算,快速获取计算结果。
最后,IBM Spectrum Scale可以在生产环境下实现磁盘空间动态扩展及压缩。由于IBM Spectrum Scale通过将节点内读写操作分布到多个磁盘上,大大增加了文件系统的带宽,通过整个系统的负载均衡避免了某个磁盘过大的读写。此外,IBM Spectrum Scale可以动态调整添加或者删除硬盘。系统处于相对空闲时,用户可以在已配置的硬盘上重新均衡文件系统以提高吞吐量。