对存储容量复杂而无止境的需求让存储管理员感到十分头疼。以下将为大家介绍一些如何应对数据洪流的方法。
以往只有科研人员、互联网巨头以及亚马逊、推特、脸谱和Shutterfly等社交媒体巨头面临这样的问题,但是现在越来越多的企业开始尝试通过大数据挖掘来发现手中所掌握的有价值的信息,并以此获得竞争优势。如今,沃尔玛、金宝汤、辉瑞默克和Wawa连锁便利店等公司正在为他们的大数据制订一套宏伟的计划。
为了更快的回应客户、更好的追踪客户信息或是更迅速的向市场导入新产品,许多公司开始投资大数据分析。
市场研究机构IDC存储分析师Ashish Nadkarni称: “对于身处互联网时代的任何公司来说,如果他们不这样做,那么他们的竞争对手就会这些做。”
目前所有机构都在逐渐被来自内部和外部的数据所淹没。在这些数据中,许多数据是实时传输过来的,其中又有许多数据只会被用上几分钟、几小时或是几天时间。
市场研究公司Aberdeen Group表示,因此而带来的存储需求增长对大型企业来说尤为棘手。在这些大型企业中,从2010年至2011年,结构化和非结构化数据所需要的存储容量平均增长了44%。无论多大规模的公司,数据存储需求每隔2.5年就会翻一番。而且,对视频存储、电子表格、格式化数据库和纯非结构化数据进行优化分别需要不同的工具。
Aberdeen 集团虚拟化和存储分析师Dick Csaplar 称:“能够让存储方面的花销不随存储需求增长而增长是一个挑战。”能够帮助主流大数据用户避免陷入这一恶性循环的技术有存储虚拟化、去重和存储分层技术。对于科研人员、社交媒体网站与仿真项目开发人员等大数据重度用户,面向对象的和关系型数据库存储都是不错的选择。
与内部日常存储平台相比,为了以易于访问的格式存储拍字节级(和更大规模)数据,系统在设计上要更为复杂。以下是专家对管理和存储大数据提出的一些建议。
你正在分析什么类型的数据?
所需的存储类型取决于你分析的数据类型与数量。全部数据均有一个保存期限。例如,股票报价只在价格变动前的一或两分钟内重要。棒球比赛得分对于人们来说只需要保存24小时或是直到下一场比赛时。这一类型的数据在最需要的时候应当保存在主存储器中,随后即可以转移至廉价的存储器内。多年来的观察已经证明了这一理念,即被长期存储的数据通常并不需要存储在容易被访问到的主驱动器上。
你实际上需要多大存储容量?
在存储大数据时,你需要的存储容量和类型取决于你所需要存储的数据大小和这些数据的使用时限。
在大数据分析中涉及三种类型的数据。Nadkarni称:“它们能够将来自多个来源的数据每秒源源不断的传输给你,在这些数据失去时效性之前,你的时间切片应当为数分钟。”这类数据包括天气、交通、社交网络上的趋势话题和关于全球事件的推文等更新信息。
大数据还包括了那些休眠数据或是公司为了适度使用而生成和控制的数据。
数据传输需要快速捕获和分析能力。Nadkarni称:“一旦你分析了它们,你就不再需要它们了。但是对于休眠数据或被公司控制的数据,你应当将它们存储起来。”
哪种类型的存储工具更合适?
对于那些刚开始涉足大数据存储和分析的公司,行业观察人士建议采用将所有的存储将放在一个保护伞下的存储虚拟化技术、去重压缩数据技术和分层存储方案,以确保最有价值的数据被存储在最容易被访问的系统中。
存储虚拟化提供了一个软件抽象层,让用户无法找到物理设备,并且允许所有设备作为一个单一的池被管理。尽管服务器虚拟化已经成为了目前IT基础设施中一个成熟组件,但是存储虚拟化仍然未被广泛接受。
在2012年2月份,Aberdeen对106家大型公司进行了调查。结果显示,仅有20%的受访者表示他们拥有一个单独的存储管理应用。平均下来,3个管理应用对应3.2个存储设备。
尽管如此,许多存储厂商并不愿意让自己生产的设备接受其他厂商产品的管理。Csaplar称:“存储虚拟化非常复杂并且极为耗时。因此它们无法像服务器虚拟化那样被广泛接受。”相反,许多存储管理员正在关注针对第三或第四层存储的云解决方案,因为云方案能够更为容易地在不同基础设施之间转移数据,同时可以降低存储成本。他补充称:“许多公司已经这么做了,并且收到了良好的效果,但是距离人们的期望值还存在一定的差距。”
Csaplar希望看到,随着网络连通性的改善、成本的下降以及传输过程中数据加解密能力的提升,云存储和其它基于云的计算资源的使用率在不久的未来出现增长。他称:“有了云,你可以从运营预算中结算每月的账单,而不无需单独的资金预算。”
去重与压缩
通过去重技术,管理员能够降低所需的存储空间。由于数据压缩工具可识别出各个文件中的短重复相同字符串,并且每个文件仅存储一份拷贝,因此去重过程可以消除冗余数据。
那么这样一来可以降低多少存储需求呢?Aberdeen的调查报告显示,13%的受访者表示他们将数据大小降低了50%,另有约13%的公司表示高度重复的结构化数据减少了30%至50%。
存储分层
一旦公司确定他们将分析哪些数据,存储管理员能够将最新和最重要的数据放在速度最快、可靠性最高的存储介质上。随着数据的时效性越来越差,这些数据可以被转移到速度较慢、价格较便宜的存储上。具有存储分层程序自动化功能的系统正在受到关注,但是还没有被用户广泛采用。
在制订存储等级时,管理员必须要考虑存储技术、设备的速度以及保护数据安全的RAID的形式。
失效备援的标准解决办法是复制,通常以RAID阵列的形式进行复制。在线照片分享网站Shutterfly的高级副总裁兼首席技术官Neil Day指出,如果数据的规模过于庞大,那么RAID所产生的问题会比所解决的问题还要多。由于允许用户无限量地存储原始分辨率的照片,因此目前该网站存储的数据已经超过了30拍字节。
在传统的RAID数据存储模式中,每份数据的拷贝都被做成镜像存储在阵列中的多个磁盘上,以确保数据的完整性和可靠性。不过,这也意味着所存储和被做成镜像的每份数据在大小方面都翻了五倍。随着RAID阵列所使用的驱动器容量越来越大——从密度和能耗方面看,目前3太字节的驱动器最具吸引力——将故障驱动器上的内容完整复制到新驱动器上所需要的时间正变得越来越长。
Shutterfly最终选择了纠删码技术。通过该技术,每片数据能够被分成小数据块,并分散存储在不同的磁盘驱动器或服务器内,而这些小块本身并没有意义。任何时候,即使由于驱动器故障导致多个小数据块遗失,其余的部分小数据块也可以完整复原数据。换句话说,你不再需要创建多份数据拷贝,单一实例能够确保数据的完整性和可靠性。由于纠删码技术是一种基于软件的技术,因此这种技术能够与商业化硬件一起使用,甚至可以降低大规模部署的成本。
Cleversafe是最早的纠删码软件厂商之一。该公司通过添加位置信息研发了一种被称为分散编码的技术,允许用户在地理上相互独立的地方,如多数据中心内存储小数据块或是数据切片。
超级大数据用户
像Shutterfly这样有着海量存储需求的公司必须在提前考虑块存储。Nadkarni称:“在谈论拍字节级海量数据集时,你必须要开始关注对象存储或分布式文件系统了。可以考虑EMC的Isilon集群存储和戴尔Fluid文件系统等商业解决方案,或是开源方案。它们必须能够以更低的成本存储数据,并且能够提供更优秀的性价比。此外,他们还要具备可扩展性。”
他补充称,商业软件的用户常常会存储一些用完即弃的一次性数据,并且几乎没有后处理需求。
几乎不再需要管理人员
在正确部署后,存储虚拟化、去重、存储分层和纠删码技术可降低你对管理人员的需求,因为这些工具能够让你通过单一虚拟管理平台管理数据。在Shutterfly的案例中,自动化存储基础设施允许公司降低维护人员的增长速度。随着公司日常维护工作的减少,管理员可以将更多的时间花在一些具有前瞻性的项目上。
Nadkarni称,在一些案例中,大数据项目由一些特殊团队完成,而不是传统的IT员工。“这些项目由公司的业务部门负责掌管与运营,因为IT基础设施在灵活性上无法支持大数据环境,或是没有掌握大数据所需要的相关技能。”
“在这些项目中可能没有存储管理员的身影,或是他们只扮演一个非常小的角色,所有的工作都将由系统人员完成。”
未来发展趋势
Nadkarni认为将计算层转移至数据层之中的概念将会流行起来。“你应当关注由Cleversafe提供的解决方案,以及其他存储提供商提出的在存储层中植入计算功能的解决方案。目前我们再也无法轻易地将数据转移至计算层。可以说这实际上已经是不可能的了,尤其是当你处于在数据失去时效性之前只有几分钟时间分析它们的情况下。所以为什么不将计算层转移至数据存储层之中呢?”
Cleversafe针对Shutterfly等大数据重度用户提供了一个高端的Hadoop解决方案,不过他们目前正在尝试将其变成一个通用解决方案。Nadkarni称:“Cleversafe打破了从一家厂商那里采购计算力再从其他厂商那里采购应用存储的模式。”为了在主流企业中获得成功,公司的业务部门必须要开拓思路。我认为它们最终将会受到广泛认可,因为目前模式的效率并不适合大数据的需求。
他补充称:“大数据是公司保持竞争优势的工具。为了最大限度的利用手中的数据,公司必须要调整处理程序和使用方式,以更加迅速地从这些数据中挖掘出它们所蕴含的价值。”
Csaplar警告称:“在投资新的大数据存储基础设施之前,公司必须要做好调查研究和前期准备工作。仔细研究它们,多与那些已经部署了大数据存储基础设施的公司进行沟通。大数据存储基础设施并不是什么尖端的东西,与已经部署了它们的人进行沟通可以让你在部署过程中避免犯下相同的错误。”
Hadoop不再是唯一的选择
目前“大数据”概念的范围得到了很大程度的延伸。大数据这一术语以前指那些对科研人员和社交媒体网站等高级用户频繁查询迅速做出响应的复杂数据。如今,大数据这一概念中包括了大多数公司必须存储的海量结构化或非结构化数据。
尽管Hadoop和Cassandra开源系统是大数据存储和分析的理想选择,但是目前许多厂商已经开始在调整他们的存储系统,以应对数以拍计的数据,以及提供更便捷的分析方法。
IBM 存储产品营销管理策略副总裁Ed Walsh 称:“以往大数据是顶级大型公司才使用的工具,现在几乎所有的公司都在利用大数据从数据中获得洞察力。你最好有一个高效的存储,否则成本将非常庞大。此外,相关的应用也要具有良好的性能,并且能够动态调整。”
IBM花了数年时间研发了一套包括Hadoop在内的高性能存储与分析产品,以及相关技术。IBM在去年六月份正式向市场推出了一套名为IBM智能存储的存储与分析产品。IBM还表示,这是他们首套整合了Platform Computing公司软件的解决方案,旨在服务更多的企业客户。IBM在2012年年初收购了技术和分布式计算管理软件制造商Platform Computing公司。
Walsh 表示:“我们这么做的原因是因为我们拥有一套非常完整的产品组合。这套产品并不再像以往那样复杂,它们可以帮助用户更加全面的洞察发展趋势,让用户知道他们应当尝试利用手中的数据做哪些工作。”