SGI和Cloudera签署了一份协议,允许SGI销售预先安装了带有Cloudera Hadoop发行版及商业支持的集群。但是该交易最为有趣的部分就是目前看来该协议关注通用的部署而不是高性能计算部署,而高性能计算部署恰恰是SGI主要的收入来源。很明显的是,HPC用户更乐意将性能置于社区之前,如果供应商不是为了推举用于HPC工作负载的Hadoop替代选择的话,那么上述协议将令人感到惊讶。
Timothy Prickett Morgan发表文章向媒体透露了Cloudera与SGI签署协议的消息。他的观点是“SGI计划更多地关注兜售用于Hadoop集群的Rackable公司高效节能的机器,还包括了设计用于HPC超级计算工作负载的Altix ICE集群。”考虑到Cloudera已经已经和Dell签署了一份非常相似的分销商合同,而且SGI在产品方面主要的区分度是其Altix产品线而不是Rackable,因此这个决定看起来有些奇怪。而且,正如Timothy Prickett Morgan所解释的那样,SGI一直在为某些使用Altix服务器的大客户构建大规模的Hadoop集群
然而,上述定制部署实际上是将SGI置于为数不多的公司中间,正是这些公司在推动针对HPC的Hadoop应用。可能这一趋势最好的例子就是微软,尽管已经有了Dryad框架,微软在上周公布了为Windows服务器以及Azure提供Hadoop发行版的计划。在3月份,微软的Madhu Reddy将Dryad描述为“通过提供一个高级的,分布式运行时和关联编程模型使新一类的数据密集型应用成为了可能。其中,关联编程模型允许各种类型的组织使用集群对大容量的非结构化数据进行分析。”
在微软的Hadoop新闻公布后,Madhu Reddy给我发送了有关Dryad更新的邮件,在邮件中他对Dryad新的名字“L2H(LINQ To HPC)”进行了解释,L2H 的HPC关注点在于:
因为L2H和Windows HPC 服务器进行了集成,针对HPC场景(也就是需要输入大量数据或者从HPC应用输出大量数据,而且必须对这些数据进行分析并进行可视化)下的大数据分析进行了优化。我们以内部部署以及Windows Azure HPC 大数据场景为目标。
IBM在上周收购了Platform Computing,看得出IBM也在采取以non-Hadoop为重点的高性能计算方法。正如当时我所解释的那样,Platform公司在大型银行的高性能计算领域很有名,现在该公司正在将这种优势带入使用MapReduce管理产品的大型数据中。Platform MapReduce能够同时支持Hadoop MapReduce和Hadoop分布式文件系统,同时Platform MapReduce在计算和存储层还支持其他的大量框架。如果这些框架比相应的Hadoop产品提供了更好的性能,那么很容易相信IBM的HPC用户将不会使用Hadoop。
LexisNexis分支HPCC系统可能也有机会向对性能敏感的用户销售替代Hadoop的处理系统以及高性能计算集群。该软件主要是用于处理大量的数据、商业智能和其他的高级的客户,非常适合某类工作负载。CTO Armando Escalante最近向我解释了该类工作负载,真正的挑战是在比较传统的Web开发者之间,将公司的产品定位于作为Hadoop的替代选择。
推动针对HPC工作负载的Hadoop替代选择(或者在SGI的例子中,进行定制而不是预先打包Hadoop构建)的意愿很可能源于HPC领域使用专门用于满足每个应用特定性能需求的工具的历史。然而,主流用户对欣欣向荣的Hadoop社区表示担心,因为这意味着更好的产品以及更加持续的创新与支持。HPC用户通常关心什么运行得最好。如果和Hadoop相比,LINQ,HPCC或者任何框架提供了更快,更好的用户体验,那么或许他们将发现一个忠诚的用户团队,而这个团队就潜伏在世界的研究实验室以及高性能数据中心当中。
英文原文出处:http://gigaom.com/cloud/the-curious-case-of-hadoop-in-hpc/
原文链接:http://cloud.it168.com/a2011/1114/1272/000001272940.shtml