Platform MapReduce帮助企业应对“大数据”挑战_中国IT运维网www.cnitom.com

　　这是一个数据爆炸的时代！IDC在最近的一次调研中，对数据的增长做了一个粗略的估计：到今年年末将有1.8万亿字节的数据存放于50亿个文件中，IDC据此估计，到2015年将产生7.9千万亿兆字节的数据。
　　数据量太庞大了，即使是最快的IT系统也跟不上收集数据的速度。而所有的这些信息需要筛选、处理并集成，最后进行分析，才能为企业带来价值。因此，如何把这些数据转变成有用信息成为企业亟待解决的问题。

“大数据”问题的由来
　　一直以来，IT人员都是通过面向批处理的数据仓库架构来提供及时的数据分析，但在今天，随着数据量的激增和新数据类型及其所需的数据处理方法，这种架构已经不堪重负了，这是因为，现有的数据仓库是为结构化数据构建的，非结构化数据并不适合这种架构模式，但实现的情况是：80％的数据是非结构化的。移动和修改海量的非结构化数据将耗费大量的人力物力，因而无法将非结构化数据转换成必要的结构以方便抽取。
　　除此之外，为了满足新兴的业务需求，IT部门还需要采用新的方法来访问、处理和分析多种类型的非结构化数据及相关架构，并且应当以企业级的高标准来完成。如果没有一种灵活的企业级方法来访问、处理和分析非结构化数据并据此作出明智的业务决策，那么没有内在价值的数据会让IT部门不堪重负——这就是我们今天面临的“大数据”问题。

企业级“大数据”解决方案
　　根据2011 TDWI的一份调查，34%的企业开始使用大数据分析来帮助制定决策。MapReduce无疑是解决“大数据”问题最受关注的新一代技术。MapReduce提供了在计算集群下分布处理大数据的软件框架，利用MapReduce解决方案，开发人员可以开发出运行在分布式集群上，能够并行处理海量非结构化数据的程序。
　　一个企业级的MapReduce应该提供以下功能：

能够在整个企业范围内部署和运行数据抽取和分析程序。
管理和监控大规模环境。
包括一个负载管理系统以确保服务质量，并根据业务目标，确定应用的优先级。
可为多个MapReduce用户和业务部门提供服务，可能还需为其他分布式处理提供服务。
具备一定的灵活性，可根据特定的应用需求来选择合适的存储和文件系统。

　　由于在性能和扩展性方面存在不足，现有的MapReduce解决方案还难以满足企业通过MapReduce对庞大的异构数据集执行分布式计算需求。
　　为了满足将MapReduce应用迁移至生产环境的需求，全球领先的集群、网格、云中间件和云管理平台提供商——Platform公司已经将其企业级的工作负载管理功能引入到“大数据”领域。
　　Platform MapReduce是Platform公司最新交付的业界首款针对MapReduce应用程序的企业级分布式运行引擎，基于该公司近二十年来在分布式架构管理领域积累的丰富经验以及Platform Symphony核心技术而构建，能够帮助企业克服将应用程序转移至生产环境的一切障碍，非常适用于跨分布式文件系统的企业级运行服务。
　　作为一种分布式计算平台，Platform MapReduce支持开放应用架构，该架构支持企业采用的多种分布式文件系统。它的企业级功能包括：每个MapReduce应用能够扩展至数千个处理器、能以非常高的速度运行、能够在为多个业务部门用户控制负载策略的同时为IT提供可管理性和监控能力，它还有内置的高可用性服务，以确保必要的服务质量。
　　与市场上开源和商用MapReduce分布式工作负载引擎不同，Platform MapReduce提供了企业级的MapReduce应用程序分布式运行引擎，可以实现对跨整个分布式文件系统的集群中的MapReduce应用程序进行调度和管理。它提供了企业级的可管理性和可伸缩性、高资源利用率和可用性、操作便利性、多应用支持以及一个开放分布式系统架构，其中还包括了对于Hadoop分布式文件系统（HDFS）和Appistry Cloud IQ的支持，这将确保企业可以放心地将MapReduce应用程序转移至生产环境中。Platform MapReduce提供的关键价值包括企业级可管理性和伸缩性、高资源利用率和共享功能、高可靠性、易管理性、多应用支持、开放分布式文件系统架构等。
　　目前，Platform公司提供的MapReduce企业级解决方案目前已经在多个关键的市场广泛采用，用户涉及金融服务、电信、政府机构、生命科学和零售等领域。Platform MapReduce已经成为企业面对“大数据”挑战最值得信赖的基石。