这是一个数据爆炸的时代!IDC在最近的一次调研中,对数据的增长做了一个粗略的估计:到今年年末将有1.8万亿字节的数据存放于50亿个文件中,IDC据此估计,到2015年将产生7.9千万亿兆字节的数据。
数据量太庞大了,即使是最快的IT系统也跟不上收集数据的速度。而所有的这些信息需要筛选、处理并集成,最后进行分析,才能为企业带来价值。因此,如何把这些数据转变成有用信息成为企业亟待解决的问题。
“大数据”问题的由来
一直以来,IT人员都是通过面向批处理的数据仓库架构来提供及时的数据分析,但在今天,随着数据量的激增和新数据类型及其所需的数据处理方法,这种架构已经不堪重负了,这是因为,现有的数据仓库是为结构化数据构建的,非结构化数据并不适合这种架构模式,但实现的情况是:80%的数据是非结构化的。移动和修改海量的非结构化数据将耗费大量的人力物力,因而无法将非结构化数据转换成必要的结构以方便抽取。
除此之外,为了满足新兴的业务需求,IT部门还需要采用新的方法来访问、处理和分析多种类型的非结构化数据及相关架构,并且应当以企业级的高标准来完成。如果没有一种灵活的企业级方法来访问、处理和分析非结构化数据并据此作出明智的业务决策,那么没有内在价值的数据会让IT部门不堪重负——这就是我们今天面临的“大数据”问题。
企业级“大数据”解决方案
根据2011 TDWI的一份调查,34%的企业开始使用大数据分析来帮助制定决策。MapReduce无疑是解决“大数据”问题最受关注的新一代技术。MapReduce提供了在计算集群下分布处理大数据的软件框架,利用MapReduce解决方案,开发人员可以开发出运行在分布式集群上,能够并行处理海量非结构化数据的程序。
一个企业级的MapReduce应该提供以下功能:
- 能够在整个企业范围内部署和运行数据抽取和分析程序。
- 管理和监控大规模环境。
- 包括一个负载管理系统以确保服务质量,并根据业务目标,确定应用的优先级。
- 可为多个MapReduce用户和业务部门提供服务,可能还需为其他分布式处理提供服务。
- 具备一定的灵活性,可根据特定的应用需求来选择合适的存储和文件系统。
由于在性能和扩展性方面存在不足,现有的MapReduce解决方案还难以满足企业通过MapReduce对庞大的异构数据集执行分布式计算需求。
为了满足将MapReduce应用迁移至生产环境的需求,全球领先的集群、网格、云中间件和云管理平台提供商——Platform公司已经将其企业级的工作负载管理功能引入到“大数据”领域。
Platform MapReduce是Platform公司最新交付的业界首款针对MapReduce应用程序的企业级分布式运行引擎,基于该公司近二十年来在分布式架构管理领域积累的丰富经验以及Platform Symphony核心技术而构建,能够帮助企业克服将应用程序转移至生产环境的一切障碍,非常适用于跨分布式文件系统的企业级运行服务。
作为一种分布式计算平台,Platform MapReduce支持开放应用架构,该架构支持企业采用的多种分布式文件系统。它的企业级功能包括:每个MapReduce应用能够扩展至数千个处理器、能以非常高的速度运行、能够在为多个业务部门用户控制负载策略的同时为IT提供可管理性和监控能力,它还有内置的高可用性服务,以确保必要的服务质量。
与市场上开源和商用MapReduce分布式工作负载引擎不同,Platform MapReduce提供了企业级的MapReduce应用程序分布式运行引擎,可以实现对跨整个分布式文件系统的集群中的MapReduce应用程序进行调度和管理。它提供了企业级的可管理性和可伸缩性、高资源利用率和可用性、操作便利性、多应用支持以及一个开放分布式系统架构,其中还包括了对于Hadoop分布式文件系统(HDFS)和Appistry Cloud IQ的支持,这将确保企业可以放心地将MapReduce应用程序转移至生产环境中。Platform MapReduce提供的关键价值包括企业级可管理性和伸缩性、高资源利用率和共享功能、高可靠性、易管理性、多应用支持、开放分布式文件系统架构等。
目前,Platform公司提供的MapReduce企业级解决方案目前已经在多个关键的市场广泛采用,用户涉及金融服务、电信、政府机构、生命科学和零售等领域。Platform MapReduce已经成为企业面对“大数据”挑战最值得信赖的基石。