五、Hadoop的低成本非结构化数据处理
Apache Hadoop是成长速度最快的开源项目之一,它是用于处理分布式数据尤其是大量非结构化数据的组件集合。而MapReduce是基于Hadoop的快速处理大量信息的编程模型。传统的关系型数据库,比如IBM Netezz、甲骨文、Teradata和MySQL不能处理这种数据,因为它们不能适应整行或者整列数据的情形,即使它们能够提供支持,其带来的许可成本会令人望而却步。因为数据规模通常都是成百上千TB甚至PB级。Hadoop是一款免费软件,可以运行在低成本的硬件平台上(Hadoop部署需要日常维护,并不是免费的)。
Hadoop的特点
采用Hadoop的急先锋包括有雅虎、eHarmony、Facebook、NetFlix和Twitter,而且也有越来越多的商业机构对Hadoop开始感兴趣。
六、Hadoop减轻数据加载和处理烦恼
据预测,Hadoop市场规模将增长到数十亿美元,而且相应配套和集成的产品也正在迅速成长。比如著名的数据集成厂商Informatica、Pervasive Software、SnapLogic和Syncsort,都宣布了旨在帮助更快更容易的与新一代处理平台协同的产品或者集成方案。
Pervasive Software公司Data Rush工具可以提供与Hadoop协同、并行处理的优化,数据服务商InfoChimps采用该工具与Hadoop实例运行在亚马逊的EC2云平台上。该公司首席技术官Philip Kromer(图示)表示,经过Data Rush对数百GB数据的测 试发现,其性能提升了2-4倍,由以往的16个小时降低到8小时,从而帮助InfoChimps降低计算成本,能够从Twitter和其他非关系数据源获取更多数据。
Informatica、SnapLogic、Syncsort和其他厂商,在跨传统数据库和Hadoop部署上使用单个工具,正使得数据加载、分类和汇总变成可能。某个单一和熟悉的方式和工具集,会让管理数据的专业人员工作变得更加轻松。
七、速度胜于规模
在很多情况下,大数据中的“大”并不是每天加载和分析的信息数据库规模,比如市场营销人员,通常加载和分析大量数据以尽快洞察市场行情,从而做出快速反应,并重新细分市场,而不会浪费精力和金钱到无用的事情上去。
为出版商、广告商提供搜索、联合营销服务,广告网络公司Linkshare每天需要装载和分析数百GB网络点击数据,但总的数据库容量却仅为6TB。低延迟正越来越成为该公司获取竞争力的法宝之一,该公司首席运营官Jonathan Levine表示,“五年以前将昨天的数据信息提交给用户还能满足需要,但现在不能再拖延了。”