大数据引发新一轮的收购潮
Gartner曾经有报告指出,有85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。
而IDC在一篇关于大数据的报告中指出,大数据的商业价值是领军企业与其他企业之间最大的显著差别。那些没有引入新分析技术和新数据类型的企业,不太可能成为这个行业的领军者。
所以,有专家认为,"大数据"的推动因素主要是来自一些特大型公司,如谷歌、Youtube等。这些公司需要以非常优化的方式分析数据和让计算与存储配合工作。另外,一些来自健康医疗、地理空间影像和数字媒体等行业的各种大数据,很显然,这些数据到不一定有多大,但是处理这些数据集通常要分配到几个系统耗费超过24个小时的时间才能完成。
一些分析师认为,互联网上的视频通讯的疯狂增长将推动数据的持续增长。但是,据Ideas International存储分析师Christian Ober称,新型电表等智能设备传输数据的增长将在更大的范围内推动这些庞大的数据集。这是在那里应用无数的传感器,传送实时数据以便进行分析。
伴随着大数据时代的汹涌袭来,业界IT巨头也开始行动起来了。IT巨头纷纷通过收购大数据相关厂商来实现技术整合。其中,最大的收购要数Oracle收购Sun。EMC收购Isilon公司,其集群NAS产品就属于横向扩展(Scale-out)存储,而该技术的优势正是处理非结构性数据。随后,EMC收购的Greenplum,则用来补充针对数据库类的大数据的解决方案。
IBM收购的Netezza也是类似于Greenplum的技术,充分考虑到了现在的存储需求。近期,Teradata也在积极地收购行动,先后收购了Aprimo和Aster Data两家大数据技术处理公司,Teradata的用意非常明显,抢占即将到来的大数据市场的先机。
ESG中国区总经理兼高级分析师王丛表示,大数据这一领域将会有一些新技术推出,在未来1-2年内,预计会不断涌现能处理大型非结构化数据的技术。王丛认为,目前北美厂商仍走在全球的前列,而中国国内的厂商目前仍主要在考虑怎么样生产存储和硬件设备,而没有考虑到全面的解决方案。EMC、IBM收购这些公司的目的是整合整个解决方案,让它在IT上是透明的,进一步靠近存储、靠近数据。
面对大数据来袭,很多IT巨头IBM、EMC、Teradata等已经提前开始布局,通过收购实现产品的整合,以满足新的市场需求。而一些开源技术和产品也适时地发展壮大起来,迎合着各行业用户的需求,几乎成为业界公认的标准技术了。
大数据也有“大智慧”
基于MapReduce的Hadoop引起业界的广泛关注,而且也逐渐得到大批主流数据厂商的支持。在大数据领域中,包括Hadoop、MapReduce等一些新技术都得到了更广泛的应用,Hadoop MapReduce为通用计算与分布式架构架起了一座桥梁,而传统的企业数据仓库技术则遭遇了前所未有的挑战。通过使用Apache Hadoop,企业能够避于支付大量的软件许可费用,还可以根据变更的需求更改原代码从而得到更高的灵活性。
据了解,Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台,是和各种Apache项目密切相关的混合实施环境。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。Hadoop具有以下主要特点:
1 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
2 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
3 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
4 可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。
同时,不同的IT公司在面对大数据的时候处理方式也有不同。SAP中国区企业信息管理咨询资深顾问杜韬在接受记者采访时,分析了应该如何处理分析大数据。一方面,在数据中心使用标准的虚拟化以及分布式存储;另一方面,推出内存计算技术应对数据应用和分析的挑战。杜韬认为,传统的架构存在很大的瓶颈,磁盘读取是以毫秒为单位,而内存读取则是纳秒为单位的。因此,以前需要在应用层做的计算分析,比如预测分析或者大量运算,都应该放到内存里操作,从而实现性能提升,以充分利用数据。
Yahoo!北京全球软件研发中心架构师韩轶平分析称,Yahoo通过三步应对大数据:数据采集、数据存储和数据处理等。在数据采集方面,Yahoo建立几个数据中心、几十万台机器的实时搜集数据系统是一个主干道负责把数据经过过滤、清理以后进行整合,在高可靠性的情况下,把它放到Hadoop平台。虽然相对来说精度很高、效果很好,但速度会慢一些。为了满足实时性的需求,还有一个旁路系统,旁路系统在秒级能够把数据汇到主干道上,这是数据采集的部分。在数据存储方面,基本上以HDFS为核心。而在数据处理方面,主要技术是Hadoop、MapReduce以及Yahoo自己开发的Pig。
但是,很多专家也提出来,开源技术一般是没有商业支持的,所以这些东西还必须让其进化一段时间,逐渐剔除各种缺陷,而这一般需要数年的时间。这就是说,羽毛未丰的大数据技术Hadoop目前还无法在普通市场上普及。
所以有专家提出EDW(企业数据仓库)来解决大数据的问题。那么,如何在Hadoop和EDW之间做出选择困扰着许多企业用户。Teradata公司的首席客户官周俊凌认为,技术以及平台的选择在大数据时代同之前相比并没有太多的不同,企业首先考虑的仍然是自身业务需求。Hadoop架构的存在有它的理由,但是这并不意味着在成本方面会比EDW有更多优势。同时,Teradata公司的首席客户官周俊凌提醒用户:"企业在进行技术的选择时不应只看首次投入的成本,Hadoop不是一劳永逸的,你需要不断对其进行维护,考虑持续的投入,无论是人力还是物力,它都可能会比传统的EDW要大。因此企业不应该一味迷信于新技术,无论是购买平台还是进行定制,用户需要从自身需求出发。"
原文链接:http://server.zol.com.cn/256/2568373.html