扫一扫
关注微信公众号

“大数据”时代来袭 CIO你还能hold住吗?
2011-11-09   中关村在线

据市场研究公司IDC统计,未来10年里预计数字信息总量将在2009年到2020年期间增长44倍,全球数据使用量将达到大约35.2ZB(1ZB = 10亿TB)。与此同时,单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。

    一项由Unisphere Research对531名独立Oracle用户进行的调查发现,百分之九十的企业的数据量在迅速上涨,其中16%的企业每年的增长率达到50%或更高。不少企业已经感受到失控数据增长对绩效造成的冲击,其中发现87%的受访者将企业的应用程序性能问题归咎于不断增长的数据量。

  为什么人们对大数据如此感兴趣?大数据是一股突破性的经济和技术力量,它为IT支持引入了新的基础架构。大数据解决方案消除了传统的计算和存储的局限。借助于不断增长的私密和公开数据,一种划时代的新商业模式正在兴起,它有望为大数据客户带来新的实质性的收入增长点以及富于竞争力的优势。

  大数据之华山论剑

  尽管"Big Data"可以翻译成大数据或者海量数据,但大数据和海量数据是有区别的。Informatica中国区首席产品顾问但彬认为:"大数据"包含了"海量数据"的含义,而且在内容上超越了海量数据,简而言之,"大数据"是"海量数据"+复杂类型的数据。大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。大数据是由三项主要技术趋势汇聚组成:海量交易数据、海量交互数据、海量数据处理。

  EMC公司全球高级副总裁、大中华区总裁叶成辉在接受记者采访时表示:大数据目前没有统一的定义。通常认为,它是海量的非结构化数据,其特点是数据量很大,数据的形式多样化。

  NetApp 大中华区总经理陈文所理解的大数据包括A、B、C三个要素:大分析(Analytic),高带宽(Bandwidth)和大内容(Content)。

  IBM用三个"V"来作为大数据的判断依据,只要满足了其中的两个即为大数据:多样性(variety)、体量(volume)和速度(velocity)。其中,多样性是指,数据应包含结构化的和非结构化的数据。体量是指聚合在一起供分析的数据量必须是非常庞大的。而速度则是指数据处理的速度必须很快。

  对于大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。还有就是把计算机聚合成服务器集群越来越简单。IDC的数据库管理分析师Carl Olofson认为,这三大因素的结合便催生了大数据。

  Olofson说,大数据"并非总是说有数百个TB才算得上。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要要看它的第三个维度,也就是速度或者时间维度。假如我能在1秒之内分析处理300GB的数据,而通常情况下却需要花费1个小时的话,那么这种巨大变化所带来的结果就会增加极大的价值。所谓大数据技术,就是至少实现这三个判据中的两个的可承受得起的一种应用。"

    大数据意味着通过更快获取信息来使做事情的方式变得与众不同,并因此实现突破。大数据被定义为大量数据(通常是非结构化的),它要求我们重新思考如何存储、管理和恢复数据。那么,多大才算大呢?考虑这个问题的一种方式就是,它是如此之大,以至于我们今天所使用的任何工具都无法处理它,因此,如何消化数据并把它转化成有价值的洞见和信息,这其中的关键就是转变。

  总之,大数据已经引起了各家IT厂商的关注,大数据备受关注的原因有两个,一个数据结构复杂,数据挖掘过程困难;第二,数据量大,而且更新快,处理及时性要求特别高。

#p#副标题#e#

大数据引发新一轮的收购潮

  Gartner曾经有报告指出,有85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。

    而IDC在一篇关于大数据的报告中指出,大数据的商业价值是领军企业与其他企业之间最大的显著差别。那些没有引入新分析技术和新数据类型的企业,不太可能成为这个行业的领军者。

    所以,有专家认为,"大数据"的推动因素主要是来自一些特大型公司,如谷歌、Youtube等。这些公司需要以非常优化的方式分析数据和让计算与存储配合工作。另外,一些来自健康医疗、地理空间影像和数字媒体等行业的各种大数据,很显然,这些数据到不一定有多大,但是处理这些数据集通常要分配到几个系统耗费超过24个小时的时间才能完成。

  一些分析师认为,互联网上的视频通讯的疯狂增长将推动数据的持续增长。但是,据Ideas International存储分析师Christian Ober称,新型电表等智能设备传输数据的增长将在更大的范围内推动这些庞大的数据集。这是在那里应用无数的传感器,传送实时数据以便进行分析。

  伴随着大数据时代的汹涌袭来,业界IT巨头也开始行动起来了。IT巨头纷纷通过收购大数据相关厂商来实现技术整合。其中,最大的收购要数Oracle收购Sun。EMC收购Isilon公司,其集群NAS产品就属于横向扩展(Scale-out)存储,而该技术的优势正是处理非结构性数据。随后,EMC收购的Greenplum,则用来补充针对数据库类的大数据的解决方案。

    IBM收购的Netezza也是类似于Greenplum的技术,充分考虑到了现在的存储需求。近期,Teradata也在积极地收购行动,先后收购了Aprimo和Aster Data两家大数据技术处理公司,Teradata的用意非常明显,抢占即将到来的大数据市场的先机。

  ESG中国区总经理兼高级分析师王丛表示,大数据这一领域将会有一些新技术推出,在未来1-2年内,预计会不断涌现能处理大型非结构化数据的技术。王丛认为,目前北美厂商仍走在全球的前列,而中国国内的厂商目前仍主要在考虑怎么样生产存储和硬件设备,而没有考虑到全面的解决方案。EMC、IBM收购这些公司的目的是整合整个解决方案,让它在IT上是透明的,进一步靠近存储、靠近数据。

面对大数据来袭,很多IT巨头IBM、EMC、Teradata等已经提前开始布局,通过收购实现产品的整合,以满足新的市场需求。而一些开源技术和产品也适时地发展壮大起来,迎合着各行业用户的需求,几乎成为业界公认的标准技术了。

    大数据也有“大智慧”

    基于MapReduce的Hadoop引起业界的广泛关注,而且也逐渐得到大批主流数据厂商的支持。在大数据领域中,包括Hadoop、MapReduce等一些新技术都得到了更广泛的应用,Hadoop MapReduce为通用计算与分布式架构架起了一座桥梁,而传统的企业数据仓库技术则遭遇了前所未有的挑战。通过使用Apache Hadoop,企业能够避于支付大量的软件许可费用,还可以根据变更的需求更改原代码从而得到更高的灵活性。

    据了解,Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台,是和各种Apache项目密切相关的混合实施环境。

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。Hadoop具有以下主要特点:

  1 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。

  2 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

  3 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。

  4 可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。

    同时,不同的IT公司在面对大数据的时候处理方式也有不同。SAP中国区企业信息管理咨询资深顾问杜韬在接受记者采访时,分析了应该如何处理分析大数据。一方面,在数据中心使用标准的虚拟化以及分布式存储;另一方面,推出内存计算技术应对数据应用和分析的挑战。杜韬认为,传统的架构存在很大的瓶颈,磁盘读取是以毫秒为单位,而内存读取则是纳秒为单位的。因此,以前需要在应用层做的计算分析,比如预测分析或者大量运算,都应该放到内存里操作,从而实现性能提升,以充分利用数据。

    Yahoo!北京全球软件研发中心架构师韩轶平分析称,Yahoo通过三步应对大数据:数据采集、数据存储和数据处理等。在数据采集方面,Yahoo建立几个数据中心、几十万台机器的实时搜集数据系统是一个主干道负责把数据经过过滤、清理以后进行整合,在高可靠性的情况下,把它放到Hadoop平台。虽然相对来说精度很高、效果很好,但速度会慢一些。为了满足实时性的需求,还有一个旁路系统,旁路系统在秒级能够把数据汇到主干道上,这是数据采集的部分。在数据存储方面,基本上以HDFS为核心。而在数据处理方面,主要技术是Hadoop、MapReduce以及Yahoo自己开发的Pig。

    但是,很多专家也提出来,开源技术一般是没有商业支持的,所以这些东西还必须让其进化一段时间,逐渐剔除各种缺陷,而这一般需要数年的时间。这就是说,羽毛未丰的大数据技术Hadoop目前还无法在普通市场上普及。

    所以有专家提出EDW(企业数据仓库)来解决大数据的问题。那么,如何在Hadoop和EDW之间做出选择困扰着许多企业用户。Teradata公司的首席客户官周俊凌认为,技术以及平台的选择在大数据时代同之前相比并没有太多的不同,企业首先考虑的仍然是自身业务需求。Hadoop架构的存在有它的理由,但是这并不意味着在成本方面会比EDW有更多优势。同时,Teradata公司的首席客户官周俊凌提醒用户:"企业在进行技术的选择时不应只看首次投入的成本,Hadoop不是一劳永逸的,你需要不断对其进行维护,考虑持续的投入,无论是人力还是物力,它都可能会比传统的EDW要大。因此企业不应该一味迷信于新技术,无论是购买平台还是进行定制,用户需要从自身需求出发。"

原文链接:http://server.zol.com.cn/256/2568373.html

热词搜索:

上一篇:大数据时代:如何节省存储成本[组图]
下一篇:采用SAS交换技术应对大数据时代存储挑战

分享到: 收藏