据市场研究公司IDC统计,未来10年里预计数字信息总量将在2009年到2020年期间增长44倍,全球数据使用量将达到大约35.2ZB(1ZB = 10亿TB)。与此同时,单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。
一项由Unisphere Research对531名独立Oracle用户进行的调查发现,百分之九十的企业的数据量在迅速上涨,其中16%的企业每年的增长率达到50%或更高。不少企业已经感受到失控数据增长对绩效造成的冲击,其中发现87%的受访者将企业的应用程序性能问题归咎于不断增长的数据量。
为什么人们对大数据如此感兴趣?大数据是一股突破性的经济和技术力量,它为IT支持引入了新的基础架构。大数据解决方案消除了传统的计算和存储的局限。借助于不断增长的私密和公开数据,一种划时代的新商业模式正在兴起,它有望为大数据客户带来新的实质性的收入增长点以及富于竞争力的优势。
大数据之华山论剑
尽管"Big Data"可以翻译成大数据或者海量数据,但大数据和海量数据是有区别的。Informatica中国区首席产品顾问但彬认为:"大数据"包含了"海量数据"的含义,而且在内容上超越了海量数据,简而言之,"大数据"是"海量数据"+复杂类型的数据。大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。大数据是由三项主要技术趋势汇聚组成:海量交易数据、海量交互数据、海量数据处理。
EMC公司全球高级副总裁、大中华区总裁叶成辉在接受记者采访时表示:大数据目前没有统一的定义。通常认为,它是海量的非结构化数据,其特点是数据量很大,数据的形式多样化。
NetApp 大中华区总经理陈文所理解的大数据包括A、B、C三个要素:大分析(Analytic),高带宽(Bandwidth)和大内容(Content)。
IBM用三个"V"来作为大数据的判断依据,只要满足了其中的两个即为大数据:多样性(variety)、体量(volume)和速度(velocity)。其中,多样性是指,数据应包含结构化的和非结构化的数据。体量是指聚合在一起供分析的数据量必须是非常庞大的。而速度则是指数据处理的速度必须很快。
对于大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。还有就是把计算机聚合成服务器集群越来越简单。IDC的数据库管理分析师Carl Olofson认为,这三大因素的结合便催生了大数据。
Olofson说,大数据"并非总是说有数百个TB才算得上。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要要看它的第三个维度,也就是速度或者时间维度。假如我能在1秒之内分析处理300GB的数据,而通常情况下却需要花费1个小时的话,那么这种巨大变化所带来的结果就会增加极大的价值。所谓大数据技术,就是至少实现这三个判据中的两个的可承受得起的一种应用。"
大数据意味着通过更快获取信息来使做事情的方式变得与众不同,并因此实现突破。大数据被定义为大量数据(通常是非结构化的),它要求我们重新思考如何存储、管理和恢复数据。那么,多大才算大呢?考虑这个问题的一种方式就是,它是如此之大,以至于我们今天所使用的任何工具都无法处理它,因此,如何消化数据并把它转化成有价值的洞见和信息,这其中的关键就是转变。
总之,大数据已经引起了各家IT厂商的关注,大数据备受关注的原因有两个,一个数据结构复杂,数据挖掘过程困难;第二,数据量大,而且更新快,处理及时性要求特别高。