在英特尔的推动下,IT系统通信带宽和计算能力遵循摩尔法则不断创下历史新高,保持了每12-18个月翻一番的发展速度。与此同时,IDC最新“数字宇宙”研究预测:数据增长速度将超过摩尔定律,2011年将达到1.8ZB;未来10年,企业将管理50倍于现在的数据量,文件量将增加75倍。在数字宇宙飞速膨胀的背景下,“大数据”的概念也应运而生。
详解Big Data
其实,大数据和云计算是两个相生相伴的概念,尽管业界暂时并没有关于大数据的官方定义,但其实,各厂商对大数据的理解已经达成共识。
EMC信息基础设施产品部总监兼首席运营官Pat Gelsinger认为:大数据应该包括三个要素,首先,大数据是大型的数据集,一般在10TB规模左右,有时候多个数据集集合在一起会形成PB集数据量。其次,这些数据集往往来自于不同的应用和数据源,要求系统能够把半结构化、非结构化和结构化的数据很好地融合起来;最后,大数据还具有实时、可迭代的特点。
IDC全球存储及大数据项目副总裁Benjamin Woo则提出,大数据有四个基本要素,Volume、Variety、Velocity、value。首先,数据在容量上是海量的;其次,大数据是由大量的人提供的庞大数据集,具备多样性特征;此外,无论是企业还是遍布世界各地的个人用户提供数据,这些数据的价值是非常高的,此外,从系统要求来说,希望获得数据的速度是非常快速的。所以用四个V来概括大数据特点。
此外,EMC对大数据和云之间的关系做了更为深入的诠释:大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存在很多合力的地方。
“当我们打造云设施的时候,就会想云设施上应该跑什么样的应用,大数据就是在云上跑的、非常典型的应用。例如尽管电子邮件也是云上的应用之一,但也可以脱离云架构,但是大数据应用必须架构在云设施上。这就是两者的关系——大数据离不开云。” Pat Gelsinger如是说。
原文链接:http://storage.it168.com/a2011/1128/1280/000001280114.shtml