英特尔中国首席工程师苗凯翔在2012中国大数据创新峰会上发表演讲。苗凯翔称,大数据肯定是一个很重要的方向,就其个人来看,它跟云在一起真正是变革性的大飞跃,它可能会将整个的信息化社会拔高一层,如果我们现在是生活在信息化社会的1.0的话,信息化大数据会把我们带到2.0。
苗凯翔表示,现在说只要到了TB就是大数据,还有一种说法就是你的数据到一定程度上你就很难搬来搬去,你一定要去找数据。无论怎么说,大数据它的量是海量的,其次它的增长速度非常快,60%、50%,甚至说可能要到90%的增长速度。
以下为苗凯翔大会现场文字实录:
苗凯翔:大家好,主要是从我个人的角度看一下大数据的现象,其次我要谈一下英特尔在大数据上到底在干什么。
大数据正在发生,比如说2011年一年总的数据量是1.8ZB,去年每两天的数据相当于人类从发展到2003年所有数据的总和,量是相当大的,但是大数据不仅是因为量,速度的增长也是非常客观的,比如说刚才朱总谈到,从现在开始到2015年,数据会是现在的44倍,这是我听到目前最大的预计了,我听到的是每年以50%、60%的速度增长。无论怎么说,大数据无论是量非常大,而且增长速度非常快。今天提到大数据本身,是一场革命性的变化,对IT的信息革命是有很大意义的。很多人把大数据比喻成摩尔定律的现象,其实这是很难比的,有人说大数据是每5年翻10倍。无论怎么说,这个现象是很可观的。
我这里说一个,21世纪信息要成为像现代石油一样重要,我觉得这种说法是一种非常可观的说法,有很多人说云在发生,大数据也在发生,但是很不一样,云可能是一种计算资源的优化,一个彻底革命的优化,而且是商业模式突破,目标可能最终是节省资源,但是大数据完全不一样,它是产生价值,产生一种真正的商业价值,各方面的价值出来。所以这两样东西虽然同时在发生,但是其意义是完全不一样的,这是我看到的现象。
大家都说到底什么是大数据?现在说只要到了TB就是大数据,还有一种说法就是你的数据到一定程度上你就很难搬来搬去,你一定要去找数据。无论怎么说,大数据它的量是海量的,其次它的增长速度非常快,60%、50%,甚至说可能要到90%的增长速度。还有工业化就谈到几个V,这个可能之后还要增长,就是说非结构化这种数据的价值、各种性能、对处理速度的需求是很重要的,当然随之而来的就是对处理数据各方面的应用,比如说数据的挖掘、预测。所以大数据对我们来讲意味着产生了一个新的生态环境,像云一样迅猛的发展,大数据的生态环境也会迅猛的发展,这是我们看到的。
英特尔在干什么?英特尔作为一个公司,大家都知道它是芯片厂商的公司,但是英特尔公司实际上干了很多东西大家不知道,提到云的话,现在我们全球最新的统计,全球建云系统94%的市场份额都用的英特尔的服务器,不仅服务器方面,最近我们也买了一些公司,怎么样提高I/O的性能、网络的性能,新的存储模式我们都在搞,这里无疑大家都很清楚,软件上我们英特尔干的事情。然后就是硬件层,硬件层之外提供了很多、很多的工具,因为有这个平台了,你如果没有很好的工具让人怎么用?所以我们很重视工具方面,云的管理工具、底层监视工具等等,所以说软件、硬件我们有很多。另外,英特尔在全球有广泛的合作,不仅是硬件厂商,而且和终端用户也有很多的合作。这样的话让我们更好的了解用户的心声,知道他在想什么、他的需求是什么、他是怎么用这些技术的。另外我们有一个投资团队。
可能大家不知道的,英特尔大约在4、5个月以前成立了一个部门,针对目前工业界的状态,云的发生、数据中心的变革以及大数据的发生,我们刚成立了一个数据中心软件部,这个部门和其它的部门合作,跟英特尔研究院、数据中心部门、英特尔软件部、英特尔IT部一起合作,从研究到开发,到硬件具体的新平台怎么集成,开发出一些新的软件来甚至搞产品。这个部门的输出就是一些商用产品,不仅是为业界提供一些工具,我们这个公司是真正能让用户用的软件产品,这是整个部门的初衷。他具体干的事情有很多,比如说大数据搞(合度比),下一代的存储技术,云的安全、功耗管理等各方面工作有很多,这个部门在上海也有团队。英特尔实际大家看到它是一个硬件公司,实际上英特尔的软件实力还是很强的,英特尔在全球有非常多的软件工程师。
提到这个部门,我再举一个例子,在这方面一个具体的产品我们干了将近三年,就是Hadoop,我们跟各个部门合作、开源部门合作,我们有一个开源技术中心,几百人一起干了一段时间,把Hadoop变成一个商用的产品,绿色和蓝色就是我们做的很多工作,把它变成产品型的东西。我们的重点在哪呢?在高可用性上做了很多的工作,还在可靠性上等等方面都做了很多的工作。我们现在有一个平台跑了一年时间没有出现任何的问题,所以说还是一个非常可靠的系统、平台,这个我们在国内也开始推广,跟很多的客户干一些工作,看他们的需求。英特尔的平台是非常广泛的,基于我们对英特尔硬件平台的理解和深入的技能,所以我们对它进行了很多优化,让Hadoop的平台性能更好,比如说把我们的产品跟开源社区的比较一下,性能方面提高了5-10倍,这样一个状况。
英特尔的优势就是两头,一个是对硬件平台我们的实力,不仅是对产品的理解和产品整个市场份额上,再就是对用户的需求我们有很多的接触,英特尔在全球有很大的市场人员,他们可以直接和很大的生态环境里各个市场里的人接触,了解他们的需求,了解他们具体的用法,然后把它变成一个具体的能解决产品方面的需求,加在一起来优化产品,这就是英特尔在软件开发上面的优势。
这是我们在国内的一些最佳实践,等于最近1、2年时间我们在国内也跟很多市场有一些接触,在大数据方面也干了一些东西。第一,跟电信行业有很多的接触、讨论,也有一些具体的部署,在金融方面也有,当然还有其他各行业。这个图就显示了英特尔虽然这个部门叫数据中心软件部门,开发的是软件,但是整个的生态环境是一个合作的模式,从底层有服务器和各式各样的硬件厂商一起干这事情,中间把软件解决方案放进去,然后跟一些本土的软件厂商、应用合作,最终跟客户一起把这东西搞好,这是我们的工作模式。
刚才讲到电信,电信上我们在广东搞了一个项目,比如他们搞一些CDR,像这种打电话的记录、用户行为的数据以及网络,三类总量上我们一个运营商就到了5.1TB的数据,应用上也是各式各样,这是我们一起合作把平台建立起来,用英特尔的平台跑。还有一个项目,我们很重视的项目,跟很多中国的合作伙伴、政府在搞智慧城市的方向,当然智慧城市很大,里面可能包括电网、医疗、交通、城市安全、楼宇监控等各方面,现在我们也在看重点在哪,目前干了几个项目,一个是医疗方面,也是用英特尔很多平台,医疗的数据也非常复杂、非常多,大家很清楚,各式各样的数据,比如这地面不仅有文字、表格,还有一些诸如X光的数据、影像的数据甚至音频、视频都有,它的应用场景很多,所以这里我们跟他们有很多的讨论,怎么样支持在医疗行业里的大数据,他们怎么样充分利用数据的价值,提供更好的服务或者改进目前的服务。
还有一方面就是视频,视频大家很清楚,视频已经很多年了,目前互联网里的数据60%、70%都是视频数据,随着3G、4G的发生,这种对视频的需求可能会更多,这个数据量也非常大。但是数据不仅限于3G、家里的互联网,它很多也是在城市交通、监控、城市安全监控,在各个领域、各个行业里视频都有很多的应用,所以这里我们也在研究。也有一些在各个城市的具体合作,比如说现在我们正在搞的在交通方面看一下视频数据怎么用起来,干一些真正的事情,比如说交通方面的监控,跟车载的功能联系起来,通过各种服务像GPS,比如说对一些车辆的控制,这方面也在做。
还有一个应用,因为英特尔IT是一个比较典型的企业的IT部门,英特尔内部有很大的开发团队,有很多、很多的实验室,上百个点,也有自己的工厂,生产芯片的工厂、芯片设计也会产生大量的数据,还有整个企业的IT系统,也有很多的员工,员工也产生数据,比如任何一个员工都有多个终端,他产生的PPT、文档等数据汇总起来也非常可观。所以我们也在探讨在企业方面如何利用大数据搞一些解决方案,我们做了很多,比如说工厂里面我们在看,诸如对网络的监控、对数据中心的管理,市场方面的预测、整个市场方面的管理以及供应链的管理,这都是我们在大数据方面作为企业方面一起用力,直接数据中心大数据的工作和英特尔IT合作干的事情。
总的来说大数据肯定是一个很重要的方向,我个人来看,它跟云在一起真正是变革性的大飞跃,它可能会将整个的信息化社会拔高一层,如果我们现在是生活在信息化社会的1.0的话,信息化大数据会把我们带到2.0,英特尔是有这个意愿和决心一起与产业家把这件事做好,谢谢大家。