在2012年8月8日下午举行的VMware & EMC大数据云高峰论坛上,VMware全球高级副总裁范承工分享数据管理技术的变迁时表示,数据、云及云的使用者的变化带来的三大趋势催生了将与传统数据库长期共存的数据云,而虚拟化技术和开源软件则将架起两方共同和谐生存的桥梁。
在当前大数据如火如荼的背景下,VMware和EMC双方联手举办此次论坛,共同就把握云计算与大数据技术的发展趋势,结合Hadoop等大数据技术与云计算所具有的诸多优势,介绍了其完整的大数据云解决方案,并分享了诸多客户成功案例。
范承工从技术角度,分析了数据管理技术变迁的五大趋势,数据获取、分析方式的转变,以及VMware在云计算与大数据方面的解决方案。本文将为您介绍这五大趋势,以及五大趋势可能带来的市场格局变化。
三大趋势催生数据云
数据库是现在最领先的一个数据管理模式,它可以把数据进行很好的归类,关系型数据库可以把数据组织起来,进行很快的检索,而且能够进行交易型的处理。正因为关系型数据库的产生,使得现在很多的应用都能够非常顺利的进行开发。
而在过去10几年里,数据仓库有了非常快的发展,可以以比较大的数量进行深层次的技术发掘,在数据库技术底下,为客户提供更高的价值。
这些意味着,用户很难把数据库换掉而不换掉上面的应用,如果把数据从一种数据库迁移到另外一种数据库,不是很容易的事情。
不过,范承工认为,在过去5年里面,这种情况有一些改变。他表示,有五个比较大的趋势,使得一家独大的数据库统一数据管理的状况会有一个比较根本的颠覆。
第一是数据本身的改变。
过去的数据大多是人为产生的,它的数据是一条条记录式的,比较容易转化成关系型数据库形式。对它的处理往往不是实时的,可以等待数据产生,而要应用它的时候,往往已经过了一段时间。在这种情况下,关系型数据库是一个很好的数字化。举一个很简单的例子,我在年初去滑雪,然后去租雪橇,去了一家夫妻店,是一个很小的雪橇店,他们还没有电脑,没有数据库,完全是靠纸和笔记录每一笔交易。我看到他们有一盒子的卡片,每一笔交易就是一张卡片。还有另外一个盒子是他所有客户的信息,中间通过客户的信息可以查每个交易的信息。我再一看,这是用纸做的关系型的数据库,而这个夫妻店如果生意好,规模大了,就无法用纸和笔来完成,就必须要做成电脑上的数据库。这样的数据库有几个特点,大家都知道CRUD,需要能够保证有数据的产生,有数据的读和写以及更改,也要保证可以把数据删除,这是过去所谓的记录型的数据。而对这种数据的管理,数据库是一个非常优秀,非常完美的技术。而现在产生数据的源更多了,我们很多的数据不再是由人产生了,而是由机器产生的。随着物联网的发展,各种各样的探测器,各种各样的RFID,各种各样移动的手机,各种各样的器件以及很多电脑、服务器会自动产生大量的数据,而这些数据往往是以流的形式产生的。即使是人为的,包括我们刚才提到的社交网络、微博,数据的形式和过去的形式也有些不一样。
我们看到新型的数据往往很少改变过去已经产生的东西,这些数据往往是产生一次,以后就再也不会更改。一个服务器的日志不会再改变昨天的日志,我昨天放上一个微博,也不会再进行改变,往往数据产生一次就不会改变。而这些数据很多时候是不会被删除,即使用户把它删除,在背后的基础架构里面往往也是不删除的。新兴的数据底下我们注意到是CRAP的数据模式,是产生、重复、复制,是可以添加的,还必须要进行整合。是这样一个有流模式大规模数据的产生,但是同时要对它进行一个很好的归纳和整合。对于这样的数据来说,我们大家熟悉的关系型数据库已经不再是最优秀的技术能够满足他的需要了。在处理这样大型的 CRAP的数据,我们需要新型的数据管理技术和产品来帮助客户解决这个问题。这也是现在为什么包括Hadoop这样的技术这样热门的原因,是因为过去的数据已经满足不了新型大数据CRAP数据的需求。
第二是云所带来的副作用。
云就在于你的应用不止是在你的防火墙之后。随着软件即服务的产生,我们会生活在一个生活云的时代。对于很多的企业来说,我们很多的应用会是在私有云里面,是在自己的数据中心当中。但是同时我们有越来越多的应用会由公有云进行提供,包括客户管理,包括人事管理,甚至以后包括财务管理,都会通过公有云来提供这样的应用。而这产生一个副作用,就在于数据往往是跟应用在一起的。当你的应用在你的防火墙之外了,它的数据也在防火墙之外。我作为一个软件即服务的提供商,提供给你应用,而数据都会在我这里。我作为一个企业来说,第一次面对这种情况,企业的数据已经不完全由我来掌控,我不可能把所有的数据都放在甲骨文的数据库当中。即使我作为CIO有这样的愿望,也无法达成这个现实。因为到底这个应用采用哪个数据库,已经不是由我这个IT部门说了算了。
在这么一个多地点、多来源的数据时代,怎么样对这些不同的数据方式、不同的数据材料进行统一的分析和处理,从它上面能够得到智能是新一代的挑战。在过去要做一个新的应用,只要连接到已有的数据库上就行了。而现在必须要有一个全球的云数据统一系统,才能够在上面开发出新的应用程序,使它能够提取到你私有云里面的数据,也能够提取到公有云的数据。所以这是另外一个云带来的趋势,使得数据管理模式会有一个比较根本的改变。
第三是云的使用者在进行的改变。
云使用者的改变也是数据的使用者的改变,在中国很多公司里面,最富有的最有实力的500家公司里面,可能都会有比较好的数据仓库系统可以对他的数据进行分析。但是,现在对于数据的需求已经不止是这500家最有实力的公司了,我觉得任何一家公司,任何一个规模的公司,或者任何公司里的任何一个部门,任何一个小组其实都有需要。为了他能够在商业上取胜,为了他能够更好地完成日常工作,都必须从数据当中提取他的智能。而我们现在所熟悉的数据仓库系统,能够为数据提供智能的系统是非常昂贵的系统,需要几百万美元,几千万人民币的投入,需要专业的团队,需要很长的时间才能够得到需要的智能,而并不是所有的公司都能够有这么多的钱、人力和专家来达到这个结果。我们的需求就在于怎么样能够有一个低门槛的系统,使得无论是大公司还是小公司,无论是公司里面大团队还是小团队,都能很容易的从数据当中看到你想看到的信息。我们需要使这个数据的分析系统低门槛,能够实时的产生这些智能,能够更加平民化,提供更多的可视性,这也是一个非常大的趋势。相信在将来的几年里面,我们会发现更多的解决方案,而现在已有的解决方案并不能满足这方面的需要。
范承工表示,这三大趋势产生一个新的数据云的时代,从过去数据库一家独大到新的数据云,会产生新的需求,产生更大的数据,更快的数据,分布更广,更多样的数据,同时这些数据能够为千家万户,为所有的用户提供服务。
虚拟化和开源让数据库与数据云和谐共存
尽管相信数据云时代的到来,范承工认为,数据库并不会消失,仍旧有它非常重要的作用。亦即在很长的时间里,这两边的技术会是共存的。还有两个非常重要的趋势——虚拟化和开源软件的趋势,会帮助在更好的管理数据库的同时,能够迎接这个数据云时代的到来,而且使两边能够共同和谐的生存。
第四是虚拟化的技术。
虚拟化技术使得底层架构更加的灵活,更加的业绩化,使得你很容易有资源池。一方面能够减低管理数据库的开支,能够使更多的资金用于数据云时代。另一方面,可以使得同样一个基础架构,同样一个资源池,可以既满足数据库的需求,也能满足数据云的需求,来降低运营成本。所以产生虚拟化、混合云的基础架构,对于数据库和数据云能够并存,是一个非常关键的技术。
第五是更加重要和根本的,是开源软件的趋势。
大家都知道,数据库是一个非常好的技术,但是它同时也是一个非常成熟的技术,所以开源软件在数据库这边有一个降低成本的好处,任何一个成熟的技术,它都会使得最好的解决方案以及这个开源的解决方案中间的差距会越来越少。大家在用数据库的时候,可能一方面非常有用,另一方面会感到真贵,要维护一个大型的数据库系统需要很多的人力物力,需要给这些厂家很多的钱。但是随着开源这个软件的出现,或者基于开源软件,包括一些关系型的数据库,他们之间的差距离市场领先数据库的差距会越来越小,会给客户更多的选择来部署你的数据库。
更重要的开源效果,范承工认为是对于数据云时代的帮助,数据管理云系统,现在走过一个分久必合到合久必分这么一个转型的时代。
颠覆“老皇帝”?
分久必合到合久必分。在过去的30年的数据库时代里,从最初的群雄争霸,有很多种不同的关系型数据库以及其他的数据管理模式,到现在已经是一个非常稳定的市场。在这个市场里面,有一些市场的领先者,包括我们大家熟悉的甲骨文公司,包括IBM公司,包括微软公司,他们都有很好的数据库技术满足客户的需要。
前面也说到,数据库的更换是困难的事情。不过,范承工认为,这五大趋势的出现,使得一家独大的数据库统一数据管理的状况会有一个比较根本的颠覆。
范承工表示,在30年前可能是群雄混战,有很多的数据库产生,而在过去的20年、15年逐渐的甲骨文一家做大,成为业界的领袖。但是现在这个时代,我们的皇帝也老了,新一代的技术产生,我们又进入一个群雄混战的时代。
范承工说,现在大家熟悉的大数据技术,包括Hadoop,包括新的为开发者所欢迎的技术已经产生,而这样的技术大多数是以开源技术的形式出现的。以开源技术的形式,就使得作为客户可以非常低门槛的能够应用到这个技术,不需要很多的初始投资,可以尝试这个新的技术到底是否满足自己的需求,鼓励这么一种百花齐放的形式,开源就给这个百花齐放提供了一片土壤,看最后到底哪一朵花最投其所好。