嘉宾介绍:陈尚义,百度技术委员会理事长,国家科技重大专项03专项总体组专家,中国电子学会常务理事,云计算发展与政策论坛副理事长,云技术与产业联盟常务理事。兼任北京航空航天大学教授、合肥工业大学教授、中科院研究生院硕士生导师,IEEE-CS授权培训机构高级讲师。
>
财经网:大数据的概念,其实不是单纯这三个字的字面组合,它是完全全新一个大数据的定义,您是怎么来理解大数据的?
陈尚义:像你刚才说的一样,大数据现在已经引起了工业界和学术界高度重视,有人试图给它下一个定义。但是从我们的工作实践来讲,我个人的体会,大数据应该具备几个非常关键的要素才可以称为“大数据”。第一,毫无疑问,它必须要大,要有一定的规模,但是(究竟多达规模才称得上大)业界对这一点没有共同的认识;第二,它的复杂性。复杂性就意味着结构化和非结构化数据的大量并存,而且更多的是非结构化的数据;第三,它的动态变化性,也是构成大数据的必要要素,动态变化性表现在数据的持续变化。还有一个,业界普遍认为价值稀疏的问题,就像沙子一样,里头有很少量的金,大数据里头真正有价值的数据确实是不多的。这就是构成大数据全部四个要素。我们也认同这四个要素,但是作为搜索引擎公司,我们的数据规模应该是业界最大的,数据变化、复杂性、价值的稀疏性等等,这四个要素我们都全部具备。除了这个之外,其实百度的数据还有更多的特点,业务对它的要求更多、更严格,包括对它的一致性要求等等,使得我们的数据比传统意义上的大数据还要复杂。
财经网:为什么说百度的数据更复杂,具体复杂在哪?
陈尚义:首先对数据处理的时效性要求非常高,比如像新闻搜索、新词学习,这些功能的推出,早了不行,比如新词的学习,早了它没有这个词。大家都用这个词的时候,这个词才变成了热词,比如说我在搜索框里面输入最近发生的一些热门的事件,早了这个事件没有发生,这个新的词我不会提示你;晚了也不行,如果说这个时间拖得太久了的话,那个词已经不再热了,就是说对数据处理的时效要求很高。
第二,一致性要求。面对大量的数据,有些一致性要求极高,有些一致性要求不那么高。比方说百度因为有做推广服务,客户的数据,那里头就是一些钱的数据,这个要求是一致性极高的。另外有些数据,比方说搜索,在搜索结果里头,有些(次要的)内容没有完全出来,这样用户也是能够接受的,所以从这里讲,数据的一致性要求不是那么强,所以,形成了数据一致性要求的强弱反差,有的很高,有的不高。所有这些因素使得百度的数据,跟传统意义上或者大家目前讨论的大数据相比,百度的数据更复杂,这还不包括百度数据的规模是罕见的。
财经网:海量的。
陈尚义:是海量的,是比传统行业,甚至比互联网行业的其他企业数据规模还大。
财经网:但是海量的另一面其实也是我们可发掘的内容就更多,这其实也是一个双面的东西。
陈尚义:对。数据小了就没什么价值了,数据越大,发现价值的可能性就越多。
财经网:大数据究竟为我们的行业带来的怎样的变化和影响?
陈尚义:大数据对技术或产业带来了很多的变革。首先它对技术方面的变革,它直接拉动了数据中心规模不断的增长。过去的数据量小,数据中心的规模也小,现在大数据年代,数据的中心规模会越来越大。它表面上表现的是大,其实不仅是大,背后蕴藏了很多技术的变革,比方说出于成本的考虑,数据中心越大,希望它能节能降耗,希望服务器的密度越高越好,希望服务器的部署的速度越快越好,所有的这些技术都在不断的挑战新的极限,创造一个又一个新的突破,这是大数据所带来的必然结果。同时,大数据对我们的学术研究,或者是技术的开发也带来了一些新的变革。过去在学术研究方面,我们在技术领域里面,更多的是依靠模型的方法,现在有大量的数据,我们可以借用这个数据,基于统计的方法,比如说语音识别、机器翻译这样的领域里面,可以更加容易的突破传统技术所存在的困难,在大数据年代有望取得新的进展。
同时,大数据年代,大数据对商业模式也产生了影响。大数据年代,数据的拥有方,就是运营商,它具有大量的用户行为习惯的各种数据,开发者他了解用户的需求,他有开发能力,在大数据年代,运营商和开发者互利共赢的模式,已经取得了一定的共识。可以说大数据对社会生活、经济、技术全方位形成影响。
财经网:刚才您也提到了大数据现在在百度也是有了很多的应用,其实我们也知道奥巴马的团队也是在拉选票的过程中也是应用很多大数据方面的成果,对于这个大数据应用的广泛性已经是很受认可了,就您所了解的,包括可能在咱们企业之中,或者企业之外的,您觉得现在大数据已经应用到了什么样的程度,或者是普及到了什么样的程度?
陈尚义:程度不好说,但我更想说的是大数据同其他任何事物一样,它本身是中性的,看谁在利用,就产生什么样的效果。大选的时候,他就利用大数据做对大选有所帮助的事情。在其他领域里面,比如在交通、能源这些领域,对大数据的利用,可以使交通变得更加智能,我早上一出门就规划出行路线,或者以节省时间为目的,或者以节省能源为目的。
我还听说过一个例子,一家能源公司拥有丰富的资料,这些资料是以图纸的形式存在的,他们要找石油或者是矿藏,通过对这些数据的加工整理和分析利用,应能准确地找到矿藏的所在地、油井的所在地,公司内部产生很剧烈的反应,有人说自己能利用大数据,自己发现这个金矿、油矿,属于我自己开采的。另外有人说你自己处理不了,应该交给社会上去做。这个例子说明大数据促成了一种开放的心态,让全社会来参与。
有的用来找油、有的用来规划路线,有的为了提高生活质量、生活品质,有些人用作大选,还有些人用来做一些不正当的行为。比如说可以通过你留下的各种各样的用户行为的数据,发现你运动的轨迹,然后推测你是一个什么样的人,你是什么样的背景,你有什么样的爱好,你家庭背景怎么样,这样就很容易造成个人隐私的泄露,大数据的利用看你怎么去用,可以从提高整生活品质,提高经济效率的目的出发来利用大数据,反过来也可以被一些不正当的手段所利用。
财经网:其实现在大数据已经成为一个概念性的东西,行业的广度已经覆盖到了一定程度,因为它不局限在企业本身应用,它可以应用到各个行业和领域。
陈尚义:因为大数据是必然的,过去我们受制于存储能力、计算能力还有人们采集数据的能力,各种各样的能力限制,所以我们没有办法用大数据,像过去我们对数据进行人工录入,录入的数据是经过好几道处理的数据,之后进去的都是精华的数据了,所以用传统的数据库就能够存储起来了,这是数据很小量的一部分,其实实际上有很多大量的数据,图片、音频、视频的材料,还有各种各样的图纸,比方说医院里头的各种各样的胶片,随着设备的廉价和设备的先进性提高,还有传输的速度提高、存储的能力提升,以及包括存储的成本降低等因素,都促成了大数据时代的到来。大家都知道,每18个月存储性能提高一倍,同时成本降低一半,所以这种趋势是非常明显,大数据铺天盖地而来,它不限于IT企业,也不限于企业内部,各行各业都是一样的,全社会都是一样的。
财经网:刚才您也谈到了对于产品本身的应用,比如说搜索上,其他的领域有没有一些拓展?
陈尚义:我们也分析行业的趋势发展,然后形成发展报告,供我们的客户,甚至供全社会免费下载使用,比如我们一直在发布一个报告《移动互联网趋势发展报告》,这是根据我们后台的数据统计,形成的一个报告,给移动互联网年代的开发者去参考,比如说哪款手机现在正在流行,哪种操作系统现在占比例多大等等。