IDC近日发布研究报告《中国互联网市场洞见:互联网大数据技术创新研究,2012》,报告对中国互联网行业围绕大数据的技术创新进行了专题研究。报告指出,大数据正在引领中国互联网行业 新一轮的技术浪潮,截至2011年底,中国互联网行业持有的数据总量已达到1.9EB。IDC预计,这一规模到2015年将增长到8.2EB以上。IDC 将大数据视为一个融合的体系:具备大规模的体量、多样化的种类的数据集以及对这种数据集进行高速采集、处理与分析以提取价值的技术架构与技术过程。
互联网行业正在拥抱 大数据时代。在这背后,有三个关键的驱动因素:首先,网络技术的升级和终端设备的爆发,使今天的用户能够使用多种设备、从不同位置、通过多种手段来接入互联网,并在这一过程中不断创造新内 容;其次,越来越丰富的在线应用与服务,尤其是社会化媒体业务,在不断激励用户创造和分享数据,并带动图片、视频等非结构化数据的迅速增长;第三,作为一个高渗透力的行业,互联网正在同各 个垂直行业发生深度的融合,伴随着这一过程,传统垂直行业中原本隐藏于线下的孤岛数据,正在源源不断地注入在线世界。
IDC中国负责互联网与新媒体研究的高级分析师周林表示:“从数据 的角度解读互联网,各类业务的本质都是对数据资产的采集、整理、加工和变现的过程。因此,大数据将成为未来互联网经济的石油??吸引用户贡献数据的能力、持有大型数据的能力,以及将大数据集 通过分析转化为业务价值的能力,将构成互联网企业的核心竞争力。同其他行业相比,互联网的数据循环更快,形式更多样,变化也更为敏捷。互联网公司必须建立起更为强健和高效的基础架构,来从 浩瀚的数据中发掘价值。这决定了互联网成为大数据技术创新的前沿。”
作为数据运营组织,互联网公司正在从大数据的存储、处理与应用等各个环节推进技术的创新,这种创新可以从空间和时 间两个维度进行透视:
1. 从空间维度出发,以非关系数据库、分布式计算架构等为代表,互联网公司正在不断提升数据处理的体量,尤其是强化对日益增加的非结构化数据的驾驭能力。分布式架构还让互联网公司 能够利用大量相对廉价的服务器与存储设备来应对大数据集,并灵活地进行弹性部署。这意味着互联网行业正在步入数据处理的规模经济时代,在大数据潮流中走在前面的互联网公司,能够赢得明显的 数据成本优势。
2. 从时间维度出发,流式处理、实时计算、内存计算等技术的涌现,体现了数据处理高度实时化的新趋势。MapReduce等模型尽管能够以优异的性能完成数据的块式处理,但面对许多在线业务 每秒上万次的动态并发查询,仍然表现得力不从心;而流式计算等架构则能够更好地应对这种业务场景,将大数据的处理进一步推向实时。
IDC认为,今后这两个方向将进一步相互融合,在数分钟甚至几十秒内,完成TB级乃至PB 级数据集的计算,并从中提取富含商业价值的结论,将成为互联网行业的新常态。
大数据技术的演化正在深刻地影响今天的在线业务。随着对大数据集分析能力的提升,互联网企业能够从海量 数据中挖掘出用户的行为习惯与兴趣偏好,反向输送给业务层。这种趋势既能支持更精准的社会化营销与广告投放,直接增加互联网公司的收入;同时也能提升在线业务的交互体验,增强用户的粘性, 降低用户的召回成本,带来间接但更持久的价值。
周林最后总结到:“互联网行业在大数据技术浪潮中的异军突起,也将为整个信息技术产业带来新的机遇。一方面,大数据会催生对IT产品与解 决方案更多的需求,将涵盖从硬件、软件到信息服务等多个层面;另一方面,越来越多的互联网公司正在通过云交付的模式,将自身对于大数据集的存储、计算与分析能力开放给第三方,使得数据即服 务(Data as a Service)成为影响产业格局的新一代业务模式。”