数据虚拟化是一种业务可行性技术,将不同的数据库连接起来,使它们的业务运营与数据集成流程变得更加灵敏。
一般情况下,企业主要运用提取、转换和加载(即ETL)工具等数据集成技术,从交易系统中获取数据,将其移植于数据仓库中以作BI和分析用途。然而,对于需要实时或接近实时决策制定的应用程序,从ETL数据仓库中获得关键业务信息的效率很高,看起来就像将驾驶着Alfa Romeo系列一Spider赛车的Lewis Hamilton送上国际汽车大奖赛。上世纪六十年代的招牌赛车看起来非常时髦,但有可能因为其速度跟不上时代发展,而失意于一级方程式赛车的赛场上。
ETL流程所面临的另一项挑战是企业日益构建的更多的数据源。比如,制药业中就普遍存在着这样的压力。每年都有上亿吨的药物投入到研究开发中,企业争先恐后地求新求变,以获得更高的市场份额。数据就是制药商的命脉,而且永远都有分析不完的数据。
瑞士诺华制药公司的信息工程咨询师Fatma Oezdemir-Zaech解释,她的IT团队是研发部门的坚强后盾。研发部门有着难以计数的不同数据源,其中包括大量的医药出版商、商业数据源以及国际系统数据,需要依靠她们进行提取。“我们的团队在ETL运用方面有着丰富的经验技术,我们还有半自治化的方式来对数据进行处理,但涉及的数据源越多,所花费的时间也就越多。”
英国数据虚拟化公司Denodo的区域总监Gary Baverstock提到,传统数据仓库还没有过时,只不过随着日益增长的实时处理与业务灵敏性需求,企业越来越重视外部数据源的优化,IT高管们都在寻求更好的方式将数据传送给业务用户。
数据虚拟化使数据各得其所
此时,数据虚拟化出现了。它拥有一个可置于企业应用程序、数据仓库、交易数据库、门户网站及其他数据源之上的提取层,能使企业在无需创建存储信息备份的环境下,对来自不同系统中的数据进行整合。这样一来就省去了从源系统中复制数据或移除数据的麻烦,减少了IT人员的工作量,也降低了数据出错的几率。
数据虚拟化还支持在源系统中交易数据更新的写入,这也是拥护者们看中这项技术的优势之一。正因为如此,数据虚拟化才会从数据联合与企业信息集成(EII)技术中脱颖而出。后两项为更早推出的类似技术,同样为了简化不同源阵列的数据分析流程。
美国Forrester研究所的分析师Brian Hopkins认为,尽管三种技术在性能方面都有相似之处,甚至有时被视为“换汤不换药”,但是EII技术提供的是一种数据阵列与报表的只读处理方法。
其实,早在十年前就有数据联合了,其产生的用意本在于取代ETL工具和数据暂存区,不用再建立新的数据市场。可惜评论家认为数据联合从一开始就带有重大缺陷,它只能与巨型数据套件匹配,且其运行环境需要极为复杂的数据转换。更有甚者,很多人都认为数据联合与面向服务架构(SOA)的粘附性很强。
Baverstock说:“SOA提供的好处有很多,比如避免企业IT架构中的信息孤岛。但随着经济走向的变化,企业更加注重快捷的成效,于是这些极度复杂的IT程序逐渐‘失宠’。”