自从Hadoop在2008年作为Apache开源项目发布以来,它就一直让人备感兴奋,原因在于它结合了成本低、可扩展性佳以及无需构建预定义模式(predefined schema)就能灵活地处理任何数据等优点。在大数据时代,许多人寄希望于Hadoop厂商们能够开发出成熟可靠的工具、功能和技术创新,以更经济的方式、更好的性能实现数据处理和分析。拥有近20年数据集成创新经验和领导才能的Informatica,扩展了其数据集成平台以支持Hadoop,最新发布的Informatica 9.5提供了全新及扩展功能,极好的释放了Hadoop潜能,帮助客户实现大数据最大投资回报。
Hadoop 可帮助您实现什么?
Hadoop的最大价值是什么?主要包括两方面:一是Hadoop可以帮助降低大数据的成本;二是Hadoop能够真正提高大数据的价值。精益原则在大数据时代比以往任何时候都有效,并且是使大数据不成为大债务的关键。Hadoop使企业能够使用精益数据管理,以降低数据成本,这包括:业务成本、硬件成本、人工成本、软件成本、存储成本。此外,通过易访问性、可操作性、权威性、整体性、相关性、安全性、及时性、可信性等特性,Hadoop还能帮助客户增加数据的价值。
一些开路先锋已经投入很大精力来开发Hadoop,Hadoop取得的成功同时也促使主流市场对其稳定性、成熟的管理等更高的需求。这个群体中有影响力的主要厂商包括Cloudera、亚马逊、MapR、Hortonworks、DataStax、EMC、IBM、Informatica、微软和甲骨文等。
采用成熟、先进的数据集成平台释放Hadoop的潜能
在IT环境中,Hadoop不可能作为一个孤岛存在。为了让Hadoop可以跨越不同平台并成为一种主流技术,用户需要将Hadoop作为他们IT大环境中的一部分来管理,通过Hadoop重复使用他们的开发技巧、资产及数据,并统筹管理全部数据。Informatica 9.5 为企业带来了他们所需的交互性、生产力以及可管理性,以便快速采用Hadoop并最大化他们的大数据投资回报。
我们从数据处理的六大步骤说明Informatica怎样来释放Hadoop的能力。第一步,是将数据摄入到Hadoop;第二步,发现Hadoop数据的异常、关系和域类型;第三步,在 Hadoop中解析和准备数据,这对于Informatica来讲是非常独特和重要的,现在数据类型非常多,要对其进行分析,首先要解析,将其变成可以工作的结构型数据;第四步,在Hadoop中转换和清洗/标准化数据,数据一旦格式化后就可以进行转换、过滤、集成、分类等等;第五步,在Hadoop上调用自定义业务分析;第六步,从Hadoop上读取数据,目前一些大的报告工具,还不能够直接在很多平台上运行,因此需要把计算结果提取出来放到传统数据库中。当然,在一到六步的实现过程中,企业还需要管理整个过程,需要监督、监视系统发生情况。
Informatica 9.5已经实现了上述提到的一、三、六步的功能,而二、四、五步功能则将在年底推出的Informatica 9.5.1中实现。下面主要介绍Informatica 9.5中已实现的功能。
Hadoop 的数据输入和输出
在大数据时代,每小时要移动数十TB的交易数据、交互数据和流数据,我们希望能够提供不同的方法来提取和装载数据。Informatica PowerExchange for Hadoop可提供与HDFS和Hive适配器高性能连接,企业能够向Hadoop输送所有数据以便集成和处理大数据,通过与包括大型机、数据库及应用程序在内的所有数据(无论企业内部还是云中)的统一连接,可以轻松地以批量或实时方式在Hadoop系统中取送数据。
PowerExchange for Hadoop具备了易于使用和管理的开发环境,其元数据驱动方法为快速设计和开发提供了便利。该软件与Informatica PowerCenter全面集成,能够轻松地部署、排除故障和升级,图形化设计环境则使之易于在预加载和后处理阶段解析、转换及清洗数据。此外,它还能对HDFS连接以及加载时间等操作统计数据进行管理和监控。
在 Hadoop 上解析和准备数据
Informatica HParser是第一款Hadoop环境下的数据编译转换解决方案,能把任何非结构和半结构数据--诸如网络记录、社交媒体数据、通话详细记录以及其他数据格式--转换为更具结构性的格式,可以得到更快速的使用和生效,从而驱动业务发展、提高运营效率。利用Informatica HParser这一覆盖了大范围数据格式、基于引擎的解决方案,用户能大大简化并加快数据分析过程,有效避免处理过程中的风险并削减定制编译脚本的成本。
用于创建和维护转换的HParser可视化集成开发环境(IDE)可以加速开发过程,并提高开发者生产力。HParser还将开发中的多层次及关系转化为更为扁平、易于使用的格式,并允许业务规则进行确认。HParser支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NACHA、支付业的SWIFT、金融数据业的FIX和保险业的ACORD)。利用HParser,开发者可以创建MapReduce中的应用逻辑及数据源之间的抽象层,该特性允许应用逻辑一经创建便可实施在多种不同数据源中,这样可以允许项目便捷地延展。利用相同的集成开发环境,设计组件可以拓展到企业的其他部分,而不仅仅限于Hadoop项目。
作为全球领先的企业数据集成软件提供商,Informatica一直以来都是各大厂商进军大数据领域争抢的对象,不只是因为全球近5000家企业依赖Informatica方案管理其在本地的、云中和社交网络上的信息资产,还因为它在数据方面强大的技术能力。Informatica旨在提供一款单一平台,借助统一的环境和方法,全面满足数据管理和数据集成方面的要求。