随着大数据时代的到来,人们提到的最多的一个词就是Hadoop。Hadoop其实就是一个能够对大量数据进行分布式处理的软件框架,并进行可靠、高效、可伸缩的方式处理。
Hadoop是可靠的,它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop对大量数据进行分布式处理(来源网络)
与Oracle、MySQL和SQL Server等老牌数据库一样,由于人们对它们了解不多也不深,非常容易被忽视,但它们其实无处不在,几乎所有人都听过。虽然目前它们仍在数据库领域占领大部分份额。但从长远来看,Hadoop的发展更值得我们期待。一旦遇到涉及大量非结构化的数据采集和处理时,Hadoop就有了用武之地。
如今,微软也决定把Hadoop整合到它的大数据平台里,一方面和SQL Server做一个整合,成为数据平台中的一部分;另一个方面则是把它作为一个服务,整合到微软的Windows Azure这个公有云里。除了微软之外。
遇到涉及大量非结构化的数据采集和处理时Hadoop就有了用武之地(来源网络)
英特尔在今年也推出了自己的Hadoop发行版,该发行版是通过英特尔中国亚洲研发中心的团队进行研发,由于中国的国情,中国将成为全球最重要的大数据市场之一,此次推出的Hadoop发行版,将首先定位在中国,满足具有代表性的中国客户和市场需求,然后通过英特尔的市场先机和技术优势,推广至全球市场,从而应对大数据挑战。
随着大量数据的出现,Hadoop的作用将会进一步发展,依靠其高效、可靠的运行方式,Hadoop风暴来袭已指日可待!