扫一扫
关注微信公众号

不同云存储环境中非结构化数据的应用
2011-12-02   it168

 

从公认的几种云计算模型看,存储是无论如何也绕不开的基础支撑组件,云存储作为云计算服务的分支之一,更是把存储提到了首要的位置。与此同时,能够在底层架构中很好的解决存储问题的供应商恐怕并不多,要实现云计算,存储还面临诸多瓶颈。

在一次Intel组织的媒体训练营上,Intel(中国)有限公司服务器平台产品经理张振宇就曾表示:“今天谈云计算以及云架构中的虚拟化,存储是非常困难的问题。”

解决非结构化数据增长难题

在Intel规划的云存储系统中,把用户实际的存储需求分成了两种类型,也就是我们所谓的结构化数据与非结构化数据。

结构化数据一般都存储在数据库中,通常又被叫做数据库数据,通常企业的关键业务应用,如Oracle、SAP等应用中往往基于这种类型的数据。这类型数据可以用数据库的二维表结构逻辑来表达与实现,每一次读取的数据块往往并不大,一般为4K或者8K,但是读写往往会非常频繁,由于每次读写都会带来硬盘磁头换道寻址的读写延时,因此传统的存储系统往往采用了大规模并发、以及大量的读写优化来保障结构化数据的存取需求。

此外,担当企业关键业务应用的数据存储基石,数据安全性一定要保障,也因此,为结构化数据存储而设计的存储系统也往往采用大量的数据安全保护措施,保障企业关键业务运营数据安全。

衡量数据库读写性能的IOPS性能指标一度成为企业存储系统设计所追求的极致,然而随着云计算日益走向普及应用,社交网络兴起,到如今移动互联网与物联网蓬勃发展,用户突然发现,过去的结构化的数据在向非结构化与半结构化发展,大数据成为对传统IT系统的另一个挑战。

上图为IDC发布的2010年至2014年间数据增长趋势预测,其中,最底下的黄色数据块代表传统企业数据库所产生的结构化数据增长量,年增长率仅为23.6%;黄色数据之上的红色数据,代表企业系统中的备份以及数据仓库等产生的备份数据,从图中可看到,其增长趋势并不明显,年增长率为 24.2%;红色数据之上的灰色数据块代表归档等非结构化数据的增长趋势,在图中可看到明显的上升,年增长率达到了54.8%;最上面的绿色部分增长最快,这部分数据的年增长率甚至达到了75.6%,这部分数据来自于内容仓库,具体包括了Web、电子邮件、社交网络、文档共享等应用产生的各种各样的文件数据。

 

三大云存储解决方案

随着数据宇宙的爆炸式增长,传统为结构化数据存储而设计的存储系统,已经无法应付云平台系统庞大的数据存储需求,在此背景下,集群存储迎来其发展高峰。

集群存储通过并发的分布式文件系统与算法,工作负载分布到集群中各节点的存储方式,各集群存储的节点相互配合并统一作战,因而达到了1+1>2的效果,同时集群存储提供单一的使用接口与界面,使用户可以方便地对所有数据进行统一使用与管理。对于集群存储来说,单个的数据节点是其上分布式文件系统以及管理软件的硬件基础,其性能与可靠性直接影响到了存储系统平台的整体性能。

针对不同的云存储环境中非结构化数据的应用,Intel提出了三大不同的针对应用优化的解决方案。

一、 较大的对象存储使用模式

对象存储一般用于内容仓库的数据存储,通常Web、电子邮件、社交网络、文档共享系统中通常会采用对象存储模式来存储大量的文件数据。这类型存储需求对系统性能要求总体而言并不严格,但同样要求一定的响应时间和反应速度。此外,考虑到系统的规模化建设,整体系统对系统能耗、成本方面都会进行一定的均衡。

针对对象存储对节点硬件设计的需求,Intel推荐采用至强E5处理器产品家族,至强E5处理器是Intel针对双路服务器市场的重要革新,采用全新Sandy Bridge微架构,最多支持8个内核,在旧金山闭幕不久的Intel秋季IDF大会上,Intel展示了采用Sandy Bridge微架构Xeon(至强)E5处理器以及Xeon E5服务器系统的工程样品。上图为该系统节点推荐配置示意。

二、 备份、归档存储使用模式

相比对象存储使用模式,备份和归档系统对于数据响应时延的需求更加宽松,这类型系统中,用户更为关注的是数据可靠性,能耗、以及单位存储空间成本,针对这类型存储使用模式,Intel推荐了基于至强E3处理器,以及Intel赛扬/酷睿 i3处理器系列的节点优化方案。

三、 大规模分析(Hadoop)使用模式

Hadoop通常用于海量文件的数据分析与处理,往往要求系统有快速的反应时间和较强的处理能力,上图为Intel基于E5处理器家族推荐的节点优化架构。

原文链接:http://cloud.watchstor.com/storage-135345_1.htm

热词搜索:

上一篇:虚拟化加大存储负载 智能数据管理架构诞生
下一篇:五大数据泄密途径 虹安DLP逐个击破

分享到: 收藏