扫一扫
关注微信公众号

16核引领万兆UTM突破性能瓶颈
2009-07-03   启明星辰

    近日,记者从国家权威测评机构了解到,启明星辰公司的天清汉马USG-10000E一体化安全网关正式通过该国家级权威测评,成为国内第一款通过该测评的万兆级UTM产品。
   作为网关安全设备的发展方向,UTM集防火墙、VPN、AV、IPS等多种功能于一身,在国内的应用已越来越普遍。随着启明星辰本次通过万兆UTM测评,过去质疑UTM高端应用性能不足的说法已经成为历史。万兆UTM出现,无疑会将UTM应用带入崭新的时代。那么,万兆UTM究竟如何才能突破性能瓶颈,满足高端应用呢?
    带着兴奋和好奇,记者采访了启明星辰从事万兆UTM的系统设计人员,专家告诉记者,满足万兆UTM应用的关键在于16核多核技术的运用。
    高性能的SOC多核硬件平台
    UTM产品具有3大技术特点:吞吐密集、运算密集、应用层特性匹配密集。这3大特点对硬件平台提出了极大的挑战,也正是基于此,UTM过去饱尝性能瓶颈之苦,如:在X86架构下,UTM受制于总线带宽普遍无法实现千兆线速;开启AV、IPS功能后,CPU占用率大幅升高,整机性能通常下降80%以上。
    综合考虑了这些问题之后,启明星辰经过详细的技术调研、产品预研,最终选择了基于Cavium公司16核CPU的硬件平台承载万兆UTM应用。单就CPU核数而言,是X86 CPU的4倍以上。并且,Cavium公司OCTEON系列多核芯片,专为UTM等安全产品的应用量身内置了一系列专用硬件,使得最终构建出的产品在性能、稳定性上很容易实现电信级标准。
     据介绍,Cavium的16核CPU采用了“软件硬件化”的设计理念,在CPU片内集成了DFA、包收发模块等专用硬件,从而提升硬件平台的整体性能。如图1所示:
 


图片1


图1
    下面我们从带宽、收发包模块、包处理指令集等方面来分别了解一下这一硬件平台。
    高总线带宽:高达640Gbps的内部总线带宽,是Intel 4核CPU的6倍!就好像一条是双向六车道的高速公路,而另一条只是单车道的普通公路,在基础设施层面便已立分高下。
    硬件收发包模块:芯片内集成了硬件收发包模块、千兆/万兆等的线速接口器件,与总线直连,充分保障各业务接口的线速性能,并最大限度地减少了CPU在此方面的开销。
    集成内存控制器:我们知道,传统X86架构除CPU外,尚需额外的北桥芯片、内存控制器的配合才能实现内存操作,此部分往往成为整个平台性能提升的瓶颈;而Cavium16核CPU片内集成了内存控制器,且无需额外的北桥芯片,避免了内存操作成为平台性能提升的瓶颈。
    压缩/解压缩硬件引擎:AV业务需对进出网关的文件进行病毒扫描,而很多文件是压缩的、并且是多级压缩。对此类文件的扫描,必须先将文件解压缩后再进行与病毒库文件的匹配运算。X86架构下,此项运算都是由CPU进行的,极耗费资源,文件压缩/解压缩成为导致AV性能瓶颈的重要因素。Cavium 16核CPU内置一个专用压缩/解压缩硬件引擎,用于AV文件的压缩/解压缩操作,极大提高了AV业务的性能,减轻了对CPU资源的消耗。
    专用包处理指令集: AV、IPS、上网行为管理等业务主要做的是应用层包处理,运算量大、运算复杂,并且需要进行频繁的业务调度与切换,只能由CPU进行处理,从而使CPU成为性能提升的瓶颈之一。Cavium 16核CPU创新的在每个CPU核内集成了一个专门针对包处理应用特点而开发的指令集,可通过指令直接进行位域操作、面向字节的操作等,不必再像X86那样靠多条指令实现一个功能,结合RISC短指令集的效率优势,运算效率整体提高了3倍。
    硬件DFA内容匹配引擎:AV、IPS等业务也是应用层特性密集的业务。某种程度上,UTM的性能就取决于产品对业务特征的匹配速度。X86架构下,CPU既需要进行内容匹配运算,又需要进行设备的控制操作、业务调度等,CPU负荷重并且效率低。Cavium16核CPU针对此应用特点,在片内集成了一个硬件DFA内容匹配引擎,直接对特征数据匹配进行硬件运算,将匹配运算结果交由CPU核进一步处理,这样就极大提高了内容匹配速度,减轻了对CPU资源的消耗。CPU从此不再成为AV、IPS等业务的处理瓶颈。
    
    多核软件体系设计
    在采访中我们得知,万兆多核的软件架构设计与X86架构下的设计完全不同,无法进行简单的代码移植,必须配合硬件平台进行针对性的设计与优化。启明星辰为此全新设计了UTM专用的64位操作系统,这也是万兆UTM产品化过程中工作难度最大、工作量最多的部分。
    “我们首先遇到的难题就是性能不随核数增长而线性增长的问题”,启明星辰的专家告诉记者。
    据了解,在采用Cavium多核硬件平台进行了相应的软件开发后,启明星辰在万兆UTM预研初期,就实现了4核情况下3G的防火墙性能,但在随后进一步的研究中,发现性能提升似乎到了极限,随着核数的提升性能并不相应的线性增长。如图2所示,问题出在哪里呢?     
      

     

    硬件平台多达16个CPU核在同时进行并行业务处理,对各CPU核的业务调度与控制尤为重要。在传统的X86架构下的,CPU最多4核,对CPU核的调度问题并不突出,而在16核情况下,该问题便暴露出来。为攻克此问题,启明星辰集中了研发体系的所有优势资源,成立了技术攻关小组,并贯穿产品化始终,从挖掘硬件资源、业务锁等多个方向进行优化,软件人员与硬件驱动人员通力配合,共同寻找提高性能的途径,逐一优化,一个核一个核的攻。最终,实现了业务性能的线性化增长。如图3所示,随着核数的增多,性能曲线基本保持线性增长的态势。
    当然,在软件体系架构设计中遇到的大小问题还有很多,如:在持续引入新的业务新特性情况下,如何保证性能不下降?产品的可调试性等等。最终,启明星辰依靠研发技术优势,集中攻关,把这些问题逐一解决,实现了高性能万兆UTM的成功商用。
    就全球应用趋势来看,多核UTM已成为客户在网关位置安全产品的首要选择。国际主流厂家Cisco、Juniper、CheckPoint、WatchGuard、华为等均已全力投入UTM方向,并且都选择了Cavium多核作为硬件平台,相继发布了多核UTM产品。启明星辰作为中国UTM市场连续两年份额第一的国内厂家,在2007年就选择了Cavium多核方向投入研发,并于2008年6月在国内率先发布了高性能万兆UTM平台。截至目前,启明星辰万兆UTM产品已服务于多家大型企业、政府等单位的骨干节点,为客户提供高性能的安全业务保障。
    我们看到,随着启明星辰天清汉马万兆UTM的成功应用,阻碍UTM发展的性能瓶颈问题已彻底解决,相信中国UTM市场必将迎来新一轮的快速增长。

热词搜索:

上一篇:数据泄露防护(DLP)分域安全简述
下一篇:网关终端跨界组合实现UTM平方效果

分享到: 收藏