苏金树
国防科技大学教授,973首席科学家,中国计算机学会互联网专委会副主任委员
许多单位早期都有计算机中心,在PC普及后,计算中心发展进入低潮。随着云计算、大数据、移动互联网的发展,各个单位逐步开始建立数据中心。随着数据中心的发展,规模不断扩大,网络重要性和复杂性日益增加。
数据中心网络的核心要素主要有三个,数据中心能力设计、互连设备、拓扑结构与路由,数据中心的网络研究和设计也都围绕着这三个元素布局。
通用链路技术网络生命力不可小视
从网络体系结构、拓扑设计、主机、路由转发,到如何实现流控,这些问题都是近些年来数据中心所关注的热点网络问题。在进行数据中心联网设计时应该考虑到以下六个方面:
一是链路技术,虽然每个时期,都有可用的链路技术,但往往有一些新的链路技术会推出,这时是选择现有链路技术,还是选择看似不成熟的链路技术,是构建者首先要考虑的问题。
二是数据中心的两类应用。外向服务,如提供Web服务;内部计算处理,如Web索引的MapReduce。
三是网络的负载经常是不可预测的。多个服务在同一个数据中心运行,网络的利用效率和可预测两者之间存在矛盾。
四是个别服务器失效是正常的。借鉴Google的GFS、MapReduce,设计时必须考虑到个别服务器可能随时失效的情况。
五是服务器间的流量矩阵不断发生变化。因为承载的服务不同,导致服务器间的流量矩阵在不断发展变化。既不是传统的内外20%与80%的比例,也不是有些文献提出的80%与20%比例。
六是如何合理平衡三层与二层的关系,合理设计数据中心“大二层”。随着数据中心对虚拟化技术的支持,随之而来的就是对主机迁移支持等需求,因此希望交换设备能够更好支持二层的扩展,突破2层的连接主机数限制,克服传统的3层问题等。
数据中心联网的最终目标是要达到一致的吞吐率、便捷的应用迁移、应用的性能隔离。只有这样,才能保证服务器间的容量只受限于网卡,增加服务器时,不需要考虑拓扑、依赖于广播的既有应用也依然能够工作。此外,一个服务不会受其他服务影响。
上面的目标看似很容易完成,实则不然。仅链路技术而言,在我们近30年研究经历中,从最开始的10兆以太网,到后来多种100Mps以太网方案,以及FDDI/ATM等诸多技术,到出现40/56Gbps的Infiniband技术(以下简称IB),再到100G以太网技术,以及目前研究实现的400G。整个链路技术的发展历程,给我们研究工作者一个重要启示,那就是通用网络技术的生命力不可小视!以太网系列技术的发展,虽然遇到很多新技术的挑战,但始终在通用领域占据鳌头。
网络结构不断追求能力和效率
高校数据中心的建设过程中,都会经历简单的网络结构时代。随着应用发展,很快会发现虽然看似所有的东西连接在一起,但是整个项目不能有效使用。而后开始探索建立专用的高效的网络结构。因为数据中心不再是简单的WebServices,而是大型的数据仓库,拥有几百台的服务器。云计算提出之后,数据中心迎来专业结构的数据中心时代。虽然数据中心有两条路可以选择:一是以网络为中心,二是以服务器为中心,但大多数设计还会选择以网络为中心。
在以网络为中心的结构中,最典型的专用结构是胖树、Moonson、Seattle等。为了克服简单的网络结构造成带宽太少的问题。人们发现3-级CLOS网络本身是不堵塞的。胖树是特殊的CLOS网络,从输入、输出的角度上看,胖树和3-级CLOS网络标准相一致。所以,我们可以以3-级CLOS网络标准为基础,按具体意愿去组织一个网络结构,提高连接服务器数量。如果K为池子数目,那么每个池有(k/2)2服务器,k/2个2层k端口交换机;每个边缘交换机连接k/2服务器,k/2汇聚交换机;每个汇聚交换机链接k/2边缘,k/2核心交换机。
同时,胖树结构存在五个方面问题:一是内部不能支持VLan流量;二是数据中心规模只能相对固定;三是需要在边界进行NAT转换,以便更好支持迁移和虚拟化;四是按流分负载分类,不能按端口分类;五是长时间流(大象流)的分担。业界也有很多解决方案试图克服胖树
结构,例如Moonson方法,在网络结构中加入负载均衡交换机,同时设有多个服务器,由交换机负责网络流的分配。主要的工作流程是端主机检查流的MAC,如果没有找到,同时启动monsoonagent求解,并向TOR发送流量,做三重封装,流量发给中间交换机,以及目的TOR交换机。多种不同专用结构的发展,最终基本归结到TRILL解决方案。
NFV技术未来大有可为
2013年,谷歌经过长时间的研究和实验认为,在经典广域网中,交换机路由器将所有的流量都进行统一,没有差异化的处理,导致网络的利用率大概只有30%到40%,带宽价格高,高端的路由器设备价格也非常的贵。于是,谷歌公司开始尝试定制交换机,在企业内部部署了一个全球的SDN,将公司内部数据中心间的网络链路提升接近100%,取得了巨大成功,极大地鼓舞了业界。
谷歌公司SDN研究起了引领作用,并在网络顶级国际会议SIGCOMM发表了一篇文章,直接带动了SDN技术爆发性的增长,带动新一轮数据中心网络研究热潮。随后有微软公司的WindowsServer2016SDNstack,Fcaebook公司的Wedgeswitch等。
有意思的是,为什么做软件的厂家,要开始进军硬件领域呢?这对高校的人才培养具有启示性的作用。目前,国内大学计算机学院在计算机硬件领域的人才或者能力培养比较缺乏,建议计算机学院加大学生的硬件培养和锻炼能力,可以有助于将学生培养为能力更加全面、知识面更广的计算机人才。
2013年,我曾在某次会议上,提出个人看法,域间SDN发展比较困难,而域内SDN会发展得更好。目前SDN的发展态势也是如此。在未来,热门技术除了SDN之外,还有NFV技术,我个人十分看好NFV技术,早期由于I/O带宽原因,一般不能采用通用CPU直接作为网络设备数据通路的处理器,而传统网络设备,一直沿用基于专用体系结构设计网络功能的思路,产量不大,导致成本高,升级比较缓慢。随着通用CPU速度+I/O带宽的提升,CPU网络处理能力大大上升,通用CPU或CPU+FPGA将有很大潜力,因此NFV会有更好的前景。
研究案例
第一个数据中心网络技术研究案例是智能(加速)网卡。网络安全和网络分析对数据流精细分类和分析的要求越来越高,特别是关键字与正确表达事物的匹配的性能要求越来越高。但一方面是软件的运行速度很慢,另一方面,由于MemoryWall问题,X86架构为主的网络安全产品在关键字与正则表达式匹配方面的性能缺陷逐渐显露出来,成为提升网络安全产品性能的最大阻碍。
基于上述两个方面考虑,智能(加速)网卡将资源消耗大的功能卸载到智能网络加速卡上,从而解放X86CPU的计算能力,达到提高现有网络安全产品性能的目的,从而满足支持掩码五元组、关键字、正则表达式等多种条件的灵活匹配,将匹配的结果,以标签的形式打到报文头部输出的要求。目前可以支持100万条掩码五元组规则,10万条关键字,10万条正则表达式;最大支持64个报文队列,报文可以按策略负载均衡输出到各个通道等应用需求。我们认为网卡等基本硬件系统是多数高校可以作为指导学生涉及网络硬件的起步领域。
第二个数据中心网络技术研究案例是:IB交换机。目前实现高性能交换的技术途径主要包括三种,以太网技术、IB技术和面向特定计算平台的专用互连交换技术。其中IB技术属于通用互连技术,速率最高的,也在TOP500计算机中占据重要地位。从行业发展趋势上来讲,与万兆以太网相比,IB在性能上优势明显,IB是高性能交换的发展趋势。整个IB交换系统是由交换机、计算节点、主机活配器、网络管理软件、IO和存储节点组成。我们主要研制实现了三款IB技术的交换机和IB网卡,四款交换机的规格是288端口IB交换机,216端口IB交换机,108端口IB交换机,36端口IB交换机。IB交换机,采用模块化结构,支持40/56Gbps接口,聚合交换能力超过每秒17万亿比特(17.28Tbps)。该系列产品既应用于国家863“基于IB的PB级存储网络系统”,利用IB高带宽、低延时、可靠传输等特性实现了支持PB级容量的对象存储系统;也应用于天河系列高性能计算机应用,1个IBS216Q连接216个存储节点和计算节点,实现2PB的分布式存储。
(本文根据国防科技大学教授苏金树在“第二届下一代互联网与高校应用服务架构创新研讨会”上的部分发言内容整理)
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。