SlideShare a Scribd company logo
1 of 6
第 7 卷  第 7 期  2011 年 7 月




数据中心网络
                                                     陈贵海1,2 吴 盼2 杨盘隆3
                                                     1
                                                      上海交通大学
                                                     2
                                                      南京大学
                                                     3
关键词:数据中心 网络互联 云计算 绿色计算                                 解放军理工大学


引言                                     (电源供应,制冷)又可以降低成本。本文主要讨
                                       论大型数据中心网络。
                                 [1]
   世界上哪家公司拥有的服务器最多?调查结果                   文献[2]对一个50000台服务器级别的数据中心
显示:2006年谷歌拥有45万台服务器,现在已有               全年的开销进行了调查,见表1:
一百万台;而Facebook在2009年仅拥有6万台服务器。         表1 数据中心中开销统计结果
为了扩大现有公司业务以及能在未来云服务的市场                 折合年花费百分比       组件            详细组成
上占有先机,世界各大公司竞相购置大量服务器并                     ~45%     服务器      CPU,内存,存储设备
组建数据中心。                                    ~25%     基础设施     电能传输,制冷设备
   如何高效地联结百万台的服务器是一个极为重                    ~15%     电费       电能消耗

要的问题。现有的数据中心网络互联多采用树型结                     ~15%     互联设备     电缆,交换机等设备

构。数据中心的规模一旦扩大,树型结构中的高层                    从表1可知,为了降低数据中心的运行开销,
交换机就必须更换为更昂贵更先进的交换节点以应                 服务器的花费是最令人关注的。业界普遍认为的残
对高带宽和海量存储的应用需求。即便如此,容错                 酷现实是:数据中心中服务器的使用效率只有10%
性和带宽需求依然得不到保障。系统地研究数据中                 左右 [2]。服务器使用效率低的原因主要在于传统网
心实际应用的流量模式及其影响、互联结构、网络                 络体系结构的限制与数据中心自主管理的匮乏,具
协议、管理等问题十分必要。数据中心网络设计的                 体包括:
目标应该是:服务器之间的高带宽连接、网络结构                    网络结构的限制 我们熟知的谷歌搜索服务需
可扩展及高可靠性、服务部署的敏捷性、节能和自                 要GFS(Google file system)以及MapReduce[3]技术的
动化配置。                                  支持,而GFS中大量的文件复制操作以及MapReduce
                                       中使用的All-to-All的通信模式对数据中心网络的通

存在的问题                                  信带宽提出很高的要求。树型数据中心结构高层的
                                       低通信带宽会导致服务器使用的区域分割。
   数据中心按规模大小分为两类:地理集中式大                   网络协议的限制 传统数据中心沿用的IP协议中
型数据中心(mega data center,以所需电功率兆瓦得       子网划分会造成资源的分割,如负载均衡设备只能使
名)和地理分布式的小型数据中心(micro data center,     用同一个子网下的服务器做负载均衡(half-NAT [4])。
千数量级)。大型数据中心的出现,是公司业务扩                 现有的做法是预分配,但若应用需求的估计出错,预分
大所致。大量服务器集中放置既可以共享基础设施                 配服务器会造成服务器的闲置(over-provision)。




                                                                                      21
专题                                  第 7 卷  第 7 期  2011 年 7 月




     另外,在数据中心中大量沿用网络传输协议(TCP),                            服务器。内部服务器之间的流量主要通过二层交换
     而原有的TCP协议是面向互联网开发的,没有考虑                              机来支撑。当公司业务流量增加时,位于网络结构
                              [5]
     数据中心网络环境的特殊性 ,例如相对于互联网                               高层的交换机就必须升级以满足业务需求,这种靠
     环境中的RTT(round trip time)为100ms,而数据中                  使用更高端的交换机实现数据中心规模扩大的方法
     心中的RTT<1ms。                                          被称为纵向扩展模式(scale-up)。我们希望新的架
        网络管理的限制 有调查显示,数据中心                                构能够使用廉价的低端交换机来互联大规模的服务
     50%~80%的出错都是由于人的误操作导致,所以我                            器,同时提供网络可扩展及服务器之间的高通信带
     们需要重新设计协议,减少人工管理,强化数据中                               宽,即横向扩展模式(scale-out)。下面我们将介绍
     心的自主配置与管理。                                           几种新的互联结构(Fat-tree [7],DCell[10]和 FiConn[12]
        至于基础设施和电费部分的开销,我们可以通                              等)与两个典型的原型系统(Portland[16]与VL2[17]),
     过设计节能算法调度数据中心中的设备来降低能耗;                              其中Portland,VL2的设计会更多考虑系统设计对虚
     对于互联设备如交换机等,我们可以使用多个廉价                               拟机迁移以及自主管理等方面的支撑。
     的低端交换机互联取代高端的交换机以降低成本。
                                                          互联结构
     体系结构                                                          按照服务器是否参与转发,将互联结构分为以
                                                          交换机为中心与以服务器为中心的互联结构。由于
                                                    [6]
        图1所示的是传统数据中心搭建使用三层结构 。                            篇幅限制,我们省略了互联结构的等分带宽、路由
     机架A内的服务器使用架顶式交换机(Top-of-Rack)                        协议以及连线等部分的详细分析,有兴趣的读者可
     互联,通过二层交换机(End-of-Row)组成局域网,                         以参考文献[7~14]。
     再通过接入路由器和核心路由器向外网提供服务。                               以交换机为中心的互联结构
     传统数据中心支持两种流量:(1)内部服务器之                                        传统的三层数据中心结构属于交换机为中心的
     间的流量,如网页检索索引的建立;(2)内部服                               互联结构,前面提到过树型结构的弱点, Al-Fares[7]
     务器与外部终端用户之间的交互流量,如网页浏                                提出的使用廉价的交换机构建Fat-tree结构实现了
     览。负载均衡设备提供交互流量的负载均衡,终端                               系统的大规模互联以及服务器之间的高通信带宽
     用户通过互联网,再经过接入路由器可以访问内部                               (oversubscription比率为1 1,即网络能提供服务器网
                                                                              ∶
                                                          卡支持的通信带宽)。 Fat-tree结构搭建的系统如图2
                                                          所示。
                                      CR
       互联网             互联网                                         需要说明的是,Fat-tree互联结构中交换机分为
                                                          三层:核心交换机、聚集交换机和边界交换机。核
      数据中心                                   AR
      第三层                                                 心交换机端口全部向下互联聚集交换机;聚集交换
                                                          机和边界交换机端口一半向上一半向下,其中边界
      第二层
                                                          交换机一半端口连接服务器。细心的读者会发现这
      LB                     LB
                                                          个结构同构于5级Clos-Network,如图3所示。
                                       说明:                         K端口的交换机可以支撑的数据中心的规模是
                                  S    CR=三层核心路由器
                                                               3
                                       AR=接入路由器            K /4。当K=48时,Fat-tree可支持27648台服务器,
                                       S=二层交换机
           A   A   A     A             LB=负载均衡设备          互联结构需要48端口的交换机数量为2880台。具体
                                       A=机架
                                                          计算过程如下:我们把图2中的方框中的交换机集
     图1 传统数据中心网络结构                                        合称为pod,对于K端口交换机组成的互联结构,共




22
第 7 卷  第 7 期  2011 年 7 月




                                                               以服务器为中心的互联结构
                                        核心交换机
                                                                   借助服务器的多网卡以及数
                                                               据转发功能,我们可以用低端交
                                        聚集交换机
                                                               换机互联大型数据中心网络,这
                                                               类解决方案利用大量服务器之间
                                        边界交换机                  的连线以及低端交换机来实现高
                                                               效互联,其中基于复合图(com-
                                                               pound graph)[9]并采用层次网络的
图2 Fat-tree结构
                                                               设计思想成为当前以服务器为中心
                                      的数据中心网络互联的主流方法。
                                         郭传雄等[10]提出的DCell使用完全复合图(com-
                                      plete compound graph)生成互联结构,如图4所示。
                                      n为DCell0中交换机的端口数,K+1为服务器的网卡
                                      数。DCell0由一个4端口的交换机连接4台服务器构
                                      成,DCell1由5个DCell0构成完全图。其中服务器的
                                      地址<aK, ak-1, aK-2, …, a1, a0>表示该服务器位于DCellk
图3 5级Clos-Network                     中的第a K个DCell k-1,…DCell1中的第a0个服务器。
有K个pod。每个pod含有K/2个边界交换机,并且            服务器中的每个网卡属于某层DCel l,每层的连线的
每个边界交换机的一半端口连接K/2个服务器。所               规则是一个一对一的映射<i, j-1>< ><j, i>(i<j)。路
                                                         —

以可支撑的服务器数目是K 3/4。同理可以得出搭建             由算法可以使用类似Bit-Fixing的路由方法[11]。通过
Fat-tree结构所需交换机的数目是5K2/4,计算过程如        计算可知,当K=3,n=6时,DCell可以支持3263442
下:对于K端口交换机组成的Fat-tree,考虑核心交           台服务器。根据D C e l l 0 的结构(1个交换机连接6
换机与聚集交换机构成的二分图,核心交换机的节                台服务器),互联结构所需的6口交换机的个数为
点度为聚集交换机的2倍,所以核心交换机的个数
为聚集交换机的一半。由于共有K个pod,聚集交换
机的个数为K 2/2,所以核心交换机的数量为K 2/4,
                                                                <0,0>




                                                       <4,3>
                                                                       <0,1>




由5级Clos-Network可以得到,Fat-tree所需交换机总
                                                                               <0,2>




数为是5K2/4。                                          <4,2>
                                                                                       <0,3>




    Fat-tree结构设计思想是scale-out模式,使用了大            <4,1>
                                                                                           < 1,




                                           <4,0>
                                                                                          0>




量廉价交换机与复杂连线取代昂贵的高层交换机,
                                                                                               <1,
                                          <3,3>




                                                                                          1>




但连线的复杂性会带来安装调试数据中心网络的
                                                                                               < 1,
                                              <3,2>




复杂性。在数据中心中使用60G无线互联取代部
                                                                                          2>
                                                                                               < 1,




分有线连接值得我们去探索 [8]。现有廉价交换机相
                                                       <3,1>




                                                                                           3>




                                                                           >
                                                                       <2,0 <2,1> ,2>
                                                  <3,0>




对封闭不易修改,对Fat-tree设计也会带来挑战,交换                                       >             <2
                                                               <2,3                                   服务器
机的开放性设计(如openflow项目)是个很好的尝
试。另外,如何设计互联结构使得现有树形结构的
数据中心迁移到新的可扩展结构中也是值得考虑的
问题。                                   图4 DCell1(n=4)的网络结构




                                                                                                            23
专题                            第 7 卷  第 7 期  2011 年 7 月




     543907台。具体计算过程如下:服务器数量的计算                      于服务器为中心的设计方案中服务器参与了数据传
     依赖于DCell的搭建方法,若假设DCell k中服务器                   输,我们可以针对上层应用的特征对路由协议进行
     数量为t K,则DCell k+1含有t K+1个DCell k(构建完全          优化,如在转发过程中进行数据聚合等。
     图),我们可以通过迭代公式t K+1=t K×(t K+1)给出
     DCell结构所支持的服务器数量。由于每层的DCell                    典型原型系统
     构建的都是完全图,DCell的容错性能也很好。                             实际数据中心运行时,虚拟化技术的广泛使用
        但是DCell网络规模的持续扩大依赖于服务器                      提高了服务器的使用效率。一个实际问题是为了保
                     [12]
     网卡数的增加,李丹等             指出工业界使用的服务器             证虚拟机在迁移时的IP不需要重新配置,熟知的IP/
     一般拥有两块网卡,一块连交换机,另一块备用,                         Ethernet的协议限制了虚拟机在不改变IP的前提下只
     因此提出服务器网卡数受限时的可扩展互联结构                          能同一个子网内迁移(VLAN可以实现迁移时不改
     FiConn。与DCell相类似,FiConn使用了复合图逐层                变IP,但VLAN配置比较麻烦,实际系统采用预分
     构建FiConn结构,每次使用一半的空闲端口来组成完                     配的方式来减少重新配置VLAN)。我们希望网络
     全图。当FiConn0的交换机使用16口,FiConn的层数                 能给上层应用提供数据中心位于同一个子网的“错
     为4层时,FiConn可以支持的服务器数目为3553776。                 觉”,这样Ethernet的配置便捷与可迁移的优势就可
        便于快速部署的集装箱式的数据中心的出现提                        以被应用到大型数据中心中。SEATTLE[15]首先提出
     出了两个新的问题:集装箱式数据中心内部使用什么                        这一想法,它的关键在于企业内部网络完全可以摒
     结构互联?集装箱式之间使用什么结构互联?借鉴                         弃IP/Ethernet的架构,使用DHT的索引结构来提供
                       [13]         [14]
     HyperCube结构的BCube 与MDCube 分别被提出                名标识与位置的分离。交换机之间运行OSPF(Open
     解决这两个问题。集装箱式数据中心的特殊之处在于                        Shortest Path First,开放式最短路径优先)协议来避
     对带宽较高需求以及网络结构设计的对称性。这样的                        免Ethernet的广播问题,这样就给上层应用程序提供
     要求与这类数据中心的使用相关,即使部署后箱内的                        了所有服务器位于同一局域网的错觉。
     设备坏了,也不会拆箱更换其中的设备,网络设计                              PortLand[16]与VL2[17]分别是Fat-tree和SEATTLE的
     的对称性可以提高集装箱式数据中心的容错性能。                         改进,搭建了完整的数据中心网络系统。在设计网
        基于复合图构建以服务器为中心的数据中心网                        络协议时,考虑给上层应用提供平面地址(相对于
     络设计很热门,但是缺乏相应的数据中心网络可扩                         IP的分类地址而言)。PortLand中路由协议基于层次
     展理论的系统研究。不同于传统的结点度数/网络                         式的Pseudo MAC,借助主机MAC与PMAC的映射,
     直径问题,数据中心中最小粒度单元是交换机连接                         避免了对服务器端进行修改。此外PortLand使用了集
     多个服务器。我们需要研究在这种情况下数据中心                         中式控制(fabric manager)来实现ARP以及路由的容
     的可扩展性与最优网络直径理论,并设计出相应的                         错,充分考虑了Fat-tree结构的对称性,设计了分布式
     网络互联结构。此外,从实际工业界业务持续性角                         的位置发现,从而不需要管理员的人工配置。交换
     度考虑,数据中心需要拥有渐进可扩展性以及扩展                         机可以使用位置发现协议,自动配置自己的地址。
     过程中减少对硬件配置及上层网络协议的修改。由                         值得一提的是,陈凯等 [18]提出的一种更为通用的位




             中国计算机学会第九届理事会第八次常务理事会议
                 将于2012年1月7日在北京举行。



24
第 7 卷  第 7 期  2011 年 7 月




置发现协议,借助实际系统的连接信息与系统搭建                  互联结构提出了高效低耗的互联要求,集装箱式数
的蓝图,通过图匹配算法可以完成自主的位置发                   据中心的出现对互联结构提出了高带宽与平衡设计
现。VL2采用了不同于PortLand需要修改交换机协             的需求。可以预见伴随着数据中心的持续扩大,数
议的设计思路,复用原来的路由协议(OSPF等),                据中心的渐进可扩展性以及减少扩展过程中对已有
将系统修改集中在服务器端,借助位置相关的 IP与                结构的影响将可能成为新的研究问题。除了底层的
应用相关的IP之间的映射提供了名址分离。映射关                 互联结构外,考虑到数据中心上层应用与数据中心
系是由集中目录系统(directory system)来管理,通        环境的特殊性,如何设计出适应于数据中心的网络
过对数据中心中流量进行分析,VL2使用随机路由                 协议与管理机制也显得极为迫切。大型数据中心能
VLB(valiant load balancing)可以消除路由的热点。   耗巨大,设计出相关的节能调度技术将有利于发展
   原型系统的设计除了设计互联结构外,更多                  绿色数据中心,这将是未来研究的重要问题。■
地考虑数据中心中网络协议,自主管理等因素的影
                                                         陈贵海
响。不同于互联网,数据中心的地理集中性以及设
                                                         CCF高级会员。上海交通大学计算机
备的专有性,使得我们可以重新考虑整个网络体系                                   系特聘教授,主要研究方向为网络与
以及协议的设计;数据中心网络性质的独特性(带                                   通信、物联网、并行与分布式处理
宽,延迟等)也使我们必须去修改部分原有网络协                                   等。gchen@cs.sjtu.edu.cn

议。随着数据中心规模的扩大,PortLand与VL2集中
式的管理容易出现单点故障与性能瓶颈,设计分布                                   吴 盼
式的管理协议是个值得研究的问题。此外,可以预                                   南京大学计算机系博士生,主要研究方
见新的数据中心的互联结构还会被提出,我们需要                                   向无线传感器网络、数据中心等。
                                                         wp11111111@gmail.com
设计通用的上层网络协议与管理系统,能够兼容多
种互联结构。

                                                         杨盘隆
总结                                                       CCF会员。解放军理工大学副教授,
                                                         主要研究方向无线网络、数据中心、
   分析近几年国际会议相关文章的数量及其研究                                  云计算等。panlongyang@gmail.com

内容,可以发现数据中心网络研究正逐渐成为一个
热点。本文指出了现有数据中心架构存在的问题。
伴随着实际数据中心网络规模的不断扩大以及便于                  参考文献
快速方便部署的集装箱式数据中心的出现,需要我
                                        [1] http://www.datacenterknowledge.com/archives/2009/05
们设计相应的大型数据中心网络的互联结构,集装                      /14/whos-got-the-most-web-servers/
箱式数据中心内部以及集装箱之间的互联结构。设                  [2] Albert G. Greenberg, James R. Hamilton, David A.
                                            Maltz, Parveen Patel. The Cost of a Cloud: Research
计出的互联结构需要满足服务器之间的高带宽连
                                            Problems in Data Center Networks. Computer Commu-
接、网络结构可扩展及高可靠性等性质。完整的数                      nication Review 39(1): 2009, 68~73
据中心网络设计除了考虑互联结构外,还需要考虑                  [3] Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simpli-
                                            fied Data Processing on Large Clusters, In: Proc. of
网络协议设计与网络管理等。为此我们介绍了两个
                                            the 6th Symposium on Operating System Design and
典型原型系统PortLand和VL2的设计。                      Implementation. San Francisco: USENIX Association,
   从数据中心网络发展过程看,实际工业需求是                     2004. 137~150

数据中心网络研究的动力,如大规模服务器互联对




                                                                                                   25
专题                                      第 7 卷  第 7 期  2011 年 7 月




     [4] C.Kopparapu. Load Balancing Servers, Firewalls, and        [13] Chuanxiong Guo, Guohan Lu, Dan Li, Haitao Wu,
          Caches. John Wisely & Sons Inc., 2002                          Xuan Zhang, Yunfeng Shi, Chen Tian, Yongguang
     [5] Vijay Vasudevan, Amar Phanishayee, Hiral Shah, Elie             Zhang, Songwu Lu. BCube: A High Performance,
          Krevat, David G. Andersen, Gregory R. Ganger, Garth            Server-centric Network Architecture for Modular Data
          A. Gibson, Brian Mueller. Safe and Effective Fine-             Centers. In: Proc. of the ACM SIGCOMM. Barcelona:
          grained TCP Retransmissions for Datacenter Commu-              ACM, 2009. 63-74.
          nication. In: Proc. of the ACM SIGCOMM. Barcelona:        [14] Haitao Wu, Guohan Lu, Dan Li,Chuanxiong Guo,
          ACM, 2009. 303~314                                             Yongguang Zhang. MDCube: A High Performance Net-
     [6] Cisco: Data center: Load balancing data center services,        work Structure for Modular Data Center Interconnec-
          2004.                                                          tion. In: Proc. of the ACM International Conference on
     [7] Mohammad Al-Fares, Alexander Loukissas, Amin                    emerging Networking EXperiments and Technologies
          Vahdat. A Scalable, Commodity Data Center Network              (CoNEXT). Rome: ACM, 2009.25~36
          Architecture. In: Proc. of the ACM SIGCOMM. Seattle:      [15] Changhoon Kim, Matthew Caesar, Jennifer Rexford.
          ACM, 2008. 63~74                                               Floodless in Seattle: A Scalable Ethernet Architecture
     [8] Kishore Ramachandran, Ravi Kokku, Rajesh Mahindra,              for Large Enterprises. In: Proc. of the ACM SIG-
          Sampath Rangarajan. 60 GHz Data-Center Networking:             COMM. Seattle: ACM, 2008. 3~14
          Wireless => Worry less? NEC Technical Report. July,       [16] Radhika Niranjan Mysore, Andreas Pamboris, Nathan
          2008                                                           Farrington, Nelson Huang, Pardis Miri, Sivasankar
     [9] Dharma P. Agrawal, Chienhua Chen, J. Richard Burke.             Radhakrishnan, Vikram Subramanya, Amin Vahdat.
          Hybrid graph-based networks for multiprocessing. Tele-         PortLand: A Scalable Fault-tolerant Layer 2 Data Cen-
          communication Systems, Vol.10, 1998, 107~134                   ter Network Fabric. In: Proc. of the ACM SIGCOMM.
     [10] Chuanxiong Guo, Haitao Wu, Kun Tan, Lei Shi, Yong-             Barcelona: ACM, 2009. 39~50
          guang Zhang, Songwu Lu. Dcell: A Scalable and Fault-      [17] Albert Greenberg, James Hamilton, Navendu Jain, Sri-
          tolerant Network Structure for Data Centers. In: Proc.         kanthKandula, ChanghoonKim, ParantapLahiri, David
          of the ACM SIGCOMM. Seattle: ACM, 2008. 75~86                  A. Maltz, Parveen Patel, Sudipta Sengupta. VL2: A
     [11] R. Motwani and P. Raghavan. Randomized Algorithms.             Scalable and Flexible Data Center Network. In: Proc. of
          Cambridge University Press, 1995                               the ACM SIGCOMM. Barcelona: ACM, 2009. 51~62
     [12] Dan Li, Chuanxiong Guo, Haitao Wu, Kun Tan,               [18] Kai Chen, Chuanxiong Guo, Haitao Wu, Jing Yuan,
          Songwu Lu. FiConn:Using Backup Port for Server                 ZhenqianFeng, Yan Chen, Songwu Lu, Wenfei Wu.
          Interconnection in DataCenters. In: Proc. of the IEEE          Generic and Automatic Address Configuration for Data
          INFOCOM. Rio de Janeiro: IEEE Computer and Com-                Center Networks. In: Proc. of the ACM SIGCOMM.
          munications Societies, 2009. 2276~2285                         New Delhi: ACM, 2010. 39~50




26

More Related Content

Similar to 数据中心网络

第17讲 广域网基础
第17讲 广域网基础第17讲 广域网基础
第17讲 广域网基础
F.l. Yu
 
对无线局域网应用前景的探讨
对无线局域网应用前景的探讨对无线局域网应用前景的探讨
对无线局域网应用前景的探讨
beiyingmei11
 
3com 20101116
3com 201011163com 20101116
3com 20101116
i70
 
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
liangxiao0315
 
電腦應用 3 網路概論
電腦應用  3 網路概論電腦應用  3 網路概論
電腦應用 3 網路概論
Sirong Chen
 
数据中心网络架构与全球化服务-Qcon2011
数据中心网络架构与全球化服务-Qcon2011数据中心网络架构与全球化服务-Qcon2011
数据中心网络架构与全球化服务-Qcon2011
Yiwei Ma
 
计算机组成原理 6
计算机组成原理 6计算机组成原理 6
计算机组成原理 6
lqarenas
 
Alibaba server-zhangxuseng-qcon
Alibaba server-zhangxuseng-qconAlibaba server-zhangxuseng-qcon
Alibaba server-zhangxuseng-qcon
Yiwei Ma
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
Yiwei Ma
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
Yiwei Ma
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
Yiwei Ma
 

Similar to 数据中心网络 (20)

第17讲 广域网基础
第17讲 广域网基础第17讲 广域网基础
第17讲 广域网基础
 
对无线局域网应用前景的探讨
对无线局域网应用前景的探讨对无线局域网应用前景的探讨
对无线局域网应用前景的探讨
 
第2讲 Osi分层模型
第2讲 Osi分层模型第2讲 Osi分层模型
第2讲 Osi分层模型
 
8 集群
8 集群8 集群
8 集群
 
Wccp技术简介
Wccp技术简介Wccp技术简介
Wccp技术简介
 
3com 20101116
3com 201011163com 20101116
3com 20101116
 
组网实践
组网实践组网实践
组网实践
 
众行业公司系统架构案例介绍
众行业公司系统架构案例介绍众行业公司系统架构案例介绍
众行业公司系统架构案例介绍
 
07 tang xiongyan
07 tang xiongyan07 tang xiongyan
07 tang xiongyan
 
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
 
云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用
 
電腦應用 3 網路概論
電腦應用  3 網路概論電腦應用  3 網路概論
電腦應用 3 網路概論
 
05 zhao huiling
05 zhao huiling05 zhao huiling
05 zhao huiling
 
数据中心网络架构与全球化服务-Qcon2011
数据中心网络架构与全球化服务-Qcon2011数据中心网络架构与全球化服务-Qcon2011
数据中心网络架构与全球化服务-Qcon2011
 
认识电脑网络
认识电脑网络认识电脑网络
认识电脑网络
 
计算机组成原理 6
计算机组成原理 6计算机组成原理 6
计算机组成原理 6
 
Alibaba server-zhangxuseng-qcon
Alibaba server-zhangxuseng-qconAlibaba server-zhangxuseng-qcon
Alibaba server-zhangxuseng-qcon
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
 

数据中心网络

  • 1. 第 7 卷  第 7 期  2011 年 7 月 数据中心网络 陈贵海1,2 吴 盼2 杨盘隆3 1 上海交通大学 2 南京大学 3 关键词:数据中心 网络互联 云计算 绿色计算 解放军理工大学 引言 (电源供应,制冷)又可以降低成本。本文主要讨 论大型数据中心网络。 [1] 世界上哪家公司拥有的服务器最多?调查结果 文献[2]对一个50000台服务器级别的数据中心 显示:2006年谷歌拥有45万台服务器,现在已有 全年的开销进行了调查,见表1: 一百万台;而Facebook在2009年仅拥有6万台服务器。 表1 数据中心中开销统计结果 为了扩大现有公司业务以及能在未来云服务的市场 折合年花费百分比 组件 详细组成 上占有先机,世界各大公司竞相购置大量服务器并 ~45% 服务器 CPU,内存,存储设备 组建数据中心。 ~25% 基础设施 电能传输,制冷设备 如何高效地联结百万台的服务器是一个极为重 ~15% 电费 电能消耗 要的问题。现有的数据中心网络互联多采用树型结 ~15% 互联设备 电缆,交换机等设备 构。数据中心的规模一旦扩大,树型结构中的高层 从表1可知,为了降低数据中心的运行开销, 交换机就必须更换为更昂贵更先进的交换节点以应 服务器的花费是最令人关注的。业界普遍认为的残 对高带宽和海量存储的应用需求。即便如此,容错 酷现实是:数据中心中服务器的使用效率只有10% 性和带宽需求依然得不到保障。系统地研究数据中 左右 [2]。服务器使用效率低的原因主要在于传统网 心实际应用的流量模式及其影响、互联结构、网络 络体系结构的限制与数据中心自主管理的匮乏,具 协议、管理等问题十分必要。数据中心网络设计的 体包括: 目标应该是:服务器之间的高带宽连接、网络结构 网络结构的限制 我们熟知的谷歌搜索服务需 可扩展及高可靠性、服务部署的敏捷性、节能和自 要GFS(Google file system)以及MapReduce[3]技术的 动化配置。 支持,而GFS中大量的文件复制操作以及MapReduce 中使用的All-to-All的通信模式对数据中心网络的通 存在的问题 信带宽提出很高的要求。树型数据中心结构高层的 低通信带宽会导致服务器使用的区域分割。 数据中心按规模大小分为两类:地理集中式大 网络协议的限制 传统数据中心沿用的IP协议中 型数据中心(mega data center,以所需电功率兆瓦得 子网划分会造成资源的分割,如负载均衡设备只能使 名)和地理分布式的小型数据中心(micro data center, 用同一个子网下的服务器做负载均衡(half-NAT [4])。 千数量级)。大型数据中心的出现,是公司业务扩 现有的做法是预分配,但若应用需求的估计出错,预分 大所致。大量服务器集中放置既可以共享基础设施 配服务器会造成服务器的闲置(over-provision)。 21
  • 2. 专题 第 7 卷  第 7 期  2011 年 7 月 另外,在数据中心中大量沿用网络传输协议(TCP), 服务器。内部服务器之间的流量主要通过二层交换 而原有的TCP协议是面向互联网开发的,没有考虑 机来支撑。当公司业务流量增加时,位于网络结构 [5] 数据中心网络环境的特殊性 ,例如相对于互联网 高层的交换机就必须升级以满足业务需求,这种靠 环境中的RTT(round trip time)为100ms,而数据中 使用更高端的交换机实现数据中心规模扩大的方法 心中的RTT<1ms。 被称为纵向扩展模式(scale-up)。我们希望新的架 网络管理的限制 有调查显示,数据中心 构能够使用廉价的低端交换机来互联大规模的服务 50%~80%的出错都是由于人的误操作导致,所以我 器,同时提供网络可扩展及服务器之间的高通信带 们需要重新设计协议,减少人工管理,强化数据中 宽,即横向扩展模式(scale-out)。下面我们将介绍 心的自主配置与管理。 几种新的互联结构(Fat-tree [7],DCell[10]和 FiConn[12] 至于基础设施和电费部分的开销,我们可以通 等)与两个典型的原型系统(Portland[16]与VL2[17]), 过设计节能算法调度数据中心中的设备来降低能耗; 其中Portland,VL2的设计会更多考虑系统设计对虚 对于互联设备如交换机等,我们可以使用多个廉价 拟机迁移以及自主管理等方面的支撑。 的低端交换机互联取代高端的交换机以降低成本。 互联结构 体系结构 按照服务器是否参与转发,将互联结构分为以 交换机为中心与以服务器为中心的互联结构。由于 [6] 图1所示的是传统数据中心搭建使用三层结构 。 篇幅限制,我们省略了互联结构的等分带宽、路由 机架A内的服务器使用架顶式交换机(Top-of-Rack) 协议以及连线等部分的详细分析,有兴趣的读者可 互联,通过二层交换机(End-of-Row)组成局域网, 以参考文献[7~14]。 再通过接入路由器和核心路由器向外网提供服务。 以交换机为中心的互联结构 传统数据中心支持两种流量:(1)内部服务器之 传统的三层数据中心结构属于交换机为中心的 间的流量,如网页检索索引的建立;(2)内部服 互联结构,前面提到过树型结构的弱点, Al-Fares[7] 务器与外部终端用户之间的交互流量,如网页浏 提出的使用廉价的交换机构建Fat-tree结构实现了 览。负载均衡设备提供交互流量的负载均衡,终端 系统的大规模互联以及服务器之间的高通信带宽 用户通过互联网,再经过接入路由器可以访问内部 (oversubscription比率为1 1,即网络能提供服务器网 ∶ 卡支持的通信带宽)。 Fat-tree结构搭建的系统如图2 所示。 CR 互联网 互联网 需要说明的是,Fat-tree互联结构中交换机分为 三层:核心交换机、聚集交换机和边界交换机。核 数据中心 AR 第三层 心交换机端口全部向下互联聚集交换机;聚集交换 机和边界交换机端口一半向上一半向下,其中边界 第二层 交换机一半端口连接服务器。细心的读者会发现这 LB LB 个结构同构于5级Clos-Network,如图3所示。 说明: K端口的交换机可以支撑的数据中心的规模是 S CR=三层核心路由器 3 AR=接入路由器 K /4。当K=48时,Fat-tree可支持27648台服务器, S=二层交换机 A A A A LB=负载均衡设备 互联结构需要48端口的交换机数量为2880台。具体 A=机架 计算过程如下:我们把图2中的方框中的交换机集 图1 传统数据中心网络结构 合称为pod,对于K端口交换机组成的互联结构,共 22
  • 3. 第 7 卷  第 7 期  2011 年 7 月 以服务器为中心的互联结构 核心交换机 借助服务器的多网卡以及数 据转发功能,我们可以用低端交 聚集交换机 换机互联大型数据中心网络,这 类解决方案利用大量服务器之间 边界交换机 的连线以及低端交换机来实现高 效互联,其中基于复合图(com- pound graph)[9]并采用层次网络的 图2 Fat-tree结构 设计思想成为当前以服务器为中心 的数据中心网络互联的主流方法。 郭传雄等[10]提出的DCell使用完全复合图(com- plete compound graph)生成互联结构,如图4所示。 n为DCell0中交换机的端口数,K+1为服务器的网卡 数。DCell0由一个4端口的交换机连接4台服务器构 成,DCell1由5个DCell0构成完全图。其中服务器的 地址<aK, ak-1, aK-2, …, a1, a0>表示该服务器位于DCellk 图3 5级Clos-Network 中的第a K个DCell k-1,…DCell1中的第a0个服务器。 有K个pod。每个pod含有K/2个边界交换机,并且 服务器中的每个网卡属于某层DCel l,每层的连线的 每个边界交换机的一半端口连接K/2个服务器。所 规则是一个一对一的映射<i, j-1>< ><j, i>(i<j)。路 — 以可支撑的服务器数目是K 3/4。同理可以得出搭建 由算法可以使用类似Bit-Fixing的路由方法[11]。通过 Fat-tree结构所需交换机的数目是5K2/4,计算过程如 计算可知,当K=3,n=6时,DCell可以支持3263442 下:对于K端口交换机组成的Fat-tree,考虑核心交 台服务器。根据D C e l l 0 的结构(1个交换机连接6 换机与聚集交换机构成的二分图,核心交换机的节 台服务器),互联结构所需的6口交换机的个数为 点度为聚集交换机的2倍,所以核心交换机的个数 为聚集交换机的一半。由于共有K个pod,聚集交换 机的个数为K 2/2,所以核心交换机的数量为K 2/4, <0,0> <4,3> <0,1> 由5级Clos-Network可以得到,Fat-tree所需交换机总 <0,2> 数为是5K2/4。 <4,2> <0,3> Fat-tree结构设计思想是scale-out模式,使用了大 <4,1> < 1, <4,0> 0> 量廉价交换机与复杂连线取代昂贵的高层交换机, <1, <3,3> 1> 但连线的复杂性会带来安装调试数据中心网络的 < 1, <3,2> 复杂性。在数据中心中使用60G无线互联取代部 2> < 1, 分有线连接值得我们去探索 [8]。现有廉价交换机相 <3,1> 3> > <2,0 <2,1> ,2> <3,0> 对封闭不易修改,对Fat-tree设计也会带来挑战,交换 > <2 <2,3 服务器 机的开放性设计(如openflow项目)是个很好的尝 试。另外,如何设计互联结构使得现有树形结构的 数据中心迁移到新的可扩展结构中也是值得考虑的 问题。 图4 DCell1(n=4)的网络结构 23
  • 4. 专题 第 7 卷  第 7 期  2011 年 7 月 543907台。具体计算过程如下:服务器数量的计算 于服务器为中心的设计方案中服务器参与了数据传 依赖于DCell的搭建方法,若假设DCell k中服务器 输,我们可以针对上层应用的特征对路由协议进行 数量为t K,则DCell k+1含有t K+1个DCell k(构建完全 优化,如在转发过程中进行数据聚合等。 图),我们可以通过迭代公式t K+1=t K×(t K+1)给出 DCell结构所支持的服务器数量。由于每层的DCell 典型原型系统 构建的都是完全图,DCell的容错性能也很好。 实际数据中心运行时,虚拟化技术的广泛使用 但是DCell网络规模的持续扩大依赖于服务器 提高了服务器的使用效率。一个实际问题是为了保 [12] 网卡数的增加,李丹等 指出工业界使用的服务器 证虚拟机在迁移时的IP不需要重新配置,熟知的IP/ 一般拥有两块网卡,一块连交换机,另一块备用, Ethernet的协议限制了虚拟机在不改变IP的前提下只 因此提出服务器网卡数受限时的可扩展互联结构 能同一个子网内迁移(VLAN可以实现迁移时不改 FiConn。与DCell相类似,FiConn使用了复合图逐层 变IP,但VLAN配置比较麻烦,实际系统采用预分 构建FiConn结构,每次使用一半的空闲端口来组成完 配的方式来减少重新配置VLAN)。我们希望网络 全图。当FiConn0的交换机使用16口,FiConn的层数 能给上层应用提供数据中心位于同一个子网的“错 为4层时,FiConn可以支持的服务器数目为3553776。 觉”,这样Ethernet的配置便捷与可迁移的优势就可 便于快速部署的集装箱式的数据中心的出现提 以被应用到大型数据中心中。SEATTLE[15]首先提出 出了两个新的问题:集装箱式数据中心内部使用什么 这一想法,它的关键在于企业内部网络完全可以摒 结构互联?集装箱式之间使用什么结构互联?借鉴 弃IP/Ethernet的架构,使用DHT的索引结构来提供 [13] [14] HyperCube结构的BCube 与MDCube 分别被提出 名标识与位置的分离。交换机之间运行OSPF(Open 解决这两个问题。集装箱式数据中心的特殊之处在于 Shortest Path First,开放式最短路径优先)协议来避 对带宽较高需求以及网络结构设计的对称性。这样的 免Ethernet的广播问题,这样就给上层应用程序提供 要求与这类数据中心的使用相关,即使部署后箱内的 了所有服务器位于同一局域网的错觉。 设备坏了,也不会拆箱更换其中的设备,网络设计 PortLand[16]与VL2[17]分别是Fat-tree和SEATTLE的 的对称性可以提高集装箱式数据中心的容错性能。 改进,搭建了完整的数据中心网络系统。在设计网 基于复合图构建以服务器为中心的数据中心网 络协议时,考虑给上层应用提供平面地址(相对于 络设计很热门,但是缺乏相应的数据中心网络可扩 IP的分类地址而言)。PortLand中路由协议基于层次 展理论的系统研究。不同于传统的结点度数/网络 式的Pseudo MAC,借助主机MAC与PMAC的映射, 直径问题,数据中心中最小粒度单元是交换机连接 避免了对服务器端进行修改。此外PortLand使用了集 多个服务器。我们需要研究在这种情况下数据中心 中式控制(fabric manager)来实现ARP以及路由的容 的可扩展性与最优网络直径理论,并设计出相应的 错,充分考虑了Fat-tree结构的对称性,设计了分布式 网络互联结构。此外,从实际工业界业务持续性角 的位置发现,从而不需要管理员的人工配置。交换 度考虑,数据中心需要拥有渐进可扩展性以及扩展 机可以使用位置发现协议,自动配置自己的地址。 过程中减少对硬件配置及上层网络协议的修改。由 值得一提的是,陈凯等 [18]提出的一种更为通用的位 中国计算机学会第九届理事会第八次常务理事会议 将于2012年1月7日在北京举行。 24
  • 5. 第 7 卷  第 7 期  2011 年 7 月 置发现协议,借助实际系统的连接信息与系统搭建 互联结构提出了高效低耗的互联要求,集装箱式数 的蓝图,通过图匹配算法可以完成自主的位置发 据中心的出现对互联结构提出了高带宽与平衡设计 现。VL2采用了不同于PortLand需要修改交换机协 的需求。可以预见伴随着数据中心的持续扩大,数 议的设计思路,复用原来的路由协议(OSPF等), 据中心的渐进可扩展性以及减少扩展过程中对已有 将系统修改集中在服务器端,借助位置相关的 IP与 结构的影响将可能成为新的研究问题。除了底层的 应用相关的IP之间的映射提供了名址分离。映射关 互联结构外,考虑到数据中心上层应用与数据中心 系是由集中目录系统(directory system)来管理,通 环境的特殊性,如何设计出适应于数据中心的网络 过对数据中心中流量进行分析,VL2使用随机路由 协议与管理机制也显得极为迫切。大型数据中心能 VLB(valiant load balancing)可以消除路由的热点。 耗巨大,设计出相关的节能调度技术将有利于发展 原型系统的设计除了设计互联结构外,更多 绿色数据中心,这将是未来研究的重要问题。■ 地考虑数据中心中网络协议,自主管理等因素的影 陈贵海 响。不同于互联网,数据中心的地理集中性以及设 CCF高级会员。上海交通大学计算机 备的专有性,使得我们可以重新考虑整个网络体系 系特聘教授,主要研究方向为网络与 以及协议的设计;数据中心网络性质的独特性(带 通信、物联网、并行与分布式处理 宽,延迟等)也使我们必须去修改部分原有网络协 等。gchen@cs.sjtu.edu.cn 议。随着数据中心规模的扩大,PortLand与VL2集中 式的管理容易出现单点故障与性能瓶颈,设计分布 吴 盼 式的管理协议是个值得研究的问题。此外,可以预 南京大学计算机系博士生,主要研究方 见新的数据中心的互联结构还会被提出,我们需要 向无线传感器网络、数据中心等。 wp11111111@gmail.com 设计通用的上层网络协议与管理系统,能够兼容多 种互联结构。 杨盘隆 总结 CCF会员。解放军理工大学副教授, 主要研究方向无线网络、数据中心、 分析近几年国际会议相关文章的数量及其研究 云计算等。panlongyang@gmail.com 内容,可以发现数据中心网络研究正逐渐成为一个 热点。本文指出了现有数据中心架构存在的问题。 伴随着实际数据中心网络规模的不断扩大以及便于 参考文献 快速方便部署的集装箱式数据中心的出现,需要我 [1] http://www.datacenterknowledge.com/archives/2009/05 们设计相应的大型数据中心网络的互联结构,集装 /14/whos-got-the-most-web-servers/ 箱式数据中心内部以及集装箱之间的互联结构。设 [2] Albert G. Greenberg, James R. Hamilton, David A. Maltz, Parveen Patel. The Cost of a Cloud: Research 计出的互联结构需要满足服务器之间的高带宽连 Problems in Data Center Networks. Computer Commu- 接、网络结构可扩展及高可靠性等性质。完整的数 nication Review 39(1): 2009, 68~73 据中心网络设计除了考虑互联结构外,还需要考虑 [3] Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simpli- fied Data Processing on Large Clusters, In: Proc. of 网络协议设计与网络管理等。为此我们介绍了两个 the 6th Symposium on Operating System Design and 典型原型系统PortLand和VL2的设计。 Implementation. San Francisco: USENIX Association, 从数据中心网络发展过程看,实际工业需求是 2004. 137~150 数据中心网络研究的动力,如大规模服务器互联对 25
  • 6. 专题 第 7 卷  第 7 期  2011 年 7 月 [4] C.Kopparapu. Load Balancing Servers, Firewalls, and [13] Chuanxiong Guo, Guohan Lu, Dan Li, Haitao Wu, Caches. John Wisely & Sons Inc., 2002 Xuan Zhang, Yunfeng Shi, Chen Tian, Yongguang [5] Vijay Vasudevan, Amar Phanishayee, Hiral Shah, Elie Zhang, Songwu Lu. BCube: A High Performance, Krevat, David G. Andersen, Gregory R. Ganger, Garth Server-centric Network Architecture for Modular Data A. Gibson, Brian Mueller. Safe and Effective Fine- Centers. In: Proc. of the ACM SIGCOMM. Barcelona: grained TCP Retransmissions for Datacenter Commu- ACM, 2009. 63-74. nication. In: Proc. of the ACM SIGCOMM. Barcelona: [14] Haitao Wu, Guohan Lu, Dan Li,Chuanxiong Guo, ACM, 2009. 303~314 Yongguang Zhang. MDCube: A High Performance Net- [6] Cisco: Data center: Load balancing data center services, work Structure for Modular Data Center Interconnec- 2004. tion. In: Proc. of the ACM International Conference on [7] Mohammad Al-Fares, Alexander Loukissas, Amin emerging Networking EXperiments and Technologies Vahdat. A Scalable, Commodity Data Center Network (CoNEXT). Rome: ACM, 2009.25~36 Architecture. In: Proc. of the ACM SIGCOMM. Seattle: [15] Changhoon Kim, Matthew Caesar, Jennifer Rexford. ACM, 2008. 63~74 Floodless in Seattle: A Scalable Ethernet Architecture [8] Kishore Ramachandran, Ravi Kokku, Rajesh Mahindra, for Large Enterprises. In: Proc. of the ACM SIG- Sampath Rangarajan. 60 GHz Data-Center Networking: COMM. Seattle: ACM, 2008. 3~14 Wireless => Worry less? NEC Technical Report. July, [16] Radhika Niranjan Mysore, Andreas Pamboris, Nathan 2008 Farrington, Nelson Huang, Pardis Miri, Sivasankar [9] Dharma P. Agrawal, Chienhua Chen, J. Richard Burke. Radhakrishnan, Vikram Subramanya, Amin Vahdat. Hybrid graph-based networks for multiprocessing. Tele- PortLand: A Scalable Fault-tolerant Layer 2 Data Cen- communication Systems, Vol.10, 1998, 107~134 ter Network Fabric. In: Proc. of the ACM SIGCOMM. [10] Chuanxiong Guo, Haitao Wu, Kun Tan, Lei Shi, Yong- Barcelona: ACM, 2009. 39~50 guang Zhang, Songwu Lu. Dcell: A Scalable and Fault- [17] Albert Greenberg, James Hamilton, Navendu Jain, Sri- tolerant Network Structure for Data Centers. In: Proc. kanthKandula, ChanghoonKim, ParantapLahiri, David of the ACM SIGCOMM. Seattle: ACM, 2008. 75~86 A. Maltz, Parveen Patel, Sudipta Sengupta. VL2: A [11] R. Motwani and P. Raghavan. Randomized Algorithms. Scalable and Flexible Data Center Network. In: Proc. of Cambridge University Press, 1995 the ACM SIGCOMM. Barcelona: ACM, 2009. 51~62 [12] Dan Li, Chuanxiong Guo, Haitao Wu, Kun Tan, [18] Kai Chen, Chuanxiong Guo, Haitao Wu, Jing Yuan, Songwu Lu. FiConn:Using Backup Port for Server ZhenqianFeng, Yan Chen, Songwu Lu, Wenfei Wu. Interconnection in DataCenters. In: Proc. of the IEEE Generic and Automatic Address Configuration for Data INFOCOM. Rio de Janeiro: IEEE Computer and Com- Center Networks. In: Proc. of the ACM SIGCOMM. munications Societies, 2009. 2276~2285 New Delhi: ACM, 2010. 39~50 26