SlideShare a Scribd company logo
1 of 6
第 7 卷  第 7 期  2011 年 7 月




数据中心网络
                                                     陈贵海1,2 吴 盼2 杨盘隆3
                                                     1
                                                      上海交通大学
                                                     2
                                                      南京大学
                                                     3
关键词:数据中心 网络互联 云计算 绿色计算                                 解放军理工大学


引言                                     (电源供应,制冷)又可以降低成本。本文主要讨
                                       论大型数据中心网络。
                                 [1]
   世界上哪家公司拥有的服务器最多?调查结果                   文献[2]对一个50000台服务器级别的数据中心
显示:2006年谷歌拥有45万台服务器,现在已有               全年的开销进行了调查,见表1:
一百万台;而Facebook在2009年仅拥有6万台服务器。         表1 数据中心中开销统计结果
为了扩大现有公司业务以及能在未来云服务的市场                 折合年花费百分比       组件            详细组成
上占有先机,世界各大公司竞相购置大量服务器并                     ~45%     服务器      CPU,内存,存储设备
组建数据中心。                                    ~25%     基础设施     电能传输,制冷设备
   如何高效地联结百万台的服务器是一个极为重                    ~15%     电费       电能消耗

要的问题。现有的数据中心网络互联多采用树型结                     ~15%     互联设备     电缆,交换机等设备

构。数据中心的规模一旦扩大,树型结构中的高层                    从表1可知,为了降低数据中心的运行开销,
交换机就必须更换为更昂贵更先进的交换节点以应                 服务器的花费是最令人关注的。业界普遍认为的残
对高带宽和海量存储的应用需求。即便如此,容错                 酷现实是:数据中心中服务器的使用效率只有10%
性和带宽需求依然得不到保障。系统地研究数据中                 左右 [2]。服务器使用效率低的原因主要在于传统网
心实际应用的流量模式及其影响、互联结构、网络                 络体系结构的限制与数据中心自主管理的匮乏,具
协议、管理等问题十分必要。数据中心网络设计的                 体包括:
目标应该是:服务器之间的高带宽连接、网络结构                    网络结构的限制 我们熟知的谷歌搜索服务需
可扩展及高可靠性、服务部署的敏捷性、节能和自                 要GFS(Google file system)以及MapReduce[3]技术的
动化配置。                                  支持,而GFS中大量的文件复制操作以及MapReduce
                                       中使用的All-to-All的通信模式对数据中心网络的通

存在的问题                                  信带宽提出很高的要求。树型数据中心结构高层的
                                       低通信带宽会导致服务器使用的区域分割。
   数据中心按规模大小分为两类:地理集中式大                   网络协议的限制 传统数据中心沿用的IP协议中
型数据中心(mega data center,以所需电功率兆瓦得       子网划分会造成资源的分割,如负载均衡设备只能使
名)和地理分布式的小型数据中心(micro data center,     用同一个子网下的服务器做负载均衡(half-NAT [4])。
千数量级)。大型数据中心的出现,是公司业务扩                 现有的做法是预分配,但若应用需求的估计出错,预分
大所致。大量服务器集中放置既可以共享基础设施                 配服务器会造成服务器的闲置(over-provision)。




                                                                                      21
专题                                  第 7 卷  第 7 期  2011 年 7 月




     另外,在数据中心中大量沿用网络传输协议(TCP),                            服务器。内部服务器之间的流量主要通过二层交换
     而原有的TCP协议是面向互联网开发的,没有考虑                              机来支撑。当公司业务流量增加时,位于网络结构
                              [5]
     数据中心网络环境的特殊性 ,例如相对于互联网                               高层的交换机就必须升级以满足业务需求,这种靠
     环境中的RTT(round trip time)为100ms,而数据中                  使用更高端的交换机实现数据中心规模扩大的方法
     心中的RTT<1ms。                                          被称为纵向扩展模式(scale-up)。我们希望新的架
        网络管理的限制 有调查显示,数据中心                                构能够使用廉价的低端交换机来互联大规模的服务
     50%~80%的出错都是由于人的误操作导致,所以我                            器,同时提供网络可扩展及服务器之间的高通信带
     们需要重新设计协议,减少人工管理,强化数据中                               宽,即横向扩展模式(scale-out)。下面我们将介绍
     心的自主配置与管理。                                           几种新的互联结构(Fat-tree [7],DCell[10]和 FiConn[12]
        至于基础设施和电费部分的开销,我们可以通                              等)与两个典型的原型系统(Portland[16]与VL2[17]),
     过设计节能算法调度数据中心中的设备来降低能耗;                              其中Portland,VL2的设计会更多考虑系统设计对虚
     对于互联设备如交换机等,我们可以使用多个廉价                               拟机迁移以及自主管理等方面的支撑。
     的低端交换机互联取代高端的交换机以降低成本。
                                                          互联结构
     体系结构                                                          按照服务器是否参与转发,将互联结构分为以
                                                          交换机为中心与以服务器为中心的互联结构。由于
                                                    [6]
        图1所示的是传统数据中心搭建使用三层结构 。                            篇幅限制,我们省略了互联结构的等分带宽、路由
     机架A内的服务器使用架顶式交换机(Top-of-Rack)                        协议以及连线等部分的详细分析,有兴趣的读者可
     互联,通过二层交换机(End-of-Row)组成局域网,                         以参考文献[7~14]。
     再通过接入路由器和核心路由器向外网提供服务。                               以交换机为中心的互联结构
     传统数据中心支持两种流量:(1)内部服务器之                                        传统的三层数据中心结构属于交换机为中心的
     间的流量,如网页检索索引的建立;(2)内部服                               互联结构,前面提到过树型结构的弱点, Al-Fares[7]
     务器与外部终端用户之间的交互流量,如网页浏                                提出的使用廉价的交换机构建Fat-tree结构实现了
     览。负载均衡设备提供交互流量的负载均衡,终端                               系统的大规模互联以及服务器之间的高通信带宽
     用户通过互联网,再经过接入路由器可以访问内部                               (oversubscription比率为1 1,即网络能提供服务器网
                                                                              ∶
                                                          卡支持的通信带宽)。 Fat-tree结构搭建的系统如图2
                                                          所示。
                                      CR
       互联网             互联网                                         需要说明的是,Fat-tree互联结构中交换机分为
                                                          三层:核心交换机、聚集交换机和边界交换机。核
      数据中心                                   AR
      第三层                                                 心交换机端口全部向下互联聚集交换机;聚集交换
                                                          机和边界交换机端口一半向上一半向下,其中边界
      第二层
                                                          交换机一半端口连接服务器。细心的读者会发现这
      LB                     LB
                                                          个结构同构于5级Clos-Network,如图3所示。
                                       说明:                         K端口的交换机可以支撑的数据中心的规模是
                                  S    CR=三层核心路由器
                                                               3
                                       AR=接入路由器            K /4。当K=48时,Fat-tree可支持27648台服务器,
                                       S=二层交换机
           A   A   A     A             LB=负载均衡设备          互联结构需要48端口的交换机数量为2880台。具体
                                       A=机架
                                                          计算过程如下:我们把图2中的方框中的交换机集
     图1 传统数据中心网络结构                                        合称为pod,对于K端口交换机组成的互联结构,共




22
第 7 卷  第 7 期  2011 年 7 月




                                                               以服务器为中心的互联结构
                                        核心交换机
                                                                   借助服务器的多网卡以及数
                                                               据转发功能,我们可以用低端交
                                        聚集交换机
                                                               换机互联大型数据中心网络,这
                                                               类解决方案利用大量服务器之间
                                        边界交换机                  的连线以及低端交换机来实现高
                                                               效互联,其中基于复合图(com-
                                                               pound graph)[9]并采用层次网络的
图2 Fat-tree结构
                                                               设计思想成为当前以服务器为中心
                                      的数据中心网络互联的主流方法。
                                         郭传雄等[10]提出的DCell使用完全复合图(com-
                                      plete compound graph)生成互联结构,如图4所示。
                                      n为DCell0中交换机的端口数,K+1为服务器的网卡
                                      数。DCell0由一个4端口的交换机连接4台服务器构
                                      成,DCell1由5个DCell0构成完全图。其中服务器的
                                      地址<aK, ak-1, aK-2, …, a1, a0>表示该服务器位于DCellk
图3 5级Clos-Network                     中的第a K个DCell k-1,…DCell1中的第a0个服务器。
有K个pod。每个pod含有K/2个边界交换机,并且            服务器中的每个网卡属于某层DCel l,每层的连线的
每个边界交换机的一半端口连接K/2个服务器。所               规则是一个一对一的映射<i, j-1>< ><j, i>(i<j)。路
                                                         —

以可支撑的服务器数目是K 3/4。同理可以得出搭建             由算法可以使用类似Bit-Fixing的路由方法[11]。通过
Fat-tree结构所需交换机的数目是5K2/4,计算过程如        计算可知,当K=3,n=6时,DCell可以支持3263442
下:对于K端口交换机组成的Fat-tree,考虑核心交           台服务器。根据D C e l l 0 的结构(1个交换机连接6
换机与聚集交换机构成的二分图,核心交换机的节                台服务器),互联结构所需的6口交换机的个数为
点度为聚集交换机的2倍,所以核心交换机的个数
为聚集交换机的一半。由于共有K个pod,聚集交换
机的个数为K 2/2,所以核心交换机的数量为K 2/4,
                                                                <0,0>




                                                       <4,3>
                                                                       <0,1>




由5级Clos-Network可以得到,Fat-tree所需交换机总
                                                                               <0,2>




数为是5K2/4。                                          <4,2>
                                                                                       <0,3>




    Fat-tree结构设计思想是scale-out模式,使用了大            <4,1>
                                                                                           < 1,




                                           <4,0>
                                                                                          0>




量廉价交换机与复杂连线取代昂贵的高层交换机,
                                                                                               <1,
                                          <3,3>




                                                                                          1>




但连线的复杂性会带来安装调试数据中心网络的
                                                                                               < 1,
                                              <3,2>




复杂性。在数据中心中使用60G无线互联取代部
                                                                                          2>
                                                                                               < 1,




分有线连接值得我们去探索 [8]。现有廉价交换机相
                                                       <3,1>




                                                                                           3>




                                                                           >
                                                                       <2,0 <2,1> ,2>
                                                  <3,0>




对封闭不易修改,对Fat-tree设计也会带来挑战,交换                                       >             <2
                                                               <2,3                                   服务器
机的开放性设计(如openflow项目)是个很好的尝
试。另外,如何设计互联结构使得现有树形结构的
数据中心迁移到新的可扩展结构中也是值得考虑的
问题。                                   图4 DCell1(n=4)的网络结构




                                                                                                            23
专题                            第 7 卷  第 7 期  2011 年 7 月




     543907台。具体计算过程如下:服务器数量的计算                      于服务器为中心的设计方案中服务器参与了数据传
     依赖于DCell的搭建方法,若假设DCell k中服务器                   输,我们可以针对上层应用的特征对路由协议进行
     数量为t K,则DCell k+1含有t K+1个DCell k(构建完全          优化,如在转发过程中进行数据聚合等。
     图),我们可以通过迭代公式t K+1=t K×(t K+1)给出
     DCell结构所支持的服务器数量。由于每层的DCell                    典型原型系统
     构建的都是完全图,DCell的容错性能也很好。                             实际数据中心运行时,虚拟化技术的广泛使用
        但是DCell网络规模的持续扩大依赖于服务器                      提高了服务器的使用效率。一个实际问题是为了保
                     [12]
     网卡数的增加,李丹等             指出工业界使用的服务器             证虚拟机在迁移时的IP不需要重新配置,熟知的IP/
     一般拥有两块网卡,一块连交换机,另一块备用,                         Ethernet的协议限制了虚拟机在不改变IP的前提下只
     因此提出服务器网卡数受限时的可扩展互联结构                          能同一个子网内迁移(VLAN可以实现迁移时不改
     FiConn。与DCell相类似,FiConn使用了复合图逐层                变IP,但VLAN配置比较麻烦,实际系统采用预分
     构建FiConn结构,每次使用一半的空闲端口来组成完                     配的方式来减少重新配置VLAN)。我们希望网络
     全图。当FiConn0的交换机使用16口,FiConn的层数                 能给上层应用提供数据中心位于同一个子网的“错
     为4层时,FiConn可以支持的服务器数目为3553776。                 觉”,这样Ethernet的配置便捷与可迁移的优势就可
        便于快速部署的集装箱式的数据中心的出现提                        以被应用到大型数据中心中。SEATTLE[15]首先提出
     出了两个新的问题:集装箱式数据中心内部使用什么                        这一想法,它的关键在于企业内部网络完全可以摒
     结构互联?集装箱式之间使用什么结构互联?借鉴                         弃IP/Ethernet的架构,使用DHT的索引结构来提供
                       [13]         [14]
     HyperCube结构的BCube 与MDCube 分别被提出                名标识与位置的分离。交换机之间运行OSPF(Open
     解决这两个问题。集装箱式数据中心的特殊之处在于                        Shortest Path First,开放式最短路径优先)协议来避
     对带宽较高需求以及网络结构设计的对称性。这样的                        免Ethernet的广播问题,这样就给上层应用程序提供
     要求与这类数据中心的使用相关,即使部署后箱内的                        了所有服务器位于同一局域网的错觉。
     设备坏了,也不会拆箱更换其中的设备,网络设计                              PortLand[16]与VL2[17]分别是Fat-tree和SEATTLE的
     的对称性可以提高集装箱式数据中心的容错性能。                         改进,搭建了完整的数据中心网络系统。在设计网
        基于复合图构建以服务器为中心的数据中心网                        络协议时,考虑给上层应用提供平面地址(相对于
     络设计很热门,但是缺乏相应的数据中心网络可扩                         IP的分类地址而言)。PortLand中路由协议基于层次
     展理论的系统研究。不同于传统的结点度数/网络                         式的Pseudo MAC,借助主机MAC与PMAC的映射,
     直径问题,数据中心中最小粒度单元是交换机连接                         避免了对服务器端进行修改。此外PortLand使用了集
     多个服务器。我们需要研究在这种情况下数据中心                         中式控制(fabric manager)来实现ARP以及路由的容
     的可扩展性与最优网络直径理论,并设计出相应的                         错,充分考虑了Fat-tree结构的对称性,设计了分布式
     网络互联结构。此外,从实际工业界业务持续性角                         的位置发现,从而不需要管理员的人工配置。交换
     度考虑,数据中心需要拥有渐进可扩展性以及扩展                         机可以使用位置发现协议,自动配置自己的地址。
     过程中减少对硬件配置及上层网络协议的修改。由                         值得一提的是,陈凯等 [18]提出的一种更为通用的位




             中国计算机学会第九届理事会第八次常务理事会议
                 将于2012年1月7日在北京举行。



24
第 7 卷  第 7 期  2011 年 7 月




置发现协议,借助实际系统的连接信息与系统搭建                  互联结构提出了高效低耗的互联要求,集装箱式数
的蓝图,通过图匹配算法可以完成自主的位置发                   据中心的出现对互联结构提出了高带宽与平衡设计
现。VL2采用了不同于PortLand需要修改交换机协             的需求。可以预见伴随着数据中心的持续扩大,数
议的设计思路,复用原来的路由协议(OSPF等),                据中心的渐进可扩展性以及减少扩展过程中对已有
将系统修改集中在服务器端,借助位置相关的 IP与                结构的影响将可能成为新的研究问题。除了底层的
应用相关的IP之间的映射提供了名址分离。映射关                 互联结构外,考虑到数据中心上层应用与数据中心
系是由集中目录系统(directory system)来管理,通        环境的特殊性,如何设计出适应于数据中心的网络
过对数据中心中流量进行分析,VL2使用随机路由                 协议与管理机制也显得极为迫切。大型数据中心能
VLB(valiant load balancing)可以消除路由的热点。   耗巨大,设计出相关的节能调度技术将有利于发展
   原型系统的设计除了设计互联结构外,更多                  绿色数据中心,这将是未来研究的重要问题。■
地考虑数据中心中网络协议,自主管理等因素的影
                                                         陈贵海
响。不同于互联网,数据中心的地理集中性以及设
                                                         CCF高级会员。上海交通大学计算机
备的专有性,使得我们可以重新考虑整个网络体系                                   系特聘教授,主要研究方向为网络与
以及协议的设计;数据中心网络性质的独特性(带                                   通信、物联网、并行与分布式处理
宽,延迟等)也使我们必须去修改部分原有网络协                                   等。gchen@cs.sjtu.edu.cn

议。随着数据中心规模的扩大,PortLand与VL2集中
式的管理容易出现单点故障与性能瓶颈,设计分布                                   吴 盼
式的管理协议是个值得研究的问题。此外,可以预                                   南京大学计算机系博士生,主要研究方
见新的数据中心的互联结构还会被提出,我们需要                                   向无线传感器网络、数据中心等。
                                                         wp11111111@gmail.com
设计通用的上层网络协议与管理系统,能够兼容多
种互联结构。

                                                         杨盘隆
总结                                                       CCF会员。解放军理工大学副教授,
                                                         主要研究方向无线网络、数据中心、
   分析近几年国际会议相关文章的数量及其研究                                  云计算等。panlongyang@gmail.com

内容,可以发现数据中心网络研究正逐渐成为一个
热点。本文指出了现有数据中心架构存在的问题。
伴随着实际数据中心网络规模的不断扩大以及便于                  参考文献
快速方便部署的集装箱式数据中心的出现,需要我
                                        [1] http://www.datacenterknowledge.com/archives/2009/05
们设计相应的大型数据中心网络的互联结构,集装                      /14/whos-got-the-most-web-servers/
箱式数据中心内部以及集装箱之间的互联结构。设                  [2] Albert G. Greenberg, James R. Hamilton, David A.
                                            Maltz, Parveen Patel. The Cost of a Cloud: Research
计出的互联结构需要满足服务器之间的高带宽连
                                            Problems in Data Center Networks. Computer Commu-
接、网络结构可扩展及高可靠性等性质。完整的数                      nication Review 39(1): 2009, 68~73
据中心网络设计除了考虑互联结构外,还需要考虑                  [3] Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simpli-
                                            fied Data Processing on Large Clusters, In: Proc. of
网络协议设计与网络管理等。为此我们介绍了两个
                                            the 6th Symposium on Operating System Design and
典型原型系统PortLand和VL2的设计。                      Implementation. San Francisco: USENIX Association,
   从数据中心网络发展过程看,实际工业需求是                     2004. 137~150

数据中心网络研究的动力,如大规模服务器互联对




                                                                                                   25
专题                                      第 7 卷  第 7 期  2011 年 7 月




     [4] C.Kopparapu. Load Balancing Servers, Firewalls, and        [13] Chuanxiong Guo, Guohan Lu, Dan Li, Haitao Wu,
          Caches. John Wisely & Sons Inc., 2002                          Xuan Zhang, Yunfeng Shi, Chen Tian, Yongguang
     [5] Vijay Vasudevan, Amar Phanishayee, Hiral Shah, Elie             Zhang, Songwu Lu. BCube: A High Performance,
          Krevat, David G. Andersen, Gregory R. Ganger, Garth            Server-centric Network Architecture for Modular Data
          A. Gibson, Brian Mueller. Safe and Effective Fine-             Centers. In: Proc. of the ACM SIGCOMM. Barcelona:
          grained TCP Retransmissions for Datacenter Commu-              ACM, 2009. 63-74.
          nication. In: Proc. of the ACM SIGCOMM. Barcelona:        [14] Haitao Wu, Guohan Lu, Dan Li,Chuanxiong Guo,
          ACM, 2009. 303~314                                             Yongguang Zhang. MDCube: A High Performance Net-
     [6] Cisco: Data center: Load balancing data center services,        work Structure for Modular Data Center Interconnec-
          2004.                                                          tion. In: Proc. of the ACM International Conference on
     [7] Mohammad Al-Fares, Alexander Loukissas, Amin                    emerging Networking EXperiments and Technologies
          Vahdat. A Scalable, Commodity Data Center Network              (CoNEXT). Rome: ACM, 2009.25~36
          Architecture. In: Proc. of the ACM SIGCOMM. Seattle:      [15] Changhoon Kim, Matthew Caesar, Jennifer Rexford.
          ACM, 2008. 63~74                                               Floodless in Seattle: A Scalable Ethernet Architecture
     [8] Kishore Ramachandran, Ravi Kokku, Rajesh Mahindra,              for Large Enterprises. In: Proc. of the ACM SIG-
          Sampath Rangarajan. 60 GHz Data-Center Networking:             COMM. Seattle: ACM, 2008. 3~14
          Wireless => Worry less? NEC Technical Report. July,       [16] Radhika Niranjan Mysore, Andreas Pamboris, Nathan
          2008                                                           Farrington, Nelson Huang, Pardis Miri, Sivasankar
     [9] Dharma P. Agrawal, Chienhua Chen, J. Richard Burke.             Radhakrishnan, Vikram Subramanya, Amin Vahdat.
          Hybrid graph-based networks for multiprocessing. Tele-         PortLand: A Scalable Fault-tolerant Layer 2 Data Cen-
          communication Systems, Vol.10, 1998, 107~134                   ter Network Fabric. In: Proc. of the ACM SIGCOMM.
     [10] Chuanxiong Guo, Haitao Wu, Kun Tan, Lei Shi, Yong-             Barcelona: ACM, 2009. 39~50
          guang Zhang, Songwu Lu. Dcell: A Scalable and Fault-      [17] Albert Greenberg, James Hamilton, Navendu Jain, Sri-
          tolerant Network Structure for Data Centers. In: Proc.         kanthKandula, ChanghoonKim, ParantapLahiri, David
          of the ACM SIGCOMM. Seattle: ACM, 2008. 75~86                  A. Maltz, Parveen Patel, Sudipta Sengupta. VL2: A
     [11] R. Motwani and P. Raghavan. Randomized Algorithms.             Scalable and Flexible Data Center Network. In: Proc. of
          Cambridge University Press, 1995                               the ACM SIGCOMM. Barcelona: ACM, 2009. 51~62
     [12] Dan Li, Chuanxiong Guo, Haitao Wu, Kun Tan,               [18] Kai Chen, Chuanxiong Guo, Haitao Wu, Jing Yuan,
          Songwu Lu. FiConn:Using Backup Port for Server                 ZhenqianFeng, Yan Chen, Songwu Lu, Wenfei Wu.
          Interconnection in DataCenters. In: Proc. of the IEEE          Generic and Automatic Address Configuration for Data
          INFOCOM. Rio de Janeiro: IEEE Computer and Com-                Center Networks. In: Proc. of the ACM SIGCOMM.
          munications Societies, 2009. 2276~2285                         New Delhi: ACM, 2010. 39~50




26

More Related Content

Similar to 数据中心网络

第17讲 广域网基础
第17讲 广域网基础第17讲 广域网基础
第17讲 广域网基础F.l. Yu
 
对无线局域网应用前景的探讨
对无线局域网应用前景的探讨对无线局域网应用前景的探讨
对无线局域网应用前景的探讨beiyingmei11
 
第2讲 Osi分层模型
第2讲 Osi分层模型第2讲 Osi分层模型
第2讲 Osi分层模型F.l. Yu
 
8 集群
8 集群8 集群
8 集群hik_lhz
 
Wccp技术简介
Wccp技术简介Wccp技术简介
Wccp技术简介qianshi
 
3com 20101116
3com 201011163com 20101116
3com 20101116i70
 
组网实践
组网实践组网实践
组网实践telab
 
众行业公司系统架构案例介绍
众行业公司系统架构案例介绍众行业公司系统架构案例介绍
众行业公司系统架构案例介绍mysqlops
 
07 tang xiongyan
07 tang xiongyan07 tang xiongyan
07 tang xiongyanMason Mei
 
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究liangxiao0315
 
云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用Yang Guanjun
 
電腦應用 3 網路概論
電腦應用  3 網路概論電腦應用  3 網路概論
電腦應用 3 網路概論Sirong Chen
 
05 zhao huiling
05 zhao huiling05 zhao huiling
05 zhao huilingMason Mei
 
数据中心网络架构与全球化服务-Qcon2011
数据中心网络架构与全球化服务-Qcon2011数据中心网络架构与全球化服务-Qcon2011
数据中心网络架构与全球化服务-Qcon2011Yiwei Ma
 
计算机组成原理 6
计算机组成原理 6计算机组成原理 6
计算机组成原理 6lqarenas
 
Alibaba server-zhangxuseng-qcon
Alibaba server-zhangxuseng-qconAlibaba server-zhangxuseng-qcon
Alibaba server-zhangxuseng-qconYiwei Ma
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconYiwei Ma
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconYiwei Ma
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconYiwei Ma
 

Similar to 数据中心网络 (20)

第17讲 广域网基础
第17讲 广域网基础第17讲 广域网基础
第17讲 广域网基础
 
对无线局域网应用前景的探讨
对无线局域网应用前景的探讨对无线局域网应用前景的探讨
对无线局域网应用前景的探讨
 
第2讲 Osi分层模型
第2讲 Osi分层模型第2讲 Osi分层模型
第2讲 Osi分层模型
 
8 集群
8 集群8 集群
8 集群
 
Wccp技术简介
Wccp技术简介Wccp技术简介
Wccp技术简介
 
3com 20101116
3com 201011163com 20101116
3com 20101116
 
组网实践
组网实践组网实践
组网实践
 
众行业公司系统架构案例介绍
众行业公司系统架构案例介绍众行业公司系统架构案例介绍
众行业公司系统架构案例介绍
 
07 tang xiongyan
07 tang xiongyan07 tang xiongyan
07 tang xiongyan
 
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
 
云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用
 
電腦應用 3 網路概論
電腦應用  3 網路概論電腦應用  3 網路概論
電腦應用 3 網路概論
 
05 zhao huiling
05 zhao huiling05 zhao huiling
05 zhao huiling
 
数据中心网络架构与全球化服务-Qcon2011
数据中心网络架构与全球化服务-Qcon2011数据中心网络架构与全球化服务-Qcon2011
数据中心网络架构与全球化服务-Qcon2011
 
认识电脑网络
认识电脑网络认识电脑网络
认识电脑网络
 
计算机组成原理 6
计算机组成原理 6计算机组成原理 6
计算机组成原理 6
 
Alibaba server-zhangxuseng-qcon
Alibaba server-zhangxuseng-qconAlibaba server-zhangxuseng-qcon
Alibaba server-zhangxuseng-qcon
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
 

数据中心网络

  • 1. 第 7 卷  第 7 期  2011 年 7 月 数据中心网络 陈贵海1,2 吴 盼2 杨盘隆3 1 上海交通大学 2 南京大学 3 关键词:数据中心 网络互联 云计算 绿色计算 解放军理工大学 引言 (电源供应,制冷)又可以降低成本。本文主要讨 论大型数据中心网络。 [1] 世界上哪家公司拥有的服务器最多?调查结果 文献[2]对一个50000台服务器级别的数据中心 显示:2006年谷歌拥有45万台服务器,现在已有 全年的开销进行了调查,见表1: 一百万台;而Facebook在2009年仅拥有6万台服务器。 表1 数据中心中开销统计结果 为了扩大现有公司业务以及能在未来云服务的市场 折合年花费百分比 组件 详细组成 上占有先机,世界各大公司竞相购置大量服务器并 ~45% 服务器 CPU,内存,存储设备 组建数据中心。 ~25% 基础设施 电能传输,制冷设备 如何高效地联结百万台的服务器是一个极为重 ~15% 电费 电能消耗 要的问题。现有的数据中心网络互联多采用树型结 ~15% 互联设备 电缆,交换机等设备 构。数据中心的规模一旦扩大,树型结构中的高层 从表1可知,为了降低数据中心的运行开销, 交换机就必须更换为更昂贵更先进的交换节点以应 服务器的花费是最令人关注的。业界普遍认为的残 对高带宽和海量存储的应用需求。即便如此,容错 酷现实是:数据中心中服务器的使用效率只有10% 性和带宽需求依然得不到保障。系统地研究数据中 左右 [2]。服务器使用效率低的原因主要在于传统网 心实际应用的流量模式及其影响、互联结构、网络 络体系结构的限制与数据中心自主管理的匮乏,具 协议、管理等问题十分必要。数据中心网络设计的 体包括: 目标应该是:服务器之间的高带宽连接、网络结构 网络结构的限制 我们熟知的谷歌搜索服务需 可扩展及高可靠性、服务部署的敏捷性、节能和自 要GFS(Google file system)以及MapReduce[3]技术的 动化配置。 支持,而GFS中大量的文件复制操作以及MapReduce 中使用的All-to-All的通信模式对数据中心网络的通 存在的问题 信带宽提出很高的要求。树型数据中心结构高层的 低通信带宽会导致服务器使用的区域分割。 数据中心按规模大小分为两类:地理集中式大 网络协议的限制 传统数据中心沿用的IP协议中 型数据中心(mega data center,以所需电功率兆瓦得 子网划分会造成资源的分割,如负载均衡设备只能使 名)和地理分布式的小型数据中心(micro data center, 用同一个子网下的服务器做负载均衡(half-NAT [4])。 千数量级)。大型数据中心的出现,是公司业务扩 现有的做法是预分配,但若应用需求的估计出错,预分 大所致。大量服务器集中放置既可以共享基础设施 配服务器会造成服务器的闲置(over-provision)。 21
  • 2. 专题 第 7 卷  第 7 期  2011 年 7 月 另外,在数据中心中大量沿用网络传输协议(TCP), 服务器。内部服务器之间的流量主要通过二层交换 而原有的TCP协议是面向互联网开发的,没有考虑 机来支撑。当公司业务流量增加时,位于网络结构 [5] 数据中心网络环境的特殊性 ,例如相对于互联网 高层的交换机就必须升级以满足业务需求,这种靠 环境中的RTT(round trip time)为100ms,而数据中 使用更高端的交换机实现数据中心规模扩大的方法 心中的RTT<1ms。 被称为纵向扩展模式(scale-up)。我们希望新的架 网络管理的限制 有调查显示,数据中心 构能够使用廉价的低端交换机来互联大规模的服务 50%~80%的出错都是由于人的误操作导致,所以我 器,同时提供网络可扩展及服务器之间的高通信带 们需要重新设计协议,减少人工管理,强化数据中 宽,即横向扩展模式(scale-out)。下面我们将介绍 心的自主配置与管理。 几种新的互联结构(Fat-tree [7],DCell[10]和 FiConn[12] 至于基础设施和电费部分的开销,我们可以通 等)与两个典型的原型系统(Portland[16]与VL2[17]), 过设计节能算法调度数据中心中的设备来降低能耗; 其中Portland,VL2的设计会更多考虑系统设计对虚 对于互联设备如交换机等,我们可以使用多个廉价 拟机迁移以及自主管理等方面的支撑。 的低端交换机互联取代高端的交换机以降低成本。 互联结构 体系结构 按照服务器是否参与转发,将互联结构分为以 交换机为中心与以服务器为中心的互联结构。由于 [6] 图1所示的是传统数据中心搭建使用三层结构 。 篇幅限制,我们省略了互联结构的等分带宽、路由 机架A内的服务器使用架顶式交换机(Top-of-Rack) 协议以及连线等部分的详细分析,有兴趣的读者可 互联,通过二层交换机(End-of-Row)组成局域网, 以参考文献[7~14]。 再通过接入路由器和核心路由器向外网提供服务。 以交换机为中心的互联结构 传统数据中心支持两种流量:(1)内部服务器之 传统的三层数据中心结构属于交换机为中心的 间的流量,如网页检索索引的建立;(2)内部服 互联结构,前面提到过树型结构的弱点, Al-Fares[7] 务器与外部终端用户之间的交互流量,如网页浏 提出的使用廉价的交换机构建Fat-tree结构实现了 览。负载均衡设备提供交互流量的负载均衡,终端 系统的大规模互联以及服务器之间的高通信带宽 用户通过互联网,再经过接入路由器可以访问内部 (oversubscription比率为1 1,即网络能提供服务器网 ∶ 卡支持的通信带宽)。 Fat-tree结构搭建的系统如图2 所示。 CR 互联网 互联网 需要说明的是,Fat-tree互联结构中交换机分为 三层:核心交换机、聚集交换机和边界交换机。核 数据中心 AR 第三层 心交换机端口全部向下互联聚集交换机;聚集交换 机和边界交换机端口一半向上一半向下,其中边界 第二层 交换机一半端口连接服务器。细心的读者会发现这 LB LB 个结构同构于5级Clos-Network,如图3所示。 说明: K端口的交换机可以支撑的数据中心的规模是 S CR=三层核心路由器 3 AR=接入路由器 K /4。当K=48时,Fat-tree可支持27648台服务器, S=二层交换机 A A A A LB=负载均衡设备 互联结构需要48端口的交换机数量为2880台。具体 A=机架 计算过程如下:我们把图2中的方框中的交换机集 图1 传统数据中心网络结构 合称为pod,对于K端口交换机组成的互联结构,共 22
  • 3. 第 7 卷  第 7 期  2011 年 7 月 以服务器为中心的互联结构 核心交换机 借助服务器的多网卡以及数 据转发功能,我们可以用低端交 聚集交换机 换机互联大型数据中心网络,这 类解决方案利用大量服务器之间 边界交换机 的连线以及低端交换机来实现高 效互联,其中基于复合图(com- pound graph)[9]并采用层次网络的 图2 Fat-tree结构 设计思想成为当前以服务器为中心 的数据中心网络互联的主流方法。 郭传雄等[10]提出的DCell使用完全复合图(com- plete compound graph)生成互联结构,如图4所示。 n为DCell0中交换机的端口数,K+1为服务器的网卡 数。DCell0由一个4端口的交换机连接4台服务器构 成,DCell1由5个DCell0构成完全图。其中服务器的 地址<aK, ak-1, aK-2, …, a1, a0>表示该服务器位于DCellk 图3 5级Clos-Network 中的第a K个DCell k-1,…DCell1中的第a0个服务器。 有K个pod。每个pod含有K/2个边界交换机,并且 服务器中的每个网卡属于某层DCel l,每层的连线的 每个边界交换机的一半端口连接K/2个服务器。所 规则是一个一对一的映射<i, j-1>< ><j, i>(i<j)。路 — 以可支撑的服务器数目是K 3/4。同理可以得出搭建 由算法可以使用类似Bit-Fixing的路由方法[11]。通过 Fat-tree结构所需交换机的数目是5K2/4,计算过程如 计算可知,当K=3,n=6时,DCell可以支持3263442 下:对于K端口交换机组成的Fat-tree,考虑核心交 台服务器。根据D C e l l 0 的结构(1个交换机连接6 换机与聚集交换机构成的二分图,核心交换机的节 台服务器),互联结构所需的6口交换机的个数为 点度为聚集交换机的2倍,所以核心交换机的个数 为聚集交换机的一半。由于共有K个pod,聚集交换 机的个数为K 2/2,所以核心交换机的数量为K 2/4, <0,0> <4,3> <0,1> 由5级Clos-Network可以得到,Fat-tree所需交换机总 <0,2> 数为是5K2/4。 <4,2> <0,3> Fat-tree结构设计思想是scale-out模式,使用了大 <4,1> < 1, <4,0> 0> 量廉价交换机与复杂连线取代昂贵的高层交换机, <1, <3,3> 1> 但连线的复杂性会带来安装调试数据中心网络的 < 1, <3,2> 复杂性。在数据中心中使用60G无线互联取代部 2> < 1, 分有线连接值得我们去探索 [8]。现有廉价交换机相 <3,1> 3> > <2,0 <2,1> ,2> <3,0> 对封闭不易修改,对Fat-tree设计也会带来挑战,交换 > <2 <2,3 服务器 机的开放性设计(如openflow项目)是个很好的尝 试。另外,如何设计互联结构使得现有树形结构的 数据中心迁移到新的可扩展结构中也是值得考虑的 问题。 图4 DCell1(n=4)的网络结构 23
  • 4. 专题 第 7 卷  第 7 期  2011 年 7 月 543907台。具体计算过程如下:服务器数量的计算 于服务器为中心的设计方案中服务器参与了数据传 依赖于DCell的搭建方法,若假设DCell k中服务器 输,我们可以针对上层应用的特征对路由协议进行 数量为t K,则DCell k+1含有t K+1个DCell k(构建完全 优化,如在转发过程中进行数据聚合等。 图),我们可以通过迭代公式t K+1=t K×(t K+1)给出 DCell结构所支持的服务器数量。由于每层的DCell 典型原型系统 构建的都是完全图,DCell的容错性能也很好。 实际数据中心运行时,虚拟化技术的广泛使用 但是DCell网络规模的持续扩大依赖于服务器 提高了服务器的使用效率。一个实际问题是为了保 [12] 网卡数的增加,李丹等 指出工业界使用的服务器 证虚拟机在迁移时的IP不需要重新配置,熟知的IP/ 一般拥有两块网卡,一块连交换机,另一块备用, Ethernet的协议限制了虚拟机在不改变IP的前提下只 因此提出服务器网卡数受限时的可扩展互联结构 能同一个子网内迁移(VLAN可以实现迁移时不改 FiConn。与DCell相类似,FiConn使用了复合图逐层 变IP,但VLAN配置比较麻烦,实际系统采用预分 构建FiConn结构,每次使用一半的空闲端口来组成完 配的方式来减少重新配置VLAN)。我们希望网络 全图。当FiConn0的交换机使用16口,FiConn的层数 能给上层应用提供数据中心位于同一个子网的“错 为4层时,FiConn可以支持的服务器数目为3553776。 觉”,这样Ethernet的配置便捷与可迁移的优势就可 便于快速部署的集装箱式的数据中心的出现提 以被应用到大型数据中心中。SEATTLE[15]首先提出 出了两个新的问题:集装箱式数据中心内部使用什么 这一想法,它的关键在于企业内部网络完全可以摒 结构互联?集装箱式之间使用什么结构互联?借鉴 弃IP/Ethernet的架构,使用DHT的索引结构来提供 [13] [14] HyperCube结构的BCube 与MDCube 分别被提出 名标识与位置的分离。交换机之间运行OSPF(Open 解决这两个问题。集装箱式数据中心的特殊之处在于 Shortest Path First,开放式最短路径优先)协议来避 对带宽较高需求以及网络结构设计的对称性。这样的 免Ethernet的广播问题,这样就给上层应用程序提供 要求与这类数据中心的使用相关,即使部署后箱内的 了所有服务器位于同一局域网的错觉。 设备坏了,也不会拆箱更换其中的设备,网络设计 PortLand[16]与VL2[17]分别是Fat-tree和SEATTLE的 的对称性可以提高集装箱式数据中心的容错性能。 改进,搭建了完整的数据中心网络系统。在设计网 基于复合图构建以服务器为中心的数据中心网 络协议时,考虑给上层应用提供平面地址(相对于 络设计很热门,但是缺乏相应的数据中心网络可扩 IP的分类地址而言)。PortLand中路由协议基于层次 展理论的系统研究。不同于传统的结点度数/网络 式的Pseudo MAC,借助主机MAC与PMAC的映射, 直径问题,数据中心中最小粒度单元是交换机连接 避免了对服务器端进行修改。此外PortLand使用了集 多个服务器。我们需要研究在这种情况下数据中心 中式控制(fabric manager)来实现ARP以及路由的容 的可扩展性与最优网络直径理论,并设计出相应的 错,充分考虑了Fat-tree结构的对称性,设计了分布式 网络互联结构。此外,从实际工业界业务持续性角 的位置发现,从而不需要管理员的人工配置。交换 度考虑,数据中心需要拥有渐进可扩展性以及扩展 机可以使用位置发现协议,自动配置自己的地址。 过程中减少对硬件配置及上层网络协议的修改。由 值得一提的是,陈凯等 [18]提出的一种更为通用的位 中国计算机学会第九届理事会第八次常务理事会议 将于2012年1月7日在北京举行。 24
  • 5. 第 7 卷  第 7 期  2011 年 7 月 置发现协议,借助实际系统的连接信息与系统搭建 互联结构提出了高效低耗的互联要求,集装箱式数 的蓝图,通过图匹配算法可以完成自主的位置发 据中心的出现对互联结构提出了高带宽与平衡设计 现。VL2采用了不同于PortLand需要修改交换机协 的需求。可以预见伴随着数据中心的持续扩大,数 议的设计思路,复用原来的路由协议(OSPF等), 据中心的渐进可扩展性以及减少扩展过程中对已有 将系统修改集中在服务器端,借助位置相关的 IP与 结构的影响将可能成为新的研究问题。除了底层的 应用相关的IP之间的映射提供了名址分离。映射关 互联结构外,考虑到数据中心上层应用与数据中心 系是由集中目录系统(directory system)来管理,通 环境的特殊性,如何设计出适应于数据中心的网络 过对数据中心中流量进行分析,VL2使用随机路由 协议与管理机制也显得极为迫切。大型数据中心能 VLB(valiant load balancing)可以消除路由的热点。 耗巨大,设计出相关的节能调度技术将有利于发展 原型系统的设计除了设计互联结构外,更多 绿色数据中心,这将是未来研究的重要问题。■ 地考虑数据中心中网络协议,自主管理等因素的影 陈贵海 响。不同于互联网,数据中心的地理集中性以及设 CCF高级会员。上海交通大学计算机 备的专有性,使得我们可以重新考虑整个网络体系 系特聘教授,主要研究方向为网络与 以及协议的设计;数据中心网络性质的独特性(带 通信、物联网、并行与分布式处理 宽,延迟等)也使我们必须去修改部分原有网络协 等。gchen@cs.sjtu.edu.cn 议。随着数据中心规模的扩大,PortLand与VL2集中 式的管理容易出现单点故障与性能瓶颈,设计分布 吴 盼 式的管理协议是个值得研究的问题。此外,可以预 南京大学计算机系博士生,主要研究方 见新的数据中心的互联结构还会被提出,我们需要 向无线传感器网络、数据中心等。 wp11111111@gmail.com 设计通用的上层网络协议与管理系统,能够兼容多 种互联结构。 杨盘隆 总结 CCF会员。解放军理工大学副教授, 主要研究方向无线网络、数据中心、 分析近几年国际会议相关文章的数量及其研究 云计算等。panlongyang@gmail.com 内容,可以发现数据中心网络研究正逐渐成为一个 热点。本文指出了现有数据中心架构存在的问题。 伴随着实际数据中心网络规模的不断扩大以及便于 参考文献 快速方便部署的集装箱式数据中心的出现,需要我 [1] http://www.datacenterknowledge.com/archives/2009/05 们设计相应的大型数据中心网络的互联结构,集装 /14/whos-got-the-most-web-servers/ 箱式数据中心内部以及集装箱之间的互联结构。设 [2] Albert G. Greenberg, James R. Hamilton, David A. Maltz, Parveen Patel. The Cost of a Cloud: Research 计出的互联结构需要满足服务器之间的高带宽连 Problems in Data Center Networks. Computer Commu- 接、网络结构可扩展及高可靠性等性质。完整的数 nication Review 39(1): 2009, 68~73 据中心网络设计除了考虑互联结构外,还需要考虑 [3] Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simpli- fied Data Processing on Large Clusters, In: Proc. of 网络协议设计与网络管理等。为此我们介绍了两个 the 6th Symposium on Operating System Design and 典型原型系统PortLand和VL2的设计。 Implementation. San Francisco: USENIX Association, 从数据中心网络发展过程看,实际工业需求是 2004. 137~150 数据中心网络研究的动力,如大规模服务器互联对 25
  • 6. 专题 第 7 卷  第 7 期  2011 年 7 月 [4] C.Kopparapu. Load Balancing Servers, Firewalls, and [13] Chuanxiong Guo, Guohan Lu, Dan Li, Haitao Wu, Caches. John Wisely & Sons Inc., 2002 Xuan Zhang, Yunfeng Shi, Chen Tian, Yongguang [5] Vijay Vasudevan, Amar Phanishayee, Hiral Shah, Elie Zhang, Songwu Lu. BCube: A High Performance, Krevat, David G. Andersen, Gregory R. Ganger, Garth Server-centric Network Architecture for Modular Data A. Gibson, Brian Mueller. Safe and Effective Fine- Centers. In: Proc. of the ACM SIGCOMM. Barcelona: grained TCP Retransmissions for Datacenter Commu- ACM, 2009. 63-74. nication. In: Proc. of the ACM SIGCOMM. Barcelona: [14] Haitao Wu, Guohan Lu, Dan Li,Chuanxiong Guo, ACM, 2009. 303~314 Yongguang Zhang. MDCube: A High Performance Net- [6] Cisco: Data center: Load balancing data center services, work Structure for Modular Data Center Interconnec- 2004. tion. In: Proc. of the ACM International Conference on [7] Mohammad Al-Fares, Alexander Loukissas, Amin emerging Networking EXperiments and Technologies Vahdat. A Scalable, Commodity Data Center Network (CoNEXT). Rome: ACM, 2009.25~36 Architecture. In: Proc. of the ACM SIGCOMM. Seattle: [15] Changhoon Kim, Matthew Caesar, Jennifer Rexford. ACM, 2008. 63~74 Floodless in Seattle: A Scalable Ethernet Architecture [8] Kishore Ramachandran, Ravi Kokku, Rajesh Mahindra, for Large Enterprises. In: Proc. of the ACM SIG- Sampath Rangarajan. 60 GHz Data-Center Networking: COMM. Seattle: ACM, 2008. 3~14 Wireless => Worry less? NEC Technical Report. July, [16] Radhika Niranjan Mysore, Andreas Pamboris, Nathan 2008 Farrington, Nelson Huang, Pardis Miri, Sivasankar [9] Dharma P. Agrawal, Chienhua Chen, J. Richard Burke. Radhakrishnan, Vikram Subramanya, Amin Vahdat. Hybrid graph-based networks for multiprocessing. Tele- PortLand: A Scalable Fault-tolerant Layer 2 Data Cen- communication Systems, Vol.10, 1998, 107~134 ter Network Fabric. In: Proc. of the ACM SIGCOMM. [10] Chuanxiong Guo, Haitao Wu, Kun Tan, Lei Shi, Yong- Barcelona: ACM, 2009. 39~50 guang Zhang, Songwu Lu. Dcell: A Scalable and Fault- [17] Albert Greenberg, James Hamilton, Navendu Jain, Sri- tolerant Network Structure for Data Centers. In: Proc. kanthKandula, ChanghoonKim, ParantapLahiri, David of the ACM SIGCOMM. Seattle: ACM, 2008. 75~86 A. Maltz, Parveen Patel, Sudipta Sengupta. VL2: A [11] R. Motwani and P. Raghavan. Randomized Algorithms. Scalable and Flexible Data Center Network. In: Proc. of Cambridge University Press, 1995 the ACM SIGCOMM. Barcelona: ACM, 2009. 51~62 [12] Dan Li, Chuanxiong Guo, Haitao Wu, Kun Tan, [18] Kai Chen, Chuanxiong Guo, Haitao Wu, Jing Yuan, Songwu Lu. FiConn:Using Backup Port for Server ZhenqianFeng, Yan Chen, Songwu Lu, Wenfei Wu. Interconnection in DataCenters. In: Proc. of the IEEE Generic and Automatic Address Configuration for Data INFOCOM. Rio de Janeiro: IEEE Computer and Com- Center Networks. In: Proc. of the ACM SIGCOMM. munications Societies, 2009. 2276~2285 New Delhi: ACM, 2010. 39~50 26