大型网站架构设计

BeetleSoft 大型网站技术架构探讨 [1]
那是不是流量大就是大型网站？呢 Google Analytics

追求这 3 个目，是网站的根源标闹腾

一般地，本文提到的物理服器都是泛指务 pc 物理服器；级务 Web Server 泛指
HTTP 服器和用服器合体务应务综
于一个水性网站来了成本，对试说为节约 Web Server 和 DB Server 都放在同一台
pc Server 服器上是常的事情。务见
当网站量增大，访问 cpu 理能力是瓶的候，通把处颈时过 web Server 和 Db
Server 物理分的，效果明简单开显

量持增大，面响越来越慢。考到网站在水性成段，访问续页应虑还处试长阶节
成本，硬件不，着重用本身化。约动应优
采取存理机制是个必然的缓处选择

有可以吹一下时间还 idempotent ， etag(http://www.infoq.com/cn/articles/etags)

客向网站出求访发访问请 , 由前端面存器担原服器的理程做出页缓负务处进
响应 , 取原服器的相网内容获务应页 , 将其存在自身的内存中储 , 与此同时 , 传
送客一存的内容给访这缓 ; 如有另一客也求之前的相同内容访请访问 , 前端面页
存器毋再次取原服器上的相内容缓须获务应 , 而直接从自身的内存中取获 , 将这
一内容送客。反之传给访 , 前端面存器也可存客的页缓缓访 GET 和 POST 求。请
　　客面的是前端面存器访实际对页缓 , 与网站之的通完全由前端面存间讯页缓
器反向代理 , 而非原服器直接响客务应访 , 将大大加快客上网流度这访畅 , 有效
提升量访问 , 著降低占用显带宽 , 原始服器的繁忙度减轻务 , 加快响速度应 , 毋
不停地置大内存须购 , 大硬盘 , 容力施服器端省成本。扩电设为务节

ESI 是一个基于 XML 的言，目的是在标记语 HTTP 中装各源。在境组种资实际环
中，一个生成的面，当中可能只有少量的内容是繁化的或是个性化动态页频变
的，于的对传统 Cache 服器来，了能保面的效性，却由于面务说为够证页时页
中些少量的内容而无法将整个面行存。这动态页进缓 ESI 通使用的过简单标记语
言来那些可以存和不能存的网中的内容片断行描述，每个网都被对缓缓页进页
分成不同的小部分分予不同的存控制策略，使划别赋缓 Cache 服器可以根据务
些策略在将完整的网送用之前将不同的小部分地合在一起。这页发给户动态组
通控制，可以有效地少从服器抓取整个面的次数，而只用从原服过这种减务页
器中提取少量的不能存的片断，因此可以有效降低原服器的，同务缓务负载时
提高用的响。户访问应时间

常存算法见缓
莱蒂算法（贝 Belady's Algorithm ）
最有效率的存算法会掉未来最内不使用的数据。理想情况被称缓丢长时间这种
作莱蒂最算法或者千里眼算法。由于要数据要多久后才被使用基本上贝优预计
是不可能的，所以算法没有的可操作性。它的作用在于不同的存这种实际为缓
算法立一个劣准。订优标
最近最少使用算法 (LRU ， Least Recently Used ）
最近最少使用算法的思路是弃近段内最少被使用的数据。要算丢时间实现这种
法需要跟踪数据何被使用，用方法来去近一段被最少使用次数时这种筛选时间
的数据其代价往往是昂的。它的往往是通在存数据上立志贵实现过缓设时间标
位，用以跟踪最近最少被使用的存数据。一个数据每被使用一次，其他数据缓
的志位数就要增加。时间标值

网站反不，展比利。于有逼馈错业务发较顺终傻 VC 投了，充足，就必钱银弹须
考网站可用性及服容量冗余性。增加机器，虑务问题搞 HA 是必然了选择

DNS 均衡负载反向代理均衡负载直接路由 F5 硬件
LVS （ LVS 集群采用 IP 均衡技和基于内容求分技。度器具有很负载术请发术调
好的吞吐率，将求均衡地移到不同的服器上行，且度器自屏蔽掉请转务执调动
服器的故障，从而将一服器成一个高性能的、高可用的虚服器。务组务构拟务
整个服器集群的客是透明的，而且无需修改客端和服器端的程务结构对户户务
序）
Virtual Server via NAT （ VS-NAT ）
用地址翻虚服器。地址器有译实现拟务转换
能被外界到的合法访问 IP 地址，它修改来自专
有网的流出包的地址。外界看起来包是来自络
地址器本身，当外界包送到器，它转换转换时

各个系数据厂商关库针对 dal 及 replication 都有自己方案
独立的 DAL Proxy 服器务
MySQL: mysqlproxy,Amoeba
PostgreSQL: PL/Proxy (Skype)
DAL API
Java: Hibernate Shard,Ibatis Shard,HiveDB,Guzz
Python: Pyshards

网站展迅速，数据量大幅增大是当前最大的挑，用分散各地区，某业务发战户
些地方用响很慢，影响体和展户访问应验业务发
同，由于数据量大，数据存在本地内存已不，分布式存是必然时过缓经现实缓
了选择

CDN 的全称是 Content Delivery Network ，即内容分网。其目的是通在发络过现
有的 Internet 中增加一新的网架，将网站的内容布到最接近用的网层络构发户
络 " 边缘 " ，使用可以就近取得所需的内容，解决户 Internet 网的状况络拥挤
，提高用网站的响速度。从技上全面解决由于网小、用户访问应术络带宽户访
量大、网点分布不均等原因所造成的用网站响速度慢的。问户访问应问题 ( 也
就是一个服器的内容，平均分部到多个服器上，服器智能，用务务务识别让户
取离用最近的服器，提高速度。获户务

本地存缓 vs 分布式存，什么要分布式存？缓为搞缓
什么分布式存器都是采取为缓 Key-Value 形式 ?

垂直分后，各模数据之如何？垂直分前提是良好的松耦合的库块间关联查询库
模化块设计

Shard 是分布式解决方案，与数据集中式的表空分区是个不同方案库间两

某天突然网站可以成第发现为 2 个 facebook 了，用，数据量到户过亿达 pb 。级
网站性能不是通增加硬件服器就能足的。（机房放都不）过简单务够满满够这
就不得面以下：既然样对选择 1 个机房都容不下了（可看做一个数据中心），
那么就建多几个（多个数据中心）；建立数据中心，无疑就需要更多的机器和
存，考天价的成本的，利用有廉价的存和机器，参照储虑现储 google 的 GFS 、
Map/Reduce 、 Bigtable 技模式搭建分布式存和算的架就是必然了术储计构选择
。

DFS 提供了一个全局命名空的高可用（通跨机器（和跨机架）的文件数据间过复
制来到高可用性，免受文件存系无法避免的多失的影响）文件达传统储统许败
系，解决高容量数据高效、可靠存；统储问题 Map/Reduce 的算框架，它与计
DFS 密作，帮助理收集到的海量数据紧协处 ;Key-Value DB 代替的数据，传统库
通一些主来海量数据，并高效的。过键组织实现查询

从网站架演程来看，涉及到构变过 n 多的技点及模式，什么要用些术设计为这
技？什么？困惑了？术为这样设计
所以我需要理来支和指我架工作们论撑导们构设计

Eric Brewer, 一位加州大学伯克利分校的教授
http://www.cs.berkeley.edu/~brewer/

CAP 分布式系和型都有重大指意；对开发统选导义

http://en.wikipedia.org/wiki/Shared_nothing_architecture
SNA 的主要是在一个集群分布式算境中，若认为计环 Session 状在各个态维护节
点服器上，了保状一致性，点务为证态节间 Session 数据需要互相拷同步，贝严
重影响性能。

基于 SOA 方面架的很多了，里就不略了构说这简单过
切勿浪多西去做用少的西同可以做好的事情费较东较东样

很明的漫画说问题

言的意味着不同的架路、不同的语选择构线开发框架、不同的部署方式测试
及不同的效率，最到底，言涉及到源成本。开发终语选择资
和人是最要的钱终 o( _ )o…∩ ∩

大型网站架构设计

More Related Content

What's hot

Viewers also liked

Similar to 大型网站架构设计

大型网站架构设计