大规模在线服务的高可用性保障

2,123 views

Published on

大规模,在线,服务,高可用性,保障,百度

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,123
On SlideShare
0
From Embeds
0
Number of Embeds
609
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

大规模在线服务的高可用性保障

  1. 1. 大规模在线服务的高可用性保障 xuxia@baidu.com SACC2011
  2. 2. 自我介绍许霞 百度运维部高级工程师 网页搜索产品线运维技术负责人 2008年加入百度 联系方式 Hi:shawnatzju weibo:shawnatzju SACC2011
  3. 3. 搜索框的背后 数十亿流量 数百在线产品 毫秒级响应 >99.99%可用性 数万台服务器 每周数百项升级变更 各类故障 SACC2011
  4. 4. 背景• 数百个在线产品• 几十亿流量• 100次更新• 新feature上线• 万为单位的机器• 1~4%机器故障率• 99.99%的可靠性• … SACC2011
  5. 5. 数百条在线产品的维护与更新新服务上线 : 统一的服务准入服务更新: 健全的变更管理服务故障: 完备的例行检查 线上变更 控制 线上问题 线上状态 控制 控制 SACC2011
  6. 6. 变更管理变更的审核变更的记录变更的复查 SACC2011
  7. 7. 例行检查对关键指标条目化对条目进行例行检查(daily,monthly…) SACC2011
  8. 8. 监控从模块的角度看性能从服务的角度看模块从用户的角度看服务 SACC2011
  9. 9. 百亿流量下的在线扩容系统可伸缩性架构 模块A 模块B 在线集群 资源规 自动化 划中心 备机池 SACC2011
  10. 10. 可伸缩性架构 1. Virtual Machine资源使用: 2. Linux Cgroup 资源的轻量级化资源规划: 单模块是不可靠的 服务器是不可靠的 资源的隔离 交换机是不可靠的 数据中心是不可靠的 资源的分配 运营商是不可靠的 资源使用反馈 --->监控自动化的执行 友好的运维设计 关联关系管理 高效的自动部署 SACC2011
  11. 11. 四九要求的故障快速恢复数据备份与恢复测试服务故障预案服务降级方法及时了解网络环境 SACC2011
  12. 12. QA 数百条在线产品的维护与更新 百亿流量下的在线扩容 四九要求的故障快速恢复 SACC2011

×