Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2014 Hpocon 吴磊 ucloud - 由点到面 提升公有云服务可用性

2014 Hpocon 吴磊 ucloud - 由点到面 提升公有云服务可用性

  • Be the first to comment

2014 Hpocon 吴磊 ucloud - 由点到面 提升公有云服务可用性

  1. 1. 由点到面 提升公有云服务可用性 UCloud 吴磊 2014.11
  2. 2. 2 中国最为领先的云计算服务商 1 简介 思考和实践 感想 2 3 Summary
  3. 3. 个人简介 3 中国最为领先的云计算服务商 小型机 存储  X86  虚拟化  私有云  公有云 移动游戏  制造业  金融  教育  政府  IPDC  互联网  云计算 开发  策划  实施  项目管理  售前顾问  解决方案咨询
  4. 4. UCloud简介 4 中国最为领先的云计算服务商 中立公有云服务商 2012年成立并正式运营,到目前为止稳定运营2.5年 7个数据中心,国内首家落地香港和北美的公有云服务商 服务企业客户超过10000家 第一批通过国家可信云认证,唯一的初创企业 通过国家等级保护三级 2014年B轮融资5000万美金,中国基础云计算领域暨今最大单笔融资
  5. 5. UCloud用户 5 中国最为领先的云计算服务商
  6. 6. 6 中国最为领先的云计算服务商 1 简介 思考和实践 感想 2 3 Summary
  7. 7. 7 中国最为领先的云计算服务商 海外互联网巨头 国内互联网巨头 传统IT企业 运营商 我们想做点什么 中立公有云
  8. 8. 8 中国最为领先的云计算服务商 提供弹性的资源(计算,存储,网络) 提供足够高的性能(IO) 提供数据安全的保障(分布式,备份,Raid) 提供高于用户现有的服务可用性 提供高于用户现有的技术支持体验 公有云服务为用户提供的是
  9. 9. 9 中国最为领先的云计算服务商 互联网 网络接入 APP APP APP APP APP APP Guest OS Guest OS Guest OS Host OS KVM Data Center 网络层 系统层 硬件层 基础层 云管理平台 云计算可用性的分层
  10. 10. 10 中国最为领先的云计算服务商 那么问题就来了 操作系统或内核bug导致的crash和重启 硬件故障导致的宕机或性能下降 基础设施和数据中心灾难 运营商网络质量不稳导致的网络中断 点 面
  11. 11. 举个栗子 11 中国最为领先的云计算服务商 1小时内 业务中断1次,连续30分钟 业务中断10次,每次1分钟 哪个更严重?
  12. 12. 12 中国最为领先的云计算服务商 内存ECC错误 宕机 HDD故障 Replace/Rebuild OS或内核Bug Patch/Reboot 性能差 资源抢夺 宿主机内核 cpu mem disk nic QEMU & KVM 云主机内核 业务程序 云主机内核 业务程序 单点可用性是集群可用性的基础 每台宿主机都是一个单 点
  13. 13. UCloud内核改进 13 中国最为领先的云计算服务商 内核故障 自主维护内核 免重启修复 硬件故障 隔离内存硬件缺陷 按情况提高容忍度 在线迁移予以规避 性能 磁盘IO加速 大页、网络路径优化等
  14. 14. 热补丁-免重启修复 14 中国最为领先的云计算服务商 运行中内核 (带缺陷) 运行中内核 (无缺陷) 热补丁模块 源码补丁 ksplice模块生 成 UCloud所有内核BUG均免重启修复
  15. 15. 热补丁-生成过程 15 中国最为领先的云计算服务商
  16. 16. 热补丁-运营结果 16 中国最为领先的云计算服务商 成熟应用 1.所有内核BUG均免重启修复 2.累计数万台次 3.无性能损耗,业务中断时间十毫秒 UCloud对开源Ksplice的修改 1.支持各种版本内核 2.中断时间百毫秒 -> 十毫秒 3.允许免重启修复关键路径(hrtimer, scheduler)
  17. 17. IO加速 17 中国最为领先的云计算服务商 硬盘种类 随机IOPS (4k size) SATA/SAS 100~175 (< 1MB) SSD 2万 ~ 40万 (80MB~1.6GB) SATA + SSD ? 能否鱼和熊掌兼得? SATA的价格和数据可靠性 SSD的性能 Key Observation 业务关心随机写性能 SATA随机写4K IOPS峰值可达2万
  18. 18. IO加速-原理 18 中国最为领先的云计算服务商 原理 加速模块接管所有IO 写IO被顺序化至Cache盘组 Cache盘组同步至真实盘组 效果 随机写IOPS = 2万 高可靠、低成本 Block I/O层 IO加速模块 Cache盘组 (RAID 10) 真实盘组 (RAID10)
  19. 19. 内存隔离-硬件故障隔离 19 中国最为领先的云计算服务商 24根内存条
  20. 20. 内存隔离-逻辑 20 中国最为领先的云计算服务商 内存错误 可纠正不可纠正 不可恢复 不可纠正 可恢复 内核普通进程 隔离错误区域 并通知虚拟机 内核 kvm进程 普通进程 记录并报警Kernel Panic忽略错误 隔离错误区域 或杀死进程 隔离错误区域 或杀死进程 忽略错误
  21. 21. 热迁移-触发场景 21 中国最为领先的云计算服务商 宕机先兆 内核报硬件错误 Raid卡故障 IO急剧下降 负载较高 性能影响
  22. 22. 热迁移-过程 22 中国最为领先的云计算服务商
  23. 23. 热迁移-优化 23 中国最为领先的云计算服务商 QEMU优化补丁 维持迁移后Sparse磁盘特性,减少迁移后的磁盘空间浪费 减少迁移数据,降低带宽占用 UDisk磁盘过滤 迁移时过滤UDisk 多点挂载,提高迁移效率 确保云主机存活 限制Libvirt的开关机控制,整合至云平台
  24. 24. UCloud内核数据分享 24 中国最为领先的云计算服务商 修复20+个上游原生BUG 打入100+个特性补丁 累计避免数万次宿主机重启 IO性能10+倍于同类产品 在线迁移无一例失败 提升单体可用性
  25. 25. 容灾环网-提升UCloud服务整体可用性 25 中国最为领先的云计算服务商 了解更多 BGP C数据中心 基于光纤专线的跨数据中心同步 数据中心光纤专线网络 BGP A数据中心 BGP B数据中心 互联网 BGP数据中心通过光纤专用网络连接成为环网 任意数据中心都可以与其他两个数据中心实现内网互联互通 实测环网各数据中心内网延时<5ms 环网基于OSPF协议实现最优路径选择及链路冗余
  26. 26. 26 中国最为领先的云计算服务商 容灾环网-应对运营商网络质量问题
  27. 27. 27 中国最为领先的云计算服务商 容灾环网-应对部分服务不可用
  28. 28. 28 中国最为领先的云计算服务商 容灾环网-应对数据中心灾难
  29. 29. 29 中国最为领先的云计算服务商 1 简介 思考和实践 感想 2 3 Summary
  30. 30. 公有云从业感想 30 中国最为领先的云计算服务商 服务是根,运维是本 工程实践胜于学术概念 以用户需求作为创新依据 前景广阔,渴求人才
  31. 31. 非常感谢 UCloud -- 中国最为领先的云计算服务商

    Be the first to comment

    Login to see the comments

  • nikeliu

    Dec. 25, 2014

2014 Hpocon 吴磊 ucloud - 由点到面 提升公有云服务可用性

Views

Total views

767

On Slideshare

0

From embeds

0

Number of embeds

3

Actions

Downloads

9

Shares

0

Comments

0

Likes

1

×