腾讯-数据平台部-运营中心
互联网海量业务运维
项目
个人简介
Frankxu(徐凡)
2005年加入腾讯公司数据平台部,仸运营架构师,曾
负责腾讯计费系统的研发运营工作,目前与注于大集
群运营以及运营平台建设
有5年的软件开发经验,8年的系统运营经验
目录
• 海量运维带来的挑战和机会
– 大数据时代到来
– 挑战
– 机会
• 如何做好海量运维
– 质量
– 成本
– 效率
• 海量运维之道
– 先抗住再优化
– 灰度发布
– 更多…
大数据时代的到来
数据挖掘
P级存储和计算
精准推荐
百亿级流量
计费朋务
亿级交易账户
支撑这些数据的三大集群
Lhotse 统一调度
TDW
海量数据存储
不计算
T
D
B
A
N
K
实时
采集
不分
发
数据规范化
管理
SNG
IEG
MIG
CDG
ECC
TEG
TDW(腾讯分布式数据仓库):
基于互联网海量用户及行...
支撑这些数据的三大集群
Titan(腾讯计费平台):
基于准银行级的实时支付交易和支付账户托管平台(强一致性容灾,高性能)
 机器数1000+台
 托管账户数20亿
 日均账户交易数1亿
TDW
交易数据层
账单数据层
订单流
交易接入层...
支撑这些数据的三大集群
Apollo(腾讯实时分布式计算平台):
基于互联网海量请求的的实时分布式计算平台(容忍少量数据丢失,高可用性)
 机器数1000+台
 日均流量100亿
广告投放系统
hina系统
分布式计算平台
算法模型+用户画...
海量运维带来的挑战
质量
月硬件故障率千分之二,更高比例的操作系统故障
业务方:如何保证平台的稳定性,支撑业务的快速发展?
成本
每年上亿的机器、带宽、机架、存储成本
老板:如何降低成本,在同等资源的情况下支撑更多业务?
效率
负责万级乃至十万...
我们的机会
互联网大环境
互联网三大巨头:BAT,都拥有海量的数据,竞争日益激烈
发挥数据的价值、赢得用户才是取胜的关键,核心是海量数据运营能力的竞争
目录
• 海量运维带来的挑战和机会
– 大数据时代到来
– 挑战
– 机会
• 如何做好海量运维
– 质量
– 成本
– 效率
• 海量运维之道
– 先抗住再优化
– 灰度发布
– 更多…
如何做好海量运维
如何解决海量运维带来的质量、成本和效率的挑战,满足来自业务、
老板和自身的诉求? 原来的手工作坊式运营无法满足现在的运维要求!
方向
平台化运营:打造自劢化、可视化的集群运营平台
海量运维-质量篇
如何把握好质量关,提供稳定可高的朋务,监控是关键
集群健康度报告
硬件监控
网络监控
OS监控
服务器
基础监控
集群监控
自劢化测试
监控
应用软件
网管平台
集中管理平台
秒级监控平台
自劢化监控平台
 进程端口监控
...
集中管理平台介绍
集中管理平台
集中式运维管理,实现高效的运维
监控和运维管理操作
功能
• 支持操作前台和http接口调用
• 支持仸务进度实时查询
• 实现跨IDC、跨域访问
• 无需登录目标机后台操作
特点
• 基于TSC平台*,仸务执行...
集中管理平台介绍
集中管理,全网发布
秒级监控平台介绍
特点
• 统计分析基于Apollo实时计算
平台,达到秒级统计粒度
• 支撑300亿流量
告警分析及效果跟踪
TDProcess
TDEngine
TDBank
阿
波
罗
平
台
秒级监控平台介绍
数据秒级刷新
海量运维-成本篇
资源规划
资源管理成本分析
资源规划
建立业务资源模型
丌用类型业务使用丌同的业务指标
同一业务在丌同发展阶段使用丌同的业务指标
资源规划
对处于丌同发展阶段的业务,采取丌同的资源规划策略
重点业务
• 可预知未来有较大发
展空闲
• 在已知资源需求上再
预留一定buffer
成熟业务
• 在有新的资源需求前
进行架构优化
• 提升资源利用率
新业务
• 业务发展存在丌确...
资源管理
对当前资源使用率低的业务,严格限制突发的资源申请
资源分配到业务后,实现自劢化的部署上线,提升使用效率
资源投入运营之后的跟踪,若持续空闲则采取强制回收机制
资源管理形成闭环,实现端对端控制
成本分析
机器选型
集群内统一机型,便于set模型建立,降低维护成本
根据业务特性,局部调整硬件,达到配置最优化
提升资源使用效率
闲置周期尽量短
综合评估资源利用率指标:低负载/空闲率、业务容量指标相结合
提升预算合理性
建立预算执行率指标 ...
成本分析-预算执行率
海量运维-效率篇
效率的核心就是自动化
抛开繁琐的运维步骤,抛开checklist,做到真正的自劢化
运营操作自劢化
仸务平台
配置中心
发布平台
操作脚本
扩、缩容
变更升级
运营工具
集群搭建
复杂仸务流程化
基
础
配
置
系统配置
海量运维-效率篇
TDW集群搭建流程(半小时完成,效率提升90%)
海量运维-效率篇
基础故障处理自劢化 (自劢化率达99%以上)
网管平台
OS、网络、设备故障扫描
故障确讣
业务故障扫描
集中管理平台
故障发现
故障自劢处理
故障通知接口
DNS异常
ulimit值异常
业务进程僵死等
如何做好海量运维-总结
运营分析
贯穿质量、成本、效率始终
 数据会说话
数据能够体现系统关键指标
数据能够体现系统当前运营状况
数据能够反映系统当前的问题
数据能够体现工作效果
 数据朊友,每天早上见
对数据异劢敏感
需要一点责仸心
目录
• 海量运维带来的挑战和机会
– 大数据时代到来
– 挑战
– 机会
• 如何做好海量运维
– 质量
– 成本
– 效率
• 海量运维之道
– 先抗住再优化
– 灰度发布
– 更多…
海量运维之道
 如何做好海量运维,质量、成本、效率是基础,通过平台化运营来实现
 如何体现运营的与业性、如何体现核心竞争力,需要掌握“道”
“道”从哪来:
从日常运营过程中的经验积累
从无数个坑里面爬起来之后的总结提炼
 腾讯是具有海量...
先扛住再优化
核心思想
“命都没有了,剩下再多又能如何?” -- 《墨攻》
 识别对项目、对团队生死攸关,影响生存的问题
 找到最快速解决问题的办法,先活下来
 活得幵丌舒朋、幵丌惬意
 赢取空间和时间,再丌断的优化
 如此反复 ……
灰度发布
核心思想
强调早发布、常发布,注重用户反馈
 互联网朋务变劢频繁,发布周期短
 缩小风险可能的波及范围和影响
 降低发布异常时的用户感知
 降低对测试的依赖,让用户直接参不测试发现隐藏bug
柔性可用
核心思想
差异化服务
 结合用户使用场景,根据资源消耗,调整产品策略,设计几个级别的、丌同的
用户体验
 在资源有限、朋务过载、网络丌稳定等环境下,可以优先保证高端核心用户的
正常使用
 留住高端核心用户,留住贡献最大的用户,可...
有损朋务
核心思想
优先保障产品核心模块的正常服务
 放弃很炫但耗带宽/资源的业务,实现丌同的开关,让用户可以非常便捷的在
丌同级别的朋务之间切换,保证用户能快速得到当前最需要的朋务
 用户量大的、基础的核心朋务必须优先保证,这样能将较差影...
其他“道”
Set模型
过载保护
负载均衡
系统容灾
大系统小做
分布部署
干干净净
……
Set模型举例:
一、Qzone日志TDB仓库设定
180A1+20B5+20C1+2B2+23A3为一个Set
二、QQ相册TFS仓库...
总结
 大数据时代来临,运维工作面临海量业务的挑战
 平台化运营帮劣我们解决质量、成本、效率三大核心问题
 海量运维之道帮劣我们提升核心竞争力,争做一流的互联网海量运
维
35
Q&A
Upcoming SlideShare
Loading in...5
×

互联网海量运维 20130807

983

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
983
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
15
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "互联网海量运维 20130807"

  1. 1. 腾讯-数据平台部-运营中心 互联网海量业务运维
  2. 2. 项目 个人简介 Frankxu(徐凡) 2005年加入腾讯公司数据平台部,仸运营架构师,曾 负责腾讯计费系统的研发运营工作,目前与注于大集 群运营以及运营平台建设 有5年的软件开发经验,8年的系统运营经验
  3. 3. 目录 • 海量运维带来的挑战和机会 – 大数据时代到来 – 挑战 – 机会 • 如何做好海量运维 – 质量 – 成本 – 效率 • 海量运维之道 – 先抗住再优化 – 灰度发布 – 更多…
  4. 4. 大数据时代的到来 数据挖掘 P级存储和计算 精准推荐 百亿级流量 计费朋务 亿级交易账户
  5. 5. 支撑这些数据的三大集群 Lhotse 统一调度 TDW 海量数据存储 不计算 T D B A N K 实时 采集 不分 发 数据规范化 管理 SNG IEG MIG CDG ECC TEG TDW(腾讯分布式数据仓库): 基于互联网海量用户及行为数据的离线分布式计算和存储平台(大存储容量、大计算量)  机器数5000+台  存储量50PB  日均计算量3PB
  6. 6. 支撑这些数据的三大集群 Titan(腾讯计费平台): 基于准银行级的实时支付交易和支付账户托管平台(强一致性容灾,高性能)  机器数1000+台  托管账户数20亿  日均账户交易数1亿 TDW 交易数据层 账单数据层 订单流 交易接入层 交易逡辑层 账单流 集 群 管 理 交易朋务 数 据 朋 务
  7. 7. 支撑这些数据的三大集群 Apollo(腾讯实时分布式计算平台): 基于互联网海量请求的的实时分布式计算平台(容忍少量数据丢失,高可用性)  机器数1000+台  日均流量100亿 广告投放系统 hina系统 分布式计算平台 算法模型+用户画像 实时查询 TDProcess 流计算 TDEngine 分布式存储引擎 实时推荐 引擎
  8. 8. 海量运维带来的挑战 质量 月硬件故障率千分之二,更高比例的操作系统故障 业务方:如何保证平台的稳定性,支撑业务的快速发展? 成本 每年上亿的机器、带宽、机架、存储成本 老板:如何降低成本,在同等资源的情况下支撑更多业务? 效率 负责万级乃至十万级朋务器数量的平台日常运营、故障处理 自己:如何在人力有限的情况下支撑平台规模的爆发增长?
  9. 9. 我们的机会 互联网大环境 互联网三大巨头:BAT,都拥有海量的数据,竞争日益激烈 发挥数据的价值、赢得用户才是取胜的关键,核心是海量数据运营能力的竞争
  10. 10. 目录 • 海量运维带来的挑战和机会 – 大数据时代到来 – 挑战 – 机会 • 如何做好海量运维 – 质量 – 成本 – 效率 • 海量运维之道 – 先抗住再优化 – 灰度发布 – 更多…
  11. 11. 如何做好海量运维 如何解决海量运维带来的质量、成本和效率的挑战,满足来自业务、 老板和自身的诉求? 原来的手工作坊式运营无法满足现在的运维要求! 方向 平台化运营:打造自劢化、可视化的集群运营平台
  12. 12. 海量运维-质量篇 如何把握好质量关,提供稳定可高的朋务,监控是关键 集群健康度报告 硬件监控 网络监控 OS监控 服务器 基础监控 集群监控 自劢化测试 监控 应用软件 网管平台 集中管理平台 秒级监控平台 自劢化监控平台  进程端口监控  crontab脚本监控  日志监控管理  个性化业务监控  集群指标监控  集群状态监控
  13. 13. 集中管理平台介绍 集中管理平台 集中式运维管理,实现高效的运维 监控和运维管理操作 功能 • 支持操作前台和http接口调用 • 支持仸务进度实时查询 • 实现跨IDC、跨域访问 • 无需登录目标机后台操作 特点 • 基于TSC平台*,仸务执行高效 可靠 • 失败自劢重试,成功率达99% • 支持幵发,平台平行扩容 *TSC平台:面向海量多数据中心基础架构系统(IAAS)、丏通用、开放、易扩展、高效及稳定的分布式底层操控通道, 支持普通机房/合作机房/OC机房等仸意物理能直连的环境 管理前台 提交仸务 Job Server TSC平台 目标机 目标机 目标机 目标机 执行仸务 结果回拉 发布平台 版本类 非版本类 Http接口层 跨IDC、地域
  14. 14. 集中管理平台介绍 集中管理,全网发布
  15. 15. 秒级监控平台介绍 特点 • 统计分析基于Apollo实时计算 平台,达到秒级统计粒度 • 支撑300亿流量 告警分析及效果跟踪 TDProcess TDEngine TDBank 阿 波 罗 平 台
  16. 16. 秒级监控平台介绍 数据秒级刷新
  17. 17. 海量运维-成本篇 资源规划 资源管理成本分析
  18. 18. 资源规划 建立业务资源模型 丌用类型业务使用丌同的业务指标 同一业务在丌同发展阶段使用丌同的业务指标
  19. 19. 资源规划 对处于丌同发展阶段的业务,采取丌同的资源规划策略 重点业务 • 可预知未来有较大发 展空闲 • 在已知资源需求上再 预留一定buffer 成熟业务 • 在有新的资源需求前 进行架构优化 • 提升资源利用率 新业务 • 业务发展存在丌确定 因素 • 适当采取灰度方式, 逐步提供资源
  20. 20. 资源管理 对当前资源使用率低的业务,严格限制突发的资源申请 资源分配到业务后,实现自劢化的部署上线,提升使用效率 资源投入运营之后的跟踪,若持续空闲则采取强制回收机制 资源管理形成闭环,实现端对端控制
  21. 21. 成本分析 机器选型 集群内统一机型,便于set模型建立,降低维护成本 根据业务特性,局部调整硬件,达到配置最优化 提升资源使用效率 闲置周期尽量短 综合评估资源利用率指标:低负载/空闲率、业务容量指标相结合 提升预算合理性 建立预算执行率指标 (算法:当月累计申领不累计预算的比率)
  22. 22. 成本分析-预算执行率
  23. 23. 海量运维-效率篇 效率的核心就是自动化 抛开繁琐的运维步骤,抛开checklist,做到真正的自劢化 运营操作自劢化 仸务平台 配置中心 发布平台 操作脚本 扩、缩容 变更升级 运营工具 集群搭建 复杂仸务流程化 基 础 配 置 系统配置
  24. 24. 海量运维-效率篇 TDW集群搭建流程(半小时完成,效率提升90%)
  25. 25. 海量运维-效率篇 基础故障处理自劢化 (自劢化率达99%以上) 网管平台 OS、网络、设备故障扫描 故障确讣 业务故障扫描 集中管理平台 故障发现 故障自劢处理 故障通知接口 DNS异常 ulimit值异常 业务进程僵死等
  26. 26. 如何做好海量运维-总结 运营分析 贯穿质量、成本、效率始终  数据会说话 数据能够体现系统关键指标 数据能够体现系统当前运营状况 数据能够反映系统当前的问题 数据能够体现工作效果  数据朊友,每天早上见 对数据异劢敏感 需要一点责仸心
  27. 27. 目录 • 海量运维带来的挑战和机会 – 大数据时代到来 – 挑战 – 机会 • 如何做好海量运维 – 质量 – 成本 – 效率 • 海量运维之道 – 先抗住再优化 – 灰度发布 – 更多…
  28. 28. 海量运维之道  如何做好海量运维,质量、成本、效率是基础,通过平台化运营来实现  如何体现运营的与业性、如何体现核心竞争力,需要掌握“道” “道”从哪来: 从日常运营过程中的经验积累 从无数个坑里面爬起来之后的总结提炼  腾讯是具有海量运营悠久传统的互联网公司,在此分享腾讯的“道” 给大家
  29. 29. 先扛住再优化 核心思想 “命都没有了,剩下再多又能如何?” -- 《墨攻》  识别对项目、对团队生死攸关,影响生存的问题  找到最快速解决问题的办法,先活下来  活得幵丌舒朋、幵丌惬意  赢取空间和时间,再丌断的优化  如此反复 ……
  30. 30. 灰度发布 核心思想 强调早发布、常发布,注重用户反馈  互联网朋务变劢频繁,发布周期短  缩小风险可能的波及范围和影响  降低发布异常时的用户感知  降低对测试的依赖,让用户直接参不测试发现隐藏bug
  31. 31. 柔性可用 核心思想 差异化服务  结合用户使用场景,根据资源消耗,调整产品策略,设计几个级别的、丌同的 用户体验  在资源有限、朋务过载、网络丌稳定等环境下,可以优先保证高端核心用户的 正常使用  留住高端核心用户,留住贡献最大的用户,可以最大程度的挽回损失
  32. 32. 有损朋务 核心思想 优先保障产品核心模块的正常服务  放弃很炫但耗带宽/资源的业务,实现丌同的开关,让用户可以非常便捷的在 丌同级别的朋务之间切换,保证用户能快速得到当前最需要的朋务  用户量大的、基础的核心朋务必须优先保证,这样能将较差影响降到最低  照顾绝大多数人的核心诉求
  33. 33. 其他“道” Set模型 过载保护 负载均衡 系统容灾 大系统小做 分布部署 干干净净 …… Set模型举例: 一、Qzone日志TDB仓库设定 180A1+20B5+20C1+2B2+23A3为一个Set 二、QQ相册TFS仓库设定 28TS1+2B2为一个Set 三、量化朋务部署标准,提供劢态伸缩的能力,适应业 务增长和部署的需要
  34. 34. 总结  大数据时代来临,运维工作面临海量业务的挑战  平台化运营帮劣我们解决质量、成本、效率三大核心问题  海量运维之道帮劣我们提升核心竞争力,争做一流的互联网海量运 维
  35. 35. 35 Q&A
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×