Submit Search
Upload
千亿级全球监控体系构建和智能监控探索-王维栋.pdf
•
0 likes
•
8 views
D
dsj323
Follow
Monitroing system for billions of items
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 45
Download now
Download to read offline
Recommended
未来网络技术发展探梦 - 开篇
未来网络技术发展探梦 - 开篇
Yao-Wei Ou
How do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine part
acelyc1112009
My sql自动化监控
My sql自动化监控
thinkinlamp
Greenplum技术
Greenplum技术
锐 张
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
盛大游戏运维体系
盛大游戏运维体系
Ken Liu
盛大游戏运维体系
盛大游戏运维体系
Ken Liu
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
NTC.im(Notch Training Center)
Recommended
未来网络技术发展探梦 - 开篇
未来网络技术发展探梦 - 开篇
Yao-Wei Ou
How do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine part
acelyc1112009
My sql自动化监控
My sql自动化监控
thinkinlamp
Greenplum技术
Greenplum技术
锐 张
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
盛大游戏运维体系
盛大游戏运维体系
Ken Liu
盛大游戏运维体系
盛大游戏运维体系
Ken Liu
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
NTC.im(Notch Training Center)
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
guiyingshenxia
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
colderboy17
Apache Kylin Data Summit 2019: Kyligence Presentation
Apache Kylin Data Summit 2019: Kyligence Presentation
Tyler Wishnoff
金山云查询系统改进之路1
金山云查询系统改进之路1
Zoom Quiet
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
Scourgen Hong
Open stack中国社区开放测试平台(ostp)
Open stack中国社区开放测试平台(ostp)
OpenCity Community
Toutiao 2013 Jan Series B Funding Deck
Toutiao 2013 Jan Series B Funding Deck
Matthew Brennan
4.陈群-唯品会大规模Redis集群存储架构演进.pdf
4.陈群-唯品会大规模Redis集群存储架构演进.pdf
StevenShing
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Chao Zhu
Nodejs & NAE
Nodejs & NAE
q3boy
Mocha Bsm
Mocha Bsm
王 莆中
Yog Framework
Yog Framework
fansekey
了解应用服务器
了解应用服务器
Feng Yu
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
Yiwei Ma
Nginx深度開發與客制化
Nginx深度開發與客制化
Joshua Zhu
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
drewz lin
大鱼架构演进
大鱼架构演进
Jun Liu
Hacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
移动互联网服务端架构介绍
移动互联网服务端架构介绍
arganzheng
张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08
drewz lin
More Related Content
Similar to 千亿级全球监控体系构建和智能监控探索-王维栋.pdf
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
guiyingshenxia
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
colderboy17
Apache Kylin Data Summit 2019: Kyligence Presentation
Apache Kylin Data Summit 2019: Kyligence Presentation
Tyler Wishnoff
金山云查询系统改进之路1
金山云查询系统改进之路1
Zoom Quiet
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
Scourgen Hong
Open stack中国社区开放测试平台(ostp)
Open stack中国社区开放测试平台(ostp)
OpenCity Community
Toutiao 2013 Jan Series B Funding Deck
Toutiao 2013 Jan Series B Funding Deck
Matthew Brennan
4.陈群-唯品会大规模Redis集群存储架构演进.pdf
4.陈群-唯品会大规模Redis集群存储架构演进.pdf
StevenShing
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Chao Zhu
Nodejs & NAE
Nodejs & NAE
q3boy
Mocha Bsm
Mocha Bsm
王 莆中
Yog Framework
Yog Framework
fansekey
了解应用服务器
了解应用服务器
Feng Yu
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
Yiwei Ma
Nginx深度開發與客制化
Nginx深度開發與客制化
Joshua Zhu
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
drewz lin
大鱼架构演进
大鱼架构演进
Jun Liu
Hacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
移动互联网服务端架构介绍
移动互联网服务端架构介绍
arganzheng
张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08
drewz lin
Similar to 千亿级全球监控体系构建和智能监控探索-王维栋.pdf
(20)
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
Apache Kylin Data Summit 2019: Kyligence Presentation
Apache Kylin Data Summit 2019: Kyligence Presentation
金山云查询系统改进之路1
金山云查询系统改进之路1
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
Open stack中国社区开放测试平台(ostp)
Open stack中国社区开放测试平台(ostp)
Toutiao 2013 Jan Series B Funding Deck
Toutiao 2013 Jan Series B Funding Deck
4.陈群-唯品会大规模Redis集群存储架构演进.pdf
4.陈群-唯品会大规模Redis集群存储架构演进.pdf
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Nodejs & NAE
Nodejs & NAE
Mocha Bsm
Mocha Bsm
Yog Framework
Yog Framework
了解应用服务器
了解应用服务器
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
Nginx深度開發與客制化
Nginx深度開發與客制化
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
大鱼架构演进
大鱼架构演进
Hacking Nginx at Taobao
Hacking Nginx at Taobao
移动互联网服务端架构介绍
移动互联网服务端架构介绍
张松国 腾讯微博架构介绍08
张松国 腾讯微博架构介绍08
千亿级全球监控体系构建和智能监控探索-王维栋.pdf
1.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站
2.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 千亿级游戏监控体系和智能监控 王维栋 网易游戏
3.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 个人简介 • 网易游戏 监控团队负责人 • 7年运维平台开发经验 • 专注智能监控 • 擅长应用性能优化
4.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 来自全球布局的游戏的监控挑战 1 海量时间序列数据处理 2 数据可视化和报警 3 智能监控实践 4
5.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 传统游戏架构对监控的要求 1. 单体架构 2. 基础设施单一 3. 深耕国内市场 4. 监控层次简单
6.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 新时代的挑战 1. 游戏架构多样化 2. 混合基础设施 3. 拓展海外市场 4. 从传统监控到可观察性
7.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 游戏架构多样化 1. 单体架构 2. 分布式架构 3. 微服务
8.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 混合基础设施 物理机 私有云 公有云 容器云 云原生 混合云
9.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 拓展海外市场 1. 业务覆盖全球数十个国家 2. 二十多个region 3. 多个云服务商
10.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 从传统监控到可观察性 报警 可视化面板 Debugging Profiling 依赖分析 传统监控 可观察性
11.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 从传统监控到可观察性
12.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 网易游戏监控架构
13.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 来自全球布局的游戏的监控挑战 1 海量时间序列数据处理 2 数据可视化和报警 3 智能监控实践 4
14.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 海量时间序列数据的采集和存储方案 监控对象抽象 • 适应任意业务架构 • 灵活的数据描述 全球就近接入 • 低延迟 高准确性 • 高可用性 最小化管理成本 • CMDB集成-变更事件驱 动 数据采集中心 • 多种采集方式 • 混合云适配 统一数据总线 • 多采集入口 统一输出 • 数据对齐 • 实时聚合 海量时间序列存储 • 索引分离 • 冷热数据 • 水平扩展能力
15.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 监控对象抽象 机器 • 物理机 • 虚拟机 • 容器 硬件 • CPU • 网卡 • GPU 业务 • Redis Cluster • Kafka Topic • 游戏场景 • 战斗 • NPC
16.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 监控对象抽象 100+ EntityTypes 500万 Entities 4亿 Timeseries
17.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 全球就近接入-基础架构
18.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 全球就近接入-高可用 Arbiter Region Node Agent Agent Node Agent Region Node Agent Agent • Arbiters Active-Standby • Node心跳保持 • Region内多Nodes • 一致性哈希分配Agents • Region间互备 • 集群配置管理和数据流分离
19.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 全球就近接入-Region管理
20.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 最小管理成本-与CMDB集成
21.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据采集中心
22.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据采集中心-混合云兼容 物理机 Agent插件 Pusher 虚拟机 Agent插件 Pusher 容器 Agent插件- 从宿主采集 Pusher 日志指标 云原生 Kubernetes Cadvisor Prometheus Exporter 日志指标
23.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据采集中心-插件化Agent 核心调度 消息插件 系统插件 自定义插 件 Agent • 800+个Python插件 • 按机器服务自动分发 • 版本更新自动分发 • 插件热更新 插件仓库 Arbiter CMDB
24.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 统一数据总线
25.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 海量时间序列存储 • 水平扩展能力 • 线上百万QPS,4亿Series • 秒级写延迟 • 平均读延迟148ms • 读接口时间粒度自动稀释
26.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 来自全球布局的游戏的监控挑战 1 海量时间序列数据处理 2 数据可视化和报警 3 智能监控实践 4
27.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据可视化-视图组装 EntityType=service EntityType=group EntityType=project Project1 Group1 Service1 Service2 Group2 Service3 Tags Entities Entity Types 100+ EntityTypes 500万 Entities 200+ 自定义视图
28.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据可视化-机器视图 项目-群组-机器
29.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据可视化-容器视图 K8S-Pod-Container
30.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据可视化-业务视图 Arbiter-Region-Node
31.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据报警-所见即所得
32.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据报警-策略 指标阈值 指标 变化率 异常消 息 异常检 测 组合报警 策略模版 分享 & 订阅
33.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据报警-报警收敛 规则 引擎 问题 合并 模块 通知
34.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 数据报警-问题生命周期
35.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 来自全球布局的游戏的监控挑战 1 海量时间序列数据处理 2 数据可视化和报警 3 智能监控实践 4
36.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 智能监控实践-异常检测
37.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 智能监控实践-异常检测
38.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 智能监控实践-异常检测模型 统计学/距离/密 度/聚类模型 • 使用简单、无 监督 • 效果随缘 IsolationForest • 无监督、 Baseline不错 • 效果上限一般 有监督集成模型 • 效果上限好 • 标注成本高 分类泛化模型 • 曲线/异常分类 • 预训练模型适配同类曲线 • 样本、特征筛选难度大
39.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 智能监控实践-异常检测模型 Precision 0.85 recall 0.75 f1 score 0.8 on 100,000+ series
40.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 智能监控实践-关联分析 从几百条曲线中定位故障根因? 确定故障影响范围? 下钻影响整体的局部指标?
41.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 智能监控实践-关联流程 触发报警 确定搜索范围 计算相关 性 随报警推 送 按反馈优化模 型
42.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 智能监控实践-关联分析模型
43.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 联系方式
44.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 Thanks 高效运维社区 开放运维联盟 荣誉出品
45.
G O P
S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 想第一时间看到高效运维社区 的新动态吗?
Download now