腾讯大讲堂30 运维工具让你的开发运营更轻松

运维工具让你的开发运营更轻松
架构平台部-运营平台中心
Aresliang

Aresliang
架构平台部-运营平台中心
产品管理组
分机：７５７４
个人介绍

来看一些数据
ITIL基础介绍
运营平台中心产品介绍
Agenda

服务器数 25867
进程数 64025
域名数 4864
机房 111
业务集合 322
业务总数 5075
我们为什么要建ＩＴＩＬ
2894
4008
5400
8095
5446
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
2004年 2005年 2006年 2007年 2008年
服务器增量
还将以每年80%的速度增长

月突发事件平均数量：3000起；
故障平均定位时间：23分钟；
ISD12月份各业务对外发布450次；

30多个亿 100亿
我们的规模会有多大？
我们需要多强大的支持能力？

IT管理国际规范--ITIL
• 全称 IT Infrastructure Library
• 从1986年开始被使用
• 英国政府电脑局(CCTA)开发制定
• 国际上唯一的关于IT服务管理的综合性准则
• 国际性资格认证（基础级/主管级/经理级）
• 有自己的国际性用户组织 (ITSMF)
• 全球十万多家大型企业采用的管理模式
• 最新国际标准ISO 20000
Change
Config
HelpDesk
Problem
Cost
SLM
Avail
Contingency
Operations
Capacity
Security
http://www.itil.co.uk

• IT服务管理的“最佳实践”，而不是抽象的
方法论 !
• 优化IT 环境/基础设施管理的系统化、实用
的方法：
– 运行和维护现有系统
– 开发新的系统
– 使IT服务和业务需求保持一致
ITIL的好处

HP－ITSM方法论
服务保障协议
安全管理
连续性管理
可用性管理
服务能力管理
财务管理
IT服务体系开发&测试
IT服务系统发布&试运营
服务等级管理
变更管理
配置管理
运营管理
问题管理
事件及服务请求管理
服务体系发展规划
IT 战略规划及整体架构设计
客户管理
IT 系统评估

传统的IT管理和ITSM比较

ITSM的核心思想是：
IT组织，不管它是企业内部的还是外
部的，都是IT服务提供者，其主要工
作就是提供低成本、高质量的IT服
务。
IT服务的质量和成本则需从IT服务的
客户（购买IT服务的）和用户（使用
IT服务的）方加以判断。
ITSM也是一种IT管理。不过与传统的
IT管理不同，它是一种以服务为中心
的IT管理。
IT服务管理的核心思想
流程
工具人

质量
基础
数据
运营平
台中心
成本
４个产品线
３１个子产品
效率
服务目录介绍

运营环境基础数据
配置管理系统
服务器
业务
软件
网络设备
网络专线
IP
域名
LVS
存储
IDC资源
ADS
业务监控体系（Service View）
基础服务器监控
URL监控
基础网络监控
模块间调用监控
智能分析监控
综合故障管理平台
容量管理
质量基础
数据
2007
成本效率

运营质量
ITIL流程建设
事件管理
Server Desk
问题管理
需求门户
IDC需求管理
IDC变更管理
设备分配管理
值班系统
8000报障系统
基础
数据
成本
2007
效率
质量

运营效率
效率
公共运维平台建设
发布管理
作业自动化平台
自动化编译
基础
数据
成本
2007
质量

控制运营成本
ITIL流程建设
OMSCA系统基础
数据
成本
2007
效率
质量

价值-运维的工作及重心转变
22
1. 日常发布及相关沟通协调工作 ×
2. 扩容工作 ×
3. 投诉的二线支持 ×
4. 数据迁移/提取 ×
5. IDC软硬件故障维护 ×
1. 配置管理
2. 运营数据分析
3. 立体化监控及异常发现
4. 代码编译检查
5. 可运营规范及推进开发优化
6. … …
重心
日常操作
救火
运营分析
优化改进
监控预防
工具化、智能化及自动化
持续优化和规范环境，降低复杂度
举措
进化

配置管理是一项关键过程，
负责对所有版本的硬件、软
件、文档、过程、程序及信
息技术（IT）机构内其它无
生命组成要素进行识别、控
制和跟踪。
配置管理的目标在于，确保
只有经过授权的组件才能在
IT 环境中得到应用，并对
所有变更调整实施记录和跟
踪。
什么是配置管理
配置管理
CMDB
服务台
突发事件管理
问题管理
变更管理
发布管理

定位
25
存放和管理公司各类配置资源，真实准确的
反应公司运营环境配置状况
推动公司配置管理工作规范化、标准化。
为公司其他运营管控流程提供配置数据支
持，为公司运营决策提供配置数据支持

真实准确的反应公司运营环境的
配置状况
为其他ITIL流程、各类运营管控
流程提供配置数据支持
能够计量运营环境所有资产和配
置项的价值
能够分析和评价公司运营环境的
整体服务能力
价值
控制
• 重要工具
集成
• 流程粘合剂
决策
• 强有力的支持

系统界面 http://Server.itil.com

什么是业务健康
业务在功能、容量等相关方面体现出来的各项可监控数的总
称。当个别或部分数据不满足标准阀值时我们称业务为亚健
康或不健康的，反之业务为健康的。
我们为什么需要立体化监控
一个良好、全面、完善的业务健康立体化监控体系，能够
帮助我们准确，及时、完善地了解业务各个层面的生存情
况，并最终实现对业务的量化管理。
怎样才算立体化监控
一个从外部/内部、从业务/基础环境、从功能/性能、从预
算/收入等各个方面对业务数据进行采集、展现和告警的体
系
3个W

用户分析
我们的用户是谁
运维人员
业务主管
中高层领导
我们面临的需求是什么
运维人员：
通过对各层次的数据的展示和告警设置,快速直观的发现和定位
故障
运维主管：
通过对各层次的数据的展示,来反应业务的容量和性能,通过
设置阀值来对业务的容量和性能进行告警
公司中高层：
通过对各层次数据的量化,来量化业务运行的监控度
发现快、定位准
直观、全面的了解业务情况
业务情况量化了解

提供腾讯唯一、准确的运营信息采集、传输、存储的渠道
及时、准确的发现故障及辅助故障定位、排障
向其他业务系统提供高效、规范、稳定可靠的运营数据接口
定位和价值

智能数据分析
数据采集
用户体验业务特性模块间调用监控
模块进程/模块端口/模块特性监控
OS/Device 网路/IDC
业务逻辑
监控数据中心
监控数据存储监控数据管理基础数据视图
容量/预算分析模型
告警
分析
模型
定位
分析
模型
财务分析模型其他分析模型
财务数据
ＣＭＤＢ
自动化采集系统
决策支持
容量管理告警／定位平台
业务健康管理利润分析／展示
安全
行为
安全管理
行为管理
逻辑结构

监控层次
产品
业务
模块组
模块
业务功能
用例
用例操作组件（具体到ＩＰ）
基础资源
外部监控
业务内监控
基础监控

产品体系架构（三横两纵）
用户体验监控系统用户体验定位系统
业务特性监控系统
外部
监控
业务逻辑监控系统模块间调用监控系统
业务模块监控系统
业务
内部
监控
基础
环境
监控
基础设备监控系统基础网络监控系统
统一
告警
平台
告警
关联
模型
库
统一
告警
渠道
智
能
分
析
平
台

公司级网管 http://monitor.itil.com
二级网管
ISD http://isd.itil.com
IED http://ied.iti.com
无线 http://mqq.itil.com
网站 http://info.itil.com
即通 http://srv.itil.com
运支 http://oss.itil.com
基础设备监控系统

基础网管架构层次
Agent数据接入层
数据Cache层
数据逻辑运算层
DB,文件存储层
数据访问接口层
Web展示层
采集的网络,主机数据,
业务插件接入数据
最近访问数据内存缓
冲
告警分析,数据分析,叠
加运算等
主机性能数据,告警等
历史数据
各种数据访问方法,访
问协议适配方法
基于iis的aps.net和
apache cgi web应用展
示
网
管
公
共
组
件
库
(.so)

核心价值-故障主动发现和定位能力

核心价值-采集的数据挖掘展现

核心价值-挖掘展现：服务器负载分析

ISD模块间调用监控系统
无线模块间调用监控系统
运支模块间调用监控系统
模块间调用监控系统

模块间调用监控系统现状及原状对比
49
1. 运维人员需要做大量的数据查找工作
2. 运维人员需要做大量的数据统计工作
3. 定位问题要经过多次尝试
4. 对模块间调用的监控粒度不更细
1. 提供数据支持,让分析更轻松
2. 发现问题及时及准确
3. 使定位问题更直观
4. 使对模块间调用的监控粒度更细
5. 使对模块间调用的告警更直观
6. … …
原状
原状: 现状:

模块间调用原状特点
运维人员需要做大量的数据查找工作
在公司的日志集中平台需要做大量的手工查找工作
查找工作比较耗事且不够准确；
运维人员需要做大量的统计工作
定位问题需要经过多次尝试,效率低
监控粒度不细
50

在公司的日志集中平台需要做大量的手工统计工作
统计工作比较烦琐；
监控粒度不细
51

模块间调用故障原因比较复杂，多重故障现象交错；如出问题需要从
单机、网络、机房、业务特性等多方面反复排除定位，效率极低
监控粒度不细
52

监控粒度不细
模块间调用只监控到模块层
不能监控到模块之间的相互调用的性能及请求量；
53

产品架构
Qzone Service
QQshow Service
QQ音乐 Service
Log local
Api
Log msg
Log msg
Log Server
Local log agernt
Local file
Log msg
Log files
Log msg
DataProcess
处理插件
处理插件
Result Files
Data Sender
Qzone QQshow QQ音乐
Collector
FileCache
Alarmsvr NMData
NMTASK
IIS 中间件
告警库
内存cache数
据
数据采集服务器
部门二级网管服务器
业务数据
部门网管web服务器
用户IE
部门二级网管日志预处理机制日志集中平台
Collector接收所有agent数据并转发
订阅该数据的各级网管服务器
FileCache接收agent数据包，做cache
和历史转存文件
Alarmsvr分析agent数据产生存储告
警
NMTask接收Web端的数据查询告警
功能
NMData对agent数据进行叠加等运
算
提供客户端页面浏览服务器
54

消灭隐患-提升业务可用率和产品质量
通过解决潜在的问题和隐患，将业务故障消灭在发生前，促进BU的
运维管理逐步从救火到预防发展和转变。

质量提升案例
没有模块间调用监控的时候（以前）
产品质量问题多，定位难，跟踪麻烦，长期得不到解决。上
级主管常常一周询问运维主管好几次，本周的重大故障定位
和解决情况如何，还有什么可能发生的情况存在。
有了模块间调用监控（现在）
上级主管一个月会询问运维主管一、两次关于重大故障定位
和解决情况。

快速、准确的定位-提升运营效率
通过模块间调用的返回值及调用结果，使开发、运维人员定位
故障的时间提升了35%。
以前平均定位时间:23分，数据来源于ISD突发事件管理系统
现在平均定位时间14.95分，数据来源于模块间调用监控系
统邮件订阅点评功能

效率提升案例
业务：会员
功能：会员头像
问题：会员头像显示速度慢，不稳定，用户体验感很差
没有模块间调用前：
根据经验定位，估计是即通的接口返回速度慢。
与即通沟通后，答复接口没有问题。
问题只得搁置一直得不到解决。
接入模块间调用后
通过调用数据分析发现，即通的接口返回速度快，没有任何问题
网盘接口的调用返回速度慢，失败率高
通过排查发现：网盘提供的接口业务逻辑不稳定，有过多的冗余
日志操作
优化相关代码，问题得到解决
从发现问题到具体定位：3个工作日

为业务发展和决策提供数据支持
提供成功率、响应时间等7个维度业务分析数据，为业务的扩
容、迁移等决策提供了数据支持。
以QQ会员自定义图像为例，扩容前QQ会员自定义图像调用网
络硬盘qqdisk上传接口成功率为81.51%、响应时间为3.52
秒，通过数据分析，扩容后QQ会员自定义图像调用网络硬盘
qqdisk上传接口成功率为99.9%、响应时间为197.79毫秒，
CGI自动化测试时间由2.4秒下降到现在的800毫秒，大大提高
了产品质量，提升了产品的用户体验感。

对不达标CGI业务潜在隐患的实时跟踪
★通过模块间邮件订阅和日分析报告，对任何一个不达标的cgi
业务模块的潜在隐患，从根本层面形成了BU在每天的业务故障
跟踪方面的制度，这一方面在监控技术的发展和思路方面是一
个大的进步

后续建设计划
结合配置管理，真实的勾画业务的内部调用结构图，使业务内部结
构透明化。

后续建设计划
结合自动化测试系统，进行数据的深度分析，打通外部调用和内部
调用之间的联系，精确监控每次外部请求的逻辑走向，形成业务调
用逻辑有序图，使定位更加快速、直观

服务支持流程
事件管理流程用于记录
跟踪和监控事件
客服工单系
统
网管系统
运维人员自
行发现
事件识别
（服务台）
事件记录
事件分类
是否属于服务
请求
转入服务请求
事件处理优先级
是否属于重大
运维故障
重大运维故障处理
初步支持
调查诊断
解决和恢复
事件关闭
是
否
否
是
是否需要职能
升级
职能升级2/3线处理是
否
结束
事件管理目标
最快恢复正常服务；
尽量减少对业务的不利影响；
确保最可能的服务级别的质
量，维护SLA条款的有效性；
反应公司平均故障解决时长、
计算各个业务的可用率

单据类型
被动
主动
事件
维护单
客服
自动监控/
运维发现
突发事件
监控单
投诉单
服务请求
（管工事件）
有影
响
无影
响
管工
B
U
处理
部门？
标红色是为目前未实现

变更
实施
解决
故障
产品关联图
事件管理问题管理
变更管理配置管理
服务台
变更
请求提供
配置
信息
配置变化
通知
提供
配置
信息
提供
配置
信息
趋势分析
避免故障重
复出现
监控告警
客服工单
投诉
单

事件系统的价值和定位
SLA优化及
改进措施
图：可用性管理与项目建设的推进协作

解决方案及成果
解决方案项目收益
事件
记录
公司统一事件录入平台，记录跟
踪事件处理直至最终解决
1.将原来分散在工单系统、事件系统和BU内部的运维数据录
入统一的事件管理平台中
2.公司只建设一套系统，各部门不用投入重复开发
3.将ISD/IED对事件管理的管理和规范推广到其他部门
管理
支持
建立服务目录和级别管理模块 1.在统一平台上展现管工SLA以及BU可用性统计等重要运营
数据和报表，可以纵向对比运营质量
2.支持管工、客服、BU针对数据分析，进行管理决策
3.支持对运维人员的服务质量和运维质量考评
ITIL
其他
系统
建设
统一后续问题管理，知识库管理
的建设，减少重复投入
1.通过各相关系统提供的接口，预留变更管理、问题管理接
口，并在统一平台上展现管工SLA以及BU可用性统计等重要
运营数据和报表
2.已支持与ISD问题管理系统接口，实现初步的问题管理升
级模式

系统界面 http://helper.itil.com

公司发布工作以前存在的问题
大量的发布仍处于手工或者半自动化运作方式，效率低；
由于历史原因，现实环境非常复杂，开发管理不规范，导致发
布工作的复杂性高，导致发布容易出错；
现有的系统工具虽然能够实现一定程度的自动化，但应用还不
够系统化；
在权限管理和规范化方面，还有待提高；
缺乏同其他相关应用或系统，如配置系统、报警系统的关联和
集成；
发布管理缺乏健全的管理规范和培训体系；
各BU在发布管理上参差不齐，发布工具不统一，在自动化工
具的实现上，也具有非常大的差异；
75

发布管理解决方案的层面
发布管理
发布工具及管理系统
ICT基础架构
从发布管理、发布工具及系统、ICT架构三个层面去改进发布管理。
1. 明确相关岗位角色，区分发布操作岗、发布管理审计、发布工
具管理维护等角色，建立岗位职责；
2. 建立《发布管理规范》，对发布工作进行严格管理；
3. 开展相应的人员培训及教育；
1. 建立TOMS-ARS 软件系统和打包工具；
2. 实现发布过程的自动化；
3. 固化相关的关键控制点和权限控制；
4. 实现同公司相关系统的集成和整合；
1. 建立预发布机备份管理；
2. 对测试环境及编译环境进行梳理；
3. 规范产品、模块在编译环境、测试环境和预发布环境中的映
射；
4. 梳理配置系统，建立配置关系，推动应用系统配置的完整性和
准确性；
5. 梳理IDC生产环境，提高生产环境的一致性，降低复杂性；

通过自动化发布，提升发布质量和效率，减少误操作，保证发
布安全性；
梳理和规范发布流程，促进发布环境管理；
版本管理，进行版本的快速恢复；
任务管理，有效提升windows服务器维护效率；
控制开发环境对生产环境的访问，保证安全性；
公司统一发布平台。
价值
所有开发、测
试、运维人员
都要全程参加，
无序，繁琐，
耗时长，易出
错
开发提单，运
维进行发布和
数据维护，运
维成为瓶颈
开发提单，测试
人员进行发布，
运维进行数据维
护和工具维护

ARS发布推广情况
部门对象业务接口人现状
ISD
Qzone
waynewang
1、已经覆盖ISD80％的发布工作；
2、剩余20％的ISD发布计划在Q2实现覆
盖（主要是包的增量发布）；
QQ秀
QQ会员
QQ相册
QQ交友
QQ音乐
Imagecache
IED
寻仙
leoxiong、
felixwang
1、飞行岛发布稳定。
2、PET 1.0正常进行了多次正式环境发布。
3、CF进行了多次正式发布。
4、其它多个产品处于试用中。
QQ宠物1.0
飞行岛
QQ宠物2.0
CF
QQ幻想
无线
手机QQ
amyli,yen,stev
eqiao,wingzho
u
1、手机QQ发布稳定。
2、VOIP进行了多次正式发布。
3、其它多个产品处于试用中。
无线音乐
无线平台服务
VOIP
创新中心 QQ客服
jackye
1、频道应用发布稳定。网站部频道应用
国际产品中心美国QQGame
广告部 QQlive
运营支持部 pay.qq.com hairyxie 发布数量稳定。
电子商务部 eagle 已完成部署，试用中
在线支付部财富通 aaronzheng 完成了新环境的部署，试用中。
红色代
表基本
覆盖所
有产品
蓝色代
表部分
产品覆
盖
白色代
表正在
试用中

ARS发布数据
354
45
29 23
0
0
50
100
150
200
250
300
350
400
互联网事业部互动娱乐事业部无线产品部运营支持部管理工程部
各部门月发布次数(2008/3/24-2008/4/20)
注明：
1、图表中所示为发布次数，不是发布版本数，因为一个版本可能会发布多次；
2、互动娱乐和无线产品部的发布次数中包含试用次数。

公共运维平台的规划
发布管理任务管理 TSH监控管理
用户管理权限管理操作日志管理安全管理
公共运维平台
发布自动化
发布平台化
发布审批
发布计划管理
版本管理
公共软件的发布管理
命令/脚本集中管理（编辑/查看/保
存）
任务的权限管理
任务手工/定时自动调用
任务执行结果查看
进程状态监控；
版本状态查询；
自动/手工重启进程；
用户分权分组管理
操作进行分类管理
记录/查看用户在公共运维平台的
所有操作

公共运维平台的拓扑图
Rnet
Dnet
IDC
ARS 服务器
编译机池
生产机
生产机
办公网
…
测试机池
…
预发布机池
…
ARS 备份服务器
……

公共运维平台定位
发布管理
任务管理
TSH
IDC
RNet
办公网
… …
……
控制以及
审计对生
产环境的
访问

发布系统： http://rtools.itil.com

腾讯大讲堂30 运维工具让你的开发运营更轻松

腾讯大讲堂30 运维工具让你的开发运营更轻松

Recommended

Recommended

More Related Content

Similar to 腾讯大讲堂30 运维工具让你的开发运营更轻松

Similar to 腾讯大讲堂30 运维工具让你的开发运营更轻松 (20)

More from George Ang

More from George Ang (20)

腾讯大讲堂30 运维工具让你的开发运营更轻松

Editor's Notes