盛大游戏
运维体系
Agenda



         盛大游戏运维体系综述

           分子系统介绍

         游戏运维体系未来展望
Agenda



         盛大游戏运维体系综述

          分子系统介绍

         游戏运维体系展望
盛大游戏运维体系发展历程


                  可管理

       可控制
                 为了更好支持快速发展的业务,运维工作必须朝着规范
                 化、标准化、可管理的方向发展,08年起盛大也逐步引
                 入ITIL、安全标准等理念,打造盛大模式的运维体系
可操作
          随着自动化体系日益丰富,盛大开始建立报警和监控
          系统,快速准确地发现和定位故障,提高运维稳定性


  自2004年开始,随着服务器数量的快速增长,盛大着手建立
  游戏远程操作平台,使运维逐渐摆脱依赖人海战术的模式,
  提高生产效率
盛大游戏运维体系-四大主要部分


   • 服务器虚拟化                  • 盛大监控服务体
   • Octopod                   系
   • Autopatch
   • Uniweb
   • 等等
                 自动化   自动化
                  管理    监控


                 流程管   安全管
                  理     理
   • 事件管理                    • 安全审计
   • 问题管理&知识库                • 应用安全
   • 变更管理                    • 系统安全
   • 配置管理                    • 网络安全
Agenda



         盛大游戏运维体系综述

           分子系统介绍

         游戏运维体系未来展望
服务器远程操作平台--Octopod

                                                      自动化   自动化
 Octopod是盛大自主研发的服务器远                                  管理    监控



  程管理系统,系统管理员无需再服                                     流程管
                                                       理
                                                            安全管
                                                             理


  务器现场即可完成所有操作。

                       Octopod Server
                                                      远
                                                      程
  用户管理   信息管理   操作管理    补丁管理            日志管理   游戏管理
                                                      桌
                                                      面
  基础框架


                           Octopod Client
  通讯层
  基础层
服务器虚拟化软件系统

盛大积极倡导虚拟化技术的运用:        自动化   自动化
                       管理    监控

• 虚拟化软件采用了盛大自主研发的虚拟化
                       流程管   安全管
  操作系统                  理     理



• 虚拟化管理系统和盛大的服务器管理系统
  进行无缝的整合
服务器虚拟化软件系统

盛大自2007年起建设和推广服务器虚拟化软件系统,
实现了以下目标:
       •可将目前一主流台服务器虚拟成独立的多台不等的服务
  高效   器
       •极大地提高了服务器的部署效率



  节地
       •大量节约服务器数量;
       •大量节约机柜数量


  节能
       •大量节约电力
盛大游戏客户端补丁自动更新系统

盛大游戏客户端补丁自动更新系统可实现用户                                            自动化
                                                                管理
                                                                      自动化
                                                                      监控

 管理、版本管理、补丁上传下发及校验等                                             流程管   安全管

 功能。                                                             理     理




                                       ……………
                                                               DLC前台服务器组

                         传奇世界   冒险岛                   彩虹岛
                         英雄年代   泡泡堂                  热血传奇




                  任务信息                          备份             DLC后台服务器组


                                      Master           Slave
 管理系统




        Patch文件

                                               ……………           Autopatch服务器组


 SVN
盛大业务运维监控体系

盛大业务运维监控体系有针对性地对所有可                 自动化   自动化

 能影响游戏运营的因素进行全方位的监控                 管理    监控


 和数据采集、分析,目前能展示10万多条                流程管
                                     理
                                          安全管
                                           理
 再现人数和性能曲线,监控覆盖率达
 100%,报警有效率达70%以上。
        •游戏客户端质量监控
                      游戏客户端

      •游戏服务器端程序监控
                     游戏服务器端应用   游
     •系统日志的收集和分析
                                戏
                                人
                      系统程序      数
   •游戏服务器健康检查                   监
   和性能监控
   •网络设备和流量监控                   控
                     服务器、网络设备
                        硬件
   •IDC网络质量监控
   •IDC机房连通性监控
                      机房、链路
盛大业务运维监控体系


盛大业务运维监控体系的监控范围包括:
  游戏在线人数监控;
  游戏服务器端程序监控;
  游戏服务器健康检查和性能监控;
  系统日志的收集和分析;
  网络设备和流量监控;
  IDC网络质量监控;
  IDC机房连通性监控;
  其他专项业务监控
盛大业务运维监控体系

盛大业务运维监控体系的系统特点如下:
  从客户端到服务器端的完整覆盖;
  支持统一的监控策略配置和完整性检查;
  丰富的监控曲线展示界面;
  海量报警信息的有效关联和过滤;
  与ITIL事件管理紧密结合,报警自动转化为应急响
   应工作平台的事件单
  7*24小时处理。

      玩家            玩家



      玩家             玩家
运维安全体系
                                     自动化   自动化
                                     管理    监控


                                     流程管   安全管
               安全审计                   理     理



 内部用户登录审计、外部用户权限审计、内部用户操作行为审计


  应用安全          系统安全      网络安全

 •Web漏洞扫描      •补丁分发管理
 •Webshell监控   •主机访问控制   •ARP攻击测试
 •渗透性测试        •病毒扫描     •DDOS攻击防御
 •Web代码审计      •漏洞跟踪     •网络访问控制
                         •网络流量分析
运维安全-网络安全

网络安全     ARP攻击检测    DDOS攻击防御    网络访问控制     网络流量分析


 ARP攻击监控       DDOS攻击          网络访问      网络流量分析
    报警             防御           控制
 • 自研开发每3     • 千兆级抗       • 防火墙实现       • 基于Netflow自
   分钟检测一        DDOS设备                     研开发
   次            +ACL过滤常见   • 交换机ACL实     • 实施完成后通
                攻击           现             过快速分析异
                                           常流量
 • 发现攻击及      • 旁路式全局                    • 迅速定位攻击
   时上报至应        DDOS流量清                    类型及时响应
   急响应平台        洗
运维安全体系-系统安全

系统安全     补丁分发管理       主机访问控制       病毒扫描    漏洞跟踪与预警



  补丁管理        主机访问控制            病毒扫描        漏洞跟踪
• 基于Octopod   • Uinx/Linux采用   • 统一的病毒库   • 跟踪国外安全
                iptables实施控      升级策略       机构最新漏洞
• 万台服务器补        制
  丁快速分发安                       • 统一的全网病   • 跟踪黑客群体
  装与检查        • Windows采用        扫描策略       最新动向
                ipsec实施控制
                               • 统一的事件上   • 跟踪最新0day
                                 报应急响应平
                                 台策略      • 及时预警采取
                                            应对方案
运维安全体系-应用安全

应用安全   Web漏洞扫描   Webshell监控   渗透性测试   web代码审计



 Web漏洞扫描   Webshell监控         渗透性测试     网站代码审计

• 发现和消除网   • 自研开发,对       • 定期对内部系     • 通过网站上
  站安全漏洞      公司网站每小         统进行安全性       线前的代码
             时扫描一次          测试           检查机制
• 自动化工具定                  • 查找权限问题
  期扫描      • 统一的网站检       • SQL注入      • 及时处理网
             测策略          • 跨站脚本         站存在安全
                                         漏洞
           • 检测报警上报       • 及时修补安全
             应急响应平台         问题
运维安全体系-安全审计

 安全审计   内部用户登录审计   内部用户权限审计   内部用户操作行为审计



   登录审计            权限审计          操作行为审计

• 实现对服务器登录日    • 实现对用户访问服务    • 实现对windows图形
  志的审计           器权限的审计         环境屏幕录像审计
                              • 实现对Octopod操作
• 实现内部应用系统登    • 实现对用户访问内部      日志的审计
  录日志的审计         应用系统的审计      • 实现内部应用系统操
                                作行为的审计
• 审计登录中存在的异    • 审计出不合理的权限
  常的行为         • 消除安全隐患       • 审计异常和违规的操
                                作行为
运维服务管理体系
                                     自动化   自动化
随着系统、技术的日益复杂,维护水平要求的                 管理    监控


逐步提高,盛大运维团队借鉴业界最佳实践                  流程管
                                      理
                                           安全管
                                            理
ITIL的理念,从人员、流程、技术等各方面着
手,逐步提升管理能力,以有限的人力支持不
断扩展的游戏数量。

  调整组织结构,以适应业
  务和流程的需求,并实现
     量化考核

                    人员        以服务导向取代技
                                 术导向
 通过合适的技术,固化流
 程,以及提升自动化程度        服务
                              参考业界最佳实践,
                               建设规范化流程
               技术        流程
运维服务管理体系
 借鉴ITIL等业界最佳时间,技术保障中心开发实施了事件管理、问题管理、
变更管理、配置管理等流程,通过一系列平台的推广使用,配合相应管理制度、
流程的推行,使得所提供的服务日趋稳定和成熟。
 配合建立的知识库,提供了经验、技能的沉淀模式,有助于人员的培养。


                                                                  IT服务管理体系
                                                                              变更请求



                                                           报警事件   A Group    A Group 变更请求 Group
                                                                                         A
   Service Continuity Management   Information Lifecycle
                                       Management
                                                                   事件管理        问题管理        变更管理


      监控体系



                                                                             设备管理平台/          知识库
                                                            数据采集/校验          配置管理数据库
Agenda



         盛大游戏运维体系综述

           分子系统介绍

         游戏运维体系未来展望
盛大游戏运维体系框架—建设愿景
盛大游戏运维体系框架—建设重点

持续发展体系框架下的各模块:
运维自动化
   服务器自动安装
   服务器虚拟化推广
   系统软件自动安装
   应用软件自动安装和版本管理
   客户端补丁自动更新
监控自动化
  全景监控策略配置和监控展示
流程管理
  服务导向为核心,建设服务保障
  平台
THANK YOU

盛大游戏运维体系

  • 1.
  • 2.
    Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望
  • 3.
    Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系展望
  • 4.
    盛大游戏运维体系发展历程 可管理 可控制 为了更好支持快速发展的业务,运维工作必须朝着规范 化、标准化、可管理的方向发展,08年起盛大也逐步引 入ITIL、安全标准等理念,打造盛大模式的运维体系 可操作 随着自动化体系日益丰富,盛大开始建立报警和监控 系统,快速准确地发现和定位故障,提高运维稳定性 自2004年开始,随着服务器数量的快速增长,盛大着手建立 游戏远程操作平台,使运维逐渐摆脱依赖人海战术的模式, 提高生产效率
  • 5.
    盛大游戏运维体系-四大主要部分 • 服务器虚拟化 • 盛大监控服务体 • Octopod 系 • Autopatch • Uniweb • 等等 自动化 自动化 管理 监控 流程管 安全管 理 理 • 事件管理 • 安全审计 • 问题管理&知识库 • 应用安全 • 变更管理 • 系统安全 • 配置管理 • 网络安全
  • 6.
    Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望
  • 7.
    服务器远程操作平台--Octopod 自动化 自动化 Octopod是盛大自主研发的服务器远 管理 监控 程管理系统,系统管理员无需再服 流程管 理 安全管 理 务器现场即可完成所有操作。 Octopod Server 远 程 用户管理 信息管理 操作管理 补丁管理 日志管理 游戏管理 桌 面 基础框架 Octopod Client 通讯层 基础层
  • 8.
    服务器虚拟化软件系统 盛大积极倡导虚拟化技术的运用: 自动化 自动化 管理 监控 • 虚拟化软件采用了盛大自主研发的虚拟化 流程管 安全管 操作系统 理 理 • 虚拟化管理系统和盛大的服务器管理系统 进行无缝的整合
  • 9.
    服务器虚拟化软件系统 盛大自2007年起建设和推广服务器虚拟化软件系统, 实现了以下目标: •可将目前一主流台服务器虚拟成独立的多台不等的服务 高效 器 •极大地提高了服务器的部署效率 节地 •大量节约服务器数量; •大量节约机柜数量 节能 •大量节约电力
  • 10.
    盛大游戏客户端补丁自动更新系统 盛大游戏客户端补丁自动更新系统可实现用户 自动化 管理 自动化 监控 管理、版本管理、补丁上传下发及校验等 流程管 安全管 功能。 理 理 …………… DLC前台服务器组 传奇世界 冒险岛 彩虹岛 英雄年代 泡泡堂 热血传奇 任务信息 备份 DLC后台服务器组 Master Slave 管理系统 Patch文件 …………… Autopatch服务器组 SVN
  • 11.
    盛大业务运维监控体系 盛大业务运维监控体系有针对性地对所有可 自动化 自动化 能影响游戏运营的因素进行全方位的监控 管理 监控 和数据采集、分析,目前能展示10万多条 流程管 理 安全管 理 再现人数和性能曲线,监控覆盖率达 100%,报警有效率达70%以上。 •游戏客户端质量监控 游戏客户端 •游戏服务器端程序监控 游戏服务器端应用 游 •系统日志的收集和分析 戏 人 系统程序 数 •游戏服务器健康检查 监 和性能监控 •网络设备和流量监控 控 服务器、网络设备 硬件 •IDC网络质量监控 •IDC机房连通性监控 机房、链路
  • 12.
    盛大业务运维监控体系 盛大业务运维监控体系的监控范围包括:  游戏在线人数监控;  游戏服务器端程序监控;  游戏服务器健康检查和性能监控;  系统日志的收集和分析;  网络设备和流量监控;  IDC网络质量监控;  IDC机房连通性监控;  其他专项业务监控
  • 13.
    盛大业务运维监控体系 盛大业务运维监控体系的系统特点如下: 从客户端到服务器端的完整覆盖; 支持统一的监控策略配置和完整性检查; 丰富的监控曲线展示界面; 海量报警信息的有效关联和过滤; 与ITIL事件管理紧密结合,报警自动转化为应急响 应工作平台的事件单 7*24小时处理。 玩家 玩家 玩家 玩家
  • 14.
    运维安全体系 自动化 自动化 管理 监控 流程管 安全管 安全审计 理 理 内部用户登录审计、外部用户权限审计、内部用户操作行为审计 应用安全 系统安全 网络安全 •Web漏洞扫描 •补丁分发管理 •Webshell监控 •主机访问控制 •ARP攻击测试 •渗透性测试 •病毒扫描 •DDOS攻击防御 •Web代码审计 •漏洞跟踪 •网络访问控制 •网络流量分析
  • 15.
    运维安全-网络安全 网络安全 ARP攻击检测 DDOS攻击防御 网络访问控制 网络流量分析 ARP攻击监控 DDOS攻击 网络访问 网络流量分析 报警 防御 控制 • 自研开发每3 • 千兆级抗 • 防火墙实现 • 基于Netflow自 分钟检测一 DDOS设备 研开发 次 +ACL过滤常见 • 交换机ACL实 • 实施完成后通 攻击 现 过快速分析异 常流量 • 发现攻击及 • 旁路式全局 • 迅速定位攻击 时上报至应 DDOS流量清 类型及时响应 急响应平台 洗
  • 16.
    运维安全体系-系统安全 系统安全 补丁分发管理 主机访问控制 病毒扫描 漏洞跟踪与预警 补丁管理 主机访问控制 病毒扫描 漏洞跟踪 • 基于Octopod • Uinx/Linux采用 • 统一的病毒库 • 跟踪国外安全 iptables实施控 升级策略 机构最新漏洞 • 万台服务器补 制 丁快速分发安 • 统一的全网病 • 跟踪黑客群体 装与检查 • Windows采用 扫描策略 最新动向 ipsec实施控制 • 统一的事件上 • 跟踪最新0day 报应急响应平 台策略 • 及时预警采取 应对方案
  • 17.
    运维安全体系-应用安全 应用安全 Web漏洞扫描 Webshell监控 渗透性测试 web代码审计 Web漏洞扫描 Webshell监控 渗透性测试 网站代码审计 • 发现和消除网 • 自研开发,对 • 定期对内部系 • 通过网站上 站安全漏洞 公司网站每小 统进行安全性 线前的代码 时扫描一次 测试 检查机制 • 自动化工具定 • 查找权限问题 期扫描 • 统一的网站检 • SQL注入 • 及时处理网 测策略 • 跨站脚本 站存在安全 漏洞 • 检测报警上报 • 及时修补安全 应急响应平台 问题
  • 18.
    运维安全体系-安全审计 安全审计 内部用户登录审计 内部用户权限审计 内部用户操作行为审计 登录审计 权限审计 操作行为审计 • 实现对服务器登录日 • 实现对用户访问服务 • 实现对windows图形 志的审计 器权限的审计 环境屏幕录像审计 • 实现对Octopod操作 • 实现内部应用系统登 • 实现对用户访问内部 日志的审计 录日志的审计 应用系统的审计 • 实现内部应用系统操 作行为的审计 • 审计登录中存在的异 • 审计出不合理的权限 常的行为 • 消除安全隐患 • 审计异常和违规的操 作行为
  • 19.
    运维服务管理体系 自动化 自动化 随着系统、技术的日益复杂,维护水平要求的 管理 监控 逐步提高,盛大运维团队借鉴业界最佳实践 流程管 理 安全管 理 ITIL的理念,从人员、流程、技术等各方面着 手,逐步提升管理能力,以有限的人力支持不 断扩展的游戏数量。 调整组织结构,以适应业 务和流程的需求,并实现 量化考核 人员 以服务导向取代技 术导向 通过合适的技术,固化流 程,以及提升自动化程度 服务 参考业界最佳实践, 建设规范化流程 技术 流程
  • 20.
    运维服务管理体系  借鉴ITIL等业界最佳时间,技术保障中心开发实施了事件管理、问题管理、 变更管理、配置管理等流程,通过一系列平台的推广使用,配合相应管理制度、 流程的推行,使得所提供的服务日趋稳定和成熟。  配合建立的知识库,提供了经验、技能的沉淀模式,有助于人员的培养。 IT服务管理体系 变更请求 报警事件 A Group A Group 变更请求 Group A Service Continuity Management Information Lifecycle Management 事件管理 问题管理 变更管理 监控体系 设备管理平台/ 知识库 数据采集/校验 配置管理数据库
  • 21.
    Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望
  • 22.
  • 23.
    盛大游戏运维体系框架—建设重点 持续发展体系框架下的各模块: 运维自动化 服务器自动安装  服务器虚拟化推广  系统软件自动安装  应用软件自动安装和版本管理  客户端补丁自动更新 监控自动化 全景监控策略配置和监控展示 流程管理 服务导向为核心,建设服务保障 平台
  • 24.