No[1][1]

976 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
976
On SlideShare
0
From Embeds
0
Number of Embeds
24
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • No[1][1]

    1. 1. 平台管理及能耗优化 何京翔 博士 EPI/DEG
    2. 2. 概述 / 定义 Platform Management Power Optimization Simplified Management <ul><li>Node level PW optimization </li></ul><ul><li>Group/rack level PW balancing </li></ul><ul><li>Datacenter level PW balancing </li></ul><ul><li>Operation monitoring </li></ul><ul><li>Remote power on/off </li></ul><ul><li>Automatically provision a rack or group of servers </li></ul><ul><li>Predicatively detect an imminent failure </li></ul><ul><li>End-of-life or re-purpose server </li></ul>Node Level PW Optimization
    3. 3. IPDC 可管理性问题的观察 <ul><ul><ul><li>太复杂 , 而且太昂贵 </li></ul></ul></ul><ul><ul><ul><li>平台管理解决方案因不同的供应商而不同 </li></ul></ul></ul><ul><ul><ul><li>目前的平台管理解决方案源自规模较小的数据中心 , 不太适用于 IPDC 环境 </li></ul></ul></ul><ul><ul><ul><li>IPDC 用户自己开发平台管理解决方案 </li></ul></ul></ul><ul><ul><ul><li>标准的管理工具并非 IPDC 用户的首选 , 通常要大幅修改 , 或完全不用 </li></ul></ul></ul><ul><ul><ul><li>尽管能耗是首要的问题之一 , 但目前的管理解决方案中能耗和热效率的管理尚缺乏 </li></ul></ul></ul>
    4. 4. IPDC 总体平台管理需求 <ul><ul><ul><li>为 IPD 环境定义一种简单实用的管理系统 </li></ul></ul></ul><ul><ul><ul><li>这个管理系统应该在费用 , 复杂度 , 和能耗等几方面价格低廉 </li></ul></ul></ul><ul><ul><ul><li>这个管理系统的实施应该通用于 OEM </li></ul></ul></ul><ul><ul><ul><li>管理一下能耗吧 , 这是非常需要的 ! </li></ul></ul></ul>
    5. 5. 简捷的 IPDC 平台管理 <ul><li>定义一个 IPDC 所必需的最小的系统管理功能接口子集的系统规范 </li></ul><ul><li>集中在平台管理的带内 ( In-Band ) 方式为主并附加最小子集的带外 ( OOB ) 方式的接口 </li></ul><ul><li>这个系统管理规范通过至少两个以上的大的 IPDC 运营商的试运行 </li></ul><ul><li>在此基础上建立 IPDC 系统管理规范的参照标准 </li></ul><ul><ul><li>通过平台供应商的审核 </li></ul></ul><ul><ul><li>具有完备的验证工具 </li></ul></ul><ul><ul><li>并具有未来平台 RFQ 所需的参考设计 </li></ul></ul>
    6. 6. 简捷的 IPDC 平台管理的基本功能
    7. 7. 远程管理实验项目 ( PoC ) (Bensley/Starlake) Server Management Console / Application Normal Operation Management Traffic Exception Management Traffic Plug-in Validation / Conformance Suite Management Application Agent OpenIPMI Library Linux IPMI Driver Validation / Conformance Suite OOB Platform <ul><li>Datacenter IPMI, e.g. </li></ul><ul><ul><li>System On/Off </li></ul></ul><ul><ul><li>Reset </li></ul></ul><ul><ul><li>Diagnose HW </li></ul></ul><ul><ul><li>Power Control </li></ul></ul>Intel Deliverable Joint Deliverable IPDC Deliverable Strawman POC OEM deliverable Consistent Commands, Parameters, Return values Consistent IPMI Cmds and params
    8. 8. 平台的能耗优化
    9. 9. 当前数据中心能耗分配的问题 <ul><li>能耗过量分配 : 通常按很少发生的最大能耗来分配电能 , 极不优化 </li></ul><ul><li>机架空间浪费 : 由于能耗过量分配所导致的结果是机架上有很多空置机位 – 能耗限额已分配完而机架尚有剩余空间 </li></ul><ul><li>能耗费用高 : 高能耗是数据中心的首要问题之一 – 40~50% 的运营费用花在电费上 , 而且还有上升的趋势 </li></ul><ul><li>数据中心产能的规划 : 缺乏在机架和整个数据中心级的实际电能消耗的实时监控一及动态调控的工具和手段 </li></ul>
    10. 10. 多层次的能耗和热效率管理 Group Power & Thermal Mgmt (Rack, Row, Room, Pod, etc.) Server Server Server BMS (Building Mgt System) 服务器节点 服务器组 数据中心 Node Manager Node Manager Node Manager Datacenter-level Management
    11. 11. 服务器节点管理 <ul><li>基本功能 : </li></ul><ul><ul><ul><li>平台能耗设置上限技术 , 在限定的能耗下最大限度的提高处理能力 </li></ul></ul></ul><ul><ul><ul><li>定义能耗管理策略性 ( 某时某刻 , 某天某月 , 等等 ) </li></ul></ul></ul><ul><ul><ul><li>报告系统能耗 / 热效率 ( 如 : 最小 / 最大 / 平均能耗 , 等等 ) </li></ul></ul></ul><ul><ul><ul><li>在系统开机和关机时 , 采用可控的能耗设置方式 </li></ul></ul></ul><ul><ul><li>使用模型 : </li></ul></ul><ul><ul><ul><li>基于平台能耗的稳定值而非最大值来分配能源 , 从而增加服务器的密度 </li></ul></ul></ul><ul><ul><ul><li>数据中心热点管理 </li></ul></ul></ul><ul><ul><ul><li>服务器机架和服务器组的能耗控制 </li></ul></ul></ul><ul><ul><ul><li>超限报警 </li></ul></ul></ul>
    12. 12. 能耗设置上限的价值 – 一个 Google 的案例 Source: “Power Provisioning for a Warehouse-sized Computer” by Luiz André Barroso, etc. Proceedings of the ACM International Symposium on Computer Architecture, San Diego, CA, June 2007
    13. 13. 数据中心之中的节点管理 处理能力 & 使用率检测 能耗传检测 控制平台内子系统能耗 (p-state) 管理策略指令 监控反馈 External mgt Systems & Tools Rack Level Aggregation & Control <ul><ul><li>我们的目标是在服务器机架额定的能耗限额之内和最小影响每个接点的处理能力的前提下 , 通过数据中心的管理策略 (management policy) 来优化服务器的密度 , 从而提高能源的利用率 </li></ul></ul>Node Level Power Optimization CMDB/ Policy DB 监控 分析 执行 autonomic control loop
    14. 14. 平台管理对您的价值 <ul><ul><ul><li>降低 TCO </li></ul></ul></ul><ul><ul><ul><ul><li>降低系统集成费用 : 简捷和通用的基本管理功能 – 独立于 OEM </li></ul></ul></ul></ul><ul><ul><ul><ul><li>降低采购费用 : 基本管理功能不需专用外加 BMC 便可获得 </li></ul></ul></ul></ul><ul><ul><ul><li>提高能源效率 </li></ul></ul></ul><ul><ul><ul><ul><li>提高服务器密度 : 不需按最大能耗来分配能源 </li></ul></ul></ul></ul><ul><ul><ul><ul><li>提高服务器机架密度 : 在给定的能耗和制冷限定下支持更多的服务器 </li></ul></ul></ul></ul>
    15. 15. 谢谢 !!!
    16. 16. Backup
    17. 17. Management Areas of focus for IPDCs <ul><li>Define 20-50 commands and a validation suite common and interesting to IPDCs, </li></ul><ul><li>Sensor Definition </li></ul><ul><ul><ul><li>Temperature </li></ul></ul></ul><ul><ul><ul><li>Fan speed </li></ul></ul></ul><ul><ul><ul><li>Power Usage </li></ul></ul></ul><ul><ul><li>System Diagnostics: </li></ul></ul><ul><ul><ul><li>Reporting of HW glitches and Diagnostics. </li></ul></ul></ul><ul><ul><li>System Control: </li></ul></ul><ul><ul><ul><li>Power Control. </li></ul></ul></ul><ul><ul><ul><li>FW Updates. </li></ul></ul></ul><ul><li>System Alerts: </li></ul><ul><ul><ul><li>Interesting system events, heat, fan speed adjustments, Power, watchdogs </li></ul></ul></ul><ul><li>SOL – </li></ul><ul><ul><ul><li>Headless BIOS configuration, diagnostics, Emergency Management Services provided by OS vendors. </li></ul></ul></ul><ul><li>Serial Support – </li></ul><ul><ul><ul><li>BMC Serial interface. </li></ul></ul></ul>
    18. 18. Node Manager Features <ul><ul><li>Maintain subsystem power limit </li></ul></ul><ul><ul><li>Maintain thermal profile </li></ul></ul><ul><ul><li>Maintain acoustic profile </li></ul></ul><ul><ul><li>Maintain priority - performance, power, thermal, acoustic </li></ul></ul><ul><ul><li>Power limit/budget policy </li></ul></ul><ul><ul><li>Temperature-based triggers </li></ul></ul><ul><ul><li>Maintain power budget </li></ul></ul><ul><ul><ul><li>OOB P and T State Control </li></ul></ul></ul><ul><ul><ul><li>Sync’d with OSPM </li></ul></ul></ul><ul><ul><li>Observe policy suspend periods </li></ul></ul>Policy-based control (Enable data center policy-based power mgt) <ul><ul><li>Platform temperature by zone </li></ul></ul><ul><ul><li>Thermal management capability </li></ul></ul><ul><ul><li>CFM (current, average) </li></ul></ul><ul><ul><li>Current noise level (decibels) </li></ul></ul><ul><ul><li>Platform & CPU subsystem power consumption </li></ul></ul><ul><ul><li>Temp monitoring </li></ul></ul><ul><ul><ul><li>Outlet/inlet air temps, delta </li></ul></ul></ul>Monitoring & Querying (Enable data center power modeling & usage planning) <ul><ul><li>Interaction with fan speed control functions </li></ul></ul><ul><ul><li>Report interesting states (e.g. “Consumption approaching budget threshold”, etc.) </li></ul></ul><ul><ul><li>Initiate shutdown </li></ul></ul>Actions, Alerts & Notifications (Enable data center automation) Future Node Manager 1.0
    19. 19. Node Manager—ACPI (OSPM)/DBS Coexistence P1 P2 P3 Node Manager OSPM Node Manager sets top of range of available P States, OSPM picks from available range Node Manager OSPM 1.6 1.87 2.13 2.4 2.67 Freq. (GHz) 62 75 89 103 120 TDP (W) 20.6 P4 22.2 P3 22.2 P2 27 P1 - P0 Clovertown (DP 4 core) (Projection) AC Power Savings (Watts) P State Processor

    ×