Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data Center As A Computer 5章前半

1,924 views

Published on

Published in: Technology
  • Be the first to comment

Data Center As A Computer 5章前半

  1. 1. 5章前半 Energy and Power Efficiency id:marqs 吉田晃典 2009/12/13
  2. 2. 目次 5.1 Datacenter Energy Efficiency     5.1.1 Souces of Efficiency Losses in Datacenters     5.1.2 Improving the Enegy Efficiency of Datacenters    データセンターのエネルギー効率 5.2   Measuring the Efficiency of Computing     5.2.1 Some Useful Benchmarks     5.2.2 Load vs. Efficiency    コンピューティングの効率を計測する 5.3   Energy-Proportional Computing     5.3.1 Dynamic Power Range of Energy-Proportional Machines     5.3.2 Causes of Poor Energy Proportionality     5.3.3 How to Improve Energy Proportionality エネルギーに比例したコンピューティング
  3. 3. 5.1 データセンターのエネルギー効率 • 定義 • 計算量 / 総エネルギー使用量 • Green GridのDatacenter Performance Efficiency (DCPE)によるもの → 以下この定義をDCPEと呼ぶ • 明確なメトリクスはない • データセンター全体に標準的負荷(TPC、SPEC)をか けて、その時の消費電力を測る • DCPEは実践的なメトリクスとはならないだろう o 実際のシステムが動いているDCでベンチマークをとるの は不可能 • DCPEを3つの要素に分解 o 各要素は独立に計測可能かつ最適化可能 o 次のスライドで説明 
  4. 4. DCPEを3つの要素に分解 • (a) 設備 • (b) サーバのエネルギー変換 • (c) 計算を実行している電子部品の効率
  5. 5. PUE • (a)設備 – PUE(power usage effectiveness) – ビル全体の電力消費/IT機器の電力消費 – 各装置の電力消費は計測器で計測可能 – 一般的なデータセンターのPUEは概ねしょぼい • 85%のデータセンターはPUE3.0以上 – IT機器の電力消費の2倍量を設備に使ってる • 5%が2.0くらい
  6. 6. データセンターのPUEの例
  7. 7. PUE • PUEが高いのは、複数のオーバヘッドがある から – 1. 冷却機器(chiller) • IT機器負荷の30-50% – 2. CRAC(Computer room air conditioning) • 10-30%(ファンがほとんど) – 3. UPS • 7-12% (AC-DC-AC変換) –他 • 電源、加湿装置、照明
  8. 8. PUE • うまく設計&運用されているDCはPUE2.0以 下のはず • 2011年までに最新のDCはPUE1.4とかも可 能になる • 蒸発冷却塔、空気循環、エネルギー変換ロス の現象が改善のキー
  9. 9. 5.1.1 DCにおける効率低下の要因 • 変圧器 – 115kV -> 13.2kV – 13.2kv -> 480V – どちらも0.5%以下の変換ロス 99.5% • UPS – 88%-94% – 負荷が軽い場合はもっと悪い – ロータリー式UPSは97%くらい • 低電圧(110or220V)供給用ケーブル – 1-3%のロス 97-99% – ケーブル長が長い(100mとか)ためロスが発生
  10. 10. 5.1.1 DCにおける効率低下の要因 • CRAC – ラックまで冷気を送るときのエネルギーロス • 冷気を送る • 暖気をCRACのインテークへ – 冷気と暖気がまざる • 効率低下 • 温度差分を減らす – 10℃程度の冷却水が必要 • 冷却塔の負荷をあげてる – コイルの圧縮 • 効率をさげる – 再加湿のためのエネルギー
  11. 11. 5.1.2 データセンターのエネルギー効率改善 • PUE2以上のデータセンターが多いが、改善 することは可能 – コールドアイルの温度を20℃から25-27℃から変 更する • IT機器は20℃の吸気はほとんど必要ない • 温度が高いから故障するというのは、吸気が20℃だか ら大丈夫という確証もない – 暖気の管理 • コンテナ型DCが効果的な理由のひとつ – UPSなどで高効率製品を選択 • 最近、PUE1.3以下のDCが発表された – Googleも年間PUE1.2以下DCを発表
  12. 12. Googleのコンテナ型データセンター • 2009年4月Googleは2005年に建造された コンテナ型データセンターの詳細を公開 – PUEは1.24 • 既存DCとの主な違い – 1. エアフロー管理 • 冷気と暖気がまざらない • 冷気/暖機を運ぶ経路が短いため消費エネルギーが小 – 2. コールドアイルの温度が高い • 27℃
  13. 13. Googleのコンテナ型データセンター – 3. フリークーリング • 冷却機を使わず、タワーで気化熱で冷却水を冷やす • ベルギーのDCは常時フリークーリング – 4. 各サーバに12V DCUPS(バッテリ)を設置 • 効率99.9% • 技術は既存のDCにも適用可能 – PUE1.35-1.45くらいにはなる
  14. 14. SPUE • PUEは設備のオーバーヘッド – IT機器内部の効率は考えていない • SPUE – サーバは入力電力の100%を計算に使っているわ けではない • 電源、VRM、ファン – サーバの全消費電力 / 実際の計算に使われる部品 の消費電力 = SPUE • M/B,Disk,CPU,DRAM,I/O card etc • 電源、VRM、ファンでのロスを除いた電力 • 標準化されてない – Climate Savers Computing Initiativeがやってる
  15. 15. SPUE • SPUEは1.6-1.8くらいが一般的 – 電源は80%以下 – M/BのVRMは30%近く変換ロス • 最新の(サーバの?)SPUEは1.2以下
  16. 16. TPUE • TPUE – PUE * SPUE – 平均で3.2くらい • 1W計算に使うと、2.2Wそれ以外に使われる! – PUE(1.2) * SPUE(1.2)=1.44 • 1W計算に使うと、0.44Wそれ以外に使われる • それでも70%くらいしか実際の計算につかえてない • TPUEの限界は1.25くらいといわれてる
  17. 17. 5.2 コンピューティングの効率を計測する   • (c)について無視してきた • サーバの電子部品に供給された電力の実際の うち、計算にどれだけ使われるか – 難しいが、システム設計の比較に使える – HPC分野では、エネルギー効率を計測するための 共通ベンチマークがある – インターネットサービスではまだない • ベンチマーク – Joulesort • システムの消費エネルギー計測? – SPECpower_ssj2008 • Performance to power ration
  18. 18. 5.2.1 有用なベンチマーク • SPEC power – 高負荷時より低負荷時に効率が低い – Performance per wattを10%ごとのCPU負荷 で計測可能なのが特徴 – 2つのメトリクス • perfomance(transactions/sec) to power ratio • Average system power • 11段階の負荷で計測 • 30%負荷のときの、poerformance to power rationは100%のときの半分 • 10%負荷でも100%負荷のときの半分の175Wを消費
  19. 19. 5.2.2 負荷 vs 効率
  20. 20. 負荷と効率 • 5000台のサーバの6ヶ月間平均CPU使用率 – サーバの大部分は10-50%のCPU使用率 – サーバのエネルギー効率特性とミスマッチ
  21. 21. • 負荷が軽いときは、低負荷のサーバを複数台 運用する – 負荷を少ない台数に集約して、他をアイドルにし たりしない – アイドル状態をつくるのは、アプリケーション側 で可能 • しかしソフトウェアが複雑に • データのlocalityなどに問題がある – 分散ストレージの弾力性 • 多数のノードに分配されている • 修復が速い
  22. 22. 5.2の結論 • トラフィックが少ないときは、全サーバの負 荷を下げる – 負荷を一部に集約したりはしない
  23. 23. 5.3 エネルギー比例するコンピューティング • 低負荷で大規模数で使われたときに効率が悪 い – なぜか??いまいちわからん • コンピューティングコンポーネンツのゴール として、エネルギー比例があるべき – アイドル時:ほとんど電力消費しない – 負荷が増えるにつれて、電力消費が増える – 負荷と消費電力の線形性 • しかし、線形性はエネルギー効率と最適関係 にあるわけではない – 図5.5によると高負荷になるサーバは少ない – 高負荷時に効率が悪くなってもOK
  24. 24. • 既存のサーバよりエネルギー効率のよいシス テム(仮説) – 赤線
  25. 25. • 赤 既存サーバ • 緑 normalized • 青 負荷が低いときに効率がいい
  26. 26. • Fanらによってエネルギー比例による利益が 検証された – エネルギー効率のよいサーバとそうでないサーバ を用いて、6ヶ月、1000台のサーバでシミュレー ションしたときの結果を比較 – 使用電力は半分になった
  27. 27. 5.3.1 • エネルギー効率のよいマシンはパワーレンジ が動的 • 例 – 人間は普段は120W消費 – 休憩中は70W – 瞬間的には1kw、アスリートは2kw
  28. 28. エネルギー比例がよくない原因 • サーバの消費電力のうち60%をCPU • 最近は50%以下 • 最近CPUはエネルギー効率を意識して開発さ れてる • 図5.8はGoogleサーバーの最近のアイドルか ら負荷時の電力消費比率 – CPUはピーク時50% – アイドル時は30% – サーバCPUのダイナミックパワーレンジは3倍 • モバイル用のCPUはもっと大きい – ディスクやメモリ、スイッチのダイナミックパワ ーレンジが低い → CPU以外もがんばらな
  29. 29. 5.3.3どうやってエネルギー比例を改善するか? • 各コンポーネントのダイナミックパワーレン ジを改善する • 改善以外にイノベーションが必要 –例 • ディスクはプラッタを回すのにエネルギーをつかって る たぶん70%以上 • RPMをへらしたり、ヘッドを増やしたり • 電子部品だけではなく、WSC全体でエネル ギー比例を改善する必要あり

×