Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

激アツ!GPUパワーとインフラの戦い

2,268 views

Published on

6/13にYahoo! JAPAN本社でNVIDIA社と合同セミナーを開催いたしました。そこでIDCFが運用するGPUインフラの裏話をさせていただきました。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

激アツ!GPUパワーとインフラの戦い

  1. 1. IDC Frontier Inc. All rights reserved. 激アツ! GPUパワーとインフラの戦い 株式会社IDCフロンティア 菊石 謙介 2017年6月13日
  2. 2. 2 IDC Frontier Inc. All rights reserved. GPUのインフラ運用は結構大変!
  3. 3. 3 IDC Frontier Inc. All rights reserved. 株式会社IDCフロンティア 菊石 謙介 技術開発本部 インフラ開発部 部長 2010年から約6年にわたりクラウドサービスのインフラを担当 製品選定・導入を実施。今も継続中。 直近ではIDCFクラウド GPU Boost typeを企画・導入
  4. 4. 4 IDC Frontier Inc. All rights reserved. IDCフロンティア Yahoo! JAPANグループで 主にデータセンターや IDCFクラウドや プライベートクラウドなど ITインフラの提供を行って おります 【データセンター】 国内9拠点のデータセンター群 【クラウド IaaS】 東日本リージョン/西日本リージョン
  5. 5. 5 IDC Frontier Inc. All rights reserved. 白河データセンター IDCフロンティアの大規模データセンター 北九州データセンター 白河データセンター サーバ収容キャパシティ約25万台の規模で全国展開
  6. 6. 6 IDC Frontier Inc. All rights reserved. データセンター内 ラックの収容設計は? IDCF公式
  7. 7. 7 IDC Frontier Inc. All rights reserved. IDCFのラック標準性能 CPUのみのサーバ向けが標準性能 ■規格 : 19inchラック ■サイズ: W600×D1200×H2300(mm) ■ユニット数 : 49U or 50U ■空調性能 8kW ■搭載質量 : 800kg
  8. 8. 8 IDC Frontier Inc. All rights reserved. GPUサーバを搭載すると 空調性能(8kW)がボトルネック DGX1だと4台搭載できるかどうか 12Uしか使えない 37Uがデッドスペース 49Uラック NVIDIA DGX1 Tesla P100 x 8 250w x 8 =2kW
  9. 9. 9 IDC Frontier Inc. All rights reserved. IDCFでは 通常のCPUクラウドサーバとGPUクラウドサーバ を混載することでスペースを有効活用 GPUサーバ 16U(2Ux8台) CPUサーバ 16U(1Ux16台) NWスイッチ 7U GPUの熱を逃がすためにラックの上部に設置するとかも考慮してたりします。。
  10. 10. 10 IDC Frontier Inc. All rights reserved. でも理想は、、、 ラック全部を GPUで埋めたい!! (36kW/ラック)
  11. 11. 11 IDC Frontier Inc. All rights reserved. 空 調 空 調 GPU 局所空調での検証実験中 シミュレーション上は 45kW~50kWまで冷却可能 今後データセンター全体の設計に反映させていく必要あり
  12. 12. 12 IDC Frontier Inc. All rights reserved. GPUサーバの排気が DCのエアフローに影響?
  13. 13. 13 IDC Frontier Inc. All rights reserved. ラックA ラックB A吸気 B吸気A排気 B排気 ホット コールドコールド 通常のエアフロー Cold Aisle Cold AisleCold Aisle Cold Aisle Cold AisleCold Aisle Hot AisleHot Aisle Hot AisleHot Aisle Hot Chamber Chimney ChimneyChimney Machine room Machine room Machine room 排気 排気排気 白河データセンターのエアフロー設計
  14. 14. 14 IDC Frontier Inc. All rights reserved. GPU搭載サーバのファン性能 サーバ搭載用のTESLAシリーズは サーバ内のファンで吸気し GPU自体を冷やす設計 回転数 16,500 RPM X6 個 回転数 20,500 RPM x6 個 GPU搭載時は回転数の高いファンに 交換する必要がある
  15. 15. 15 IDC Frontier Inc. All rights reserved. ラックA ラックB A吸気 B吸気A排気 B排気 ホット コールドコールド A吸気 B吸気A排気 B排気 ホット コールドコールド GPUサーバ SW サーバ 通常のエアフロー 現在のエアフロー ①ラックAのGPUサーバの排気風量が強いため、ホットアイルを横断してラックBの排気面まで侵 入ラックBにあるサーバの排気がラックAのGPUサーバの排気風量に負けて逆流 ②ラックBのスイッチやケーブル配線スペースの隙間から逆流した暖気をラックBのサーバが吸気 ③熱い空気を吸って内部センサーで温度異常検知。サーバー停止にいたる →様々な方法を検討し、エアフローを制御
  16. 16. 16 IDC Frontier Inc. All rights reserved. もはやラック内だけで対策は不可能 データセンター全体を コントロールしなければ
  17. 17. 17 IDC Frontier Inc. All rights reserved. GPUインフラで悩む前に IDCフロンティアにご相談ください
  18. 18. 18 IDC Frontier Inc. All rights reserved.
  19. 19. 19 IDC Frontier Inc. All rights reserved. ご静聴ありがとうございました。 IDCフロンティアを今後ともよろしくお願い致します。

×