IDC Frontier Inc. All rights reserved.
激アツ!
GPUパワーとインフラの戦い
株式会社IDCフロンティア
菊石 謙介
2017年6月13日
2
IDC Frontier Inc. All rights reserved.
GPUのインフラ運用は結構大変!
3
IDC Frontier Inc. All rights reserved.
株式会社IDCフロンティア
菊石 謙介
技術開発本部 インフラ開発部 部長
2010年から約6年にわたりクラウドサービスのインフラを担当
製品選定・導入を実施。今も継続中。
直近ではIDCFクラウド GPU Boost typeを企画・導入
4
IDC Frontier Inc. All rights reserved.
IDCフロンティア
Yahoo! JAPANグループで
主にデータセンターや
IDCFクラウドや
プライベートクラウドなど
ITインフラの提供を行って
おります
【データセンター】
国内9拠点のデータセンター群
【クラウド IaaS】
東日本リージョン/西日本リージョン
5
IDC Frontier Inc. All rights reserved.
白河データセンター
IDCフロンティアの大規模データセンター
北九州データセンター
白河データセンター
サーバ収容キャパシティ約25万台の規模で全国展開
6
IDC Frontier Inc. All rights reserved.
データセンター内
ラックの収容設計は?
IDCF公式
7
IDC Frontier Inc. All rights reserved.
IDCFのラック標準性能
CPUのみのサーバ向けが標準性能
■規格 : 19inchラック
■サイズ:
W600×D1200×H2300(mm)
■ユニット数 : 49U or 50U
■空調性能 8kW
■搭載質量 : 800kg
8
IDC Frontier Inc. All rights reserved.
GPUサーバを搭載すると
空調性能(8kW)がボトルネック
DGX1だと4台搭載できるかどうか
12Uしか使えない
37Uがデッドスペース
49Uラック
NVIDIA DGX1
Tesla P100 x 8
250w x 8 =2kW
9
IDC Frontier Inc. All rights reserved.
IDCFでは
通常のCPUクラウドサーバとGPUクラウドサーバ
を混載することでスペースを有効活用
GPUサーバ 16U(2Ux8台)
CPUサーバ 16U(1Ux16台)
NWスイッチ 7U
GPUの熱を逃がすためにラックの上部に設置するとかも考慮してたりします。。
10
IDC Frontier Inc. All rights reserved.
でも理想は、、、
ラック全部を
GPUで埋めたい!!
(36kW/ラック)
11
IDC Frontier Inc. All rights reserved.
空
調
空
調
GPU
局所空調での検証実験中
シミュレーション上は
45kW~50kWまで冷却可能
今後データセンター全体の設計に反映させていく必要あり
12
IDC Frontier Inc. All rights reserved.
GPUサーバの排気が
DCのエアフローに影響?
13
IDC Frontier Inc. All rights reserved.
ラックA ラックB
A吸気 B吸気A排気 B排気
ホット コールドコールド
通常のエアフロー
Cold Aisle Cold AisleCold Aisle
Cold Aisle Cold AisleCold Aisle
Hot AisleHot Aisle
Hot AisleHot Aisle
Hot Chamber
Chimney ChimneyChimney
Machine room Machine room Machine room
排気
排気排気
白河データセンターのエアフロー設計
14
IDC Frontier Inc. All rights reserved.
GPU搭載サーバのファン性能
サーバ搭載用のTESLAシリーズは
サーバ内のファンで吸気し
GPU自体を冷やす設計
回転数 16,500 RPM
X6 個
回転数 20,500 RPM
x6 個
GPU搭載時は回転数の高いファンに
交換する必要がある
15
IDC Frontier Inc. All rights reserved.
ラックA ラックB
A吸気 B吸気A排気 B排気
ホット コールドコールド
A吸気 B吸気A排気 B排気
ホット コールドコールド
GPUサーバ SW
サーバ
通常のエアフロー
現在のエアフロー
①ラックAのGPUサーバの排気風量が強いため、ホットアイルを横断してラックBの排気面まで侵
入ラックBにあるサーバの排気がラックAのGPUサーバの排気風量に負けて逆流
②ラックBのスイッチやケーブル配線スペースの隙間から逆流した暖気をラックBのサーバが吸気
③熱い空気を吸って内部センサーで温度異常検知。サーバー停止にいたる
→様々な方法を検討し、エアフローを制御
16
IDC Frontier Inc. All rights reserved.
もはやラック内だけで対策は不可能
データセンター全体を
コントロールしなければ
17
IDC Frontier Inc. All rights reserved.
GPUインフラで悩む前に
IDCフロンティアにご相談ください
18
IDC Frontier Inc. All rights reserved.
19
IDC Frontier Inc. All rights reserved.
ご静聴ありがとうございました。
IDCフロンティアを今後ともよろしくお願い致します。

激アツ!GPUパワーとインフラの戦い

  • 1.
    IDC Frontier Inc.All rights reserved. 激アツ! GPUパワーとインフラの戦い 株式会社IDCフロンティア 菊石 謙介 2017年6月13日
  • 2.
    2 IDC Frontier Inc.All rights reserved. GPUのインフラ運用は結構大変!
  • 3.
    3 IDC Frontier Inc.All rights reserved. 株式会社IDCフロンティア 菊石 謙介 技術開発本部 インフラ開発部 部長 2010年から約6年にわたりクラウドサービスのインフラを担当 製品選定・導入を実施。今も継続中。 直近ではIDCFクラウド GPU Boost typeを企画・導入
  • 4.
    4 IDC Frontier Inc.All rights reserved. IDCフロンティア Yahoo! JAPANグループで 主にデータセンターや IDCFクラウドや プライベートクラウドなど ITインフラの提供を行って おります 【データセンター】 国内9拠点のデータセンター群 【クラウド IaaS】 東日本リージョン/西日本リージョン
  • 5.
    5 IDC Frontier Inc.All rights reserved. 白河データセンター IDCフロンティアの大規模データセンター 北九州データセンター 白河データセンター サーバ収容キャパシティ約25万台の規模で全国展開
  • 6.
    6 IDC Frontier Inc.All rights reserved. データセンター内 ラックの収容設計は? IDCF公式
  • 7.
    7 IDC Frontier Inc.All rights reserved. IDCFのラック標準性能 CPUのみのサーバ向けが標準性能 ■規格 : 19inchラック ■サイズ: W600×D1200×H2300(mm) ■ユニット数 : 49U or 50U ■空調性能 8kW ■搭載質量 : 800kg
  • 8.
    8 IDC Frontier Inc.All rights reserved. GPUサーバを搭載すると 空調性能(8kW)がボトルネック DGX1だと4台搭載できるかどうか 12Uしか使えない 37Uがデッドスペース 49Uラック NVIDIA DGX1 Tesla P100 x 8 250w x 8 =2kW
  • 9.
    9 IDC Frontier Inc.All rights reserved. IDCFでは 通常のCPUクラウドサーバとGPUクラウドサーバ を混載することでスペースを有効活用 GPUサーバ 16U(2Ux8台) CPUサーバ 16U(1Ux16台) NWスイッチ 7U GPUの熱を逃がすためにラックの上部に設置するとかも考慮してたりします。。
  • 10.
    10 IDC Frontier Inc.All rights reserved. でも理想は、、、 ラック全部を GPUで埋めたい!! (36kW/ラック)
  • 11.
    11 IDC Frontier Inc.All rights reserved. 空 調 空 調 GPU 局所空調での検証実験中 シミュレーション上は 45kW~50kWまで冷却可能 今後データセンター全体の設計に反映させていく必要あり
  • 12.
    12 IDC Frontier Inc.All rights reserved. GPUサーバの排気が DCのエアフローに影響?
  • 13.
    13 IDC Frontier Inc.All rights reserved. ラックA ラックB A吸気 B吸気A排気 B排気 ホット コールドコールド 通常のエアフロー Cold Aisle Cold AisleCold Aisle Cold Aisle Cold AisleCold Aisle Hot AisleHot Aisle Hot AisleHot Aisle Hot Chamber Chimney ChimneyChimney Machine room Machine room Machine room 排気 排気排気 白河データセンターのエアフロー設計
  • 14.
    14 IDC Frontier Inc.All rights reserved. GPU搭載サーバのファン性能 サーバ搭載用のTESLAシリーズは サーバ内のファンで吸気し GPU自体を冷やす設計 回転数 16,500 RPM X6 個 回転数 20,500 RPM x6 個 GPU搭載時は回転数の高いファンに 交換する必要がある
  • 15.
    15 IDC Frontier Inc.All rights reserved. ラックA ラックB A吸気 B吸気A排気 B排気 ホット コールドコールド A吸気 B吸気A排気 B排気 ホット コールドコールド GPUサーバ SW サーバ 通常のエアフロー 現在のエアフロー ①ラックAのGPUサーバの排気風量が強いため、ホットアイルを横断してラックBの排気面まで侵 入ラックBにあるサーバの排気がラックAのGPUサーバの排気風量に負けて逆流 ②ラックBのスイッチやケーブル配線スペースの隙間から逆流した暖気をラックBのサーバが吸気 ③熱い空気を吸って内部センサーで温度異常検知。サーバー停止にいたる →様々な方法を検討し、エアフローを制御
  • 16.
    16 IDC Frontier Inc.All rights reserved. もはやラック内だけで対策は不可能 データセンター全体を コントロールしなければ
  • 17.
    17 IDC Frontier Inc.All rights reserved. GPUインフラで悩む前に IDCフロンティアにご相談ください
  • 18.
    18 IDC Frontier Inc.All rights reserved.
  • 19.
    19 IDC Frontier Inc.All rights reserved. ご静聴ありがとうございました。 IDCフロンティアを今後ともよろしくお願い致します。

Editor's Notes

  • #2  ----- 会議メモ (16/11/06 22:31) ----- VSANで実現するオールフラッシュIDCFプライベートクラウドと題して 当社サービスにVSANを導入した過程についてお話しさせていただきます。 よろしくお願いします。
  • #3  ----- 会議メモ (16/11/06 22:31) ----- アジェンダはこのようなかたちで進めさせていただきます。
  • #4  ----- 会議メモ (16/11/06 22:31) ----- 私自身の簡単な紹介ですが 2010年のクラウドサービス立ち上げ当初からクラウドのインフラを担当しておりまして 製品選定から導入・運用まで実施してきました。 いまも同じことをやってます。
  • #5  ----- 会議メモ (16/11/06 22:31) ----- 当社のことをどのくらいご存知の方がいらっしゃるかわかりませんが IDCフロンティアはヤフージャパンの子会社で おもにデータセンターやクラウドサービスを中心にITインフラサービスを提供しています。 データセンターはこちらの写真にあるとおり、わりと大規模で展開しておりまして 国内9拠点に大規模なデータセンター設備を持ってサービス提供しています。 またクラウドサービスについてはこちらにあるIDCFクラウドをメインとして VMWare基盤を使って国内パブリッククラウド事業者としてがんばっております。