AIを支える
GPUサーバ用DC構築記
2023/06/28
知念洋樹
1
アジェンダ
2
1. CAはAIに本気!
2. AIを支えるDataCenterに潜入
3. AIを支えるGPUサーバの紹介
4. AIを支えるNW技術の紹介
5. さいごに
自己紹介
知念 洋樹 Hiroki Chinen
● 担当:HW・Storageの選定、構築、運用
○ PureStorageの管理人
○ DCチームリーダー
● 人生の目標
○ 世界を股に掛けるエンジニアになる
● 趣味
○ ドライブ
○ アマチュア無線(JJ1PZY)、BCL
● 一言
○ 電波の話しできる方いらっしゃいますか?
○ 痩せたい(目標: -15kg)
○ 新しい車物色中
3
1 | CAはAIに本気!
4
5
出典:https://www.cyberagent.co.jp/news/detail/id=28484
6
出典:https://www.cyberagent.co.jp/news/detail/id=28817
2 | AIを支えるDataCenterに潜入
7
AIを支えるDataCenterに潜入
8
AIを支えるDataCenterに潜入
9
サーバ1台の最大消費電力:2.9kVA
搭載台数:9台
1ラックの最大消費電力:26.1kVA
サーバ1台の最大消費電力:
1人暮らしの家1軒分
1ラックの消費電力:
家族暮らしの家4軒分以上
何かに例えると?
※ただし、ブレーカが落ちる電力量とする
3 | AIを支えるGPUサーバの紹介
10
AIを支えるGPUサーバの紹介
● 最新のGPUサーバ(H100 Tensorコア搭載)
11
NVIDIA H100 Tensor コア
NVIDIA H100 Tensor コア搭載サーバ
4 | AIを支えるNW技術の紹介
12
AIを支えるNW技術の紹介
● 超高速なインターコネクト (400GbE, RoCEv2)
13
400G Transceiver
ConnectX-7 400G NIC
400G Switch
5 | さいごに
14
さいごに
● キーワードだけでも覚えていってください
○ NVIDIA, GPU, H100, NVLink, NVSwitch
○ RDMA, RoCEv2, GPU Direct
○ ConnectX-7, 400GbE, QSFP-DD, OSFP,
Adaptive Routing
15

AIを支えるGPUサーバ用DC構築記