深層学習向け
計算機クラスター MN-3
土井裕介 <doi@preferred.jp>
Corporate Officer, VP of Computing Infrastructure
Preferred Networks
自己紹介
● 2000-2016 株式会社東芝
○ 分散KVS、RFID、データ表現、無線IoT等
● 2016-現在 株式会社Preferred Networks
○ Computer Networks x Deep Learning
○ → 社内IT整備
○ → クラスタ整備
○ → 計算基盤担当VP (2019/9より)
現在の担当領域: クラスタMiddleware (kubernetes等) クラスタ調達設計 (物理基
盤含)、独自開発アクセラレータ (MN-Core)
要は計算基盤なんでも屋 (and 苦情処理係)
元々IoT寄りNetwork屋
HPCは現職でかかわり
はじめた素人
本当にいろいろやってます (組織として)
ASIC設計
熱・メカ設計
インターコネクト
基盤設計
構築
計測・運用
Agenda
● 開発動機としてのPFNのご紹介、
PFNにおける計算能力の位置付け
● MN-CoreとMN-3
● Green500と省エネルギー
PFNは何故自前でアクセラレータを
作ろうなどという野望を持ったのか?
豊富な計算資源と高度な技術を基盤に複数の事業を創出
PFNを支える技術と事業内容
Computer Vision(コンピュータビジョン) Data Analytics(データ解析)
Navigation(ナビゲーション)
Visual Inspection(外観検査)
Pose(ポーズ推定)
Scene(シーン解析)
Image Segmentation
Anomaly Detection(異常検知)
Optimization(最適化)
Time series data(時系列データ)
Infrastructure (インフラ技術)
Machine Learning and Deep Learning(機械学習と深層学習)
Manufacturing Transportation Bio & Healthcare
Personal Robot Visual Inspection Entertainment
PFN
Technology
Business
Object Detection(物体検出)
R&D
In short, do
something
great with
machine
learning
Business
in Many
Domains
要約: 計算能力が業務に必須
深層学習の要求計算量の増大
● SoTAな研究においてモデルサイ
ズは増加する傾向
○ 画像→動画/立体、画像の高
精細化
○ 言語処理モデルの大規模化
(ex. GPT-3)
● NAS (Neural Architecture Search)
○ アーキテクチャ探索の自動化
○ 人ではなく、計算能力がボトル
ネック
→ 計算力の強化 = 競争力の強化 MN-2
Accelerator for deep learning
4-die package / 500W max
Design peak performance and performance per watt:
● DP: 32.8 Tops / 0.066 Tops/W
● SP: 131 Tops / 0.26 Tops/W
● HP: 524 Tops / 1 Tops/W
計算力の自前調達に向けて
In collaboration with Prof. Makino (Kobe-U) with his team
members, and Prof. Hiraki (U-Tokyo, now he is with PFN),
MN-Core/MN-3
Giant SIMD Processor
● Single instruction stream
● Hierarchical structure with unique on-chip
network (broadcast, aggregation, etc)
● Large SRAM to accommodate weights and
filters in-place
○ programmers can/shall control EVERY memory
copy explicitly (no implicit cache)
○ Easier to predict the performance
MN-Coreの概要
基板設計
ライフサイクルコストを考慮して空冷を選択
最初の設計である、ということもあり、サイズが巨大化
(PCIe 幅4スロット分、高さ方向2スロット分を占有)
第一期
● 48 x MN-Core 計算ノード
○ 1+1/2 Zones
■ 5月のHPLの段階では40ノード
までが構築完了
○ 半精度理論ピーク: 約100Pflops
MN-3
冷気 (床面給気)
冷気 (床面給気)
Hot Isle (上部開放)
Hot Isle (上部開放)
クラスタ構成 (MN-2, MN-3)
MN-2, MN-3は同じ
場所 (JAMSTEC 地
球シミュレータ棟)
に構築
計算ノードについて
は、排熱を他の
サーバの吸気側に
回さないような配置
MN-2/3 共通基盤部
MN-2 計算ノード (64 GPU Nodes, 16 CPU Nodes)
MN-2 計算ノード (64 GPU Nodes, 16 CPU Nodes)
MN-3 計算ノード (拡張余地)
MN-3 計算ノード (48 MN-Core Nodes)
Hot Isle側は上面を開放状態
のままにし、エアフローを作っ
て排気を天井に誘導
(床面給気天井排気)
Hot Isleの両サイドはドアで閉
鎖 (アイルキャップ代わり)
開放Hot Isle
「念のための」
火災予兆検知装置
(常時監視人員不在)
MN-2のベンチマーク時
に撮影した天井面温度分
布
ゾーン区分
Leaf Switchを基準にZoneを定義 (CLOS-likeなSpine-Leaf構成)
Zone0全部とZone1を1/2構築済
社内メンバーだけではなく、パートナー企業各社様のご協力のおかげです!
艱難辛苦を乗り越えて...
Green500と省エネルギー
ミクロな視点から
● TOP500 (スーパーコンピュータの計算能力世界ランキング) の中で、処理能
力/消費電力 (GFlops/W) のランキング
○ 世界で500位以内のスパコンでないとそもそもランキングに入れない
○ ベンチマーク専用コンピュータも不可
○ 2020/06のTOP500 世界一は富岳 (理研)
● ベンチマーク (HPL)
○ 大規模な行列の解を求める
○ 分散アルゴリズムになっており、大規模な問題とすることで並列コン
ピュータの処理能力の指標を与える
Green500とは?
● スーパーコンピュータの大規模化
○ 規模をおおきくすれば解ける問題の規模がおおきくなる
■ c.f. アムダールの法則/グスタフソンの法則
○ 大規模化戦争 ⇒ コスト・電力の際限ない増大
● 計算機の電力効率の向上によるメリット
○ 地球にやさしい?
○ お財布にやさしい?
それだけではない!
実際には、電力効率こそがコンピュータの最も重要な指標である
(と、言えるかもしれない)
なぜGreen500が重要なのか?
コンピュータ (というか、それを構成するトランジスタ) の消費電力はおよそ以下に
比例する
● 電圧^2
● 周波数
消費した電力は熱になる
トランジスタは一定温度を超えると誤動作する
⇒ 冷却能力が計算機の消費電力の限界
計算機
電力
熱
データ
+プログラム
計算
結果
コンピュータの性能は、最後は熱で決まる
● 空冷
● 水冷/液冷
○ coldplate
○ 液浸
■ 対流
■ 相変化(沸騰型)
株式会社フジクラ 技報(Matsuda et.al.)より引用
https://www.fujikura.co.jp/eng/rd/gihou/backnumber/pages/__icsFiles/afieldfile/2015/04/13/44e_11.pdf
https://www.slideshare.net/techblogyahoo/kukai-2
電子機器冷却の限界
とても良さそうに見えるが ....
電力効率の決め手は液浸ではない (電力密度には重要)
トランジスタ高密度化のトレンド予測
(WikiChips予測より計算)
● 同一回路の電力比率 (TSMC
公表データより)
○ 16nm→ 10nm ~0.65
○ 10nm→ 7nm ~0.6
○ 7nm → 5nm ~0.7
● Optimistic outlook
○ 5nm → 3nm 0.7?
○ 3nm → 2nm 0.7?
○ 2nm → 1.4nm 0.75?
○ …?
Philosophy behind MN-Core Hardware (a.k.a. “Makino-ism”)
● とにかく削ぎ落として演算器を詰め込む
Push floating-point operation unit as much as possible
● 不便?柔軟性?そこはソフトで頑張ってよ
Inconvenient? Good luck, software team...
https://xtech.nikkei.com/atcl/nxt/column/18/00589/020900002/
Prof. Makino
(Kobe Univ.)
MN-Coreの思想: 計算に必要な回路のみを実装する
MN-Coreの省エネルギー性能 (カタログ性能比較)
Intel Xeon 8260 165W 1843GFlops
NVIDIA A100 400W 19.5TFlops
MN-Core 600W 32.8TFlops
計算にハードをあわせることで、
大きな効率の差が生まれる
逆もまた真?
仮説: ハードに計算にあわせること
で、
さらに大きな効率の差が生まれる
Green500
計測範囲
Green500の計測範囲
● Green500はコンピュータの
省電力性能を計測している
○ データセンターではない
○ PUE関係ない
NW
Interconnect
制御ノード
ストレージ
計算ノー
ド
閉じた
冷却系
設備側
冷却系
計測範囲
MN-3 (HPL計測範囲)
計算ノード Interconnect
L3SW
(leaf+spine)
L3SW (mgmt)
Smart PDU
冷気 (床面給気)
Hot Isle (上部開放)
160 boards (40 nodes)
Power Efficiency: 21.10GFlops/W
Rmax: 1.62e+6 GFlops
Power consumption: 76808W average
Rpeak: 3.92e+6 GFlops
41% efficiency -- note that our system is designed
for deep learning workload (not optimal for HPC
applications in general)
HPL Result
まとめ
まとめ
● 事業基盤としての深層学習/計算能力の必要性
○ 計算力を基盤とした問題解決
● MN-Core / MN-3
○ DC的には、やってることは「昔の普通」
○ あたらしいことは特にやっていない
● Green500の文脈での省電力とは?
○ 半導体の進化の方向性と熱的限界に向けた対策
○ 専用プロセッサによるシリコンの高効率利用

深層学習向け計算機クラスター MN-3