More Related Content
More from Preferred Networks (20)
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
- 2. 2
薮内 秀仁 (YABUUCHI Hidehito)
● 2020/04 入社
● Cluster Services チーム
○ オンプレ計算機クラスタを始めとした
社内の計算基盤を研究者・開発者が
使えるようサービス化
● 最近の仕事
○ クラスタのリソース利用率の向上
○ 社内 CI 基盤の刷新
自己紹介
- 3. 3
● Preferred Networks (PFN) 会社概要
● PFN のオンプレミス計算機クラスタの概要
● クラスタ開発・運用に関するトピック
本日お話しする内容
PFN のクラスタ開発・運用のおもしろさを
お伝えできればと思います!
- 5. 5
現実世界を計算可能にする
Make the real world computable
深層学習などの最先端技術を最短路で実用化する
ことで、これまで解決が困難だった現実世界の課
題を解決することを目指しています
Preferred Networks (PFN)
ビジョン
- 11. 11
● コストを気にせず大規模な計算をしたい
○ 計算力が PFN の競争力の源泉
○ 1,000 GPU 年超でデータセットを作成した例:
PFN blog: 材料探索のためのユニバーサルなニューラルネットワークポテンシャル
● 計算基盤すべてをコントロールしたい
○ ノード内・ノード間通信、ストレージを含むすべてを最適化
● 上から下まで(ハードもソフトも人も)保有することの重要性
○ 設計・調達からアルゴリズムまで、さまざまな技術バックグラウ
ンドを持つメンバーが集結することで新しいものを生み出す
なぜクラウドではなくオンプレなのか?
- 12. 12
計算クラスタ
36 cores
384 GB
V100 x 8
100 GbE x 4
128 nodes
MN-2a
48 cores
384 GB
MN-Core x 4
100 GbE x 4
48 nodes
MN-3
128 cores
1,024 GB
A100 x 4
100 GbE x 2
42 nodes
MN-2b
80 cores
512 GB
A30 x 6
100 GbE x 2
42 nodes
Icons by https://icons8.com
ユーザからは単一のクラスタとしてシームレスに利用可能
最新世代の GPU を搭載
- 27. 27
監視と自動修復
Servers icon by https://icons8.com
自己診断
修復処理
監視 Issue 作成 通知
調査・修復処理
監視システム
pfnet-research/node-operation-controller
pfnet-research/alertmanaget-to-github
- 29. 29
● 計算基盤関連のポジション
○ 大規模計算基盤リサーチャー・エンジニア
○ 機械学習プラットフォームエンジニア
● こんな環境にワクワクするかたを募集しています!
○ 日進月歩で進化している機械学習にフォーカスした計算技術を低レイヤーから高レ
イヤーまでトータルに吸収できる
○ 大規模な機械学習クラスタの開発・運用が経験できる
○ Kubernetes を始めとする OSS コミュニティでも活躍できるチャンスがある
○ HPC と Cloud Native の境界領域というますます重要になる分野の経験ができる
○ 多様な要求・ユーザーリテラシをサポートするプラットフォーム設計を経験できる
We’re Hiring! 他にも様々なポジ
ションがあります!
毎年夏にインターン
もあります!
- 30. 30
● 発表資料
○ 続・PFN のオンプレ ML 基盤の取り組み
(オンプレML基盤 on Kubernetes #2 〜PFN、ヤフー〜)
○ PFN のオンプレ ML 基盤の取り組み
(オンプレML基盤 on Kubernetes #1 〜PFN、ヤフー〜)
○ PFN の ML / DL 基盤を支える Kubernetes における自動化
(DevOpsDays Tokyo 2021)
○ How to Schedule Machine Learning Workloads Nicely In Kubernetes
(CNDT 2020)
We’re Hiring!
カジュアル面談希望の連絡お待ちしています!
大村 ( @everpeace) までお気軽にどうぞ!