More Related Content
PPTX
PDF
PDF
PPTX
PPTX
PDF
Google Cloud AI の紹介 @ GCPUG Nara #03 PDF
PDF
What's hot
PPTX
PDF
Developer summit 2015 gcp PPTX
PDF
Kubernetes & Google Container Engine; DockerコンテナをGKEでクラスタリングしてみた PPTX
Client Side Balzorでツールを作ってみた PDF
10分でわかる Cilium と XDP / BPF PDF
PPTX
PDF
buddyのユーザ認証周りのデータ構造 - 使われているデータの取り回しについてのお話 PDF
6 月 18 日 Next - Kubernetes のコンテナ技術ですべてをシンプルに PDF
PDF
PDF
PDF
20170819 ocd-l tthon-pgdev PPTX
PPTX
PDF
PDF
Google Cloud Platform は何がすごいのか? PDF
PDF
Infra: Kubernetes and GKE, Network Similar to Ohs#7 学習API
PPTX
Lecuture on Deep Learning API PDF
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19) PDF
2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境 PDF
PDF
【A-1】AIを支えるGPUコンピューティングの今 PDF
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~ PDF
mdx MaaS: 学術クラウド基盤 mdx におけるスケーラブルな AI 推論基盤 KEY
PDF
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015) PDF
GPU と PYTHON と、それから最近の NVIDIA PDF
Introduction to Chainer (LL Ring Recursive) PPTX
2012 1203-researchers-cafe PPTX
Azure Machine Learning Services 概要 - 2019年2月版 PDF
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送 PDF
PDF
PPTX
ChainerでDeep Learningを試すために必要なこと PDF
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる Intel編 PDF
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~ PDF
Ohs#7 学習API
- 1.
- 2.
学習API
• REST APIによる学習の実施
•2タイプのタスクを想定
• 「バッチタスク」: バッチ形式で学習を実施する場合
• 「サービスタスク」: - 対話環境(Jupyter Notebook)で小規模の学習
- 推論サービスのデプロイ
バッチタスク
(ユースケース)
大規模な学習, 複数人環境での学習の実施
サービスタスク
(ユースケース)
実験的な学習や学習結果を用いた推論サービスのデプロイ
タスク
定義
- 3.
前回お話したこと
1. 環境がバリエーションが多い
• CUDA,cuDNN, DLフレームワークの組み合わせ分の環境を用意する
→ 様々環境を使ってみたいという要望に対応するため
2. GPUリソースの管理が必要
• ジョブ管理
• リソース管理
CUDA7.5
cuDNN4
Caffe
CUDA8.0
cuDNN4
Caffe
CUDA7.5
cuDNN5
Caffe
CUDA8.0
cuDNN5
Caffe
CUDA7.5
cuDNN4
Chainer
CUDA8.0
cuDNN4
Chainer
CUDA7.5
cuDNN5
Chainer
...
使われなさそうな環境も用意しておく必要がある 排他など多重実行を抑制する
高頻度!低頻度...
- 4.
- 5.
- 6.
- 7.
- 8.
Apache Mesos
タスク
タイプ
Framework 特徴ライセンス Docker対応 GPU指定
対応
バッチ
Chronos
- Cronを設定可能
- Docker対応 Apache License v2 ○ ×
Metronome
- Chronosの後継といわれてい
る
Apache License v2 ○ ×
Jenkins
- Mesos-Pluginがある
Apache License v2 ○ ×
JobServer
- 無料版と商用版がある
GramdLogic × ×
GoDocker
- Docker上でバッチ/インタラクティ
ブな実行可能
IRISA ○ △
Cook
- Sparkもサポートしている
バッチスケジューラ Apache License v2 △ ○
retz
- ノーチラステクノロジーさん
製のバッチフレームワーク Apache License v2 ○ ○
サービス
Apahce
Aurora
- Docker Swarmに統合予定
- Cronも可能
Apache License v2 ○ ○
Marathon
- サービスに特化した
Framework
- 開発は活発
Apache License v2 ○ ○
Singularity
- 開発は活発
- バッチも可能
Apache License v2 ○ ×
Ref)
Apache Mesos Framework
Entering Into The Docker World: A Hitch-Hikers Guide To Clustering
• 下記のFrameworkは未評価。実現できるものもあるかも。
- 9.
PBS Professional
• PBSProfessionalについて
• CAE分野で多くの実績(社内で利用しているエンジニアが多い)
• 今年6月からOSS版がリリースされた
• 実現性の確認
GPUの指定が可能か?
社内で事例あり
Dockerを利用可能か?
フックスクリプトでDockerコンテナの起動およびコンテナにジョブ投入、コンテナの削除を実行
/homeをコンテナにマウント
実行ユーザ権限でDockerコンテナを起動
Masterノード Agentノード
PBS
Server
PBS
MoM
execjob_launch
execjob_end
1. コンテナを起動
2. ジョブ実行
3. コンテナを削除
REST
API
機能
- 10.
- 11.
PBS Professional
• 現時点の妥協点...
•DockerコンテナへのGPUリソース割当はNvidia-Dockerを利用
• Nvidia-DockerはisolationするGPUの指定が必要
• ngpusではGPUをどのGPUを利用すべきか指針がない
⇒割り当てるGPUを明に指定させる
• ユーザはどのようなGPUがあるかを取得
• どのGPUにジョブを投入するかを指定
$ nvidia-docker run -ti caffe /bin/bash # 全GPUをコンテナに見せる
$ NV_GPU=‘0,1’ nvidia-docker run -ti caffe /bin/bash # GPU 0, 1のみDockerコンテナに見せる
PBS
MoM
execjob_launch
execjob_end
1-1. コンテナを起動
2. ジョブ実行
3. コンテナを削除
gpu_id: gpu0
1-2. GPUを割当
- 12.
- 13.