More Related Content
Similar to 分散学習のあれこれ~データパラレルからモデルパラレルまで~ (20)
分散学習のあれこれ~データパラレルからモデルパラレルまで~
- 11. ⚫ データパラレル
Pros
✓ 速度向上!
Cons
◼ mini-batchsize増加による精度の悪化
⚫ モデルパラレル
Pros
✓ 1GPUでは載りきらず訓練出来なかったモデルの訓練が
可能になる!
Cons
◼ 場合によっては訓練速度が低下する[1]
◼ かなり実装がややこしく、超簡単なラッパーがほぼない
分散学習とは?
11
- 40. ⚫ マルチGPUにおけるBatch Normalization
Batch Normalizationはバッチ数ごとの平均や分散を計算し
て正規化を行う処理である
しかしデータパラレルではどうだろうか?
→各GPUにデータがばらばらに割り振られているため、各
GPUが計算する平均や分散が変わってしまう
各GPUのデータを引っ張ってきて総ミニバッチを用いた
Batch Normalizationを行う
これは非常に簡単!(公式実装に感謝!)
おまけ
40
- 47. 1.Parallel Convolution,” https://github.com/chainer/chainer/tree/master/example
s/chainermn/parallel_convolution”
2.Don’t Decay the Learning Rate, Increase the Batch Size,” https://openrevi
ew.net/pdf?id=B1Yy1BxCZ”
3.Scaling SGD Batch Size to 32K for ImageNet Training,” https://www2.eecs.b
erkeley.edu/Pubs/TechRpts/2017/EECS-2017-156.pdf”
4.Preferred Networks、深層学習の学習速度において世界最速を実現,” https://ww
w.preferred-networks.jp/ja/news/pr20171110”
5.世界最高速を達成!ディープラーニングの高速化技術を開発,” https://pr.fujitsu.co
m/jp/news/2019/04/1.html”
6.Model Parallel on ChainerMN,” https://docs.chainer.org/en/stable/chainermn/
model_parallel/model_parallel_on_chainermn.html”
7.分散学習基礎講座,https://www.cc.u-tokyo.ac.jp/events/lectures/111/20190124-1.p
df
8.分散深層学習パッケージ ChainerMN 公開,” https://research.preferred.jp/2017/0
5/chainermn-beta-release/”
9.BEYOND DATA AND MODEL PARALLELISM FOR DEEP NEURAL NETWORK
S, “https://www.sysml.cc/doc/2019/16.pdf”
10.東工大 第1回 ディープラーニング分散学習ハッカソン Optuna資料リンク集”
https://gist.github.com/toshihikoyanase/e7a2b2635fddfda91064e2e21a106987”
参考文献
47