Appendix: ZeRO stage1,2と 3の違い
DeepSpeed ZeRO
ZeRO 1, 2では通信量(Communication Volume)自体は変化していない
→ DPから冗長性だけを取り除き、メモリ使用効率を上昇させた 👍
ZeRO Stage3では通信量は1.5倍になっている。(今回は説明省略(参考: ZeRO論文))
今回紹介したのは、ZeRO-DPの機能について
ZeROとはZeRO-DPとZeRO-Rを合わせた総称であるため、これだけではない (説明略)
43
44.
Appendix: ZeROだけを利用する場合
DeepSpeed ZeRO
HuggingFaceTrainerとのIntegrationがあり簡単に使うには便利
→ 新しいモデルを試してみる用途にマッチしている (wandbのintegarationもアリ)
しかし、長期学習には向かない?(FLOPsが出にくいのでコスト増)
実装コスト vs Computation Cost
お金で解決できる場合は、Trainerクラス + ZeROでも問題ない
transformersを利用するだけで良いので楽
44