Successfully reported this slideshow.
Your SlideShare is downloading. ×

【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 30 Ad
Advertisement

More Related Content

More from Deep Learning JP (20)

Recently uploaded (20)

Advertisement

【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES

  1. 1. DEEP LEARNING JP [DL Papers] “GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES” 発表者:岩澤有祐 http://deeplearning.jp/
  2. 2. “Git Re-Basin: Merging Models Modulo Permutation Symmetries” , ICLR 2023 Under review 書誌情報 2 • 著者:Samuel K. Ainsworth, Jonathan Hayase, Siddhartha Srinivasa (University of Washington) • 概要 – なぜSGDが毎回同じような性能を達成するの か? – SGDで到達されるほとんどの解はPermutationを 除いて Linear Mode Connectedであるから(右図) • SGDとLMCに関連する論文として下記も簡単に紹 介 – “Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning Ticket's Mask?” ※他に断りがない限り本資料の図表は当該論文より
  3. 3. Outline • 前提知識:Linear Mode Connectivity – “Linear Mode Connectivity and the Lottery Ticket Hypothesis”,ICML2020 • “Git Re-Basin: Merging Models Modulo Permutation Symmetries” • “Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning Ticket's Mask?” 3
  4. 4. Instability, Error Barrier 4 Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋 • ある初期値W0から開始 • 異なるノイズ(サンプルの順序な ど)を加えてW0から2つの重みを 作る • W1とW2の間を線形補間したとき の 性能の劣化がError Barrierと呼ぶ
  5. 5. Barrierの実際の例 5 • 別のデータセット,別のアーキテクチャを初期値から初め て学習したときのBarrierの可視化(左はBarrierなし,右 Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋
  6. 6. Barrierの図示 6 W0 • W1とW2は間を補完しても性能が下がる点がない(同じ局所解周辺) • W1とW3は間を保管すると性能が下がる(異なる局所解周辺) => Barrierがない状況はSGDがノイズに対して頑健(同じ解周辺に到達)を W2 W3 W1
  7. 7. Linear Mode Connectivity 7 Definition: ε-Linear Mode Connected (LMC) ある2つの重み𝒘𝟏 ,𝒘𝟐が次の性質を満たすときLMCと呼 ぶ. 𝐿 𝛼𝒘𝟏 + 1 − 𝛼 𝒘𝟐 ≤ 𝛼𝐿 𝒘𝟏 + 1 − 𝛼 𝐿 𝒘𝟏 Definition: Error Barrier 上記を満たす最小のεを𝒘𝟏 ,𝒘𝟐のError Barrierと呼ぶ
  8. 8. 様々なアーキテクチャにおけるError Barrier 8 • 別のデータセット,別のアーキテクチャを初期値から初めて学習したときの Barrierの可視化 • 簡単なタスク,単純なモデルではError Barrierがほぼゼロ • ResNet等では初期値から始めるとBarrierが存在 Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋
  9. 9. RewindingとLMC 9 Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋 • 学習を最初からではなく途中からやりなおすことをRewindingと呼ぶ • 大きめのモデルでも学習の途中でError Barrierがなくなる => SGDは学習途中からは安定に同じ局所解にたどり着いている
  10. 10. Outline • 前提知識:Linear Mode Connectivity – “Linear Mode Connectivity and the Lottery Ticket Hypothesis”,ICML2020 • “Git Re-Basin: Merging Models Modulo Permutation Symmetries” • “Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning Ticket's Mask?” 10
  11. 11. Permutation symmetries of Neural Networks • NNの重みは入れ替えても機能的には不変 𝑧𝑙+1 = 𝑃𝑇 𝑃𝑧𝑙+1 = 𝑃𝑇 𝑃𝜎 𝑊𝑙𝑧𝑙 + 𝑏𝑙 = 𝑃𝑇 𝜎 𝑃𝑊𝑙𝑧𝑙 + 𝑃𝑏𝑙 • σ:活性化関数 • P:Permutation Matrix 11
  12. 12. “The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks”, arxiv, 2021 12 Conjecture “Most SGD solution belong to a set whose elements can be permuted so that no barrier exists on linear interpolation between any two permuted elements” 図は“The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks”より抜粋
  13. 13. 参考:# Permutation Symmetries 13 “Git Re-Basin: Merging Models Modulo Permutation Symmetries”より抜粋 • 取りうるPermutation Symmetriesは膨大(前述の予測の厳密な検証は困 難)
  14. 14. Permutation Selection Method • 方法1:Matching Activations – データが必要だがSolverがある • 方法2:Matching Weights – データは必要ないが素朴には解けないので層ごとに行う • 方法3:Straight Through Estimator Matching 14
  15. 15. Permutation後のError Barrier 15 • 4つのデータ,モデルでの検証(ザックリ右に行くほど難しい) – 右2つは効率性の観点からWeight Matching (緑)のみを検証 • いずれもPermutationの修正のみでBarrierがあった2つのモデルのBarrierが 大幅に減少 – ※ MNIST, MLPとかは既存ではそもそもBarrierないことになっている気がするがそれは不 明
  16. 16. NNの幅とPermuted Error Barrier 16 • 幅(フィルタ数)を変更したときのPermutation後のError Barrier • 幅を大きくすることが重要
  17. 17. 参考:Permutation前のBarrierと幅と深さの関係 17 図は“The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks”より抜粋 • 幅(フィルタ数)を大きくするとそもそもError Barrierは減る (SGDが同じ解に到達しやすくなる) • 深さは増やすとError Barrierは大きくなる
  18. 18. LMCは何によって生じるのか 18 • MLPをMNIST(左)とCIFAR-10(右)で学習した際のBarrierの推移 • Loss Barrierは学習が進むに連れて小さくなる ※ 厳密な記載がないが多分Weight MatchingでPermutationを戻している • モデルアーキテクチャ自体によって引き起こされているのではなくSGDによる
  19. 19. 別データの重みをPermutation後にモデルをマージ 19 • 普通に別のデータで学習した重みを平均化すると性能は劣化する • Weight Matching後の重みは平均化する事により性能が若干向上する • ただし,普通にアンサンブルしたり全データで訓練する場合よりは性能落ちる
  20. 20. まとめ • SGDが学習する解はPermutation Symmetryを除き同じ局 所解とLocally Connectedであるという仮説 [Entezari+2021] • 本論文は膨大なPermutation空間を効率的に探索する方法を 提案し,上記仮説を検証 • クラス分類タスクにおいてはある程度妥当性があることを検 証 20
  21. 21. 議論 • クラス分類以外での不安定性との関連 • 実際には学習はLMCが発生するより幅が狭いネットワーク でも起こり,かつ深いネットワークでも起こっている? – Deepがよくうまくいくことの説明にはあまりなっていない • Permutation Symmetry以外のInvarianceが学習に与え る影響 – 層を跨いだマッチング [Nguyen+2021] – Re-scaling Invariance [Ainsworth+2018] 21
  22. 22. Outline • 前提知識:Linear Mode Connectivity – “Linear Mode Connectivity and the Lottery Ticket Hypothesis”,ICML2020 • “Git Re-Basin: Merging Models Modulo Permutation Symmetries” • “Unmasking the Lottery Ticket Hypothesis: What's Encoded in a Winning Ticket's Mask?” 22
  23. 23. “Unmasking the Lottery Ticket Hypothesis” , ICLR 2023 Under review 書誌情報2 23 • 著者 – Mansheej Paul, Feng Chen, Brett W. Larsen, Jonathan Frankle, Surya Ganguli, Gintare Karolina Dziugaite – Stanford, Metaなど • 概要 – 宝くじ仮説の実験では,もとよりかなり小さいパラメータで同等の性能を 達成するサブネット(Matching Networks)が存在することが示唆されてい る – ただし,小さなサブネットの発見はOne-Shotでは行えず,Iterativeな Pruningが必要 – かつ,Iterative Pruningの際に重みを初期値に戻す必要がある (Rewinding) – これらがなぜ必要なのかについてLMCの観点から考察
  24. 24. Iterative Magnitude Pruning 1. NNをランダムに初期化(𝜽𝟎). 𝒎𝟎 = 𝟏 2. NNを一定イテレーション訓練(𝜽𝒋) 3. For i in 0…L 1. 𝒎𝒊+𝟏 ⊙ 𝜽𝒋を訓練 2. 重みの大きさ下位α%を刈り取るマスク𝒎𝒊+𝟏 を作成 4. 最終的な𝒎𝑳 ⊙ 𝜽𝒋を訓練する ※上記の手続きで訓練したサブネットが普通に訓練したNNと 同程度の正解率を達成する場合Matching Networksと呼ばれ る 24
  25. 25. IMP from LMC 25 • 各Levelでαだけ重みを残す場合のIterative Pruningの模式図 • 本論文では,各レベルでのMatching Networksがその前のNetworksと Linearly ConnectedであることがIMPの成功に重要であることを検証
  26. 26. 実験結果の抜粋 26 • 左:各レベル間でのLoss Barrier.マッチングに成功している場合(緑)は Level間でLoss Barrierがない!中央は拡大図. • 右:すべてのLevelでのLoss Barrier.全ペアでLoss Barrierがないわけで
  27. 27. なぜこのようになるのか? 27 • IMPで得られる摂動と同程度のランダムな摂動を加えた際のError Barrier の比較 • 重みのPruneだけではなくランダムな摂動に対しても同様にLMC
  28. 28. どの程度刈り取っていいいのか 28 • ざっくりいうとパラメータの曲率とProjectionによって発生する距離に依存 して最大Prune Rateが決まる • 完全にではないがMatchingの成否をある程度予測できる
  29. 29. なぜRewindが必要なのか 29 • Fine-Tuning:各レベルで重みと学習率を引き継ぐ • Learning Rate Rewinding:各レベルで重みのみ引き継ぎ学習率は戻す • Weight Rewinding:各レベルで重みも学習率も引き継がない • Fine-Tuningだけ小さい値の重みが少ない => 刈り取ったときの影響(曲 率)が大きくなり,Pruningに失敗する
  30. 30. まとめ • Winning Ticketの発見に使われるIMPがなぜ必要なのかにつ いてLMCの観点から分析 • (1)Pruningの各レベルで得られる解は前のレベルとLMC. ただしすべてのペアがつながっている訳では無い. • (2)これはSGDの頑健性により起きている. • (3)Rewindが必要なのはRewindをしないと値が小さなパ ラメータがいなくなり削ることにより距離が大きく離れてし まうから 30

Editor's Notes

  • Beyond Reward Based End-to-End RL: Representation Learning and Dataset Optimization Perspective
  • Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋
  • Bをまず線形割当する
  • The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

×