Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DL輪読会]MogrifierLSTM (ICLR2020)

744 views

Published on

2020/01/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Published in: Technology
  • Be the first to comment

  • Be the first to like this

[DL輪読会]MogrifierLSTM (ICLR2020)

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Mogrifier LSTM (ICLR2020)” Naoki Nonaka
  2. 2. 2 目次 • • • • •
  3. 3. 3 書誌情報 • M / • c M , :B 0 L :B K . : D B ,: : B:CG O • bM CC B :C D : 2 a Rd PT U O
  4. 4. 4 背景 Recurrent netの汎化能力の向上に取り組んだ研究 https://colah.github.io/posts/2015-08-Understanding-LSTMs/ (一部改変) (通常の)LSTM MogrifierMogrifier Mogrifier 提案手法: Mogrifier LSTM
  5. 5. 5 提案手法: Mogrifier LSTM p一つ前の隠れ状態hprevと入力xに対して交互にゲートを適用 pr回繰り返した後,LSTMに入力する: pxおよびhprevは以下の更新式にしたがって交互に更新 (iが奇数のとき) (iが偶数のとき)
  6. 6. 6 実験: 2 p O: : S = p : = 単純に規模を拡大するだけでは汎化に関しての問題を解決できない 小さなデータセットでの性能を評価 (大きいデータセットでも実験は行う)
  7. 7. 7 実験 pWord level language modelling n Penn Tree Bank (PTB) n Wikitext-2 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n Multilingual Wikipedia Corpus (MWC) Ø 英語 Ø フィンランド語
  8. 8. 8 実験 pWord level language modelling n Penn Tree Bank (PTB) Ø 約1,000,000件のデータ Ø 10,000語彙 n Wikitext-2 Ø PTBの約2倍 Ø 語彙もPTBより多い ともに「小さい」データセット
  9. 9. 9 実験 pWord level language modelling p提案手法は,SOTA(AWD-LSTM / FRANGE)を上回るperplexity
  10. 10. 10 実験 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n 90,000,000文字で学習,10,000,000文字で評価 n Multilingual Wikipedia Corpus (MWC) n (詳細の記述はないが)Large settingの例
  11. 11. 11 実験 p 先行研究のLSTMを(LSTMで)大きく上回る p mLSTMとAWD-LSTMを上回る p Transformerとの比較:Dynamic evaluationでは同等
  12. 12. 12 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task
  13. 13. 13 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task r = 4でPerplexityが最も低くなる(PTBデータセットにおける結果)
  14. 14. 14 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task ゲートをZig-zag構造にすることでPerplexityが向上
  15. 15. 15 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 低ランク近似によりPerplexityがわずかに改善 Q = Qleft Qright R = Rleft Rright 提案手法では低ランク近似
  16. 16. 16 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task mLSTMはLSTMと同程度 mLSTM: LSTM入力前にxとhを掛け合わせる(提案手法と類似)
  17. 17. 17 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 系列長が長くなってもCross entropyが低い -> 入力のembeddingの表現力がMogrifierにより増す
  18. 18. 18 分析 p M n TR QE h i n e n E L n , L E h i n v m Egd h i n xE Lh n xr Eh n h n TR Q L b S h i
  19. 19. 19 まとめ p T e A A p O A S p A h

×