[DL輪読会]MogrifierLSTM (ICLR2020)

•

0 likes•255 views

Deep Learning JP

2020/01/31 Deep Learning JP: http://deeplearning.jp/seminar-2/

Technology

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Mogrifier LSTM (ICLR2020)”
Naoki Nonaka

3
書誌情報
• M /
• c M , :B 0 L :B K . : D B
,: : B:CG O
• bM CC B :C D : 2
a Rd PT U O

4
背景
Recurrent netの汎化能力の向上に取り組んだ研究
https://colah.github.io/posts/2015-08-Understanding-LSTMs/ (一部改変)
（通常の）LSTM
MogrifierMogrifier Mogrifier
提案手法: Mogrifier LSTM

5
提案手法: Mogrifier LSTM
p一つ前の隠れ状態hprevと入力xに対して交互にゲートを適用
pr回繰り返した後，LSTMに入力する:
pxおよびhprevは以下の更新式にしたがって交互に更新
（iが奇数のとき）
（iが偶数のとき）

6
実験: 2
p O:
: S =
p
: =
単純に規模を拡大するだけでは汎化に関しての問題を解決できない
小さなデータセットでの性能を評価
（大きいデータセットでも実験は行う）

7
実験
pWord level language modelling
n Penn Tree Bank (PTB)
n Wikitext-2
pCharacter level language modelling
n Enwiki-8 (Hutter Prize dataset)
n Multilingual Wikipedia Corpus (MWC)
Ø 英語
Ø フィンランド語

8
実験
pWord level language modelling
n Penn Tree Bank (PTB)
Ø 約1,000,000件のデータ
Ø 10,000語彙
n Wikitext-2
Ø PTBの約2倍
Ø 語彙もPTBより多い
ともに「小さい」データセット

9
実験
pWord level language modelling
p提案手法は，SOTA(AWD-LSTM / FRANGE)を上回るperplexity

10
実験
pCharacter level language modelling
n Enwiki-8 (Hutter Prize dataset)
n 90,000,000文字で学習，10,000,000文字で評価
n Multilingual Wikipedia Corpus (MWC)
n （詳細の記述はないが）Large settingの例

11
実験
p 先行研究のLSTMを（LSTMで）大きく上回る
p mLSTMとAWD-LSTMを上回る
p Transformerとの比較：Dynamic evaluationでは同等

12
分析
p rによる精度の変化を分析
p ゲート構造をzig-zagする効果
p 低ランク近似を行う影響
p mLSTMとの比較
p Reverse copy task

13
分析
p rによる精度の変化を分析
p ゲート構造をzig-zagする効果
p 低ランク近似を行う影響
p mLSTMとの比較
p Reverse copy task
r = 4でPerplexityが最も低くなる（PTBデータセットにおける結果）

14
分析
p rによる精度の変化を分析
p ゲート構造をzig-zagする効果
p 低ランク近似を行う影響
p mLSTMとの比較
p Reverse copy task
ゲートをZig-zag構造にすることでPerplexityが向上

15
分析
p rによる精度の変化を分析
p ゲート構造をzig-zagする効果
p 低ランク近似を行う影響
p mLSTMとの比較
p Reverse copy task
低ランク近似によりPerplexityがわずかに改善
Q = Qleft Qright
R = Rleft Rright
提案手法では低ランク近似

16
分析
p rによる精度の変化を分析
p ゲート構造をzig-zagする効果
p 低ランク近似を行う影響
p mLSTMとの比較
p Reverse copy task
mLSTMはLSTMと同程度
mLSTM: LSTM入力前にxとhを掛け合わせる（提案手法と類似）

17
分析
p rによる精度の変化を分析
p ゲート構造をzig-zagする効果
p 低ランク近似を行う影響
p mLSTMとの比較
p Reverse copy task
系列長が長くなってもCross entropyが低い
-> 入力のembeddingの表現力がMogrifierにより増す

18
分析
p M
n TR QE h i
n e n E L
n , L E h i
n v m Egd h i
n xE Lh
n xr Eh
n h
n TR Q L b S h i

Recently uploaded

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）Hiroshi Tomioka

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...博三太田

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）UEHARA, Tetsutaro

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？akihisamiyanaga1

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab

Recently uploaded (8)

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案

[DL輪読会]MogrifierLSTM (ICLR2020)

1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Mogrifier LSTM (ICLR2020)” Naoki Nonaka

2. 2 目次 • • • • •

3. 3 書誌情報 • M / • c M , :B 0 L :B K . : D B ,: : B:CG O • bM CC B :C D : 2 a Rd PT U O

4. 4 背景 Recurrent netの汎化能力の向上に取り組んだ研究 https://colah.github.io/posts/2015-08-Understanding-LSTMs/ (一部改変) （通常の）LSTM MogrifierMogrifier Mogrifier 提案手法: Mogrifier LSTM

5. 5 提案手法: Mogrifier LSTM p一つ前の隠れ状態hprevと入力xに対して交互にゲートを適用 pr回繰り返した後，LSTMに入力する: pxおよびhprevは以下の更新式にしたがって交互に更新（iが奇数のとき）（iが偶数のとき）

6. 6 実験: 2 p O: : S = p : = 単純に規模を拡大するだけでは汎化に関しての問題を解決できない小さなデータセットでの性能を評価（大きいデータセットでも実験は行う）

7. 7 実験 pWord level language modelling n Penn Tree Bank (PTB) n Wikitext-2 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n Multilingual Wikipedia Corpus (MWC) Ø 英語 Ø フィンランド語

8. 8 実験 pWord level language modelling n Penn Tree Bank (PTB) Ø 約1,000,000件のデータ Ø 10,000語彙 n Wikitext-2 Ø PTBの約2倍 Ø 語彙もPTBより多いともに「小さい」データセット

9. 9 実験 pWord level language modelling p提案手法は，SOTA(AWD-LSTM / FRANGE)を上回るperplexity

10. 10 実験 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n 90,000,000文字で学習，10,000,000文字で評価 n Multilingual Wikipedia Corpus (MWC) n （詳細の記述はないが）Large settingの例

11. 11 実験 p 先行研究のLSTMを（LSTMで）大きく上回る p mLSTMとAWD-LSTMを上回る p Transformerとの比較：Dynamic evaluationでは同等

12. 12 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task

13. 13 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task r = 4でPerplexityが最も低くなる（PTBデータセットにおける結果）

14. 14 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task ゲートをZig-zag構造にすることでPerplexityが向上

15. 15 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 低ランク近似によりPerplexityがわずかに改善 Q = Qleft Qright R = Rleft Rright 提案手法では低ランク近似

16. 16 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task mLSTMはLSTMと同程度 mLSTM: LSTM入力前にxとhを掛け合わせる（提案手法と類似）

17. 17 分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 系列長が長くなってもCross entropyが低い -> 入力のembeddingの表現力がMogrifierにより増す

18. 18 分析 p M n TR QE h i n e n E L n , L E h i n v m Egd h i n xE Lh n xr Eh n h n TR Q L b S h i

19. 19 まとめ p T e A A p O A S p A h

[DL輪読会]MogrifierLSTM (ICLR2020)

Recommended

Recommended

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

[DL輪読会]MogrifierLSTM (ICLR2020)