Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DL輪読会]Attention InterpretabilityAcross NLPTasks

130 views

Published on

2019/09/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Published in: Technology
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

[DL輪読会]Attention InterpretabilityAcross NLPTasks

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Attention Interpretability Across NLPTasks MasakiTashiro, Keio University
  2. 2. 書誌情報 • Attention Interpretability Across NLP Tasks • https://arxiv.org/abs/1909.11218 • Shikhar Vashishth, Shyam Upadhyay, Gaurav Singh Tomar, Manaal Faruqui 2 選んだ理由 • Attentionの解釈性について興味があったから *断りのない限り, 図は論文より引用
  3. 3. 概要 背景・課題 • Attentionの解釈可能性については議論があり、意味のある説 明を提供しないという説としているという説がある 提案 • NLPの複数のタスクにおけるAttentionの役割を実験すること でAttentionが意味のある説明をもたらす条件を提案 結論 • Gating unitとして解釈できるsingle sequence taskにおいて はattentionは説明を提供しない 3
  4. 4. 背景 Attentionの解釈について • BERT rediscovers the classical NLP pipeline(ACL 2019) • Analyzing the structure of attention in a transformer language model(BlackBoxNLP, 2019) • What does BERT look at? an analysis of bertʼs attention(BlackBoxNLP, 2019) 4
  5. 5. 背景 Attentionによる説明に対する疑問 • Attention is not Explaination(NAACL 2019) ØAttentionの変化が結果に変化を与えないことがある ØAttentionとgradientベースの⼿法の相関の低さ • Is Attention Interpretable?(ACL 2019) ØAttentionが⾼い部分を低くしても影響が⼩さい Attentionに対する疑問に対する反論 • Attention is not not explanation(EMNLP, 2019) 5
  6. 6. 課題 • Attentionによる解釈が可能になれば、先⾏研究のように多く の情報をモデルから読み取れる可能性 • Attentionの解釈可能性に関する議論が進んでおらず説明とし て信頼できるか不明 • Attentionの解釈可能性について実験をしたタスクが少なく⼀ 般化できるのか不明 6
  7. 7. 結論 • Attentionが単にgating unitの役割になってしまっている場合 attentionの説明は意味をなさない Attention Gating unit 7
  8. 8. 実験したタスク ⼤きく分けて三つのタスク • Single Sequence tasks (1) SST (2) IMDB (3) Yelp 2017 • Pair Sequence tasks (1) SNLI (2) MNLI (3) CNN News Articles (4) babI • Generation tasks (1) Multi 30k (2) En-De News Commentary (3) WMT13 8
  9. 9. 実験に利⽤したモデル Single Sequence Models • Encoder : Glove + Bi-RNN • Attention • Decode : Dense layer 9
  10. 10. 実験に利⽤したモデル Single Sequence Models • Hierarchical attention model[Yang+ 16] 10
  11. 11. 実験に利⽤したモデル Pair Sequence Models • Encoder : Separate RNN • Attention • Decode : Dense layer 11
  12. 12. 実験に利⽤したモデル Pair Sequence Models • Rocktaschelらによって提案されたモデル • Premise部分とHypothesis部分のencode時に独⽴のlstmを使 うのをやめる 12 出典 : https://arxiv.org/abs/1509.06664
  13. 13. 実験に利⽤したモデル Generation Models • Encoder : Globe + Bi-RNN • Attention (1) (2) • Decode : RNN 13
  14. 14. 実験に利⽤したモデル • Attentionの掛け⽅の違いについて も考えるためにそれぞれのタスクにおいて self-attentionベースのモデルついても試している • Single-Headed Attention 14 出典 : https://arxiv.org/abs/1706.03762
  15. 15. 実験に利⽤したモデル • BERT (Bidirectional Encoder Representations from Transformers) • 汎⽤的な⾔語表現モデルで総合的な⾔語理解能⼒を試す GLUEにおいて⾶躍的なスコアの向上を達成 詳しくはこちらを参考 • https://qiita.com/Kosuke- Szk/items/4b74b5cce84f423b7125 15 出典 : https://arxiv.org/abs/1810.04805
  16. 16. 実験に利⽤したモデル Transformer • 2017年にAttention Is All You Need にて 提案されたモデル • 機械翻訳において主流であった RNNやLSTMを⽤いずにSOTAを達成した 16 出典 : https://arxiv.org/abs/1706.03762
  17. 17. 実験1 : attentionのかけ⽅の変化と性能の関係 • Attentionのweightを①uniform②random③permuteした結果 性能がどのように変化するのか調べた • 条件としてattentionをtrain/infer両⽅で固定するものとinfer 時のみ固定するものを試し⽐較した 17
  18. 18. 実験1 : attentionのかけ⽅の変化と性能の関係 タスク : Single Sequence tasks 結果 : 1. train/inferで固定するとweightの変化に頑健なモデルができ る 2. Permuteによるスコアの減少は4.2あたりでattentionの変化 が与える影響は⼩さいといえる 18
  19. 19. 実験1 : attentionのかけ⽅の変化と性能の関係 タスク : pair sequence tasks, generation tasks 結果 : 全体的に⼤きくスコアが減少 19
  20. 20. 実験1 : attentionのかけ⽅の変化と性能の関係 オリジナルのモデルとPermuteモデルのTVD distanceと Max attentionの関係 TVD distance … 出⼒がどの程度変わったか 20
  21. 21. 実験1 : attentionのかけ⽅の変化と性能の関係 オリジナルのモデルとPermuteモデルのTVD distanceと Max attentionの関係 • Singleは影響が⼩さい • Max attentionが ⼤きい時に影響が ⼤きい 21
  22. 22. 実験2 : attentionの重みとfeature importanceの関係 • Attentionの重みがmaxのものを取り除いた時とrandomに選 んで取り除いた時の予測の違いを⾒たい • オリジナルの予測をp, maxのものを除いた予測をq(i*), randomに選んで取り除いたものの予測をq(r)として JS(p, q(i*))とJS(p, q(r))の差をみる 22
  23. 23. 実験3 : self-attentionベースのモデルにおける影響 23 • Self-attentionベースのモデルにおいて同様の傾向が⾒られ るのか確認した • 結果を⾒てみるとsingle sentence task(IMDB)においてもス コアの減少が⾒られた • Self-attentionが命題 4.1の 条件を満たしていなかった から
  24. 24. 実験4 : Attentionによる説明の⼈⼿評価 • Attentionが最も⾼い3つを根拠として提⽰し、それが意味を 持っているかどうかを⼈⼿で評価した • その際に100個の例では上記の⽅法で根拠を選び、残りの100 個ではattentionをPermuteさせて根拠部を選んだ • どちらの例でもpermuteしてない場合は⾼いスコア 24
  25. 25. まとめ • Attentionが単にgating unitの役割になってしまっている場合 attentionの説明は意味をなさない • AdversarialなAttentionは試さない? 25

×