Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

最先端NLP勉強会2017_ACL17

640 views

Published on

最先端NLP勉強会2017の論文紹介資料.ACL'17-long paper. TITLE : Selective Encoding for Abstractive Sentence Summarization.

Published in: Data & Analytics
  • Be the first to comment

最先端NLP勉強会2017_ACL17

  1. 1. 2017.09.16 NAIST  ⾃自然⾔言語処理理学研究室 D1  Masayoshi  Kondo   論論⽂文紹介-‐‑‒  最先端NLP勉強会@2017   Selective  Encoding for  Abstractive  Sentence  Summarization ACLʼ’17 Qingyu  Zhou,  Nan  Yang,  Furu  Wei,  Ming  Zhou Harbin  Institute  of  Technology,  Harbin  China Microsoft  Research,  Beijing  China
  2. 2. 00:  論論⽂文の概要 •  Seq2seqモデルを改良良したニューラル要約モデルの研究. •  EncからDecへ引き渡す情報を取捨選択する  Selective  Gate  機構を導⼊入. •  短⽂文⽣生成要約のデータセット  :  3つ  で最⾼高精度度を更更新. •  評価指標:ROUGEスコア  (R-‐‑‒1,  R-‐‑‒2,  R-‐‑‒L) 【まとめ】 【モデル概略略図】 Encoding Selectcion Decoding Sentence  Encoder Summary  DecoderSelective  gate  network 【データセット】 Train  Set Annotated  English Gigaword  dataset Test  Set Annotated  English  Gigaword  Test-‐‑‒Set DUC2004  Test  Set MSR-‐‑‒ATC  Test  Set
  3. 3.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  4. 4. 01:近年年の  Text  Summarization  タスクの発展状況 トップカンファレンスでの要約タスク論論⽂文数の推移. 0 5 10 15 20 25 30 2014 2015 2016 2017 Total using  Neural  Net company  papers   using  Neural  Net (注:過去4年年分の  ACL  /  EMNLP  を調査.検索索クエリ:summari) 初登場  !   Neural  Abstractive  Summarization   [EMNLPʼ’15,  Rush  et  al.] NNを⽤用いた⾔言語⽣生成系タスクは企業も活発 に研究を進めている.現状は、Google, Facebook,  IBM  が、三強. Summarization  Tasks (year) (count)
  5. 5. 02:Neural  Text  Summarization  について 【  Text  Summarization  】 「原⽂文」の主要な情報を抽出し、より「短い⽂文章」で記述するタスク. [Input] [Output  (predicted)]: the  microsoft  corporation  will  open  its  office  in  dhaka  on  november   ##  to  expand  its  sales  and  fight  piracy  in  the  market  of  this  country  ,   reported  the  daily  new  age  on  saturday  . microsoft  to  open  new  office  in  sri  lanka. [Output  (correct)]: microsoft  to  open  office  in  dhaka.
  6. 6. 03:Neural  Text  Summarization  について 【  Text  Summarization  】 「原⽂文」の主要な情報を抽出し、より「短い⽂文章」で記述するタスク. ⽂文書要約タスク:2種類 Extractive  Summarization  :   -‐‑‒  従来の多くの⽂文書要約(⾃自動要約)の研究枠組み Abstractive  Summarization  :   -‐‑‒  近年年、NNを利利⽤用して⾶飛躍的な精度度向上 •  原⽂文の⽂文章を直接使って(copyして)、要約⽂文を 構築. •  精度度や⽂文法構造も⼀一定の⽔水準を満たしている. •  原⽂文に依らないフレーズや単語も含めて⽣生成的に ⽂文章を構築. •  「⾔言い換え」や「常識識(世界知識識)」等を含んだ ⾼高度度な要約⽂文を⽣生成出来る可能性がある. Src(原⽂文) Trg(要約⽂文) Src(原⽂文) Trg(要約⽂文) -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ xxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxx
  7. 7. 04:Neural  Text  Summarization  について Decoder  (RNN)Encoder  (RNN) Output  (trg/summ) Input  (src/ref) attention Encoder Decoder [Input]:  Reference word_̲id  -‐‑‒  seq [Output]:  Summary word_̲id  -‐‑‒  seq Deep  Neural   Networks Seq2Seq  Neural  Model  (RNN-‐‑‒RNN) 【  Train  】:    [src,  trg]ペアデータからモデルパラメータを学習. 【  Test  】:  srcデータを⼊入⼒力力し、trgを逐次予測して要約⽂文を⽣生成. •  前ステップの予測語を現在のステップの⼊入⼒力力として利利⽤用.逐次予測を⾏行行う. •  予測系列列⻑⾧長は、予め設定して決めてあることが多い. •  Decoder側の出⼒力力は、Vocab次元で1つだけ1が⽴立立つ1-‐‑‒of-‐‑‒Vベクトル. •  Loss関数:Cross-‐‑‒Entropy.
  8. 8. 05:Neural  Text  Summarization  について ⽣生成要約の研究で利利⽤用される代表的なデータセット  と  評価指標 【Gigaword  Corpus】:  [src]  単⽂文  →  [trg]  単⽂文 【CNN/Daily  Mail】:[src]  複⽂文  →  [trg]  複⽂文 •  ⼤大規模データセット •  Train:  約400万ペア  /  Dev:  約20万ペア/  Test:  約40万ペア •  Testset  は、ランダムに2000サンプル抽出して使うのが⼀一般的. •  Shared  taskのDUCʼ’04の  Test  set  を使う場合もある. 【評価指標】:ROUGE-‐‑‒score  (ROUGE値) •  正解⽂文  と  ⽣生成⽂文  のn-‐‑‒gramの⼀一致率率率を指標化したもの. •  スコアが⾼高い⽅方が良良い. •  平均  ⼊入⼒力力系列列⻑⾧長:781  tokens  /  平均  出⼒力力系列列⻑⾧長:56  tokens •  Train:  約29万ペア  /  Dev:  約13000ペア/  Test:  約11000ペア •  multi-‐‑‒sentencesのデータセット.
  9. 9. 06:Recent  Researches  in  Abstractive  Summarization 近年年のシンプルな設定の(王道の)ニューラル⽣生成要約タスク.   Get  To  The  Point:  Summarization  with  Pointer-‐‑‒Generator  Networks [ACLʼ’17  /  Stanford  Unv  (D.Manning  lab)  with  Google] Selective  Encoding  for  Abstractive  Sentence  Summarization [ACLʼ’17  /  with  Microsoft] キーコンセプト  2つ:     -‐‑‒-‐‑‒  Copy  Mechanism                :  元記事の意味を抜出する仕組み.   -‐‑‒-‐‑‒  Coverage  Mechanism  :  repetitionを回避する仕組み. キーコンセプト  :     -‐‑‒-‐‑‒  Selective  Mechanism  (Selective  Gate)  :            EncからDecにどの情報を流流すのかを選択的に⾏行行う(制御する)仕組み. Dataset CNN/DailyMail  dataset   Model bilstm-‐‑‒lstm-‐‑‒attention ⻑⾧長⽂文のニューラル⽣生成要約  (src  :  複数⽂文,  trg  :  複数⽂文) ニューラル⽣生成要約 Dataset Gigaword  and  etc… Model seq2seq-‐‑‒attention
  10. 10. 07:Recent  Researches  in  Abstractive  Summarization Learning  to  Generate  Market  Comments  from  Stock  Prices [Y.Miyao,  ACLʼ’17] ⼀一⽅方で、応⽤用設定の⽣生成要約タスクが増加傾向.    Generate  :株価  →  短信レポート Program  Induction  for  Rationale  Generation:  Learning  to  Solve   and  Explain  Algebraic  Word  Problems  [ACLʼ’17/Oxford  with  DeepMind] Neural  AMR:  Sequence-‐‑‒to-‐‑‒Sequence  Models  for  Parsing  and  Generation   [Ioannis  Konstas  et  al,  ACLʼ’17] •  代数の数学問題を解く. •  Generate  :  代数の問題→  解答  (選択肢  解答) •  解答を選択するだけでなく、同時に解答までのロジックを⽣生成. •  Parsing  と  ⾔言語⽣生成  を同時に. •  Dataset  :  Gigaword  /  Original  dataset.
  11. 11.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  12. 12. 08:  Introduction Attentionモデル  :  機械翻訳タスク  での成功  →  ⽣生成要約タスク  への展開 :要約タスクにおける  Input/Output  間のalignmentって何を意味するの?【  疑問  】 -‐‑‒  I/O間で共通の単語が利利⽤用される場合を除いて、要約タスクにおける alignmentの意味は明確ではない. 【  解釈  】 Input  から⼆二次情報を取り出す際の(重要な情報を)ハイライトを⾏行行う仕組み   として考える. Attention  Mechanism ⼊入⼒力力系列列の重要部を ハイライトする仕組み 要約タスク 【  ニューラル要約モデル  】 Encoder  +  Attention  Mechanism Decoder •  ⼊入⼒力力系列列をエンコード •  重要情報の保持と選択 •  表現の変換(⾔言い換え) •  要約⽂文の構築 Attention機構によって重要情報の選択が⾏行行われるが、明⽰示的に何が重要かの判断 はしていない.
  13. 13. 09:  Introduction 【  ニューラル要約モデル  】 Encoder  +  Attention  Mechanism Decoder •  ⼊入⼒力力系列列をエンコード •  重要情報の保持と選択 •  表現の変換(⾔言い換え) •  要約⽂文の構築 Attention機構によって重要情報の選択が⾏行行われるが、明⽰示的に何が重要かの判断 はしていない. 【  提案モデル  】:  SEASS  (Selective  Encoding  for  Abstractive  Sentence  Summarization) 仮説:⼊入⼒力力系列列の重要部の選択を明⽰示的に⾏行行う仕組みを導⼊入すれば、       精度度向上するんじゃね? Encoding Selectcion Decoding Sentence  Encoder Summary  DecoderSelective  gate  network •   [Encoding]    :  RNNで⼊入⼒力力系列列を読込み、first  level  sentence  repr  の獲得.     •   [Selection]    :  selective  gate  networkによる情報の選別とsecond  level                     sentence  repr  の獲得. •   [Decoding]    :  second  level  sentence  pepr  を⽤用いてデコード.
  14. 14.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  15. 15.  Preliminaries    Introduction  Model 1.  Summary  Encoder 2.  Selective  Mechanism 3.  Summary  Decoder -‐‑‒-‐‑‒  Objective  Function  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  16. 16. 10:  Selective  Encoder  概要図 x0 x1 xt-‐‑‒k xTxt xt+k 0 Ttt-‐‑‒k t+k 単語系列列データ... Word Embed <Bi-‐‑‒GRU>:  Forward  /  Backward <Selective  Gate> σ(                                    )+UW +b= xt  の  encoder  output
  17. 17. 11:  Model  -‐‑‒  selective  mechanism 【提案ニューラルネットの構造図】 Summary  Encoder
  18. 18. Encoder  :  BiGRU 12:  Model  –  summary  encoder •  Forword/Backwordの初期状態は、zero-‐‑‒vector  で設定. •  Forword/Backwordの隠れ状態(hidden  state)は、concatenate  で統合. •  センテンスの  representation  を獲得.
  19. 19.  Preliminaries    Introduction  Model 1.  Summary  Encoder 2.  Selective  Mechanism 3.  Summary  Decoder -‐‑‒-‐‑‒  Objective  Function  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  20. 20. 13:  Model  -‐‑‒  selective  mechanism 【提案ニューラルネットの構造図】 Selective  Mechanism
  21. 21. Seq2Seqモデルを使う機械翻訳(MT)は、⼊入⼒力力系列列から出⼒力力系列列をマップする ように  encoder  と  decoder  のモジュールを学習させる. 14:  Model  -‐‑‒  selective  mechanism これは、これまでの⽣生成要約タスクにも応⽤用されてきたものだ. ⽣生成要約(abstractive  sentence  summarization)は、機械翻訳(MT) とは2つの異異なるポイントがある. 1.   ⼊入⼒力力センテンスと出⼒力力センテンスの間の関係に対して、共通する単語を 除いてアラインメントが明確ではない. 2.   要約タスク:ʼ’不不必要な情報を取り除いて重要な情報をハイライトする ものʼ’であるが、機械翻訳タスクは全ての情報を⽂文字通り(⼊入出⼒力力間の系 列列に対して)保有する. Selective  Mechanism  :  ⽣生成要約タスクに適合したrepresentationを 構築するためのseq2seqの拡張⽅方式.
  22. 22. 15:  Model  -‐‑‒  selective  mechanism s  is  the  concatenated  vector  of  the  last  forward  hidden  state  hn   and  backward  hidden  state  h1  . → ← s  is  the  sentence  representation  vector. For  each  word  xi  ,  the  selective  gate  network  generates  a   gate  vector  sGatei  using  hi  and  s,  then  tailored  representation   is  hʼ’i.
  23. 23.  Preliminaries    Introduction  Model 1.  Summary  Encoder 2.  Selective  Mechanism 3.  Summary  Decoder -‐‑‒-‐‑‒  Objective  Function  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  24. 24. 16:  Model  -‐‑‒  summary  decoder 【提案ニューラルネットの構造図】 Summary  Decoder
  25. 25. 17:  Model  -‐‑‒  summary  decoder •   wt-‐‑‒1  :  previous  word  embedding •   ct-‐‑‒1      :  previous  context  vector •   st            :  new  hidden  state Decoder  :  GRU  with  attention Context  vector  の作り⽅方 1.  (12式)  st-‐‑‒1  と  hʼ’i  のベクトル とアテンションベクトル  :   va  との内積を計算 2.  (13式)ソフトマックス計算 3.  (14式)重み付き和  計算
  26. 26. 18:  Model  -‐‑‒  summary  decoder •   wt-‐‑‒1  :  previous  word  embedding •   ct          :  context  vector •   st            :  (current)  decoder  state •   rt            :  readout  state   Decoder  :  GRU  with  attention  (つづき) [15式]  :  readout  state  の計算式(特徴量量毎の単純な線形和) [16式]  :  マックスアウト関数の操作 [17式]  :  ソフトマックス関数の操作(最終出⼒力力)
  27. 27.  Preliminaries    Introduction  Model 1.  Summary  Encoder 2.  Selective  Mechanism 3.  Summary  Decoder -‐‑‒-‐‑‒  Objective  Function  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  28. 28. 19:  Model  –  objective  function Loss関数:Negative  Log-‐‑‒Likelihood  Loss   D  :  a  set  of  parallel  sentence  summary  pairs θ    :  the  model  parameter •  ⼊入⼒力力系列列が与えられた下で⽣生成する要約⽂文の確率率率を最⼤大化 •  最適化法  :  Stochastic  Gradient  Desent  (SGD)
  29. 29.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  30. 30. 20:  Experiments 【Training  Set】:  Annotated  English  Gigaword  dataset 【Test  Set】:  3つ English  Gigaword  Test  Set DUC2004  Test  Set MSR-‐‑‒ATC  Test  Set  [Toutanova  et  al.  2016] •  (src,  trg)  :  (記事の冒頭1⽂文,  記事の⾒見見出し⽂文)   •  PTBトークナイズ・⼩小⽂文字化  処理理 •  数字は、♯(シャープ)記号  に変換 •  出現回数5回以下の単語を  <unk>  変換 •  訓練データ:380万ペア  /  開発データ:18.9万ペア •  Rush  et  al.の研究[Rush  et  al.,  EMNLPʼ’15]で⽤用いられたテストセット •  2000ペア  (summ側空データを除いた1951ペア、[Chopra  et  al.,    2016]) •  src:1に対してtrg:4の⼈人⼿手で作成された要約データ. •  500ペア.⽣生成⽂文を75byte打切切で評価. •  Croudsourcingにより作成.総データ数:6000ペア. •  Test  Set  サイズ:785ペア
  31. 31. 【Evaluation  Metric】:  Rouge  Score •  R-‐‑‒1  :  uni-‐‑‒gram  の⼀一致率率率. •  R-‐‑‒2  :  bi-‐‑‒gram  の⼀一致率率率. •  R-‐‑‒L  :  longest  common  subsequence(LCS)  の⼀一致率率率. 正解要約  と  ⽣生成要約  のn-‐‑‒gramの⼀一致率率率(overlapping)で精度度を定量量化. DUC  Shared  Taskにおいて要約評価に⽤用いられた⼀一般的な指標. 21:  Experiments 【Implementation  Details】 Vocab-‐‑‒Size In  :  119,504    /    Out  :  68,883 Word-‐‑‒Emb 300 Unit  Type(Hidden-‐‑‒size) GRU  (Hidden-‐‑‒Size  :  512) Batch  Size 64 Dropout 0.5 Optimization  Method Adam(β=0.001,  α1=0.9,  α2=0.999,  ε=10^-‐‑‒8) Dev-‐‑‒Evaluation For  every  2000  training  batches Grad-‐‑‒Clipping [-‐‑‒5,  5] Beam-‐‑‒Search  Size 12
  32. 32. 22:  Experiments 【Baselines】­−  ⽐比較モデル ABS •  [Rush  et  al.EMNLPʼ’15]  の提案⼿手法. •  CNN-‐‑‒enc  +  Attention  /  NNLM(FFNN)-‐‑‒dec •  公開されているオリジナルコードを利利⽤用 ABS+ •  ABSモデル. •  Loss関数に特殊項を追加. CAs2s •  [Chopra  et  al.  2016]  の提案⼿手法. •  ABSモデルの改良良型.精度度でABSモデルに勝る. •  CNN-‐‑‒Enc  +  Attention  /  RNN-‐‑‒dec Feats2s •  [Nallapati  et  al.  2016]  の提案⼿手法 •  RNN-‐‑‒Seq2Seq  モデル  +  他の特徴量量の導⼊入 •  他の特徴量量:POSタグ、NERタグ Luong-‐‑‒NMT •  [Loung  et  al.  2015]  の提案⼿手法. •  2層LSTM(500-‐‑‒dim)のenc-‐‑‒decモデル. s2s-‐‑‒att •  Seq2Seqモデル+Attention
  33. 33. 23:  Experiments -‐‑‒  Rushのテストセット  -‐‑‒ -‐‑‒  本研究のテストセット  -‐‑‒ 【  Gigaword  test  set  】
  34. 34. 24:  Experiments 【  DUC2004  test  set  】
  35. 35. 25:  Experiments 【  MSR-‐‑‒ATC  test  set  】
  36. 36.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  37. 37. 【Effectiveness  of  Selective  Encoding】 26:  Discussion 【議論論】:  提案⼿手法(SEASS)  と  ベースライン(seq2seq-‐‑‒attention)  の性能⽐比較 •  2つの検証. •  提案⼿手法である「Selective  Encoding」の有効性を調べたい. •  ⼊入⼒力力系列列の⻑⾧長さ毎の要約精度度を検証. •  データ:Gigawordテストセット. •  ⼊入⼒力力系列列の⻑⾧長さ:10  ~∼  80  のデータ •  Gigaword  テストセットに対して、4区切切りで18つのデータグループを作成. •  各グループの要約精度度(ROUGE-‐‑‒2  F1値)をグラフにして⽰示す. 【Saliency  Heat  Map  of  Selective  Gate】 •  Selective  Gateの効果を⾒見見るため、(エンコード側の)ある出⼒力力を可視化. •  ある出⼒力力:(エンコード側の)最終出⼒力力をselective  gateの項で⼀一次近似 微分したもの.
  38. 38. 27:  Discussion  :  Effectiveness  of  Selective  Encoding
  39. 39. 28:  Discussion  :  Saliency  Heat  Map  of  Selective  Gate [Input]  :  the  council  of  europe  ʼ’s  human  rights  commissioner   slammed  thursday  as    “  unacceptable  “    conditions  in  france  ʼ’s   overcrowded  and  dilapidated  jails  ,  where  some  ##  inmates  have   committed  suicide  this  year  . [System]  :  council  of  europe  slams  french  prison  conditions. [True]  :  council  of  europe  again  slams  french  prison  conditions.
  40. 40. 29:  Conclusion •  本論論⽂文では、⽣生成要約タスクにおけるseq2seqモデルを拡張した Selective  Encode  Model  を提案. •  このSelective  Mechanism  (選択機構)は、要約を書き下す前に⾏行行う重要 な情報の選択という⼈人間の要約⾏行行為を模倣するものだ. •  我々は、ニューラル要約モデルを3つの仕組みで構成した: ー  Encoding  /  Selection  /  Decoding   •  実験の結果、English  Gigaword,  DUC2004,  MSR-‐‑‒ATC  test  set   で、それぞれ最⾼高精度度を達成した. 【感想】 •  Selective  Gate  と⽴立立派な名前の割にアテンション⽤用のモジュールを付け加え ただけに⾒見見える. •  Input  と  Output  間の重要な情報抽出操作に関するモデリングは未だ出来て いない. •  簡単な仕組みで精度度が向上出来ているのは◎.
  41. 41.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  42. 42. 31  :  *Plus  Alpha  ­−  ⻑⾧長⽂文要約でSEASSを試してみる Get  To  The  Point:  Summarization  with  Pointer-‐‑‒Generator  Networks [ACLʼ’17  /  Stanford  Unv  (D.Manning  lab)  with  Google] Selective  Encoding  for  Abstractive  Sentence  Summarization [ACLʼ’17  /  with  Microsoft] キーコンセプト  2つ:     -‐‑‒-‐‑‒  Copy  Mechanism                :  元記事の意味を抜出する仕組み.   -‐‑‒-‐‑‒  Coverage  Mechanism  :  repetitionを回避する仕組み. キーコンセプト  :     -‐‑‒-‐‑‒  Selective  Mechanism  (Selective  Gate)  :            EncからDecにどの情報を流流すのかを選択的に⾏行行う(制御する)仕組み. Dataset CNN/DailyMail  dataset   Model bilstm-‐‑‒lstm-‐‑‒attention ⻑⾧長⽂文のニューラル⽣生成要約  (src  :  複数⽂文,  trg  :  複数⽂文) ニューラル⽣生成要約 Dataset Gigaword  and  etc… Model seq2seq-‐‑‒attention 紹介論論⽂文のSEASSは、短⽂文要約での精度度は良良いことが分かった. では、⻑⾧長⽂文要約の⽅方で試すと?
  43. 43. 32  :  *Plus  Alpha  ­−  ⻑⾧長⽂文要約でSEASSを試してみる 【実験設定】 •  「Get  To  The  Point:  Summarization  with  Pointer-‐‑‒Generator   Networks」の  実験設定  と  ソースコード  を利利⽤用. •  先⾏行行研究のエンコーダー  と  紹介論論⽂文のSEASSのエンコーダー  を取り替えて検証. 実装・設定・その他の仕組みは、先⾏行行研究に従った(pointer-‐‑‒generator   mechanism/coverage  mechanismは、双⽅方のモデルで利利⽤用した.) [先⾏行行研究Enc  (Get  To  The  Point  ~∼)] Bi-‐‑‒LSTM [  紹介論論⽂文  :  SEASS  のEnc  ] Bi-‐‑‒GRU  +  Selective  Mechanism 【CNN/Daily  Mail  dataset  】:[src]  複⽂文  →  [trg]  複⽂文 •  平均  ⼊入⼒力力系列列⻑⾧長:781  tokens  /  平均  出⼒力力系列列⻑⾧長:56  tokens •  Train:  約29万ペア  /  Dev:  約13000ペア/  Test:  約11000ペア •  multi-‐‑‒sentencesのデータセット.  /  Vocab-‐‑‒size:  50k •  ⼊入⼒力力系列列:最⼤大400words  /  出⼒力力系列列:最⼤大100words  で打切切. •  予測時:最⼤大120words  で打切切.
  44. 44. 33:  実験結果:⻑⾧長⽂文要約  (CNN/Dailymail  Dataset:  50k) Model Rouge-‐‑‒1 Rouge-‐‑‒2 Rouge-‐‑‒L #  of  params Abigail  et  al.  2017 -‐‑‒  ENC  :  BiLSTM -‐‑‒  pointer-‐‑‒generator 36.44 15.66 33.42 -‐‑‒ Abigail  et  al.  2017                      <re-‐‑‒exam> 37.88 16.39 33.46 -‐‑‒ SEASS  [ACLʼ’17] -‐‑‒  BiGRU -‐‑‒  Selective  Enc 37.44 16.00 33.35 -‐‑‒ ACLʼ’17のshort  text  summarization論論⽂文のNNモデルをlong  text   summarization  で実験.(SEASSのチューニングは⽢甘い.) Abigail  et  al.  2017 +  coverage 39.53 17.28 36.38 -‐‑‒ Abigail  et  al.  2017                      <re-‐‑‒exam> +  coverage 39.86 17.50 35.38 -‐‑‒ SEASS  [ACLʼ’17] +  coverage 38.65 16.88 34.36 -‐‑‒
  45. 45. END

×