Successfully reported this slideshow.
Your SlideShare is downloading. ×

[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization

Ad

Deep Communicating Agents
for Abstractive Summarization
Asli Celikyilmaz, Antoine Bosselut, Xiaodong He and Yejin Choi
M2 ...

Ad

Introduction
● 抽象型要約(要約文生成)→ Seq2Seqで解くのが一般的に
○ Seq2Seqは長文をencodeすることが苦手
○ 要約は長文をencodeする必要があることが問題
● 長文をparagraph xi
に分割し...

Ad

Model

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Check these out next

1 of 18 Ad
1 of 18 Ad

More Related Content

Similar to [NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization

[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization

  1. 1. Deep Communicating Agents for Abstractive Summarization Asli Celikyilmaz, Antoine Bosselut, Xiaodong He and Yejin Choi M2 山岸駿秀 @ NAACL2018 読み会
  2. 2. Introduction ● 抽象型要約(要約文生成)→ Seq2Seqで解くのが一般的に ○ Seq2Seqは長文をencodeすることが苦手 ○ 要約は長文をencodeする必要があることが問題 ● 長文をparagraph xi に分割し、細かくencodeすることで対処 ○ 各xi はAgent(強化学習的な意味でない)が担当 ○ Agent間は連携をとりつつ、AgentにAttentionを張ることで統合
  3. 3. Model
  4. 4. Multi-Agent Encoder ● k-layer Bi-LSTM / agent (k=2で実験) ● 下層(k=1)は一般的なEncoderと同様 ● 上層(k>1)は以下の通りに計算 ○ zはそれぞれのAgentの最後のstateの平均 ○ fはMLP型っぽい式で計算
  5. 5. Word Attention & Agent Attention ● Word attention ○ Agent a 内の単語に対してAttentionを計算 ○ Bahdanau型のMLP Attention ○ ct a : word context vector ● Agent Attention (caa) ○ Agent に対してAttentionを計算 ○ c* t : context agent vector
  6. 6. Decoder with Agent Attention ● 単語の生成確率は以下で導出 ● 要約されても文の流れの順番は入れ替わらないはず ○ Agent attentionが何度もスイッチすることはなさそう ○ 前時刻のagent attentionは有用な素性っぽい ○ 式(13)で計算する
  7. 7. Multi-Agent Pointer Networks ● 単語を生成するか、Encoder側から持ってくるかをスイッチ ○ ut a,w : input中のwに張られているAttention scoreの合計 ● 以上を各Agentで計算し、Agent attentionをかけて統合
  8. 8. Mixed Objective Learning(Loss) ● 目的関数を3つ用意 ● MLE(Maximum Likelihood) ○ 文の生起確率の対数尤度を最小化 ● SEM(SEMantic Cohesion) ○ 出力文を‘.’(period)で分割し、要約文書を文に分割する ○ periodを生成したときのhidden state sq を文の意味ベクトルとし、 sq-1 との類似度を最小化(距離を最大化)する
  9. 9. Mixed Objective Learning(Loss) ● RL(Reinforcement Learning Loss) ○ Reward ROUGE ○ r(y^ ) 単語の生成確率からサンプリングしたときのreward ○ r(y~ ) greedyに探索したときのreward ● 実際は文分割した後の文に対してrewardを計算 ○ 「その1文でどれだけROUGEが上がったか」を測る
  10. 10. Mixed Objective Learning(Objectives) ● MLEとSEMは混ぜて使用 ● MLEとRLも混ぜて使用 ○ MLEとSEMを混ぜて使うときは、MLEをMLE-SEMで代用 ● λとγはそれぞれhyper-parameter
  11. 11. Experimental Setup (Data) ● Corpus(詳細はTable 6) ○ CNN/Daily Mail ○ New York Times ● 名前をAnnonymizing ● 800単語でLoadを止める ● 800単語/Agent数に近い 文境界でParagraphを分割 ● Agent数はhyper-parameter
  12. 12. Experimental Setup (Others) ● Vocabulary 50,000 ● Hidden size 128 ● Embed size 200(GloVeで初期化(固定しない)) ● Optimizer Adam ● λ(RL) 0.1 ● γ(SEM) 0.97 ● Time P100 で 4-5 days(Agent数が2~3のとき) ● Evaluation ROUGE-{1, 2, L}、人手評価
  13. 13. Result (CNN/DailyMail) ● m1 ~ m3はagentが1つ → 複数あった方がいい ● Agent間のCommunicationはあった方がいい ● Agentの数は3がちょうどいい ○ Documentのトークン数にもよるはずなので調査が必要
  14. 14. Result (New York Times) ● 目的関数を複数組み合わせた方が性能が高い ● ROUGE-Lは先行研究に負けている(CNN/DailyMailも) ○ [Paulus et al., 2018] でROUGE-Lと人手評価に相関があまりないことが示 されているから、問題ない(?)
  15. 15. Human Evaluation ● いい方を選んでもらう(Head-to-Head) ● 以下の4つをそれぞれ5段階評価(Score based) ○ non-redundancy 無駄がないかどうか ○ coherence 出力文書に一貫性があるか ○ focus 正しい論点で要約されているか ○ overall 全体的な評価
  16. 16. Communication improves focus ● 各出力のAgent Attentionの平均 ごとのROUGEの平均 ● 30%前後のときにROUGEが高い → 均等にattentionが張られると性 能が高い可能性
  17. 17. Example
  18. 18. Conclusion ● DCA(Document Communication Agent)を提案 ○ AgentがそれぞれParagraphを読み込む ○ Agentはコミュニケーションを取る ● ROUGEの向上 ● 人手評価のスコアも向上した

×