SlideShare a Scribd company logo
1 of 37
Download to read offline
2017.06.26
NAIST  ⾃自然⾔言語処理理学研究室
D1  Masayoshi  Kondo  
論論⽂文紹介-‐‑‒  About  Neural  Summarization@2017  
Get  To  The  Point  :  Summarization  with
Pointer-‐‑‒Generator  Networks
ACLʼ’17
Abigail  See	
Stanford  University
Peter  J.  Liu	
Google  Brain
Christopher  D.  Manning	
Stanford  University
00:  論論⽂文の概要
•  ニューラルネットを⽤用いた⽣生成要約タスクの研究  (  in:原⽂文  →  NN  →  out:要約⽂文  ).
•  複数⽂文要約⽣生成タスクの研究に取り組み、⻑⾧長⽂文の要約⽣生成を実現する⼯工夫点が⾒見見どころ.
•  NNアーキテクチャは、Enc:bi-‐‑‒directional  RNN  /  Dec:  RNN  のSeq2Seq型モデルを
ベースに  pointer  mechanism(attention  mechanism)  /  coverage  mechanism  
を組み込んだモデル.
•  実験データは、CNN/Daily  Mailデータ  を加⼯工したmulti-‐‑‒sentence  summarization⽤用の
データセット.評価指標は、ROUGE-‐‑‒score.
•  先⾏行行研究の⼿手法に⽐比べ、2ポイント以上の精度度向上を実現.
【まとめ】
【abstract】
ニューラルseq2seqモデルは、⽣生成要約タスクにおいて実⾏行行可能で新しい⼿手法となっている.(これは、記
事の⽂文章を選択し選んだ⽂文章を再構成するという単純な意味ではない.)しかしながら、これらのモデルに
は2つの⽋欠点が存在する.ひとつは、詳細な事実を不不正確に⽣生成しがちであることだ.もうひとつは、それ
らを繰り返し⽣生成しがち(repetition)であることだ.本研究では、我々はseq2seq-‐‑‒attentionモデルを強
化した新しいアーキテクトを提案する.強化点は独⽴立立した2つの要素である.ひとつは、pointingの仕組み
によって元記事(src)から単語を使い回しつつ、generationの仕組みによって適切切な単語の⽣生成能⼒力力を有する
ハイブリッド型(⾼高度度異異要素統合型)のpointer-‐‑‒generator  networkを使⽤用していることだ.このとき、
Pointing機構は、情報の正しい再構築を⽀支援する.ふたつめは、repetitionを回避するために、要約される内
容の論論旨を管理理するcoverageの仕組みを⽤用いていることだ.我々は、提案⼿手法に対して  要約タスク⽤用の
CNN/DailyMailデータを⽤用いた.その結果、従来の最⾼高精度度のスコアから、ROUGEスコアで2ポイント以上
上回る結果を得た.
1.   Introduction
2.   Our  Models
3.   Related  Work
4.   Dataset
5.   Experiments
6.   Results
7.   Discussion
8.   Conclusion
1.   Introduction
2.   Our  Models
3.   Related  Work
4.   Dataset
5.   Experiments
6.   Results
7.   Discussion
8.   Conclusion
00:  Introduction
【  Text  Summarization  】
「原⽂文」の主要な情報を抽出し、より「短い⽂文章」で記述するタスク.
⽂文書要約タスク:2種類
Extractive  Summarization  :
  -‐‑‒  従来の多くの⽂文書要約(⾃自動要約)の研究枠組み
Abstractive  Summarization  :
  -‐‑‒  近年年、NNを利利⽤用して⾶飛躍的な精度度向上
•  原⽂文の⽂文章を直接使って(copyして)、要約⽂文を
構築.
•  簡単に実現出来る.
•  精度度や⽂文法構造も⼀一定の⽔水準を満たしている.
•  原⽂文に依らないフレーズや単語も含めて⽣生成的に
⽂文章を構築.
•  「⾔言い換え」や「常識識(世界知識識)」等を含んだ
⾼高度度な要約⽂文を⽣生成出来る可能性がある.
Src(原⽂文) Trg(要約⽂文)
Src(原⽂文) Trg(要約⽂文)
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
xxxxxxxxxxxxx
xxxxxxxxxxxxx
xxxxxxxxxxxxx
xxxxxxx
00:  Introduction
とはいえ・・・
Abstractive  Summarization  の課題は多い
•  Undesireble  behavior  such  as  inaccurately  reproducing  factual  details.
•  An  inability  to  deal  with  out-‐‑‒of-‐‑‒vocabulary  (OOV)
•  Repeating  themselves
Short  Text
(1  or  2  sentences)
Long  Text
(more  than  3  sentences)
Single  Document Headline  Generation 本研究の対象
Multi  Documents (Opinion  Mining)
Document  
Summary  length  
⽂文書要約タスクのタイプ
本研究(本論論⽂文)では、
•  Long-‐‑‒text  summarization  をタスクとして、
•  上記の課題  に対応するような、
•  新しいニューラルネットモデル  を提案する.
00:  Introduction
【提案⼿手法】
【データセット】 【評価指標】
•  Pointer-‐‑‒Generator  Network
-‐‑‒  新しい単語を⽣生成する能⼒力力と、原⽂文の単語を使い回す
  (copyする)能⼒力力を合わせもつ.
•  Coverage  Mechanism
-‐‑‒  単語のreputationを回避する仕組み
ROUGE-‐‑‒score
CNN/Daily  Mail  Dataset
    -‐‑‒  News記事(原⽂文を要約  /  English)
ココが⼤大切切
00:  Introduction
Attention
Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN)
Input-‐‑‒Sequence
Predicted  Vocab
Distribution
Context  Vector
00:  Introduction
Attention
Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN)
Input-‐‑‒Sequence
Attention
Distribution
Predicted  Vocab
Distribution
Context  Vector
00:  Introduction
Attention
Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN)
Input-‐‑‒Sequence
Attention
Distribution
Predicted  Vocab
Distribution
Context  Vector
pgen
Context  Vector
00:  Introduction
Attention
Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN)
Input-‐‑‒Sequence
Attention
Distribution
Predicted  Vocab
Distribution
Context  Vector
pgen
Final  Predicted  Vocab
Distribution
1  -‐‑‒  pgen
pgen
Context  Vector
00:  Introduction
Attention
Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN)
Input-‐‑‒Sequence
Attention
Distribution
Predicted  Vocab
Distribution
Context  Vector
pgen
Final  Predicted  Vocab
Distribution
1  -‐‑‒  pgen
pgen⼊入⼒力力系列列(src)
側の単語を
使い回す
気持ち
新しい表現を
⽣生み出す気持ち
Context  Vector
1.   Introduction
2.   Our  Models
3.   Related  Work
4.   Dataset
5.   Experiments
6.   Results
7.   Discussion
8.   Conclusion
00:  Our  Models
2.1  Sequence-‐‑‒to-‐‑‒Sequence  attention  model
[Encoder] [Decoder]
…
i+1
i
… …
ei
t
= vT
⋅ tanh Whh +Wss( )
at
= soft max(et
)
ht
∗
= ai
t
hi
i
∑
$
%
&
&
'
&
&
Encoder  hidden  state  :  
Decoder  hidden  state  :  s
h
Context  vector  :  h∗
詳しく知るには:
Neural  machine  translation  by  jointly  learning  to  align  and  translate  
                                                                                                                                                              [Bahdanau,  ICLRʼ’15]
Abstractive  text  summarization  using  sequence-‐‑‒to-‐‑‒sequence  RNN  and  beyond  
                                                                                                                                                                  [R.Nallapati  et  al,  CoNLLʼ’16]
00:  Our  Models
2.2  Pointer-‐‑‒generator  network
Attention
Attention
Distribution
Predicted  Vocab
Distribution
Context  Vector
pgen
1  -‐‑‒  pgen
pgen
Context  Vector
pgen = σ wh*
T
ht
*
+ ws
T
st + wx
T
xt + bptr( )
P(w) = pgenPvocab (w)+ 1− pgen( ) ai
t
i:wi=w
∑
Final  probability  distribution:  P(w)
context  vector:  
wh*
T
,ws
T
,wx
T
Generation  probability  :   pgen
ht
*
/  decoder  state:   st /  decoder  input:  xt
Vector  parameters:  
00:  Our  Models
2.3  Coverage  mechanism
Coverage  Vector  :  ct Attention
Distribution
sum
Decoder
Timestep
1
2
3
t-‐‑‒1
t
…
…
ct
Coverage
Vector
Dec側の過去の⼊入⼒力力に
対するattention  vector
を⾜足し合わせる.
ct
= at'
t'=0
t−1
∑
ct    is  a  (unnormalized)
distribution  over  the  source
document  words.
…
00:  Our  Models
2.3  Coverage  mechanism
ei
t
= vT
⋅ tanh Whh +Wss +Wcct
+ battn( )
covlosst
通常のアテンション計算式に
Coverage  Vectorの項を追加
Coverage  Loss  :  
covlosst = min(ai
t
,ci
t
)
i
∑
losst = −log(wt
*
)+ λ min(ai
t
,ci
t
)
i
∑
Attentionの計算  :  
Dec側のステップt番⽬目の単語に対する、
Enc側のi番⽬目のattention値と
coverage  (vectorの要素i)値を⽐比較し
て、⼩小さい⽅方を加算対象とする.
【解釈】:Dec側のステップt毎に毎回Enc側i番⽬目の単語が使われる状況を想定する.このとき、ci
tは、tに
従って増加して⾏行行き(蓄積される)、ステップtが進むにつれてai
tはci
tの値を超えにくなる(cが1を超えた場
合は、以後,  aがcovlossへの加算対象となる.)この時、min(a)となると、backprop時にDec側ステップtの
単語をEnc側i番⽬目の単語の性質から引っ張ってくることを強く抑制するように最適化がなされる.⼀一⽅方で、
min(c)となった場合は、Dec側の全てのtに対してEnc側i番⽬目の単語の性質の利利⽤用を抑制するように最適化が
なされる.したがって、全体としてEnc側同⼀一単語の利利⽤用を抑制しつつ、Dec時の局所的に⾼高い確率率率で単語を
繰り返すような場合もmin(a)によって抑制できる.→  Dec側tの同単語の繰返し⽣生成を抑制.
1.   Introduction
2.   Our  Models
3.   Related  Work
4.   Dataset
5.   Experiments
6.   Results
7.   Discussion
8.   Conclusion
論論⽂文内容にあまり影響
しないので、割愛
1.   Introduction
2.   Our  Models
3.   Related  Work
4.   Dataset
5.   Experiments
6.   Results
7.   Discussion
8.   Conclusion
00:  Dataset
CNN/Daily  Mail  Dataset  :  Online  news  articles
Source  (article) Target  (summary)
avg Sentence  :  -‐‑‒
Word  :  781  (tokens)
vocab 150k  size
avg Sentence  :  3.75  
Word  :  56  (tokens)
vocab 60k  size
Settings
•  Used  scripts  by  Nallapati  et  al  (2016)  for  pre-‐‑‒processing.
•  Used  the  original  text  (non-‐‑‒anonymized  version  of  the  data).
Train  set Validation  set Test  set
287,226 13,368 11,496
Dataset  size
1.   Introduction
2.   Our  Models
3.   Related  Work
4.   Dataset
5.   Experiments
6.   Results
7.   Discussion
8.   Conclusion
00:  Experiments
【  Model  Details  】
•  Hidden  layer    :  256  dims
•  Word  emb          :  128  dims
•  Vocab  :  2  types
src trg
(large) 150k 60k
(small) 50k 50k
【  Setting  Details  】
Optimize Adagrad
Init-‐‑‒lr 0.15
Init-‐‑‒accumlator    value 0.1
Regularize  terms ×
Max  grad-‐‑‒clipping  size 2
Early-‐‑‒stopping ○
Batch  size 16
Beam  size  (for  test) 4
【  Environment  &  procedure  】
Single  GPU
      -‐‑‒  Tesla  K40m  GPU
-‐‑‒  実験⼿手続き  について
>  Training  時  :
>  Test  時  :
•  Word-‐‑‒Embのpre-‐‑‒train無し.
•  Src側は、400  tokens  で打切切
•  Trg側は、100  tokens  で打切切
•  Src側は、400  tokens  で打切切
•  Trg側は、120  tokens  で打切切
-‐‑‒  実⾏行行環境  について
評価指標
-‐‑‒  ROUGE  scores  (F1値)
-‐‑‒  METEOR  scores
00:  Experiments
【  Training  time  (Calculation  cost)  】
Proposed  Model Baseline  Model
•  230,000  iters  (12.8  epoch)
•  About  3  days  +  4  hours
50  k 4  days
+14  hours
150k 8  days
+21  hours
600000  iters
(33  epoch)
-‐‑‒  Other  Settings  -‐‑‒
•  Coverage  Loss  Weight  :  λ=1
•  最終的なモデルは、さらに3000iter追加して調整(約2時間)
-‐‑‒  Inspection  -‐‑‒
•  λ=2でも実験したが、Coverage  Lossは減少したものの、Primary  Lossが
    増加して使い物にならなかった.
•  Coverage  Model(提案モデル)に対してCoverage  Lossを導⼊入していない
    パターンでも実験した.Attention機構が⾃自⼰己主体的にrepetationを回避する
    ことを期待しての実験だったが、上⼿手くはいかなった.
1.   Introduction
2.   Our  Models
3.   Related  Work
4.   Dataset
5.   Experiments
6.   Results
7.   Discussion
8.   Conclusion
00:  Results
•  ⼿手法:lead-‐‑‒3は、src記事冒頭3⽂文抜出で提案⼿手法よりも精度度が良良い.
•  Nallaptiらの⼿手法は、anonymizedされたデータを利利⽤用しているが、
本研究では、オリジナル通りのデータを利利⽤用しており、⼀一概に⽐比較は
できないが、提案⼿手法の⽅方がスコアが良良い.⼿手法:lead-‐‑‒3でもオリ
ジナル通りのデータの⽅方がスコアが勝っている.
00:  Results
•  ベースラインモデル(seq2se2-‐‑‒attention)では、時々、意味の無い
繰返し⽂文が⽣生成される.Fig.1における第3⽂文章がそれに該当する.
•  また、ベースラインモデルは、OOVを別の単語に置換えて表現する
ことが出来ない.(UNK  がそのまま⽣生成される.)
1.   Introduction
2.   Our  Models
3.   Related  Work
4.   Dataset
5.   Experiments
6.   Results
7.   Discussion
8.   Conclusion
00:  Discussion
7.1  Comparison  with  extractive  systems
•  抽出型要約⽅方式の⽅方が、⽣生成要約型⽅方式よりもROUGEスコアが⾼高い.
•  これには、2つの説明ができそうだ.
【説明:1】
【説明:2】
•  ニュース記事は、冒頭に極めて重要な情報が現れやすい.これに
よって部分的にベースラインモデル:lead-‐‑‒3  の強さを説明出来る.
•  実際、記事から冒頭400  tokens(20  sentences)抜出の⽅方が、800  
tokens抜出の場合よりも、ROUGEスコアが⾼高かった.
•  タスクとROUGEスコアの性質上、抽出要約型⽅方式やlead-‐‑‒3に勝つ
ことは難しい.
•  ⽣生成要約型⽅方式は⾔言い換えや元記事と似た⽂文章を⽣生み出すが、
ROUGEスコアではこれらは0スコアとなり評価されない.
lead-‐‑‒3(冒頭⽂文抜出)  >  抽出要約⽅方式  >  ⽣生成要約⽅方式
【ここまでのまとめ】:ROUGEスコアを評価指標とする要約タスクは、
00:  Discussion
7.1  Comparison  with  extractive  systems
ROUGEスコアは、元記事の冒頭⽂文章を利利⽤用したり元記事の表現を使い回す
といった安直な戦略略に対して良良い評価を⾏行行う.
これが、抽出要約⽅方式が⽣生成要約⽅方式よりもROUGEスコアが⾼高く、
抽出要約⽅方式ですら、ベースライン:lead-‐‑‒3(冒頭3⽂文抜出)に勝て
ない理理由である.
METEORスコア
00:  Discussion
7.1  Comparison  with  extractive  systems
前述の課題に対応するために、METEORスコアによる評価を⾏行行なった.
予測⽂文と正解⽂文の単語⼀一致だけでなく、(事前に辞書が必要ではあるが)
語幹、同義語や⾔言い換えにも良良い評価を与える.
•  提案法が、他の⽣生成要約モデルに⽐比べて1ポイント以上優位結果を⽰示した.
•  ⼀一⽅方で、lead-‐‑‒3には負けている.これは、ニュース記事の形式がlead-‐‑‒3を
評価指標に対して⾮非常に強くさせているのだろう.
00:  Discussion
7.1  Comparison  with  extractive  systems
We  believe  that  investigating  this  issue  further  is  an  
important  direction  for  future  work.
7.2  How  abstractive  is  our  model  ?
We  have  show  that  our  pointer  mechanism  makes  
our  abstractive  system  more  reliable,  copying  factual  
details  correctly  more  often.  But,  does  the  ease  of  
copying  make  our  system  any  less  abstractive  ?
•  ⽣生成要約タスクにおいて、現⾏行行の評価指標には限界がある.
•  pointer  mechanismは、詳細な事実を正しくコピーでき、確かに提案
法をより良良いものとした.
•  だが、コピーの容易易さはむしろ我々のモデルから⽣生成要約らしさを減ら
してしまっているのではないか?
00:  Discussion
7.2  How  abstractive  is  our  model  ?
⽣生成された要約⽂文に対するsrc側に含まれる表現のn-‐‑‒gram毎の含有率率率
Fig.7  )  図の2つのArticleは、どち
らも要約時には「X  beat  Y  
<score>  on  <day>」のような典
型的な⽂文章になる例例.
00:  Discussion
7.2  How  abstractive  is  our  model  ?
Fig.5  )  提案⼿手法による⽣生成要約例例.
典型的な要約⽂文ではなく、新しい語
を使って要約⽂文を⽣生成している.
00:  Discussion
7.2  How  abstractive  is  our  model  ?
•  Train  時    :  0.30  →  0.53  (train終了了時)
•  Test  時      :    avg-‐‑‒0.17
pgen  は、提案⼿手法における⽣生成要約らしさの尺度度.
モデルは、最初src側のコピーを多く⾏行行なうが、半時間程で⽣生成すること
を学習.
1.   Introduction
2.   Our  Models
3.   Related  Work
4.   Dataset
5.   Experiments
6.   Results
7.   Discussion
8.   Conclusion
00:Conclusion
•  Pointer-‐‑‒generator  network  を提案した.
•  実験では、提案法を  long-‐‑‒text  dataset  を⽤用いた
abstractive  summarizationタスクで最⾼高精度度を達成した.
-‐‑‒  Repetition  と  間違い出⼒力力  を軽減.
END

More Related Content

What's hot

猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
なにわTech20170218(tpu) tfug
なにわTech20170218(tpu) tfugなにわTech20170218(tpu) tfug
なにわTech20170218(tpu) tfugNatsutani Minoru
 
Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015Ryosuke Okuta
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Seiya Tokui
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理Preferred Networks
 
Pythonによる機械学習入門〜基礎からDeep Learningまで〜
Pythonによる機械学習入門〜基礎からDeep Learningまで〜Pythonによる機械学習入門〜基礎からDeep Learningまで〜
Pythonによる機械学習入門〜基礎からDeep Learningまで〜Yasutomo Kawanishi
 
Building High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningBuilding High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningTakuya Minagawa
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence LearningDeep Learning JP
 
Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)Kenta Oono
 
ディープニューラルネット入門
ディープニューラルネット入門ディープニューラルネット入門
ディープニューラルネット入門TanUkkii
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstmFujimoto Keisuke
 
「深層学習」勉強会LT資料 "Chainer使ってみた"
「深層学習」勉強会LT資料 "Chainer使ってみた"「深層学習」勉強会LT資料 "Chainer使ってみた"
「深層学習」勉強会LT資料 "Chainer使ってみた"Ken'ichi Matsui
 
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用 2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用 Kenta Oono
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装Ryosuke Okuta
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesKoji Matsuda
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 

What's hot (20)

猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
なにわTech20170218(tpu) tfug
なにわTech20170218(tpu) tfugなにわTech20170218(tpu) tfug
なにわTech20170218(tpu) tfug
 
Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
Pythonによる機械学習入門〜基礎からDeep Learningまで〜
Pythonによる機械学習入門〜基礎からDeep Learningまで〜Pythonによる機械学習入門〜基礎からDeep Learningまで〜
Pythonによる機械学習入門〜基礎からDeep Learningまで〜
 
Building High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningBuilding High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised Learning
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)
 
ディープニューラルネット入門
ディープニューラルネット入門ディープニューラルネット入門
ディープニューラルネット入門
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstm
 
「深層学習」勉強会LT資料 "Chainer使ってみた"
「深層学習」勉強会LT資料 "Chainer使ってみた"「深層学習」勉強会LT資料 "Chainer使ってみた"
「深層学習」勉強会LT資料 "Chainer使ってみた"
 
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用 2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 

Similar to Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介

[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...Deep Learning JP
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
 
演習II.第1章 ベイズ推論の考え方 Part 3.スライド
演習II.第1章 ベイズ推論の考え方 Part 3.スライド演習II.第1章 ベイズ推論の考え方 Part 3.スライド
演習II.第1章 ベイズ推論の考え方 Part 3.スライドWataru Shito
 
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live![part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!KnowledgeGraph
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleToru Tamaki
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
Eureka agora tech talk 20170829
Eureka agora tech talk 20170829Eureka agora tech talk 20170829
Eureka agora tech talk 20170829Shinnosuke Ohkubo
 
各言語の k-means 比較
各言語の k-means 比較各言語の k-means 比較
各言語の k-means 比較y-uti
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawaRCCSRENKEI
 
非分離冗長重複変換の事例学習設計における効果的辞書更新
非分離冗長重複変換の事例学習設計における効果的辞書更新非分離冗長重複変換の事例学習設計における効果的辞書更新
非分離冗長重複変換の事例学習設計における効果的辞書更新Shogo Muramatsu
 
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvqパターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvqsleipnir002
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...Deep Learning JP
 
PostgreSQL 9.5 CPU Read Scalability
PostgreSQL 9.5 CPU Read ScalabilityPostgreSQL 9.5 CPU Read Scalability
PostgreSQL 9.5 CPU Read ScalabilityOhyama Masanori
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 

Similar to Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介 (20)

[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
演習II.第1章 ベイズ推論の考え方 Part 3.スライド
演習II.第1章 ベイズ推論の考え方 Part 3.スライド演習II.第1章 ベイズ推論の考え方 Part 3.スライド
演習II.第1章 ベイズ推論の考え方 Part 3.スライド
 
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live![part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
Eureka agora tech talk 20170829
Eureka agora tech talk 20170829Eureka agora tech talk 20170829
Eureka agora tech talk 20170829
 
各言語の k-means 比較
各言語の k-means 比較各言語の k-means 比較
各言語の k-means 比較
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
非分離冗長重複変換の事例学習設計における効果的辞書更新
非分離冗長重複変換の事例学習設計における効果的辞書更新非分離冗長重複変換の事例学習設計における効果的辞書更新
非分離冗長重複変換の事例学習設計における効果的辞書更新
 
パターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvqパターン認識 08 09 k-近傍法 lvq
パターン認識 08 09 k-近傍法 lvq
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
 
PostgreSQL 9.5 CPU Read Scalability
PostgreSQL 9.5 CPU Read ScalabilityPostgreSQL 9.5 CPU Read Scalability
PostgreSQL 9.5 CPU Read Scalability
 
Wssit slide
Wssit slideWssit slide
Wssit slide
 
Information extraction 1
Information extraction 1Information extraction 1
Information extraction 1
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 

More from Masayoshi Kondo

Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Masayoshi Kondo
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介Masayoshi Kondo
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Masayoshi Kondo
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Masayoshi Kondo
 
深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2Masayoshi Kondo
 
深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1Masayoshi Kondo
 
深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2Masayoshi Kondo
 
深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1Masayoshi Kondo
 
深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2Masayoshi Kondo
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1Masayoshi Kondo
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2Masayoshi Kondo
 

More from Masayoshi Kondo (13)

Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介
 
Deep Learning
Deep LearningDeep Learning
Deep Learning
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
 
深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2
 
深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1
 
深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2
 
深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1
 
深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
 

Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介

  • 1. 2017.06.26 NAIST  ⾃自然⾔言語処理理学研究室 D1  Masayoshi  Kondo   論論⽂文紹介-‐‑‒  About  Neural  Summarization@2017   Get  To  The  Point  :  Summarization  with Pointer-‐‑‒Generator  Networks ACLʼ’17 Abigail  See Stanford  University Peter  J.  Liu Google  Brain Christopher  D.  Manning Stanford  University
  • 2. 00:  論論⽂文の概要 •  ニューラルネットを⽤用いた⽣生成要約タスクの研究  (  in:原⽂文  →  NN  →  out:要約⽂文  ). •  複数⽂文要約⽣生成タスクの研究に取り組み、⻑⾧長⽂文の要約⽣生成を実現する⼯工夫点が⾒見見どころ. •  NNアーキテクチャは、Enc:bi-‐‑‒directional  RNN  /  Dec:  RNN  のSeq2Seq型モデルを ベースに  pointer  mechanism(attention  mechanism)  /  coverage  mechanism   を組み込んだモデル. •  実験データは、CNN/Daily  Mailデータ  を加⼯工したmulti-‐‑‒sentence  summarization⽤用の データセット.評価指標は、ROUGE-‐‑‒score. •  先⾏行行研究の⼿手法に⽐比べ、2ポイント以上の精度度向上を実現. 【まとめ】 【abstract】 ニューラルseq2seqモデルは、⽣生成要約タスクにおいて実⾏行行可能で新しい⼿手法となっている.(これは、記 事の⽂文章を選択し選んだ⽂文章を再構成するという単純な意味ではない.)しかしながら、これらのモデルに は2つの⽋欠点が存在する.ひとつは、詳細な事実を不不正確に⽣生成しがちであることだ.もうひとつは、それ らを繰り返し⽣生成しがち(repetition)であることだ.本研究では、我々はseq2seq-‐‑‒attentionモデルを強 化した新しいアーキテクトを提案する.強化点は独⽴立立した2つの要素である.ひとつは、pointingの仕組み によって元記事(src)から単語を使い回しつつ、generationの仕組みによって適切切な単語の⽣生成能⼒力力を有する ハイブリッド型(⾼高度度異異要素統合型)のpointer-‐‑‒generator  networkを使⽤用していることだ.このとき、 Pointing機構は、情報の正しい再構築を⽀支援する.ふたつめは、repetitionを回避するために、要約される内 容の論論旨を管理理するcoverageの仕組みを⽤用いていることだ.我々は、提案⼿手法に対して  要約タスク⽤用の CNN/DailyMailデータを⽤用いた.その結果、従来の最⾼高精度度のスコアから、ROUGEスコアで2ポイント以上 上回る結果を得た.
  • 3. 1.   Introduction 2.   Our  Models 3.   Related  Work 4.   Dataset 5.   Experiments 6.   Results 7.   Discussion 8.   Conclusion
  • 4. 1.   Introduction 2.   Our  Models 3.   Related  Work 4.   Dataset 5.   Experiments 6.   Results 7.   Discussion 8.   Conclusion
  • 5. 00:  Introduction 【  Text  Summarization  】 「原⽂文」の主要な情報を抽出し、より「短い⽂文章」で記述するタスク. ⽂文書要約タスク:2種類 Extractive  Summarization  :   -‐‑‒  従来の多くの⽂文書要約(⾃自動要約)の研究枠組み Abstractive  Summarization  :   -‐‑‒  近年年、NNを利利⽤用して⾶飛躍的な精度度向上 •  原⽂文の⽂文章を直接使って(copyして)、要約⽂文を 構築. •  簡単に実現出来る. •  精度度や⽂文法構造も⼀一定の⽔水準を満たしている. •  原⽂文に依らないフレーズや単語も含めて⽣生成的に ⽂文章を構築. •  「⾔言い換え」や「常識識(世界知識識)」等を含んだ ⾼高度度な要約⽂文を⽣生成出来る可能性がある. Src(原⽂文) Trg(要約⽂文) Src(原⽂文) Trg(要約⽂文) -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ xxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxx
  • 6. 00:  Introduction とはいえ・・・ Abstractive  Summarization  の課題は多い •  Undesireble  behavior  such  as  inaccurately  reproducing  factual  details. •  An  inability  to  deal  with  out-‐‑‒of-‐‑‒vocabulary  (OOV) •  Repeating  themselves Short  Text (1  or  2  sentences) Long  Text (more  than  3  sentences) Single  Document Headline  Generation 本研究の対象 Multi  Documents (Opinion  Mining) Document   Summary  length   ⽂文書要約タスクのタイプ 本研究(本論論⽂文)では、 •  Long-‐‑‒text  summarization  をタスクとして、 •  上記の課題  に対応するような、 •  新しいニューラルネットモデル  を提案する.
  • 7. 00:  Introduction 【提案⼿手法】 【データセット】 【評価指標】 •  Pointer-‐‑‒Generator  Network -‐‑‒  新しい単語を⽣生成する能⼒力力と、原⽂文の単語を使い回す   (copyする)能⼒力力を合わせもつ. •  Coverage  Mechanism -‐‑‒  単語のreputationを回避する仕組み ROUGE-‐‑‒score CNN/Daily  Mail  Dataset    -‐‑‒  News記事(原⽂文を要約  /  English) ココが⼤大切切
  • 8. 00:  Introduction Attention Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN) Input-‐‑‒Sequence Predicted  Vocab Distribution Context  Vector
  • 9. 00:  Introduction Attention Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN) Input-‐‑‒Sequence Attention Distribution Predicted  Vocab Distribution Context  Vector
  • 10. 00:  Introduction Attention Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN) Input-‐‑‒Sequence Attention Distribution Predicted  Vocab Distribution Context  Vector pgen Context  Vector
  • 11. 00:  Introduction Attention Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN) Input-‐‑‒Sequence Attention Distribution Predicted  Vocab Distribution Context  Vector pgen Final  Predicted  Vocab Distribution 1  -‐‑‒  pgen pgen Context  Vector
  • 12. 00:  Introduction Attention Encoder  (Bi-‐‑‒LSTM) Decoder  (RNN) Input-‐‑‒Sequence Attention Distribution Predicted  Vocab Distribution Context  Vector pgen Final  Predicted  Vocab Distribution 1  -‐‑‒  pgen pgen⼊入⼒力力系列列(src) 側の単語を 使い回す 気持ち 新しい表現を ⽣生み出す気持ち Context  Vector
  • 13. 1.   Introduction 2.   Our  Models 3.   Related  Work 4.   Dataset 5.   Experiments 6.   Results 7.   Discussion 8.   Conclusion
  • 14. 00:  Our  Models 2.1  Sequence-‐‑‒to-‐‑‒Sequence  attention  model [Encoder] [Decoder] … i+1 i … … ei t = vT ⋅ tanh Whh +Wss( ) at = soft max(et ) ht ∗ = ai t hi i ∑ $ % & & ' & & Encoder  hidden  state  :   Decoder  hidden  state  :  s h Context  vector  :  h∗ 詳しく知るには: Neural  machine  translation  by  jointly  learning  to  align  and  translate                                                                                                                                                                [Bahdanau,  ICLRʼ’15] Abstractive  text  summarization  using  sequence-‐‑‒to-‐‑‒sequence  RNN  and  beyond                                                                                                                                                                    [R.Nallapati  et  al,  CoNLLʼ’16]
  • 15. 00:  Our  Models 2.2  Pointer-‐‑‒generator  network Attention Attention Distribution Predicted  Vocab Distribution Context  Vector pgen 1  -‐‑‒  pgen pgen Context  Vector pgen = σ wh* T ht * + ws T st + wx T xt + bptr( ) P(w) = pgenPvocab (w)+ 1− pgen( ) ai t i:wi=w ∑ Final  probability  distribution:  P(w) context  vector:   wh* T ,ws T ,wx T Generation  probability  :   pgen ht * /  decoder  state:   st /  decoder  input:  xt Vector  parameters:  
  • 16. 00:  Our  Models 2.3  Coverage  mechanism Coverage  Vector  :  ct Attention Distribution sum Decoder Timestep 1 2 3 t-‐‑‒1 t … … ct Coverage Vector Dec側の過去の⼊入⼒力力に 対するattention  vector を⾜足し合わせる. ct = at' t'=0 t−1 ∑ ct    is  a  (unnormalized) distribution  over  the  source document  words. …
  • 17. 00:  Our  Models 2.3  Coverage  mechanism ei t = vT ⋅ tanh Whh +Wss +Wcct + battn( ) covlosst 通常のアテンション計算式に Coverage  Vectorの項を追加 Coverage  Loss  :   covlosst = min(ai t ,ci t ) i ∑ losst = −log(wt * )+ λ min(ai t ,ci t ) i ∑ Attentionの計算  :   Dec側のステップt番⽬目の単語に対する、 Enc側のi番⽬目のattention値と coverage  (vectorの要素i)値を⽐比較し て、⼩小さい⽅方を加算対象とする. 【解釈】:Dec側のステップt毎に毎回Enc側i番⽬目の単語が使われる状況を想定する.このとき、ci tは、tに 従って増加して⾏行行き(蓄積される)、ステップtが進むにつれてai tはci tの値を超えにくなる(cが1を超えた場 合は、以後,  aがcovlossへの加算対象となる.)この時、min(a)となると、backprop時にDec側ステップtの 単語をEnc側i番⽬目の単語の性質から引っ張ってくることを強く抑制するように最適化がなされる.⼀一⽅方で、 min(c)となった場合は、Dec側の全てのtに対してEnc側i番⽬目の単語の性質の利利⽤用を抑制するように最適化が なされる.したがって、全体としてEnc側同⼀一単語の利利⽤用を抑制しつつ、Dec時の局所的に⾼高い確率率率で単語を 繰り返すような場合もmin(a)によって抑制できる.→  Dec側tの同単語の繰返し⽣生成を抑制.
  • 18. 1.   Introduction 2.   Our  Models 3.   Related  Work 4.   Dataset 5.   Experiments 6.   Results 7.   Discussion 8.   Conclusion 論論⽂文内容にあまり影響 しないので、割愛
  • 19. 1.   Introduction 2.   Our  Models 3.   Related  Work 4.   Dataset 5.   Experiments 6.   Results 7.   Discussion 8.   Conclusion
  • 20. 00:  Dataset CNN/Daily  Mail  Dataset  :  Online  news  articles Source  (article) Target  (summary) avg Sentence  :  -‐‑‒ Word  :  781  (tokens) vocab 150k  size avg Sentence  :  3.75   Word  :  56  (tokens) vocab 60k  size Settings •  Used  scripts  by  Nallapati  et  al  (2016)  for  pre-‐‑‒processing. •  Used  the  original  text  (non-‐‑‒anonymized  version  of  the  data). Train  set Validation  set Test  set 287,226 13,368 11,496 Dataset  size
  • 21. 1.   Introduction 2.   Our  Models 3.   Related  Work 4.   Dataset 5.   Experiments 6.   Results 7.   Discussion 8.   Conclusion
  • 22. 00:  Experiments 【  Model  Details  】 •  Hidden  layer    :  256  dims •  Word  emb          :  128  dims •  Vocab  :  2  types src trg (large) 150k 60k (small) 50k 50k 【  Setting  Details  】 Optimize Adagrad Init-‐‑‒lr 0.15 Init-‐‑‒accumlator    value 0.1 Regularize  terms × Max  grad-‐‑‒clipping  size 2 Early-‐‑‒stopping ○ Batch  size 16 Beam  size  (for  test) 4 【  Environment  &  procedure  】 Single  GPU      -‐‑‒  Tesla  K40m  GPU -‐‑‒  実験⼿手続き  について >  Training  時  : >  Test  時  : •  Word-‐‑‒Embのpre-‐‑‒train無し. •  Src側は、400  tokens  で打切切 •  Trg側は、100  tokens  で打切切 •  Src側は、400  tokens  で打切切 •  Trg側は、120  tokens  で打切切 -‐‑‒  実⾏行行環境  について 評価指標 -‐‑‒  ROUGE  scores  (F1値) -‐‑‒  METEOR  scores
  • 23. 00:  Experiments 【  Training  time  (Calculation  cost)  】 Proposed  Model Baseline  Model •  230,000  iters  (12.8  epoch) •  About  3  days  +  4  hours 50  k 4  days +14  hours 150k 8  days +21  hours 600000  iters (33  epoch) -‐‑‒  Other  Settings  -‐‑‒ •  Coverage  Loss  Weight  :  λ=1 •  最終的なモデルは、さらに3000iter追加して調整(約2時間) -‐‑‒  Inspection  -‐‑‒ •  λ=2でも実験したが、Coverage  Lossは減少したものの、Primary  Lossが     増加して使い物にならなかった. •  Coverage  Model(提案モデル)に対してCoverage  Lossを導⼊入していない     パターンでも実験した.Attention機構が⾃自⼰己主体的にrepetationを回避する    ことを期待しての実験だったが、上⼿手くはいかなった.
  • 24. 1.   Introduction 2.   Our  Models 3.   Related  Work 4.   Dataset 5.   Experiments 6.   Results 7.   Discussion 8.   Conclusion
  • 25. 00:  Results •  ⼿手法:lead-‐‑‒3は、src記事冒頭3⽂文抜出で提案⼿手法よりも精度度が良良い. •  Nallaptiらの⼿手法は、anonymizedされたデータを利利⽤用しているが、 本研究では、オリジナル通りのデータを利利⽤用しており、⼀一概に⽐比較は できないが、提案⼿手法の⽅方がスコアが良良い.⼿手法:lead-‐‑‒3でもオリ ジナル通りのデータの⽅方がスコアが勝っている.
  • 26. 00:  Results •  ベースラインモデル(seq2se2-‐‑‒attention)では、時々、意味の無い 繰返し⽂文が⽣生成される.Fig.1における第3⽂文章がそれに該当する. •  また、ベースラインモデルは、OOVを別の単語に置換えて表現する ことが出来ない.(UNK  がそのまま⽣生成される.)
  • 27. 1.   Introduction 2.   Our  Models 3.   Related  Work 4.   Dataset 5.   Experiments 6.   Results 7.   Discussion 8.   Conclusion
  • 28. 00:  Discussion 7.1  Comparison  with  extractive  systems •  抽出型要約⽅方式の⽅方が、⽣生成要約型⽅方式よりもROUGEスコアが⾼高い. •  これには、2つの説明ができそうだ. 【説明:1】 【説明:2】 •  ニュース記事は、冒頭に極めて重要な情報が現れやすい.これに よって部分的にベースラインモデル:lead-‐‑‒3  の強さを説明出来る. •  実際、記事から冒頭400  tokens(20  sentences)抜出の⽅方が、800   tokens抜出の場合よりも、ROUGEスコアが⾼高かった. •  タスクとROUGEスコアの性質上、抽出要約型⽅方式やlead-‐‑‒3に勝つ ことは難しい. •  ⽣生成要約型⽅方式は⾔言い換えや元記事と似た⽂文章を⽣生み出すが、 ROUGEスコアではこれらは0スコアとなり評価されない.
  • 29. lead-‐‑‒3(冒頭⽂文抜出)  >  抽出要約⽅方式  >  ⽣生成要約⽅方式 【ここまでのまとめ】:ROUGEスコアを評価指標とする要約タスクは、 00:  Discussion 7.1  Comparison  with  extractive  systems ROUGEスコアは、元記事の冒頭⽂文章を利利⽤用したり元記事の表現を使い回す といった安直な戦略略に対して良良い評価を⾏行行う. これが、抽出要約⽅方式が⽣生成要約⽅方式よりもROUGEスコアが⾼高く、 抽出要約⽅方式ですら、ベースライン:lead-‐‑‒3(冒頭3⽂文抜出)に勝て ない理理由である.
  • 30. METEORスコア 00:  Discussion 7.1  Comparison  with  extractive  systems 前述の課題に対応するために、METEORスコアによる評価を⾏行行なった. 予測⽂文と正解⽂文の単語⼀一致だけでなく、(事前に辞書が必要ではあるが) 語幹、同義語や⾔言い換えにも良良い評価を与える. •  提案法が、他の⽣生成要約モデルに⽐比べて1ポイント以上優位結果を⽰示した. •  ⼀一⽅方で、lead-‐‑‒3には負けている.これは、ニュース記事の形式がlead-‐‑‒3を 評価指標に対して⾮非常に強くさせているのだろう.
  • 31. 00:  Discussion 7.1  Comparison  with  extractive  systems We  believe  that  investigating  this  issue  further  is  an   important  direction  for  future  work. 7.2  How  abstractive  is  our  model  ? We  have  show  that  our  pointer  mechanism  makes   our  abstractive  system  more  reliable,  copying  factual   details  correctly  more  often.  But,  does  the  ease  of   copying  make  our  system  any  less  abstractive  ? •  ⽣生成要約タスクにおいて、現⾏行行の評価指標には限界がある. •  pointer  mechanismは、詳細な事実を正しくコピーでき、確かに提案 法をより良良いものとした. •  だが、コピーの容易易さはむしろ我々のモデルから⽣生成要約らしさを減ら してしまっているのではないか?
  • 32. 00:  Discussion 7.2  How  abstractive  is  our  model  ? ⽣生成された要約⽂文に対するsrc側に含まれる表現のn-‐‑‒gram毎の含有率率率
  • 33. Fig.7  )  図の2つのArticleは、どち らも要約時には「X  beat  Y   <score>  on  <day>」のような典 型的な⽂文章になる例例. 00:  Discussion 7.2  How  abstractive  is  our  model  ? Fig.5  )  提案⼿手法による⽣生成要約例例. 典型的な要約⽂文ではなく、新しい語 を使って要約⽂文を⽣生成している.
  • 34. 00:  Discussion 7.2  How  abstractive  is  our  model  ? •  Train  時    :  0.30  →  0.53  (train終了了時) •  Test  時      :    avg-‐‑‒0.17 pgen  は、提案⼿手法における⽣生成要約らしさの尺度度. モデルは、最初src側のコピーを多く⾏行行なうが、半時間程で⽣生成すること を学習.
  • 35. 1.   Introduction 2.   Our  Models 3.   Related  Work 4.   Dataset 5.   Experiments 6.   Results 7.   Discussion 8.   Conclusion
  • 36. 00:Conclusion •  Pointer-‐‑‒generator  network  を提案した. •  実験では、提案法を  long-‐‑‒text  dataset  を⽤用いた abstractive  summarizationタスクで最⾼高精度度を達成した. -‐‑‒  Repetition  と  間違い出⼒力力  を軽減.
  • 37. END