SlideShare a Scribd company logo
九州工業大学大学院 情報工学府 情報工学専攻
嶋田研究室 山村 崇
Abstractive Text Summarization
using Sequence-to-sequence
RNNs and Beyond @CoNLL2016
Abstract
▶ Abstractive Summarization
Neural Machine Translation(NMT)ベース
• encoder-decoder + attention
翻訳と要約のタスクの違いを考慮したモデルの提案
• 要約特有の問題に対処
2
Abstractive Text Sum. using seq2seq RNNs and Beyond
(未知語)
重要語
Large Vocabulary Trick
Feature-rich Encoder
Switching Generator-Pointer
Temporal Attention
Hierarchical Attention入力文書の構造
Related Work
3
Abstractive Summarization
Rush+ 2015Hu+ 2015
Chopra+ 2016
LCSTS Gigaword DUC
CNN /
DailyMail NYT
Nallapati+ 2016
See+ 2017
Pauls+ 2017
のデータセットを構築
の問題を改善
の を改良
中国語の短文要約のためのデータセットを構築
の を にして性能向上
・
のデータセット
・
source sequence
target sequence
Encoder Decoder
MT and Summarization
▶ 単純にNMTを応用すればOK?
タスクの違いをちゃんと考慮しよう
4
Introduction
Translation Summarization
𝑠𝑜𝑢𝑟𝑐𝑒 ≒ |𝑡𝑎𝑟𝑔𝑒𝑡| 𝑠𝑜𝑢𝑟𝑐𝑒 > |𝑡𝑎𝑟𝑔𝑒𝑡|
loss-less generation lossy compression
the target covers
all the content
of the source
文長
変換
内容
the target covers
only important content
of the source
Large Vocabulary Trick (LVT)
▶ Baseline Model [Bahdanu et al., 2014]
Encoder-Decoder
• bi-directional GRU-RNN
• uni-directional GRU-RNN
Attention
▶ Large vocabulary ‘trick’(LVT) [Jean et al., 2014]
decoderの語彙を効果的に選択
• ミニバッチ内のソースの語彙
• ターゲットの高頻度語彙 (2K / 5K)
- 学習時間の削減(なるべく語彙サイズを制限したい)
- 要約は,大部分が入力文書と共通しているので適している
5
Models
source sequence
Encoder Decoder
target sequence
Attention
Feature-rich Encoder
▶ 単純に入力系列を学習してもダメ
基本:単語ベクトル (Word Embedding)
入力系列中の重要語を学習したい
6
Models
Word Embedding
(word2vec)
Feature-rich Encoder
▶ 単純に入力系列を学習してもダメ
基本:単語ベクトル (Word Embedding)
入力系列中の重要語を学習したい
7
Models
Word Embedding
(word2vec)
POS : Part-Of-Speech
NER : Named Entity Tag
TF : Term Frequency
IDF : Inverse Document Frequency
Switching Generator-Pointer
▶ 未知語(OOV語)のモデル化
要約では,入力のキーワードや固有表現が重要
• しかし,訓練事例にはほとんど出てこない
• Pointer Network [Vinyals et al., 2015] を適用
各単語を出力する際に「生成」か「コピー」か決定
• Switch -> on
- 通常の方法で語彙を生成
• Switch -> off
- Source側から語彙をコピー(選択)して,語彙を決定
8
Models
𝑃 𝑠𝑖 = 1 = 𝜎(𝒗 𝒔 ∙ 𝑾ℎ
𝑠
𝒉𝑖 + 𝑾 𝑒
𝑠 𝑬 𝑜𝑖−1 + 𝑾 𝑐
𝑠 𝒄𝒊 + 𝒃 𝑠 )
decoderの隠れ層 直前の単語ベクトル Context vector
Switching Generator-Pointer
9
Models
G G GGP
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
𝑃 𝑝(𝑖) 𝒚−𝑖, 𝒙 (1 − 𝑃 𝑠𝑖 )
𝑃 𝑦𝑖 𝒚−𝑖, 𝒙 𝑃(𝑠𝑖) generate from vocabulary
copy input word
Hierarchical Attention [Li et al., 2015]
▶ 入力が長い場合に重要語と重要文を特定
source側で2つのbi-directional RNNsを適用
• 文レベル
• 単語レベル
- 何文目かの素性を追加
文レベルと単語レベルの2つのアテンションを考慮
10
Models
Re-scaled attention
word level sentence level
Hierarchical Attention
11
Models
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
Hidden
state
単
語
文
<eos>
1文 1文
sentence-level attention
word-level attention
new
word sentence
Hierarchical Attention
12
Models
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
Hidden
state
単
語
文
<eos>
1文 1文
sentence-level attention
word-level attention
new
word sentence
Hierarchical Attention
13
Models
Encoder Decoder
Input
Layer
Hidden
state
Output
Layer
Hidden
state
単
語
文
<eos>
1文 1文
sentence-level attention
word-level attention
new
word sentence
Temporal Attention [Sankaran et al., 2016]
▶ 同じ単語が出力されるのを防ぐ (Repeating)
どの単語が出力されるかはAttentionが鍵
これまで(過去)のAttentionの情報を使う
• 過去に多くAttentionしてるなら重みを下げる
14
Models
<s> Russia calls for
これまでの履歴
現在のAttention
𝛼 𝑡 ∝
𝛼 𝑡
′
𝛽𝑡
𝛽𝑡 = ෍
𝑘=1
𝑡−1
𝛼 𝑘
′
現在の単語tのAttention
過去の単語tのAttention
の総和
Attention Coverage Model [See+ 2017]
Intra-Attention Model [Paulus+ 2017]
Gigaword Corpus
◆ [1-5] 提案手法の各モデルが性能向上に寄与
- feats-lvt2k-2sent-ptr[5]が一番良い結果(全部入れ)
◆ [6-9] 他手法との比較 (Rushらのtest set)
- Rushらと同条件で比較(1文を学習 + 特徴なし)
- Baseline (ABS+)よりもRougeとcopy rateで良い結果
- 提案手法words-lvt5k-1sent[9]が一番良い結果
- 同じencoder-decoder RNNのChopraらよりも良い性能
15
Experiments and Results
New Article Headline
DUC Corpus
16
Experiments and Results
Document Summary
◆ 提案手法(words-lvt2k-1sent, words-lvt5k-1sent)
- Baseline (ABS+)よりも性能が上回る
- ABS : Gigawordコーパスで学習
- ABS+ : Gigawordコーパス + DUC2003で特徴量を追加
- 提案手法はGigawordコーパスの学習だけでも精度が上
- Rouge-2, Rouge-Lで最も良い精度
CNN/Daily Mail Corpus
17
Experiments and Results
Document Multi-sentence
◆ これまでのコーパスの要約は1文 (Gigaword, DUC)
- 複数の文からなる新しい要約コーパスを作成
◆ words-lvt2k-hierattがあまり上手くいかなかった
- 出力結果を分析したところRepeatingが起きていた
- 過去の出力情報(Attention)を参照するtemp-attを導入
- Repeatingが少なくなり,精度が向上
Attention Coverage Model [See+ 2017]
Intra-Attention Model [Paulus+ 2017]
Temporal Attention
18
Experiments and Results
Poor quality summary output
19
Qualitative Analysis
▶ 誤った出力例
元の文書の「意味」を「誤解」してしまう問題
Switching Generator-Pointer
▶ Pointerで正しくコピーできていた
three-month-old のようなフレーズもコピー可
しかし,精度面での大きな貢献はなかった
• 未知語が多いタスクなら,より効果的かも
20
Qualitative Analysis
Conclusion
▶ Attentional Encoder-Decoder
要約タスクの特徴を考慮した新たなモデルを追加
• 個々のモデルの追加で性能向上を確認
- Large Vocabulary Trick
- Feature-rich Encoder
- Switching Generator-Pointer
- Hierarchical Attention
- Temporal Attention
複数文からなる要約のデータセットを公開
• CNN/Daily Mail Corpus
- [See et al., 2017] や [Paulus et al., 2017]などが
これらのデータセットを使って本研究の改善手法を提案
21
Abstractive Text Sum. using seq2seq RNNs and Beyond

More Related Content

Similar to 【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

Extract and edit
Extract and editExtract and edit
Extract and edit
禎晃 山崎
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
Masayoshi Kondo
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
株式会社メタップスホールディングス
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
Deep Learning JP
 
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingFast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewriting
Yasuhide Miura
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
Kodaira Tomonori
 
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Yuta Kikuchi
 
Interop2017
Interop2017Interop2017
Interop2017
tak9029
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
 
ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計Tadayoshi Sato
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
Yusuke Fujimoto
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
MKT International Inc.
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Hironori Washizaki
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Shuji Morisaki
 
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
 

Similar to 【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond (20)

Extract and edit
Extract and editExtract and edit
Extract and edit
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
 
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingFast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewriting
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
 
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
 
Interop2017
Interop2017Interop2017
Interop2017
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 

Recently uploaded

生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 

Recently uploaded (10)

生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 

【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

  • 1. 九州工業大学大学院 情報工学府 情報工学専攻 嶋田研究室 山村 崇 Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond @CoNLL2016
  • 2. Abstract ▶ Abstractive Summarization Neural Machine Translation(NMT)ベース • encoder-decoder + attention 翻訳と要約のタスクの違いを考慮したモデルの提案 • 要約特有の問題に対処 2 Abstractive Text Sum. using seq2seq RNNs and Beyond (未知語) 重要語 Large Vocabulary Trick Feature-rich Encoder Switching Generator-Pointer Temporal Attention Hierarchical Attention入力文書の構造
  • 3. Related Work 3 Abstractive Summarization Rush+ 2015Hu+ 2015 Chopra+ 2016 LCSTS Gigaword DUC CNN / DailyMail NYT Nallapati+ 2016 See+ 2017 Pauls+ 2017 のデータセットを構築 の問題を改善 の を改良 中国語の短文要約のためのデータセットを構築 の を にして性能向上 ・ のデータセット ・ source sequence target sequence Encoder Decoder
  • 4. MT and Summarization ▶ 単純にNMTを応用すればOK? タスクの違いをちゃんと考慮しよう 4 Introduction Translation Summarization 𝑠𝑜𝑢𝑟𝑐𝑒 ≒ |𝑡𝑎𝑟𝑔𝑒𝑡| 𝑠𝑜𝑢𝑟𝑐𝑒 > |𝑡𝑎𝑟𝑔𝑒𝑡| loss-less generation lossy compression the target covers all the content of the source 文長 変換 内容 the target covers only important content of the source
  • 5. Large Vocabulary Trick (LVT) ▶ Baseline Model [Bahdanu et al., 2014] Encoder-Decoder • bi-directional GRU-RNN • uni-directional GRU-RNN Attention ▶ Large vocabulary ‘trick’(LVT) [Jean et al., 2014] decoderの語彙を効果的に選択 • ミニバッチ内のソースの語彙 • ターゲットの高頻度語彙 (2K / 5K) - 学習時間の削減(なるべく語彙サイズを制限したい) - 要約は,大部分が入力文書と共通しているので適している 5 Models source sequence Encoder Decoder target sequence Attention
  • 6. Feature-rich Encoder ▶ 単純に入力系列を学習してもダメ 基本:単語ベクトル (Word Embedding) 入力系列中の重要語を学習したい 6 Models Word Embedding (word2vec)
  • 7. Feature-rich Encoder ▶ 単純に入力系列を学習してもダメ 基本:単語ベクトル (Word Embedding) 入力系列中の重要語を学習したい 7 Models Word Embedding (word2vec) POS : Part-Of-Speech NER : Named Entity Tag TF : Term Frequency IDF : Inverse Document Frequency
  • 8. Switching Generator-Pointer ▶ 未知語(OOV語)のモデル化 要約では,入力のキーワードや固有表現が重要 • しかし,訓練事例にはほとんど出てこない • Pointer Network [Vinyals et al., 2015] を適用 各単語を出力する際に「生成」か「コピー」か決定 • Switch -> on - 通常の方法で語彙を生成 • Switch -> off - Source側から語彙をコピー(選択)して,語彙を決定 8 Models 𝑃 𝑠𝑖 = 1 = 𝜎(𝒗 𝒔 ∙ 𝑾ℎ 𝑠 𝒉𝑖 + 𝑾 𝑒 𝑠 𝑬 𝑜𝑖−1 + 𝑾 𝑐 𝑠 𝒄𝒊 + 𝒃 𝑠 ) decoderの隠れ層 直前の単語ベクトル Context vector
  • 9. Switching Generator-Pointer 9 Models G G GGP Encoder Decoder Input Layer Hidden state Output Layer 𝑃 𝑝(𝑖) 𝒚−𝑖, 𝒙 (1 − 𝑃 𝑠𝑖 ) 𝑃 𝑦𝑖 𝒚−𝑖, 𝒙 𝑃(𝑠𝑖) generate from vocabulary copy input word
  • 10. Hierarchical Attention [Li et al., 2015] ▶ 入力が長い場合に重要語と重要文を特定 source側で2つのbi-directional RNNsを適用 • 文レベル • 単語レベル - 何文目かの素性を追加 文レベルと単語レベルの2つのアテンションを考慮 10 Models Re-scaled attention word level sentence level
  • 14. Temporal Attention [Sankaran et al., 2016] ▶ 同じ単語が出力されるのを防ぐ (Repeating) どの単語が出力されるかはAttentionが鍵 これまで(過去)のAttentionの情報を使う • 過去に多くAttentionしてるなら重みを下げる 14 Models <s> Russia calls for これまでの履歴 現在のAttention 𝛼 𝑡 ∝ 𝛼 𝑡 ′ 𝛽𝑡 𝛽𝑡 = ෍ 𝑘=1 𝑡−1 𝛼 𝑘 ′ 現在の単語tのAttention 過去の単語tのAttention の総和 Attention Coverage Model [See+ 2017] Intra-Attention Model [Paulus+ 2017]
  • 15. Gigaword Corpus ◆ [1-5] 提案手法の各モデルが性能向上に寄与 - feats-lvt2k-2sent-ptr[5]が一番良い結果(全部入れ) ◆ [6-9] 他手法との比較 (Rushらのtest set) - Rushらと同条件で比較(1文を学習 + 特徴なし) - Baseline (ABS+)よりもRougeとcopy rateで良い結果 - 提案手法words-lvt5k-1sent[9]が一番良い結果 - 同じencoder-decoder RNNのChopraらよりも良い性能 15 Experiments and Results New Article Headline
  • 16. DUC Corpus 16 Experiments and Results Document Summary ◆ 提案手法(words-lvt2k-1sent, words-lvt5k-1sent) - Baseline (ABS+)よりも性能が上回る - ABS : Gigawordコーパスで学習 - ABS+ : Gigawordコーパス + DUC2003で特徴量を追加 - 提案手法はGigawordコーパスの学習だけでも精度が上 - Rouge-2, Rouge-Lで最も良い精度
  • 17. CNN/Daily Mail Corpus 17 Experiments and Results Document Multi-sentence ◆ これまでのコーパスの要約は1文 (Gigaword, DUC) - 複数の文からなる新しい要約コーパスを作成 ◆ words-lvt2k-hierattがあまり上手くいかなかった - 出力結果を分析したところRepeatingが起きていた - 過去の出力情報(Attention)を参照するtemp-attを導入 - Repeatingが少なくなり,精度が向上 Attention Coverage Model [See+ 2017] Intra-Attention Model [Paulus+ 2017]
  • 19. Poor quality summary output 19 Qualitative Analysis ▶ 誤った出力例 元の文書の「意味」を「誤解」してしまう問題
  • 20. Switching Generator-Pointer ▶ Pointerで正しくコピーできていた three-month-old のようなフレーズもコピー可 しかし,精度面での大きな貢献はなかった • 未知語が多いタスクなら,より効果的かも 20 Qualitative Analysis
  • 21. Conclusion ▶ Attentional Encoder-Decoder 要約タスクの特徴を考慮した新たなモデルを追加 • 個々のモデルの追加で性能向上を確認 - Large Vocabulary Trick - Feature-rich Encoder - Switching Generator-Pointer - Hierarchical Attention - Temporal Attention 複数文からなる要約のデータセットを公開 • CNN/Daily Mail Corpus - [See et al., 2017] や [Paulus et al., 2017]などが これらのデータセットを使って本研究の改善手法を提案 21 Abstractive Text Sum. using seq2seq RNNs and Beyond