【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video

九州工業大学大学院情報工学府情報工学専攻
嶋田研究室山村崇
Multi-modal Summarization for
Asynchronous Collection of Text,
Image, Audio and Video
@EMNLP2017

Abstract
▶ Multi-modal summarization (MMS)
マルチメディア情報からニュース要約を生成
• Text, Image, Audio, Video
論文の重要な考え方
• どのようにしてメディア間の意味情報を扱うか
- 音声の転記（書き起こし）を効果的に選択
- 意味的に一致する画像と文のペアの学習
• 以下の要素に対する最適化問題として定式化
- Salience
- Non-redundancy
- Readability
- Coverage
2
Multi-modal Summarization for Asynchronous Collection …

Related Work
▶ 本研究の位置づけ
既存のマルチモーダル要約
• 以下のドメインを対象としたMMSの研究が盛ん
- Meeting Record
- Sport Video
- Movie
- Pictorial Storyline
- Timeline
- Social Multimedia
ほとんどの研究が，同期データのみを対象
• [画像，説明文] や [映像，字幕]
非同期(Asynchronous)データも扱うのがポイント
3
Multi-modal summarization

Model Overview
4
Introduction
Input
あるニュースのトピックに関連する
ニュース記事（文 + 画像） + ビデオ（画像 + 音声）
例：ギニアのエボラ流行に関するニュース

Model Overview
5
Introduction
Input
ココが一番重要
• 画像情報をどのように要約に盛り込むかが大事
- ニュース記事内の画像やニュース番組の映像
⁃ イベントの重要なシーン（ハイライト）
⁃ 画像が意味する内容 ≒ 要約として含めるべき情報

Model Overview
6
Introduction
Input
自動音声認識 (ASR) を用いて，ビデオの音声の転記を取得
- ただし，音声認識のエラーをなるべく減らしたい
- 精度の良い音声認識結果のみを選択するように工夫

Model Overview
7
Introduction
Input
画像とテキスト（ニュース記事の文書 + 転記）をマッチング
- 画像とその説明文となるテキストのペアを作成
- うまく意味的に類似するペアを見つけられるかが鍵

Model Overview
8
Introduction
Input
ニュース記事の文章
（音声）転記
画像の説明文
テキスト
画像
複数文書要約
抽出型手法

Salience for Text
▶ LexRankによる文の重要度の計算
LexRank [Erkan and Radev, 2004]
• 多くの文に類似する文は重要
• 重要な文に類似する文は重要
ノード𝑡𝑖の重要度𝑆𝑎(𝑡𝑖)
ASRから得た転記は，なるべく重みを下げたい
• もしエラーした文が要約に選ばれたら読みにくい
• ガイダンス戦略によって，ノード間のスコアを調整 9
Model
隣接するノード𝑡𝑗のスコアノード𝑡𝑗のノード𝑡𝑖間のスコア

Readability Guidance Strategies
▶ ニュース記事文章と転記文の関連づけ
なるべくなら転記文を要約にしたくない
• 転記文に関連する文章があれば，その文章を優先
文章𝑡𝑖と転記𝑡𝑗のペアに対して𝑀𝑖𝑗を計算
10
Salience for Text
文章𝑡𝑖 転記𝑡𝑗
関連する場合(𝒗 𝟏, 𝒗 𝟑)
重要
not重要
文章𝑡𝑖 転記𝑡𝑗
関連しない場合(𝒗 𝟐, 𝒗 𝟑)

Audio Guidance Strategies
▶ 重要で読みやすい転記文を選択
３つの音響特徴を導入し，音声スコアを計算
• Acoustic confidence [valenza et al., 1999]
• Audio power [Christel et al., 1998]
• Audio magnitude [Dagtas and abdel-Mottaleb., 2001]
11
Salience for Text
転記𝑡 𝑘 転記𝑡 𝑘′
重要
not重要
𝒂 𝒕 𝒌 < 𝑻 𝒂𝒖𝒅𝒊𝒐 < 𝒂 𝒕 𝒌′ の場合 𝑣3, 𝑣4 , (𝑣5, 𝑣4)

Text-Image Matching
▶ 画像とテキストの意味的なマッチング
記事中の画像と映像のキーフレームは重要な要素
• 意味的に関連する [テキスト, 画像] のペアを同定
映像からキーフレームを取得
• 映像をショット(shot)ごとに分割
- RGBヒストグラムの増減差から境界を推定 (Zhunang et al., 1998)
• 各ショットの中央フレームをキーフレームとして抽出
12
Model ニュース記事 (Text) 画像 (Image)
キーフレーム境界
・・・

Text-Image Matching
▶ 画像とテキスト間のJoint表現を学習
[画像, テキスト]のペアを学習
• Flickr30K dataset (Young et al., 2014)
- 日常の写真：31,873枚
- 各画像に5つの説明文
• Matching Taskで最先端の手法を適用 (Wang et al. 2016)
13
Model
Emergency teams
focus on searching.
負のペアの類似度よりも正のペアの類似度が大きくなるように学習

Text-Image Matching
▶ 学習したモデルを用いてペアを取得
ただし，そのまま適用するだけでは不十分
• 学習データとテストデータの性質を考慮
- 学習データ：画像の説明文（キャプション）
- テストデータ：ニュース記事の文章 or 転記文
• 文の複雑さ：学習データ＜テストデータ
意味役割付与によりテストデータの文章を単純化
• “主体 + 述語 + 動作”の組を単純化した文とする
各ペアに対して一致度𝑠(𝑇𝑒𝑥𝑡𝑖, 𝐼𝑚𝑎𝑔𝑒𝑖)を計算
• 閾値𝑇 𝑚𝑎𝑡𝑐ℎよいも大きければペアとして取得
14
Model

Multi-modal Summarization
▶ モダリティを統合した要約手法
要約𝑆の重要度
画像集合𝐼に対する要約𝑆のカバレッジ
上記二つを統合した目的関数
15
Model
冗長性のペナルティ
画像にマッチする文を選択
これらは貪欲法で最適解を近似可能

Dataset
▶ MMS dataset
過去5年間のニュースのトピック50件
• English : 20 + 5 (dev.)
• Chinese : 20 + 5 (dev.)
1トピックあたり20件の文書
• Google News Search, 5-10 videos in CCTV, YouTube
参照要約
• 10人の学生が文書とビデオを見て作成
- 各トピックに3つの参照要約
• 要約の基準
- 1. 重要な内容を保持 - 3. 読みやすい
- 2. 冗長な情報を避ける - 4. 長さ(en : 300, ch : 500文字)
16
Experiment ニューストピックの例

Comparative Methods
▶ 1. 文の重要度のみを考慮
Text only
• ニュース記事のみ
Text + audio
• ニュース記事と音声の転記（ガイダンス戦略なし）
Text + audio + guide
• ニュース記事と音声の転記（ガイダンス戦略あり）
Image caption (text + audio + image)
• 画像からキャプションを生成 (Vinyals et al., 2016)
17
Experiment

Comparative Methods
▶ 2. 文と画像のモダリティを統合
Image caption match
• 生成した画像のキャプションと記事をマッチング
Image alignment
• 記事内の画像とその記事の全文をマッチング
• キーフレームとそのショットの全転記をマッチング
Image match
• 提案手法によるマッチング
18
Experiment

Implementation Details
▶ 実装
文と単語のトークン化
• Stanford Chinese Word Segmenter
• Standord CoreNLP toolkit
意味役割付与
• Yang and Zong (2014)
埋め込みベクトル
• Word2vec : 300次元
中国語の要約を生成する場合は，最初に英語に変換
• Google Translation
19
Experiment

Automatic Evaluation
評価基準
• Rouge-1, Rouge-2, Rouge-SU4
20
Experiment
English Chinese

評価基準
• Rouge-1, Rouge-2, Rouge-SU4
Text + audio ＜ Text + audio + guide
• ガイダンス戦略が有効
映像情報を追加してもあまり変わらない
Image matchが他の手法に対してBest（有意差あり）
21
Experiment
English Chinese

概ねEnglishと同様の評価
Image matchがBest
• しかし，Englishと比較すると他手法との差は小さい
• 機械翻訳のエラーが原因かも
22
Experiment
English Chinese

Output Example
23
Experiment
News Topic : India train derailment

Manual Evaluation
5人の学生が評価し，全トピックの平均値を計算
ガイダンス戦略が読みやすさの性能向上に有効
• ただし，参照要約よりは明らかに低い
転記情報がないと情報性のスコアが悪い
• ガイダンス戦略がないと読みやすさが落ちる
24
Experiment 読みやすさ情報性
５段階評価
（1:悪～ 5:良）

Consideration
▶ 画像情報は本当に有効か
画像と文のマッチングは難しい
• 最先端の手法を適用しているが不十分
• 5つのトピックに対して人手でペアを作成
- 画像情報を用いることによる性能向上の上限を調査
25
Experiment
English Chinese

Conclusion
▶ Multi-modal summarization Task
非同期データを含むマルチメディアを対象
• 4つの評価指標に対する最適化問題として定式化
転記文の選択的な利用
• ガイダンス戦略をグラフモデル (LexRank)に適用
- 要約の読みやすさ・情報性の向上
▶ 今後の課題
音声・映像データがあまり効果的ではない
• モダリティを統合するより良い手法が必要
MMS datasetの拡張
27
Multi-modal Summarization for Asynchronous Collection …

【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video

Similar to 【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video (20)

Recently uploaded

Recently uploaded (9)

【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video