SlideShare a Scribd company logo
1 of 27
Download to read offline
九州工業大学大学院 情報工学府 情報工学専攻
嶋田研究室 山村 崇
Multi-modal Summarization for
Asynchronous Collection of Text,
Image, Audio and Video
@EMNLP2017
Abstract
▶ Multi-modal summarization (MMS)
マルチメディア情報からニュース要約を生成
• Text, Image, Audio, Video
論文の重要な考え方
• どのようにしてメディア間の意味情報を扱うか
- 音声の転記(書き起こし)を効果的に選択
- 意味的に一致する画像と文のペアの学習
• 以下の要素に対する最適化問題として定式化
- Salience
- Non-redundancy
- Readability
- Coverage
2
Multi-modal Summarization for Asynchronous Collection …
Related Work
▶ 本研究の位置づけ
既存のマルチモーダル要約
• 以下のドメインを対象としたMMSの研究が盛ん
- Meeting Record
- Sport Video
- Movie
- Pictorial Storyline
- Timeline
- Social Multimedia
ほとんどの研究が,同期データのみを対象
• [画像,説明文] や [映像,字幕]
非同期(Asynchronous)データも扱うのがポイント
3
Multi-modal summarization
Model Overview
4
Introduction
Input
あるニュースのトピックに関連する
ニュース記事(文 + 画像) + ビデオ(画像 + 音声)
例:ギニアのエボラ流行に関するニュース
Model Overview
5
Introduction
Input
あるニュースのトピックに関連する
ニュース記事(文 + 画像) + ビデオ(画像 + 音声)
例:ギニアのエボラ流行に関するニュース
ココが一番重要
• 画像情報をどのように要約に盛り込むかが大事
- ニュース記事内の画像やニュース番組の映像
⁃ イベントの重要なシーン(ハイライト)
⁃ 画像が意味する内容 ≒ 要約として含めるべき情報
Model Overview
6
Introduction
Input
あるニュースのトピックに関連する
ニュース記事(文 + 画像) + ビデオ(画像 + 音声)
例:ギニアのエボラ流行に関するニュース
自動音声認識 (ASR) を用いて,ビデオの音声の転記を取得
- ただし,音声認識のエラーをなるべく減らしたい
- 精度の良い音声認識結果のみを選択するように工夫
Model Overview
7
Introduction
Input
あるニュースのトピックに関連する
ニュース記事(文 + 画像) + ビデオ(画像 + 音声)
例:ギニアのエボラ流行に関するニュース
画像とテキスト(ニュース記事の文書 + 転記)をマッチング
- 画像とその説明文となるテキストのペアを作成
- うまく意味的に類似するペアを見つけられるかが鍵
Model Overview
8
Introduction
Input
あるニュースのトピックに関連する
ニュース記事(文 + 画像) + ビデオ(画像 + 音声)
例:ギニアのエボラ流行に関するニュース
ニュース記事の文章
(音声 )転記
画像の説明文
テキスト
画像
複数文書要約
抽出型手法
Salience for Text
▶ LexRankによる文の重要度の計算
LexRank [Erkan and Radev, 2004]
• 多くの文に類似する文は重要
• 重要な文に類似する文は重要
ノード𝑡𝑖の重要度𝑆𝑎(𝑡𝑖)
ASRから得た転記は,なるべく重みを下げたい
• もしエラーした文が要約に選ばれたら読みにくい
• ガイダンス戦略によって,ノード間のスコアを調整 9
Model
隣接するノード𝑡𝑗のスコア ノード𝑡𝑗のノード𝑡𝑖間のスコア
Readability Guidance Strategies
▶ ニュース記事文章と転記文の関連づけ
なるべくなら転記文を要約にしたくない
• 転記文に関連する文章があれば,その文章を優先
文章𝑡𝑖と転記𝑡𝑗のペアに対して𝑀𝑖𝑗を計算
10
Salience for Text
文章𝑡𝑖 転記𝑡𝑗
関連する場合(𝒗 𝟏, 𝒗 𝟑)
重要
not重要
文章𝑡𝑖 転記𝑡𝑗
関連しない場合(𝒗 𝟐, 𝒗 𝟑)
Audio Guidance Strategies
▶ 重要で読みやすい転記文を選択
3つの音響特徴を導入し,音声スコアを計算
• Acoustic confidence [valenza et al., 1999]
• Audio power [Christel et al., 1998]
• Audio magnitude [Dagtas and abdel-Mottaleb., 2001]
11
Salience for Text
転記𝑡 𝑘 転記𝑡 𝑘′
重要
not重要
𝒂 𝒕 𝒌 < 𝑻 𝒂𝒖𝒅𝒊𝒐 < 𝒂 𝒕 𝒌′ の場合 𝑣3, 𝑣4 , (𝑣5, 𝑣4)
Text-Image Matching
▶ 画像とテキストの意味的なマッチング
記事中の画像と映像のキーフレームは重要な要素
• 意味的に関連する [テキスト, 画像] のペアを同定
映像からキーフレームを取得
• 映像をショット(shot)ごとに分割
- RGBヒストグラムの増減差から境界を推定 (Zhunang et al., 1998)
• 各ショットの中央フレームをキーフレームとして抽出
12
Model ニュース記事 (Text) 画像 (Image)
キーフレーム 境界
・・・
Text-Image Matching
▶ 画像とテキスト間のJoint表現を学習
[画像, テキスト]のペアを学習
• Flickr30K dataset (Young et al., 2014)
- 日常の写真:31,873枚
- 各画像に5つの説明文
• Matching Taskで最先端の手法を適用 (Wang et al. 2016)
13
Model
Emergency teams
focus on searching.
負のペアの類似度よりも正のペアの類似度が大きくなるように学習
Text-Image Matching
▶ 学習したモデルを用いてペアを取得
ただし,そのまま適用するだけでは不十分
• 学習データとテストデータの性質を考慮
- 学習データ :画像の説明文(キャプション)
- テストデータ:ニュース記事の文章 or 転記文
• 文の複雑さ:学習データ < テストデータ
意味役割付与によりテストデータの文章を単純化
• “主体 + 述語 + 動作”の組を単純化した文とする
各ペアに対して一致度𝑠(𝑇𝑒𝑥𝑡𝑖, 𝐼𝑚𝑎𝑔𝑒𝑖)を計算
• 閾値𝑇 𝑚𝑎𝑡𝑐ℎよいも大きければペアとして取得
14
Model
Multi-modal Summarization
▶ モダリティを統合した要約手法
要約𝑆の重要度
画像集合𝐼に対する要約𝑆のカバレッジ
上記二つを統合した目的関数
15
Model
冗長性のペナルティ
画像にマッチする文を選択
これらは貪欲法で最適解を近似可能
Dataset
▶ MMS dataset
過去5年間のニュースのトピック50件
• English : 20 + 5 (dev.)
• Chinese : 20 + 5 (dev.)
1トピックあたり20件の文書
• Google News Search, 5-10 videos in CCTV, YouTube
参照要約
• 10人の学生が文書とビデオを見て作成
- 各トピックに3つの参照要約
• 要約の基準
- 1. 重要な内容を保持 - 3. 読みやすい
- 2. 冗長な情報を避ける - 4. 長さ(en : 300, ch : 500文字)
16
Experiment ニューストピックの例
Comparative Methods
▶ 1. 文の重要度のみを考慮
Text only
• ニュース記事のみ
Text + audio
• ニュース記事と音声の転記(ガイダンス戦略なし)
Text + audio + guide
• ニュース記事と音声の転記(ガイダンス戦略あり)
Image caption (text + audio + image)
• 画像からキャプションを生成 (Vinyals et al., 2016)
17
Experiment
Comparative Methods
▶ 2. 文と画像のモダリティを統合
Image caption match
• 生成した画像のキャプションと記事をマッチング
Image alignment
• 記事内の画像とその記事の全文をマッチング
• キーフレームとそのショットの全転記をマッチング
Image match
• 提案手法によるマッチング
18
Experiment
Implementation Details
▶ 実装
文と単語のトークン化
• Stanford Chinese Word Segmenter
• Standord CoreNLP toolkit
意味役割付与
• Yang and Zong (2014)
埋め込みベクトル
• Word2vec : 300次元
中国語の要約を生成する場合は,最初に英語に変換
• Google Translation
19
Experiment
Automatic Evaluation
評価基準
• Rouge-1, Rouge-2, Rouge-SU4
20
Experiment
English Chinese
Automatic Evaluation
評価基準
• Rouge-1, Rouge-2, Rouge-SU4
Text + audio < Text + audio + guide
• ガイダンス戦略が有効
映像情報を追加してもあまり変わらない
Image matchが他の手法に対してBest(有意差あり)
21
Experiment
English Chinese
Automatic Evaluation
概ねEnglishと同様の評価
Image matchがBest
• しかし,Englishと比較すると他手法との差は小さい
• 機械翻訳のエラーが原因かも
22
Experiment
English Chinese
Output Example
23
Experiment
News Topic : India train derailment
Manual Evaluation
5人の学生が評価し,全トピックの平均値を計算
ガイダンス戦略が読みやすさの性能向上に有効
• ただし,参照要約よりは明らかに低い
転記情報がないと情報性のスコアが悪い
• ガイダンス戦略がないと読みやすさが落ちる
24
Experiment 読みやすさ 情報性
5段階評価
(1:悪 ~ 5:良)
Consideration
▶ 画像情報は本当に有効か
画像と文のマッチングは難しい
• 最先端の手法を適用しているが不十分
• 5つのトピックに対して人手でペアを作成
- 画像情報を用いることによる性能向上の上限を調査
25
Experiment
English Chinese
Consideration
26
Experiment
Conclusion
▶ Multi-modal summarization Task
非同期データを含むマルチメディアを対象
• 4つの評価指標に対する最適化問題として定式化
転記文の選択的な利用
• ガイダンス戦略をグラフモデル (LexRank)に適用
- 要約の読みやすさ・情報性の向上
▶ 今後の課題
音声・映像データがあまり効果的ではない
• モダリティを統合するより良い手法が必要
MMS datasetの拡張
27
Multi-modal Summarization for Asynchronous Collection …

More Related Content

What's hot

海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習Tsubasa Hirakawa
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
 
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...Deep Learning JP
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...harmonylab
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...Deep Learning JP
 
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain GeneralizationDeep Learning JP
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networksDeep Learning JP
 
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用Deep Learning JP
 
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph NetworksDeep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep NetworkDeep Learning JP
 
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoningAce12358
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...Deep Learning JP
 

What's hot (20)

海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks
 
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
 
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
 
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoning
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
 

Similar to 【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video

Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Yoshitaka Ushiku
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Yoshitaka Ushiku
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Yoshitaka Ushiku
 
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれからMayuOtani
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7Shunsuke Nakamura
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
Learning to summarize from human feedback
Learning to summarize from human feedbackLearning to summarize from human feedback
Learning to summarize from human feedbackharmonylab
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image TranslationDeep Learning JP
 
Learning Image Embeddings using Convolutional Neural Networks for Improved Mu...
Learning Image Embeddings using Convolutional Neural Networks for Improved Mu...Learning Image Embeddings using Convolutional Neural Networks for Improved Mu...
Learning Image Embeddings using Convolutional Neural Networks for Improved Mu...Kenta Oono
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Koji Matsuda
 
【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016cvpaper. challenge
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)cvpaper. challenge
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...Takanori Nakai
 
Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicHakky St
 
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-Takahiro Kubo
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 

Similar to 【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video (20)

Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
 
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
Learning to summarize from human feedback
Learning to summarize from human feedbackLearning to summarize from human feedback
Learning to summarize from human feedback
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
Learning Image Embeddings using Convolutional Neural Networks for Improved Mu...
Learning Image Embeddings using Convolutional Neural Networks for Improved Mu...Learning Image Embeddings using Convolutional Neural Networks for Improved Mu...
Learning Image Embeddings using Convolutional Neural Networks for Improved Mu...
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
 
Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomic
 
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 

Recently uploaded

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Recently uploaded (9)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video