メタスタディ (Vision and Language)

Vision and Language
山本晋太郎 (早稲田大学)
Qiu Yue (筑波大学)
1

Vision and Language
2
• Computer Vision x Natural Language Processing
・マルチモーダル問題
・ Towards AI-complete
*[1] VQA
*[2] EQA
*[3] Image Captioning

Agenda
3
• 分野紹介
• - 代表的なVision and Languageの分野を紹介
• Visual Question Answering
• - Visual Question Answeringの発展を紹介
• Visual Dialog
• - Visual Dialogの発展を紹介
• メタな話し
• - CV(NLP) at NLP(CV) conference
• - 引用関係から察するメタ
• - VQA, Visual Dialogのgiant

Image Captioning
5
トレンドの例：
・多様性のある、感情のある(ユーモアなど [6])キャプション生成
・詳細なキャプション生成 (dense captioning [7])
・ “V”or”L”の拡張：Visual Storytelling [8] (画像序列からstory)
Video Captioning (ビデオ説明文生成)
*[4] MS COCOキャプション例
画像
画像説明文
Baseline modelの一例[5]：
Image -> CNN -> LSTM -> Caption
画像から画像説明文を生成するタスク

Text to Image
6
画像
画像説明文
*[9] Text-to-Image Synthesis
modelの一例[10]：
Caption-> Scene Graph -> Scene Layout-> Image
画像説明文から画像を生成するタスク
・ Scene Layoutを介して画像生成 [9,10]
・ “V”or”L”の拡張：Text to Video [11]
Story Visualizaton (textから画像序列) [12]

Visual Question Answering
7
画像と質問文から質問を回答するタスク
*[1] VQA
画像，
質問文
答え
modelの一例[1]：
Image -> CNN
Question -> LSTM -> point-wise multiplication -> answer
・ Knowledge Representationと結合 [13]
・ Active Learningと結合[14]
・ “V”or”L”の拡張：Embodied Question Answering [2]
Visual Dialog (textから画像序列) [15]

Visual Dialog
8
画像，会話履歴，質問から質問を回答するタスク
*[15] Visual Dialog
画像，
画像説明文，
会話履歴，
質問文
答え modelの一例[15]：
Image -> CNN
Question -> LSTM
History -> LSTM -> Concatenation -> answer
・画像から会話全体を生成 [16]
・多様性を重視した答え文生成 [17]
・ Visual Grounding, Coreference Resolutionと結合 [18]
・ “V”or”L”の拡張：Video Dialog [19]

その他
9
Textベース画像編集 [20]
・ Vision and Languageタスクこれからも続出する傾向
・更にMulti-modal (Vision + Language + X (Audio)などの研
究も [19] )
The ﬂower has red petals with
yellow stigmas in the middle
Language and Vision Navigation [21]
画像、
編集指示
編集後の
画像
3D環境、
移動指示
移動

Visual Question Answering (VQA)
11
VQA：
・ 2015年にGeorgia TechのDhruv Batra, Devi Parikhのグループ
により提案
・以上の論文現在引用数984
ICCV2015

VQA: トレンド分析
12
キーワード：
・ Bottom-up Top-Down attention, Visual Reasoning，Knowledge
Representation, Memory Network, Generation

VQA: データセット
13
MS COCO画像のVQAデータセット：
データセット概要：
・規模：画像200K(MS COCO画像)，QAペア(VQA1.0:760K, 2.0:1.11M)
・収集方法：Crowdsourcing
・ QA内容：Fine-grained recognition;Object detection;Knowledge base
reasoning;Commonsense reasoning.など
VQA1.0，VQA2.0にデータセットバイアスが重いことが問題視され
[1]VQA1.0 [22]VQA2.0
VQA2.0が最も用いられる

14
CG画像のVQAデータセット：
・規模：自動生成なので理論上無限
・収集方法：画像もQAペアも自動生成
・ QA内容：Attribute identification;Counting;Comparison;Spatial
relationship;Logical operations.など
[23]CLEVR
・ VQA手法の機能検証用として機能している．
・現在state-of-the-art手法がCLEVRにお
いてOverall Accuracyすでに98%を超えてい
る．

15
Embodied QAタスク用データセット：
・規模：画像(750CG Scene from SUNCG), QAペア数(5,000)
・ QA内容：Scene recognition;Spatial reasoning;Color recognition.など
[2]EQA1.0

16
Knowledge Representationと結合するVQAタスク用データセット：
・規模：画像(2,190), QAペア数(5,826)
・ QA内容：質問を答えるのに必要なSupporting Fact含む
[13]FVQA

VQA: 手法(1/4)
17
• LSTM Q + I [1]
手法概要：
・ CNNにより画像特徴を抽出し，LSTMでQuestion特徴を抽出
・線形変換+point-wise multiplicationにより特徴fusion
・ fused特徴からanswerを予測
・多クラス分類モデルである，現在のモデルも基本的にこれをベース

VQA: 手法(2/4)
18
• SAN (Stacked Attention Network) [24]
手法概要：
・ Attention mechanismを用いる
・ Question, 画像特徴の線形和によりattention分布を計算
・２層attention layerによりcoarse-to-fine的なattention
・ Spatial情報が持つ画像特徴量を使用

VQA: 手法(3/4)
19
• Bottom-Up Top-Down Attention [25]
Region Extraction &
Bottom-Up attention
Top-Down attention
手法概要：
・ Top-DownとともにBottom-up attentionを用いる
・ Bottom-up attention: salient領域抽出と同じ原理
・優れた有用性 (VQA challenge2018top3すべてこれを用いる)

VQA: 手法(4/4)
20
• FiLM (Feature Wise Linear Modulation) [26]
手法概要：
・ FiLMを提案
・ FiLM:入力の質問文をRNNにより条件を抽出し，抽出した条
件により画像特徴をFeature mapごとに修正(修正:*w + b)
・構造簡単かつ優れた有用性 (FiLMをベースとした手法がCLEVR,
VQA2.0においてstate-of-the-artな性能)

VQA: 新規タスク
21
• EQA (Embodied Question Answering) [2]
タスク概要：
•・ Agentが3次元空間のランダムなlocationからスタートし，与
えられた質問文を回答する．質問文を回答するために，環境で
自己ナビゲーションして，必要な視覚情報を集める

VQA: Leaderboard
22
Site:
https://visualqa.org/roe.html
• VQA challenge 2018:VQA2.0での結果
VQA2.0はまだまだ
難しい

VQA: まとめ
23
• タスクの概要:
• ・画像，質問文から答えを予測；2015年提案され
• キーワード:
• ・Bottom-up Top-Down attention, Visual Reasoning，
Knowledge Representation, Memory Network, Generation
• データセット:
• ・VQA1.0,2.0; CLEVR; EQA1.0; FVQA
• 手法:
• ・LSTM Q + I; Stack attention; Up-Down attention; FiLM
(feature modulation)
• 新規タスク:
• ・EQA
• Leaderboard

Visual Dialog
25
Visual Dialog：
・ 2016年にGeorgia TechのDhruv Batra, Devi Parikhのグループ
により提案
・以上の論文現在引用数167
CVPR2017

Visual Dialog: データセット
26
VisDial 1.0 [15]
・規模：画像(MS COCO画像123K), Dialog数(1画像1dialog,1dialog 10QA
pairs)
・収集方法：Crowdsourcing from AMT, real-time chat内容収集
・ dialog内容：画像の内容を全面的に理解できる程度の会話
VisDialデータセット例
Visual DialogタスクにおいてVisDial
データセットが主流

以下がVisual Dialogの論文まとめ
27
* 手法とタスクの新規性を混ざって一緒に紹介

Late Fusion Encoder: 画像，会話
履歴，質問の特徴を別々で抽出し，
concatenateした後にAffine layer
Hierachical Recurrent Encoder: 会
話履歴をQAペアごとに特徴抽出し，その上
attention over history layerを加える
Visual Dialog [15]
28
概要：
・ Visual Dialogタスク，VisDial データセットを提案
・ Visual Dialogの基本構造: Encoder + Decoderを提案
・ 3種類のEncoder: LF; HRE; MNを提案
・ 2種類のDecoder: Discriminative, Generativeを提案
Memory Network Encoder: 画像，会話履歴，質
問の特徴を別々で抽出し，メモリーバンクを構成する；画
像と質問特徴によりメモリーバンクに重み付き

Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning [27]
29
概要：
・質問するQ-botと回答するA-botが協力し画像を探すタスクの提案
・ Q-bot:会話の履歴，画像集情報から画像を探すための質問を提出
・ A-bot:会話の履歴，正解画像情報，Q-botの質問から回答する
・強化学習によりQ-bot, A-botをcollaborativeタスクで共同トレーニ
ング
[] Q-bot A-bot 提案モデル

Visual Coreference Resolution in Visual Dialog using Neural Module Networks [18]
30
概要：
・ Visual DialogしながらVisual Coreference Resolution(視覚対
象とその対象を指す代名詞を解析)を行うタスク提案した
・ NMN (Neural Module Network) []をVisual Dialogタスクに適
応した
[] Visual Coreference Resolution
提案モデル

Audio-Visual Scene-Aware Dialog [28]
31
概要：
・ Audio付きビデオのVisual Dialogタスク，データセット，手法を提案
・ Dateset構成：11,816video; 11,816 dialog (dialogごとに
10QAペア)
・ Language + Vision + Audio
[] Audio-Visual Scene-Aware Dialog 提案モデル

Visual Dialog: Leaderboard
32
Site:
https://visualdialog.org/challenge/2018#leaderboard
• Visual Dialog challenge 2018:VisDial1.0での結果
まだまだ難しい

Visual Dialogまとめ
33
• タスクの概要:
• ・画像，会話履歴，質問文から答えを予測；2017年提案され
• データセット:
• ・VisDial 1.0
• 手法:
• ・Late Fusion; Hierachical Recurrent Encoder; Memory
Network; NMN;
• 新規タスク:
• ・Q-bot, A-bot; 画像から会話生成； Visual Coreference
Resolution + Visual Dialog; Audio-Video Dialog
• Leaderboard

Conference
35
• CVとNLPの国際会議
– それぞれが独立して開催されている
– どちらにもVision and LanguageのWorkshopは存在
http://cvpr2019.thecvf.com/ http://www.acl2019.org/EN/index.xhtml
http://languageandvision.com/
At EMNLP 2019
https://www.lantern.uni-saarland.de/

CV(NLP) at NLP(CV) conference
36
• 互いにどれくらい影響を与えている？
• CVPRとACLを対象に調査
– CVPR2018: question, dialog, caption(ing), language
– ACL2018: image(video), visual
これらの単語を含む論文がどれだけあるか集計
CVFとACL Anthologyを使用
http://openaccess.thecvf.com/menu.py https://aclanthology.info/

CV(NLP) at NLP(CV) conference
37
• 集計結果
– CVPR2018: 979本採択
• question: 22本
• dialog: 5本
• caption(ing): 15本
• language: 6本(1本はsign languageなので除外した)
– ACL2018: 383本採択(long 257, short 126)
• image(video): 7本(内videoは1本)
• visual: 7本
会議全体の論文数の違いはあるがVision and languageの
論文が多く見受けられた

38
• 概要
• 画像からattributeとcaptionを取得
• 取得した2種類の言語情報から答えを推測
NLP会議のVQAその1 [29]

39
• 概要
• VQAにおいて質問文に前提条件が存在するのでは？という研究
• (左の例では，男がラケットを持っている必要がある)
• 質問文と画像が関連している場合は答えを，そうでない場合は質問文と
画像のどこが対応していないかを説明
NLP会議のVQAその2 [30]

引用関係から察するメタ
40
• CV, NLPどちらの会議でもVision and Languageが
流行ってるのは分かった
– 別々の分野なのにどうやって知識得るんだ？
– CV(NLP)の研究室にいるんだけどVision and Language
やるにはNLP(CV)の論文どれだけ読めばいいの？
→Vision and Language論文が引用してる論文を見れば
分かるんじゃね？
ということでCV会議及びNLP会議で発表されたVQAに関
する論文を調べてみた

方法
41
• CVPR, ICCV(CV系)及びACL, EMNLP, NAACL(NLP系)にて
採択されたVQAに関する論文を各5本(計10本ピックアップ)
• 各論文が引用している文献を見てどの分野のものかを集計
– CV (CVPR, ECCV, ICCVなど)
– NLP (ACL, EMNLP, NAACLなど)
– AI, ML (AAAI, ICML, NIPSなど)
– Other (上に当てはまらないもの，含arxiv)
※論文が引用しているのがarxiv版の場合，仮にどこかの会議で採択さ
れたものであってもOtherにカウントした

CV編
42
• 対象論文
• ※数字は次ページの表と対応
1. Antol et al., “VQA: Visual Question Answering.”, ICCV 2015
2. Goyal et al., “Making the V in VQA Matter: Elevating the Role of
Image Understanding in Visual Question Answering.”, CVPR 2017
3. Das et al., “Embodied Question Answering”, CVPR 2018
4. Kafle et al., “DVQA: Understanding Data Visualizations via
Question Answering.”, CVPR 2018
5. Li et al., “Visual Question Generation as Dual Task of Visual
Question Answering.” CVPR 2018

CV編集計結果
43
• CV的なコントリビューションにフォーカスしてるのかCV系
の論文を多く引用
• NLP論文は0ではないが少ない
• →NLP系の会議ではもっと増えるのでは(予想）

NLP編
44
• 対象論文
• ※数字は次ページの表と対応
1. Li et al., “Tell-and-Answer: Towards Explainable Visual Question
Answering using Attributes and Captions.”, EMNLP 2018
2. Patro et al., “Multimodal Differential Network for Visual Question
Generation.”, EMNLP 2018
3. Chao et al., “Being Negative but Constructively: Lessons Learnt
from Creating Better Visual Question Answering Datasets.”,
NAACL 2018
4. Mahendru et al., “The Promise of Premise: Harnessing Question
Premises in Visual Question Answering.”, EMNLP 2017
5. Fukui et al., “Multimodal Compact Bilinear Pooling for Visual
Question Answering and Visual Grounding.” EMNLP 2016

NLP編集計結果
45
• 予想に反してNLP系会議論文でもCV会議の論文を多く引用
• 中にはNLP系会議の論文を1本しか引用してないものも！
• NLP的な話にフォーカスしてるorマルチモーダル的な話にし
ていた

VQA@NLP会議
46
今回調べた論文を眺めて
• VQA論文をNLP系会議で通してるのはどんな研究室か？
– CV系を中心に出してる研究室が多そう(e.g. Trevor Darrel@UC
Berkley)
– 逆にメインがNLPという研究室は（今回統計とった5本の論文には）
なかった
– 更に言うと共著者にNLPが専門の人が入っている様子でもなかった
• CVerでもACLやEMNLPを狙うチャンスは十分にある？
• NLPerがあまり参入していないため，逆に手を組むことで
NLP的なcontributionも狙えるのでは？

VQAとVisual DialogのGiant
47
• Georgia Tech: Dhruv Batra, Devi Parikhグループ
• ・VQA, Visual Dialogタスクを提案
• ・VQA Challenge, Visual Dialog Challengeを主催
• ・重要なデータセット：VQA1.0, 2.0, VisDial1.0を提案
• ・VQA, Visual Dialogのほとんどの重要研究
• ・Vision and Languageの新しいタスクをどんどん生み出し
ている
Site:
https://www.cc.gatech.edu/~dbatra/index.html#group
https://www.cc.gatech.edu/~parikh/vil.html

48
• 代表研究：
・研究方向的にも，手法的にもリード

49
• 新しい研究タスク：
・研究方向的にも，手法的にもリード
Audio-Visual Scene-Aware Dialog [28]
Audio含めたVideo Dialog
TextVQA:画像中の文字理解

まとめ
50
• 分野紹介
• - 代表的なVision and Languageの分野を紹介
• Visual Question Answering
• - Visual Question Answeringの発展を紹介
• Visual Dialog
• - Visual Dialogの発展を紹介
• メタな話し
• - CV(NLP) at NLP(CV) conference
• - 引用関係から察するメタ
• - VQA, Visual Dialogのgiant

参考文献
51
[1] Antol, Stanislaw, et al. "Vqa: Visual question answering." Proceedings of the IEEE international conference on
computer vision. 2015.
[2] Das, Abhishek, et al. "Embodied question answering." Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition Workshops. 2018.
[3] Kiros, Ryan, Ruslan Salakhutdinov, and Rich Zemel. "Multimodal neural language models." International
Conference on Machine Learning. 2014.
[4] Chen, Xinlei, et al. "Microsoft COCO captions: Data collection and evaluation server." arXiv preprint
arXiv:1504.00325 (2015).
[5] Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention." International
conference on machine learning. 2015.
[6] Yoshida, Kota, et al. "Neural Joking Machine: Humorous image captioning." arXiv preprint arXiv:1805.11850
(2018).
[7] Johnson, Justin, Andrej Karpathy, and Li Fei-Fei. "Densecap: Fully convolutional localization networks for dense
captioning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
[8] Huang, Ting-Hao Kenneth, et al. "Visual storytelling." Proceedings of the 2016 Conference of the North American
Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016.
[9] Hong, Seunghoon, et al. "Inferring semantic layout for hierarchical text-to-image synthesis." Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[10] Johnson, Justin, Agrim Gupta, and Li Fei-Fei. "Image generation from scene graphs." Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. 2018.

参考文献
52
[11] Li, Yitong, et al. "Video generation from text." Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
[12] Li, Yitong, et al. "StoryGAN: A Sequential Conditional GAN for Story Visualization." arXiv preprint
arXiv:1812.02784 (2018).
[13] Wang, Peng, et al. "Fvqa: Fact-based visual question answering." IEEE transactions on pattern analysis and
machine intelligence (2017).
[14] Misra, Ishan, et al. "Learning by Asking Questions." arXiv preprint arXiv:1712.01238 (2017).
[15] Das, Abhishek, et al. "Visual dialog." Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2017.
[16] Massiceti, Daniela, et al. "Flipdial: A generative model for two-way visual dialogue." Proceedings of the IEEE
[17] Wu, Qi, et al. "Are you talking to me? reasoned visual dialog generation through adversarial
learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[18] Kottur, Satwik, et al. "Visual coreference resolution in visual dialog using neural module networks." Proceedings
of the European Conference on Computer Vision (ECCV). 2018.
[19] Hori, Chiori, et al. "End-to-end audio visual scene-aware dialog using multimodal attention-based video
features." arXiv preprint arXiv:1806.08409 (2018).
[20] Chen, Jianbo, et al. "Language-based image editing with recurrent attentive models." Proceedings of the IEEE
[21] Anderson, Peter, et al. "Vision-and-language navigation: Interpreting visually-grounded navigation instructions
in real environments." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

参考文献
53
[22] Goyal, Yash, et al. "Making the V in VQA matter: Elevating the role of image understanding in Visual Question
Answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
[23] Johnson, Justin, et al. "Clevr: A diagnostic dataset for compositional language and elementary visual
reasoning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
[24] Yang, Zichao, et al. "Stacked attention networks for image question answering." Proceedings of the IEEE
conference on computer vision and pattern recognition. 2016.
[25] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering."
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[26] Perez, Ethan, et al. "Film: Visual reasoning with a general conditioning layer." Thirty-Second AAAI Conference
on Artificial Intelligence. 2018.
[27] Das, Abhishek, et al. "Learning cooperative visual dialog agents with deep reinforcement learning." Proceedings
of the IEEE International Conference on Computer Vision. 2017.
[28] Alamri, Huda, et al. "Audio-Visual Scene-Aware Dialog." arXiv preprint arXiv:1901.09107 (2019).
[29] Li, Qing, et al. ““Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions.”, EMNLP
2018
[30] Mahendru, Aroma, et al., “The Promise of Premise: Harnessing Question Premises in Visual Question Answering.”, EMNLP
2017

メタスタディ (Vision and Language)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to メタスタディ (Vision and Language)

Similar to メタスタディ (Vision and Language) (20)

Recently uploaded

Recently uploaded (7)

メタスタディ (Vision and Language)