ECCV 2016読み会
Leveraging Visual Question Answering
for Image-Caption Ranking
牛久 祥孝
losnuevetoros
お前は誰だ?
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3
NTT コミュニケーション科学基礎研究所
2016.4~
東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 (原田・牛久研究室)
転職して9か月
教員であることにも慣れました
牛
久
学
生
B
学
生
A
学生に慕われる教員の図
転職して9か月
教員であることにも慣れました
牛
久
学
生
B
学
生
A
学生に慕われる教員の図
牛久さん今日の服装
チャラいっすねwww
(※ユニクロです)
学
生
B
転職して9か月
教員であることにも慣れました
牛
久
学
生
A
学生に弄ばれる教員の図
牛久さん今日の服装
チャラいっすねwww
(※ユニクロです)
なんか今日は先生の服、
メンナクっぽさがない
ですね。
(※身に覚えがない)
関東CV勉強会の幹事です
国際会議読み会はこの2年皆勤賞
• 2015年6月 CVPR読み会
• 2016年2月 ICCV読み会
• 2016年7月 CVPR読み会
• 2016年12月 ECCV読み会 ←いまここ
関東CV勉強会の幹事です
国際会議読み会はこの2年皆勤賞
• 2015年6月 CVPR読み会
弱教師あり物体検出の研究
• 2016年2月 ICCV読み会
カフェラテいれる際に、スチームミルクを
作り忘れていたらアラートだす研究
• 2016年7月 CVPR読み会
飲んだくれの画像を生成する研究
• 2016年12月 ECCV読み会 ←いまここ
危惧される批判:
あいつ変な論文しか読めないんじゃね?
• 論文に数式出てこないし
• 専門分野もってなさそうだし
• 服装チャラいらしいし
本日の論文
• 自分の専門分野(視覚×言語の融合)から
• しっかりした研究を
本日の論文
• 自分の専門分野(視覚×言語の融合)から
• しっかりした研究を
Visual Question Answering を
Image-Caption Ranking に活用する…?
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
Every Picture Tells a Story [Farhadi+, ECCV 2010]
世界初の画像入力→キャプション出力論文
1. 画像の<object, action, scene>をMRFで推定
2. <object, action, scene>が同じキャプションを
検索して、まるごと再利用
<Horse, Ride, Field>
Every Picture Tells a Story [Farhadi+, ECCV 2010]
再利用?新規生成?
• 再利用
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small white dog standing on a leash.
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
cf. 非テンプレート型新規キャプション生成
画像の内容を表す少数の単語列(フレーズ)の推定
+単語列を文法モデルによって連結
[Ushiku+, ACM MM 2012]
最近の Neural Image Captioningとの比較
[Wu+, CVPR 2016][You+, CVPR 2016]
1. 単語/単語列を推定する部分
FV+SVM か CNN かの違い
2. 文法モデルを含めて連結する部分
対数線形モデルか RNN かの違い
Image-Caption Ranking
画像キャプション再利用アプローチの別名
全部で𝐾の画像 or キャプションが存在するとする
• 画像クエリによるキャプション検索
– 画像𝐼にキャプション𝐶が再利用される確率を定義
𝑃𝑐𝑎𝑝 𝐶 𝐼 =
exp(𝑆(𝐼, 𝐶))
𝑖=1
𝐾
exp(𝑆(𝐼, 𝐶𝑖))
• 逆問題:キャプションによる画像検索
𝑃𝑖𝑚 𝐼 𝐶 =
exp(𝑆(𝐼, 𝐶))
𝑖=1
𝐾
exp(𝑆(𝐼𝑖, 𝐶))
ある画像とキャプションの関連の強さ
今日紹介する論文では…
Multimodal Neural Language Models [Kiros+, TACL 2015] を採用
𝑆𝑡 𝐼, 𝐶 = 𝑡𝐼, 𝑡 𝐶
𝑡𝐼 =
𝑊𝐼 𝑥𝐼
𝑊𝐼 𝑥𝐼 2
, 𝑡 𝐶 =
𝑥 𝐶
𝑥 𝐶 2
𝑥𝐼:画像特徴量
19層VGGNetの出力 4096次元
𝑥 𝐶:キャプション特徴量
隠れ層1024次元のGRUによるRNNの出力 1024次元
𝑊𝐼:学習する線形変換
画像特徴からキャプション特徴への変換に相当
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
Visual Question Answering (VQA)
画像に関する質問に答えるQAシステム
• Visual Turing Challenge [MalinowskiL+Fritz, 2014]
• VQA Challenge
CVPR 2016 併設のコンペティション
(弊研究室:Abstract Image 部門で世界1位)
[Malinowski+,
ICCV 2015]
よくある手口:VQA=多クラス分類問題
質問文𝑄
What objects are
found on the bed?
応答𝐴
bed sheets, pillow
画像𝐼
画像特徴量
𝑥𝐼
質問特徴量
𝑥 𝑄
統合された
表現ベクトル
𝑧𝐼+𝑄
表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別
今日紹介する論文では…
VQA 原著論文のモデル [Antol+, ICCV 2015]を採用
VQA モデル
𝑧𝐼 = tanh(𝑊𝐼 𝑥𝐼 + 𝑏𝐼) , 𝑧 𝑄 = tanh(𝑊𝑄 𝑥 𝑄 + 𝑏 𝑄)
𝑧𝐼+𝑄 = 𝑧𝐼⨀𝑧 𝑄 (⨀は要素積)
𝑠 𝐴 = 𝑊𝑆 𝑧𝐼+𝑄 + 𝑏𝑆
𝑥𝐼:19層VGGNetの出力 4096次元
𝑥 𝑄:隠れ層512次元のLSTMによるRNN2層の出力 2048次元
𝑧∗:表現ベクトル 1024次元
𝑊∗, 𝑏∗ :学習する線形変換とバイアス
キャプション+質問に答えるVQA-Caption
言語データのみ用いる質問応答(QA)システム
質問文𝑄
What kind of food
Is in the picture?
応答𝐴
pizza
キャプション𝐶
A couple of pieces of
pizza with vegetable
slices on them.
キャプション
特徴量𝑥 𝐶
質問特徴量
𝑥 𝑄
統合された
表現ベクトル
𝑧 𝐶+𝑄
今日紹介する論文では…
VQA 原著論文のモデル [Antol+, ICCV 2015]を採用
VQA-Caption モデル
𝑧 𝐶 = tanh(𝑊𝐶 𝑥 𝐶 + 𝑏 𝐶) , 𝑧 𝑄 = tanh(𝑊𝑄 𝑥 𝑄 + 𝑏 𝑄)
𝑧 𝐶+𝑄 = 𝑧 𝐶⨀𝑧 𝑄 (⨀は要素積)
𝑠 𝐴 = 𝑊𝑆 𝑧 𝐶+𝑄 + 𝑏𝑆
𝑥 𝐶:最頻1000単語によるbag-of-wordsモデル 1000次元
𝑥 𝑄:隠れ層512次元のLSTMによるRNN2層の出力 2048次元
𝑧∗:表現ベクトル 1024次元
𝑊∗, 𝑏∗ :学習する線形変換とバイアス
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
着眼
多くのVQA事例を学習したシステム
→画像キャプション生成も得意なのでは?
What is the colour
of the comforter? blue, white
What is on the
refrigerator?
magnet, paper
What objects
are found on
the bed?
bed sheets, pillow
本日の論文
• 自分の専門分野(視覚×言語の融合)から
• しっかりした研究を
Visual Question Answering を
Image-Caption Ranking に活用する…?
本日の論文の概要
• VQAを中間表現(後述)に用いることを提案
– VQAモデル→画像の中間表現
– VQA-Captionモデル→キャプションの中間表現
• Image-Caption Ranking で用いる特徴量に追加
→検索精度が向上した
– 入力画像に対するキャプション検索
– 入力キャプションに対する画像検索
関連研究:中間表現
• Semantic Mid-Level Visual Representations
Attributes, Parts, Poselets, Objects, Actions, Contextual
information
• 中間表現を用いるメリット
– 既存タスクの高精度化
– Zero-shot learning (↓は[Elhoseiny+, ICCV 2013])
本論文が提案する中間表現
画像側のVQAアクティべーション𝑢𝐼
𝑖番目の成分𝑢𝐼
(𝑖)
= log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼)
𝑢𝐼
𝐼が なら𝑢𝐼
(3)
の値は0に近い
𝐼が なら𝑢𝐼
(3)
の値は負の値
𝑢𝐼
(3)
= log 𝑃𝐼(Yes|Is it clean?, 𝐼)
本論文が提案する中間表現
画像側のVQAアクティべーション𝑢𝐼
𝑖番目の成分𝑢𝐼
(𝑖)
= log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼)
𝑢𝐼
𝐼が なら𝑢𝐼
(9)
の値は…?
𝐼が なら𝑢𝐼
(9)
の値は負の値
𝑢𝐼
(9)
= log 𝑃𝐼(Helmets|What are the men wearing on their heads?, 𝐼)
本論文が提案する中間表現
画像側のVQAアクティべーション𝑢𝐼
𝑖番目の成分𝑢𝐼
(𝑖)
= log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼)
𝑢𝐼
𝐼が なら𝑢𝐼
(9)
の値は0に近い
(シーンとして、もしmenがいたら
どうなるかということで決まる)
𝐼が なら𝑢𝐼
(9)
の値は負の値
𝑢𝐼
(9)
= log 𝑃𝐼(Helmets|What are the men wearing on their heads?, 𝐼)
本論文が提案する中間表現
キャプション側のVQA-Captionアクティべーション𝑢 𝐶
𝑖番目の成分𝑢 𝐶
(𝑖)
= log 𝑃𝐶(𝐴𝑖|𝑄𝑖, 𝐶)
𝑢 𝐶
𝐶が なら𝑢 𝐶
(5)
の値は0に近い
𝐶が なら𝑢 𝐶
(5)
の値は負の値
𝑢 𝐶
(5)
= log 𝑃𝐶(Pizza|What kind of food is in the picture?, 𝐶)
A couple of
pieces of pizza
with vegetable
slices on them.
Two boats on
shore near an
ocean.
中間表現𝑢𝐼, 𝑢 𝐶を元の特徴と統合したい
• 𝑣𝐼 = ReLU 𝑊𝑢 𝐼
𝑢𝐼 + 𝑏 𝑣 𝐼
, 𝑣 𝐶 = ReLU 𝑊𝑢 𝐶
𝑢 𝐶 + 𝑏 𝑣 𝐶
• 𝑡𝐼 =
𝑊 𝐼 𝑥 𝐼
𝑊 𝐼 𝑥 𝐼 2
, 𝑡 𝐶 =
𝑥 𝐶
𝑥 𝐶 2
(再掲)
最後に統合:Score-level fusion
𝑆 𝐼, 𝐶 = 𝛼𝑆𝑡 𝐼, 𝐶 + 𝛽𝑆 𝑣 𝐼, 𝐶
• 𝑆 𝑣 𝐼, 𝐶 = 𝑣𝐼, 𝑣 𝐶
• 𝑆𝑡 𝐼, 𝐶 = 𝑡𝐼, 𝑡 𝐶 (再掲)
少し先に統合:Representation-level fusion
𝑆 𝐼, 𝐶 = 𝑟𝐼, 𝑟𝐶
• 𝑟𝐼=ReLU(𝑊𝑡 𝐼
𝑡𝐼 + 𝑊𝑣 𝐼
𝑣𝐼 + 𝑏 𝑟 𝐼
)
• 𝑟𝐶=ReLU(𝑊𝑡 𝐶
𝑡 𝐶 + 𝑊𝑣 𝐶
𝑣 𝐶 + 𝑏 𝑟 𝐶
)
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
実験設定
• MS COCOデータセット
– 8万強のキャプション付き画像で学習
– 5000枚のテストデータ
• VQAデータセット
– 実はMS COCOの画像を利用したデータセット
– VQA中間表現:1000枚の訓練用画像から3つずつ
QA例をサンプリング→3000次元の表現ベクトル
• 評価方法
– Image-Caption Ranking としての評価
– Recall@(1,5,10)
State-of-the-art の成績一覧
本論文がBaselineとして採用している
Multimodal Neural Language Models [Kiros+, TACL 2015]
State-of-the-artとの比較
Score-level fusion 2パターン
• VQA-grounded only: 中間表現のみ利用
• VQA-aware: Score-level fusionそのもの
State-of-the-artとの比較
Representation-level fusion 2パターン
• VQA-agnostic: もとの特徴量のみ利用
• VQA-aware: Representation-level fusionそのもの
…あれ?
2つの手法の差は何?
• どっちも「もとの特徴量のみ使用」のはず
• でも下の方が精度が高い
2つのVQA-agnostic
• Multimodal Neural Language Models [Kiros+, TACL 2015]
• Representation-level fusion VQA-agnostic
さらに1回の線形変換と活性化関数を経ている
→よりdeepになり、精度が向上している
定性的な比較(画像検索)
提案手法がうまくいった例
提案手法で失敗するようになった例
定性的な比較(画像検索)
提案手法がうまくいった例
提案手法で失敗するようになった例
論文による考察
「提案手法のVQA中間表現
によって、batと言われる
とhelmetも写った画像を探
すようになった。」
どちらの中間表現も寄与しているの?
• Deeper VQA-agnostic
• xxx-only representation-level fusion
– どちらかの中間表現のみを用いた場合
• Full representation-level fusion
VQAで学習したならCaptionの学習は不要?
• 画像当たりのキャプションの数と精度
• キャプションが多いほうが精度が高い
– VQAで学習しても多くのキャプションが必要
– VQAとキャプションで持つ情報が異なる
中間表現はどれくらいの次元にすればいい?
まとめと所感
• VQAを中間表現(後述)に用いることを提案
• Image-Caption Ranking で用いる特徴量に追加
– 検索精度が向上した
– ほかのタスクにも有用である可能性はある
• 「我々の知る限り最高精度」by著者
– 画像検索は[Wang+, CVPR 2016]のほうが上
• 危惧は解消できたか
– 専門分野もってなさそうだし
– 論文に数式出てこないし

Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)