[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering

DEEP LEARNING JP
[DL Papers]
“MUTAN: Multimodal Tucker Fusion for Visual
Question Answering (ICCV 2017)” and Visual Question
Answering
Masashi Yokota, Nakayama Lab
http://deeplearning.jp/
1

書誌情報
• 著者
Hedi Ben-Younes, Rèmi Cadène, Nicolas Thome, Matthieu Cord
• ICCV 2017
• 概要
• タッカー分解を応用してbilinear modelを近似して、VQAのモデルパラ
メータ数の削減と性能改善に成功。
• 選定理由
• VQA以外でも広く使えそうだったので。
2

Visual Question Answering
• 画像と質問文を入力し、適切な回答を生成するタスク
Q. What is the mustache
made of?
A. BananaModel
3

VQAの主な論点
1. 画像と質問文からどうやって特徴量抽出するか？
2. 画像特徴量と質問文特徴量をどう組み合わせて回答生成する
か？
4

VQAの主な論点
か？
→主に画像へのAttentionをどうするかがメイン
ex. Stacked Attention Network[Yang+ 2016]
5

Stacked Attention Network [Yang+ CVPR 2016]
人間が質問文と画像を交互に見るように複数回Attentionをかける。複数回適用
することでAttentionをよりピンポイントにかけられるようになるらしい。 6

人間が質問文と画像を交互に見るように複数回Attentionをかける。複数回適用
することでAttentionをよりピンポイントにかけられるようになるらしい。
Stacked Attention Network [Yang+ CVPR 2016]
7

Co-attending Free-form Regions and Detections with
Multi-modal Multiplicative Feature Embedding for Visual
Question Answering [Lu+ AAAI2017]
物体検出により得られる物体領域候補は質問文に回答するのに有益だとい
う仮説から、Free-form(通常のAttention)とDetection based(物体領域候補
を選ぶ)の2種類の方法でAttentionを行う。 8

Co-attending Free-form Regions and Detections with
Multi-modal Multiplicative Feature Embedding for Visual
Question Answering [Lu+ AAAI2017]
物体領域候補を用いることで、画像全領域から探すよりも簡単に回答
に必要な画像領域が得られるので精度が上がる。 9

VQAの主な論点
か？
→先行研究から良い特徴量は得られるようになったが、それを
推論にどう役立てるかが問題！
→今回のメインテーマ
10

画像特徴量と質問文特徴量をどう組み合
わせて回答生成するか？
What color of
the surfboard?
White
画像
モジュール
質問文
モジュール
回答生成
モジュール
Answer
メインテーマ
11

回答生成モジュール
左3つのconcat、要素積、要素和がVQAのモデルでは良く使われる。しかし、
著者いわくBilinear Modelを用いた方が良い結果が得られる事が知られてい
るらしい。
× +
Bilinear
FC
FC
FC
・concat ・要素積・要素和・Bilinear Model
A A A A
画像特徴量質問文特徴量
12

Bilinear Modelとは
×i: 𝑖-モード積
• 上記のようにテンソルに対してベクトルを掛け合わせる
• VQAの回答モジュール以外にもAttention Mapの重み計算の時
にもよく使われる。
13

i-モード積
• テンソル内の各軸をモードという。
• 各モードで上図のようにファイバーに分けて、ファイバーとベ
クトルを掛け合わせるのがモード積
1-モード 2-モード 3-モード
14

Bilinear Modelの問題点
• パラメータ数が大きくなりすぎてしまう
• Ex) 𝑑 𝑞, 𝑑 𝑣, |Α|をそれぞれ2000すると
＝8 × 109
モデルのパラメータ数が大きくなると上手く学習できなくなる
(次元の呪い)
×i: 𝑖-モード積×i: 𝑖-モード積
15

[関連研究] Hadamard Product for Low-
Rank Bilinear Pooling [Kim+ ICLR2017]
• Bilinear Modelから得られるベクトルfのi番目の要素
• 重みW_iをU_iとV_iで分割することを考える
• を行列に置き換え、ベクトルfは次のように書ける
UとVを小さくすることでパラメータ数を削減できる。 16

提案手法
テンソルをタッカー分解を応用して、よりパラ
メータ数を削減する。
18

Tucker分解とは鹿島久嗣先生のスライドより
www.geocities.co.jp/kashi_pong/relationalLearningTensors.pdf
大きなテンソルを小さなコアテンソルと3つの行列に分解する。
パラメータ数はコアテンソルの大きさに依存する。 19

Multimodal Tucker Fusion（提案手法）
• Tucker分解
• Multimodal Tucker Fusion
Multimodal Tucker Fusionでパラメータ数の削減はできるが、
パラメータ数を削減しすぎるとモデルの表現力も下がってしまう。
表現力が増えるようにパラメータ数を調整したい！
ここを拡張する
20

• 以下のようなベクトルzを考える
• ベクトルzのk番目の要素は以下のように計算できる
これを拡張する
21

• テンソルを以下のようにR個の重みの和に拡張する事を考
える
• 以上よりベクトルzのk番目の要素は以下のように修正できる
• 以上よりベクトルzは次のように計算できる
: テンソル積(補足参照)
22

• ベクトルz
• ベクトルzを使ってベクトルｙは次のように計算できる
メモ
23

実験
• データセット：VQA v2の実画像データ
• 実験内容
• 既存のbilinear modelの近似モデルとの比較
• 既存のVQAモデルとの比較
• コアテンソルの大きさの影響
• Rとt_0の影響
• 提案手法をAttentionにも応用した時の定性評価
24

既存のBilinear Modelの近似モデルとの比較
• 既存手法よりもパラメータ数も性能面も良い
• Mutan+MLBは詳しい記述なく良くわからない。
25

既存のVQAモデルとの比較
• (n)はn個のモデルでアンサンブルを表す。
• 既存手法よりも性能良いかもしれない。(アンサンブルしてるので分
かりにくい) 26

コアテンソルの大きさの影響
• R=1で実験
• Identityはコアテンソルを
identityテンソルにしたもの
• t=100くらいで頭打ちになる
27

Rとt_0の影響
• Rとt_0の大きさを変えて、
スコアの変化を見た。
• 黄色い吹き出しは、パラ
メータ数を示す。
• パラメータ数同じでもR
の大きさとt_0の大きさ
のバランスで性能が左右
される。
28

提案手法をattentionに応用した時の定性評価
• 一度のAttentionで２つ
のAttention Mapを生成
• 対のAttentionで良い具
合に情報を補助しあえて
いる。→良い具合に
Attentionできていそう。
29

まとめと感想
• まとめ
• Tucker分解を応用してBilinear Modelを近似
• パラメータ数を削減し、かつ精度面の向上にも成功
• 感想
• Bilinear Model自体はAttentionを使う時など、よく出てくるのでいろい
ろな場面で応用できそう。
• 著者の書いた提案手法のコードで遊んでみた感じRとt_0の値は確かに性
能影響が出やすかった。
• それに加え実験では書かれてなかったが、t_v, t_q, t_oのパラメータも意
外と重要(t_vは大きめが良いとか)。
• デメリットをあえて言うならハイパーパラメータが増えて、かつそれが
性能に影響が出やすいのがやっかい。(特に他のタスクで応用した時)
30

[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering

Similar to [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering (9)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering