Differential Networks for Visual Question Answering

0
Differential Networks for
Visual Question Answering
幡本昂平
2019/4/24
北海道大学調和系工学研究室 DLゼミ

1
1論文概要
• Author
• Chenfei Wu, Jinlai Liu, Xiaojie Wang, Ruifan Li
• Center for Intelligence Science and Technology
Beijing University of Posts and Telecommunications
• AAAI2019 (2019/1/27 ~ 2019/2/1)
• URL
• https://www.aaai.org/Papers/AAAI/2019/AAAI-WuC.76.pdf
• FCNに工夫を加えたDifferential Networksを提案し，VQAタスクに適用

2
2背景
Visual Question Answering
画像と質問の組が与えられ，適切な答えを選択するタスク
• 応用先の例
• スマートホームのマネジメントシステム
• プライベートアシスタント
従来手法の一般的な解き方
1. 画像と質問をそれぞれベクトル化
2. ベクトル化された画像と質問を合成する
3. 合成結果をもとに答えを決定
この研究もこの流れに沿っている

3
3VQA2.0のデータセットの例
How many stories is the building tall?
Answer 1: 5
Answer 2: 5
Answer 3: 5
Answer 4: 5
Answer 5: 6
Answer 6: 6
Answer 7: 5
Answer 8: 5
Answer 9: 4
Answer 10: 5
答え

4
4VQA2.0のデータセットの例
What is on the pillow?
Answer 1: pillow sham
Answer 2: frills
Answer 3: pillow case
Answer 4: pillowcases
Answer 5: nothing
Answer 6: gray
Answer 7: note
Answer 8: cover
Answer 9: paper
Answer 10: sign
答え

5
5Differential Networks
特徴量ベクトルの要素の差を入力とするネットワーク Differential Networks を提案
入力ベクトルを𝑥 = (𝑥1, 𝑥2, … , 𝑥 𝑚, )，出力ベクトルをy = (𝑦1, 𝑦2, … , 𝑦 𝑛, )とすると
𝑤は学習パラメータ
ネットワーク構造
これにパラメータを削減する工夫をしたものをのように表現する

6
6全結合ネットワークとの比較
DNは入力の差を取ることで入力に含まれるノイズを除去している
重みの形(対角に要素がない)から，要素間の関係性に注目しているといえる

7
7Differential Fusion Model for VQA
DNを利用したVQAを解くためのモデル
Data Embedding ・ Differential Fusion ・ Decision Making の3段階からなる
attentionベースのモデル: 画像のどこに注目すればよいかを考慮するモデル

8
8Data Embedding
入力画像と質問文を特徴量ベクトルにエンコードする
入力画像
Faster-RCNN
同次元になるように変換
入力質問文
GRU
How many stories is the building tall?
上位𝑙個のdetection boxの画像特徴量
質問文のEmbedding
𝑙 × 𝑑
𝑑

9
9Differential Fusion
Embeddingの結果を組み合わせて最終的な答えを決定するためのベクトルを作成する

10
10Differential Fusionの流れ
①
②
③
④

11
11各処理の意図
特徴ベクトルをDNにより融合
融合した特徴ベクトルから
multiglimpse attention distributionを計算
作成したattentionを画像特徴量に組み合わせる
もう一度画像特徴量と質問文特徴量を融合

12
12Decision Making・Training
Differential Fusionの結果を用いて候補となる答えのスコアを出す
𝑊𝑓は学習可能パラメータで，次元数は答えの候補の数で変化
Decision Making
Training
学習時のground-truthとなる答えの分布𝑎の決め方
答えが候補に含まれているアノテータの数
答えが𝑖であるアノテータの数
ロスはKLダイバージェンスで計算

13
13データセット・評価指標
データセット
• VQA1.0, VQA2.0
• 自由回答と選択肢回答のタスク
• アノテータ数: 10人
Accuracy
• COCO-QA, TDIUC
• アノテータ数: 1人
Accuracy
アノテータのうち一人でも答えにしている人がいれば0とはしない

14
14実験結果
VQA1.0における state-of-the-artsとの比較

15
15実験結果
VQA2.0における state-of-the-artsとの比較
COCO-QAにおけるstate-of-the-artsとの比較

16
16実験結果
TDIUCにおけるstate-of-the-artsとの比較

17
17Ablation study
手法の構成要素ごとの有効性を確かめるため，構成要素を抜いたバージョンの手法と比較
FCNを用いる
従来手法
質問文のみDN
画像のみDN
Reluの代わりにtanh
ドロップアウトなし
すべて通常のDFのほうがいい

18
18質的評価
DNを質問文・画像の両方に適用したほうがよりバウンディングボックスが正確である

19
19質的評価
カウントタスクはAttentionベースのモデルでは難しい(Example4)

20
20結論
• DNモジュールを提案
• DNを用いたVQAを解くVQAモデルを作成し，４つのデータセットでSOTA
• 今後はDNを他のタスクに使用して，その一般性と有効性を確かめたい

Differential Networks for Visual Question Answering

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Differential Networks for Visual Question Answering