SlideShare a Scribd company logo
1 of 21
0
Differential Networks for
Visual Question Answering
幡本昂平
2019/4/24
北海道大学 調和系工学研究室 DLゼミ
1
1論文概要
• Author
• Chenfei Wu, Jinlai Liu, Xiaojie Wang, Ruifan Li
• Center for Intelligence Science and Technology
Beijing University of Posts and Telecommunications
• AAAI2019 (2019/1/27 ~ 2019/2/1)
• URL
• https://www.aaai.org/Papers/AAAI/2019/AAAI-WuC.76.pdf
• FCNに工夫を加えたDifferential Networksを提案し,VQAタスクに適用
2
2背景
Visual Question Answering
画像と質問の組が与えられ,適切な答えを選択するタスク
• 応用先の例
• スマートホームのマネジメントシステム
• プライベートアシスタント
従来手法の一般的な解き方
1. 画像と質問をそれぞれベクトル化
2. ベクトル化された画像と質問を合成する
3. 合成結果をもとに答えを決定
この研究もこの流れに沿っている
3
3VQA2.0のデータセットの例
How many stories is the building tall?
Answer 1: 5
Answer 2: 5
Answer 3: 5
Answer 4: 5
Answer 5: 6
Answer 6: 6
Answer 7: 5
Answer 8: 5
Answer 9: 4
Answer 10: 5
答え
4
4VQA2.0のデータセットの例
What is on the pillow?
Answer 1: pillow sham
Answer 2: frills
Answer 3: pillow case
Answer 4: pillowcases
Answer 5: nothing
Answer 6: gray
Answer 7: note
Answer 8: cover
Answer 9: paper
Answer 10: sign
答え
5
5Differential Networks
特徴量ベクトルの要素の差を入力とするネットワーク Differential Networks を提案
入力ベクトルを𝑥 = (𝑥1, 𝑥2, … , 𝑥 𝑚, ),出力ベクトルをy = (𝑦1, 𝑦2, … , 𝑦 𝑛, )とすると
𝑤は学習パラメータ
ネットワーク構造
これにパラメータを削減する工夫をしたものを のように表現する
6
6全結合ネットワークとの比較
DNは入力の差を取ることで入力に含まれるノイズを除去している
重みの形(対角に要素がない)から,要素間の関係性に注目しているといえる
7
7Differential Fusion Model for VQA
DNを利用したVQAを解くためのモデル
Data Embedding ・ Differential Fusion ・ Decision Making の3段階からなる
attentionベースのモデル: 画像のどこに注目すればよいかを考慮するモデル
8
8Data Embedding
入力画像と質問文を特徴量ベクトルにエンコードする
入力画像
Faster-RCNN
同次元になるように変換
入力質問文
GRU
How many stories is the building tall?
上位𝑙個のdetection boxの画像特徴量
質問文のEmbedding
𝑙 × 𝑑
𝑑
9
9Differential Fusion
Embeddingの結果を組み合わせて最終的な答えを決定するためのベクトルを作成する
10
10Differential Fusionの流れ
①
②
③
④
11
11各処理の意図
特徴ベクトルをDNにより融合
融合した特徴ベクトルから
multiglimpse attention distributionを計算
作成したattentionを画像特徴量に組み合わせる
もう一度画像特徴量と質問文特徴量を融合
12
12Decision Making・Training
Differential Fusionの結果を用いて候補となる答えのスコアを出す
𝑊𝑓は学習可能パラメータで,次元数は答えの候補の数で変化
Decision Making
Training
学習時のground-truthとなる答えの分布𝑎の決め方
答えが候補に含まれているアノテータの数
答えが𝑖であるアノテータの数
ロスはKLダイバージェンスで計算
13
13データセット・評価指標
データセット
• VQA1.0, VQA2.0
• 自由回答と選択肢回答のタスク
• アノテータ数: 10人
Accuracy
• COCO-QA, TDIUC
• アノテータ数: 1人
Accuracy
アノテータのうち一人でも答えにしている人がいれば0とはしない
14
14実験結果
VQA1.0における state-of-the-artsとの比較
15
15実験結果
VQA2.0における state-of-the-artsとの比較
COCO-QAにおけるstate-of-the-artsとの比較
16
16実験結果
TDIUCにおけるstate-of-the-artsとの比較
17
17Ablation study
手法の構成要素ごとの有効性を確かめるため,構成要素を抜いたバージョンの手法と比較
FCNを用いる
従来手法
質問文のみDN
画像のみDN
Reluの代わりにtanh
ドロップアウトなし
すべて通常のDFのほうがいい
18
18質的評価
DNを質問文・画像の両方に適用したほうがよりバウンディングボックスが正確である
19
19質的評価
カウントタスクはAttentionベースのモデルでは難しい(Example4)
20
20結論
• DNモジュールを提案
• DNを用いたVQAを解くVQAモデルを作成し,4つのデータセットでSOTA
• 今後はDNを他のタスクに使用して,その一般性と有効性を確かめたい

More Related Content

What's hot

Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 

What's hot (20)

2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
Mobilenet
MobilenetMobilenet
Mobilenet
 
2019 08 20_dl
2019 08 20_dl2019 08 20_dl
2019 08 20_dl
 
Playing Atari with Six Neurons
Playing Atari with Six NeuronsPlaying Atari with Six Neurons
Playing Atari with Six Neurons
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
 
Predictron
PredictronPredictron
Predictron
 
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep NetworksBayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded SystemsFastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Capsule Graph Neural Network
Capsule Graph Neural NetworkCapsule Graph Neural Network
Capsule Graph Neural Network
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Differential Networks for Visual Question Answering