Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

1,266 views

Published on

ビジュアル質問応答システム(VQA)で学習すると、画像キャプション生成も高精度化しますよという話

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

  1. 1. ECCV 2016読み会 Leveraging Visual Question Answering for Image-Caption Ranking 牛久 祥孝 losnuevetoros
  2. 2. お前は誰だ? ~2014.3 博士(情報理工学)、東京大学 • 画像説明文の自動生成 • 大規模画像分類 2014.4~2016.3 NTT コミュニケーション科学基礎研究所 2016.4~ 東京大学 大学院情報理工学系研究科 知能機械情報学専攻 講師 (原田・牛久研究室)
  3. 3. 転職して9か月 教員であることにも慣れました 牛 久 学 生 B 学 生 A 学生に慕われる教員の図
  4. 4. 転職して9か月 教員であることにも慣れました 牛 久 学 生 B 学 生 A 学生に慕われる教員の図 牛久さん今日の服装 チャラいっすねwww (※ユニクロです)
  5. 5. 学 生 B 転職して9か月 教員であることにも慣れました 牛 久 学 生 A 学生に弄ばれる教員の図 牛久さん今日の服装 チャラいっすねwww (※ユニクロです) なんか今日は先生の服、 メンナクっぽさがない ですね。 (※身に覚えがない)
  6. 6. 関東CV勉強会の幹事です 国際会議読み会はこの2年皆勤賞 • 2015年6月 CVPR読み会 • 2016年2月 ICCV読み会 • 2016年7月 CVPR読み会 • 2016年12月 ECCV読み会 ←いまここ
  7. 7. 関東CV勉強会の幹事です 国際会議読み会はこの2年皆勤賞 • 2015年6月 CVPR読み会 弱教師あり物体検出の研究 • 2016年2月 ICCV読み会 カフェラテいれる際に、スチームミルクを 作り忘れていたらアラートだす研究 • 2016年7月 CVPR読み会 飲んだくれの画像を生成する研究 • 2016年12月 ECCV読み会 ←いまここ
  8. 8. 危惧される批判: あいつ変な論文しか読めないんじゃね? • 論文に数式出てこないし • 専門分野もってなさそうだし • 服装チャラいらしいし
  9. 9. 本日の論文 • 自分の専門分野(視覚×言語の融合)から • しっかりした研究を
  10. 10. 本日の論文 • 自分の専門分野(視覚×言語の融合)から • しっかりした研究を Visual Question Answering を Image-Caption Ranking に活用する…?
  11. 11. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  12. 12. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  13. 13. Every Picture Tells a Story [Farhadi+, ECCV 2010] 世界初の画像入力→キャプション出力論文 1. 画像の<object, action, scene>をMRFで推定 2. <object, action, scene>が同じキャプションを 検索して、まるごと再利用 <Horse, Ride, Field>
  14. 14. Every Picture Tells a Story [Farhadi+, ECCV 2010]
  15. 15. 再利用?新規生成? • 再利用 • 新規生成 – テンプレート 主語+動詞の文を生成しよう – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  16. 16. 再利用?新規生成? • 再利用 – A small gray dog on a leash. • 新規生成 – テンプレート 主語+動詞の文を生成しよう – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  17. 17. 再利用?新規生成? • 再利用 – A small gray dog on a leash. • 新規生成 – テンプレート dog+stand ⇒ A dog stands. – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  18. 18. 再利用?新規生成? • 再利用 – A small gray dog on a leash. • 新規生成 – テンプレート dog+stand ⇒ A dog stands. – 非テンプレート A small white dog standing on a leash. A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  19. 19. cf. 非テンプレート型新規キャプション生成 画像の内容を表す少数の単語列(フレーズ)の推定 +単語列を文法モデルによって連結 [Ushiku+, ACM MM 2012] 最近の Neural Image Captioningとの比較 [Wu+, CVPR 2016][You+, CVPR 2016] 1. 単語/単語列を推定する部分 FV+SVM か CNN かの違い 2. 文法モデルを含めて連結する部分 対数線形モデルか RNN かの違い
  20. 20. Image-Caption Ranking 画像キャプション再利用アプローチの別名 全部で𝐾の画像 or キャプションが存在するとする • 画像クエリによるキャプション検索 – 画像𝐼にキャプション𝐶が再利用される確率を定義 𝑃𝑐𝑎𝑝 𝐶 𝐼 = exp(𝑆(𝐼, 𝐶)) 𝑖=1 𝐾 exp(𝑆(𝐼, 𝐶𝑖)) • 逆問題:キャプションによる画像検索 𝑃𝑖𝑚 𝐼 𝐶 = exp(𝑆(𝐼, 𝐶)) 𝑖=1 𝐾 exp(𝑆(𝐼𝑖, 𝐶)) ある画像とキャプションの関連の強さ
  21. 21. 今日紹介する論文では… Multimodal Neural Language Models [Kiros+, TACL 2015] を採用 𝑆𝑡 𝐼, 𝐶 = 𝑡𝐼, 𝑡 𝐶 𝑡𝐼 = 𝑊𝐼 𝑥𝐼 𝑊𝐼 𝑥𝐼 2 , 𝑡 𝐶 = 𝑥 𝐶 𝑥 𝐶 2 𝑥𝐼:画像特徴量 19層VGGNetの出力 4096次元 𝑥 𝐶:キャプション特徴量 隠れ層1024次元のGRUによるRNNの出力 1024次元 𝑊𝐼:学習する線形変換 画像特徴からキャプション特徴への変換に相当
  22. 22. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  23. 23. Visual Question Answering (VQA) 画像に関する質問に答えるQAシステム • Visual Turing Challenge [MalinowskiL+Fritz, 2014] • VQA Challenge CVPR 2016 併設のコンペティション (弊研究室:Abstract Image 部門で世界1位) [Malinowski+, ICCV 2015]
  24. 24. よくある手口:VQA=多クラス分類問題 質問文𝑄 What objects are found on the bed? 応答𝐴 bed sheets, pillow 画像𝐼 画像特徴量 𝑥𝐼 質問特徴量 𝑥 𝑄 統合された 表現ベクトル 𝑧𝐼+𝑄 表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別
  25. 25. 今日紹介する論文では… VQA 原著論文のモデル [Antol+, ICCV 2015]を採用 VQA モデル 𝑧𝐼 = tanh(𝑊𝐼 𝑥𝐼 + 𝑏𝐼) , 𝑧 𝑄 = tanh(𝑊𝑄 𝑥 𝑄 + 𝑏 𝑄) 𝑧𝐼+𝑄 = 𝑧𝐼⨀𝑧 𝑄 (⨀は要素積) 𝑠 𝐴 = 𝑊𝑆 𝑧𝐼+𝑄 + 𝑏𝑆 𝑥𝐼:19層VGGNetの出力 4096次元 𝑥 𝑄:隠れ層512次元のLSTMによるRNN2層の出力 2048次元 𝑧∗:表現ベクトル 1024次元 𝑊∗, 𝑏∗ :学習する線形変換とバイアス
  26. 26. キャプション+質問に答えるVQA-Caption 言語データのみ用いる質問応答(QA)システム 質問文𝑄 What kind of food Is in the picture? 応答𝐴 pizza キャプション𝐶 A couple of pieces of pizza with vegetable slices on them. キャプション 特徴量𝑥 𝐶 質問特徴量 𝑥 𝑄 統合された 表現ベクトル 𝑧 𝐶+𝑄
  27. 27. 今日紹介する論文では… VQA 原著論文のモデル [Antol+, ICCV 2015]を採用 VQA-Caption モデル 𝑧 𝐶 = tanh(𝑊𝐶 𝑥 𝐶 + 𝑏 𝐶) , 𝑧 𝑄 = tanh(𝑊𝑄 𝑥 𝑄 + 𝑏 𝑄) 𝑧 𝐶+𝑄 = 𝑧 𝐶⨀𝑧 𝑄 (⨀は要素積) 𝑠 𝐴 = 𝑊𝑆 𝑧 𝐶+𝑄 + 𝑏𝑆 𝑥 𝐶:最頻1000単語によるbag-of-wordsモデル 1000次元 𝑥 𝑄:隠れ層512次元のLSTMによるRNN2層の出力 2048次元 𝑧∗:表現ベクトル 1024次元 𝑊∗, 𝑏∗ :学習する線形変換とバイアス
  28. 28. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  29. 29. 着眼 多くのVQA事例を学習したシステム →画像キャプション生成も得意なのでは? What is the colour of the comforter? blue, white What is on the refrigerator? magnet, paper What objects are found on the bed? bed sheets, pillow
  30. 30. 本日の論文 • 自分の専門分野(視覚×言語の融合)から • しっかりした研究を Visual Question Answering を Image-Caption Ranking に活用する…?
  31. 31. 本日の論文の概要 • VQAを中間表現(後述)に用いることを提案 – VQAモデル→画像の中間表現 – VQA-Captionモデル→キャプションの中間表現 • Image-Caption Ranking で用いる特徴量に追加 →検索精度が向上した – 入力画像に対するキャプション検索 – 入力キャプションに対する画像検索
  32. 32. 関連研究:中間表現 • Semantic Mid-Level Visual Representations Attributes, Parts, Poselets, Objects, Actions, Contextual information • 中間表現を用いるメリット – 既存タスクの高精度化 – Zero-shot learning (↓は[Elhoseiny+, ICCV 2013])
  33. 33. 本論文が提案する中間表現 画像側のVQAアクティべーション𝑢𝐼 𝑖番目の成分𝑢𝐼 (𝑖) = log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼) 𝑢𝐼 𝐼が なら𝑢𝐼 (3) の値は0に近い 𝐼が なら𝑢𝐼 (3) の値は負の値 𝑢𝐼 (3) = log 𝑃𝐼(Yes|Is it clean?, 𝐼)
  34. 34. 本論文が提案する中間表現 画像側のVQAアクティべーション𝑢𝐼 𝑖番目の成分𝑢𝐼 (𝑖) = log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼) 𝑢𝐼 𝐼が なら𝑢𝐼 (9) の値は…? 𝐼が なら𝑢𝐼 (9) の値は負の値 𝑢𝐼 (9) = log 𝑃𝐼(Helmets|What are the men wearing on their heads?, 𝐼)
  35. 35. 本論文が提案する中間表現 画像側のVQAアクティべーション𝑢𝐼 𝑖番目の成分𝑢𝐼 (𝑖) = log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼) 𝑢𝐼 𝐼が なら𝑢𝐼 (9) の値は0に近い (シーンとして、もしmenがいたら どうなるかということで決まる) 𝐼が なら𝑢𝐼 (9) の値は負の値 𝑢𝐼 (9) = log 𝑃𝐼(Helmets|What are the men wearing on their heads?, 𝐼)
  36. 36. 本論文が提案する中間表現 キャプション側のVQA-Captionアクティべーション𝑢 𝐶 𝑖番目の成分𝑢 𝐶 (𝑖) = log 𝑃𝐶(𝐴𝑖|𝑄𝑖, 𝐶) 𝑢 𝐶 𝐶が なら𝑢 𝐶 (5) の値は0に近い 𝐶が なら𝑢 𝐶 (5) の値は負の値 𝑢 𝐶 (5) = log 𝑃𝐶(Pizza|What kind of food is in the picture?, 𝐶) A couple of pieces of pizza with vegetable slices on them. Two boats on shore near an ocean.
  37. 37. 中間表現𝑢𝐼, 𝑢 𝐶を元の特徴と統合したい • 𝑣𝐼 = ReLU 𝑊𝑢 𝐼 𝑢𝐼 + 𝑏 𝑣 𝐼 , 𝑣 𝐶 = ReLU 𝑊𝑢 𝐶 𝑢 𝐶 + 𝑏 𝑣 𝐶 • 𝑡𝐼 = 𝑊 𝐼 𝑥 𝐼 𝑊 𝐼 𝑥 𝐼 2 , 𝑡 𝐶 = 𝑥 𝐶 𝑥 𝐶 2 (再掲)
  38. 38. 最後に統合:Score-level fusion 𝑆 𝐼, 𝐶 = 𝛼𝑆𝑡 𝐼, 𝐶 + 𝛽𝑆 𝑣 𝐼, 𝐶 • 𝑆 𝑣 𝐼, 𝐶 = 𝑣𝐼, 𝑣 𝐶 • 𝑆𝑡 𝐼, 𝐶 = 𝑡𝐼, 𝑡 𝐶 (再掲)
  39. 39. 少し先に統合:Representation-level fusion 𝑆 𝐼, 𝐶 = 𝑟𝐼, 𝑟𝐶 • 𝑟𝐼=ReLU(𝑊𝑡 𝐼 𝑡𝐼 + 𝑊𝑣 𝐼 𝑣𝐼 + 𝑏 𝑟 𝐼 ) • 𝑟𝐶=ReLU(𝑊𝑡 𝐶 𝑡 𝐶 + 𝑊𝑣 𝐶 𝑣 𝐶 + 𝑏 𝑟 𝐶 )
  40. 40. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  41. 41. 実験設定 • MS COCOデータセット – 8万強のキャプション付き画像で学習 – 5000枚のテストデータ • VQAデータセット – 実はMS COCOの画像を利用したデータセット – VQA中間表現:1000枚の訓練用画像から3つずつ QA例をサンプリング→3000次元の表現ベクトル • 評価方法 – Image-Caption Ranking としての評価 – Recall@(1,5,10)
  42. 42. State-of-the-art の成績一覧 本論文がBaselineとして採用している Multimodal Neural Language Models [Kiros+, TACL 2015]
  43. 43. State-of-the-artとの比較 Score-level fusion 2パターン • VQA-grounded only: 中間表現のみ利用 • VQA-aware: Score-level fusionそのもの
  44. 44. State-of-the-artとの比較 Representation-level fusion 2パターン • VQA-agnostic: もとの特徴量のみ利用 • VQA-aware: Representation-level fusionそのもの
  45. 45. …あれ? 2つの手法の差は何? • どっちも「もとの特徴量のみ使用」のはず • でも下の方が精度が高い
  46. 46. 2つのVQA-agnostic • Multimodal Neural Language Models [Kiros+, TACL 2015] • Representation-level fusion VQA-agnostic さらに1回の線形変換と活性化関数を経ている →よりdeepになり、精度が向上している
  47. 47. 定性的な比較(画像検索) 提案手法がうまくいった例 提案手法で失敗するようになった例
  48. 48. 定性的な比較(画像検索) 提案手法がうまくいった例 提案手法で失敗するようになった例 論文による考察 「提案手法のVQA中間表現 によって、batと言われる とhelmetも写った画像を探 すようになった。」
  49. 49. どちらの中間表現も寄与しているの? • Deeper VQA-agnostic • xxx-only representation-level fusion – どちらかの中間表現のみを用いた場合 • Full representation-level fusion
  50. 50. VQAで学習したならCaptionの学習は不要? • 画像当たりのキャプションの数と精度 • キャプションが多いほうが精度が高い – VQAで学習しても多くのキャプションが必要 – VQAとキャプションで持つ情報が異なる
  51. 51. 中間表現はどれくらいの次元にすればいい?
  52. 52. まとめと所感 • VQAを中間表現(後述)に用いることを提案 • Image-Caption Ranking で用いる特徴量に追加 – 検索精度が向上した – ほかのタスクにも有用である可能性はある • 「我々の知る限り最高精度」by著者 – 画像検索は[Wang+, CVPR 2016]のほうが上 • 危惧は解消できたか – 専門分野もってなさそうだし – 論文に数式出てこないし

×