Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Mind’s Eye: A Recurrent
Visual Representation for
Image Caption Generation
Xinlei Chen(*), C. Lawrence Zitnick(**)
(*):Car...
結果
Recurrent NNとは?
• 時系列データなどの「連続したデータ」を扱うため
のニューラルネットワーク
• 音声認識、機械翻訳、動画像認識
http://www.slideshare.net/takmin/show-andtell-tak...
Recurrent NNの課題
• 展開すると、静的なネットワークで表せる
…
…
…
…
…
…
…
…
…
入力
隠れ層
出力
Long short term memory
• 過去情報を減衰せず
に再利用する
• これにより誤差が発
散・消失しない
http://www.slideshare.net/FujimotoKeisuke/learning-to-forget...
本手法のLSTMに該当するもの
Paint a picture in your mind’s eye
提案手法の概要
• 画像←→キャプションの双方向生成/推定が可能
• キャプション生成、もしくは画像クエリの研究はあった
• Joint Feature Spaceに投影する研究もあった
• 使われた単語を記憶する隠し層を追加
提案手法のNNの構成
提案手法のNNの構成
Mikolov[29]
word
隠れ層
Mikolov[32]Visual feature
(constant)
LSTMの効果
本手法のLSTMに該当するもの
Visual feature
出現した単語を記憶しつつ
Visual Feature を再構築する
Uの初期値は
画像特徴量の事前分布にならう
画像からキャプション生成
入力画像の特徴量
キャプションから画像選択
文章の各word
Language Model
• 3,000-20,000 words
• 計算コストが爆発するので、各wordにclassを割り
当てる
• classは似た出現頻度のwordをまとめることで生成
する
• Maximum Entropy l...
Learning
• 逆伝播法
• 数word分unroll したもので学習する
• 行をまたいだ場合、モデルをリセットする
• Recurrent unitsのweightの学習はオンライン
• Once per sentence batch...
評価結果(Sentence generation)
PASCAL
PPL BLEU METEOR
Midge[33] - 2.9 8.8
Baby Talk[24] - 0.5 9.7
Our Approach 25.3 9.8 16.0
Ou...
評価結果(Sentence generation)
PASCAL
PPL BLEU METEOR
Midge[33] - 2.9 8.8
Baby Talk[24] - 0.5 9.7
Our Approach 25.3 9.8 16.0
Ou...
評価結果(Sentence Generation)
Flickr 8K Flickr 30K MS COCO Val MS COCO Test
PPL BLEU METEOR PPL BLEU METEOR PPL BLEU METEOR BL...
評価結果(3) Flickr 8K
Sentence Retrieval Image Retrieval
R@1 R@5 R@10 Med r R@1 R@5 R@10 Med r
Random Ranking 0.1 0.6 1.1 631 ...
評価結果(4) Flickr 30K
Sentence Retrieval Image Retrieval
R@1 R@5 R@10 Med r R@1 R@5 R@10 Med r
Random Ranking 0.1 0.6 1.1 631...
生成結果
生成例(失敗含む)
まとめ
• 画像からキャプション生成、もしくはクエリから画像
選択を1つのNNを使って実現した
• 従来のクエリを行うNNは、文章と画像の特徴量を同じ
空間に投影するだけで、同じNNから生成しているのと
は違う
• 使用された単語をLSTMとし...
今後の展望
• 以下の2つを同時に推定するのでなく順番に推定
すると性能が向上するかも知れない
• 画像中に何が写ってるか (object)
• Objectの関係はどうなっているか
• 位置関係を表すwordsは不得意な傾向にある
• 本当(...
おまけ
• 前回の皆川さんの発表 “Show and Tell: A Newral
Image Caption Generator” との違い
• RNNを使ってキャプション生成
• 画像をNNにかけた結果を入力する
• 評価実験にPASCAL...
差分
• 本手法はキャプション生成だけでなく、説明文から
画像特徴量を復元できる
• 画像特徴量でなく文字の出現頻度をLSTMとして用
いる
Upcoming SlideShare
Loading in …5
×

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

1,433 views

Published on

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Published in: Science
  • Be the first to comment

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

  1. 1. Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation Xinlei Chen(*), C. Lawrence Zitnick(**) (*):Carnegie Mellon University (**):Microsoft Research, Redmond 手島知昭 (@tomoaki_teshima)
  2. 2. 結果
  3. 3. Recurrent NNとは? • 時系列データなどの「連続したデータ」を扱うため のニューラルネットワーク • 音声認識、機械翻訳、動画像認識 http://www.slideshare.net/takmin/show-andtell-takmin 入力 隠れ層 出力 … … …
  4. 4. Recurrent NNの課題 • 展開すると、静的なネットワークで表せる … … … … … … … … … 入力 隠れ層 出力
  5. 5. Long short term memory • 過去情報を減衰せず に再利用する • これにより誤差が発 散・消失しない http://www.slideshare.net/FujimotoKeisuke/learning-to-forget-continual-prediction-with-lstm
  6. 6. 本手法のLSTMに該当するもの Paint a picture in your mind’s eye
  7. 7. 提案手法の概要 • 画像←→キャプションの双方向生成/推定が可能 • キャプション生成、もしくは画像クエリの研究はあった • Joint Feature Spaceに投影する研究もあった • 使われた単語を記憶する隠し層を追加
  8. 8. 提案手法のNNの構成
  9. 9. 提案手法のNNの構成 Mikolov[29] word 隠れ層 Mikolov[32]Visual feature (constant)
  10. 10. LSTMの効果
  11. 11. 本手法のLSTMに該当するもの Visual feature 出現した単語を記憶しつつ Visual Feature を再構築する Uの初期値は 画像特徴量の事前分布にならう
  12. 12. 画像からキャプション生成 入力画像の特徴量
  13. 13. キャプションから画像選択 文章の各word
  14. 14. Language Model • 3,000-20,000 words • 計算コストが爆発するので、各wordにclassを割り 当てる • classは似た出現頻度のwordをまとめることで生成 する • Maximum Entropy language model • preprocessing
  15. 15. Learning • 逆伝播法 • 数word分unroll したもので学習する • 行をまたいだ場合、モデルをリセットする • Recurrent unitsのweightの学習はオンライン • Once per sentence batch update • Sigmoid で、単語にはsoft-maxを使う
  16. 16. 評価結果(Sentence generation) PASCAL PPL BLEU METEOR Midge[33] - 2.9 8.8 Baby Talk[24] - 0.5 9.7 Our Approach 25.3 9.8 16.0 Our Approach + FT 24.6 10.4 16.3 Our Approach + VGG 23.8 12.0 17.6 Human - 20.1 25.0
  17. 17. 評価結果(Sentence generation) PASCAL PPL BLEU METEOR Midge[33] - 2.9 8.8 Baby Talk[24] - 0.5 9.7 Our Approach 25.3 9.8 16.0 Our Approach + FT 24.6 10.4 16.3 Our Approach + VGG 23.8 12.0 17.6 Human - 20.1 25.0 小さいほど( ・∀・)イイ!! 大きいほど( ・∀・)イイ!!
  18. 18. 評価結果(Sentence Generation) Flickr 8K Flickr 30K MS COCO Val MS COCO Test PPL BLEU METEOR PPL BLEU METEOR PPL BLEU METEOR BLEU METEOR CIDEr RNN 17.5 4.5 10.3 23 6.3 10.7 16.9 4.7 9.8 - - - RNN+IF 16.5 11.9 16.2 20.8 11.3 14.3 13.3 16.3 17.7 - - - RNN+IF+FT 16 12 16.3 20.5 11.6 14.6 12.9 17 18 - - - RNN+VGG 15.2 12.4 16.7 20 11.9 15 12.6 18.4 19.3 18 19.1 51.5 Our Approach 16.1 12.2 16.6 20 11.3 14.6 12.6 16.3 17.8 - - - Our Approach + FT 15.8 12.4 16.7 19.5 11.6 14.7 12 16.8 18.1 16.5 18 44.8 Our Approach + VGG 15.1 13.1 16.9 19.1 12 15.2 11.6 18.8 19.6 18.4 19.5 53.1 Human - 20.6 25.5 - 18.9 22.9 - 19.2 24.1 21.7 25.2 85.4 RNNに画像特徴量(IF)を入力 RNNに画像特徴量(IF)を入力し、学習時に逆伝播でさらにチューニング IF(CNN)の代わりにVGGを画像特徴量として使用
  19. 19. 評価結果(3) Flickr 8K Sentence Retrieval Image Retrieval R@1 R@5 R@10 Med r R@1 R@5 R@10 Med r Random Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500 SDT-RNN [38] 4.5 18 28.6 32 6.1 18.5 29 29 DeViSE [12] 4.8 16.5 27.3 28 5.9 20.1 29.6 29 DeepFE [20] 12.6 32.9 44 14 9.7 29.6 42.5 15 DeepFE+DECAF [20] 5.9 19.2 27.3 34 5.2 17.6 26.5 32 RNN+VGG 8.9 25.7 38.7 20.5 6.5 17.3 28.4 25 Our Approach (T) 9.6 29.1 41.6 17 7 23.6 33.6 23 Our Approach (T+I) 9.9 29.2 42.4 16 7.3 24.6 36 20 [16] 8.3 21.6 30.3 34 7.6 20.7 30.1 38 RNN+VGG 7.7 23 37.2 21 6.8 24 33.9 23.5 Our Approach (T) 8.1 24.4 39.1 19 7.4 25 37.5 21 Our Approach (T+I) 8.6 25.9 40.1 17 7.6 24.9 37.8 20 M-RNN [28] 14.5 37.2 48.5 11 11.5 31 42.4 15 RNN+VGG 14.4 37.9 48.2 10 15.6 38.4 50.6 10 Our Approach (T) 15.2 39.8 49.3 8.5 16.4 40.9 54.8 9 Our Approach (T+I) 15.4 40.6 50.1 8 17.3 42.5 57.4 7
  20. 20. 評価結果(4) Flickr 30K Sentence Retrieval Image Retrieval R@1 R@5 R@10 Med r R@1 R@5 R@10 Med r Random Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500 SDT-RNN [38] 4.5 18.1 29.2 26 6.7 21.9 32.7 25 DeViSE [12] 16.4 40.2 54.7 8 10.3 31.4 44.5 13 DeepFE [20] 10.2 26.9 36.7 22 7.6 21.3 31.4 27 Our Approach (T) 11.3 30.1 43.2 16 8.2 24.7 37 22 Our Approach (T+I) 11.9 32.9 45.1 14 8.4 25.7 36.8 21 [16] 18.4 40.2 50.9 10 12.6 31.2 41.5 16 RNN+VGG 14.9 36.7 52.1 11 15.1 41.1 54.1 9 Our Approach (T) 15.8 42 57.4 9 17.7 44.9 57.2 7.5 Our Approach (T+I) 16.6 42.5 58.9 8 18.5 45.7 58.1 7
  21. 21. 生成結果
  22. 22. 生成例(失敗含む)
  23. 23. まとめ • 画像からキャプション生成、もしくはクエリから画像 選択を1つのNNを使って実現した • 従来のクエリを行うNNは、文章と画像の特徴量を同じ 空間に投影するだけで、同じNNから生成しているのと は違う • 使用された単語をLSTMとして常に入力することで、 性能を向上させた
  24. 24. 今後の展望 • 以下の2つを同時に推定するのでなく順番に推定 すると性能が向上するかも知れない • 画像中に何が写ってるか (object) • Objectの関係はどうなっているか • 位置関係を表すwordsは不得意な傾向にある • 本当(?)
  25. 25. おまけ • 前回の皆川さんの発表 “Show and Tell: A Newral Image Caption Generator” との違い • RNNを使ってキャプション生成 • 画像をNNにかけた結果を入力する • 評価実験にPASCAL VOC,Flicker8K,Flicker30Kおよび MSCOCOを使用 • 生成されたキャプションの評価にBLEU、METEOR、 CIDERを使用
  26. 26. 差分 • 本手法はキャプション生成だけでなく、説明文から 画像特徴量を復元できる • 画像特徴量でなく文字の出現頻度をLSTMとして用 いる

×