Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Mind’s Eye: A Recurrent
Visual Representation for
Image Caption Generation
Xinlei Chen(*), C. Lawrence Zitnick(**)
(*):Carnegie Mellon University
(**):Microsoft Research, Redmond
手島知昭 (@tomoaki_teshima)

Recurrent NNとは？
• 時系列データなどの「連続したデータ」を扱うため
のニューラルネットワーク
• 音声認識、機械翻訳、動画像認識
http://www.slideshare.net/takmin/show-andtell-takmin
入力
隠れ層
出力
…
…
…

Recurrent NNの課題
• 展開すると、静的なネットワークで表せる
…
…
…
…
…
…
…
…
…
入力
隠れ層
出力

Long short term memory
• 過去情報を減衰せず
に再利用する
• これにより誤差が発
散・消失しない
http://www.slideshare.net/FujimotoKeisuke/learning-to-forget-continual-prediction-with-lstm

本手法のLSTMに該当するもの
Paint a picture in your mind’s eye

提案手法の概要
• 画像←→キャプションの双方向生成/推定が可能
• キャプション生成、もしくは画像クエリの研究はあった
• Joint Feature Spaceに投影する研究もあった
• 使われた単語を記憶する隠し層を追加

提案手法のNNの構成
Mikolov[29]
word
隠れ層
Mikolov[32]Visual feature
(constant)

本手法のLSTMに該当するもの
Visual feature
出現した単語を記憶しつつ
Visual Feature を再構築する
Uの初期値は
画像特徴量の事前分布にならう

画像からキャプション生成
入力画像の特徴量

キャプションから画像選択
文章の各word

Language Model
• 3,000-20,000 words
• 計算コストが爆発するので、各wordにclassを割り
当てる
• classは似た出現頻度のwordをまとめることで生成
する
• Maximum Entropy language model
• preprocessing

Learning
• 逆伝播法
• 数word分unroll したもので学習する
• 行をまたいだ場合、モデルをリセットする
• Recurrent unitsのweightの学習はオンライン
• Once per sentence batch update
• Sigmoid で、単語にはsoft-maxを使う

評価結果(Sentence generation)
PASCAL
PPL BLEU METEOR
Midge[33] - 2.9 8.8
Baby Talk[24] - 0.5 9.7
Our Approach 25.3 9.8 16.0
Our Approach + FT 24.6 10.4 16.3
Our Approach + VGG 23.8 12.0 17.6
Human - 20.1 25.0

評価結果(Sentence generation)
PASCAL
PPL BLEU METEOR
Midge[33] - 2.9 8.8
Baby Talk[24] - 0.5 9.7
Our Approach 25.3 9.8 16.0
Our Approach + FT 24.6 10.4 16.3
Our Approach + VGG 23.8 12.0 17.6
Human - 20.1 25.0
小さいほど( ・∀・)ｲｲ!! 大きいほど( ・∀・)ｲｲ!!

評価結果(Sentence Generation)
Flickr 8K Flickr 30K MS COCO Val MS COCO Test
PPL BLEU METEOR PPL BLEU METEOR PPL BLEU METEOR BLEU METEOR CIDEr
RNN 17.5 4.5 10.3 23 6.3 10.7 16.9 4.7 9.8 - - -
RNN+IF 16.5 11.9 16.2 20.8 11.3 14.3 13.3 16.3 17.7 - - -
RNN+IF+FT 16 12 16.3 20.5 11.6 14.6 12.9 17 18 - - -
RNN+VGG 15.2 12.4 16.7 20 11.9 15 12.6 18.4 19.3 18 19.1 51.5
Our Approach 16.1 12.2 16.6 20 11.3 14.6 12.6 16.3 17.8 - - -
Our Approach + FT 15.8 12.4 16.7 19.5 11.6 14.7 12 16.8 18.1 16.5 18 44.8
Our Approach + VGG 15.1 13.1 16.9 19.1 12 15.2 11.6 18.8 19.6 18.4 19.5 53.1
Human - 20.6 25.5 - 18.9 22.9 - 19.2 24.1 21.7 25.2 85.4
RNNに画像特徴量(IF)を入力
RNNに画像特徴量(IF)を入力し、学習時に逆伝播でさらにチューニング
IF(CNN)の代わりにVGGを画像特徴量として使用

評価結果(3) Flickr 8K
Sentence Retrieval Image Retrieval
R@1 R@5 R@10 Med r R@1 R@5 R@10 Med r
Random Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500
SDT-RNN [38] 4.5 18 28.6 32 6.1 18.5 29 29
DeViSE [12] 4.8 16.5 27.3 28 5.9 20.1 29.6 29
DeepFE [20] 12.6 32.9 44 14 9.7 29.6 42.5 15
DeepFE+DECAF [20] 5.9 19.2 27.3 34 5.2 17.6 26.5 32
RNN+VGG 8.9 25.7 38.7 20.5 6.5 17.3 28.4 25
Our Approach (T) 9.6 29.1 41.6 17 7 23.6 33.6 23
Our Approach (T+I) 9.9 29.2 42.4 16 7.3 24.6 36 20
[16] 8.3 21.6 30.3 34 7.6 20.7 30.1 38
RNN+VGG 7.7 23 37.2 21 6.8 24 33.9 23.5
Our Approach (T) 8.1 24.4 39.1 19 7.4 25 37.5 21
Our Approach (T+I) 8.6 25.9 40.1 17 7.6 24.9 37.8 20
M-RNN [28] 14.5 37.2 48.5 11 11.5 31 42.4 15
RNN+VGG 14.4 37.9 48.2 10 15.6 38.4 50.6 10
Our Approach (T) 15.2 39.8 49.3 8.5 16.4 40.9 54.8 9
Our Approach (T+I) 15.4 40.6 50.1 8 17.3 42.5 57.4 7

評価結果(4) Flickr 30K
Sentence Retrieval Image Retrieval
R@1 R@5 R@10 Med r R@1 R@5 R@10 Med r
Random Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500
SDT-RNN [38] 4.5 18.1 29.2 26 6.7 21.9 32.7 25
DeViSE [12] 16.4 40.2 54.7 8 10.3 31.4 44.5 13
DeepFE [20] 10.2 26.9 36.7 22 7.6 21.3 31.4 27
Our Approach (T) 11.3 30.1 43.2 16 8.2 24.7 37 22
Our Approach (T+I) 11.9 32.9 45.1 14 8.4 25.7 36.8 21
[16] 18.4 40.2 50.9 10 12.6 31.2 41.5 16
RNN+VGG 14.9 36.7 52.1 11 15.1 41.1 54.1 9
Our Approach (T) 15.8 42 57.4 9 17.7 44.9 57.2 7.5
Our Approach (T+I) 16.6 42.5 58.9 8 18.5 45.7 58.1 7

まとめ
• 画像からキャプション生成、もしくはクエリから画像
選択を1つのNNを使って実現した
• 従来のクエリを行うNNは、文章と画像の特徴量を同じ
空間に投影するだけで、同じNNから生成しているのと
は違う
• 使用された単語をLSTMとして常に入力することで、
性能を向上させた

今後の展望
• 以下の2つを同時に推定するのでなく順番に推定
すると性能が向上するかも知れない
• 画像中に何が写ってるか (object)
• Objectの関係はどうなっているか
• 位置関係を表すwordsは不得意な傾向にある
• 本当（？）

おまけ
• 前回の皆川さんの発表 “Show and Tell: A Newral
Image Caption Generator” との違い
• RNNを使ってキャプション生成
• 画像をNNにかけた結果を入力する
• 評価実験にPASCAL VOC,Flicker8K,Flicker30Kおよび
MSCOCOを使用
• 生成されたキャプションの評価にBLEU、METEOR、
CIDERを使用

差分
• 本手法はキャプション生成だけでなく、説明文から
画像特徴量を復元できる
• 画像特徴量でなく文字の出現頻度をLSTMとして用
いる

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Recommended

Recommended

More Related Content

Similar to Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Similar to Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation (20)

More from tomoaki0705

More from tomoaki0705 (20)

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Editor's Notes