Show and tell takmin

CV勉強会@関東「CVPR2015読み会」発表資料
Show and Tell: A Neural Image Caption
Generator
2015/07/20 takmin

自己紹介
テクニカル・ソリューション・アーキテクト
皆川卓也（みながわたくや）
フリーエンジニア（ビジョン＆ITラボ）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
テクニカル・ソリューション・アーキテクト
皆川卓也（みながわたくや）
フリーエンジニア（ビジョン＆ITラボ）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
2
http://visitlab.jp

紹介する論文
3
 Show and Tell: A Neural Image Caption Generator
 O.Vinyals, A.Toshev, S.Bengio, D.Erhan
 “複雑な画像のキャプション（説明文）を自動生成するシ
ステムをGoogleが研究開発中”, TechCrunch 2014-11-
19
 http://jp.techcrunch.com/2014/11/19/20141118new-
google-research-project-can-auto-caption-complex-
images/
前回の勉強会の@peisukeさんのRNN / LSTMに関する資料が大変参考になりま
す。
• http://www.slideshare.net/FujimotoKeisuke/learning-to-forget-continual-
prediction-with-lstm

概要
4
 1枚の静止画像から説明文を生成
 近年のReccurent Neural Networks (RNN)を用いた機械
翻訳の手法をベースに、その入力をDeep Convolutional
Neural Networksで生成した特徴ベクトルに置き換え
 Neural Image Caption (NIC)
 従来手法を大きく上回る精度

Convolutional Neural Networks (CNN)
5
 詳細は割愛。ここでは、「学習データから認識に有効な
特徴量を自動で学習するネットワーク」程度の理解でOK。
 ここではGoogLeNetを改良した以下の論文を使用。
 S.Ioffe and C.Szegedy, “Batch Normalization: Accelerating
Deep Network Training by Reducing Internal Covariate Shift”,
arXiv 2015

Reccurent Neural Networks (RNN)
6
 時系列データなどの「連続したデータ」を扱うための
ニューラルネットワーク
 音声認識、機械翻訳、動画像認識
 予測先の次元数が可変
 時刻tの隠れ層の出力が時刻t+1の隠れ層の入力になる
・・・
・・・
・・・
入力
出力
隠れ層

7
 展開すると、静的なネットワークで表せる
・・・
・・・
・・・
入力
出力
隠れ層
・・・
・・・
・・・
・・・
・・・
・・・
t-1 t t+1

8
 展開すると、静的なネットワークで表せる
 通常の誤差逆伝播法でパラメータを学習できる
・・・
・・・
・・・
入力
出力
隠れ層
・・・
・・・
・・・
・・・
・・・
・・・
t-1 t t+1
教師データ教師データ教師データ

Long-Short Term Memory (LSTM)
9
 RNNは系列が大きくなると階層が深くなり、伝播した誤差
の勾配が発散してしまう
 各データの入出力および過去のデータの使用/不使用を
制御して、長い系列を扱えるようにする。

10
RNN
・・・
・・・
・・・
入力
出力
隠れ層
𝑥
𝑚 𝑡
𝑐𝑡−1
𝑐𝑡

11
LSTM
・・・
・・・
・・・
入力
出力
隠れ層
ℎ
𝜎
𝜎
Input Gate
Output Gate
Forget Gate
𝜎
Updating Term
𝑥
𝑚 𝑡
𝑐𝑡
𝑐𝑡−1
𝑚 𝑡−1

12
LSTM
・・・
・・・
・・・
入力
出力
隠れ層
ℎ
𝜎
𝜎
Input Gate
Output Gate
Forget Gate
𝜎
Updating Term
𝑥
𝑚 𝑡
𝑐𝑡
𝑐𝑡−1
𝑚 𝑡−1

13
ℎ
𝑥 𝑡𝑚 𝑡−1
𝑖 𝑡
𝑦𝑡
𝜎
𝑚 𝑡−1
𝑥 𝑡
 Input Gate
 入力データの使用/不使用を制御

14
𝑦𝑡 = 𝑖 𝑡⨀ℎ 𝑊𝑐𝑥 𝑥 𝑡 + 𝑊𝑐𝑚 𝑚 𝑡−1
ℎ
𝑖 𝑡
𝑦𝑡
𝜎
𝑚 𝑡−1
𝑥 𝑡
 Input Gate
hyperbolic tangent関数
𝑖 𝑡 = 1の時信号を通し
𝑖 𝑡 = 0 の時通さない

15
ℎ
𝑖 𝑡
𝑦𝑡
𝜎
𝑚 𝑡−1
𝑥 𝑡
𝑖 𝑡 = 𝜎 𝑊𝑖𝑥 𝑥 𝑡 + 𝑊𝑖𝑚 𝑚 𝑡−1 Sigmoid関数
 Input Gate
𝑖 𝑡 = 1の時信号を通し
𝑖 𝑡 = 0 の時通さない

16
ℎ
𝑖 𝑡
𝑦𝑡
𝜎
𝑚 𝑡−1
𝑥 𝑡
𝑖 𝑡 = 𝜎 𝑊𝑖𝑥 𝑥 𝑡 + 𝑊𝑖𝑚 𝑚 𝑡−1 Sigmoid関数
 Input Gate
学習するパラメータ

17
LSTM
・・・
・・・
・・・
入力
出力
隠れ層
ℎ
𝜎
𝜎
Input Gate
Output Gate
Forget Gate
𝜎
Updating Term
𝑥
𝑚 𝑡
𝑐𝑡
𝑐𝑡−1
𝑚 𝑡−1

18
𝑓𝑡
𝑐𝑡
𝜎
𝑚 𝑡−1
𝑥 𝑡・・・𝑦𝑡
𝑐𝑡−1
 Forget Gate
 過去の系列データの使用/不使用を制御

19
𝑓𝑡
𝑐𝑡
𝜎
𝑚 𝑡−1
𝑥 𝑡・・・
𝑐𝑡 = 𝑓𝑡⨀𝑐𝑡−1 + 𝑦𝑡
𝑦𝑡
𝑐𝑡−1
 Forget Gate
𝑓𝑡 = 1の時信号を通し
𝑓𝑡 = 0 の時通さない

20
𝑓𝑡
𝑐𝑡
𝜎
𝑚 𝑡−1
𝑥 𝑡・・・
𝑓𝑡 = 𝜎 𝑊𝑓𝑥 𝑥 𝑡 + 𝑊𝑓𝑚 𝑚 𝑡−1
𝑐𝑡 = 𝑓𝑡⨀𝑐𝑡−1 + 𝑦𝑡
𝑦𝑡
𝑐𝑡−1
 Forget Gate

21
LSTM
・・・
・・・
・・・
入力
出力
隠れ層
ℎ
𝜎
𝜎
Input Gate
Output Gate
Forget Gate
𝜎
Updating Term
𝑥
𝑚 𝑡
𝑐𝑡
𝑐𝑡−1
𝑚 𝑡−1

22
𝑐𝑡
𝑜𝑡
𝑚 𝑡
𝜎
𝑚 𝑡−1
𝑥 𝑡
 Output Gate
 出力データの使用/不使用を制御

23
𝑐𝑡
𝑜𝑡
𝑚 𝑡
𝜎
𝑚 𝑡−1
𝑥 𝑡
 Output Gate
 出力データの使用/不使用を制御
𝑜𝑡 = 1の時信号を通し
𝑜𝑡 = 0 の時通さない
𝑜𝑡 = 𝜎 𝑊𝑜𝑥 𝑥 𝑡 + 𝑊𝑜𝑚 𝑚 𝑡−1
𝑚 𝑡 = 𝑜𝑡⨀𝑐𝑡

Neural Image Caption (NIC)
24
 静止画から説明文を生成
𝑆∗
= argmax
𝑆
𝑝 𝑆|𝐼
画像説明文
𝑆 = 𝑆0, 𝑆1, ⋯
単語
可変長の系列データ

25
𝑆∗
= argmax
𝑆
𝑝 𝑆|𝐼
画像説明文
𝑝 𝑆|𝐼; 𝜃 =
𝑡=0
𝑁
𝑝 𝑆𝑡|𝐼, 𝑆0, ⋯ , 𝑆𝑡−1 ; 𝜃
𝑆 = 𝑆0, 𝑆1, ⋯
単語数
各単語はその前の単語列
の影響を受ける。

26
𝑝 𝑆|𝐼; 𝜃 =
𝑡=0
𝑁
𝑝 𝑆𝑡|𝐼, 𝑆0, ⋯ , 𝑆𝑡−1 ; 𝜃
パラメータ
単語数
学習データ 𝐼, 𝑆 から学習

27
LSTM
・・・
・・・
・・・
入力
出力
隠れ層
ℎ
𝜎
𝜎
Input Gate
Output Gate
Forget Gate
𝜎
Updating Term
𝑥
𝑚 𝑡
𝑐𝑡
𝑐𝑡−1
𝑚 𝑡−1
𝑥 𝑡 = 𝑊𝑒 𝑆𝑡
𝑝𝑡 𝑆𝑡+1 = softmax 𝑚 𝑡

29
画像からDeep CNNで
特徴ベクトルを取得
LSTMへの最初の入
力(𝒙−𝟏)

30
単語𝑺 𝟎を入力
次の単語が𝑺 𝟏で
ある確率

31
𝒎 𝟎, 𝒄 𝟎

NICの学習
32
ImageNet + Drop out
でPretraining
ランダムにパラメータ
を初期化

NICの学習
33
学習データ
予測確率

NICの学習
34
学習データ
予測確率
誤差逆
伝播

NICで予測 (Sampling)
35
Deep CNNで特徴ベク
トルを取得
入力画像を与える

36
Special Start Word
最も確率の高い
単語𝑺 𝟏を選択

37
選択した単語
𝑺 𝟏を入力
end-of-sentence
tokenが現れるま
で続ける

NICで予測 (BeamSearch)
38
Best kの単語を
保持

39
Best kの文章を
保持
k個の単語入力

40
Best kの文章を
保持
k個の単語入力
以下の実験では
BeamSearchを使用

Dataset
41
 実験に使用したデータセット

実験結果
42
 3つの指標でMSCOCOデータセットに対し定量評価
 人が評価した性能に近い値を出すことができた

他の手法との比較
43
 既存手法より大幅な精度改善

上位N個の文章例
44
 同じ画像に対し異なる表現を得られる
 学習データにない新しい表現が生成された。

人間による評価
46
 Amazon Mechanical Turkで1枚の画像につき2人、4段階評価
 Ground Truthには遠く及ばなかった（→BLEUなどの評価指標に課
題）

Analysis of Embedding
48
 Word Embedding Vector [20]という手法を用いて、ある
単語の近傍を取得

まとめ
49
 Deep CNNとRNNを用いて、画像から
説明文を生成する手法を提案。
 1つのネットワークとして誤差逆伝播
でパラメータを学習
 RNNにはLSTMを用い、長い文でも
学習時に伝播した誤差が発散しない
 従来法と比較し、大幅な精度改善

Show and tell takmin

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Show and tell takmin

Similar to Show and tell takmin (20)

More from Takuya Minagawa

More from Takuya Minagawa (16)

Recently uploaded

Recently uploaded (14)

Show and tell takmin