Show and Tell: A Neural Image Caption Generatorの紹介

RNNLMによる画像注釈付与の論文
Show andTell: A NeuralImageCaptionGenerator
論文はこちら
@sesenosannko

目次
概要
一般的なRNNLMの説明
提案手法の特徴
既存手法と比べて何が凄いか
転移学習
疑問・感想
目次

論文の概要
画像に注釈（＝説明）をつける
入力するのは画像のみ！
画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する
転移学習の分かりやすい好例（だと個人的に思います）
(左画像は論文より）
概要

RNNLM(RNN LanguageModel)
RNN（LSTM）の言語モデル
文章生成が有名
1. 最初の単語を入力
2. 最初の出力を次の時刻で入力
3. 以下同様
学習時にはデータを1単語ずつ入力
時刻tの教師データは、時刻t + 1
に入力するデータ
（画像は論文より）
一般的なRMMLMの説明

画像注釈付けの既存手法
画像物体認識と文章生成はそれぞれ別々に行われる
一旦画像から単語や位置関係を出力するなど
物体認識のみであれば性能は良い
文章生成はテンプレート的で汎化されていない
↓
提案手法
end‑to‑endモデル
物体認識から文章生成まで一続きで学習できる
RNNLMによる文章生成は既存の手法より強力

提案手法の概要
画像をCNNに入力し、CNNの中間層をRNNLMの最初に入力
その後はRNNLMの文章生成モデルと同様の手順で脚注を出力
学習時には画像を入力し、脚注をRNNLMの文章生成モデルと同様
に入力していく
RNNLMにCNNの中間層をそのまま入力している
||
画像から抽出される特徴量は
単語から抽出される特徴量と同じ空間にある

提案手法
（画像は論文より）

転移学習Transfer Learning
ある課題で学習して得た知識を、他の課題で利用する手法
提案手法ではCNN部分を、物体認識問題を学習したものをそのまま
使い、重みもそのままで固定する
物体認識問題で獲得された特徴抽出がそのまま使われる
一般的には転移学習でも新たな課題の学習において重みを全体
または一部更新することもある
RNNLM（単語埋め込み部分）の転移学習も試されているが、結果
は向上していない
明確な理由は書かれておらず、このように転移学習は結果が出
るかわからないことは良くあるようだ
画像の特徴抽出に比べて層が浅い（学習が容易）から転移学習
をしなくとも十分ということも一因か

疑問に思ったこと
80%の文章が教師データから抜き出されている
教師データ内に入力画像に適した文章があれば再利用されるの
は自然だと書いてあるが、過学習では？
面白いこと
画像データは最初に1回だけ入力するのが最も良かった
全時間に画像を入力する手法はあるが、過学習が悪化した
最初の入力は忘れられそうだが、直感反していて興味深い
疑問・感想

まとめ
画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する
画像認識と文章生成を一続きで学習できるのが凄い
転移学習（他の課題で得た知識を、新しい課題で利用）している
まとめ

Show and Tell: A Neural Image Caption Generatorの紹介

Recommended

Recommended

More Related Content

More from KCS Keio Computer Society

More from KCS Keio Computer Society (20)

Show and Tell: A Neural Image Caption Generatorの紹介