SlideShare a Scribd company logo
1 of 10
Download to read offline
RNNLMによる画像注釈付与の論文
Show andTell: A NeuralImageCaptionGenerator
論文はこちら
@sesenosannko
目次
概要
一般的なRNNLMの説明
提案手法の特徴
既存手法と比べて何が凄いか
転移学習
疑問・感想
目次
論文の概要
画像に注釈(=説明)をつける
入力するのは画像のみ!
画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する
転移学習の分かりやすい好例(だと個人的に思います)
(左画像は論文より)
概要
RNNLM(RNN LanguageModel)
RNN(LSTM)の言語モデル
文章生成が有名
1. 最初の単語を入力
2. 最初の出力を次の時刻で入力
3. 以下同様
学習時にはデータを1単語ずつ入力
時刻tの教師データは、時刻t + 1
に入力するデータ
(画像は論文より)
一般的なRMMLMの説明
画像注釈付けの既存手法
画像物体認識と文章生成はそれぞれ別々に行われる
一旦画像から単語や位置関係を出力するなど
物体認識のみであれば性能は良い
文章生成はテンプレート的で汎化されていない
↓
提案手法
end‑to‑endモデル
物体認識から文章生成まで一続きで学習できる
RNNLMによる文章生成は既存の手法より強力
提案手法の特徴
提案手法の概要
画像をCNNに入力し、CNNの中間層をRNNLMの最初に入力
その後はRNNLMの文章生成モデルと同様の手順で脚注を出力
学習時には画像を入力し、脚注をRNNLMの文章生成モデルと同様
に入力していく
RNNLMにCNNの中間層をそのまま入力している
||
画像から抽出される特徴量は
単語から抽出される特徴量と同じ空間にある
提案手法の特徴
提案手法
(画像は論文より)
提案手法の特徴
転移学習Transfer Learning
ある課題で学習して得た知識を、他の課題で利用する手法
提案手法ではCNN部分を、物体認識問題を学習したものをそのまま
使い、重みもそのままで固定する
物体認識問題で獲得された特徴抽出がそのまま使われる
一般的には転移学習でも新たな課題の学習において重みを全体
または一部更新することもある
RNNLM(単語埋め込み部分)の転移学習も試されているが、結果
は向上していない
明確な理由は書かれておらず、このように転移学習は結果が出
るかわからないことは良くあるようだ
画像の特徴抽出に比べて層が浅い(学習が容易)から転移学習
をしなくとも十分ということも一因か
提案手法の特徴
疑問に思ったこと
80%の文章が教師データから抜き出されている
教師データ内に入力画像に適した文章があれば再利用されるの
は自然だと書いてあるが、過学習では?
面白いこと
画像データは最初に1回だけ入力するのが最も良かった
全時間に画像を入力する手法はあるが、過学習が悪化した
最初の入力は忘れられそうだが、直感反していて興味深い
疑問・感想
まとめ
画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する
画像認識と文章生成を一続きで学習できるのが凄い
転移学習(他の課題で得た知識を、新しい課題で利用)している
まとめ

More Related Content

More from KCS Keio Computer Society

Vector-Based navigation using grid-like representations in artificial agents
 Vector-Based navigation using grid-like representations in artificial agents Vector-Based navigation using grid-like representations in artificial agents
Vector-Based navigation using grid-like representations in artificial agentsKCS Keio Computer Society
 
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読KCS Keio Computer Society
 
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読KCS Keio Computer Society
 
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information GeometryKCS Keio Computer Society
 
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...KCS Keio Computer Society
 
ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明KCS Keio Computer Society
 
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介KCS Keio Computer Society
 

More from KCS Keio Computer Society (20)

Vector-Based navigation using grid-like representations in artificial agents
 Vector-Based navigation using grid-like representations in artificial agents Vector-Based navigation using grid-like representations in artificial agents
Vector-Based navigation using grid-like representations in artificial agents
 
文章生成の未解決問題
文章生成の未解決問題文章生成の未解決問題
文章生成の未解決問題
 
Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
 
テンソル代数
テンソル代数テンソル代数
テンソル代数
 
Hindsight experience replay
Hindsight experience replayHindsight experience replay
Hindsight experience replay
 
Kml 輪読514
Kml 輪読514Kml 輪読514
Kml 輪読514
 
ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
 
ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読
 
Soft Actor Critic 解説
Soft Actor Critic 解説Soft Actor Critic 解説
Soft Actor Critic 解説
 
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読
 
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
 
Graph Convolutional Network 概説
Graph Convolutional Network 概説Graph Convolutional Network 概説
Graph Convolutional Network 概説
 
AIを作ることと理解すること
AIを作ることと理解することAIを作ることと理解すること
AIを作ることと理解すること
 
Random forest の解説
Random forest の解説Random forest の解説
Random forest の解説
 
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
 
ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明
 
AI班ハードウェア領域
AI班ハードウェア領域AI班ハードウェア領域
AI班ハードウェア領域
 
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
 

Show and Tell: A Neural Image Caption Generatorの紹介