20170819第41回CV勉強会@関東_HierarchicalApproach_ImageParagraphs

Yusuke Mori
Yusuke MoriStudent (Information Science and Technology)
A Hierarchical Approach for
Generating Descriptive Image
Paragraphs
2017-08-19
第41会CV勉強会 CVPR読み会(後編)
Presenter : shade-tree
8/19/2017 1
本日ご紹介する論文
• 画像説明文生成の流れに、NLPで着目されている“階層的RNN に
よる Sentence-level Generation”の流れを取り込んだ論文
• 特に注釈のない画像などは、この論文からの引用となります
8/19/2017 2
イントロダクション
本日ご紹介する論文
• 著者らによるまとめや
論文PDF、データセット
配布のページ
8/19/2017 3
http://cs.stanford.edu/people/ranjaykrishna/im2p/index.html
イントロダクション
紹介論文の概要
• 画像説明文生成(画像キャプショニング)
の発展型
• 画像に対し、単文ではなく、パラグラフ
(段落)で説明を付与
• 従来手法における「説明が詳細にはできない」
という問題点を解消
• Dense Captioning の欠点も克服
8/19/2017 4
イントロダクション
モデルの概要
8/19/2017 5
イントロダクション
モデルの概要
8/19/2017 6
階層的RNNにより、
- Sentence level (topic)
- Word level
の順序で出力
画像の中から着目すべき
領域を算出
イントロダクション
Dense Captioning (2016, CVPR)
• “DenseCap: Fully
convolutional localization
networks for dense
captioning”, J.Johnson, A.
Karpathy, and L. Fei-Fei,
CVPR 2016.
• 本日の紹介論文と同じ
研究グループ、前年の
CVPRで採択
8/19/2017 7
[J. Johnson+, 2016 CVPR]
関連研究
従来のタスクとDenseCapの比較
8/19/2017 8
[J. Johnson+, 2016 CVPR]
関連研究
Image Classification
8/19/2017 9
[J. Johnson+, 2016 CVPR]
• ImageとClassの対応
• 単一ラベル
関連研究
Image Detection
8/19/2017 10
[J. Johnson+, 2016 CVPR]
• ImageとClassの対応
• 複数ラベル
関連研究
Image Captioning
8/19/2017 11
[J. Johnson+, 2016 CVPR]
• Imageに対してCaption
(説明文)を付与
• 一つのImageの全体を
一つのCaptionで表す
関連研究
Dense Captioning
8/19/2017 12
[J. Johnson+, 2016 CVPR]
• Imageの複数の領域に
着目し、それぞれに
対して説明文を付与
関連研究
Dense Captioning (2016, CVPR) : model
• Localization Layer
により着目すべき
領域を算出
• それぞれの領域に
対して説明文生成
を行う
8/19/2017 13
[J. Johnson+, 2016 CVPR]
関連研究
Dense Captioning の問題点
8/19/2017 14
• 一つの画像に与えられる複数の説明文に
• 関係性がなかったり、
• 同じ内容が重複していたりする。
• この例では全て、ほぼ同じことを言っている。
関連研究
紹介する論文のアプローチ
• 画像に対し、単文ではなく、パラグラフ
(段落)で説明を付与
8/19/2017 15
紹介論文のアプローチ
紹介する論文の主張
• Dense Captioningには、複数の説明文の間に
関係性がなかったり、同じ内容が重複して
いたりといった問題点がある。
• 文脈を考慮したパラグラフにより説明する
ことで、従来手法よりもより多くの情報を
説明することができる。
8/19/2017 16
紹介論文のアプローチ
画像説明パラグラフ生成のための課題
• Fine-grained な画像理解
• 言語の長期的な依存関係の考慮
8/19/2017 17
紹介論文のアプローチ
画像説明パラグラフ生成のための課題
• Fine-grained な画像理解
• 言語の長期的な依存関係の考慮
8/19/2017 18
紹介論文のアプローチ
画像説明パラグラフ生成のための課題
• Fine-grained な画像理解
• 言語の長期的な依存関係の保持
• CV勉強会的には上のほうが重要な気もしますが、この発表では下のほ
うを重点的に説明させていただきます。
8/19/2017 19
紹介論文のアプローチ
階層的RNN
• 従来のRNNの問題点
• 長期的な依存関係を学習できない(Back Propagation における「勾配消
失問題」)
• RNNの発展的なモデル(LSTM, GRUなど)は、Gateの利用などによりこ
の問題を解決しようというもの
• 長期的な依存関係を一括で処理するのではなく、小さい幅で学
習を行う層と大きい幅で学習を行う層に分けるのはどうか?
→ 階層的RNN
8/19/2017 20
関連研究
階層的RNN
• 一気通貫にRNNを回すのでは
なく、いくつかの階層に分け
ることによって、長期的な関
係性を擬似的に近くしている
8/19/2017 21
Wordの階層なら5つ離れているが、
Sentenceの階層で考えると、隣り合っている
(厳密には、隣り合ったものの中で扱われ
ている)
関連研究
[J. Li+, 2015]
階層的RNN
• “A hierarchical neural autoencoder for paragraphs and documents”,
J. Li, M.-T. Luing, and D. Jurafsky, ACL 2015.
• “Hierarchical recurrent neural network for document modeling”, R.Lin,
S.Liu, M.Yang, M.Li, M.Zhou, and S.Li, EMNLP 2015.
• 階層的RNNそのものはそれ以前から提唱されているが、最近の注目の
きっかけになっているのはこれらの論文(?)
8/19/2017 22
関連研究
モデルの概要
8/19/2017 23
階層的RNNにより、
- Sentence level (topic)
- Word level
の順序で出力
画像の中から着目すべき
領域を算出
紹介論文のアプローチ
紹介論文における階層的RNN
• Sentence RNN と Word RNN の2階層
• Sentence RNN
• 1-layer LSTM, hidden units = 512
• 毎ステップで画像からのベクトルを受け取り、sentence vector を出力
• Sentence vector を使い、そこでパラグラフを終了するかどうかの判定と、各
Sentence の topic vector の計算を行う
• Topic は 2-layer fully-connected で計算する
• Word RNN
• Sentence RNN の出力 (Topic vector) を使い、Paragraph の各単語を生成
• 2-layer LSTM, hidden units = 512
8/19/2017 24
紹介論文の実装
モデルの概要
8/19/2017 25
階層的RNNにより、
- Sentence level (topic)
- Word level
の順序で出力
画像の中から着目すべき
領域を算出
ここは?
紹介論文のアプローチ
Region Pooling
• Region Detectorでは複数の領域(に対応するベクトル)が出力
される
• 画像全体の意味を取るために、これらのベクトルを一つに統合
• 重みとバイアスは学習
• Max pooling 的な扱いが効果的という先行研究を参考にしている
8/19/2017 26
紹介論文の実装
データセット
• 19,561 images from Visual Genome
• Train/Test/Value = 14,575/2487/248
• Visual Genomeとは
• 画像に対して、Bounding Box とそれ
に対する説明を与えたもの
• Attribute に関する関係性などに着目
• 本研究のデータセット
• Visual Genome を使い、クラウド
ソーシングで説明のパラグラフを
付与
8/19/2017 27
http://visualgenome.org
紹介論文の提案データセット
データセット
• データセットそのものの表現
能力を評価
• MS COCO との比較、優位性
• 扱っている文の長さ
• 一つの画像に付与されている説
明の多様性
8/19/2017 28
紹介論文の提案データセット
学習結果
8/19/2017 29
従来手法で出てくる複数の説明文を
そのままつなぎ合わせたもの
学習結果
学習結果
8/19/2017 30
学習結果
特定領域に着目しての説明生成
• 主な提案のモデルでは、領域ごとのベクトルを Region Pooling
し、最終的には画像全体に対しての説明パラグラフを付与
• では、特定の領域に着目しての説明パラグラフ生成は?
8/19/2017 31
紹介論文の応用
特定領域に着目しての説明生成
8/19/2017 32
紹介論文の応用
まとめ
• 画像をパラグラフにより説明するタスクの提案
• センテンスでの説明よりも、詳細かつ関連性を持って説明できる
• 階層的RNNの考え方を画像説明文生成に取り込んだ
• データセットの作成
• Visual Genome ベース
• クラウドソーシングを利用
8/19/2017 33
まとめ
Reference
• J. Li, M.-T. Luong, and D. Jurafsky. A hierarchical neural autoencoder
for paragraphs and documents. In ACL, 2015.
• J. Johnson, A. Karpathy, and L. Fei-Fei. DenseCap: Fully convolutional
localization networks for dense captioning. In CVPR, 2016.
8/19/2017 34
リファレンス
1 of 34

More Related Content

Featured(20)

How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC4.1K views
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy82.1K views
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani30.3K views
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking6.9K views
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Erica Santiago25.1K views
9 Tips for a Work-free Vacation9 Tips for a Work-free Vacation
9 Tips for a Work-free Vacation
Weekdone.com7.2K views
I Rock Therefore I Am. 20 Legendary Quotes from PrinceI Rock Therefore I Am. 20 Legendary Quotes from Prince
I Rock Therefore I Am. 20 Legendary Quotes from Prince
Empowered Presentations142.8K views
How to Map Your FutureHow to Map Your Future
How to Map Your Future
SlideShop.com275.1K views
Read with Pride | LGBTQ+ ReadsRead with Pride | LGBTQ+ Reads
Read with Pride | LGBTQ+ Reads
Kayla Martin-Gant1.1K views

20170819第41回CV勉強会@関東_HierarchicalApproach_ImageParagraphs

Editor's Notes

  1. 名前などはどうするのか? SlideShareに上げることを考えると、本名?