Successfully reported this slideshow.
Your SlideShare is downloading. ×

20170819第41回CV勉強会@関東_HierarchicalApproach_ImageParagraphs

20170819第41回CV勉強会@関東_HierarchicalApproach_ImageParagraphs

Download to read offline

「第41回 コンピュータビジョン研究会@関東」(CVPR2017読み会(後編))における、
"A Hierarchical Approach for Generating Descriptive Image Paragraphs" [Krause et al., CVPR 2017] の紹介スライドです。

スライド中の図版等は、特に別記のない限り、上記の論文からの引用です。

This is my presentation slides for “the 41st kantocv (CVPR2017 reading session 2)”. I introduced "A Hierarchical Approach for Generating Descriptive Image Paragraphs" [Krause et al., CVPR 2017].

Images in the slides are cited from the above paper, if their is no additional explanation.

「第41回 コンピュータビジョン研究会@関東」(CVPR2017読み会(後編))における、
"A Hierarchical Approach for Generating Descriptive Image Paragraphs" [Krause et al., CVPR 2017] の紹介スライドです。

スライド中の図版等は、特に別記のない限り、上記の論文からの引用です。

This is my presentation slides for “the 41st kantocv (CVPR2017 reading session 2)”. I introduced "A Hierarchical Approach for Generating Descriptive Image Paragraphs" [Krause et al., CVPR 2017].

Images in the slides are cited from the above paper, if their is no additional explanation.

20170819第41回CV勉強会@関東_HierarchicalApproach_ImageParagraphs

  1. 1. A Hierarchical Approach for Generating Descriptive Image Paragraphs 2017-08-19 第41会CV勉強会 CVPR読み会(後編) Presenter : shade-tree 8/19/2017 1
  2. 2. 本日ご紹介する論文 • 画像説明文生成の流れに、NLPで着目されている“階層的RNN に よる Sentence-level Generation”の流れを取り込んだ論文 • 特に注釈のない画像などは、この論文からの引用となります 8/19/2017 2 イントロダクション
  3. 3. 本日ご紹介する論文 • 著者らによるまとめや 論文PDF、データセット 配布のページ 8/19/2017 3 http://cs.stanford.edu/people/ranjaykrishna/im2p/index.html イントロダクション
  4. 4. 紹介論文の概要 • 画像説明文生成(画像キャプショニング) の発展型 • 画像に対し、単文ではなく、パラグラフ (段落)で説明を付与 • 従来手法における「説明が詳細にはできない」 という問題点を解消 • Dense Captioning の欠点も克服 8/19/2017 4 イントロダクション
  5. 5. モデルの概要 8/19/2017 5 イントロダクション
  6. 6. モデルの概要 8/19/2017 6 階層的RNNにより、 - Sentence level (topic) - Word level の順序で出力 画像の中から着目すべき 領域を算出 イントロダクション
  7. 7. Dense Captioning (2016, CVPR) • “DenseCap: Fully convolutional localization networks for dense captioning”, J.Johnson, A. Karpathy, and L. Fei-Fei, CVPR 2016. • 本日の紹介論文と同じ 研究グループ、前年の CVPRで採択 8/19/2017 7 [J. Johnson+, 2016 CVPR] 関連研究
  8. 8. 従来のタスクとDenseCapの比較 8/19/2017 8 [J. Johnson+, 2016 CVPR] 関連研究
  9. 9. Image Classification 8/19/2017 9 [J. Johnson+, 2016 CVPR] • ImageとClassの対応 • 単一ラベル 関連研究
  10. 10. Image Detection 8/19/2017 10 [J. Johnson+, 2016 CVPR] • ImageとClassの対応 • 複数ラベル 関連研究
  11. 11. Image Captioning 8/19/2017 11 [J. Johnson+, 2016 CVPR] • Imageに対してCaption (説明文)を付与 • 一つのImageの全体を 一つのCaptionで表す 関連研究
  12. 12. Dense Captioning 8/19/2017 12 [J. Johnson+, 2016 CVPR] • Imageの複数の領域に 着目し、それぞれに 対して説明文を付与 関連研究
  13. 13. Dense Captioning (2016, CVPR) : model • Localization Layer により着目すべき 領域を算出 • それぞれの領域に 対して説明文生成 を行う 8/19/2017 13 [J. Johnson+, 2016 CVPR] 関連研究
  14. 14. Dense Captioning の問題点 8/19/2017 14 • 一つの画像に与えられる複数の説明文に • 関係性がなかったり、 • 同じ内容が重複していたりする。 • この例では全て、ほぼ同じことを言っている。 関連研究
  15. 15. 紹介する論文のアプローチ • 画像に対し、単文ではなく、パラグラフ (段落)で説明を付与 8/19/2017 15 紹介論文のアプローチ
  16. 16. 紹介する論文の主張 • Dense Captioningには、複数の説明文の間に 関係性がなかったり、同じ内容が重複して いたりといった問題点がある。 • 文脈を考慮したパラグラフにより説明する ことで、従来手法よりもより多くの情報を 説明することができる。 8/19/2017 16 紹介論文のアプローチ
  17. 17. 画像説明パラグラフ生成のための課題 • Fine-grained な画像理解 • 言語の長期的な依存関係の考慮 8/19/2017 17 紹介論文のアプローチ
  18. 18. 画像説明パラグラフ生成のための課題 • Fine-grained な画像理解 • 言語の長期的な依存関係の考慮 8/19/2017 18 紹介論文のアプローチ
  19. 19. 画像説明パラグラフ生成のための課題 • Fine-grained な画像理解 • 言語の長期的な依存関係の保持 • CV勉強会的には上のほうが重要な気もしますが、この発表では下のほ うを重点的に説明させていただきます。 8/19/2017 19 紹介論文のアプローチ
  20. 20. 階層的RNN • 従来のRNNの問題点 • 長期的な依存関係を学習できない(Back Propagation における「勾配消 失問題」) • RNNの発展的なモデル(LSTM, GRUなど)は、Gateの利用などによりこ の問題を解決しようというもの • 長期的な依存関係を一括で処理するのではなく、小さい幅で学 習を行う層と大きい幅で学習を行う層に分けるのはどうか? → 階層的RNN 8/19/2017 20 関連研究
  21. 21. 階層的RNN • 一気通貫にRNNを回すのでは なく、いくつかの階層に分け ることによって、長期的な関 係性を擬似的に近くしている 8/19/2017 21 Wordの階層なら5つ離れているが、 Sentenceの階層で考えると、隣り合っている (厳密には、隣り合ったものの中で扱われ ている) 関連研究 [J. Li+, 2015]
  22. 22. 階層的RNN • “A hierarchical neural autoencoder for paragraphs and documents”, J. Li, M.-T. Luing, and D. Jurafsky, ACL 2015. • “Hierarchical recurrent neural network for document modeling”, R.Lin, S.Liu, M.Yang, M.Li, M.Zhou, and S.Li, EMNLP 2015. • 階層的RNNそのものはそれ以前から提唱されているが、最近の注目の きっかけになっているのはこれらの論文(?) 8/19/2017 22 関連研究
  23. 23. モデルの概要 8/19/2017 23 階層的RNNにより、 - Sentence level (topic) - Word level の順序で出力 画像の中から着目すべき 領域を算出 紹介論文のアプローチ
  24. 24. 紹介論文における階層的RNN • Sentence RNN と Word RNN の2階層 • Sentence RNN • 1-layer LSTM, hidden units = 512 • 毎ステップで画像からのベクトルを受け取り、sentence vector を出力 • Sentence vector を使い、そこでパラグラフを終了するかどうかの判定と、各 Sentence の topic vector の計算を行う • Topic は 2-layer fully-connected で計算する • Word RNN • Sentence RNN の出力 (Topic vector) を使い、Paragraph の各単語を生成 • 2-layer LSTM, hidden units = 512 8/19/2017 24 紹介論文の実装
  25. 25. モデルの概要 8/19/2017 25 階層的RNNにより、 - Sentence level (topic) - Word level の順序で出力 画像の中から着目すべき 領域を算出 ここは? 紹介論文のアプローチ
  26. 26. Region Pooling • Region Detectorでは複数の領域(に対応するベクトル)が出力 される • 画像全体の意味を取るために、これらのベクトルを一つに統合 • 重みとバイアスは学習 • Max pooling 的な扱いが効果的という先行研究を参考にしている 8/19/2017 26 紹介論文の実装
  27. 27. データセット • 19,561 images from Visual Genome • Train/Test/Value = 14,575/2487/248 • Visual Genomeとは • 画像に対して、Bounding Box とそれ に対する説明を与えたもの • Attribute に関する関係性などに着目 • 本研究のデータセット • Visual Genome を使い、クラウド ソーシングで説明のパラグラフを 付与 8/19/2017 27 http://visualgenome.org 紹介論文の提案データセット
  28. 28. データセット • データセットそのものの表現 能力を評価 • MS COCO との比較、優位性 • 扱っている文の長さ • 一つの画像に付与されている説 明の多様性 8/19/2017 28 紹介論文の提案データセット
  29. 29. 学習結果 8/19/2017 29 従来手法で出てくる複数の説明文を そのままつなぎ合わせたもの 学習結果
  30. 30. 学習結果 8/19/2017 30 学習結果
  31. 31. 特定領域に着目しての説明生成 • 主な提案のモデルでは、領域ごとのベクトルを Region Pooling し、最終的には画像全体に対しての説明パラグラフを付与 • では、特定の領域に着目しての説明パラグラフ生成は? 8/19/2017 31 紹介論文の応用
  32. 32. 特定領域に着目しての説明生成 8/19/2017 32 紹介論文の応用
  33. 33. まとめ • 画像をパラグラフにより説明するタスクの提案 • センテンスでの説明よりも、詳細かつ関連性を持って説明できる • 階層的RNNの考え方を画像説明文生成に取り込んだ • データセットの作成 • Visual Genome ベース • クラウドソーシングを利用 8/19/2017 33 まとめ
  34. 34. Reference • J. Li, M.-T. Luong, and D. Jurafsky. A hierarchical neural autoencoder for paragraphs and documents. In ACL, 2015. • J. Johnson, A. Karpathy, and L. Fei-Fei. DenseCap: Fully convolutional localization networks for dense captioning. In CVPR, 2016. 8/19/2017 34 リファレンス

Editor's Notes

  • 名前などはどうするのか?
    SlideShareに上げることを考えると、本名?

×