Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20170819第41回CV勉強会_HierarchicalApproach_ImageParagraphs

738 views

Published on

第41回コンピュータビジョン研究会における、
"A Hierarchical Approach for Generating Descriptivve Image Pragraphs" の紹介スライドです。

スライド中の図版等は、特に別記のない限り、上記の論文からの引用です。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

20170819第41回CV勉強会_HierarchicalApproach_ImageParagraphs

  1. 1. A Hierarchical Approach for Generating Descriptive Image Paragraphs 2017-08-19 第41会CV勉強会 CVPR読み会(後編) Presenter : shade-tree 8/19/2017 1
  2. 2. 本⽇ご紹介する論⽂ • 画像説明⽂⽣成の流れに、NLPで着⽬されている“階層的RNN に よる Sentence-level Generation”の流れを取り込んだ論⽂ • 別途の注釈が特にない画像については、この論⽂からの引⽤ 8/19/2017 2 イントロダクション
  3. 3. 本⽇ご紹介する論⽂ • 著者らによるまとめや 論⽂PDF、データセット 配布のページ 8/19/2017 3 http://cs.stanford.edu/people/ranjaykrishna/im2p/index.html イントロダクション
  4. 4. 紹介論⽂の概要 • 画像説明⽂⽣成(画像キャプショニング) の発展型 • 画像に対し、単⽂ではなく、パラグラフ (段落)で説明を付与 • 従来⼿法の「説明が詳細でない」問題点を解消 • Dense Captioning の⽋点も克服 • 性能向上より、新規タスクの提案が主旨 • データセットも作成 8/19/2017 4 イントロダクション
  5. 5. モデルの概要 8/19/2017 5 イントロダクション
  6. 6. モデルの概要 8/19/2017 6 階層的RNNにより、 - Sentence level (topic) - Word level の順序で出⼒ 画像の中から着⽬すべき 領域を算出 イントロダクション
  7. 7. Dense Captioning (2016, CVPR) • “DenseCap: Fully convolutional localization networks for dense captioning”, J.Johnson, A. Karpathy, and L. Fei-Fei, CVPR 2016. • 本⽇の紹介論⽂と同じ 研究グループ、前年の CVPRで採択 8/19/2017 7 [J. Johnson+, 2016 CVPR] 関連研究
  8. 8. 従来のタスクとDenseCapの⽐較 8/19/2017 8 [J. Johnson+, 2016 CVPR] 関連研究
  9. 9. Image Classification 8/19/2017 9 [J. Johnson+, 2016 CVPR] • ImageとClassの対応 • 単⼀ラベル 関連研究
  10. 10. Image Detection 8/19/2017 10 [J. Johnson+, 2016 CVPR] • ImageとClassの対応 • 複数ラベル 関連研究
  11. 11. Image Captioning 8/19/2017 11 [J. Johnson+, 2016 CVPR] • Imageに対してCaption (説明⽂)を付与 • ⼀つのImageの全体に ⼀つのCaption 関連研究
  12. 12. Dense Captioning 8/19/2017 12 [J. Johnson+, 2016 CVPR] • Imageの複数の領域に 着⽬し、それぞれに 対して説明⽂を付与 関連研究
  13. 13. Dense Captioning : CVPR2016 model • Localization Layer により着⽬すべき 領域を算出 • 各領域に対して説 明⽂を⽣成 8/19/2017 13 [J. Johnson+, 2016 CVPR] 関連研究
  14. 14. Dense Captioning の問題点 8/19/2017 14 • ⼀つの画像に与えられる複数の説明⽂に • 関係性がなかったり、 • 同じ内容が重複していたりする • この例では全て、ほぼ同じことを⾔っている 関連研究
  15. 15. 紹介する論⽂のアプローチ • 画像に対し、単⽂ではなく、パラグラフ (段落)で説明を付与 8/19/2017 15 紹介論⽂のアプローチ
  16. 16. 紹介する論⽂の主張 • DenseCapでは、複数の説明⽂が独⽴に⽣成 されるため、 • 説明⽂の間に関係性がない • 同じ内容が重複する • パラグラフにより説明することで、 • ⽂脈を考慮しつつ、 • 重複なく多くの情報を説明できる 8/19/2017 16 紹介論⽂のアプローチ
  17. 17. 画像説明パラグラフ⽣成のための課題 • Fine-grained な画像理解 • ⾔語の⻑期的な依存関係の考慮 8/19/2017 17 紹介論⽂のアプローチ
  18. 18. 画像説明パラグラフ⽣成のための課題 • Fine-grained な画像理解 • ⾔語の⻑期的な依存関係の考慮 8/19/2017 18 紹介論⽂のアプローチ
  19. 19. 画像説明パラグラフ⽣成のための課題 • Fine-grained な画像理解 • ⾔語の⻑期的な依存関係の考慮 • CV勉強会的には上のほうが重要な気もしますが、この発表では下のほ うを重点的に説明させていただきます 8/19/2017 19 紹介論⽂のアプローチ
  20. 20. 階層的RNN • 従来のRNNの問題点 • ⻑期的な依存関係を学習できない(Back Propagation における「勾配消 失問題」) • RNNの発展的なモデル(LSTM, GRUなど)は、Gateの利⽤などによりこ の問題を解決しようというもの • ⻑期的な依存関係を⼀括で処理するのではなく、⼩さい幅で学 習を⾏う層と⼤きい幅で学習を⾏う層に分けるのはどうか? → 階層的RNN 8/19/2017 20 関連研究
  21. 21. 階層的RNN • ⼀気通貫にRNNで扱うのでは なく、階層に分割 • ⻑期的な関係性を擬似的に近 くする 8/19/2017 21 Wordの階層なら5つ離れているが、 Sentenceの階層で考えると、隣り合っている (厳密には、隣り合ったものに含まれる) 関連研究 [J. Li, 2015]
  22. 22. 階層的RNN • “A hierarchical neural autoencoder for paragraphs and documents”, J. Li, M.-T. Luing, and D. Jurafsky, ACL 2015. • “Hierarchical recurrent neural network for document modeling”, R.Lin, S.Liu, M.Yang, M.Li, M.Zhou, and S.Li, EMNLP 2015. 8/19/2017 22 関連研究
  23. 23. モデルの概要 8/19/2017 23 階層的RNNにより、 - Sentence level (topic) - Word level の順序で出⼒ 画像の中から着⽬すべき 領域を算出 紹介論⽂のアプローチ
  24. 24. 紹介論⽂における階層的RNN • Sentence RNN と Word RNN の2階層 • Sentence RNN • 1-layer LSTM, hidden units = 512 • 毎ステップで画像からのベクトルを受け取り、sentence vector を出⼒ • Sentence vector を使い、そこでパラグラフを終了するかどうかの判定と、各 Sentence の topic vector の計算を⾏う • Topic は 2-layer fully-connected で計算する • Word RNN • Sentence RNN の出⼒ (Topic vector) を使い、Paragraph の各単語を⽣成 • 2-layer LSTM, hidden units = 512 8/19/2017 24 紹介論⽂の実装
  25. 25. モデルの概要 8/19/2017 25 階層的RNNにより、 - Sentence level (topic) - Word level の順序で出⼒ 画像の中から着⽬すべき 領域を算出 ここは? 紹介論⽂のアプローチ
  26. 26. Region Pooling • Region Detectorでは複数の領域(に対応するベクトル)を出⼒ • 画像全体の意味を取るために、これらのベクトルを⼀つに統合 • 重みとバイアスは学習 • Max pooling 的な扱いが効果的という先⾏研究を参考にしている 8/19/2017 26 紹介論⽂の実装
  27. 27. データセット • 19,561 images from Visual Genome • Train/Test/Value = 14,575/2487/248 • Visual Genomeとは • 画像に対して、Bounding Box とそれ に対する説明を与えたもの • Attribute に関する関係性などに着⽬ • 本研究のデータセット • Visual Genome を使い、クラウド ソーシングで説明のパラグラフを 付与 8/19/2017 27 http://visualgenome.org 紹介論⽂の提案データセット
  28. 28. データセット • データセットそのものの表現 能⼒を評価 • MS COCO との⽐較、優位性 • 扱っている⽂の⻑さ • ⼀つの画像に付与されている説 明の多様性 8/19/2017 28 紹介論⽂の提案データセット
  29. 29. 学習結果(定性的) 8/19/2017 29 従来⼿法で出てくる複数の説明⽂を そのままつなぎ合わせたもの 学習結果
  30. 30. 学習結果(定量的) 8/19/2017 30 学習結果
  31. 31. 特定領域に着⽬しての説明⽣成 • 主な提案のモデルでは、領域ごとのベクトルを Region Pooling し、最終的には画像全体に対しての説明パラグラフを付与 • では、特定の領域に着⽬しての説明パラグラフ⽣成は? 8/19/2017 31 紹介論⽂の応⽤
  32. 32. 特定領域に着⽬しての説明⽣成 8/19/2017 32 紹介論⽂の応⽤
  33. 33. まとめ • 画像をパラグラフにより説明するタスクの提案 • センテンスでの説明よりも、詳細かつ関連性を持って説明可能 • 「性能が上がった」というより、新規タスクを提案したのが主旨 • 新規タスクでの性能は、従来⼿法の流⽤よりも今回の⼿法のほうが上 • 階層的RNNの考え⽅を画像説明⽂⽣成に適⽤ • データセットの作成 • Visual Genome ベース • クラウドソーシングでパラグラフを付与 8/19/2017 33 まとめ
  34. 34. Reference • J. Li, M.-T. Luong, and D. Jurafsky. A hierarchical neural autoencoder for paragraphs and documents. In ACL, 2015. • J. Johnson, A. Karpathy, and L. Fei-Fei. DenseCap: Fully convolutional localization networks for dense captioning. In CVPR, 2016. 8/19/2017 34 リファレンス

×