Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

【CVPR 2019】Engaging image captioning via personality

232 views

Published on

cvpaper.challenge はコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文読破・まとめ・アイディア考案・議論・実装・論文投稿に取り組み、あらゆる知識を共有しています。
http://xpaperchallenge.org/cv/

本資料は、CVPR 2019 網羅的サーベイの成果の一部で、1論文を精読してプレゼンテーション形式でまとめております。論文サマリは下記からご確認頂けます。
http://xpaperchallenge.org/cv/survey/cvpr2019_summaries/listall/

Published in: Technology
  • Be the first to comment

  • Be the first to like this

【CVPR 2019】Engaging image captioning via personality

  1. 1. Engaging Image Captioning Via Personality (CVPR 2019) Kurt Shuster, Samuel Humeau, Hexiang Hu, Antoine Bordes, Jason Weston (Facebook AI Research) 資料作成︓⼭縣 英介 1 http://xpaperchallenge.org/cv/
  2. 2. 論⽂の要点 2 •⽬的︓画像にpersonalityが付与された魅⼒的なcaptionを • 付けたい. •そのために... •・従来のよりも⼤規模なデータセットを作成. •・複数のpersonalityを学習した世界初のモデルを作成. - Personalityを付与したcaptionの例
  3. 3. 研究背景 3 ・通常のCOCOやFlickr30kなどのimage-captioningタスクで は説明的な平⽂しか⽣成できない. ・ただ事実を説明するだけでない魅⼒的かつ⼈間的なcaption を⽣成するタスクは機械と⼈間が会話する上で有⽤である.
  4. 4. 関連研究(1/2) 4 User conditional hashtag prediction for images ・userのlocationや年齢に応じたcaptionを⽣成する研究.
  5. 5. 関連研究(2/2) 5 Attend to you: Personalized image captioning with context sequence memory networks ・userのactive vocabularyに応じたcaptionを⽣成する研究.
  6. 6. Personality-Captions Dataset 6 ・YFCC100M Datasetからrandomで抽出した画像に personalityを付与したcaptionをannotateしたデータセット を作成. ・従来のpersonality-based captionを持つ最大のデータセット:FlickrStyle10k を大幅に上回る規模.
  7. 7. 提案⼿法の概要 7 2つのcaption予測モデルを検討 ・Retrieval model - training set内のcaptionから候補を提案. ・Generative model - 画像とpersonalityから新たにcaptionを⽣成.
  8. 8. 提案⼿法(1/2) 8 Retrieval model (TransResNet) ・画像とpersonalityの特徴量を合算
  9. 9. 提案⼿法(2/2) 9 Generative model ・現⾏のimage-captioningのSOTAである、以下3つのmodel をre-implement. A)SHOWTELL B)SHOWATTTELL C)UPDOWN ・personality特徴はdecoding毎に⼊⼒単語ベクトルと連結さ せてLSTM caption decoderに⼊⼒される.
  10. 10. 実験︓Automatic Evaluation (1/4) 10 Generative model ・通常captioning - COCOのcaptionデータセットでBLEU1, BLEU4, ROUGE-L, CIDEr, SPICEを現⾏のSOTAと⽐較. - 提案⼿法が現⾏のSOTAに対し上回る、あるいは同程度の評価.
  11. 11. 実験︓Automatic Evaluation (2/4) 11 Generative model ・personality captioning - personality特徴の有無で⽐較. - personalityの重要性が明らか.
  12. 12. 実験︓Automatic Evaluation (3/4) 12 Retrieval model(TransResNet) ・通常captioning - COCO captionとFlickr30kのデータセットでR@1, R@5, R@10 を現⾏のSOTAと⽐較. - 提案⼿法が現⾏のSOTAに対し上回る、あるいは同程度の評価.
  13. 13. 実験︓Automatic Evaluation (4/4) 13 Retrieval model(TransResNet) ・personality captioning - personality特徴の有無で⽐較. - personalityの重要性が明らか.
  14. 14. 実験︓Human Evaluation (1/3) 14 ・最も評価の⾼いモデルの⽣成例
  15. 15. 実験︓Human Evaluation (2/3) 15 captionの魅⼒ ・同じ画像に対しcaptionを付け、より魅⼒的な⽅を 選択させる. - TransResNet(ResNeXt-IG-3.5B)が最も評価が⾼く、 ⼈間と同程度に魅⼒的なcaptionを⽣成している.
  16. 16. 実験︓Human Evaluation (3/3) 16 captionの適正 ・captionが画像にマッチしているかどうか、 personalityにマッチしているかどうかを評価. - ⼈間と変わらないレベルのcaptionを⽣成できている ことがわかる.
  17. 17. まとめ 17 ・Personality-Captions datasetを作成. ・⼈間と同等に画像にマッチしかつ魅⼒的なcaptionを⽣成す ることに成功. ・Generative modelがRetrieval modelに⼤きく劣る点は今後 の課題.

×