Successfully reported this slideshow.
Your SlideShare is downloading. ×

視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 32 Ad

More Related Content

Slideshows for you (20)

Viewers also liked (17)

Advertisement

Similar to 視覚×言語の最前線(ステアラボ人工知能シンポジウム2017) (8)

More from STAIR Lab, Chiba Institute of Technology (7)

Advertisement

Recently uploaded (20)

視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)

  1. 1. 視覚×言語の最前線 東京大学 大学院情報理工学系研究科 牛久 祥孝 losnuevetoros
  2. 2. 画像キャプション生成 A giraffe standing next to a tree in a fence. A yellow train on the tracks near a train station. A dog laying on the side of a zoo enclosure. With a cat laying on top of a laptop computer. A man in the beach with a surfboard. Black and white dog on the grass in a frisbee. [Ushiku+, ICCV 2015]
  3. 3. キャプションからの画像生成 This bird is blue with white and has a very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, 2016]
  4. 4. ビジュアル質問応答 [Fukui+, EMNLP 2016]
  5. 5. 今日の講演 • 先程までの例は最近の結果 1. 画像キャプション生成 2. キャプションからの画像生成 3. ビジュアル質問応答 • 本講演:これらの分野の重要な3論文を紹介 1. Every Picture Tells a Story: Generating Sentences from Images [Farhadi+, ECCV 2010] 2. Generative Adversarial Text to Image Synthesis [Reed+, ICML 2016] 3. VQA: Visual Question Answering [Antol+, ICCV 2015]
  6. 6. 自己紹介 ~2014.3 博士(情報理工学)、東京大学 • 画像キャプション生成 • 大規模画像認識 2014.4~2016.3 NTT コミュニケーション科学基礎研究所 研究員 2016.4~ 東京大学 大学院情報理工学系研究科 知能機械情報学専攻 講師 (原田・牛久研究室)
  7. 7. こっそり(?)宣伝 • コンピュータビジョン勉強会@関東 – Computer Vision についての勉強会 輪読、論文読み会、LT – 参加者の大半は社会人 – 当然学生も歓迎 • MIRU2017若手プログラム – 2017年8月7日~8月11日@広島 – 画像の認識・理解シンポジウム(MIRU)内開催 – 若手同士で「研究の立ち上げ」
  8. 8. 論文1 Every Picture Tells a Story: Generating Sentences from Images [Farhadi+, ECCV 2010]
  9. 9. この論文のどこがすごいか? • 世界初の画像キャプション生成論文 – データセットの提供 – 既存手法がない中でパイプラインを提案 • 深層学習の流行より前の研究 「画像から文章を作成する技術の実現性は、 ディープラーニングの登場前、想像すらされてい ませんでした。」 [武井, 2016] といった記述は誤り
  10. 10. データセットの収集 • PASCAL Sentence Dataset の提供 – 1000枚の画像、5キャプション/画像 – キャプションは Amazon Mechanical Turk (AMT) で収集 • その後のより大規模なデータセットのお手本に – Flickr 8k/30k それぞれ8000/30000枚の画像、5キャプション/画像 – Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013] 10000枚のクリップアート、6キャプション/画像 – MS COCO [Lin+, 2014] 10万超の画像、5キャプション/画像 One jet lands at an airport while another takes off next to it. Two airplanes parked in an airport. Two jets taxi past each other. Two parked jet airplanes facing opposite directions. two passenger planes on a grassy plain
  11. 11. パイプライン 既存キャプション再利用アプローチ 0. データセットの画像+キャプションに <object, action, scene>を手作業で付与 1. 画像の<object, action, scene>をMRFで推定 2. <object, action, scene>が同じキャプションを 検索して利用 <Horse, Ride, Field>
  12. 12. キャプション生成結果の例
  13. 13. その後の展開 • 2大アプローチが台頭 – 既存キャプションの検索アプローチ 本論文はこちらに分類される – 新規キャプションの生成アプローチ 画像認識技術と機械翻訳技術の融合 • ディープラーニングによる流行 – 画像認識 – 機械翻訳 が深層学習で実現可能に →参入障壁が低下 Google NIC [Vinyals+, CVPR 2015]
  14. 14. 論文2 Generative Adversarial Text to Image Synthesis [Reed+, ICML 2016]
  15. 15. この論文のどこがすごいか? 文から鮮明な画像の生成を実現 ↑難しいタスク (下は[Mansimov+, ICLR 2016]の例) ※ 画像補完なら既にある [Hays+Efros, SIGGRAPH 2007]
  16. 16. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法 • Generator と Discriminator の敵対的学習 • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける は お前が生成したな!
  17. 17. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法 • Generator と Discriminator の敵対的学習 • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける は お前が生成したな!
  18. 18. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法 • Generator と Discriminator の敵対的学習 • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける は お前が生成したな!
  19. 19. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法 • Generator と Discriminator の敵対的学習 • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける は お前が生成したな!
  20. 20. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法 • Generator と Discriminator の敵対的学習 学習が進むと: • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける むむむ…
  21. 21. 文で生成結果を変えるには Generator と Discriminator に文を加える ・自然な画像 ・文に沿った画像 を生成しようとする ・不自然な画像 ・文に合わない画像 を識別しようとする
  22. 22. 生成できた画像の例 • 鳥(CUB)/花(Oxford-102)データセット – 約1万の鳥/花画像と5キャプション/画像 – 200種類の鳥/102種類の花 A tiny bird, with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch Bright droopy yellow petals with burgundy streaks, and a yellow stigma
  23. 23. その後の展開 StackGAN [Zhang+, 2016] • 2段階のGANからなるモデル • 1段目でぼやっとした画像を生成、2段目で高解像+詳細化
  24. 24. キャプションからの画像生成 This bird is blue with white and has a very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, 2016]
  25. 25. キャプションからの画像生成 This bird is blue with white and has a very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, 2016] 鳥/花に特化したデータセットでの結果 →一般的な画像を生成するにはより一層のブレイクスルーが必要
  26. 26. 論文3 VQA: Visual Question Answering [Antol+, ICCV 2015]
  27. 27. この論文のどこがすごいか? • ビジュアル質問応答を分野として確立 – ベンチマークデータセットの提供 – ベースとなるパイプラインでの実験 – ポータルサイト(http://www.visualqa.org/)も運営 • VQAという言葉自身はnewではない – AMT で人力解決 [Bigham+, UIST 2010] – 初の自動化(ディープラーニング不使用) [Malinowski+Fritz, NIPS 2014] – 類似用語:Visual Turing Test [Malinowski+Fritz, 2014]
  28. 28. VQA Dataset の構築 AMT で質問と回答を収集 • 10万超の実画像、3万超のアニメ調画像 • 計70万弱の質問+それぞれ10の模範回答
  29. 29. VQA=多クラス分類問題 表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別 質問文𝑄 What objects are found on the bed? 応答𝐴 bed sheets, pillow 画像𝐼 画像特徴量 𝑥𝐼 質問特徴量 𝑥 𝑄 統合された 表現ベクトル 𝑧𝐼+𝑄
  30. 30. VQA Challenge コンペティション参加チームの解答例から Q: What is the woman holding? GT A: laptop Machine A: laptop Q: Is it going to rain soon? GT A: yes Machine A: yes Q: Is the hydrant painted a new color? GT A: yes Machine A: no Q: Why is there snow on one side of the stream and clear grass on the other? GT A: shade Machine A: yes
  31. 31. その後の展開 「統合された表現ベクトル」をどのように 作るかを工夫する流れ • この論文:そのまま直列に並べる • Attentionで重みづけ和をとった画像特徴と 質問特徴を単純に足す [Xu+Saenko, ECCV 2016] • 双線形積とフーリエ変換を組み合わせる [Fukui+, EMNLP 2016] • 要素毎の積と要素毎の和を直列に並べる [Saito+, ICME 2017] 𝑧𝐼+𝑄 𝑥𝐼 𝑥 𝑄 この論文のベンチマークとパイプラインに沿った形なのは その後の論文で共通している点
  32. 32. さいごに • 2017年:”AI”は61歳 1956年のダートマス会議で分野が誕生 • AIの研究=玉ねぎの皮むき [Turing, 1956] 真の”知能”? (強いAI?) 単一の機能 … 弱いAI 数学の定理を自動で発見 問診から病気を自動診断 チェスで人間に勝利 かな漢字変換 クイズで人間に勝利 将棋で人間に勝利 音声認識 画像認識 囲碁で人間に勝利 画像と言語の融合 これからもどんどん皮をむこう

×