Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
CVPR 2016読み会
We Are Humor Beings:
Understanding and Predicting Visual Humor
牛久 祥孝
losnuevetoros
関東CV発表者の当日あるある
直前まで発表資料作ってる
[https://pbs.twimg.com/profile_images/415822443333156864/sCzQlhA4_400x400.jpeg]
関東CV発表者の当日あるある…?
午前中に引越し(中野周辺→浅草周辺)
関東CV発表者の当日あるある…?
午前中に引越し(中野周辺→浅草周辺)
関東CV史上初では?!
お前は誰だ?
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3 NTT コミュニケーション科学基礎研究所
2016.4~ 東京大学 大学院情報理工学系研究科
知能機械情報学専...
教員のおしごと:授業
学生の姿勢
学生の姿勢(現実)
CaptionBot
https://www.captionbot.ai/
CaptionBot:
they seem 😐😐😐😐😐😐😐😐😐😐😐😐😐😐.
どうする…?
諦める。
より面白い授業にしよう!
• 魅力的な題材にするのはもちろん
• 所々で笑いも取っていきたい(cf. 落語)
今回読む論文
スライド素材の参考になるかな…?
Humor の理論
Incongruity Theory (不調和説)
1. 予測と実際のズレ(不調和)に気づく
2. 改めてコンテキストを理解→面白いと感じる
Humor の理論
Superiority Theory (優越説)
• 自分が優越感を感じると面白いと感じる
• 「他人の不幸は蜜の味」
Humor の理論
Relief Theory (安堵説)
• 心理的抑圧の開放
• ドッキリかけられた人が笑う理由?
僕の実体験:
男が真夜中に僕の部屋に入って、
僕の真上に立って見下ろすんだ。
あげく噛みついてきて、血を吸い、
またふらふら...
Humor の理論
Relief Theory (安堵説)
• 心理的抑圧の開放
• ドッキリかけられた人が笑う理由?
僕の実体験:
男が真夜中に僕の部屋に入って、
僕の真上に立って見下ろすんだ。
あげく噛みついてきて、血を吸い、
またふらふら...
本論文の目的
ユーモアを理解し構築できる計算モデル
• 画像を対象にした研究は世界初※
• 不調和説に関連する2つの機能を実現
– 入力画像のオモシロ度判定
– オモシロ度に関連しているオブジェクトの発見
• 上記のために独自のデータセットを収...
ターゲット画像:Abstract Scenes
パーツを配置してアニメ画像を作成するインターフェース
[Zitnick+Parikh, CVPR 2013]
メリットは?
• オブジェクトが既知
• その位置も既知
→ユーモアの理解にフォーカス...
オモシロ度判定
AVHデータセットの作成
Abstract Visual Humor (AVH) データセット
入力画像のオモシロ度学習用
1. Visual Question Answering 用に作られたデータ[Antol+, ICCV 2015]
から...
AVHデータセットの作成
Abstract Visual Humor (AVH) データセット
3. 別の人々にオモシロ度の5段階評価を依頼(画像あたり10人)
→ 平均値を画像のオモシロ度と定義(5に近いほど面白い)
オモシロ度 0.1 オモ...
オモシロ度判定のための特徴量抽出
Scene-Level Features
150個ある物体の…
• それぞれの個数を並べたBag-of-Wordベクトル
(150次元)
• x座標,y座標を並べたベクトル(300次元)
複数個ある場合は座標の...
オモシロ度判定実験の概要
• 𝑖番目の画像のオモシロ度𝐹𝑖に対してサポートベ
クター回帰
• 𝑁枚の画像に対しての重み付き誤差の平均
正解のオモシロ度が低いほど誤差が大きく
重みづけられる
→逆にした方が良かったんじゃ…?
本論文唯一の数式!!!
オモシロ度判定実験の結果
ベースライン:全データのオモシロ度の平均を推定値として出力
上から SVR+分散表現の平均(150次元)
SVR+オブジェクトの個数(150次元)
SVR+オブジェクトの位置(300次元)
SVR+上記3つの直列(60...
オモシロ度判定実験の考察
• 座標情報と個数情報がほぼ同一性能
– 「どちらにもオブジェクトの occurrence 情報があっ
た為であると考えれば自然な結果」 by 著者
• 分散表現は性能が一番わるい
– 「位置情報が無いので」 by 著...
面白い画像⇔面白くない画像変換
~オモシロ度に関連しているオブジェクトの推定
FORデータセットの作成
Funny Object Replaced (FOR) データセット
オモシロ度に関連しているオブジェクトの推定
→そのオブジェクトを変えることで
• 面白い画像を面白くない画像に
• 面白くない画像を面白い画像に 変...
FORデータセットの作成
Funny Object Replaced (FOR) データセット
1. AVHデータセットでオモシロ度が閾値以上のもの
3028枚を利用
2. クラウドソーシングで面白くない画像の作成を依頼、
面白い/面白くない画...
面白い⇔面白くない変換の要求機能
• 今の画像で面白さ/面白くなさの主因となっている
オブジェクトの推定「ネズミが面白さの主因だ」
• 代わりに配置するオブジェクトの推定
「代わりに料理を置けばつまらなくなる」
実現機構は以下の通り
1. 入力...
面白い⇔面白くない変換のための特徴量抽出
Instance-Level Features
• 各オブジェクトの分散表現(word2vecの様なもの、
150次元)
→おばあちゃん自体の分散表現
• 各オブジェクトの周辺にあるオブジェクトの
分散...
面白さ主因オブジェクト判定実験の概要
例 入力:各オブジェクトを一通り
正解:おばあちゃんだけyes、その他はno
ベースライン4つ
• Priors (do not replace)
もうずっとnoしか言わない(ので何も置換しない)
• Pr...
面白さ主因オブジェクト判定実験の結果
• Avg. Cl. Acc.
クラスごとの2値分類精度の平均
• Acc.
単純に全テストサンプルでの2値分類精度
(なので面白さと「関係ある」クラスに比べて、
「関係ない」クラスが支配的)
面白さ主因オブジェクト判定実験の考察
• ベースライン一つ目:何でもnoと言えば、Acc.では一位
• ベースライン二つ目:訓練データの頻度を使えば、Avg.
Cl. Acc. では2番目に良い
「Anomaly detectionは教師なしだ...
代替オブジェクト推定実験の概要
例 入力:面白さと関連しているオブジェクト
(テスト画像データ作成時にクラウドソーシング上で
置換されたオブジェクトを入力として利用)
正解:データセット作成時の置換で実際に利用された
オブジェクト
ベースライン...
代替オブジェクト推定実験の結果と考察
面白い画像から面白くない画像への変換
• データセットはこの変換で作成→定量評価可能
• Top-5 accuracy (5つ推定した中に正解があればよい)
• 傾向は面白さ主因オブジェクト推定実験の結果と...
代替オブジェクト推定の例
• 面白い画像を面白くない画像へ変換した例
• クラウドソーシングで入出力にオモシロ度を付与
平均で2.69から1.64にオモシロ度が低下
代替オブジェクト推定の例
• 面白くない画像を面白い画像へ変換した例
• クラウドソーシングで出力にオモシロ度を付与
平均で2.14のオモシロ度 「比較的高い」 by 著者
まとめと所感
視覚情報とユーモアとの関係をモデル化する第一歩
• アニメ画像データセットを作成して画像認識をパス
• 入力画像の面白さ推定
• 入力画像のオブジェクトと面白さの関連性の推定
所感
• 氷山の一角に取り組みました、という印象
実は...
Upcoming SlideShare
Loading in …5
×

We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

1,598 views

Published on

画像のユーモアを計算機に理解させようという話。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR 2016 読み会)

  1. 1. CVPR 2016読み会 We Are Humor Beings: Understanding and Predicting Visual Humor 牛久 祥孝 losnuevetoros
  2. 2. 関東CV発表者の当日あるある 直前まで発表資料作ってる [https://pbs.twimg.com/profile_images/415822443333156864/sCzQlhA4_400x400.jpeg]
  3. 3. 関東CV発表者の当日あるある…? 午前中に引越し(中野周辺→浅草周辺)
  4. 4. 関東CV発表者の当日あるある…? 午前中に引越し(中野周辺→浅草周辺) 関東CV史上初では?!
  5. 5. お前は誰だ? ~2014.3 博士(情報理工学)、東京大学 • 画像説明文の自動生成 • 大規模画像分類 2014.4~2016.3 NTT コミュニケーション科学基礎研究所 2016.4~ 東京大学 大学院情報理工学系研究科 知能機械情報学専攻 講師 (原田・牛久研究室)
  6. 6. 教員のおしごと:授業
  7. 7. 学生の姿勢
  8. 8. 学生の姿勢(現実)
  9. 9. CaptionBot https://www.captionbot.ai/
  10. 10. CaptionBot: they seem 😐😐😐😐😐😐😐😐😐😐😐😐😐😐.
  11. 11. どうする…? 諦める。 より面白い授業にしよう! • 魅力的な題材にするのはもちろん • 所々で笑いも取っていきたい(cf. 落語)
  12. 12. 今回読む論文 スライド素材の参考になるかな…?
  13. 13. Humor の理論 Incongruity Theory (不調和説) 1. 予測と実際のズレ(不調和)に気づく 2. 改めてコンテキストを理解→面白いと感じる
  14. 14. Humor の理論 Superiority Theory (優越説) • 自分が優越感を感じると面白いと感じる • 「他人の不幸は蜜の味」
  15. 15. Humor の理論 Relief Theory (安堵説) • 心理的抑圧の開放 • ドッキリかけられた人が笑う理由? 僕の実体験: 男が真夜中に僕の部屋に入って、 僕の真上に立って見下ろすんだ。 あげく噛みついてきて、血を吸い、 またふらふらと出て行ったんだ…
  16. 16. Humor の理論 Relief Theory (安堵説) • 心理的抑圧の開放 • ドッキリかけられた人が笑う理由? 僕の実体験: 男が真夜中に僕の部屋に入って、 僕の真上に立って見下ろすんだ。 あげく噛みついてきて、血を吸い、 またふらふらと出て行ったんだ…
  17. 17. 本論文の目的 ユーモアを理解し構築できる計算モデル • 画像を対象にした研究は世界初※ • 不調和説に関連する2つの機能を実現 – 入力画像のオモシロ度判定 – オモシロ度に関連しているオブジェクトの発見 • 上記のために独自のデータセットを収集 ※画像に面白いキャプションを付ける研究はある →著者らの主張:「・オモシロ度判定 ・オモシロ度に関連する オブジェクトの推定 は既知ではない」 [Wang+Wen, NAACL 2015]
  18. 18. ターゲット画像:Abstract Scenes パーツを配置してアニメ画像を作成するインターフェース [Zitnick+Parikh, CVPR 2013] メリットは? • オブジェクトが既知 • その位置も既知 →ユーモアの理解にフォーカスできる! 人手で 配置 150種のオブジェクトが使える!
  19. 19. オモシロ度判定
  20. 20. AVHデータセットの作成 Abstract Visual Humor (AVH) データセット 入力画像のオモシロ度学習用 1. Visual Question Answering 用に作られたデータ[Antol+, ICCV 2015] から3200枚を使用(面白くない画像候補群) 2. 先ほどのインターフェースを用いてクラウドソーシング上で 面白い画像3200枚分の作成を依頼(面白い画像候補群)
  21. 21. AVHデータセットの作成 Abstract Visual Humor (AVH) データセット 3. 別の人々にオモシロ度の5段階評価を依頼(画像あたり10人) → 平均値を画像のオモシロ度と定義(5に近いほど面白い) オモシロ度 0.1 オモシロ度 1.5 オモシロ度 4.0 オモシロ度 4.0
  22. 22. オモシロ度判定のための特徴量抽出 Scene-Level Features 150個ある物体の… • それぞれの個数を並べたBag-of-Wordベクトル (150次元) • x座標,y座標を並べたベクトル(300次元) 複数個ある場合は座標の平均を用いる • 各オブジェクトを150次元の分散表現 (word2vecみたいなもの)に変換したときの、 画像全体での分散表現の平均(150次元)
  23. 23. オモシロ度判定実験の概要 • 𝑖番目の画像のオモシロ度𝐹𝑖に対してサポートベ クター回帰 • 𝑁枚の画像に対しての重み付き誤差の平均 正解のオモシロ度が低いほど誤差が大きく 重みづけられる →逆にした方が良かったんじゃ…? 本論文唯一の数式!!!
  24. 24. オモシロ度判定実験の結果 ベースライン:全データのオモシロ度の平均を推定値として出力 上から SVR+分散表現の平均(150次元) SVR+オブジェクトの個数(150次元) SVR+オブジェクトの位置(300次元) SVR+上記3つの直列(600次元)
  25. 25. オモシロ度判定実験の考察 • 座標情報と個数情報がほぼ同一性能 – 「どちらにもオブジェクトの occurrence 情報があっ た為であると考えれば自然な結果」 by 著者 • 分散表現は性能が一番わるい – 「位置情報が無いので」 by 著者 • 組み合わせても性能の向上は得られず
  26. 26. 面白い画像⇔面白くない画像変換 ~オモシロ度に関連しているオブジェクトの推定
  27. 27. FORデータセットの作成 Funny Object Replaced (FOR) データセット オモシロ度に関連しているオブジェクトの推定 →そのオブジェクトを変えることで • 面白い画像を面白くない画像に • 面白くない画像を面白い画像に 変換できる! 面白い画像 ーネズミを料理に変更→ 面白くない画像
  28. 28. FORデータセットの作成 Funny Object Replaced (FOR) データセット 1. AVHデータセットでオモシロ度が閾値以上のもの 3028枚を利用 2. クラウドソーシングで面白くない画像の作成を依頼、 面白い/面白くない画像ペアを整備 – 画像あたり5人にタスクを依頼 – オモシロ度𝐹𝑖は平均で2.66→1.10に低下 面白い画像 面白くない画像
  29. 29. 面白い⇔面白くない変換の要求機能 • 今の画像で面白さ/面白くなさの主因となっている オブジェクトの推定「ネズミが面白さの主因だ」 • 代わりに配置するオブジェクトの推定 「代わりに料理を置けばつまらなくなる」 実現機構は以下の通り 1. 入力画像のオブジェクトごとに特徴量抽出 2. オブジェクト毎に面白さ/面白くなさの主因になって いる or いない の2値分類 3. 主因と推定されたオブジェクトを入力として代わりの オブジェクトを推定する多値分類
  30. 30. 面白い⇔面白くない変換のための特徴量抽出 Instance-Level Features • 各オブジェクトの分散表現(word2vecの様なもの、 150次元) →おばあちゃん自体の分散表現 • 各オブジェクトの周辺にあるオブジェクトの 分散表現の重み付き和(150次元) – 重み:周辺オブジェクトとの距離の逆数 →スケートボードやサッカーボール、木などの分散表現の和 今、「おばあちゃん」オブジェクトから特徴量を抽出したいと仮定して…
  31. 31. 面白さ主因オブジェクト判定実験の概要 例 入力:各オブジェクトを一通り 正解:おばあちゃんだけyes、その他はno ベースライン4つ • Priors (do not replace) もうずっとnoしか言わない(ので何も置換しない) • Priors (tendency) 各オブジェクトの置換頻度が訓練データで閾値以上ならyes • Anomaly detection (threshold distance / top-K objects) オブジェクトの分散表現と周辺オブジェクトの分散表現の和 のコサイン類似度が… – 閾値以下のものは全て yes – 低い K 個は全て yes 提案手法 4層の多層パーセプトロン+ReLU+モーメントSGD
  32. 32. 面白さ主因オブジェクト判定実験の結果 • Avg. Cl. Acc. クラスごとの2値分類精度の平均 • Acc. 単純に全テストサンプルでの2値分類精度 (なので面白さと「関係ある」クラスに比べて、 「関係ない」クラスが支配的)
  33. 33. 面白さ主因オブジェクト判定実験の考察 • ベースライン一つ目:何でもnoと言えば、Acc.では一位 • ベースライン二つ目:訓練データの頻度を使えば、Avg. Cl. Acc. では2番目に良い 「Anomaly detectionは教師なしだけど、このベースラインは教 師ありの方法なので」 by 著者 • 提案手法は平均で、3.67個のオブジェクトを「面白さと 関連する」と判定 「特に人や動物などは、面白さの主因だと判定されやすい」
  34. 34. 代替オブジェクト推定実験の概要 例 入力:面白さと関連しているオブジェクト (テスト画像データ作成時にクラウドソーシング上で 置換されたオブジェクトを入力として利用) 正解:データセット作成時の置換で実際に利用された オブジェクト ベースライン2つ • Priors 訓練データセットで最も頻度の高かったオブジェクト5つを出力 • Anomaly detection (オモシロ度推定で用いた)全オブジェクトの分散表現の和から 置換したいオブジェクトの分散表現を引き算 →「置換後の画像全体の特徴量はこれに似ているはず」(本当か…?) →引き算の結果に近い分散表現をもつオブジェクト5つを出力 提案手法 5層の多層パーセプトロン+ReLU+モーメントSGDで上位5つを出力
  35. 35. 代替オブジェクト推定実験の結果と考察 面白い画像から面白くない画像への変換 • データセットはこの変換で作成→定量評価可能 • Top-5 accuracy (5つ推定した中に正解があればよい) • 傾向は面白さ主因オブジェクト推定実験の結果と同様 – MLPいれてPirorsよりも5%しか良くならないというのは… • 提案手法は屋内なら”plant”屋外なら”butterfly”を必ず Top-1に出力している – 「各テスト画像について2番目の推定結果のほうが 定性的には良いオブジェクトを選んでいる」
  36. 36. 代替オブジェクト推定の例 • 面白い画像を面白くない画像へ変換した例 • クラウドソーシングで入出力にオモシロ度を付与 平均で2.69から1.64にオモシロ度が低下
  37. 37. 代替オブジェクト推定の例 • 面白くない画像を面白い画像へ変換した例 • クラウドソーシングで出力にオモシロ度を付与 平均で2.14のオモシロ度 「比較的高い」 by 著者
  38. 38. まとめと所感 視覚情報とユーモアとの関係をモデル化する第一歩 • アニメ画像データセットを作成して画像認識をパス • 入力画像の面白さ推定 • 入力画像のオブジェクトと面白さの関連性の推定 所感 • 氷山の一角に取り組みました、という印象 実は心理学的にもユーモアの統一理論は無いらしい • 技術的新規性が少なくてもスポットライト採択される 問題自身の新規性やデータセット公開などが貢献 • 論文入力したら、適切に笑いとりつつ説明してくれる 勉強会用スライドが自動生成されたら素敵ですね

×