Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
無形概念認識の実現に向けて
どんな技術が求められるのか?
2016/12/16
PRMU12月研究会@鳥取大学
京都大学教育学研究科・助教
美濃研究室研究協力
橋本敦史
PRMU グランドチャレンジ(第二期)
発表の概要
■ GC第1期で,究極のチャレンジとして「画像に関するあ
らゆる意味の記述」が挙げられた
■ GC第2期の案内文で「上記の究極のチャレンジすら,
CNNとRNNによる...解かれつつある」とある
■ 本当にそうだろうか??
発表の概要
■ GC第1期で,究極のチャレンジとして「画像に関するあ
らゆる意味の記述」が挙げられた
■ GC第2期の案内文で「上記の究極のチャレンジすら,
CNNとRNNによる...解かれつつある」とある
■ 本当にそうだろうか??
– 物...
画像認識における課題の変化
- Wagstaff の指摘@ ICML2012(1から考える-
■ ベンチマークデータセットと現実の問題に乖離がないか?
– アヤメやマッシュルームのDSでの評価に偏り過ぎていないか?
– 精度向上が何%だった...
深層学習のImpactは何だったのか?
- 識別精度以外に焦点を当てて -
■ Fine-tuningの存在(+github)
– 基礎研究の精度向上や新手法が,数ヶ月後にはローンチされる?
→ImageNetなどのDSはもはやアヤメのDS...
何が出来ていて,何が未だなのか?
- 深層学習時代のコールドスタート問題? -
■ 深層学習の恩恵に預かるには,良い教師データが必要
– クラウドソーシング全盛?ただしマイクロワーカーはインド人?
(インド人の認識が世界基準に???)
...
これからのパターン認識の課題
- 有形概念認識から無形概念認識へ -
■ 従来の認識対象: 物体,動作(物理的な動きで定義可能なもの)
■ そもそも正解が曖昧な概念の認識 (無形概念認識?)
–見えない=客観的な合意形成が難しい=主観による...
自然言語と概念
■ 言語・所属コミュニティによって概念の範囲が違う
– 疲れた ≠ müde(独)
– 辛い≒しょっぱい???
■ テキスト内の文脈によってもおそらく異なる
– 「大きな」雪の結晶はかなり小さい - 川がサラサラ, 布がサ...
自然言語と画像/映像の対応付け
■ Image Captioning, Image-Sentence Alignment
– 言語表現と画像中の要素の対応付け(物体,動作,物
体間の位置など)
自然言語表現から自動で教師ラベルを抽出
→将来的...
Pascal Sentence Dataset(2
■ Pascal DatasetにAmazon MTurkで説明文を付与
2)Cyrus Rashtchian et. al., “Collecting Image Annotations U...
Pascal Sentence Dataset(2
■ Pascal DatasetにAmazon MTurkで説明文を付与
2)Cyrus Rashtchian et. al., “Collecting Image Annotations U...
Grounded Language Learning(3
3) Haonan Yu et. al., “Grounded
Language Learning from Video
Described with Sentences,”
ACL20...
Deep visual-semantic alignment(4
4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descr...
Deep visual-semantic alignment(4
4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descr...
何故”Visible”な概念しか扱えないのか
■ そもそも,教師データとなる文がVisibleな
概念を説明する文になってしまっている
– 画像そのものを説明させても,
無形概念の記述は得られ
にくい?
→MTurkによる正解データ
作成の限...
我々の研究事例紹介: 調理過程の食材認識(5
(詳細は2017年1月研究会 オーガナイズドセッション1「食」にて.)
■ クックパッドのレシピテキスト+画像
で学習
– 画像と文の対応は非常にゆるい
■ まだ(混合)食材の種類の学習のみ
– よ...
無形概念認識に向けて重要になると思う技術
■ より多様な「文と画像の組」による学習
– 表層的な説明文 → 深い概念的理解に基づく文
– User Generated Contentsなどの活用(cold startへの一つの解)
>レシピ,...
まとめ
■ 有形概念の認識はCNN+RNNで確かに出来てきた.
■ 明確な形がない概念の認識はまだまだではないか?
– 学習データの問題
■ ラベルは明確でなければ☓ → 形がないと客観的合意形成不可
■ 自然言語の記述は既に大量に存在,無...
Q&A + コメント(その場で上手く答えられ
なかったので勝手にここでまとめてみる.)
■ 見えている物体などと合わせて,その状態などの
形容詞的な部分を認識する手法は既にある.そう
いうものもサーベイしてみては?
– そういうものはもちろ...
■ 概念の程度問題,というのを考えたときには,一対
比較のようなものでデータを作るのが妥当では?
– GCということで,無形概念というくくりで考えて一
網打尽にする手法の作成,みたいなものを念頭にお
いている.各論的な研究はもちろん大事だけれ...
■ 「サラサラ」は単語が一緒でも,もう一つ上の概念などで
異なる意味かもしれない.例えば,川がサラサラは音が関
係している.音との共起性なども考えても面白いかもしれ
ない.
– 確かに,同じ言葉で違う意味かもしれないが,特にオノマ
...
Q&A + コメント(その場で上手く答えられな
かったので勝手にここでまとめてみる.)
■ 正解がある,という風に囚われすぎているのではないか?
– 正解,という言葉を使っているのは確かにミスリーディング
かも知れない.寧ろ,個人的には「正解...
Q&A + コメント(その場で上手く答えられな
かったので勝手にここでまとめてみる.)
■ もっと具体的に何の役に立つかを考えた方が良い
のではないか?
– GCということで,個別の研究の話ではないので,
明確で具体的な案は不要と思い,敢えて...
Upcoming SlideShare
Loading in …5
×

PRMU GC第二期 無形概念認識

475 views

Published on

PRMU GC第二期での発表.2016/12/16

Published in: Technology
  • Be the first to comment

PRMU GC第二期 無形概念認識

  1. 1. 無形概念認識の実現に向けて どんな技術が求められるのか? 2016/12/16 PRMU12月研究会@鳥取大学 京都大学教育学研究科・助教 美濃研究室研究協力 橋本敦史 PRMU グランドチャレンジ(第二期)
  2. 2. 発表の概要 ■ GC第1期で,究極のチャレンジとして「画像に関するあ らゆる意味の記述」が挙げられた ■ GC第2期の案内文で「上記の究極のチャレンジすら, CNNとRNNによる...解かれつつある」とある ■ 本当にそうだろうか??
  3. 3. 発表の概要 ■ GC第1期で,究極のチャレンジとして「画像に関するあ らゆる意味の記述」が挙げられた ■ GC第2期の案内文で「上記の究極のチャレンジすら, CNNとRNNによる...解かれつつある」とある ■ 本当にそうだろうか?? – 物体や動作などに 偏っているのではないか? 冬,寒い? この女性は旅行者で,道がわからない. ただし,焦っている様子はない 地元の人? より抽象度の高い概念の認識も重要では? Photo Credit: faungg’s photo | Flickr
  4. 4. 画像認識における課題の変化 - Wagstaff の指摘@ ICML2012(1から考える- ■ ベンチマークデータセットと現実の問題に乖離がないか? – アヤメやマッシュルームのDSでの評価に偏り過ぎていないか? – 精度向上が何%だったかではなく,現実の問題への寄与で評価するべき. ■ 賛否両論ある. – 特定のベンチマークDSにチューニングされたような手法はそもそも評価 されない – アルゴリズムや手法の精度向上に注力するコミュニティも認めるべき ■ 根幹は「基礎研究」と「応用研究」の乖離に対する指摘 1) K. Wagstaff, “Machine learning that matters,” ICML2012.
  5. 5. 深層学習のImpactは何だったのか? - 識別精度以外に焦点を当てて - ■ Fine-tuningの存在(+github) – 基礎研究の精度向上や新手法が,数ヶ月後にはローンチされる? →ImageNetなどのDSはもはやアヤメのDSとは質的に異なる. ■ 2012年の議論(基礎と応用の乖離)はもはや過去のもの. (ただし,精度向上(%)ではなく,現実の問題での寄与での評価が大事, という指摘は忘れては行けない) ■ ただし...
  6. 6. 何が出来ていて,何が未だなのか? - 深層学習時代のコールドスタート問題? - ■ 深層学習の恩恵に預かるには,良い教師データが必要 – クラウドソーシング全盛?ただしマイクロワーカーはインド人? (インド人の認識が世界基準に???) – 複雑な教師データの作成コストは馬鹿にならない. – サービスの中で(明示的・暗黙的に)教師データを収集 →ユーザ体験とのトレードオフ ■ そもそも,良い教師データが作れない識別問題も存在するのでは?
  7. 7. これからのパターン認識の課題 - 有形概念認識から無形概念認識へ - ■ 従来の認識対象: 物体,動作(物理的な動きで定義可能なもの) ■ そもそも正解が曖昧な概念の認識 (無形概念認識?) –見えない=客観的な合意形成が難しい=主観によるばらつきが大きい 形容詞,オノマトペ,心理状態,(抽象度の高い動作) –例:「大きい」,「寒い」,「サラサラ」,「よちよち」,「困っている」,「疲れてい る」... → 文脈や使用言語にも大きく影響を受ける.
  8. 8. 自然言語と概念 ■ 言語・所属コミュニティによって概念の範囲が違う – 疲れた ≠ müde(独) – 辛い≒しょっぱい??? ■ テキスト内の文脈によってもおそらく異なる – 「大きな」雪の結晶はかなり小さい - 川がサラサラ, 布がサラサラ 無形概念は使用者集団や文脈の中で意味が確定する かわいい?
  9. 9. 自然言語と画像/映像の対応付け ■ Image Captioning, Image-Sentence Alignment – 言語表現と画像中の要素の対応付け(物体,動作,物 体間の位置など) 自然言語表現から自動で教師ラベルを抽出 →将来的には無形概念の取扱いも可能ではないか?
  10. 10. Pascal Sentence Dataset(2 ■ Pascal DatasetにAmazon MTurkで説明文を付与 2)Cyrus Rashtchian et. al., “Collecting Image Annotations Using Amazon's Mechanical Turk,” NAACL HLT 2010 Workshop A bike painted pink sitting on a sidewalk outside a building. An old bicycle painted almost completely pink standing against a city building. A pink bicycle is in front of a building A pink bicycle is parked next to a brick and concrete building. A pink bicycle with matching tires.
  11. 11. Pascal Sentence Dataset(2 ■ Pascal DatasetにAmazon MTurkで説明文を付与 2)Cyrus Rashtchian et. al., “Collecting Image Annotations Using Amazon's Mechanical Turk,” NAACL HLT 2010 Workshop A bike painted pink sitting on a sidewalk outside a building. An old bicycle painted almost completely pink standing against a city building. A pink bicycle is in front of a building A pink bicycle is parked next to a brick and concrete building. A pink bicycle with matching tires. 現状の技術で扱うのが かなり難しい部類 ほぼ有形な概念 物体同士の位置関係(次スライド)
  12. 12. Grounded Language Learning(3 3) Haonan Yu et. al., “Grounded Language Learning from Video Described with Sentences,” ACL2013 Unlike prior computer-vision approaches that learn from videos with verb labels or images with noun labels, our labels are sentences containing nouns, verbs, prepositions, adjectives, and adverbs 物体/動作特徴はHand-crafted.
  13. 13. Deep visual-semantic alignment(4 4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descriptions,” CVPR2015 CNN+RNNによる 画像説明文の生成 個々の単語の尤度も 出力可能(左図)
  14. 14. Deep visual-semantic alignment(4 4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descriptions,” CVPR2015 CNN+RNNによる 画像説明文の生成 個々の単語の尤度も 出力可能(左図) ”Visible”に近い形容詞,前 置詞などしか扱えていない
  15. 15. 何故”Visible”な概念しか扱えないのか ■ そもそも,教師データとなる文がVisibleな 概念を説明する文になってしまっている – 画像そのものを説明させても, 無形概念の記述は得られ にくい? →MTurkによる正解データ 作成の限界 冬,寒い? こちらの女性は旅行者で,道がわからない. ただし,焦っている様子はない 地元の人?
  16. 16. 我々の研究事例紹介: 調理過程の食材認識(5 (詳細は2017年1月研究会 オーガナイズドセッション1「食」にて.) ■ クックパッドのレシピテキスト+画像 で学習 – 画像と文の対応は非常にゆるい ■ まだ(混合)食材の種類の学習のみ – より無形な概念(食材の状態)も扱いたい 図.調理過程で現れる人参の 識別器の自動学習例 5)藤野他, “調理過程画像からの食材認識,” CVIM/PRMU/MVE 2017 1月研究会
  17. 17. 無形概念認識に向けて重要になると思う技術 ■ より多様な「文と画像の組」による学習 – 表層的な説明文 → 深い概念的理解に基づく文 – User Generated Contentsなどの活用(cold startへの一つの解) >レシピ,個人のブログ,ニュース,... を教師とした学習 ■ 概念の自己組織化 – 「大きな雪の結晶」は「雪の結晶(有形概念)」の一形態 →有形概念の「状態」として学習 →テキストと対応付けるためには,画像のみでの区別が必要 > 深層学習モデルの特徴量を教師無しで解析する技術の開発
  18. 18. まとめ ■ 有形概念の認識はCNN+RNNで確かに出来てきた. ■ 明確な形がない概念の認識はまだまだではないか? – 学習データの問題 ■ ラベルは明確でなければ☓ → 形がないと客観的合意形成不可 ■ 自然言語の記述は既に大量に存在,無形の概念を記述可能 – 自然言語を教師データとする学習 ■ 現在: 画像そのものの説明文で学習→有形概念ばかりになる ■ 画像と共にある任意の記述での学習が必要 →文集合≒コミュニティが違えば,異なる結果=主観?
  19. 19. Q&A + コメント(その場で上手く答えられ なかったので勝手にここでまとめてみる.) ■ 見えている物体などと合わせて,その状態などの 形容詞的な部分を認識する手法は既にある.そう いうものもサーベイしてみては? – そういうものはもちろんあると思う.画像のみで 形容詞やオノマトペを認識する限り,そこからは 逃れられない.画像の外の知識や推論まで入れ始 めると木村さんの発表のようになるかなと思って いる.
  20. 20. ■ 概念の程度問題,というのを考えたときには,一対 比較のようなものでデータを作るのが妥当では? – GCということで,無形概念というくくりで考えて一 網打尽にする手法の作成,みたいなものを念頭にお いている.各論的な研究はもちろん大事だけれど, それだとCNNに多くの研究が駆逐されたのと似た状 態になるのでは?と危惧している.駆逐される前に こちらから,無形概念を一網打尽にできるような手 法を作ることがチャレンジだと思う. – むしろ,一対比較のようなものは,むしろ正解デー タとして利用するのはありかもしれないと思う. Q&A + コメント(その場で上手く答えられ なかったので勝手にここでまとめてみる.)
  21. 21. ■ 「サラサラ」は単語が一緒でも,もう一つ上の概念などで 異なる意味かもしれない.例えば,川がサラサラは音が関 係している.音との共起性なども考えても面白いかもしれ ない. – 確かに,同じ言葉で違う意味かもしれないが,特にオノマ トペの場合,音素には言語の違いに依らない共通の印象な どがあることが知られている.そういう共通の部分と違う 部分をパターン認識的に明確に数値化できると面白いと思 う.もちろん,PRMUは画像よりの人が多いけれど,マル チモーダルな展開も十分にありえると思うし,やるべきだ と思う. – 一方で,この提案の一つは,データセットを新たに作らな くても良い世界にする,ということでもある.そういう意 味では,各論的なデータ作成は趣旨と外れるかもしれない. Q&A + コメント(その場で上手く答えられ なかったので勝手にここでまとめてみる.)
  22. 22. Q&A + コメント(その場で上手く答えられな かったので勝手にここでまとめてみる.) ■ 正解がある,という風に囚われすぎているのではないか? – 正解,という言葉を使っているのは確かにミスリーディング かも知れない.寧ろ,個人的には「正解」は主観によってい くらでも変わりうる,と考えている.主観を定量化するにあ たって,コミュニティのような集団を考えるのは一つのアプ ローチではないか?ということが主張.もちろん強烈な個性 を持つ,他に類を見ない主観を持つ人は扱えないが,多くの 人の主観は帰属コミュニティの影響を受けていて,そのコ ミュニティ毎にはある種の正解(客観的合意)が形成されて いなければ,そもそもコミュニケーションというものそのも のが成り立たないのではないかと思う.
  23. 23. Q&A + コメント(その場で上手く答えられな かったので勝手にここでまとめてみる.) ■ もっと具体的に何の役に立つかを考えた方が良い のではないか? – GCということで,個別の研究の話ではないので, 明確で具体的な案は不要と思い,敢えてそういう 話はしなかったが,人と機械のコミュニケーショ ンを伴う全てのことに非常に大きなインパクトを 与えると思う.一方で,東ロボなどのGCを見るに, (有用かはさておき)もっとキャッチーな応用に 問題を着地させておいても良かったかも知れない. 例えば「空気を読む認識」のようなもの?

×