CVPR2011 Paper Digest(1) Interactive building a discriminative      vocabulary of nameable attributes    (2) Recognition u...
なぜこの2本を選んだのか?   「画像を理解する」をどう問題に落とす?       物体認識…?                                                        Person          ...
何が足りないのか? (1)   物体などの属性が足りない       でも画像だけで                           Sky: clear            Person: female        全部できる気が...
何が足りないのか? (2)   物体間の関係性が足りない                                              A person is wearing clothes.    [ Full descript...
Interactively building a discriminative vocabulary of         nameable attributesD. Parikh @ Toyota Technological Institut...
やりたいこと   物体・シーンの属性の辞書・モデルを    インタラクティブに構築する物体やシーンはそれぞれ違うラベルが付いているけど,    何か名前があるかも!何か傾向があるような気がする…   聞いてみよう!6             ...
アプローチ    物体クラスとは異なる類似性を見つけるクラス分類を壊さないような 2クラス識別面を見つける                            ユーザに見せる画像を                              ...
類似性発見の方法Mixture of Probabilistic PCAs    教師なし(物体も属性も関係なし)ででモデル化,適切な仮説のみ選択                  最大マージンクラスタリング   現在の属性辞書        ...
提示する画像の選択        識別面に直交する軸を等間隔に区切る区切った領域内で,識別面の真ん中に   最大マージンクラスタリングで得られた最も近いサンプルを選択         識別面 (=属性候補) 9                 ...
ユーザに何を尋ねるか?• この属性の名前は? (以降はもし属性に名前があれば回答)• 左右,どちらに行くほどその特性が強くなるか?• この画像列がその属性を表現するものとして,  どの程度尤もらしいか (4段階評価)?10           ...
データセット   Outdoor scene recognition (OSR)       http://people.csail.mit.edu/torralba/code/spatialenvelope/   Animals wit...
クラス選択と仮説選択の効果                      クラス選択               クラスのランダム選択や               クラス選択なしに比べ,               意味ある仮説を適切に     ...
全体としての効果   インタラクションを重ねれば,    属性辞書は着実に構築されます.   なので,当然,認識精度も少し向上します.13                CVPR2011祭り (July 31, 2011)
Recognition                  using visual phrasesM.A. Sadeghi @ Institute for Research in Fundamental Science      A. Farh...
やりたいこと   物体とその関係性を認識する     Person_nextto_bicycle   Person_drinking_bottle     Person_riding_bicycle     Dog_lyingon_sofa1...
アプローチ1.    関係性も物体同様,1つの「クラス」と見なす.     なので,真に関係性を認識しているわけではない.2.    クラス間の位置関係を考慮して,      クラス別での認識結果を修正 (追加・削除)          1 ...
各クラスのモデル                                                                 粗めPCA-HOG   Deformable part model    [Felzenszwa...
各クラスの認識                               粗めHOG   細かめHOG (解像度2倍)Input image              Model (person)   18                  ...
クラス別認識結果の統合                           i番目のbounding boxを                           最終結果に使うかどうか? i番目のbounding boxの          ...
結果統合モデルの学習    Structured SVMの設計n番目の画像全体での                     仮説と正解とのハミング距離bounding boxes の評価値                      bound...
データセット                  http://vision.cs.uiuc.edu/phrasal/    Bingでphraseを検索,以降は手動作業…        25クラス = 8 objects + 17 phra...
関係性認識の精度が良くなります   精度が大きく向上した10 phrasesでのPR曲線22                   CVPR2011祭り (July 31, 2011)
関係性認識の精度が良くなります            多くのphrasesで            baselineを大きく上回る性能           どのような状況が得手/不得手           か,があまり明らかでない23     ...
物体認識の精度も少し良くなります     Deformable part model [Felzenszwalb+ PAMI2010]     (Baselineとなる物体検出器,page 10 参照)      Structured lear...
物体認識の精度も良くなります25         CVPR2011祭り (July 31, 2011)
さいごのまとめAkisato Kimura @ NTT CS Labs          Twitter ID: @_akisato
それでもやっぱりまだ足りない… 物体の動作が足りない → 第2論文でできたのはごく一部 風景を系統的に理解できない      → 物体・属性・関係性・動作の総合体,かなぁ                                   ...
Upcoming SlideShare
Loading in...5
×

CVPR2011祭り 発表スライド

3,189

Published on

7/31 Sun 開催予定のCVPR2011祭りの発表スライドを公開します.

Published in: Technology, Business
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,189
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
93
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

CVPR2011祭り 発表スライド

  1. 1. CVPR2011 Paper Digest(1) Interactive building a discriminative vocabulary of nameable attributes (2) Recognition using visual phrases Akisato Kimura @ NTT CS Labs Twitter ID: @_akisato
  2. 2. なぜこの2本を選んだのか? 「画像を理解する」をどう問題に落とす?  物体認識…? Person Horse [ Full description ] A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky. 物体認識をしただけでは, 実は何も理解できていない! (物体だけを認識する一般物体認識の終焉)2 CVPR2011祭り (July 31, 2011)
  3. 3. 何が足りないのか? (1) 物体などの属性が足りない  でも画像だけで Sky: clear Person: female 全部できる気がしない Horse: white [ Full description ] Beach: beautiful, sandy A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky. 第1論文の主題: 属性辞書をインタラクティブに学習3 CVPR2011祭り (July 31, 2011)
  4. 4. 何が足りないのか? (2) 物体間の関係性が足りない A person is wearing clothes. [ Full description ] A person is riding on a horse. A woman wearing a blue cloth and gray tights is riding on a white horse at a beautiful sandy beach under a clear sky. 第2論文の主題: 物体とその関係性をクラスと見なす認識4 CVPR2011祭り (July 31, 2011)
  5. 5. Interactively building a discriminative vocabulary of nameable attributesD. Parikh @ Toyota Technological Institute, Chicago K. Grauman @ University of Texas at Austin
  6. 6. やりたいこと 物体・シーンの属性の辞書・モデルを インタラクティブに構築する物体やシーンはそれぞれ違うラベルが付いているけど, 何か名前があるかも!何か傾向があるような気がする… 聞いてみよう!6 CVPR2011祭り (July 31, 2011)
  7. 7. アプローチ 物体クラスとは異なる類似性を見つけるクラス分類を壊さないような 2クラス識別面を見つける ユーザに見せる画像を 適切に選択 尤もらしい仮説だけを 選択して提示 7 CVPR2011祭り (July 31, 2011)
  8. 8. 類似性発見の方法Mixture of Probabilistic PCAs 教師なし(物体も属性も関係なし)ででモデル化,適切な仮説のみ選択 最大マージンクラスタリング 現在の属性辞書 現在の属性辞書で (この図では1つだけど 分離しにくい物体クラスの いっぱいあってもOK) 集合を見つける by normalized cuts 8 CVPR2011祭り (July 31, 2011)
  9. 9. 提示する画像の選択 識別面に直交する軸を等間隔に区切る区切った領域内で,識別面の真ん中に 最大マージンクラスタリングで得られた最も近いサンプルを選択 識別面 (=属性候補) 9 CVPR2011祭り (July 31, 2011)
  10. 10. ユーザに何を尋ねるか?• この属性の名前は? (以降はもし属性に名前があれば回答)• 左右,どちらに行くほどその特性が強くなるか?• この画像列がその属性を表現するものとして, どの程度尤もらしいか (4段階評価)?10 CVPR2011祭り (July 31, 2011)
  11. 11. データセット Outdoor scene recognition (OSR)  http://people.csail.mit.edu/torralba/code/spatialenvelope/ Animals with attributes (AWA)  http://attributes.kyb.tuebingen.mpg.de 共通事項  各データセットから8物体クラスを選択  1画像1クラスとなるように加工された画像もある  属性の種類は主旨(gist)と色に限定  インタラクションはMechanical Turk経由11 CVPR2011祭り (July 31, 2011)
  12. 12. クラス選択と仮説選択の効果 クラス選択 クラスのランダム選択や クラス選択なしに比べ, 意味ある仮説を適切に 選択できている 仮説選択仮説のランダム選択と 比較して, 意味ある仮説を適切に選択できている 12 CVPR2011祭り (July 31, 2011)
  13. 13. 全体としての効果 インタラクションを重ねれば, 属性辞書は着実に構築されます. なので,当然,認識精度も少し向上します.13 CVPR2011祭り (July 31, 2011)
  14. 14. Recognition using visual phrasesM.A. Sadeghi @ Institute for Research in Fundamental Science A. Farhadi @ University of Illinois at Urbana-Champaign
  15. 15. やりたいこと 物体とその関係性を認識する Person_nextto_bicycle Person_drinking_bottle Person_riding_bicycle Dog_lyingon_sofa15 CVPR2011祭り (July 31, 2011)
  16. 16. アプローチ1. 関係性も物体同様,1つの「クラス」と見なす.  なので,真に関係性を認識しているわけではない.2. クラス間の位置関係を考慮して, クラス別での認識結果を修正 (追加・削除) 1 2 16 CVPR2011祭り (July 31, 2011)
  17. 17. 各クラスのモデル 粗めPCA-HOG Deformable part model [Felzenszwalb+ 2010]  PASCAL VOC 標準ソフト採用 物体パーツごとの細かめPCA-HOG bicycle パーツ位置ずれ/変形に対するコストFelzenszwalb et al. “Object Detection with Discriminatively Trained Part BasedModels,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/ 17 CVPR2011祭り (July 31, 2011)
  18. 18. 各クラスの認識 粗めHOG 細かめHOG (解像度2倍)Input image Model (person) 18 CVPR2011祭り (July 31, 2011)
  19. 19. クラス別認識結果の統合 i番目のbounding boxを 最終結果に使うかどうか? i番目のbounding boxの クラス インデックスperson person i番目使わない → all 0 のベクトル person bag i番目使う → i番目のbounding boxの特徴表現 クラス別に,位置関係・尤度・サイズ比等を考慮した 「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ) 識別軸 w でクラス判別を行う線形(structured)SVM 19 CVPR2011祭り (July 31, 2011)
  20. 20. 結果統合モデルの学習  Structured SVMの設計n番目の画像全体での 仮説と正解とのハミング距離bounding boxes の評価値 bounding boxの 使用/不使用に関する仮説  仮説最適化と目的関数最大化の繰り返しで学習 20 CVPR2011祭り (July 31, 2011)
  21. 21. データセット http://vision.cs.uiuc.edu/phrasal/  Bingでphraseを検索,以降は手動作業…  25クラス = 8 objects + 17 phrases  画像 2769枚 (822枚 = negative examples)  各クラス 平均120枚のpositives  5067 bounding boxes (phrases:1796, objects:3271) Dog jumpingPerson drinking bottle Person lying on sofa 21 CVPR2011祭り (July 31, 2011)
  22. 22. 関係性認識の精度が良くなります 精度が大きく向上した10 phrasesでのPR曲線22 CVPR2011祭り (July 31, 2011)
  23. 23. 関係性認識の精度が良くなります 多くのphrasesで baselineを大きく上回る性能 どのような状況が得手/不得手 か,があまり明らかでない23 CVPR2011祭り (July 31, 2011)
  24. 24. 物体認識の精度も少し良くなります Deformable part model [Felzenszwalb+ PAMI2010] (Baselineとなる物体検出器,page 10 参照) Structured learning for multi-class object layout [Desai+ ICCV2010] (scoring functionを使った物体関係モデルを用いた検出器)24 CVPR2011祭り (July 31, 2011)
  25. 25. 物体認識の精度も良くなります25 CVPR2011祭り (July 31, 2011)
  26. 26. さいごのまとめAkisato Kimura @ NTT CS Labs Twitter ID: @_akisato
  27. 27. それでもやっぱりまだ足りない… 物体の動作が足りない → 第2論文でできたのはごく一部 風景を系統的に理解できない → 物体・属性・関係性・動作の総合体,かなぁ Beach = sky(upper) + water(middle) + sand(lower)?? A horse is galloping. 説明文自体を直接生成する Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM201127 CVPR2011祭り (July 31, 2011)
  1. Gostou de algum slide específico?

    Recortar slides é uma maneira fácil de colecionar informações para acessar mais tarde.

×