関西CVPRML勉強会 2012.2.18 （一般物体認識 - データセット）

Bag-of-Featuresに基づく物体認識 (2)
－一般物体認識－の締め

Akisato Kimura @ NTT CS Labs.
Twitter ID: @_akisato

データセット
 研究を進める上でとても重要．
 他の人の研究を実装しなくても，精度評価ができる．
 自分の研究をする上で，利点・弱点が見えやすくなる．
 その一方で，過信は禁物．
 Torralba & Efros “Unbiased look at data bias”, CVPR2011

(Cf. 原田先生の関東CV講演資料 http://www.isi.t.u-tokyo.ac.jp/~harada/pdf/trend_in_scene_object_recognition_cvpr2011.pdf）

2 関西CVPRML勉強会 2012.2.18

これからデータセットを紹介しますが
 とにかく大量にあります．
 漏れがあったら教えて下さい．絶対に漏れがあります．
 目的も非常に多様です．
 一般物体認識，画像アノテーション，属性認識，
物体領域検出，物体領域抽出，…

 羅列するだけだとつまらないので
 中身を見ながら，どうやって使っていければ面白いか，
どんなものがあると良いのか，議論できれば，と思います．
 あわよくば，へーしゃで作って公開できれば… と妄想


統制された小規模データセット（１）
 Columbia Object Image Library (COIL-20/100)
http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php
http://www.cs.columbia.edu/CAVE/software/softlib/coil-100.php
 特定物体認識（7.2K/36K枚，20/100クラス）
 Corel 5K （注：商用画像のため，画像そのものはon-lineでは取れません）
http://lear.inrialpes.fr/people/guillaumin/data.php
 画像アノテーション（5K枚）
 Caltech 101/256
http://www.vision.caltech.edu/Image_Datasets/Caltech101/
http://www.vision.caltech.edu/Image_Datasets/Caltech256/
 一般物体認識（～30K枚，101/256クラス）
 PASCAL Visual Object Classes (VOC) Challenge
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
 一般物体認識/検出（15K枚，20クラス）/領域分割：一般物体認識のdefacto


統制された小規模データセット（１）
 IAPR TC-12
http://www.imageclef.org/photodata
 画像アノテーション（20K枚，20クラス），画像説明文生成
 MSRC
http://research.microsoft.com/en-us/projects/objectclassrecognition/default.aspx
 一般物体認識（10K枚）/領域抽出（830枚，32クラス）：領域抽出のdefacto
 LSP15
http://www.cs.unc.edu/~lazebnik/
 シーン認識（4.5K枚，15クラス）：シーン認識のdefacto
 MIT Indoor 67
http://web.mit.edu/torralba/www/indoor.html
 シーン認識


統制された中規模データセット
 LabelMe http://labelme.csail.mit.edu/
 タスク：画像アノテーション（200K枚，70Kクラス）
 ImageNet Large Sale Visual Recognition Challenge
http://www.image-net.org/challenges/LSVRC/2011/
 タスク：一般物体認識/検出（1.15M枚，1Kクラス）
 一般物体認識を対象とした統制データセットでは最大規模
 NUS-WIDE http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
 タスク：画像アノテーション（300K枚，5Kクラス）
 ImageCLEF Wikipedia Image Retrieval Datasets
http://www.imageclef.org/wikidata
 タスク：画像アノテーション，画像説明文生成（200K枚，50クラス）
 SUN397 http://people.csail.mit.edu/jxiao/SUN/
 タスク：シーン認識（130K枚，900クラス）：おそらく今後のシーン認識のdefacto


非統制の大規模データセット（０）
 まずはここを見ましょう．
http://d.hatena.ne.jp/n_hidekey/20120115/1326613794
 大規模データセットを作ること自体も研究課題に

以下では，ここに挙がっていないものを紹介します．


非統制の大規模データセット（１）
 Visual Synset [GeorgiaTech + Google @ ICCV2011]
http://cpl.cc.gatech.edu/projects/VisualSynset/
 タスク：画像アノテーション（200M枚，300Kクラス）
 ただし，アノテーション＋画像URLだけの配布


非統制の大規模データセット（２）
 Classemes [Dartmouth + MSRC @ ECCV2010]
http://www.cs.dartmouth.edu/~lorenzo/projects/classemes/
 属性認識（2.7Kクラス）
 本来はdescriptor抽出のために作られたのだが…
 Descriptorは超コンパクトで（比較的）高性能です

Walking,
9 straight 関西CVPRML勉強会 2012.2.18

統制された大規模データセット
 ImageNet [Prinston @ ICCV2009]
http://www.image-net.org/
 タスク：一般物体・シーン認識（14M枚，20Kクラス）
 クラスの概念的階層構造も公開（WordNet対応）


映像データセット（１）
 TREC Video Retrieval Evaluation (TRECVID)
http://trecvid.nist.gov/
 統制された映像ベンチマークとして唯一無二の存在
 2012 competitionで予定されているタスク
 SIN : 所定の単語に適合する映像区間を探す
 このタスクが最も一般物体認識に近い
 KIS : 所定の文章に適合する映像区間を探す
 SED : 所定の人物行動を含む映像区間を探す
 INS : 所定の画像サンプルと同クラスの映像区間を探す
 このタスクも一般物体認識に関連する
 MED : 所定のイベントに適合する映像区間を探す


映像データセット（２）
 YouTube data http://netsg.cs.sfu.ca/youtubedata/
 YouTube APIから回収したメタデータを整理して提供
 ので，映像そのものは自分で取りに行かないといけない


画像検索API
 画像をたくさん集めたいだけならば，活用しない手はない．
 Yahoo!
http://developer.yahoo.com/search/image/V1/imageSearch.html
 Google Picasa
http://code.google.com/intl/ja/apis/picasaweb/overview.html
 画像検索API http://developers.google.com/image-search は廃止予定
 Bing
http://www.bing.com/toolbox/bingdeveloper/
 検索系APIが一体になっている
 Yahoo! Japan
http://developer.yahoo.co.jp/webapi/search/imagesearch/v2/ima
gesearch.html
 YouTube
http://code.google.com/intl/ja/apis/youtube/overview.html

Social annotation
 単純画像/映像共有系
 Flickr http://www.flickr.com
 Picasa http://picasa.google.com/intl/ja/
 YouTube http://www.youtube.com
 位置情報共有系
 Foursquare http://ja.foursquare.com
 Panoramio http://www.panoramio.com
 Social media直結
 Twitpic http://twitpic.com
 Photobucket http://photobucket.com （Twitterバックエンド）
 mixiフォト http://photo.mixi.jp
 Instagram http://instagr.am
 画ちゃんこ！ http://gotchanco.com

まとめと称した雑感（１）
 一般物体認識を含めた認識系は

とても赤い海
 一般物体認識は機械学習手法のベンチマークへ
 にも関わらず，本質的な問題は未解決のまま
 属性認識・転移学習がこの1年くらいの中心に
 と言っても，そう長く持つほどの分野でもなさそう
 Social mediaとの連携は，近いうちに間違いなく訪れる．
 純粋なsocial media研究との違いを出せるか？が課題
 その次は何か？ないかもしれない．


まとめと称した雑感（２）
 にもかかわらず，一方では課題山積

（注：MS PPT内蔵GrabCutの結果）

 実は，決め手となる応用先が見つかっていない．
 同じ問題にみんなが群がるのはその影響？
 大規模化と信頼性とのトレードオフからどう脱却するか？
 正解データを作るための苦労は果てしない
 Amazon MTの結果をきれいにするためのAmazon MTの結果をきれ
いにするためのAmazon MTの結果をきうわなにをするや
 そもそも，画像を見てみんな同じタグをつけるの？
 認識の過程には避けようがない不定性がある


参考文献
 原田達也
“CVPR2011における一般物体シーン認識のトレンド，”
 第14回関東CV勉強会 http://ow.ly/9984J

 n_hidekeyの日記 http://d.hatena.ne.jp/n_hidekey/
 次世代BoVWまとめ，大規模画像データセット，Paper
Gestalt など，その他にも興味深い記事があります．
 高橋昌一郎「知性の限界」講談社
http://amazon.jp/dp/4062880482/
 認識過程にある不定性について理解できます．
 書評 http://blog.livedoor.jp/dankogai/archives/51437132.html


おしまい


関西CVPRML勉強会 2012.2.18 （一般物体認識 - データセット）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (7)

Similar to 関西CVPRML勉強会 2012.2.18 （一般物体認識 - データセット）

Similar to 関西CVPRML勉強会 2012.2.18 （一般物体認識 - データセット） (20)

More from Akisato Kimura

More from Akisato Kimura (20)

Recently uploaded

Recently uploaded (10)

関西CVPRML勉強会 2012.2.18 （一般物体認識 - データセット）