More Related Content
Similar to 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット) (20)
More from Akisato Kimura (20)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
- 2. データセット
研究を進める上でとても重要.
他の人の研究を実装しなくても,精度評価ができる.
自分の研究をする上で,利点・弱点が見えやすくなる.
その一方で,過信は禁物.
Torralba & Efros “Unbiased look at data bias”, CVPR2011
(Cf. 原田先生の関東CV講演資料 http://www.isi.t.u-tokyo.ac.jp/~harada/pdf/trend_in_scene_object_recognition_cvpr2011.pdf)
2 関西CVPRML勉強会 2012.2.18
- 3. これからデータセットを紹介しますが
とにかく大量にあります.
漏れがあったら教えて下さい.絶対に漏れがあります.
目的も非常に多様です.
一般物体認識,画像アノテーション,属性認識,
物体領域検出,物体領域抽出,…
羅列するだけだとつまらないので
中身を見ながら,どうやって使っていければ面白いか,
どんなものがあると良いのか,議論できれば,と思います.
あわよくば,へーしゃで作って公開できれば… と妄想
3 関西CVPRML勉強会 2012.2.18
- 4. 統制された小規模データセット(1)
Columbia Object Image Library (COIL-20/100)
http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php
http://www.cs.columbia.edu/CAVE/software/softlib/coil-100.php
特定物体認識 (7.2K/36K枚,20/100クラス)
Corel 5K (注: 商用画像のため,画像そのものはon-lineでは取れません)
http://lear.inrialpes.fr/people/guillaumin/data.php
画像アノテーション (5K枚)
Caltech 101/256
http://www.vision.caltech.edu/Image_Datasets/Caltech101/
http://www.vision.caltech.edu/Image_Datasets/Caltech256/
一般物体認識 (~30K枚,101/256クラス)
PASCAL Visual Object Classes (VOC) Challenge
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
一般物体認識/検出 (15K枚,20クラス)/領域分割 : 一般物体認識のdefacto
4 関西CVPRML勉強会 2012.2.18
- 5. 統制された小規模データセット(1)
IAPR TC-12
http://www.imageclef.org/photodata
画像アノテーション (20K枚,20クラス),画像説明文生成
MSRC
http://research.microsoft.com/en-us/projects/objectclassrecognition/default.aspx
一般物体認識 (10K枚)/領域抽出 (830枚,32クラス) : 領域抽出のdefacto
LSP15
http://www.cs.unc.edu/~lazebnik/
シーン認識 (4.5K枚,15クラス) : シーン認識のdefacto
MIT Indoor 67
http://web.mit.edu/torralba/www/indoor.html
シーン認識
5 関西CVPRML勉強会 2012.2.18
- 6. 統制された中規模データセット
LabelMe http://labelme.csail.mit.edu/
タスク: 画像アノテーション (200K枚,70Kクラス)
ImageNet Large Sale Visual Recognition Challenge
http://www.image-net.org/challenges/LSVRC/2011/
タスク: 一般物体認識/検出 (1.15M枚,1Kクラス)
一般物体認識を対象とした統制データセットでは最大規模
NUS-WIDE http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
タスク: 画像アノテーション (300K枚,5Kクラス)
ImageCLEF Wikipedia Image Retrieval Datasets
http://www.imageclef.org/wikidata
タスク: 画像アノテーション,画像説明文生成 (200K枚,50クラス)
SUN397 http://people.csail.mit.edu/jxiao/SUN/
タスク: シーン認識 (130K枚,900クラス) : おそらく今後のシーン認識のdefacto
6 関西CVPRML勉強会 2012.2.18
- 7. 非統制の大規模データセット(0)
まずはここを見ましょう.
http://d.hatena.ne.jp/n_hidekey/20120115/1326613794
大規模データセットを作ること自体も研究課題に
以下では,ここに挙がっていないものを紹介します.
7 関西CVPRML勉強会 2012.2.18
- 8. 非統制の大規模データセット(1)
Visual Synset [GeorgiaTech + Google @ ICCV2011]
http://cpl.cc.gatech.edu/projects/VisualSynset/
タスク: 画像アノテーション (200M枚,300Kクラス)
ただし,アノテーション+画像URLだけの配布
8 関西CVPRML勉強会 2012.2.18
- 9. 非統制の大規模データセット(2)
Classemes [Dartmouth + MSRC @ ECCV2010]
http://www.cs.dartmouth.edu/~lorenzo/projects/classemes/
属性認識 (2.7Kクラス)
本来はdescriptor抽出のために作られたのだが…
Descriptorは超コンパクトで(比較的)高性能です
Walking,
9 straight 関西CVPRML勉強会 2012.2.18
- 10. 統制された大規模データセット
ImageNet [Prinston @ ICCV2009]
http://www.image-net.org/
タスク: 一般物体・シーン認識 (14M枚,20Kクラス)
クラスの概念的階層構造も公開 (WordNet対応)
10 関西CVPRML勉強会 2012.2.18
- 11. 映像データセット(1)
TREC Video Retrieval Evaluation (TRECVID)
http://trecvid.nist.gov/
統制された映像ベンチマークとして唯一無二の存在
2012 competitionで予定されているタスク
SIN : 所定の単語に適合する映像区間を探す
このタスクが最も一般物体認識に近い
KIS : 所定の文章に適合する映像区間を探す
SED : 所定の人物行動を含む映像区間を探す
INS : 所定の画像サンプルと同クラスの映像区間を探す
このタスクも一般物体認識に関連する
MED : 所定のイベントに適合する映像区間を探す
11 関西CVPRML勉強会 2012.2.18
- 12. 映像データセット(2)
YouTube data http://netsg.cs.sfu.ca/youtubedata/
YouTube APIから回収したメタデータを整理して提供
ので,映像そのものは自分で取りに行かないといけない
12 関西CVPRML勉強会 2012.2.18
- 13. 画像検索API
画像をたくさん集めたいだけならば,活用しない手はない.
Yahoo!
http://developer.yahoo.com/search/image/V1/imageSearch.html
Google Picasa
http://code.google.com/intl/ja/apis/picasaweb/overview.html
画像検索API http://developers.google.com/image-search は廃止予定
Bing
http://www.bing.com/toolbox/bingdeveloper/
検索系APIが一体になっている
Yahoo! Japan
http://developer.yahoo.co.jp/webapi/search/imagesearch/v2/ima
gesearch.html
YouTube
http://code.google.com/intl/ja/apis/youtube/overview.html
13 関西CVPRML勉強会 2012.2.18
- 14. Social annotation
単純画像/映像共有系
Flickr http://www.flickr.com
Picasa http://picasa.google.com/intl/ja/
YouTube http://www.youtube.com
位置情報共有系
Foursquare http://ja.foursquare.com
Panoramio http://www.panoramio.com
Social media直結
Twitpic http://twitpic.com
Photobucket http://photobucket.com (Twitterバックエンド)
mixiフォト http://photo.mixi.jp
Instagram http://instagr.am
画ちゃんこ! http://gotchanco.com
14 関西CVPRML勉強会 2012.2.18
- 15. まとめ と称した雑感(1)
一般物体認識を含めた認識系は
とても赤い海
一般物体認識は機械学習手法のベンチマークへ
にも関わらず,本質的な問題は未解決のまま
属性認識・転移学習がこの1年くらいの中心に
と言っても,そう長く持つほどの分野でもなさそう
Social mediaとの連携は,近いうちに間違いなく訪れる.
純粋なsocial media研究との違いを出せるか? が課題
その次は何か? ないかもしれない.
15 関西CVPRML勉強会 2012.2.18
- 16. まとめ と称した雑感(2)
にもかかわらず,一方では 課題山積
(注:MS PPT内蔵GrabCutの結果)
実は,決め手となる応用先が見つかっていない.
同じ問題にみんなが群がるのはその影響?
大規模化と信頼性とのトレードオフからどう脱却するか?
正解データを作るための苦労は果てしない
Amazon MTの結果をきれいにするためのAmazon MTの結果をきれ
いにするためのAmazon MTの結果をきうわなにをするや
そもそも,画像を見てみんな同じタグをつけるの?
認識の過程には避けようがない不定性がある
16 関西CVPRML勉強会 2012.2.18
- 17. 参考文献
原田達也
“CVPR2011における一般物体シーン認識のトレンド,”
第14回関東CV勉強会 http://ow.ly/9984J
n_hidekeyの日記 http://d.hatena.ne.jp/n_hidekey/
次世代BoVWまとめ,大規模画像データセット,Paper
Gestalt など,その他にも興味深い記事があります.
高橋昌一郎 「知性の限界」 講談社
http://amazon.jp/dp/4062880482/
認識過程にある不定性について理解できます.
書評 http://blog.livedoor.jp/dankogai/archives/51437132.html
17 関西CVPRML勉強会 2012.2.18