More Related Content Similar to cvpaper.challenge@CVPR2015(Dataset)
Similar to cvpaper.challenge@CVPR2015(Dataset) (20) cvpaper.challenge@CVPR2015(Dataset)2. 新規性・差分
概要
シーン認識SUN397をRGB-Dデータに拡張したSUN
RGB-Dを提案.SUN RGB-Dでは屋内環境のシーン認
識やセグメンテーションなど複数のチャレンジを設
定している.
屋内環境データセットにて,大規模なデ
ータを構築した.
Shuran Song, Samuel P. Lichtenberg, Jianxiong Xiao, “SUN RGB-D: A RGB-D Scene Understanding
Benchmark Suite”, in CVPR, 2015.
【1】
Links
データセットの概要
屋内環境を3次元で捉えた大規模データセットとし
て提案した.総計で10,335枚ものRGB-D画像を取
得しており,Scene Categorization, Semantic
Segmentation, Object Detection, Room Layout
Estimation, Total Scene Understanding といった3次
元シーン認識における重要な課題を含んでいる.
次ページにデータセットの画像あり.
論文 http://rgbd.cs.princeton.edu/paper.pdf
プロジェクト (動画,データセットなどあり)
http://rgbd.cs.princeton.edu/
8. 新規性・差分
概要
コンピュータビジョンの分野において
ImageNet等の新しい大規模なデータ
セットは物体認識・検出に著しい性能を
得ている.
しかしデータセットを増やすのは人の労
働を増やしさらにクラス数の増加は,曖
昧な部分を分かりにくくする.
この論文では大規模なデータセットを作
るうえでコンピュータビジョン分野にお
ける高品質なデータセットを構築する術
を紹介する
Grant Van Horn, Steve Branson, Ryan Farrell, Scott Haber, Jessie Barry, Panos Ipeirotis, Pietro Perona,
Serge Belongie, , “Building a bird recognition app and large scale dataset with citizen scientists: The fine
print in fine-grained dataset collection”, in CVPR2015.
【4】
Links
http://www.cv-foundation.org/
openaccess/content_cvpr_2015/papers/
Bell_Material_Recognition_in_2015_CV
PR_paper.pdf
データセットの概要
鳥の画像データセットの提案(NABirds).
画像総枚数:48,562
カテゴリー:555
また,各画像には鳥の部位のAnnotationも入っている(羽根や嘴
など).
データセットは次のページに載せる
12. 新規性・差分
概要
このコンピュータビジョン分野において
クラウドモデルのトピックは非常に単一
化されている通常単一クラウドの類型を
想定している.
今回人々によって形成されている特定の
カテゴリや,観客という群集に焦点を当
て一般的に広く受け入れられている分類
法をしようする.
Davide Conigliaro, Paolo Rota, Francesco Setti, Chiara Bassetti, Nicola Conci, Nicu Sebe, Marco
Cristani, “The S-HOCK Dataset: Analyzing Crowds at the Stadium ”, in CVPR2015.
【6】
Links
http://vips.sci.univr.it/dataset/shock/
http://www.cv-foundation.org/
openaccess/content_cvpr_2015/papers/
Conigliaro_The_S-
Hock_Dataset_2015_CVPR_paper.pdf
データセットの概要
本論分では群集の中から特定の種類や観
客に頂点を当てている.
群集が見ている特定の対象の変化によっ
て変わる人それぞれの反応を見る.
群集の中の一人ひとりの反応や群集のク
ラスわけ,また,家族や恋人なのかクラ
スわけをする
データ収集としてイタリアで開催された
第26回冬季ユニバーシアード中に行なわ
れたアイスホッケーの4試合を用いた.
フルHDカメラ(1920×1080,30fps,焦点距
離4mm)の観覧席パノラマビューとは別
に5台のカメラ(1280×1024,30fps,焦点距
離12mm)を準備.それぞれ観客席の別々
の部分に焦点を当てている.
データセットは次ページに示す.
20. 新規性・差分
概要
行動認識に関しても,ImageNetのように大規模
化を図り,ActivityNetを構築した.
現在までの行動認識データセットでは,
あるドメインに限定していたが,ここで
はデータや行動のバリエーションを格段
に増加させた.
Fabian Caba, Victor Escorcia, Bernard Ghanem, Juan Carlos Niebles, “ActivityNet: A Large-Scale Video
Benchmark for Human Activity Understanding”, in CVPR, 2015.
【10】
Links
データセットの概要
従来までの行動認識のデータセットは単純な行動に限定
されていたが,ここではさらにバリエーションやトリミ
ングされていない行動データを拡張することで,行動認
識の認識率や行動位置まで含めた認識(行動検出)の研究を
加速させようとする試み.さらに難しい問題設定もでき
るよう,膨大なデータを準備した.データは階層的に構
成されており,より上位の行動クラスの方がより長い行
動(イベントに近い)を示す傾向にある.ここで,トリミン
グされたデータは203クラス,トリミングされていないデ
ータは137クラス,合計849時間もの行動データを含んで
いる.
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2015/
papers/Heilbron_ActivityNet_A_Large-
Scale_2015_CVPR_paper.pdf
プロジェクト http://activity-net.org/
21. データセット例
結果
行動の例
階層化された行動
Improved Dense Trajectories (IDT)や
Convolutional Neural Networks (CNN)特徴
量を用いた行動認識.IDTはHOG, HOF,
MBHから構成され,統合された特徴量が
Motion Feature (MF),CNNは第6,7,8層を統
合したものがDeep Feature (DF)である.
Static FeatureはSIFT+Fisher Vectorによる
ベクトル表現である.全てを統合したMF
+DF+SFを用いてテストセットにて識別した
結果,トリミングされていないデータで
42.2%,トリミングありのデータで50.2%の
精度を達成した.
24. 新規性・差分
概要
行動をするもの(Actor)と行動(Action)に
予め属性を対応付けた行動認識のデータ
セットを提案.
Actor-Actionのマトリックスにて属性を
表している.人間のみならず,動物など
の属性とその可能な行動を対応付けた.
C. Xu, S.-H. Hsieh, C. Xiong, J. Corso, “Can Humans Fly? Action Understanding with Multiple Classes of
Actors”, in CVPR, 2015.
【12】
Links
データセットの概要
下図のようにActor-Actionの対応付けを行った.Actorは7
種(adult, baby, ball, bird, car, cat, dog)でActionは8種(climb,
crawl, eat, fly, jump, roll, run, walk)である.全体では3782
もの動画が含まれている.
行動認識にはsupervoxelによるセグメンテーションを適用
した.
論文 http://web.eecs.umich.edu/~jjcorso/pubs/xu_corso_CVPR2015_A2D.pdf
プロジェクトページ(データセットあり) http://web.eecs.umich.edu/~jjcorso/r/a2d/
YouTubehttps://www.youtube.com/watch?v=2p6ZdQtEXGU
26. 新規性・差分
概要
人物の位置推定のみならず,性別・年
齢・体重・服装などを推定する問題設定
として,データセットを公開した.
Fine-grainedな人物推定のためのデータ
セットを公開した.人物検出からさらに
踏み込んだ解析とする.
David Hall, Pietro Perona, “Fine-grained Classification of Pedestrians in Video: Benchmark and State of
the Art“, in CVPR2015.
【13】
Links
データセットの概要
人物検出だけでなく,age, sex, activity, social status, health, pose, motion patterns な
どのタグを推定する問題を考える.ここでは,Caltech RoadsidePedestrian (CRP)
datasetを提案して,人物のfine-grainedな認識のためのデータを提供する.このデータ
セットには, 1. 27.454枚の人物画像とそのbounding boxや姿勢ラベルが付いている 2.
自然な動作の中から抽出されている(in the wild) 3. 視点が様々 4. カメラが動的 5. 屋外
の様々な背景や環境光下で撮影 6. 複数のサブカテゴリ- 年齢,服装,体型 7. 詳細なア
ノテーション (年齢5種類,性別など) 8. 全て公開データなお,全ての映像はGoPro
Hero3にて撮影されている.下はラベルや人物の推定クラスに関する図である.
論文
http://www.cv-foundation.org/openaccess/
content_cvpr_2015/papers/Hall_Fine-
Grained_Classification_of_2015_CVPR_paper.pdf
プロジェクト
http://vision.caltech.edu/~dhall/projects/CRP/
28. 新規性・差分
データセットの概要概要
視覚的な”常識”を認識する課題.通常の画像生成分では見
逃されている部分を,詳細に認識することで,よりイメー
ジしやすい文章を生成する.
X. Lin, D. Parikh, “Don’t Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-
Visual Tasks“, in CVPR2015. 1507-137
【14】
Links
PDF:https://filebox.ece.vt.edu/~linxiao/imagine/
Posterhttps://filebox.ece.vt.edu/~linxiao/imagine/site_data/Poster.pdf
Dataset:https://filebox.ece.vt.edu/~linxiao/imagine/
通常の画像生成分では見逃されている部分を,詳細に認識
することで,よりイメージしやすい文章を生成している.
例えば,下図の2枚の画像では黒文字の同じ文章出力され
る.しかし,実際には画像は異なっている.そこで,赤文
字や橙文字のような暗黙的にわかる部分を詳細に出力し,
イメージしやすくしている.
Two children playing in th park
58 object
7 pose and 5 expressions
30. 新規性・差分
データセットの概要概要
汎用的な3D形状表現方法を考案している.
Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, J. Xiao, “3D ShapeNets: A Deep Representation for
Volumetric Shapes“, in CVPR2015. 1507- 148
【15】
Links
PDF:http://3dshapenets.cs.princeton.edu/paper.pdf
Project: http://3dshapenets.cs.princeton.edu/
形状表現についてはhand-codingではなく,データドリブンで3次元形状
を学習.このために,3Dボクセルに区切られたデータから3次元形状の
分布を確率として表現する.それぞれの3Dメッシュはバイナリテンソル
として表現される.1=>ボクセルはメッシュ表面の内側に,0=>ボクセ
ルはメッシュの外側に存在すると表現.Convolutional Deep Belief
Network (CDBN)を用いて複雑な3次元形状の確率分布学習する.CDBN
は畳み込み層や全結合層により構成されており,プーリング層は含まれ
ていないものとする.CDBNの学習が済んで3次元形状に対するpre-
trainedモデルが構成できたら,ボクセルデータxと物体のカテゴリの同
時確率であるp(x,y)を学習する.
ModelNetは3DのCADモデルから構成されていて,151,128
の3D CADの物体が含まれていて,ユニークカテゴリ数は
660である.
32. 新規性・差分
データセットの概要概要
CNNやRNNを用いて画像説明文を解くという方法は考えら
れているが,より「人間らしい」(human-likeness)説明文
という評価方法について検討している.提案手法では,
CIDEr(Consensus-based Image Description Evaluation)と
呼ばれる自動評価方法を提案し,PASCAL-50Sと
ABSTRACT-50Sと2つのデータセットを公開している.
R. Vedantam, C. L. Zitnick, D. Parikh, “CIDEr: Consensus-based Image Description Evaluation”, in
CVPR2015. 1508-10
【16】
Links
PDF:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/
Vedantam_CIDEr_Consensus-Based_Image_2015_CVPR_paper.pdf
Project: http://ramakrishnavedantam928.github.io/cider/
従来の画像説明文に加え,人間らしさを評価方法として検
討している.
それぞれのデータセットに対して50の説明文がアノテー
ションされており,コンセンサス(同意)をベースとして評
価することとする.CIDErによる評価では,n-gram行列を
計算しておき,candidate sentenceとreference
sentences(予めデータセットに含まれる)の比較により
cosine similarityが計算される.より多くの人がアノテー
ションした説明文を保持し,それらコンセンサスから計算
する指標を考案することで,より「人間らしい」画像説明
文の評価ができるようになった.