cvpaper.challenge@CVPR2015(Dataset)

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Dataset

新規性・差分
概要
シーン認識SUN397をRGB-Dデータに拡張したSUN
RGB-Dを提案．SUN RGB-Dでは屋内環境のシーン認
識やセグメンテーションなど複数のチャレンジを設
定している．
屋内環境データセットにて，大規模なデ
ータを構築した．
Shuran Song, Samuel P. Lichtenberg, Jianxiong Xiao, “SUN RGB-D: A RGB-D Scene Understanding
Benchmark Suite”, in CVPR, 2015.
【1】
Links
データセットの概要
屋内環境を3次元で捉えた大規模データセットとし
て提案した．総計で10,335枚ものRGB-D画像を取
得しており，Scene Categorization, Semantic
Segmentation, Object Detection, Room Layout
Estimation, Total Scene Understanding といった3次
元シーン認識における重要な課題を含んでいる．
次ページにデータセットの画像あり．
論文 http://rgbd.cs.princeton.edu/paper.pdf
プロジェクト (動画，データセットなどあり)
http://rgbd.cs.princeton.edu/

3次元物体検出やアライメント推定の例
データセットの概要や2Dセグメンテーション，3Dアノテーション等
レイアウト推定の例

新規性・差分
データセットの概要概要
コンピュータビジョンが大きく進歩しているにも関わら
ず，医療画像に関しての試みがない．そのため医用画像を
入力として，画像説明文を生成する研究をした．これは今
後電子カルテにより病気の予測にも繋がることを示した．
これまで画像認識から医療の分野に関連付ける研究は行なわ
れてこなかった．
CNNによる学習により，画像からドキュメント中のトピッ
クをマッピングする．
実装面ではAlexNetやVGGの適用しているが，より深いモデ
ルである19層のVGGの方が精度が良いことが判明した
大規模なPACSデータベース(780Kの画
像)
画像例は次ページ
Latent Dirichlet Allocation(LDA)によりカ
テゴリ分けするドキュメント・センテン
スの種類を780Kのテキストデータと放
射線画像からマイニングして単語群を抽
出する．
H.-C. Shin, L. Lu, L. Kim, A. Seff, J. Yao, R. M. Summers, “tInterleaved Text/Image Deep Mining on a Large-Scale Radiology
Database”, in CVPR2015.
【2】
Links
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/
Shin_Interleaved_TextImage_Deep_2015_CVPR_paper.pdf
手法

結果生成した文章から，最も有益であると思われ
るものを抽出
データセット例

新規性・差分
手法
概要
実世界の材料を画像認識することは困難である。特
に問題なのあらゆる材質が交じり合った多くの表面
質感や形状そして証明条件が含まれる．
本論文では新たに大規模な材料のオープンデータ
セットを紹介しDNNとデータセットの組み合わせか
らコンテキストデータベース内の材料を画像より認
識する
これまでの画像のデータセットはFMDという10の素材か
ら取り出された100のサンプルが中規模のデータセットと
されていた．そして，そのデータセットより比較的大きい
データセットとしてOpenSufacesという10万5千の材料
データセットがあります．
しかし今回はMINCと呼ばれる300万の材料のデータ
セットサンプル画像を用いる．
新たなデータセットに異なるCNNをtrainigすることで材
料認証のデータとして使う．
パッチの分類結果をビルドし，条件付確立の画像上で密
に分類をすることで，画像の同時材料認識とセグメン
テーションをした．
Sean Bell, Paul Upchurch, Noah Snavely, Kavita Bala, “Material Recognition in the Wild with the Materials in Context
Database”, in CVPR2015.
【3】
MINCと呼ばれる300万の材料のサンプル画像
画像は次ページ

結果
Links
http://minc.cs.cornell..edu/.
http://www.cv-foundation.org/openaccess/
content_cvpr_2015/papers/
Bell_Material_Recognition_in_2015_CVPR_paper.pdf

新規性・差分
概要
コンピュータビジョンの分野において
ImageNet等の新しい大規模なデータ
セットは物体認識・検出に著しい性能を
得ている．
しかしデータセットを増やすのは人の労
働を増やしさらにクラス数の増加は，曖
昧な部分を分かりにくくする．
この論文では大規模なデータセットを作
るうえでコンピュータビジョン分野にお
ける高品質なデータセットを構築する術
を紹介する
Grant Van Horn, Steve Branson, Ryan Farrell, Scott Haber, Jessie Barry, Panos Ipeirotis, Pietro Perona,
Serge Belongie, , “Building a bird recognition app and large scale dataset with citizen scientists: The fine
print in fine-grained dataset collection”, in CVPR2015.
【4】
Links
http://www.cv-foundation.org/
openaccess/content_cvpr_2015/papers/
Bell_Material_Recognition_in_2015_CV
PR_paper.pdf
鳥の画像データセットの提案(NABirds)．
画像総枚数：48,562
カテゴリー：555
また，各画像には鳥の部位のAnnotationも入っている(羽根や嘴
など)．
データセットは次のページに載せる

データセット例結果
単一のドメイン内で鳥類に焦点を当てるこ
とで，鳥類の同定のための新しい公的な
ツールとなっている

新規性・差分
概要
歩行者を見地することえの感心が高ま
り，過去数十年に渡って歩行者のデータ
セットは研究の対象となっている．
既存のデータではカラーチャンネルに焦
点を当て暗い環境にも対応できる熱
channelにほとんど焦点が当てられてこ
なかった．
KAISTマルチスペクトルの歩行者のデー
タセットは、車両から撮影した95Kカ
ラー熱ペア（640×480、20Hzの）で構成
されています。
103,128の密なアノテーション
1182の歩行者に対して人，人々，cyclist
と手動でパラメータを付加
データセット例は次のページに記載
Soonmin Hwang, Jaesik Park, Namil Kim, Yukyung Choi, In So Kweon, “Multispectral Pedestrian
Detection: Benchmark Dataset and Baseline”, inCVPR2015.
【5】
Links
https://www.youtube.com/watch?
v=2pNg7wce_SY
https://sites.google.com/site/
pedestrianbenchmark/home
openaccess/content_cvpr_2015/html/
Hwang_Multispectral_Pedestrian_Detect
ion_2015_CVPR_paper.html
ビームスプリッターベースの特殊なハー
ドウェアによって補足されたカラーと熱
画像のペア，マルチスペクトル歩行者
データセット
KAISTマルチスペクトルの歩行者のデー
タセットは、車両から撮影した95Kカ
ラー熱ペア（640×480、20Hzの）で構成
されている。

本研究のベースラインの1つは誤検出率の平均を15％
を低下できた．色のみの歩行者検出より，色-熱のマ
ルチスペクトル画像による歩行者検出の方が性能良
かった
本研究では色と熱のペアを提供する配列され
た多重スペクトル画像の歩行者データセット
を提案している

新規性・差分
概要
このコンピュータビジョン分野において
クラウドモデルのトピックは非常に単一
化されている通常単一クラウドの類型を
想定している．
今回人々によって形成されている特定の
カテゴリや，観客という群集に焦点を当
て一般的に広く受け入れられている分類
法をしようする．
Davide Conigliaro, Paolo Rota, Francesco Setti, Chiara Bassetti, Nicola Conci, Nicu Sebe, Marco
Cristani, “The S-HOCK Dataset: Analyzing Crowds at the Stadium ”, in CVPR2015.
【6】
Links
http://vips.sci.univr.it/dataset/shock/
openaccess/content_cvpr_2015/papers/
Conigliaro_The_S-
Hock_Dataset_2015_CVPR_paper.pdf
本論分では群集の中から特定の種類や観
客に頂点を当てている．
群集が見ている特定の対象の変化によっ
て変わる人それぞれの反応を見る．
群集の中の一人ひとりの反応や群集のク
ラスわけ，また，家族や恋人なのかクラ
スわけをする
データ収集としてイタリアで開催された
第26回冬季ユニバーシアード中に行なわ
れたアイスホッケーの4試合を用いた．
フルHDカメラ(1920×1080,30fps,焦点距
離4mm)の観覧席パノラマビューとは別
に5台のカメラ(1280×1024,30fps,焦点距
離12mm)を準備．それぞれ観客席の別々
の部分に焦点を当てている．
データセットは次ページに示す．

．．．．
アイスホッケーの試合見てる観客のデータセット

新規性・差分
手法
概要
私たちは物語を提案している
単一のコンピュータを用いて都市規模の
モデリング(数百万の画像)から世界規模の
モデリング(数千万の画像)まで大規模な
モーションフレームワークの構造をデー
タ拡張し最先端の技術で作成する
都市規模（1Mの画像）から世界規模データセット（∼
100M画像）までを3次元モデリングに表示できるよう
にする
データの関連付けは、このスケールでの最大の挑戦で
ある
J. Heinly, et al., "Reconstructing the World in Six Days", in CVPR2015.
【7】
Links
http://www.cs.unc.edu/~jheinly/
reconstructing_the_world.html
yahoo® Flickr® Dataset 一億枚の画像 14TB,
640x480 解像度
画像は次のページ
・データの関連付け(頑健性，拡張性，完全性)に
取り組む
・ディスクからの画像を連続して一度だけ画像読
み込む
・必要に限りメモリ内画像を保管する

150万の画像を登録するのに150時間かかった
Yahoo® Flickr® Dataset 一億枚の画像
14TB, 640x480 解像度

新規性・差分
概要
映画の言語的記述を提供し，さらに音声
を出すことで視覚障害者が映画を楽しめ
るようにしている．また，音声と視覚で
異なっている部分は赤く表記することで
着目しやすくしている
シーン，人の行動，対象となる物を認識
する最先端のコンピュータビジョンアル
ゴリズムと評価しており
新たなチャレンジデータセットにおける
ビデオの説明で有望な結果を達成してい
る
Anna Rohrbach, Marcus Rohrbach, Niket Tandon, Bernt Schiele, “A Dataset for Movie Description”,
CVPR 2015.
【8】
Links
https://www.mpi-inf.mpg.de/departments/
computer-vision-and-multimodal-computing/
research/vision-and-language/mpii-movie-
description-dataset/
http://arxiv.org/abs/1501.02530
動画のデータセットは72HDのムービー
から54000以上にのぼる文章と映像の断
片的な対訳言語が含まれているもの
手法
特徴量としては，Dense Traj.(Trajectory, HOG,
HOF, MBH), CNNによりクラスわけされた7604種
の物体クラスと205種のplaceクラスである

．．．．
音声文と動画説明文を比較して誤りを訂正することも可能で
ある．誤りは下図の赤文字で示されている．

新規性・差分
概要
オブジェクト認識としてこれまであまり
比較されてこなかった「車」を中心とし
たビジョン関連のタスクを協調する．
車にはいくつかのユニークな特性が存在
する．それは多くの課題を提供し，オブ
ジェクト分類における新規の研究課題の
幅を促進する．具体的に車のデータセッ
トは大量に必要でこのカテゴリ以外での
モデルは存在しない．そのためより
challengingな細かい作業を可能にする．
車のデータセットを提案している．
データセットやカーモデル分類，車のモ
デルの検証，attribute予測
【9】
Links
今回の車のデータセットはweb-natureと
sureveillance-natureからなる二つのシナ
リオを含むデータでなりたっている．
以下にデータの概要を示す．
データ例は次ページに示す
Linjie Yang, Ping Luo, Chen Change Loy, Xiaoou Tang, “A Large-Scale Car Dataset for Fine-Grained
Categorization and Verification” in CVPR, 2015.
条件画像枚数
車の全体 136,727
車の部分 27,618
監視カメラ 50,000
content_cvpr_2015/papers/Yang_A_Large-
Scale_Car_2015_CVPR_paper.pdf

結果
Links
http://mmlab.ie.cuhk.edu.hk/datasets/
comp_cars/index.html
6つの観点「front(F)，rear(R), side(S), front-side(FR),
rear-side(RS), All-View」から「RS」と「FS」の視点
モデルが他のモデルより優れた性能であったそれらを
要約したものを以下の表に示す．そしてどの観点から
でもCNNは驚くべき結果を見せた．

新規性・差分
概要
行動認識に関しても，ImageNetのように大規模
化を図り，ActivityNetを構築した．
現在までの行動認識データセットでは，
あるドメインに限定していたが，ここで
はデータや行動のバリエーションを格段
に増加させた．
Fabian Caba, Victor Escorcia, Bernard Ghanem, Juan Carlos Niebles, “ActivityNet: A Large-Scale Video
Benchmark for Human Activity Understanding”, in CVPR, 2015.
【10】
Links
従来までの行動認識のデータセットは単純な行動に限定
されていたが，ここではさらにバリエーションやトリミ
ングされていない行動データを拡張することで，行動認
識の認識率や行動位置まで含めた認識(行動検出)の研究を
加速させようとする試み．さらに難しい問題設定もでき
るよう，膨大なデータを準備した．データは階層的に構
成されており，より上位の行動クラスの方がより長い行
動(イベントに近い)を示す傾向にある．ここで，トリミン
グされたデータは203クラス，トリミングされていないデ
ータは137クラス，合計849時間もの行動データを含んで
いる．
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2015/
papers/Heilbron_ActivityNet_A_Large-
Scale_2015_CVPR_paper.pdf
プロジェクト http://activity-net.org/

結果
行動の例
階層化された行動
Improved Dense Trajectories (IDT)や
Convolutional Neural Networks (CNN)特徴
量を用いた行動認識．IDTはHOG, HOF,
MBHから構成され，統合された特徴量が
Motion Feature (MF)，CNNは第6,7,8層を統
合したものがDeep Feature (DF)である．
Static FeatureはSIFT+Fisher Vectorによる
ベクトル表現である．全てを統合したMF
+DF+SFを用いてテストセットにて識別した
結果，トリミングされていないデータで
42.2%，トリミングありのデータで50.2%の
精度を達成した．

新規性・差分
概要
行動間の共起性を推定する問題設定．行動やその
共起性を教師なしにより学習．学習にはトピック
モデリングを適用しており，行動の抽出からルー
ルの発見まで行った．
行動間の共起性を発見するWatch-n-
Patch datasetを考案した．
C. Wu, j. Zhang, S. Savarese, A. Saxena, “Watch-n-Patch: Unsupervised Understanding of Actions and
Relations”, in CVPR2015
【11】
Links
データは屋内環境にて撮影されており，officeシーンやkitchen
シーンに分割されている．データは”turn-on-monitor”, “reading”,
“fetch-from-fridge”など比較的単純な行動が含まれており，それ
らが順不動で並んでいる．その中から一定の規則性(e.g. 冷蔵庫
から「取り出す」と「入れる」の共起性)を見出すことを一つの
チャレンジとした．
論文
http://www.cs.cornell.edu/~chenxiawu/papers/
wpatch_wu_cvpr2015.pdf
プロジェクトページ (データセット)
http://watchnpatch.cs.cornell.edu/

新規性・差分
概要
行動をするもの(Actor)と行動(Action)に
予め属性を対応付けた行動認識のデータ
セットを提案．
Actor-Actionのマトリックスにて属性を
表している．人間のみならず，動物など
の属性とその可能な行動を対応付けた．
C. Xu, S.-H. Hsieh, C. Xiong, J. Corso, “Can Humans Fly? Action Understanding with Multiple Classes of
Actors”, in CVPR, 2015.
【12】
Links
下図のようにActor-Actionの対応付けを行った．Actorは7
種(adult, baby, ball, bird, car, cat, dog)でActionは8種(climb,
crawl, eat, fly, jump, roll, run, walk)である．全体では3782
もの動画が含まれている．
行動認識にはsupervoxelによるセグメンテーションを適用
した．
論文 http://web.eecs.umich.edu/~jjcorso/pubs/xu_corso_CVPR2015_A2D.pdf
プロジェクトページ(データセットあり) http://web.eecs.umich.edu/~jjcorso/r/a2d/
YouTubehttps://www.youtube.com/watch?v=2p6ZdQtEXGU

新規性・差分
概要
人物の位置推定のみならず，性別・年
齢・体重・服装などを推定する問題設定
として，データセットを公開した．
Fine-grainedな人物推定のためのデータ
セットを公開した．人物検出からさらに
踏み込んだ解析とする．
David Hall, Pietro Perona, “Fine-grained Classification of Pedestrians in Video: Benchmark and State of
the Art“, in CVPR2015.
【13】
Links
人物検出だけでなく，age, sex, activity, social status, health, pose, motion patterns な
どのタグを推定する問題を考える．ここでは，Caltech RoadsidePedestrian (CRP)
datasetを提案して，人物のfine-grainedな認識のためのデータを提供する．このデータ
セットには， 1. 27.454枚の人物画像とそのbounding boxや姿勢ラベルが付いている 2.
自然な動作の中から抽出されている(in the wild) 3. 視点が様々 4. カメラが動的 5. 屋外
の様々な背景や環境光下で撮影 6. 複数のサブカテゴリ- 年齢，服装，体型 7. 詳細なア
ノテーション (年齢5種類，性別など) 8. 全て公開データなお，全ての映像はGoPro
Hero3にて撮影されている．下はラベルや人物の推定クラスに関する図である．
論文
content_cvpr_2015/papers/Hall_Fine-
Grained_Classification_of_2015_CVPR_paper.pdf
プロジェクト
http://vision.caltech.edu/~dhall/projects/CRP/

従来法による姿勢推定の結果は下記の通りである．
画像の例を示す．姿勢推定の結果を表示している．

新規性・差分
視覚的な”常識”を認識する課題．通常の画像生成分では見
逃されている部分を，詳細に認識することで，よりイメー
ジしやすい文章を生成する．
X. Lin, D. Parikh, “Don’t Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-
Visual Tasks“, in CVPR2015. 1507-137
【14】
Links
PDF:https://filebox.ece.vt.edu/~linxiao/imagine/
Posterhttps://filebox.ece.vt.edu/~linxiao/imagine/site_data/Poster.pdf
Dataset:https://filebox.ece.vt.edu/~linxiao/imagine/
通常の画像生成分では見逃されている部分を，詳細に認識
することで，よりイメージしやすい文章を生成している．
例えば，下図の2枚の画像では黒文字の同じ文章出力され
る．しかし，実際には画像は異なっている．そこで，赤文
字や橙文字のような暗黙的にわかる部分を詳細に出力し，
イメージしやすくしている．
Two children playing in th park
58 object
7 pose and 5 expressions

データセットの例結果

新規性・差分
汎用的な3D形状表現方法を考案している．
Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, J. Xiao, “3D ShapeNets: A Deep Representation for
Volumetric Shapes“, in CVPR2015. 1507- 148
【15】
Links
PDF:http://3dshapenets.cs.princeton.edu/paper.pdf
Project: http://3dshapenets.cs.princeton.edu/
形状表現についてはhand-codingではなく，データドリブンで3次元形状
を学習．このために，3Dボクセルに区切られたデータから3次元形状の
分布を確率として表現する．それぞれの3Dメッシュはバイナリテンソル
として表現される．1=>ボクセルはメッシュ表面の内側に，0=>ボクセ
ルはメッシュの外側に存在すると表現．Convolutional Deep Belief
Network (CDBN)を用いて複雑な3次元形状の確率分布学習する．CDBN
は畳み込み層や全結合層により構成されており，プーリング層は含まれ
ていないものとする．CDBNの学習が済んで3次元形状に対するpre-
trainedモデルが構成できたら，ボクセルデータxと物体のカテゴリの同
時確率であるp(x,y)を学習する．
ModelNetは3DのCADモデルから構成されていて，151,128
の3D CADの物体が含まれていて，ユニークカテゴリ数は
660である．

データセットの例
結果

新規性・差分
CNNやRNNを用いて画像説明文を解くという方法は考えら
れているが，より「人間らしい」(human-likeness)説明文
という評価方法について検討している．提案手法では，
CIDEr(Consensus-based Image Description Evaluation)と
呼ばれる自動評価方法を提案し，PASCAL-50Sと
ABSTRACT-50Sと2つのデータセットを公開している．
R. Vedantam, C. L. Zitnick, D. Parikh, “CIDEr: Consensus-based Image Description Evaluation”, in
CVPR2015. 1508-10
【16】
Links
PDF:
Vedantam_CIDEr_Consensus-Based_Image_2015_CVPR_paper.pdf
Project: http://ramakrishnavedantam928.github.io/cider/
従来の画像説明文に加え，人間らしさを評価方法として検
討している．
それぞれのデータセットに対して50の説明文がアノテー
ションされており，コンセンサス(同意)をベースとして評
価することとする．CIDErによる評価では，n-gram行列を
計算しておき，candidate sentenceとreference
sentences(予めデータセットに含まれる)の比較により
cosine similarityが計算される．より多くの人がアノテー
ションした説明文を保持し，それらコンセンサスから計算
する指標を考案することで，より「人間らしい」画像説明
文の評価ができるようになった．

新規性・差分
概要
屋内のレイアウトを推定する手法・データセットの提案
(Rant3D)．レイアウト推定は，エネルギー最小化によって
最適解を導いている．
各レイアウト(ドアや窓など)についてエネルギー関数を定
義している．
X. Lin, D. Parikh, “Don’t Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-
Visual Tasks“, in CVPR2015. 1507-137
【17】
Links
PDF:
Liu_Rent3D_Floor-Plan_Priors_2015_CVPR_paper.pdf
Project: http://www.cs.toronto.edu/~fidler/projects/rent3D.html
データセットには，部屋・壁・ドア・窓などがあり，各場
所の情報も付加されている．

ご質問，コメント等ありましたら
cvpaper.challenge[at]gmail[dot]com / Twitter@CVPaperChalleng までお願いします．

cvpaper.challenge@CVPR2015(Dataset)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (15)

Similar to cvpaper.challenge@CVPR2015(Dataset)

Similar to cvpaper.challenge@CVPR2015(Dataset) (20)

cvpaper.challenge@CVPR2015(Dataset)