SlideShare a Scribd company logo
1 of 53
Download to read offline
cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Justin Johnson, Andrej Karpathy, Li Fei-Fei, “DnseCap: Fully Convolutional Localization Networks for
Dense Captioning”, in CVPR, 2016.
【1】
Keywords: Dense Captioning
新規性・差分
概要
画像の密なキャプショニングに関する研究.画像生成文を検出したbboxベー
スで行うという研究である.物体認識と物体検出のように,画像生成文と
Dense Captioningの関係性があると主張している.現在,10万の画像に対し
て5百万のキャプショニングのラベルがつけられたデータVisual Genomeを公
開して研究の推進に役立てている.Region Proposal ~ CNN ~ RNNまでを
End-to-Endで学習していて,さらにはコードを公開しリアルタイムで動作す
る仕組みを用いた.
・従来の画像に対するキャプショニングとは異なり,領域
ベースの候補領域抽出を行った.
Links
論文 http://cs.stanford.edu/people/karpathy/densecap.pdf
プロジェクト http://cs.stanford.edu/people/karpathy/densecap/
データセット https://visualgenome.org/
コード https://github.com/jcjohnson/densecap
Justin Johnson http://cs.stanford.edu/people/jcjohns/
Jean-Baptiste Alayrac, Piotr Bojanowski, Nishant Agrawal, Josef Sivic, “Unsupervised Learing From
Narrated Instruction Videos”, in CVPR, 2016.
【2】
Keywords: Video Captioning, Narration, Instruction
新規性・差分
概要
ビデオから説明書となる説明文を生成して,のちに動画検
索やロボットへのインストラクションを行う.ビデオキャ
プショニングや行動認識・イベント認識の総合的な問題で
あると言える.映像データは約2分で構成され,タスクに
対して最低30のビエオが含まれる.各ビデオには7~10の
ステップが存在する.テキストクラスタリング,ビデオク
ラスタリングを行い,説明文を対応づける.
・動画像を入力とした生成文に対して,アプリケーション
的な部分にフォーカスしている
・ビデオから説明文を生成することにより,教育用の説明
を付与することができる
Links
論文
http://www.di.ens.fr/~alayrac/papers/alayrac16unsupervised.pdf
Haonan Wu, Jiang Wang, Zhiheng Huang, Yi Yang, Wei Xu, “Video Paragraph Captioning Using
Hierarchical Recurrent Neural Networks”, in CVPR, 2016.
【3】
Keywords: Video Captioning
新規性・差分
概要
Sentence GeneratorやParagraph Generatorをそれぞれの
RNNが担うことで動画生成文の構成をよくする.画像特徴
はVGG-16,動画特徴はC3Dを用いて表現することで認識
の性能を向上した.
・2段構成の階層的なRNNモデルを用いることで,動画生
成文の表現能力を向上させた
Links
論文 http://arxiv.org/pdf/1510.07712v1.pdf
Kevin J. Shih, Saurabh Singh, Derek Hoiem, “Where to Look: Focus Regions for Visual Question
Answering”, in CVPR, 2016.
【4】
Keywords: Visual Question Answering (VQA)
新規性・差分
概要
画像に対する質問回答に対して,「画像のどこをみればよ
いのか」という位置を特定する研究である.画像特徴や文
章のキーワード特徴の対応づけや重み付けによりキーワー
ドに対する画像領域に対して顕著性のようなヒートマップ
を生することができる.
・言語と画像の入力から,どこをみれば良いのかまた画像
に対する質問回答に対して効果的なアプローチを提供でき
ていると言える
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Shih_W
here_to_Look_CVPR_2016_paper.pdf
VQAサーベイ http://iamaaditya.github.io/research/literature/
German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez, “The SYNTHIA
Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes”, in CVPR,
2016.
【5】
Keywords: Semantic Segmentation, Domain Adaptation, Transfer Learning
手法
結果
概要
・セマンティックセグメンテーション用に,CGによる仮
想世界データセットであるSYNTHIA Datasetを作成.
・実世界データと合わせることで大幅に精度向上.
・SYNTHIA Dataset:
- 季節・天気・照明条件・視点の変動を含む.
- pixel-levelのクラス情報とdepth情報を持つ.
・CNNは,T-Net[Ros+,arXiv2016] と FCN[Long+,CVPR2015] を使用.
・実世界データとCGデータを併用して学習するため,
BGC (Balanced Gradient Contribution) [Ros+,arXiv2016]を使用.
学習時の各batchは,実世界データ6枚とCGデータ4枚を含む.
・実世界データとCGデータを併用して学習することで,
実世界データのみで学習した場合と比較し精度向上.
(Camvid, KITTIの場合,Class Accuracyが10%前後向上.)
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Ros_Th
e_SYNTHIA_Dataset_CVPR_2016_paper.pdf
プロジェクト・動画 http://synthia-dataset.net/dataset/
新規性・差分
・CGデータを用いた先行研究では,物体検出・姿勢推定・屋
内シーンのセマンティックセグメンテーションが行われてい
る.
・本論文は,都市環境のセマンティックセグメンテーション
におけるCGデータの有効性を示した.
German Ros, Simon Stent, Pablo F. Alcantarilla, Tomoki Watanabe, “Training Constrained
Deconvolutional Networks for Road Scene Semantic Segmentation”, in arXiv pre-print 1604.01545, 2016.
【6】
Keywords: Semantic Segmentation, Domain Adaptation, Transfer Learning, Distillation, Compression
手法
結果
概要
・転移学習による高精度・省メモリなセマンティックセ
グメンテーション用ネットワークであるT-Netを提案.
・ランタイム・メモリ使用量無視の高精度ネットワークである
S-Net(source network)を生成.
S-Netは,2つのFCN[Long+,CVPR2015]のアンサンブル.
・Distillation [Hinton+,arXiv2015] に類似した手法で,
SegNetと同様のネットワークT-Net (target network) に転移学習.
・WCE (weighted cross-entropy) を使用し,クラスごとのデータの偏りを考慮.
・異なるデータを統合したデータセットに適用するため,
BGC (Balanced Gradient Contribution)を使用.
・FCNの1%のメモリ使用量で,FCNを越える精度を達成.
(下図のT-Net TK-SMP-WCE)
Links
論文 http://arxiv.org/pdf/1604.01545v1.pdf
新規性・差分
・転移学習をセマンティックセグメンテーション用のネ
ットワークに適用・拡張し,有効性を確認.
・セマンティックセグメンテーション用のデータが少数
である問題を解決するため,既存データセットを統合し
たMulti-Domain Road Scene Semantic Segmentation
(MDRS3) datasetを作成.
Quanzeng You, Hailin Jin, Zhaowen Wang, Chen Fang, Jiebo Luo, “Image Captioning with Semantic
Attention”, in CVPR, 2016.
【7】
Keywords: Image Captioning, Attention
新規性・差分
手法概要
・attributeを予想しそれらについての単語ベクトルについ
てのattentionをかけたベクトルを利用することにより画像
説明文生成タスクにおいて最高精度を達成
・画像説明文の新規手法の提案
・予想されたAttributeの単語ベクトルにAttentionをかけて
足し合わせたベクトルの有効性を示す
・RNNの入力xtには前の単語のベクトル(最初のステップでは画像特徴)と
Attributeにattentionをかけて足し合わせた特徴量の和を入力する
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/You_Im
age_Captioning_With_CVPR_2016_paper.pdf
・また、attentionの度合いαiは以下の通り
・attributeの推定方法は二種類を試す
① Non-parametric: 画像特徴量の距離をもとにtest画像と近いものを学習用画
像から持ってきて、その画像に
付与された説明文におけるTerm
Frequencyをもとにattributeを付与
②Parametric: 識別器を学習させる
だけ、From visual captions to
visual concepts and backと同様
→Parametricなapproachでattribute
を推定したほうが良い
・
結果
・右上の図は4枚の画像についての、画像説
明文を生成する過程においての各単語の確率
の遷移
・右下のグラフは各手法との性能比較
Tatsunori Taniai, Sudipta N. Sinha, Yoichi Sato, “Joint Recovery of Dense Correspondence and
Cosegmentation in Two Images”, in CVPR, 2016.
【8】
Keywords: cosegmentation, correspondence estimation, graph cuts
概要
・2枚の画像のdense correspondence estimationと
cosegmentationを同時に行う手法を提案.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Taniai_Joint_
Recovery_of_CVPR_2016_paper.pdf
プロジェクト http://taniai.space/projects/cvpr16_dccs/
スライド http://www.slideshare.net/TatsunoriTaniai/solving-
segmentation-and-dense-correspondence-problems-using-graph-cuts
新規性・差分
・correspondence estimationとcosegmentationを同時に行う階層的
MRFモデルを提案.
・iterated graph cutsを用いたエネルギー最小化により,graph
structureとlabelingを同時に推論する最適化手法を提案.
・400組の画像からなる新規データセットを提供.
Seunghoon Hong, Junhyuk Oh, Bohyung Han, Honglak Lee, “Learning Transferrable Knowledge for
Semantic Segmentation with Deep Convolutional Neural Network”, in CVPR, 2016.
【9】
Keywords: Semantic Segmentation, Deep Convolutional Neural Network
新規性・差分
概要
・Deep Convolutional Neural Networkに基づいた弱教師あ
りセマンティックセグメンテーションアルゴリズムの提案
・decoupled encoder-decoder architectureを構築
・Microsoft COCO datasetで学習したとき,PASCAL
2012 datasetにおいて,最先端の弱教師ありの技術と比較
してパフォーマンスの向上を確認
・既存の弱教師ありアルゴリズムとは異なり,画像レベル
のクラスラベルを持つ画像のセグメンテーションを行うた
めに,異なるカテゴリにも利用可能な補助セグメンテーシ
ョンアノテーションを利用.
・各カテゴリ間のセグメンテーション情報を共有するため
に,アノテーションモデルのdecoupled encoder-decoder
architectureを使用.このアーキテクチャでは,各カテゴリ
の空間的なハイライトをを生成し,デコーダによって各ハ
イライト領域の前景を分割.
・アノテーションモデルを組み合わせることで,異なるカ
テゴリで学習されたデコーダのセグメンテーションの性能
を向上.
Links
論文 http://arxiv.org/pdf/1512.07928v1.pdf
プロジェクト http://cvlab.postech.ac.kr/research/transfernet/
code https://github.com/maga33/TransferNet
Jinshan Pan, Deqing Sun, Hanspeter Pfister,Ming-Hsuan Yang, “Blind Image Deblurring Using Dark
Channel Prior”, in CVPR, 2016.
【10】
Keywords: deblur,cnn
新規性・差分
概要
・画像のぼけを修正する手法について.
CVPR2009のdark channel priorを元にしている.部分領
域のRGB成分の最小値を取ってくると,ぼけ成分のみを
含んだ画像(dark channel)となる. dark channelに着目し
畳み込み演算を用いることでシンプルで効果的なぼけ除
去を実現している.
・2つの自然blur画像データセットを用いて,最新
手法と精度を比較している. 一般的な自然画像や
顔画像,文字や暗い画像についても優れた結果が得
られている.
Links
論文
http://faculty.ucmerced.edu/mhyang/papers/cvpr16_dark_chan
nel_deblurring.pdf
Limin Wang et al., “ActivityNet Challenge 1st prize of untrimmed video classification”, in CVPRW, 2016.【11】
Keywords: ActivityNet Challenge, Action Recognition
新規性・差分
概要
行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動識別第一位の手法.
CES-STARというチームで行動識別の問題に取り組んだ.Mean Average Precisionが93.23% (200クラス分類)という識別率で勝利した.
戦略としてはVisual Analysis, Fusion, Audio Analysisを実行することで行動認識を実行.単純にCNN特徴を全てのフレームから取り出す
のではなく,重要なフレームをセグメント化して特徴を取り出すことにした.Deep Segmental Networkと呼称されるResNetをベースと
した手法により重要なフレームからのみ特徴抽出を実行する.時系列特徴ではVery Deep Two-stream CNNやTDDをベースとする.
Deep Segmental Network からConsensus Function(重要フレームを選択)を計算,フレーム方向のSliding Window Aggregationにより有効
なフレームから特徴抽出して行動認識の結果を得る.音声の特徴抽出にはResNetをベースとしたAudio CNN (Deep Convolutional neural
networks and data augumentation for acoustic event detection, arxiv)も用いている.
・ActivityNetの識別タスクにて第一位を獲得.mAPが93.233%, Top-1が88.136%,Top-3が96.421%であった.
・Deep Segmental NetworksはHMDB51にて69.0%,UCF101にて94.3%の結果を得ることができた.
Links
プロジェクト http://activity-net.org/challenges/2016/
著者ページ http://wanglimin.github.io/
Ruxin Wang et al., “ActivityNet Challenge 2nd prize of untrimmed video classification”, in CVPRW, 2016.
【12】
Keywords: ActivityNet Challenge, Action Recognition
新規性・差分
概要
行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動識別第二位の手法.
特徴抽出と特徴統合、探索の戦略により認識や検出を行った.ビデオの入力から特徴抽出(CNN+VLAD, ResNet-152
ImageNet Pre-trained model, Inception-v3, ResNet-152 PlaceNet Pre-trained model + PCA1024 dims)、IDT+Fisher
vector, Two-Stream Very Deep CNN (flow), C3Dのfc7,音声特徴であるMFCCを取得.
特徴統合にはMulti-view intact space learningを用いてintact spaceを理解 [multi-view intact space learning, PAMI2015].
Latent Intact Representationを1500次元に設定.
・ActivityNetの識別タスクにて第一位を獲得.mAPが92.413%, Top-1が87.792%,
Top-3が97.084%であった.
・Intact Space を導入して視点変化に対応した学習を実行した.
Links
プロジェクト http://activity-net.org/challenges/2016/
Ruxin Wang et al., “ActivityNet Challenge 1st prize of Activity Detection”, in CVPRW, 2016.
【13】
Keywords: ActivityNet Challenge, Action Detection
新規性・差分
概要
行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動検出第一位の手法.
各クラスに対してSVMを作成,各ポジティブ・ネガティブごとにIoU overlapが0.7以上のものを採用した.Break off both ends
によりキーフレーム間を切り抜くこととして,Temporal Segmentationでは30フレームのウインドウを走査.Segment
Combinationではトリミングされたビデオとそのラベルを参照してポジティブスコアが高ければ統合や行動検出を行う.
・0.5 IoUではmapが43%,Recallが65%であった.
Links
プロジェクト http://activity-net.org/challenges/2016/
Gurkirt Singh Singh et al., “ActivityNet Challenge 2nd prize of Activity Detection”, in CVPRW, 2016.
【14】
Keywords: ActivityNet Challenge, Action Detection
新規性・差分
概要
行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動検出第二位の手法.
行動検出はフレーム位置とその行動ラベルを当てる問題である.特徴量はImageNet Shuffle 特徴(GoogleNet, imagenet
shuffle features, arxiv1602), IDT-MBH (65536dims), C3D(frame-level, 16 frame accumulation).これらの特徴量をSum
Product, SVMによりつなげると77%にまで向上する.
・Temporal trimming for proposal generationはBinary Random Forests + C3D
特徴により行った結果,Recallが64%となった.
Links
プロジェクト http://activity-net.org/challenges/2016/
著者
https://scholar.google.co.in/citations?user=w8XHUMIAAAAJ&h
l=en
“ActivityNet Challenge”, in CVPRW, 2016.
【15】
Keywords: ActivityNet Challenge
概要
ActivityNet Challengeでの識別,検出結果について一位,二位以外を記述する.(公表なしは記述なし)
・行動認識
【10位】IDT, GoogleNet, C3D, SVM
【9位】Data augmentation, IDT, Audio, SVM
【8位】MBH, C3d, googlenet, vgg16, resnet101, svm late fusion
【6位】RGBCNN, FlowCNN, C3D RGB, C3D flow
【5位】two-stream, resent fine-tuned, action segmentsのみトレーニング
【3位】2d cnn quantization, 2d cnn pooling, 3d cnn pooling, idt+fv, ocr, mfcc
・行動検出
【6位】C3D(4096dims)とLSTM(512dims)
【4位】two-stream, resent fine-tune, action segment for training, sliding window
【3位】MSNとLSTM (Singh et al. CVPR16論文あり)
・総括
今回の行動検出はフレームごとの検出(どちらかというとフレームのセグメント化に近い)であったが,次回は画像内の位置を当てる行
動検出も取り入れる(UCF101やTHUMOSよりも行動検出が難しくなる!).また,次回はGoogle DeepMindの提供で1000クラスの行
動認識(各クラス500サンプル以上)も導入することを発表した.
Links
プロジェクト http://activity-net.org/challenges/2016/
Cees Snoek http://www.ceessnoek.info/
Bernard Ghanem http://www.bernardghanem.com/
Juan Carlos Niebles http://www.niebles.net/
Mohamed E. Hussein and Mohamed A. Ismail, “Visual Comparison of Images Using Multiple Kernel Learning for
Ranking”, in BMVC, 2015.
【16】
Keywords: Attribute, Visual comparison of images
新規性・差分
概要 順位付け問題のために一般化されたカーネル学習のフレー
ムワークの提案.提案手法は,元データを記述するために
最適な特徴統合を提示する.実験結果より,提案したフレ
ームワークが最先端手法の性能と処理時間を著しく上回っ
た.
複数のカーネル学習を画像比較へ応用したフレームワ
ークである。順位付け複数カーネル学習(Rank MKL)の
提案.提案手法では複数特徴を統合する 際に特徴ごと
のカーネ
Links
Paper :
http://www.bmva.org/bmvc/2015/papers/paper095/abstract095.pdf
Author :https://sites.google.com/site/mhelhoseiny/
提案するフレームワークの概要: はじめに画像より複数の特徴を
抽出する.次に特徴ごとのカーネルを用いて複数カーネル学習よ
り,特徴統合のための特徴ごとのカーネルの重みを最適化する.
最後にRank MKLにより画像比較を行う.
ルの重みを最適化することで,画
像特有の記述を生成する.よって
以下の式中のカーネルの重みdを最
適化する.
Tong Xiao, Hongsheng Li, Wanli Ouyang, Xiaogang Wang, “Learning Deep Feature Representations
with Domain Guided Dropout for Person Re-identification”, in CVPR, 2016.
【17】
Keywords: Person Re-ID, Domain Adaptation, Domain Guided Dropout
新規性・差分
概要
人物再同定のための特徴学習とドメイン変換に関する研究である.ImageNet
では膨大なデータが存在して効果的な特徴学習を行うことができるが,人物
再同定ではその規模のデータが揃うわけではない.その一方で,近年データ
セットの種類が増えてきているので,公開されている全てのRe-IDを統合する
ことで特徴学習し,さらに重みを調整することでタスクに応じて識別器を構
成することができると主張した.
・データセット間に共通した特徴を学習し,Fine-tuningの際にDomain
Guided Dropoutを適用し,本提案のような特徴学習を効果的に行えることが
判明した.このDropoutによりタスク転換の際に必要ないタスクの重みを効
果的に除去することができる.
・Domain Guided Dropoutによりシンプルかつ効果的に,各データに対する
State-of-the-artを達成した(図や表より).
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_
2016/papers/Xiao_Learning_Deep_Featur
e_CVPR_2016_paper.pdf
コード
https://github.com/Cysu/dgd_person_reid
Waqas Sultani, Mubarak Shah, “What if we do not have multiple videos of the same action? - Video
Action Localization Using Web Images”, in CVPR, 2016.
【18】
Keywords: Action Detection, Weakly Supervised Learning, Web Images
新規性・差分
概要
Web画像を用いた学習による,動画像からの行動検出に関する研究である.従
来ではある程度拘束があるビデオを用いるが,本論文では拘束がなく長時間の
ビデオからいかに人物行動のローカライズを行うかという設定で研究する.学
習にはキーワードベースの画像検索により収集した画像を,テスト時には行動
候補領域を抽出し,Web画像から収集した画像により学習された識別器により
行動検出を実行する.候補領域の抽出には[Cho+, CVPR15]を用いた.(1) キー
フレームからの候補領域やその特徴,(2) 相関行列とその平均の誤差,(3) 相関
行列の値を最小化するように条件付けして最適化.
・大規模な学習データが揃わずとも,キーワードベースに
より検索されたweb画像により学習した識別器でも高精度
な行動検出ができることが判明した.
・右下の表のように,UCF-Sportsデータに対して良好な
性能を実現した.THUMOSに対しても精度を算出した.
Links
論文
http://crcv.ucf.edu/papers/cvpr2016/CVPR16_Waqas_AL.pdf
ビデオ https://www.youtube.com/watch?v=99FE9XOeX-k
候補領域抽出 [Cho+, CVPR15]
http://www.di.ens.fr/willow/pdfscurrent/cho2015.pdf
Jingjing Meng, Hongxing Wang, Junsong Yuan, Yap-Peng Tan, “From Keyframes to Key Objects: Video
Summarization by Representative Object Proposal Selection”, in CVPR, 2016.
【19】
Keywords: Keyframe, Keyobject
新規性・差分
概要
From Keyframes to Key Objectsというタイトルのとおり,動画像中の
キーフレームから候補領域の抽出により,重要な物体位置を抽出する.
フレームワークは(1) キーフレーム検出や物体候補領域の抽出 (2) 候補
領域のリファインメント (3) 最適化の問題を勾配近似問題に置き換え,
Fast Iterative Shrinkage Thresholding Algorithm (FISTA)により解決す
る.
・キーフレームのみならず,そのフレーム内の重要物体を
抽出することでより詳細な情報にアクセス可能となる.
・FISTAを提案して辞書学習時における選択の勾配近似問
題を解決した.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Meng_
From_Keyframes_to_CVPR_2016_paper.pdf
Weiyang Liu, Yandong Wen, Zhiding Yu, Meng Yang, “Large-Margin Softmax Loss for Convolutional
Neural Networks”, in ICML, 2016.
【20】
Keywords: Softmax, Neural Network
新規性・差分
手法
概要
・Neural Networkを用いてマルチクラス識別に取り組む際
にはよくSoftmax関数に基づいた交差エントロピーロスが
用いられる。これはSoftmax Lossと呼ばれたりもする。
・Softmax LossにLarge-Margin的な考えを追加した手法を
提案し、勾配降下法で学習する方法も同時に示す
・過学習を防ぐ効果もある
・Large-Margin Softmax Loss (L-Softmax Loss) の提案
・L-Softmax Lossを用いた場合に勾配降下法でどのように
最適化すればいいかを提案
・L-Softmax Lossを用いた実験を行う
・Softmax Lossはfiをi番目のクラスのpre-activationとして以下のように表現
できる
Links
論文 http://jmlr.org/proceedings/papers/v48/liud16.pdf
・fjは一つ前の結合層の重みのj行目をWj、一つ前のactivationのベクトルをxi、
両者の角度をθjとして以下のようにも表現できる
・正解ラベルに関する角度θyiがm倍大きくなったとしてもやはり正解ラベル
に対応するconfidenceが大きくなるようにしたいという要望から、次のL-
Softmax Lossを提案
ただし、
・mが整数の場合、cos(mθ)はcos(θ)=(Wyi・xi)/(||Wyi||・||xi||)を用いて表現でき、
それを元にLに勾配降下法を適用
結果
・各種タスクで既存手法を上
回る性能を達成
・左の図は学習された特徴量
Cifar10 Cifar10
データ拡張有
MNISTでL-Softmax Lossを用いて学習された特徴量(左からm=1,...,4)
Yang Gao, Oscar Beijbom, Ning Zhang, Trevor Darrell, “Compact Bilinear Pooling”, in CVPR, 2016.
【21】
Keywords: Bilinear Pooling, Feature Coding,
Kernel Approximation
新規性・差分
手法
概要
・Bilinear Poolingは有効であるが特徴量の次元をNとすると
次元数がO(N^2)である
・Bilinear Poolingの内積は、2次までの多項式カーネルの
特殊系と見なせるため、多項式カーネルと対応する再生核
ヒルベルト空間での表現を近似するための手法を適用する
ことが可能であるため、2種類の近似手法を試す
・誤差逆伝播の方法も提唱
・各種タスクで特徴量を圧縮しても高い性能が出ることを
確認
・Bilinear Poolingと多項式カーネルの関係性の解析
・Bilinear Poolingの次元削減手法の提案
・誤差逆伝播の方法の提唱
・各種タスクでの実験
・Bilinear Poolingは右のように表現できる:
・これらの内積は以下のように変形可能
・これをもとにBilinear Poolingの性能の良さは2次までの多項式カーネルを
用いたカーネルマシンの性質を持っているからあると説明可能としている。
・次元圧縮のために多項式カーネルの低次元近似手法であるRandom
Maclaurin (RM)とTensor Sketch (TS)を使うことを提案し、両者ともに誤差
逆伝播を用いてパラメータ学習する。
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Gao_C
ompact_Bilinear_Pooling_CVPR_2016_paper.pdf
結果
・右のグラフは特徴量CUBデータセットにおける実
験結果。元の次元数は25万程度だが、提案手法を用
いてfine-tuningした場合4096次元程度しかなくても
同程度の性能が出ることがわかる。
←2次までの多項式カーネル
各手法の比較
Luis Herranz, Shuqiang Jiang, Xiangyang Li, “Scene Recognition with CNNs: objects, scales and dataset
bias”, in CVPR, 2016.
【22】
Keywords: Hybrid-CNN, ImageNet and PlaceNet
新規性・差分
概要
シーン認識の問題を扱う際に,ImageNetやPlaceNetのデータを
用いてデータセットのバイアスからなる特徴の偏りを解消する.
従来ではHybrid-CNN [23]によりこの問題に取り組んだが,
ImageNetの特徴はシーン認識をうまく向上させるための手がか
りとはなりえなかった.本論文ではImageNetのスケールを考慮
し,さらにはデータセットの偏りの問題を取り扱うことで効果
的にシーン認識の手がかりとして,Hybrid-CNNがうまくいくた
めの成功例となった.
・ImageNetとPlaceNetのHybrid-CNNに対してスケールや
データバイアスの考慮によりシーン認識の精度が向上
・SUN397に対して66.26%とstate-of-the-artな精度を実現
した.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Herran
z_Scene_Recognition_With_CVPR_2016_paper.pdf
Ziyu Zhang, Sanja Fidler, Raquel Urtasun, “Instance-Level Segmentation for Autonomous Driving with
Deep Densely Connected MRFs”, in CVPR, 2016.
【23】
Keywords: Semantic Segmentation, Autonomous Driving
新規性・差分
概要
自動運転の文脈で用いることができるセマンティックセグメンテーション
の手法を提供する.この問題に対して,Densely Connected Markov
Random Fieldを用いてアノテーション情報からのセマンティックセグメン
テーションを実行する.MRFは(1)に示す3つの項 -- Pairwise Smoothness
Term, Pairwise Local CNN Prediction Term, Pairwise Inter-connected
component Term から構成される.
・KITTI Datasetに対して[Zhang+, ICCV15]よりも高い精度
でセマンティックセグメンテーションを実現した.
・密な結合を持つMRFモデルの提案により,周辺領域に対
する分離性能を向上し,セマンティックセグメンテーショ
ンに貢献した.
Links
論文 http://arxiv.org/pdf/1512.06735v2.pdf
Slide
http://www.cs.toronto.edu/~urtasun/courses/CSC2541/08_inst
ance.pdf
Lukas Schneider, Marius Cordts, Timo Rehfeld, David Pfeiffer, Markus Enzweiler, Uwe Franke, Marc
Pollefeys, Stefan Roth, “Semantic Stixels: Depth is Not Enough”, in IEEE IV, 2016.
【24】
Keywords: Stixels, Semantic Segmentation, Depth
新規性・差分
概要
距離画像の表現方法のひとつである”Stixels”に対して距離表
現のみならず意味付けも行うことで,自動運転に対して応用
を進めようという研究である.従来のStixelにあるような距離
表現やさらに意味情報のStixelも用いることで,動的な物体や
その距離の情報や,物体ラベルも含めた検出が可能である.
セマンティックセグメンテーションはFully Convolutional
Networks (FCN)により行い,そのモデルはGoogLeNetを適用
した.ステレオマッチングにはSemi Global Matching (SGM)
を適用している.
・従来の距離画像表現であるStixelに意味情報を加えるこ
とでその後の物体検出や距離抽出,占有マップを生成する
際にも複数のメリットが得られる
・FCN,SMG,Stixelなど個別の精度が向上した(下表よ
り)ために,Semantic Stixelsという概念が生まれた.
Links
論文 http://download.visinf.tu-darmstadt.de/papers/2016-iv-schneider-
semantic_stixels-preprint.pdf
Video (Stixels) https://www.youtube.com/watch?v=U01llK42gNc
Hongwei Qin, Junjie Yan, Xiu Li, Xiaolin Hu, “Joint Training of Cascaded CNN for Face Detection”, in
CVPR, 2016.
【25】
Keywords: Joint Training, Face Detection
新規性・差分
概要
CNNのカスケード構造による顔検出の問題やその学習方法
を解決するための研究.複数のカスケード型CNN識別器を
同時に最適化することにより,エラー率を有効に減らし,
顔検出率を向上させようとする試みである.学習時には
Back Propagationを適用し,さらにRegion Proposal Net
(RPN)やR-CNNなどより洗練された構造の識別器において
もカスケード型識別器を導入する.最適化は(1)式のような
識別とローカライズの多タスク損失を最小化するように設
計される.
・従来のカスケード型識別器ではViola&JonesのHaar-like
+ AdaBoostが存在するが,独立に学習していた.一方本論
文ではCNNをカスケード型識別器としてさらに全ての色衣
付きを同時に最適化する.
・顔検出率の比較ではstate-of-the-artな結果@FDDBを示
した.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Qin_Joi
nt_Training_of_CVPR_2016_paper.pdf
Bumsub Ham, Minsu Cho, Cordelia Schmid, Jean Ponce, “Proposal Flow”, in CVPR, 2016.
【26】
Keywords: Object Proposal, Optical Flow
新規性・差分
概要
セマンティックフロー(意味のついたオプティカフロー)により計算され
るまとまりから,物体候補領域を抽出する研究.位置や幾何的な制約に
より整合性を計算できる.さらにはオプティカルフローのパッチベース
の探索と候補領域の移動を同時に解決する.領域マッチングには
Bayesian Modelを適用し,SPM, HOG, CNN特徴などを用いたアピアラ
ンス特徴の抽出や幾何的な情報を扱う項を導入.この問題に対して,新
しいベンチマークを提供した.
・幾何的に強力な制約を与えることで,物体候補領域の整
合性を向上することができる.
・フローや候補領域を同時に抽出可能となる
Links
論文
http://www.di.ens.fr/willow/pdfscurrent/ham2016.pdf
プロジェクト
http://www.di.ens.fr/willow/research/proposalflow/
コード https://github.com/bsham/ProposalFlow
Carl Vondrick, Deniz Oktay, Hamed Pirsiavash, Antonio Torralba, “Predicting Motivations of Actions by
Leveraging Text”, in CVPR, 2016.
【27】
Keywords: Action Recognition, Motivation Prediction
新規性・差分
概要
「なぜ,その行動をとっているのか」を把握して,人物の意図を推定する
研究である.さらに,人物行動は人物の状態を理解するための最初のステ
ップにすぎない.そのため,著者らは画像と人物意図が対応づけられたデ
ータベースを公開し,機械学習により両者を紐付けた.Microsoft COCOデ
ータセットから約10,000人の人物行動とその意図が対応づけられたデータ
ベースをAmazon Mechanical Turk (AMT)によりアノテーション.アノテー
ションは「行動」in order to 「意図」のように行った(右図).画像による推
定は単純な線形識別器であり,VGG16のfc7を用いる.さらには言語から
行動やシーンの手がかりを導入する.
・コンピュータビジョンにおいて画像に潜在的に存在する
意図を推定する研究の先駆けである.
・現在画像に映っている行動のみでなく,その背後にある
「なぜ」を推定できるようになった.
・Median Rankによる評価の結果,Vision+Person+Textの
情報を用いるのがもっとも推定精度が良いとされた.
Links
論文 http://web.mit.edu/vondrick/intention.pdf
著者 http://web.mit.edu/vondrick/
Kyle Krafka, Aditya Khosla, Petr Kellnhofer, Harini Kannan, Suchendra Bhandarkar, Wojciech Matusik,
Antonio Torralba, “Eye Tracking for Everyone”, in CVPR, 2016.
【28】
Keywords:
新規性・差分
概要
商用に重要な視線推定の実利用化のためにアプリケーションやデータベー
スを公開した(右図).さらに,スマートフォンにて動作する視線推定器を
開発した.GazeCaptureは1450人もの顔画像が2,500,000フレームにわた
り含まれ,視線推定のためのデータである.GazeCaptureはCNNベースの
視線推定器であり,10~15fps,キャリブレーションなしで1.71~2.53cmの
誤差で動作することが実験的に判明した.CNNモデルは顔,左右の目の画
像,顔が位置するグリッドを入力としてそれぞれ畳み込み,全結合層にて
特徴を統合する.
・他の視線推定のデータセットとの比較が右の表に示され
る.人数,フレーム数ともに大規模なデータである.
・キャリブレーションなしで1.71~2.53cm, キャリブレー
ションありのときには1.34~2.21cmの誤差で動作する.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Krafka_
Eye_Tracking_for_CVPR_2016_paper.pdf
プロジェクト http://gazecapture.csail.mit.edu/
Ariadna Quattoni et al, “Recognizing Indoor Scenes”, inCVPR, 2009.
【29】
Keywords:
新規性・差分
概要
・屋内シーンの認識を行うためのシーンプロトタイプの提
案及びデータセットの構築
屋内のシーン認識では物体の情報及び環境の情報が必要と
なるため従来のシーン認識用データセットに比べより幅広
いデータセットを構築した.
シーン認識のデータセットとして67のカテゴリーに分かれ
全画像で15620枚の画像を用いたデータセットである(右
図).これらのシーンは大きく5つのカテゴリーとも分ける
ことが可能である.データにはアノテーターによる物体に
特化したROIが付けられている.
ROIを行った領域の2×2グリッドからSIFT+BoFのヒストグ
ラムを得る.このヒストグラムを用いて物体の領域を検出
する.
ROI, グラフカットによるセグメントのそれぞれをシーン
プロトタイプと定義する.
結果はROI+GIST+annotationが一番高い
Links http://people.csail.mit.edu/torralba/publications/indoor.p
df
Scott Reed, Zeynep Akata, Honglak Lee and Bernt Schiele, “Learning Deep Representations of Fine-
Grained Visual Descriptions”, in CVPR, 2016.
【30】
Keywords: natural language, image retrival
新規性・差分
概要 属性ベースのゼロショットでの認識問題では,多くの属
性が必要であり,属性は自然言語インタフェースを提供し
ていないという制約がある.これらを克服するため,文章
そのものを学習し,注釈及び検索の両方に適用可能な,テ
キストの記述子と画像間の得点関数を学習するモデルを提
案する.
Links
Paper :
http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Reed_Learn
ing_Deep_Representations_CVPR_2016_paper.pdf
Author :http://www-personal.umich.edu/~reedscot/ 「この鳥は,腹が黄色,頭が黒,そして胸と羽が黒である」というアノ
テーションに対する,符号化方法ごとの画像検索結果.
Caltech UCSD Bird 2000 - 2011データセットにおいて,最先端
手法であった属性ベースの画像分類手法の性能を大幅に超えた.
また,テキストの長さが異なる場合においても,自然言語の符
号化が可能である.文章を単語ごとに符号化した場合が最も性
能が良かった.
提案する符号化方法の1つであるconvolutional-recurrent netである.
文字/単語ごとにずらしながら,順次符号化を繰り返す.
Yuanjun Xiong, Limin Wang, Zhe Wang, Bowen Zhang, Hang Song, Wei Li, Dahua Lin, Yu Qiao, Luc
Van Gool, Xiaoou Tang, “CUHK & ETHZ & SIAT Submission to ActivityNet Challenge 2016”, in CVPRW ,
2016.
【31】
Keywords: AcvitiyNet Challenge, Action Recognition, TDD, Two-Stream ConvNets
新規性・差分
概要
2016年に開催された動画認識のコンペティションにて優勝
した,香港のCUHK,スイスのEYHZ,中国のSIATによる
合同チームの手法を説明した論文.動画中からスコアを算
出してフレーム選択するネットワークや,特徴抽出には
ResNet,GoogLeNet_v3やTDD(下記リンク参照)などを用
いて200クラスの分類においてmAP 93.23%を実現した.
・動画認識の200クラス分類において驚異のtop-1 88%,
top-3 96%,mAP 93%を達成した.
・動画特徴について,Snnipet-wiseの解析を提案し,さら
には動画特徴のみならず音声特徴においてMFCCやAudio
CNNを用いた
Links
論文 http://wanglimin.github.io/contests/XiongW_Anet16.pdf
プロジェクト http://activity-net.org/challenges/2016/
コード https://github.com/yjxiong/anet2016-cuhk
Very Deep Two-Stream ConvNets
http://personal.ie.cuhk.edu.hk/%7Exy012/others/action_recog/
Trajectory-pooled Deep-convolutional Descriptors (TDD)
http://wanglimin.github.io/tdd/index.html
手法
手法はビデオの断片から特徴を抽出するかどうか判断するSnippet-wise
predictorとビデオから特徴抽出して識別を実行するVideo-level classificationに
分けられる.Snippet-wiseではResNetやInception_v3を用いた方法を考案.ま
た,Video-levelではSnippet-wiseの処理によるスコアを用いて特徴抽出するフ
レームを適応的に用いた.また,音声特徴としてMFCCやResNetを用いる
Audio CNNを用いた.ビデオ特徴にはアピアランスベースのCNN (ResNet,
Inception_v3),モーションCNN (TDD, Very Deep Two-Stream ConvNets),
IDTを用いて,mAPが90.4%,Top-3 は95.2%であった.
結果
ActivityNet v1.3では10,024をトレーニングに用い,15,140の行動インスタンス
が含まれ,200の行動クラス分類を実行する.Validationセットには4,926動画が
含まれ,7,654の行動インスタンスが含まれる.最終的なテストセットには
5,044の動画が含まれ,この評価値により順位が競われる.下の表がValidation
セットに対する評価である.
Kwang Moo Yi, Yannick Verdie, Pascal Fua, Vincent Lepetit, “Learning to Assign Orientations to Feature
Points”, in CVPR, 2016.
【32】
Keywords: orientation, CNN
新規性・差分
手法概要
・従来は人手で決めていたSIFTなどの局所特徴のオリエン
テーションの基準を、CNNで学習して求めた。また、
ReLU, maxout, and PReLUなどのレイヤーを一般化したも
のを提案し、性能向上を確かめた。
・CNNによるオリエンテーション学習
・Generalized Hinging Hyperplanes (GHH)をベースとした
新しいactivation function
・Siamese Networkのように画像パッチを2枚ペアで入力し、それぞれに対
してCNNが出力したオリエンテーションのもとでのデスクリプタの距離=損
失を最小化する
Links
プロジェクト
https://kmyi.wordpress.com/2016/07/12/learning-to-assign-
orientations-to-feature-points/
GitHubにコード有
Jie Feng, Brian Price, Scott Cohen, Shih-Fu Chang, “Interactive Segmentation on RGBD Images via Cue
Selection”, in CVPR, 2016.
【33】
Keywords: image segmentation, MRF
手法
概要
・ユーザの少ないインプットを手掛かりにしてセグメンテーションを
行う。セグメンテーション結果は逐一更新される。提案手法は各ピク
セルにつき、cue label (color, depth, normal, etc.)の中から最もよい
cueを自動的に決定する。
・セグメンテーションラベル(前景/背景)に加え、cue label(最も効
いているcue)も最適化する。
・ユーザインプット:
1) foreground/background clicks
2) foreground/background strokes
3) bounding box around target object
・Multi-label MRFにて、Multi-cue Pairwise Termを使用
Links
Youtube
https://www.youtube.com/watch?v=r-VBaxYw3wM
プロジェクト
http://www.columbia.edu/~jf2776/#3dsegment
Chen Liu, Pushmeet Kohli, Yasutaka Furukawa, “Layered Scene Decomposition via the Occlusion-CRF”,
in CVPR, 2016.
【34】
Keywords: scene decomposition, CRF, RGBD, occlusion
新規性・差分
手法概要
・シーンのRGBD画像を、デプスを手掛かりにして複数枚
のレイヤーに分解する。これにより、オクルージョンの発
生している(隠れている)表面をモデリングすることが可
能になった。
・デプスをレイヤー分解してオクルージョンを
扱えるようにした
・従来手法よりも効率的なFusion Space
optimization:解を限定して繰り返し計算で
multi-labeling問題を解く手法を提案した
・Fusion Space optimization
Surface adding proposal、Background hull proposal、Surface refitting
proposal、Layer swap proposal、Single surface expansion proposal、
Backward merging proposal、Structure expansion proposal、の7種類の
proposalを次々に試していく。
Links
Youtube
https://www.youtube.com/watch?v=jjo1jI_sOHs
Abhinav Shrivastava, Abhinav Gupta, Ross Girshick, “Training Region-Based Object Detectors with
Online Hard Example Mining”, in CVPR, 2016.
【35】
・online hard example mining (OHEM)を提案した。ハードネガティブマイニング(難しい負例を集めつつモデルを更新していく)はCNN
時代以前の物体検出ではよく使われてきたが、CNNの学習にはあまり使われなかった。Fast RCNNをベースとして、ROIを(ミニバッチサ
イズ毎に)全部使うのでなく、ハードネガティブを選んでミニバッチを作り、ネットワークを更新する。
Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, “You Only Look Once: Unified, Real-Time
Object Detection”, in CVPR, 2016.
【36】
Keywords: YOLO, high speed, regression
新規性・差分
概要
・従来の物体検出は、様々な位置とスケールの物体領域
(ROI)に対して、 (RCNNのように)識別機を使うか、
あるいは(Fast-RCNNのように)位置同定を行うかであっ
た。提案手法は、グリッド状の識別スコアマップを作り、
それによってROIをスコア付けするという全く異なるアプ
ローチをとる。
・一枚の画像全体につきCNNを一回通すだけ
・超高速
・ detection as a regression problem
・GoogleNetライクなモデル
Links
プロジェクト
http://pjreddie.com/darknet/yolo/
詳しい解説つきのオープンソース
7x7
5次元のバウンディングボッ
クス2個と20クラスのスコア
を出力(5*2+20=30次元)
(x, y, w, h, confidence)
Spyros Gidaris, Nikos Komodakis, “LocNet: Improving Localization Accuracy for Object Detection”, in
CVPR, 2016.
【37】
Keywords: object localization, bounding box, CNN
新規性・差分
手法
結果概要
・物体検出のバウンディングボックスをより正確な位置に修
正するCNNを学習する。バウンディングボックスのコーナー
座標(縦横それぞれ)、あるいはバウンディングボックス内
である確率(これも縦横それぞれ)をCNNで出力し、それを
もとに最適なバウンディングボックス座標を算出する。
・物体の位置同定問題をバウンディングボックス座標の確率
推定問題として定義したこと
・そのような問題を解くCNNであるLocNetの設計
・mAPが飛躍的に向上
・バウンディングボックス抽出処理すら不要(入力はスライ
ディングウィンドウでもOK)
Links
コード
https://github.com/gidariss/LocNet
Pascal VOC 2007と2012、
MS COCOでFast-RCNN
と比較してmAPが向上し
た。
Kai Kang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “Object Detection from Video Tubelets with
Convolutional Neural Networks”, in CVPR, 2016.
【38】
Keywords: temporal CNN, object detection, object tracking
新規性・差分
手法
結果
概要
・ビデオからの物体検出タスクを、物体検出とトラッキン
グを融合したマルチステージフレームワークで行う。
Tubeletというトラックのプロポーザルに対して位置調整
を行い、最後に時系列CNNで連続フレームのスコアを統合。
静止画像物体検出よりも高い性能を示した。
・ビデオ物体検出のマルチステージフレ
ームワークの提案
・静止画物体検出と物体トラッキングと
それらの関係性を詳しく調査
・時系列CNNの提案
・spatio-temporalタブレットで物体プロポーズ
ステップ1:セレクティブサーチ+R-CNNでeasy negativeサンプル除去
ステップ2:対象の30クラスをSVM識別機でスコアリング
ステップ3:双方向トラッキング+tracklet結合でトラック(tubelet)を作成
ステップ4:バウンディングボックスを周辺に増やしてmax-poolingし、位置
を調整
ステップ5:時系列方向1次元畳み込みネットでスコアを連続フレームのスコ
アをひとつにまとめる
・静止画像物体検出に比べ、ImageNet VIDで2.2%、YTOで2%性能改善
Links
ソースコード
https://github.com/myfavouritekk/vdetlib
Judy Hoffman, Saurabh Gupta, Trevor Darrell, “Learning with Side Information through Modality
Hallucination”, in CVPR, 2016.
【39】
Keywords: RGBD, object detection, multi modality
新規性・差分
手法
結果
概要
・物体検出のためのマルチモーダルFast RCNNをRGBD画
像データセットを用いて学習する。RGB画像を入力として
RGBネットワークとHallucinationネットワークを学習し、
同時にDepth画像を入力としてDepthネットワークを学習
する。このとき、Hallucinationネットワークの出力が
Depthネットワークの出力に近くなるような学習を行う。
テスト時にはDeothを用いず、RGB画像のみを入力とする。
NYU2データセットでstate-of-the-artのRGB物体検出モデ
ルの性能を超えた。
・学習にデプス画像を用いることでRGB画像からの物体検
出性能を向上させた。
・NYU2データセットで、RGB画像だけで学習したFast R-
CNN(AP=20.6%)を超えた(AP=24.2%)
Neelima Chavali, Harsh Agrawal, Aroma Mahendru, Dhruv Batra, “Object-Proposal Evaluation Protocol
is ‘Gameable’”, in CVPR, 2016.
【40】
Keywords: object proposal, dense annotation, dataset
新規性・差分
手法, 結果概要
・これまでの物体プロポーザル手法は(PASCAL VOCの20クラス等
の)一部のカテゴリの物体のみがアノテーションされたデータセット
で性能評価されてきた。しかしながら、物体プロポーザル手法は本来
カテゴリに依らずあらゆる物体の候補出しを可能にすべきであり、そ
の性能を正しく評価できていなかったといえる。本論文はPASCAL
VOCデータセットのあらゆる物体をアノテーションし、既存手法を
改めて評価した。
・nearly-fully annotated PASCAL VOCデータセットの提供
・既存の物体プロポーザル手法を正しく評価
・データセットの評価指標の提案
・物体アノテーションをPASCAL20クラスのみにした場合、
PASCAL20クラスに含まれない60クラスのみにした場合、全ク
ラスにした場合のそれぞれで手法の性能を評価。
・RCNNでPASCAL20クラスに特化した物体検出器Detector
Masquerading as Proposal generator(DMP)を作り、物体プ
ロポーザル手法と称して性能を評価。
・PASCAL20クラスをアノテーションしたデータではDMPが
圧倒的に良くなってしまい(=Gamable)、それ以外でのケー
スで評価した場合のDMP性能との差が激しいということを示し
た。
Links
プロジェクト
https://filebox.ece.vt.edu/~aroma/web/object-proposals.html
ソースコード
https://github.com/batra-mlp-lab/object-proposals
本当はMethod 1の方が良い
David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016.【41】
Keywords: CNN, dataset
新規性・差分
手法
概要
・3D形状を”平面的”, “穴がある”等の12種類のアトリビュートで表現する。
3D形状アトリビュートをつけた銅像データセットを作り、depth map推
定手法とL. Boら、S. Guptaら等の既存のstate-of-the-artなRGBD物体認識
手法とを組み合わせた結果との比較を行った。
・3D形状アトリビュートの提案
・CNNをつかって一枚の画像から3D形状アトリビュートを推定
・143K枚の銅像データセットを作成
・銅像以外の物体にも汎化できることを示した
・CNNが同じ物体の異なるビューの画像同士を近づけるshape
embeddingも学習できることを示した
Links
プロジェクト
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/
同じ物体の異なるビュ
ーの出力を近づける
Zhile Ren, Erik B. Sudderth, “Three-Dimensional Object Detection and Layout Prediction Using Clouds of
Oriented Gradients”, in CVPR, 2016.
【42】
Keywords: 3D descriptor, structural SVM
新規性・差分
手法
概要
・室内RGBD画像データセットにおける3D物体検出とレイ
アウト推定を行う。2Dのアピアランスと3Dの姿勢を結び
つけるCloud of oriented gradient (COG)記述子を提案。
SUN RGB-Dデータセットでstate-of-the-artの物体検出性能
を記録した。
・新しい記述子COGの提案
・Manhattan Voxelsの提案
・COG抽出:3D cuboidを6x6x6のボクセルデータに変換し、各セルの点群
密度と法線ヒストグラムを計算する
・Manhattan Voxels:マンハッタンワールド推定により点群のアウトライア
に頑健なレイアウト推定を行う
・Structural SVM (S-SVM)を学習
Links
プロジェクト
http://buildingparser.stanford.edu/method.html
Michael Firman, Oisin Mac Aodha, Simon Julier, Gabriel J. Brostow, “Structured Prediction of
Unobserved Voxels from a Single Depth Image”, in CVPR, 2016.
【43】
Keywords: 3D shape completion, volumetric model generation, occlusion
新規性・差分
手法
結果
概要
・一枚の距離画像(2.5Dデータ)から欠損のない
3Dのボクセルデータを推定する。室内環境データ
セットを作って手法の評価を行った。
・Voxlets: 局所マルチボクセルジオメトリーの提案。
Structred Random Forestsを用いて距離画像の一点からそ
の周囲の幾何的構造を推定する。
・物体ごとに90スキャン撮影したデータセット作成
・手法の評価指標を提案
Links
プロジェクト
http://visual.cs.ucl.ac.uk/pubs/depthPrediction/
動画
https://www.youtube.com/watch?v=1wy4y2GWD5o
ソースコード
https://github.com/mdfirman/voxlets
Charles R. Qi, Hao Su, Matthias Nießner, Angela Dai, Mengyuan Yan, Leonidas J. Guiba, “Volumetric
and Multi-view CNNs for Object Classification on 3D Data”, in CVPR, 2016.
【44】
Keywords: 3D object classification, 2D-based CNN, 3D volumetric CNN
新規性・差分
手法概要
・3D形状モデルの物体カテゴリ識別問題は、3D CNNを用
いたものとマルチビュー画像を入力する2DベースのCNN
を用いたものが提案されている。後者のほうが遥かに高性
能であると言われてきたが、それは解像度が原因か、はた
またネットワークアーキテクチャの問題か?その解析を行
うとともに、両アプローチの改良を行い、state-of-the-art
の性能を示すとともに、30x30x30のボクセル解像度を用
いた場合のmulti-view CNNと3D volumetric CNNの性能が
同等となることを確認した。
・2Dベース手法と3Dボクセル手法の性能差の原因を解析
・両手法の改良
・state-of-the-artの性能実現
・同解像度にて両手法がcomparativeであることを確認
・3Dボクセル手法のボトルネックが解像度であるとの結論
1. Volumetric CNN(3D)に関して
・ネットワークアーキテクチャ改良
・回転のData augmentation+複数の姿勢データを入力
Links
ソースコード
https://github.com/charlesq34/3dcnn.torch
2. Multi-View CNN(2D)に関して
・multi-resolutionを使うことでMulti-View CNNも改良
German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez, “The SYNTHIA Dataset: A Large
Collection of Synthetic Images for Semantic Segmentation of Urban Scenes”, in CVPR, 2016.
【45】
Keywords: synthesized data, semantic segmentation
新規性・差分
データセット概要
・人工的に作成した大規模な都市画像データセット。特に
自動運転タスクに重要な物体であるstreet blocks,
highways, rural areas, shops, parks and gardens, general
vegetation, variety of pavements, lane markings, traffic
signs, lamp poles, そして人間を含んでいる。
・自動運転のためのSemantic Segmentationの新しい大規模データセットSYNTHIAを作成
・人工的に、さまざまな照明変化と天気の変化を加え、多数の視点からのデータを作成
・合成画像なので人手のアノテーション作成が不要
・リアルデータの学習セットにSYNTHIAを加えることで性能向上
・SYNTHIA-Rand:ランダムに撮影した13,400枚の画像
・SYNTHIA-Seqs:約50,000枚の連続フレームからなる動画4本
Links
プロジェクト
http://adas.cvc.uab.es/synthia
Jialin Wu, Gu Wang, Wukui Yang, Xiangyang Ji, “Action Recognition with Joint Attention on Multi-Level
Deep Features”, in BMVC, 2016.
【46】
Keywords: Action Recognition, CNN, RNN
新規性・差分
概要
CNNとRNN(LSTM)を用いて複数階層の特徴量にアクセス
することにより、行動認識の精度を向上させる.提案手法
の構造には複数の枝分かれしたMulti-branch modelが含ま
れる.この仕組みにより背景のノイズに頑健な認識ができ
ると主張した.C3Dの3D Convolution [Tran+, ICCV15]に
より作成されたCNNをLSTMに入力.
・畳み込みやLSTMの仕組み自体ではなく,そのアーキテ
クチャの構造により新しさを出した.
・State-of-the-artではないが,UCF101で90.6%,
HMDB51にて61.7%と良好な性能を出した.
Links
論文 http://arxiv.org/pdf/1607.02556v1.pdf
プロジェクト
Jordan M. Malof, Kyle Bradbury, Leslie M. Collins, Richard G. Newell, “Automatic Detection of Solar
Photovoltaic Arrays in High Resolution Aerial Imagery”, in arXiv pre-print 1607.06029, 2016.
【47】
Keywords: Drone, UAV, Solar Panel
新規性・差分
概要
航空画像からのソーラーパネルの検出.135km^2に渡る観
測を実行した.データは5,000x5,000[pixels]の画像600枚
により構成される.アノテーションされた2,700箇所のデ
ータにより学習と検出を行った.手法にはRandom
Forestsを用いて,後処理により精度を高めている.特徴
は注目点の周辺から画素を蓄積する.
・Pixel-wiseのセグメンテーションを実行.また,物体レ
ベルの認識も提供している.
Links
論文 https://arxiv.org/ftp/arxiv/papers/1607/1607.06029.pdf
プロジェクト
Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig, “Virtual Worlds as Proxy for Multi-Object
Tracking Analysis”, in CVPR, 2016.
【48】
Keywords: object detection
手法
結果
概要
・様々なタスクで利用可能な,CGによるデータセットであ
る
Virtual KITTI Datasetを提案.object detection, tracking,
scene and instance segmentation, depth, optical flow用の
ground truthを含む.
・KITTI tracking benchmarkを元に5つのクローンを作成.
・UnityのAssetを配置.位置・向きは実写データから取得し設定.
・CGを使用するため,特定の1条件のみ変更し評価可能.車の数・軌跡・
速度・サイズ・色・モデル,カメラの位置・向き・パス,天気・照明条件
を変更可能.
・データセットは7種の変動を含む.
・歩行者は除外.
・実写データで学習した場合と,CGデータで学習した場合の精度の差は
小さい.評価指標によっては差がでるが,実写データのアノテーションが
一部省略されていることが原因と考えられる.
・CGデータでプレトレーニングし,実写データでファインチューニング
することで精度向上.
・7種の変動のうち,天気の変化(特に霧)が悪影響.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Gaidon
_Virtual_Worlds_as_CVPR_2016_paper.pdf
プロジェクト http://www.xrce.xerox.com/Research-
Development/Computer-Vision/Proxy-Virtual-Worlds
新規性・差分
・ゼロから作るのではなく,実写映像のクローンを作ること
でCGデータセットを作成.
・multi-object trackingにおいて,CGデータが実写データの
代替として有用であることを確認.
KITTI (multi-object
tracking benchmark)
Virtual KITTI
ground truth (optical flow,
segmentation, depth)
Alexey Dosovitskiy, Philipp Fischer, Eddy Ilg, Philip Hausser, Caner Hazirbas, Vladimir Golkov, Patrick
van der Smagt, Daniel Cremers, Thomas Brox, “FlowNet: Learning Optical Flow With Convolutional
Networks”, in ICCV, 2015.
【49】
Keywords: Optical Flow
概要
・CNNによりオプティカルフロー推定を行う
FlowNetを提案.
・学習用データセットとして,椅子が空を飛ぶデー
タセットであるFlying Chairs datasetを提案.
Links
論文 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Dosovitskiy_FlowNet_
Learning_Optical_ICCV_2015_paper.pdf
プロジェクト http://lmb.informatik.uni-freiburg.de/Publications/2015/DFIB15/
新規性・差分
・従来のデータセットはオプティカルフロー推定用
CNNの学習には不十分だったが,実写背景に椅子
のCGを重畳し,アフィン変換でランダムに椅子を
飛ばすことで大量のデータを生成.
・このような非現実的なデータセットで学習しても,
SintelやKITTIに適用し,他手法と近い精度を実現で
きることを確認.
Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel Cremers, Alexey Dosovitskiy, Thomas
Brox, “A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow
Estimation”, in CVPR, 2016.
【50】
Keywords: Scene Flow, Optical Flow, Disparity, Stereo Matching
データセッ
ト
結果
概要
・CNNによるオプティカルフロー推定を,視差・シーンフ
ローの推定に拡張.
・CGによる3種のステレオ動画データセットを提供.シーン
フローの学習・評価を可能にする最初の大規模データセット.
・シーンフローのground truthとして重要なdisparity changeを計算.
・セグメンテーションラベルは物体レベルと材質レベルの2種を用意.
・視差推定はKITTI 2015 benchmarkにおいて,MC-CNN-acrt
[Zbontar+,arXiv2015]と比較し,精度で少し劣るが1000倍高速.リアルタ
イムの手法のMBM [Einecke+,IV2015]と比較し,誤差30%低減.
・個々のタスクを別々に解くより,SceneFlowNetで統合して解く方が高
精度.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR
_2016_paper.pdf
プロジェクト http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/
新規性・差分
・先行研究のFlowNet [Dosovitskiy+,ICCV2015]では,椅子が空を
飛ぶデータセットであるFlying Chairs Datasetにより,オプティカ
ルフロー推定用CNNを学習.
・本論文では,Stanford ShapeNetの様々な物体が奥行きの変化も
含めて空を飛ぶFlyingThings3D dataset(他2種)により,シーン
フロー推定用CNNを学習.
(2)Monkaa
(Sintelを意識)
(3)Driving
(KITTIを意識)
(1)FlyingThings3
D
手法
・オプティカルフローを推定するFlowNet,視差を推定する
DispNetを学習.その後,2つを下図のように統合した
SceneFlowNetを学習.
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

More Related Content

What's hot

【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017cvpaper. challenge
 
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016cvpaper. challenge
 
【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper. challenge
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016cvpaper. challenge
 
【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper. challenge
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016cvpaper. challenge
 
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016cvpaper. challenge
 
【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper. challenge
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016cvpaper. challenge
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016cvpaper. challenge
 
【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper. challenge
 
【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 

What's hot (20)

【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017
 
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
 
【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
 
【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
 
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
 
【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
 
【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017
 
cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)
 
【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015
 

Viewers also liked

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
【2016.10】cvpaper.challenge2016
【2016.10】cvpaper.challenge2016【2016.10】cvpaper.challenge2016
【2016.10】cvpaper.challenge2016cvpaper. challenge
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)cvpaper. challenge
 
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper. challenge
 
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)cvpaper. challenge
 
MLM MARKETING PLAN
MLM MARKETING PLANMLM MARKETING PLAN
MLM MARKETING PLANPhyo Wai Zaw
 
Chinese attack on USIS exploiting SAP vulnerability. Detailed review and comm...
Chinese attack on USIS exploiting SAP vulnerability. Detailed review and comm...Chinese attack on USIS exploiting SAP vulnerability. Detailed review and comm...
Chinese attack on USIS exploiting SAP vulnerability. Detailed review and comm...ERPScan
 
Oracle PeopleSoft applications are under attacks (Hack in Paris)
Oracle PeopleSoft applications are under attacks (Hack in Paris)Oracle PeopleSoft applications are under attacks (Hack in Paris)
Oracle PeopleSoft applications are under attacks (Hack in Paris)ERPScan
 
All your SAP passwords belong to us
All your SAP passwords belong to usAll your SAP passwords belong to us
All your SAP passwords belong to usERPScan
 
With big data comes big responsibility
With big data comes big responsibilityWith big data comes big responsibility
With big data comes big responsibilityERPScan
 
Following Component Architecture in Sitecore solutions - Anders Laub @ SUGCON...
Following Component Architecture in Sitecore solutions - Anders Laub @ SUGCON...Following Component Architecture in Sitecore solutions - Anders Laub @ SUGCON...
Following Component Architecture in Sitecore solutions - Anders Laub @ SUGCON...Anders Laub Christoffersen
 
EAS-SEC Project
EAS-SEC ProjectEAS-SEC Project
EAS-SEC ProjectERPScan
 
【2015.06】cvpaper.challenge@CVPR2015
【2015.06】cvpaper.challenge@CVPR2015【2015.06】cvpaper.challenge@CVPR2015
【2015.06】cvpaper.challenge@CVPR2015cvpaper. challenge
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 

Viewers also liked (15)

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
【2016.10】cvpaper.challenge2016
【2016.10】cvpaper.challenge2016【2016.10】cvpaper.challenge2016
【2016.10】cvpaper.challenge2016
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
 
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
 
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
 
MLM MARKETING PLAN
MLM MARKETING PLANMLM MARKETING PLAN
MLM MARKETING PLAN
 
THE WORLD IN A NUTSHELL
THE WORLD IN A  NUTSHELLTHE WORLD IN A  NUTSHELL
THE WORLD IN A NUTSHELL
 
Chinese attack on USIS exploiting SAP vulnerability. Detailed review and comm...
Chinese attack on USIS exploiting SAP vulnerability. Detailed review and comm...Chinese attack on USIS exploiting SAP vulnerability. Detailed review and comm...
Chinese attack on USIS exploiting SAP vulnerability. Detailed review and comm...
 
Oracle PeopleSoft applications are under attacks (Hack in Paris)
Oracle PeopleSoft applications are under attacks (Hack in Paris)Oracle PeopleSoft applications are under attacks (Hack in Paris)
Oracle PeopleSoft applications are under attacks (Hack in Paris)
 
All your SAP passwords belong to us
All your SAP passwords belong to usAll your SAP passwords belong to us
All your SAP passwords belong to us
 
With big data comes big responsibility
With big data comes big responsibilityWith big data comes big responsibility
With big data comes big responsibility
 
Following Component Architecture in Sitecore solutions - Anders Laub @ SUGCON...
Following Component Architecture in Sitecore solutions - Anders Laub @ SUGCON...Following Component Architecture in Sitecore solutions - Anders Laub @ SUGCON...
Following Component Architecture in Sitecore solutions - Anders Laub @ SUGCON...
 
EAS-SEC Project
EAS-SEC ProjectEAS-SEC Project
EAS-SEC Project
 
【2015.06】cvpaper.challenge@CVPR2015
【2015.06】cvpaper.challenge@CVPR2015【2015.06】cvpaper.challenge@CVPR2015
【2015.06】cvpaper.challenge@CVPR2015
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 

Similar to 【2016.07】cvpaper.challenge2016

[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutionsharmonylab
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_poseharmonylab
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Daiki Shimada
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...Shunsuke Ono
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法についてMasanoriSuganuma
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...Deep Learning JP
 
[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text GenerationDeep Learning JP
 
Adversarial Feature Matching for Text Generation
Adversarial Feature Matching for Text GenerationAdversarial Feature Matching for Text Generation
Adversarial Feature Matching for Text GenerationYuya Soneoka
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)cvpaper. challenge
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナーPFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナーMatlantis
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況cvpaper. challenge
 

Similar to 【2016.07】cvpaper.challenge2016 (20)

[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
 
[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation
 
Adversarial Feature Matching for Text Generation
Adversarial Feature Matching for Text GenerationAdversarial Feature Matching for Text Generation
Adversarial Feature Matching for Text Generation
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナーPFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 

【2016.07】cvpaper.challenge2016

  • 2. Justin Johnson, Andrej Karpathy, Li Fei-Fei, “DnseCap: Fully Convolutional Localization Networks for Dense Captioning”, in CVPR, 2016. 【1】 Keywords: Dense Captioning 新規性・差分 概要 画像の密なキャプショニングに関する研究.画像生成文を検出したbboxベー スで行うという研究である.物体認識と物体検出のように,画像生成文と Dense Captioningの関係性があると主張している.現在,10万の画像に対し て5百万のキャプショニングのラベルがつけられたデータVisual Genomeを公 開して研究の推進に役立てている.Region Proposal ~ CNN ~ RNNまでを End-to-Endで学習していて,さらにはコードを公開しリアルタイムで動作す る仕組みを用いた. ・従来の画像に対するキャプショニングとは異なり,領域 ベースの候補領域抽出を行った. Links 論文 http://cs.stanford.edu/people/karpathy/densecap.pdf プロジェクト http://cs.stanford.edu/people/karpathy/densecap/ データセット https://visualgenome.org/ コード https://github.com/jcjohnson/densecap Justin Johnson http://cs.stanford.edu/people/jcjohns/
  • 3. Jean-Baptiste Alayrac, Piotr Bojanowski, Nishant Agrawal, Josef Sivic, “Unsupervised Learing From Narrated Instruction Videos”, in CVPR, 2016. 【2】 Keywords: Video Captioning, Narration, Instruction 新規性・差分 概要 ビデオから説明書となる説明文を生成して,のちに動画検 索やロボットへのインストラクションを行う.ビデオキャ プショニングや行動認識・イベント認識の総合的な問題で あると言える.映像データは約2分で構成され,タスクに 対して最低30のビエオが含まれる.各ビデオには7~10の ステップが存在する.テキストクラスタリング,ビデオク ラスタリングを行い,説明文を対応づける. ・動画像を入力とした生成文に対して,アプリケーション 的な部分にフォーカスしている ・ビデオから説明文を生成することにより,教育用の説明 を付与することができる Links 論文 http://www.di.ens.fr/~alayrac/papers/alayrac16unsupervised.pdf
  • 4. Haonan Wu, Jiang Wang, Zhiheng Huang, Yi Yang, Wei Xu, “Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks”, in CVPR, 2016. 【3】 Keywords: Video Captioning 新規性・差分 概要 Sentence GeneratorやParagraph Generatorをそれぞれの RNNが担うことで動画生成文の構成をよくする.画像特徴 はVGG-16,動画特徴はC3Dを用いて表現することで認識 の性能を向上した. ・2段構成の階層的なRNNモデルを用いることで,動画生 成文の表現能力を向上させた Links 論文 http://arxiv.org/pdf/1510.07712v1.pdf
  • 5. Kevin J. Shih, Saurabh Singh, Derek Hoiem, “Where to Look: Focus Regions for Visual Question Answering”, in CVPR, 2016. 【4】 Keywords: Visual Question Answering (VQA) 新規性・差分 概要 画像に対する質問回答に対して,「画像のどこをみればよ いのか」という位置を特定する研究である.画像特徴や文 章のキーワード特徴の対応づけや重み付けによりキーワー ドに対する画像領域に対して顕著性のようなヒートマップ を生することができる. ・言語と画像の入力から,どこをみれば良いのかまた画像 に対する質問回答に対して効果的なアプローチを提供でき ていると言える Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Shih_W here_to_Look_CVPR_2016_paper.pdf VQAサーベイ http://iamaaditya.github.io/research/literature/
  • 6. German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez, “The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes”, in CVPR, 2016. 【5】 Keywords: Semantic Segmentation, Domain Adaptation, Transfer Learning 手法 結果 概要 ・セマンティックセグメンテーション用に,CGによる仮 想世界データセットであるSYNTHIA Datasetを作成. ・実世界データと合わせることで大幅に精度向上. ・SYNTHIA Dataset: - 季節・天気・照明条件・視点の変動を含む. - pixel-levelのクラス情報とdepth情報を持つ. ・CNNは,T-Net[Ros+,arXiv2016] と FCN[Long+,CVPR2015] を使用. ・実世界データとCGデータを併用して学習するため, BGC (Balanced Gradient Contribution) [Ros+,arXiv2016]を使用. 学習時の各batchは,実世界データ6枚とCGデータ4枚を含む. ・実世界データとCGデータを併用して学習することで, 実世界データのみで学習した場合と比較し精度向上. (Camvid, KITTIの場合,Class Accuracyが10%前後向上.) Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Ros_Th e_SYNTHIA_Dataset_CVPR_2016_paper.pdf プロジェクト・動画 http://synthia-dataset.net/dataset/ 新規性・差分 ・CGデータを用いた先行研究では,物体検出・姿勢推定・屋 内シーンのセマンティックセグメンテーションが行われてい る. ・本論文は,都市環境のセマンティックセグメンテーション におけるCGデータの有効性を示した.
  • 7. German Ros, Simon Stent, Pablo F. Alcantarilla, Tomoki Watanabe, “Training Constrained Deconvolutional Networks for Road Scene Semantic Segmentation”, in arXiv pre-print 1604.01545, 2016. 【6】 Keywords: Semantic Segmentation, Domain Adaptation, Transfer Learning, Distillation, Compression 手法 結果 概要 ・転移学習による高精度・省メモリなセマンティックセ グメンテーション用ネットワークであるT-Netを提案. ・ランタイム・メモリ使用量無視の高精度ネットワークである S-Net(source network)を生成. S-Netは,2つのFCN[Long+,CVPR2015]のアンサンブル. ・Distillation [Hinton+,arXiv2015] に類似した手法で, SegNetと同様のネットワークT-Net (target network) に転移学習. ・WCE (weighted cross-entropy) を使用し,クラスごとのデータの偏りを考慮. ・異なるデータを統合したデータセットに適用するため, BGC (Balanced Gradient Contribution)を使用. ・FCNの1%のメモリ使用量で,FCNを越える精度を達成. (下図のT-Net TK-SMP-WCE) Links 論文 http://arxiv.org/pdf/1604.01545v1.pdf 新規性・差分 ・転移学習をセマンティックセグメンテーション用のネ ットワークに適用・拡張し,有効性を確認. ・セマンティックセグメンテーション用のデータが少数 である問題を解決するため,既存データセットを統合し たMulti-Domain Road Scene Semantic Segmentation (MDRS3) datasetを作成.
  • 8. Quanzeng You, Hailin Jin, Zhaowen Wang, Chen Fang, Jiebo Luo, “Image Captioning with Semantic Attention”, in CVPR, 2016. 【7】 Keywords: Image Captioning, Attention 新規性・差分 手法概要 ・attributeを予想しそれらについての単語ベクトルについ てのattentionをかけたベクトルを利用することにより画像 説明文生成タスクにおいて最高精度を達成 ・画像説明文の新規手法の提案 ・予想されたAttributeの単語ベクトルにAttentionをかけて 足し合わせたベクトルの有効性を示す ・RNNの入力xtには前の単語のベクトル(最初のステップでは画像特徴)と Attributeにattentionをかけて足し合わせた特徴量の和を入力する Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/You_Im age_Captioning_With_CVPR_2016_paper.pdf ・また、attentionの度合いαiは以下の通り ・attributeの推定方法は二種類を試す ① Non-parametric: 画像特徴量の距離をもとにtest画像と近いものを学習用画 像から持ってきて、その画像に 付与された説明文におけるTerm Frequencyをもとにattributeを付与 ②Parametric: 識別器を学習させる だけ、From visual captions to visual concepts and backと同様 →Parametricなapproachでattribute を推定したほうが良い
  • 10. Tatsunori Taniai, Sudipta N. Sinha, Yoichi Sato, “Joint Recovery of Dense Correspondence and Cosegmentation in Two Images”, in CVPR, 2016. 【8】 Keywords: cosegmentation, correspondence estimation, graph cuts 概要 ・2枚の画像のdense correspondence estimationと cosegmentationを同時に行う手法を提案. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Taniai_Joint_ Recovery_of_CVPR_2016_paper.pdf プロジェクト http://taniai.space/projects/cvpr16_dccs/ スライド http://www.slideshare.net/TatsunoriTaniai/solving- segmentation-and-dense-correspondence-problems-using-graph-cuts 新規性・差分 ・correspondence estimationとcosegmentationを同時に行う階層的 MRFモデルを提案. ・iterated graph cutsを用いたエネルギー最小化により,graph structureとlabelingを同時に推論する最適化手法を提案. ・400組の画像からなる新規データセットを提供.
  • 11. Seunghoon Hong, Junhyuk Oh, Bohyung Han, Honglak Lee, “Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional Neural Network”, in CVPR, 2016. 【9】 Keywords: Semantic Segmentation, Deep Convolutional Neural Network 新規性・差分 概要 ・Deep Convolutional Neural Networkに基づいた弱教師あ りセマンティックセグメンテーションアルゴリズムの提案 ・decoupled encoder-decoder architectureを構築 ・Microsoft COCO datasetで学習したとき,PASCAL 2012 datasetにおいて,最先端の弱教師ありの技術と比較 してパフォーマンスの向上を確認 ・既存の弱教師ありアルゴリズムとは異なり,画像レベル のクラスラベルを持つ画像のセグメンテーションを行うた めに,異なるカテゴリにも利用可能な補助セグメンテーシ ョンアノテーションを利用. ・各カテゴリ間のセグメンテーション情報を共有するため に,アノテーションモデルのdecoupled encoder-decoder architectureを使用.このアーキテクチャでは,各カテゴリ の空間的なハイライトをを生成し,デコーダによって各ハ イライト領域の前景を分割. ・アノテーションモデルを組み合わせることで,異なるカ テゴリで学習されたデコーダのセグメンテーションの性能 を向上. Links 論文 http://arxiv.org/pdf/1512.07928v1.pdf プロジェクト http://cvlab.postech.ac.kr/research/transfernet/ code https://github.com/maga33/TransferNet
  • 12. Jinshan Pan, Deqing Sun, Hanspeter Pfister,Ming-Hsuan Yang, “Blind Image Deblurring Using Dark Channel Prior”, in CVPR, 2016. 【10】 Keywords: deblur,cnn 新規性・差分 概要 ・画像のぼけを修正する手法について. CVPR2009のdark channel priorを元にしている.部分領 域のRGB成分の最小値を取ってくると,ぼけ成分のみを 含んだ画像(dark channel)となる. dark channelに着目し 畳み込み演算を用いることでシンプルで効果的なぼけ除 去を実現している. ・2つの自然blur画像データセットを用いて,最新 手法と精度を比較している. 一般的な自然画像や 顔画像,文字や暗い画像についても優れた結果が得 られている. Links 論文 http://faculty.ucmerced.edu/mhyang/papers/cvpr16_dark_chan nel_deblurring.pdf
  • 13. Limin Wang et al., “ActivityNet Challenge 1st prize of untrimmed video classification”, in CVPRW, 2016.【11】 Keywords: ActivityNet Challenge, Action Recognition 新規性・差分 概要 行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動識別第一位の手法. CES-STARというチームで行動識別の問題に取り組んだ.Mean Average Precisionが93.23% (200クラス分類)という識別率で勝利した. 戦略としてはVisual Analysis, Fusion, Audio Analysisを実行することで行動認識を実行.単純にCNN特徴を全てのフレームから取り出す のではなく,重要なフレームをセグメント化して特徴を取り出すことにした.Deep Segmental Networkと呼称されるResNetをベースと した手法により重要なフレームからのみ特徴抽出を実行する.時系列特徴ではVery Deep Two-stream CNNやTDDをベースとする. Deep Segmental Network からConsensus Function(重要フレームを選択)を計算,フレーム方向のSliding Window Aggregationにより有効 なフレームから特徴抽出して行動認識の結果を得る.音声の特徴抽出にはResNetをベースとしたAudio CNN (Deep Convolutional neural networks and data augumentation for acoustic event detection, arxiv)も用いている. ・ActivityNetの識別タスクにて第一位を獲得.mAPが93.233%, Top-1が88.136%,Top-3が96.421%であった. ・Deep Segmental NetworksはHMDB51にて69.0%,UCF101にて94.3%の結果を得ることができた. Links プロジェクト http://activity-net.org/challenges/2016/ 著者ページ http://wanglimin.github.io/
  • 14. Ruxin Wang et al., “ActivityNet Challenge 2nd prize of untrimmed video classification”, in CVPRW, 2016. 【12】 Keywords: ActivityNet Challenge, Action Recognition 新規性・差分 概要 行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動識別第二位の手法. 特徴抽出と特徴統合、探索の戦略により認識や検出を行った.ビデオの入力から特徴抽出(CNN+VLAD, ResNet-152 ImageNet Pre-trained model, Inception-v3, ResNet-152 PlaceNet Pre-trained model + PCA1024 dims)、IDT+Fisher vector, Two-Stream Very Deep CNN (flow), C3Dのfc7,音声特徴であるMFCCを取得. 特徴統合にはMulti-view intact space learningを用いてintact spaceを理解 [multi-view intact space learning, PAMI2015]. Latent Intact Representationを1500次元に設定. ・ActivityNetの識別タスクにて第一位を獲得.mAPが92.413%, Top-1が87.792%, Top-3が97.084%であった. ・Intact Space を導入して視点変化に対応した学習を実行した. Links プロジェクト http://activity-net.org/challenges/2016/
  • 15. Ruxin Wang et al., “ActivityNet Challenge 1st prize of Activity Detection”, in CVPRW, 2016. 【13】 Keywords: ActivityNet Challenge, Action Detection 新規性・差分 概要 行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動検出第一位の手法. 各クラスに対してSVMを作成,各ポジティブ・ネガティブごとにIoU overlapが0.7以上のものを採用した.Break off both ends によりキーフレーム間を切り抜くこととして,Temporal Segmentationでは30フレームのウインドウを走査.Segment Combinationではトリミングされたビデオとそのラベルを参照してポジティブスコアが高ければ統合や行動検出を行う. ・0.5 IoUではmapが43%,Recallが65%であった. Links プロジェクト http://activity-net.org/challenges/2016/
  • 16. Gurkirt Singh Singh et al., “ActivityNet Challenge 2nd prize of Activity Detection”, in CVPRW, 2016. 【14】 Keywords: ActivityNet Challenge, Action Detection 新規性・差分 概要 行動認識の大規模データベースであるActivityNetのコンペティションにおいて、行動検出第二位の手法. 行動検出はフレーム位置とその行動ラベルを当てる問題である.特徴量はImageNet Shuffle 特徴(GoogleNet, imagenet shuffle features, arxiv1602), IDT-MBH (65536dims), C3D(frame-level, 16 frame accumulation).これらの特徴量をSum Product, SVMによりつなげると77%にまで向上する. ・Temporal trimming for proposal generationはBinary Random Forests + C3D 特徴により行った結果,Recallが64%となった. Links プロジェクト http://activity-net.org/challenges/2016/ 著者 https://scholar.google.co.in/citations?user=w8XHUMIAAAAJ&h l=en
  • 17. “ActivityNet Challenge”, in CVPRW, 2016. 【15】 Keywords: ActivityNet Challenge 概要 ActivityNet Challengeでの識別,検出結果について一位,二位以外を記述する.(公表なしは記述なし) ・行動認識 【10位】IDT, GoogleNet, C3D, SVM 【9位】Data augmentation, IDT, Audio, SVM 【8位】MBH, C3d, googlenet, vgg16, resnet101, svm late fusion 【6位】RGBCNN, FlowCNN, C3D RGB, C3D flow 【5位】two-stream, resent fine-tuned, action segmentsのみトレーニング 【3位】2d cnn quantization, 2d cnn pooling, 3d cnn pooling, idt+fv, ocr, mfcc ・行動検出 【6位】C3D(4096dims)とLSTM(512dims) 【4位】two-stream, resent fine-tune, action segment for training, sliding window 【3位】MSNとLSTM (Singh et al. CVPR16論文あり) ・総括 今回の行動検出はフレームごとの検出(どちらかというとフレームのセグメント化に近い)であったが,次回は画像内の位置を当てる行 動検出も取り入れる(UCF101やTHUMOSよりも行動検出が難しくなる!).また,次回はGoogle DeepMindの提供で1000クラスの行 動認識(各クラス500サンプル以上)も導入することを発表した. Links プロジェクト http://activity-net.org/challenges/2016/ Cees Snoek http://www.ceessnoek.info/ Bernard Ghanem http://www.bernardghanem.com/ Juan Carlos Niebles http://www.niebles.net/
  • 18. Mohamed E. Hussein and Mohamed A. Ismail, “Visual Comparison of Images Using Multiple Kernel Learning for Ranking”, in BMVC, 2015. 【16】 Keywords: Attribute, Visual comparison of images 新規性・差分 概要 順位付け問題のために一般化されたカーネル学習のフレー ムワークの提案.提案手法は,元データを記述するために 最適な特徴統合を提示する.実験結果より,提案したフレ ームワークが最先端手法の性能と処理時間を著しく上回っ た. 複数のカーネル学習を画像比較へ応用したフレームワ ークである。順位付け複数カーネル学習(Rank MKL)の 提案.提案手法では複数特徴を統合する 際に特徴ごと のカーネ Links Paper : http://www.bmva.org/bmvc/2015/papers/paper095/abstract095.pdf Author :https://sites.google.com/site/mhelhoseiny/ 提案するフレームワークの概要: はじめに画像より複数の特徴を 抽出する.次に特徴ごとのカーネルを用いて複数カーネル学習よ り,特徴統合のための特徴ごとのカーネルの重みを最適化する. 最後にRank MKLにより画像比較を行う. ルの重みを最適化することで,画 像特有の記述を生成する.よって 以下の式中のカーネルの重みdを最 適化する.
  • 19. Tong Xiao, Hongsheng Li, Wanli Ouyang, Xiaogang Wang, “Learning Deep Feature Representations with Domain Guided Dropout for Person Re-identification”, in CVPR, 2016. 【17】 Keywords: Person Re-ID, Domain Adaptation, Domain Guided Dropout 新規性・差分 概要 人物再同定のための特徴学習とドメイン変換に関する研究である.ImageNet では膨大なデータが存在して効果的な特徴学習を行うことができるが,人物 再同定ではその規模のデータが揃うわけではない.その一方で,近年データ セットの種類が増えてきているので,公開されている全てのRe-IDを統合する ことで特徴学習し,さらに重みを調整することでタスクに応じて識別器を構 成することができると主張した. ・データセット間に共通した特徴を学習し,Fine-tuningの際にDomain Guided Dropoutを適用し,本提案のような特徴学習を効果的に行えることが 判明した.このDropoutによりタスク転換の際に必要ないタスクの重みを効 果的に除去することができる. ・Domain Guided Dropoutによりシンプルかつ効果的に,各データに対する State-of-the-artを達成した(図や表より). Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_ 2016/papers/Xiao_Learning_Deep_Featur e_CVPR_2016_paper.pdf コード https://github.com/Cysu/dgd_person_reid
  • 20. Waqas Sultani, Mubarak Shah, “What if we do not have multiple videos of the same action? - Video Action Localization Using Web Images”, in CVPR, 2016. 【18】 Keywords: Action Detection, Weakly Supervised Learning, Web Images 新規性・差分 概要 Web画像を用いた学習による,動画像からの行動検出に関する研究である.従 来ではある程度拘束があるビデオを用いるが,本論文では拘束がなく長時間の ビデオからいかに人物行動のローカライズを行うかという設定で研究する.学 習にはキーワードベースの画像検索により収集した画像を,テスト時には行動 候補領域を抽出し,Web画像から収集した画像により学習された識別器により 行動検出を実行する.候補領域の抽出には[Cho+, CVPR15]を用いた.(1) キー フレームからの候補領域やその特徴,(2) 相関行列とその平均の誤差,(3) 相関 行列の値を最小化するように条件付けして最適化. ・大規模な学習データが揃わずとも,キーワードベースに より検索されたweb画像により学習した識別器でも高精度 な行動検出ができることが判明した. ・右下の表のように,UCF-Sportsデータに対して良好な 性能を実現した.THUMOSに対しても精度を算出した. Links 論文 http://crcv.ucf.edu/papers/cvpr2016/CVPR16_Waqas_AL.pdf ビデオ https://www.youtube.com/watch?v=99FE9XOeX-k 候補領域抽出 [Cho+, CVPR15] http://www.di.ens.fr/willow/pdfscurrent/cho2015.pdf
  • 21. Jingjing Meng, Hongxing Wang, Junsong Yuan, Yap-Peng Tan, “From Keyframes to Key Objects: Video Summarization by Representative Object Proposal Selection”, in CVPR, 2016. 【19】 Keywords: Keyframe, Keyobject 新規性・差分 概要 From Keyframes to Key Objectsというタイトルのとおり,動画像中の キーフレームから候補領域の抽出により,重要な物体位置を抽出する. フレームワークは(1) キーフレーム検出や物体候補領域の抽出 (2) 候補 領域のリファインメント (3) 最適化の問題を勾配近似問題に置き換え, Fast Iterative Shrinkage Thresholding Algorithm (FISTA)により解決す る. ・キーフレームのみならず,そのフレーム内の重要物体を 抽出することでより詳細な情報にアクセス可能となる. ・FISTAを提案して辞書学習時における選択の勾配近似問 題を解決した. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Meng_ From_Keyframes_to_CVPR_2016_paper.pdf
  • 22. Weiyang Liu, Yandong Wen, Zhiding Yu, Meng Yang, “Large-Margin Softmax Loss for Convolutional Neural Networks”, in ICML, 2016. 【20】 Keywords: Softmax, Neural Network 新規性・差分 手法 概要 ・Neural Networkを用いてマルチクラス識別に取り組む際 にはよくSoftmax関数に基づいた交差エントロピーロスが 用いられる。これはSoftmax Lossと呼ばれたりもする。 ・Softmax LossにLarge-Margin的な考えを追加した手法を 提案し、勾配降下法で学習する方法も同時に示す ・過学習を防ぐ効果もある ・Large-Margin Softmax Loss (L-Softmax Loss) の提案 ・L-Softmax Lossを用いた場合に勾配降下法でどのように 最適化すればいいかを提案 ・L-Softmax Lossを用いた実験を行う ・Softmax Lossはfiをi番目のクラスのpre-activationとして以下のように表現 できる Links 論文 http://jmlr.org/proceedings/papers/v48/liud16.pdf ・fjは一つ前の結合層の重みのj行目をWj、一つ前のactivationのベクトルをxi、 両者の角度をθjとして以下のようにも表現できる ・正解ラベルに関する角度θyiがm倍大きくなったとしてもやはり正解ラベル に対応するconfidenceが大きくなるようにしたいという要望から、次のL- Softmax Lossを提案 ただし、 ・mが整数の場合、cos(mθ)はcos(θ)=(Wyi・xi)/(||Wyi||・||xi||)を用いて表現でき、 それを元にLに勾配降下法を適用 結果 ・各種タスクで既存手法を上 回る性能を達成 ・左の図は学習された特徴量 Cifar10 Cifar10 データ拡張有 MNISTでL-Softmax Lossを用いて学習された特徴量(左からm=1,...,4)
  • 23. Yang Gao, Oscar Beijbom, Ning Zhang, Trevor Darrell, “Compact Bilinear Pooling”, in CVPR, 2016. 【21】 Keywords: Bilinear Pooling, Feature Coding, Kernel Approximation 新規性・差分 手法 概要 ・Bilinear Poolingは有効であるが特徴量の次元をNとすると 次元数がO(N^2)である ・Bilinear Poolingの内積は、2次までの多項式カーネルの 特殊系と見なせるため、多項式カーネルと対応する再生核 ヒルベルト空間での表現を近似するための手法を適用する ことが可能であるため、2種類の近似手法を試す ・誤差逆伝播の方法も提唱 ・各種タスクで特徴量を圧縮しても高い性能が出ることを 確認 ・Bilinear Poolingと多項式カーネルの関係性の解析 ・Bilinear Poolingの次元削減手法の提案 ・誤差逆伝播の方法の提唱 ・各種タスクでの実験 ・Bilinear Poolingは右のように表現できる: ・これらの内積は以下のように変形可能 ・これをもとにBilinear Poolingの性能の良さは2次までの多項式カーネルを 用いたカーネルマシンの性質を持っているからあると説明可能としている。 ・次元圧縮のために多項式カーネルの低次元近似手法であるRandom Maclaurin (RM)とTensor Sketch (TS)を使うことを提案し、両者ともに誤差 逆伝播を用いてパラメータ学習する。 Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Gao_C ompact_Bilinear_Pooling_CVPR_2016_paper.pdf 結果 ・右のグラフは特徴量CUBデータセットにおける実 験結果。元の次元数は25万程度だが、提案手法を用 いてfine-tuningした場合4096次元程度しかなくても 同程度の性能が出ることがわかる。 ←2次までの多項式カーネル 各手法の比較
  • 24. Luis Herranz, Shuqiang Jiang, Xiangyang Li, “Scene Recognition with CNNs: objects, scales and dataset bias”, in CVPR, 2016. 【22】 Keywords: Hybrid-CNN, ImageNet and PlaceNet 新規性・差分 概要 シーン認識の問題を扱う際に,ImageNetやPlaceNetのデータを 用いてデータセットのバイアスからなる特徴の偏りを解消する. 従来ではHybrid-CNN [23]によりこの問題に取り組んだが, ImageNetの特徴はシーン認識をうまく向上させるための手がか りとはなりえなかった.本論文ではImageNetのスケールを考慮 し,さらにはデータセットの偏りの問題を取り扱うことで効果 的にシーン認識の手がかりとして,Hybrid-CNNがうまくいくた めの成功例となった. ・ImageNetとPlaceNetのHybrid-CNNに対してスケールや データバイアスの考慮によりシーン認識の精度が向上 ・SUN397に対して66.26%とstate-of-the-artな精度を実現 した. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Herran z_Scene_Recognition_With_CVPR_2016_paper.pdf
  • 25. Ziyu Zhang, Sanja Fidler, Raquel Urtasun, “Instance-Level Segmentation for Autonomous Driving with Deep Densely Connected MRFs”, in CVPR, 2016. 【23】 Keywords: Semantic Segmentation, Autonomous Driving 新規性・差分 概要 自動運転の文脈で用いることができるセマンティックセグメンテーション の手法を提供する.この問題に対して,Densely Connected Markov Random Fieldを用いてアノテーション情報からのセマンティックセグメン テーションを実行する.MRFは(1)に示す3つの項 -- Pairwise Smoothness Term, Pairwise Local CNN Prediction Term, Pairwise Inter-connected component Term から構成される. ・KITTI Datasetに対して[Zhang+, ICCV15]よりも高い精度 でセマンティックセグメンテーションを実現した. ・密な結合を持つMRFモデルの提案により,周辺領域に対 する分離性能を向上し,セマンティックセグメンテーショ ンに貢献した. Links 論文 http://arxiv.org/pdf/1512.06735v2.pdf Slide http://www.cs.toronto.edu/~urtasun/courses/CSC2541/08_inst ance.pdf
  • 26. Lukas Schneider, Marius Cordts, Timo Rehfeld, David Pfeiffer, Markus Enzweiler, Uwe Franke, Marc Pollefeys, Stefan Roth, “Semantic Stixels: Depth is Not Enough”, in IEEE IV, 2016. 【24】 Keywords: Stixels, Semantic Segmentation, Depth 新規性・差分 概要 距離画像の表現方法のひとつである”Stixels”に対して距離表 現のみならず意味付けも行うことで,自動運転に対して応用 を進めようという研究である.従来のStixelにあるような距離 表現やさらに意味情報のStixelも用いることで,動的な物体や その距離の情報や,物体ラベルも含めた検出が可能である. セマンティックセグメンテーションはFully Convolutional Networks (FCN)により行い,そのモデルはGoogLeNetを適用 した.ステレオマッチングにはSemi Global Matching (SGM) を適用している. ・従来の距離画像表現であるStixelに意味情報を加えるこ とでその後の物体検出や距離抽出,占有マップを生成する 際にも複数のメリットが得られる ・FCN,SMG,Stixelなど個別の精度が向上した(下表よ り)ために,Semantic Stixelsという概念が生まれた. Links 論文 http://download.visinf.tu-darmstadt.de/papers/2016-iv-schneider- semantic_stixels-preprint.pdf Video (Stixels) https://www.youtube.com/watch?v=U01llK42gNc
  • 27. Hongwei Qin, Junjie Yan, Xiu Li, Xiaolin Hu, “Joint Training of Cascaded CNN for Face Detection”, in CVPR, 2016. 【25】 Keywords: Joint Training, Face Detection 新規性・差分 概要 CNNのカスケード構造による顔検出の問題やその学習方法 を解決するための研究.複数のカスケード型CNN識別器を 同時に最適化することにより,エラー率を有効に減らし, 顔検出率を向上させようとする試みである.学習時には Back Propagationを適用し,さらにRegion Proposal Net (RPN)やR-CNNなどより洗練された構造の識別器において もカスケード型識別器を導入する.最適化は(1)式のような 識別とローカライズの多タスク損失を最小化するように設 計される. ・従来のカスケード型識別器ではViola&JonesのHaar-like + AdaBoostが存在するが,独立に学習していた.一方本論 文ではCNNをカスケード型識別器としてさらに全ての色衣 付きを同時に最適化する. ・顔検出率の比較ではstate-of-the-artな結果@FDDBを示 した. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Qin_Joi nt_Training_of_CVPR_2016_paper.pdf
  • 28. Bumsub Ham, Minsu Cho, Cordelia Schmid, Jean Ponce, “Proposal Flow”, in CVPR, 2016. 【26】 Keywords: Object Proposal, Optical Flow 新規性・差分 概要 セマンティックフロー(意味のついたオプティカフロー)により計算され るまとまりから,物体候補領域を抽出する研究.位置や幾何的な制約に より整合性を計算できる.さらにはオプティカルフローのパッチベース の探索と候補領域の移動を同時に解決する.領域マッチングには Bayesian Modelを適用し,SPM, HOG, CNN特徴などを用いたアピアラ ンス特徴の抽出や幾何的な情報を扱う項を導入.この問題に対して,新 しいベンチマークを提供した. ・幾何的に強力な制約を与えることで,物体候補領域の整 合性を向上することができる. ・フローや候補領域を同時に抽出可能となる Links 論文 http://www.di.ens.fr/willow/pdfscurrent/ham2016.pdf プロジェクト http://www.di.ens.fr/willow/research/proposalflow/ コード https://github.com/bsham/ProposalFlow
  • 29. Carl Vondrick, Deniz Oktay, Hamed Pirsiavash, Antonio Torralba, “Predicting Motivations of Actions by Leveraging Text”, in CVPR, 2016. 【27】 Keywords: Action Recognition, Motivation Prediction 新規性・差分 概要 「なぜ,その行動をとっているのか」を把握して,人物の意図を推定する 研究である.さらに,人物行動は人物の状態を理解するための最初のステ ップにすぎない.そのため,著者らは画像と人物意図が対応づけられたデ ータベースを公開し,機械学習により両者を紐付けた.Microsoft COCOデ ータセットから約10,000人の人物行動とその意図が対応づけられたデータ ベースをAmazon Mechanical Turk (AMT)によりアノテーション.アノテー ションは「行動」in order to 「意図」のように行った(右図).画像による推 定は単純な線形識別器であり,VGG16のfc7を用いる.さらには言語から 行動やシーンの手がかりを導入する. ・コンピュータビジョンにおいて画像に潜在的に存在する 意図を推定する研究の先駆けである. ・現在画像に映っている行動のみでなく,その背後にある 「なぜ」を推定できるようになった. ・Median Rankによる評価の結果,Vision+Person+Textの 情報を用いるのがもっとも推定精度が良いとされた. Links 論文 http://web.mit.edu/vondrick/intention.pdf 著者 http://web.mit.edu/vondrick/
  • 30. Kyle Krafka, Aditya Khosla, Petr Kellnhofer, Harini Kannan, Suchendra Bhandarkar, Wojciech Matusik, Antonio Torralba, “Eye Tracking for Everyone”, in CVPR, 2016. 【28】 Keywords: 新規性・差分 概要 商用に重要な視線推定の実利用化のためにアプリケーションやデータベー スを公開した(右図).さらに,スマートフォンにて動作する視線推定器を 開発した.GazeCaptureは1450人もの顔画像が2,500,000フレームにわた り含まれ,視線推定のためのデータである.GazeCaptureはCNNベースの 視線推定器であり,10~15fps,キャリブレーションなしで1.71~2.53cmの 誤差で動作することが実験的に判明した.CNNモデルは顔,左右の目の画 像,顔が位置するグリッドを入力としてそれぞれ畳み込み,全結合層にて 特徴を統合する. ・他の視線推定のデータセットとの比較が右の表に示され る.人数,フレーム数ともに大規模なデータである. ・キャリブレーションなしで1.71~2.53cm, キャリブレー ションありのときには1.34~2.21cmの誤差で動作する. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Krafka_ Eye_Tracking_for_CVPR_2016_paper.pdf プロジェクト http://gazecapture.csail.mit.edu/
  • 31. Ariadna Quattoni et al, “Recognizing Indoor Scenes”, inCVPR, 2009. 【29】 Keywords: 新規性・差分 概要 ・屋内シーンの認識を行うためのシーンプロトタイプの提 案及びデータセットの構築 屋内のシーン認識では物体の情報及び環境の情報が必要と なるため従来のシーン認識用データセットに比べより幅広 いデータセットを構築した. シーン認識のデータセットとして67のカテゴリーに分かれ 全画像で15620枚の画像を用いたデータセットである(右 図).これらのシーンは大きく5つのカテゴリーとも分ける ことが可能である.データにはアノテーターによる物体に 特化したROIが付けられている. ROIを行った領域の2×2グリッドからSIFT+BoFのヒストグ ラムを得る.このヒストグラムを用いて物体の領域を検出 する. ROI, グラフカットによるセグメントのそれぞれをシーン プロトタイプと定義する. 結果はROI+GIST+annotationが一番高い Links http://people.csail.mit.edu/torralba/publications/indoor.p df
  • 32. Scott Reed, Zeynep Akata, Honglak Lee and Bernt Schiele, “Learning Deep Representations of Fine- Grained Visual Descriptions”, in CVPR, 2016. 【30】 Keywords: natural language, image retrival 新規性・差分 概要 属性ベースのゼロショットでの認識問題では,多くの属 性が必要であり,属性は自然言語インタフェースを提供し ていないという制約がある.これらを克服するため,文章 そのものを学習し,注釈及び検索の両方に適用可能な,テ キストの記述子と画像間の得点関数を学習するモデルを提 案する. Links Paper : http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Reed_Learn ing_Deep_Representations_CVPR_2016_paper.pdf Author :http://www-personal.umich.edu/~reedscot/ 「この鳥は,腹が黄色,頭が黒,そして胸と羽が黒である」というアノ テーションに対する,符号化方法ごとの画像検索結果. Caltech UCSD Bird 2000 - 2011データセットにおいて,最先端 手法であった属性ベースの画像分類手法の性能を大幅に超えた. また,テキストの長さが異なる場合においても,自然言語の符 号化が可能である.文章を単語ごとに符号化した場合が最も性 能が良かった. 提案する符号化方法の1つであるconvolutional-recurrent netである. 文字/単語ごとにずらしながら,順次符号化を繰り返す.
  • 33. Yuanjun Xiong, Limin Wang, Zhe Wang, Bowen Zhang, Hang Song, Wei Li, Dahua Lin, Yu Qiao, Luc Van Gool, Xiaoou Tang, “CUHK & ETHZ & SIAT Submission to ActivityNet Challenge 2016”, in CVPRW , 2016. 【31】 Keywords: AcvitiyNet Challenge, Action Recognition, TDD, Two-Stream ConvNets 新規性・差分 概要 2016年に開催された動画認識のコンペティションにて優勝 した,香港のCUHK,スイスのEYHZ,中国のSIATによる 合同チームの手法を説明した論文.動画中からスコアを算 出してフレーム選択するネットワークや,特徴抽出には ResNet,GoogLeNet_v3やTDD(下記リンク参照)などを用 いて200クラスの分類においてmAP 93.23%を実現した. ・動画認識の200クラス分類において驚異のtop-1 88%, top-3 96%,mAP 93%を達成した. ・動画特徴について,Snnipet-wiseの解析を提案し,さら には動画特徴のみならず音声特徴においてMFCCやAudio CNNを用いた Links 論文 http://wanglimin.github.io/contests/XiongW_Anet16.pdf プロジェクト http://activity-net.org/challenges/2016/ コード https://github.com/yjxiong/anet2016-cuhk Very Deep Two-Stream ConvNets http://personal.ie.cuhk.edu.hk/%7Exy012/others/action_recog/ Trajectory-pooled Deep-convolutional Descriptors (TDD) http://wanglimin.github.io/tdd/index.html 手法 手法はビデオの断片から特徴を抽出するかどうか判断するSnippet-wise predictorとビデオから特徴抽出して識別を実行するVideo-level classificationに 分けられる.Snippet-wiseではResNetやInception_v3を用いた方法を考案.ま た,Video-levelではSnippet-wiseの処理によるスコアを用いて特徴抽出するフ レームを適応的に用いた.また,音声特徴としてMFCCやResNetを用いる Audio CNNを用いた.ビデオ特徴にはアピアランスベースのCNN (ResNet, Inception_v3),モーションCNN (TDD, Very Deep Two-Stream ConvNets), IDTを用いて,mAPが90.4%,Top-3 は95.2%であった. 結果 ActivityNet v1.3では10,024をトレーニングに用い,15,140の行動インスタンス が含まれ,200の行動クラス分類を実行する.Validationセットには4,926動画が 含まれ,7,654の行動インスタンスが含まれる.最終的なテストセットには 5,044の動画が含まれ,この評価値により順位が競われる.下の表がValidation セットに対する評価である.
  • 34. Kwang Moo Yi, Yannick Verdie, Pascal Fua, Vincent Lepetit, “Learning to Assign Orientations to Feature Points”, in CVPR, 2016. 【32】 Keywords: orientation, CNN 新規性・差分 手法概要 ・従来は人手で決めていたSIFTなどの局所特徴のオリエン テーションの基準を、CNNで学習して求めた。また、 ReLU, maxout, and PReLUなどのレイヤーを一般化したも のを提案し、性能向上を確かめた。 ・CNNによるオリエンテーション学習 ・Generalized Hinging Hyperplanes (GHH)をベースとした 新しいactivation function ・Siamese Networkのように画像パッチを2枚ペアで入力し、それぞれに対 してCNNが出力したオリエンテーションのもとでのデスクリプタの距離=損 失を最小化する Links プロジェクト https://kmyi.wordpress.com/2016/07/12/learning-to-assign- orientations-to-feature-points/ GitHubにコード有
  • 35. Jie Feng, Brian Price, Scott Cohen, Shih-Fu Chang, “Interactive Segmentation on RGBD Images via Cue Selection”, in CVPR, 2016. 【33】 Keywords: image segmentation, MRF 手法 概要 ・ユーザの少ないインプットを手掛かりにしてセグメンテーションを 行う。セグメンテーション結果は逐一更新される。提案手法は各ピク セルにつき、cue label (color, depth, normal, etc.)の中から最もよい cueを自動的に決定する。 ・セグメンテーションラベル(前景/背景)に加え、cue label(最も効 いているcue)も最適化する。 ・ユーザインプット: 1) foreground/background clicks 2) foreground/background strokes 3) bounding box around target object ・Multi-label MRFにて、Multi-cue Pairwise Termを使用 Links Youtube https://www.youtube.com/watch?v=r-VBaxYw3wM プロジェクト http://www.columbia.edu/~jf2776/#3dsegment
  • 36. Chen Liu, Pushmeet Kohli, Yasutaka Furukawa, “Layered Scene Decomposition via the Occlusion-CRF”, in CVPR, 2016. 【34】 Keywords: scene decomposition, CRF, RGBD, occlusion 新規性・差分 手法概要 ・シーンのRGBD画像を、デプスを手掛かりにして複数枚 のレイヤーに分解する。これにより、オクルージョンの発 生している(隠れている)表面をモデリングすることが可 能になった。 ・デプスをレイヤー分解してオクルージョンを 扱えるようにした ・従来手法よりも効率的なFusion Space optimization:解を限定して繰り返し計算で multi-labeling問題を解く手法を提案した ・Fusion Space optimization Surface adding proposal、Background hull proposal、Surface refitting proposal、Layer swap proposal、Single surface expansion proposal、 Backward merging proposal、Structure expansion proposal、の7種類の proposalを次々に試していく。 Links Youtube https://www.youtube.com/watch?v=jjo1jI_sOHs
  • 37. Abhinav Shrivastava, Abhinav Gupta, Ross Girshick, “Training Region-Based Object Detectors with Online Hard Example Mining”, in CVPR, 2016. 【35】 ・online hard example mining (OHEM)を提案した。ハードネガティブマイニング(難しい負例を集めつつモデルを更新していく)はCNN 時代以前の物体検出ではよく使われてきたが、CNNの学習にはあまり使われなかった。Fast RCNNをベースとして、ROIを(ミニバッチサ イズ毎に)全部使うのでなく、ハードネガティブを選んでミニバッチを作り、ネットワークを更新する。
  • 38. Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, “You Only Look Once: Unified, Real-Time Object Detection”, in CVPR, 2016. 【36】 Keywords: YOLO, high speed, regression 新規性・差分 概要 ・従来の物体検出は、様々な位置とスケールの物体領域 (ROI)に対して、 (RCNNのように)識別機を使うか、 あるいは(Fast-RCNNのように)位置同定を行うかであっ た。提案手法は、グリッド状の識別スコアマップを作り、 それによってROIをスコア付けするという全く異なるアプ ローチをとる。 ・一枚の画像全体につきCNNを一回通すだけ ・超高速 ・ detection as a regression problem ・GoogleNetライクなモデル Links プロジェクト http://pjreddie.com/darknet/yolo/ 詳しい解説つきのオープンソース 7x7 5次元のバウンディングボッ クス2個と20クラスのスコア を出力(5*2+20=30次元) (x, y, w, h, confidence)
  • 39. Spyros Gidaris, Nikos Komodakis, “LocNet: Improving Localization Accuracy for Object Detection”, in CVPR, 2016. 【37】 Keywords: object localization, bounding box, CNN 新規性・差分 手法 結果概要 ・物体検出のバウンディングボックスをより正確な位置に修 正するCNNを学習する。バウンディングボックスのコーナー 座標(縦横それぞれ)、あるいはバウンディングボックス内 である確率(これも縦横それぞれ)をCNNで出力し、それを もとに最適なバウンディングボックス座標を算出する。 ・物体の位置同定問題をバウンディングボックス座標の確率 推定問題として定義したこと ・そのような問題を解くCNNであるLocNetの設計 ・mAPが飛躍的に向上 ・バウンディングボックス抽出処理すら不要(入力はスライ ディングウィンドウでもOK) Links コード https://github.com/gidariss/LocNet Pascal VOC 2007と2012、 MS COCOでFast-RCNN と比較してmAPが向上し た。
  • 40. Kai Kang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “Object Detection from Video Tubelets with Convolutional Neural Networks”, in CVPR, 2016. 【38】 Keywords: temporal CNN, object detection, object tracking 新規性・差分 手法 結果 概要 ・ビデオからの物体検出タスクを、物体検出とトラッキン グを融合したマルチステージフレームワークで行う。 Tubeletというトラックのプロポーザルに対して位置調整 を行い、最後に時系列CNNで連続フレームのスコアを統合。 静止画像物体検出よりも高い性能を示した。 ・ビデオ物体検出のマルチステージフレ ームワークの提案 ・静止画物体検出と物体トラッキングと それらの関係性を詳しく調査 ・時系列CNNの提案 ・spatio-temporalタブレットで物体プロポーズ ステップ1:セレクティブサーチ+R-CNNでeasy negativeサンプル除去 ステップ2:対象の30クラスをSVM識別機でスコアリング ステップ3:双方向トラッキング+tracklet結合でトラック(tubelet)を作成 ステップ4:バウンディングボックスを周辺に増やしてmax-poolingし、位置 を調整 ステップ5:時系列方向1次元畳み込みネットでスコアを連続フレームのスコ アをひとつにまとめる ・静止画像物体検出に比べ、ImageNet VIDで2.2%、YTOで2%性能改善 Links ソースコード https://github.com/myfavouritekk/vdetlib
  • 41. Judy Hoffman, Saurabh Gupta, Trevor Darrell, “Learning with Side Information through Modality Hallucination”, in CVPR, 2016. 【39】 Keywords: RGBD, object detection, multi modality 新規性・差分 手法 結果 概要 ・物体検出のためのマルチモーダルFast RCNNをRGBD画 像データセットを用いて学習する。RGB画像を入力として RGBネットワークとHallucinationネットワークを学習し、 同時にDepth画像を入力としてDepthネットワークを学習 する。このとき、Hallucinationネットワークの出力が Depthネットワークの出力に近くなるような学習を行う。 テスト時にはDeothを用いず、RGB画像のみを入力とする。 NYU2データセットでstate-of-the-artのRGB物体検出モデ ルの性能を超えた。 ・学習にデプス画像を用いることでRGB画像からの物体検 出性能を向上させた。 ・NYU2データセットで、RGB画像だけで学習したFast R- CNN(AP=20.6%)を超えた(AP=24.2%)
  • 42. Neelima Chavali, Harsh Agrawal, Aroma Mahendru, Dhruv Batra, “Object-Proposal Evaluation Protocol is ‘Gameable’”, in CVPR, 2016. 【40】 Keywords: object proposal, dense annotation, dataset 新規性・差分 手法, 結果概要 ・これまでの物体プロポーザル手法は(PASCAL VOCの20クラス等 の)一部のカテゴリの物体のみがアノテーションされたデータセット で性能評価されてきた。しかしながら、物体プロポーザル手法は本来 カテゴリに依らずあらゆる物体の候補出しを可能にすべきであり、そ の性能を正しく評価できていなかったといえる。本論文はPASCAL VOCデータセットのあらゆる物体をアノテーションし、既存手法を 改めて評価した。 ・nearly-fully annotated PASCAL VOCデータセットの提供 ・既存の物体プロポーザル手法を正しく評価 ・データセットの評価指標の提案 ・物体アノテーションをPASCAL20クラスのみにした場合、 PASCAL20クラスに含まれない60クラスのみにした場合、全ク ラスにした場合のそれぞれで手法の性能を評価。 ・RCNNでPASCAL20クラスに特化した物体検出器Detector Masquerading as Proposal generator(DMP)を作り、物体プ ロポーザル手法と称して性能を評価。 ・PASCAL20クラスをアノテーションしたデータではDMPが 圧倒的に良くなってしまい(=Gamable)、それ以外でのケー スで評価した場合のDMP性能との差が激しいということを示し た。 Links プロジェクト https://filebox.ece.vt.edu/~aroma/web/object-proposals.html ソースコード https://github.com/batra-mlp-lab/object-proposals 本当はMethod 1の方が良い
  • 43. David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016.【41】 Keywords: CNN, dataset 新規性・差分 手法 概要 ・3D形状を”平面的”, “穴がある”等の12種類のアトリビュートで表現する。 3D形状アトリビュートをつけた銅像データセットを作り、depth map推 定手法とL. Boら、S. Guptaら等の既存のstate-of-the-artなRGBD物体認識 手法とを組み合わせた結果との比較を行った。 ・3D形状アトリビュートの提案 ・CNNをつかって一枚の画像から3D形状アトリビュートを推定 ・143K枚の銅像データセットを作成 ・銅像以外の物体にも汎化できることを示した ・CNNが同じ物体の異なるビューの画像同士を近づけるshape embeddingも学習できることを示した Links プロジェクト http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/ 同じ物体の異なるビュ ーの出力を近づける
  • 44. Zhile Ren, Erik B. Sudderth, “Three-Dimensional Object Detection and Layout Prediction Using Clouds of Oriented Gradients”, in CVPR, 2016. 【42】 Keywords: 3D descriptor, structural SVM 新規性・差分 手法 概要 ・室内RGBD画像データセットにおける3D物体検出とレイ アウト推定を行う。2Dのアピアランスと3Dの姿勢を結び つけるCloud of oriented gradient (COG)記述子を提案。 SUN RGB-Dデータセットでstate-of-the-artの物体検出性能 を記録した。 ・新しい記述子COGの提案 ・Manhattan Voxelsの提案 ・COG抽出:3D cuboidを6x6x6のボクセルデータに変換し、各セルの点群 密度と法線ヒストグラムを計算する ・Manhattan Voxels:マンハッタンワールド推定により点群のアウトライア に頑健なレイアウト推定を行う ・Structural SVM (S-SVM)を学習 Links プロジェクト http://buildingparser.stanford.edu/method.html
  • 45. Michael Firman, Oisin Mac Aodha, Simon Julier, Gabriel J. Brostow, “Structured Prediction of Unobserved Voxels from a Single Depth Image”, in CVPR, 2016. 【43】 Keywords: 3D shape completion, volumetric model generation, occlusion 新規性・差分 手法 結果 概要 ・一枚の距離画像(2.5Dデータ)から欠損のない 3Dのボクセルデータを推定する。室内環境データ セットを作って手法の評価を行った。 ・Voxlets: 局所マルチボクセルジオメトリーの提案。 Structred Random Forestsを用いて距離画像の一点からそ の周囲の幾何的構造を推定する。 ・物体ごとに90スキャン撮影したデータセット作成 ・手法の評価指標を提案 Links プロジェクト http://visual.cs.ucl.ac.uk/pubs/depthPrediction/ 動画 https://www.youtube.com/watch?v=1wy4y2GWD5o ソースコード https://github.com/mdfirman/voxlets
  • 46. Charles R. Qi, Hao Su, Matthias Nießner, Angela Dai, Mengyuan Yan, Leonidas J. Guiba, “Volumetric and Multi-view CNNs for Object Classification on 3D Data”, in CVPR, 2016. 【44】 Keywords: 3D object classification, 2D-based CNN, 3D volumetric CNN 新規性・差分 手法概要 ・3D形状モデルの物体カテゴリ識別問題は、3D CNNを用 いたものとマルチビュー画像を入力する2DベースのCNN を用いたものが提案されている。後者のほうが遥かに高性 能であると言われてきたが、それは解像度が原因か、はた またネットワークアーキテクチャの問題か?その解析を行 うとともに、両アプローチの改良を行い、state-of-the-art の性能を示すとともに、30x30x30のボクセル解像度を用 いた場合のmulti-view CNNと3D volumetric CNNの性能が 同等となることを確認した。 ・2Dベース手法と3Dボクセル手法の性能差の原因を解析 ・両手法の改良 ・state-of-the-artの性能実現 ・同解像度にて両手法がcomparativeであることを確認 ・3Dボクセル手法のボトルネックが解像度であるとの結論 1. Volumetric CNN(3D)に関して ・ネットワークアーキテクチャ改良 ・回転のData augmentation+複数の姿勢データを入力 Links ソースコード https://github.com/charlesq34/3dcnn.torch 2. Multi-View CNN(2D)に関して ・multi-resolutionを使うことでMulti-View CNNも改良
  • 47. German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez, “The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes”, in CVPR, 2016. 【45】 Keywords: synthesized data, semantic segmentation 新規性・差分 データセット概要 ・人工的に作成した大規模な都市画像データセット。特に 自動運転タスクに重要な物体であるstreet blocks, highways, rural areas, shops, parks and gardens, general vegetation, variety of pavements, lane markings, traffic signs, lamp poles, そして人間を含んでいる。 ・自動運転のためのSemantic Segmentationの新しい大規模データセットSYNTHIAを作成 ・人工的に、さまざまな照明変化と天気の変化を加え、多数の視点からのデータを作成 ・合成画像なので人手のアノテーション作成が不要 ・リアルデータの学習セットにSYNTHIAを加えることで性能向上 ・SYNTHIA-Rand:ランダムに撮影した13,400枚の画像 ・SYNTHIA-Seqs:約50,000枚の連続フレームからなる動画4本 Links プロジェクト http://adas.cvc.uab.es/synthia
  • 48. Jialin Wu, Gu Wang, Wukui Yang, Xiangyang Ji, “Action Recognition with Joint Attention on Multi-Level Deep Features”, in BMVC, 2016. 【46】 Keywords: Action Recognition, CNN, RNN 新規性・差分 概要 CNNとRNN(LSTM)を用いて複数階層の特徴量にアクセス することにより、行動認識の精度を向上させる.提案手法 の構造には複数の枝分かれしたMulti-branch modelが含ま れる.この仕組みにより背景のノイズに頑健な認識ができ ると主張した.C3Dの3D Convolution [Tran+, ICCV15]に より作成されたCNNをLSTMに入力. ・畳み込みやLSTMの仕組み自体ではなく,そのアーキテ クチャの構造により新しさを出した. ・State-of-the-artではないが,UCF101で90.6%, HMDB51にて61.7%と良好な性能を出した. Links 論文 http://arxiv.org/pdf/1607.02556v1.pdf プロジェクト
  • 49. Jordan M. Malof, Kyle Bradbury, Leslie M. Collins, Richard G. Newell, “Automatic Detection of Solar Photovoltaic Arrays in High Resolution Aerial Imagery”, in arXiv pre-print 1607.06029, 2016. 【47】 Keywords: Drone, UAV, Solar Panel 新規性・差分 概要 航空画像からのソーラーパネルの検出.135km^2に渡る観 測を実行した.データは5,000x5,000[pixels]の画像600枚 により構成される.アノテーションされた2,700箇所のデ ータにより学習と検出を行った.手法にはRandom Forestsを用いて,後処理により精度を高めている.特徴 は注目点の周辺から画素を蓄積する. ・Pixel-wiseのセグメンテーションを実行.また,物体レ ベルの認識も提供している. Links 論文 https://arxiv.org/ftp/arxiv/papers/1607/1607.06029.pdf プロジェクト
  • 50. Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig, “Virtual Worlds as Proxy for Multi-Object Tracking Analysis”, in CVPR, 2016. 【48】 Keywords: object detection 手法 結果 概要 ・様々なタスクで利用可能な,CGによるデータセットであ る Virtual KITTI Datasetを提案.object detection, tracking, scene and instance segmentation, depth, optical flow用の ground truthを含む. ・KITTI tracking benchmarkを元に5つのクローンを作成. ・UnityのAssetを配置.位置・向きは実写データから取得し設定. ・CGを使用するため,特定の1条件のみ変更し評価可能.車の数・軌跡・ 速度・サイズ・色・モデル,カメラの位置・向き・パス,天気・照明条件 を変更可能. ・データセットは7種の変動を含む. ・歩行者は除外. ・実写データで学習した場合と,CGデータで学習した場合の精度の差は 小さい.評価指標によっては差がでるが,実写データのアノテーションが 一部省略されていることが原因と考えられる. ・CGデータでプレトレーニングし,実写データでファインチューニング することで精度向上. ・7種の変動のうち,天気の変化(特に霧)が悪影響. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Gaidon _Virtual_Worlds_as_CVPR_2016_paper.pdf プロジェクト http://www.xrce.xerox.com/Research- Development/Computer-Vision/Proxy-Virtual-Worlds 新規性・差分 ・ゼロから作るのではなく,実写映像のクローンを作ること でCGデータセットを作成. ・multi-object trackingにおいて,CGデータが実写データの 代替として有用であることを確認. KITTI (multi-object tracking benchmark) Virtual KITTI ground truth (optical flow, segmentation, depth)
  • 51. Alexey Dosovitskiy, Philipp Fischer, Eddy Ilg, Philip Hausser, Caner Hazirbas, Vladimir Golkov, Patrick van der Smagt, Daniel Cremers, Thomas Brox, “FlowNet: Learning Optical Flow With Convolutional Networks”, in ICCV, 2015. 【49】 Keywords: Optical Flow 概要 ・CNNによりオプティカルフロー推定を行う FlowNetを提案. ・学習用データセットとして,椅子が空を飛ぶデー タセットであるFlying Chairs datasetを提案. Links 論文 http://www.cv- foundation.org/openaccess/content_iccv_2015/papers/Dosovitskiy_FlowNet_ Learning_Optical_ICCV_2015_paper.pdf プロジェクト http://lmb.informatik.uni-freiburg.de/Publications/2015/DFIB15/ 新規性・差分 ・従来のデータセットはオプティカルフロー推定用 CNNの学習には不十分だったが,実写背景に椅子 のCGを重畳し,アフィン変換でランダムに椅子を 飛ばすことで大量のデータを生成. ・このような非現実的なデータセットで学習しても, SintelやKITTIに適用し,他手法と近い精度を実現で きることを確認.
  • 52. Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel Cremers, Alexey Dosovitskiy, Thomas Brox, “A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation”, in CVPR, 2016. 【50】 Keywords: Scene Flow, Optical Flow, Disparity, Stereo Matching データセッ ト 結果 概要 ・CNNによるオプティカルフロー推定を,視差・シーンフ ローの推定に拡張. ・CGによる3種のステレオ動画データセットを提供.シーン フローの学習・評価を可能にする最初の大規模データセット. ・シーンフローのground truthとして重要なdisparity changeを計算. ・セグメンテーションラベルは物体レベルと材質レベルの2種を用意. ・視差推定はKITTI 2015 benchmarkにおいて,MC-CNN-acrt [Zbontar+,arXiv2015]と比較し,精度で少し劣るが1000倍高速.リアルタ イムの手法のMBM [Einecke+,IV2015]と比較し,誤差30%低減. ・個々のタスクを別々に解くより,SceneFlowNetで統合して解く方が高 精度. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR _2016_paper.pdf プロジェクト http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/ 新規性・差分 ・先行研究のFlowNet [Dosovitskiy+,ICCV2015]では,椅子が空を 飛ぶデータセットであるFlying Chairs Datasetにより,オプティカ ルフロー推定用CNNを学習. ・本論文では,Stanford ShapeNetの様々な物体が奥行きの変化も 含めて空を飛ぶFlyingThings3D dataset(他2種)により,シーン フロー推定用CNNを学習. (2)Monkaa (Sintelを意識) (3)Driving (KITTIを意識) (1)FlyingThings3 D 手法 ・オプティカルフローを推定するFlowNet,視差を推定する DispNetを学習.その後,2つを下図のように統合した SceneFlowNetを学習.