Cvpr2017事前読み会

CVPR2017事前読み会
2017/07/08 皆川卓也(@takmin)

本資料について
 CVPR2017 paper on the web上のタイトルを眺めて、面白
そうなやつを適当にピックアップ
 http://www.cvpapers.com/cvpr2017.html
 選んだ論文に共有のテーマとか一貫性とかは特にない。
 今回は１本を深く読むよりも、広く浅く
 と思ったら広くない。
 最初は10本くらいやるつもりが、結局５本。。。
 単純に読んだ順番で並べただけ

自己紹介
3
テクニカル・ソリューション・アーキテクト
皆川卓也（みながわたくや）
フリーエンジニア（ビジョン＆ITラボ）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
http://visitlab.jp

Network Dissection
Network Dissection: Quantifying
Interpretability of DeepVisual Representations
 David Bau, Bolei Zhou,Aditya Khosla,Aude
Oliva, and AntonioTorralba
 概要
 画像解析を行うCNNの隠れ層がどのような
「意味」と関連付けられているかを解析するた
めのフレームワークを提案

Network Dissection
 手法
 Broden (Broadly and Densely Labbeled Dataset)という様々なコンセ
プトをラベル付けしたデータセットと学習済みCNNモデルの各隠れ
層ユニットの反応との関係を見ることで、ユニットが持つ「意味」を解
析

Network Dissection
 結果
 AlexNet, GoogLeNet,VGG, ResNetを、ImageNetおよびPlaces205で学習
 学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出
AlexNetの各層で最も強く反応したBroden画像

Network Dissection
 結果
 AlexNet, GoogLeNet,VGG, ResNetを、ImageNetおよびPlaces205で学習
 学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出
Places205を学習させたVGG, GoogLeNet, ResNetの各ネットワークで、あるコンセプトに最も強く反応した２つのユニット
における検出結果例

Semantic Scene Completion
Semantic Scene Completion from a Single Depth Image
 Shuran Song, FisherYu,Andy Zeng,Angel X. Chang, Manolis
Savva,Thomas Funkhouser
 概要
 1枚の深度画像から、ボクセ
ル空間を生成するScene
Completionと、各ボクセル
にラベル付けを行う
Semantic Segmentationを「同
時に」行うSemantic Scene
Completion Network
(SSCNet)を提案

 手法
 入力は１つの深度画像から生成したボクセル空間
 各ボクセルには最寄りのSurfaceの手前を正、奥を負とし、
Surfaceまでの距離が近いほど絶対値が大きくなるような値を
配置 (flippedTSDF)
 Dilated filterでコンテクスト情報を取得
 SUNCGデータセットから学習データを生成

 実験
 Scene CompletionとSemantic Segmentationを同時に行う方が
個別に行うよりうまくいく

Context-Aware Correlation Filter Tracking
 Matthias Mueller, Neil Smith, Bernard Ghanem
 概要
 追跡対象の周辺の情報をNegative Sampleとして加えることで、
Contextも考慮したCorrelation Filterを作成するフレームワー
クを提案
 従来のCorrelation Filterに関する関連研究は、より強力な特
徴量を使用するものがほとんど

 従来手法
 Correlation Filter
 目的関数
 目的関数の解は周波数ドメインで以下のように求まる
目的画像𝒂0を
巡回させた行列
求める
フィルタ
物体の
場所
正則化項
入力画像𝒂0の複
素共役𝒂0
∗
を離散
フーリエ変換
要素ごとの積

 手法
 Context-Aware Correlation Filter
 目的関数
 目的関数の解は周波数ドメインで以下のように求まる
背景パッチ
画像の巡回
行列
論文ではこの手法をカーネルを使用した場合や、Multi Channel (HOG等の特徴を使用する場合など)に拡張して
いるが、ここでは割愛。

 結果
 4つの従来法にContext-Awareを追加してOTB-100データセットで比
較

 結果動画
 https://www.youtube.com/watch?v=-mEkFAAag2Q
 (1:24くらいから)

Feature Pyramid Networks
Feature Pyramid Networks for Object Detection
 Tsung-Yi Lin, Piotr Dollar, Ross Girshick
 概要
 Deep CNNに対しわず
かな追加コストでFeature
Pyramidを生成する手法
を提案
 Hand-crafted特徴の物体
検出では一般的
 CNNによる物体検出で
は、計算コストとメモリの
点からFeature Pyramid生
成は避けられてきた

 手法
 Bottom-up pathway (左)
 通常のCNN
 Top-down pathway (右)
 トップの最も表現力の高い
層を単純にアップサンプルし
て、解像度を上げる
 対応するBottom-up pathway
の層のfeature mapに1x1の
畳み込みでfeature mapの数
を合わせてから、足す。
 マージされた各層に3x3の畳
み込みをして最終的な
Feature mapを算出

 実験
 Bottom-upはResNets
 各スケールのFeature Map上でFaster R-CNNで検出
 COCO (single model)でstate-of-the-artを達成

Real-time tracking from depth-colour
imagery
Real-time tracking of single and multiple objects from depth-
colour imagery using 3D signed distance functions
 C.Y. Ren,V.A.Prisacariu, O.Kahler, I.D.Reid, D.W.Murray
 概要
 RGB-Dカメラを用いて物体を3Dでリアルタイム追跡

imagery
 手法
 ベイズモデルで物体の位置/姿勢をMAP推定
 追跡対象周辺のボクセルを表面からの距離関数φでモデル化

imagery
 手法（続き）
 オブジェクトモデルと背景モデルをフレームごとに更新しながら

imagery
 手法（続き）
 Levenberg-Marquart法
前景モデル
（色ヒストグラム）
背景モデル
（色ヒストグラム）
モデルΩ上の点を姿勢pに
基づいて投影した位置に
反応するデルタ関数
モデルΩ上の周辺の点を姿
勢pに基づいて投影した位
置に反応するデルタ関数

imagery
 結果

imagery
 結果（処理時間）

Cvpr2017事前読み会

More Related Content

What's hot

Viewers also liked

Similar to Cvpr2017事前読み会

More from Takuya Minagawa

Recently uploaded

Cvpr2017事前読み会