CVPR2017事前読み会
2017/07/08 皆川卓也(@takmin)
本資料について
 CVPR2017 paper on the web上のタイトルを眺めて、面白
そうなやつを適当にピックアップ
 http://www.cvpapers.com/cvpr2017.html
 選んだ論文に共有のテーマとか一貫性とかは特にない。
 今回は1本を深く読むよりも、広く浅く
 と思ったら広くない。
 最初は10本くらいやるつもりが、結局5本。。。
 単純に読んだ順番で並べただけ
自己紹介
3
テクニカル・ソリューション・アーキテクト
皆川 卓也(みながわ たくや)
フリーエンジニア(ビジョン&ITラボ)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
http://visitlab.jp
Network Dissection
Network Dissection: Quantifying
Interpretability of DeepVisual Representations
 David Bau, Bolei Zhou,Aditya Khosla,Aude
Oliva, and AntonioTorralba
 概要
 画像解析を行うCNNの隠れ層がどのような
「意味」と関連付けられているかを解析するた
めのフレームワークを提案
Network Dissection
 手法
 Broden (Broadly and Densely Labbeled Dataset)という様々なコンセ
プトをラベル付けしたデータセットと学習済みCNNモデルの各隠れ
層ユニットの反応との関係を見ることで、ユニットが持つ「意味」を解
析
Network Dissection
 結果
 AlexNet, GoogLeNet,VGG, ResNetを、ImageNetおよびPlaces205で学習
 学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出
AlexNetの各層で最も強く反応したBroden画像
Network Dissection
 結果
 AlexNet, GoogLeNet,VGG, ResNetを、ImageNetおよびPlaces205で学習
 学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出
Places205を学習させたVGG, GoogLeNet, ResNetの各ネットワークで、あるコンセプトに最も強く反応した2つのユニット
における検出結果例
Semantic Scene Completion
Semantic Scene Completion from a Single Depth Image
 Shuran Song, FisherYu,Andy Zeng,Angel X. Chang, Manolis
Savva,Thomas Funkhouser
 概要
 1枚の深度画像から、ボクセ
ル空間を生成するScene
Completionと、各ボクセル
にラベル付けを行う
Semantic Segmentationを「同
時に」行うSemantic Scene
Completion Network
(SSCNet)を提案
Semantic Scene Completion
 手法
 入力は1つの深度画像から生成したボクセル空間
 各ボクセルには最寄りのSurfaceの手前を正、奥を負とし、
Surfaceまでの距離が近いほど絶対値が大きくなるような値を
配置 (flippedTSDF)
 Dilated filterでコンテクスト情報を取得
 SUNCGデータセットから学習データを生成
Semantic Scene Completion
 実験
 Scene CompletionとSemantic Segmentationを同時に行う方が
個別に行うよりうまくいく
Context-Aware Correlation Filter Tracking
Context-Aware Correlation Filter Tracking
 Matthias Mueller, Neil Smith, Bernard Ghanem
 概要
 追跡対象の周辺の情報をNegative Sampleとして加えることで、
Contextも考慮したCorrelation Filterを作成するフレームワー
クを提案
 従来のCorrelation Filterに関する関連研究は、より強力な特
徴量を使用するものがほとんど
Context-Aware Correlation Filter Tracking
 従来手法
 Correlation Filter
 目的関数
 目的関数の解は周波数ドメインで以下のように求まる
目的画像𝒂0を
巡回させた行列
求める
フィルタ
物体の
場所
正則化項
入力画像𝒂0の複
素共役𝒂0
∗
を離散
フーリエ変換
要素ごとの積
Context-Aware Correlation Filter Tracking
 手法
 Context-Aware Correlation Filter
 目的関数
 目的関数の解は周波数ドメインで以下のように求まる
背景パッチ
画像の巡回
行列
論文ではこの手法をカーネルを使用した場合や、Multi Channel (HOG等の特徴を使用する場合など)に拡張して
いるが、ここでは割愛。
Context-Aware Correlation Filter Tracking
 結果
 4つの従来法にContext-Awareを追加してOTB-100データセットで比
較
Context-Aware Correlation Filter Tracking
 結果動画
 https://www.youtube.com/watch?v=-mEkFAAag2Q
 (1:24くらいから)
Feature Pyramid Networks
Feature Pyramid Networks for Object Detection
 Tsung-Yi Lin, Piotr Dollar, Ross Girshick
 概要
 Deep CNNに対しわず
かな追加コストでFeature
Pyramidを生成する手法
を提案
 Hand-crafted特徴の物体
検出では一般的
 CNNによる物体検出で
は、計算コストとメモリの
点からFeature Pyramid生
成は避けられてきた
Feature Pyramid Networks
 手法
 Bottom-up pathway (左)
 通常のCNN
 Top-down pathway (右)
 トップの最も表現力の高い
層を単純にアップサンプルし
て、解像度を上げる
 対応するBottom-up pathway
の層のfeature mapに1x1の
畳み込みでfeature mapの数
を合わせてから、足す。
 マージされた各層に3x3の畳
み込みをして最終的な
Feature mapを算出
Feature Pyramid Networks
 実験
 Bottom-upはResNets
 各スケールのFeature Map上でFaster R-CNNで検出
 COCO (single model)でstate-of-the-artを達成
Real-time tracking from depth-colour
imagery
Real-time tracking of single and multiple objects from depth-
colour imagery using 3D signed distance functions
 C.Y. Ren,V.A.Prisacariu, O.Kahler, I.D.Reid, D.W.Murray
 概要
 RGB-Dカメラを用いて物体を3Dでリアルタイム追跡
Real-time tracking from depth-colour
imagery
 手法
 ベイズモデルで物体の位置/姿勢をMAP推定
 追跡対象周辺のボクセルを表面からの距離関数φでモデル化
Real-time tracking from depth-colour
imagery
 手法(続き)
 ベイズモデルで物体の位置/姿勢をMAP推定
 オブジェクトモデルと背景モデルをフレームごとに更新しながら
Real-time tracking from depth-colour
imagery
 手法(続き)
 ベイズモデルで物体の位置/姿勢をMAP推定
 Levenberg-Marquart法
前景モデル
(色ヒストグラム)
背景モデル
(色ヒストグラム)
モデルΩ上の点を姿勢pに
基づいて投影した位置に
反応するデルタ関数
モデルΩ上の周辺の点を姿
勢pに基づいて投影した位
置に反応するデルタ関数
Real-time tracking from depth-colour
imagery
 結果
Real-time tracking from depth-colour
imagery
 結果(処理時間)

Cvpr2017事前読み会

  • 1.
  • 2.
    本資料について  CVPR2017 paperon the web上のタイトルを眺めて、面白 そうなやつを適当にピックアップ  http://www.cvpapers.com/cvpr2017.html  選んだ論文に共有のテーマとか一貫性とかは特にない。  今回は1本を深く読むよりも、広く浅く  と思ったら広くない。  最初は10本くらいやるつもりが、結局5本。。。  単純に読んだ順番で並べただけ
  • 3.
    自己紹介 3 テクニカル・ソリューション・アーキテクト 皆川 卓也(みながわ たくや) フリーエンジニア(ビジョン&ITラボ) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事 http://visitlab.jp
  • 4.
    Network Dissection Network Dissection:Quantifying Interpretability of DeepVisual Representations  David Bau, Bolei Zhou,Aditya Khosla,Aude Oliva, and AntonioTorralba  概要  画像解析を行うCNNの隠れ層がどのような 「意味」と関連付けられているかを解析するた めのフレームワークを提案
  • 5.
    Network Dissection  手法 Broden (Broadly and Densely Labbeled Dataset)という様々なコンセ プトをラベル付けしたデータセットと学習済みCNNモデルの各隠れ 層ユニットの反応との関係を見ることで、ユニットが持つ「意味」を解 析
  • 6.
    Network Dissection  結果 AlexNet, GoogLeNet,VGG, ResNetを、ImageNetおよびPlaces205で学習  学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出 AlexNetの各層で最も強く反応したBroden画像
  • 7.
    Network Dissection  結果 AlexNet, GoogLeNet,VGG, ResNetを、ImageNetおよびPlaces205で学習  学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出 Places205を学習させたVGG, GoogLeNet, ResNetの各ネットワークで、あるコンセプトに最も強く反応した2つのユニット における検出結果例
  • 8.
    Semantic Scene Completion SemanticScene Completion from a Single Depth Image  Shuran Song, FisherYu,Andy Zeng,Angel X. Chang, Manolis Savva,Thomas Funkhouser  概要  1枚の深度画像から、ボクセ ル空間を生成するScene Completionと、各ボクセル にラベル付けを行う Semantic Segmentationを「同 時に」行うSemantic Scene Completion Network (SSCNet)を提案
  • 9.
    Semantic Scene Completion 手法  入力は1つの深度画像から生成したボクセル空間  各ボクセルには最寄りのSurfaceの手前を正、奥を負とし、 Surfaceまでの距離が近いほど絶対値が大きくなるような値を 配置 (flippedTSDF)  Dilated filterでコンテクスト情報を取得  SUNCGデータセットから学習データを生成
  • 10.
    Semantic Scene Completion 実験  Scene CompletionとSemantic Segmentationを同時に行う方が 個別に行うよりうまくいく
  • 11.
    Context-Aware Correlation FilterTracking Context-Aware Correlation Filter Tracking  Matthias Mueller, Neil Smith, Bernard Ghanem  概要  追跡対象の周辺の情報をNegative Sampleとして加えることで、 Contextも考慮したCorrelation Filterを作成するフレームワー クを提案  従来のCorrelation Filterに関する関連研究は、より強力な特 徴量を使用するものがほとんど
  • 12.
    Context-Aware Correlation FilterTracking  従来手法  Correlation Filter  目的関数  目的関数の解は周波数ドメインで以下のように求まる 目的画像𝒂0を 巡回させた行列 求める フィルタ 物体の 場所 正則化項 入力画像𝒂0の複 素共役𝒂0 ∗ を離散 フーリエ変換 要素ごとの積
  • 13.
    Context-Aware Correlation FilterTracking  手法  Context-Aware Correlation Filter  目的関数  目的関数の解は周波数ドメインで以下のように求まる 背景パッチ 画像の巡回 行列 論文ではこの手法をカーネルを使用した場合や、Multi Channel (HOG等の特徴を使用する場合など)に拡張して いるが、ここでは割愛。
  • 14.
    Context-Aware Correlation FilterTracking  結果  4つの従来法にContext-Awareを追加してOTB-100データセットで比 較
  • 15.
    Context-Aware Correlation FilterTracking  結果動画  https://www.youtube.com/watch?v=-mEkFAAag2Q  (1:24くらいから)
  • 16.
    Feature Pyramid Networks FeaturePyramid Networks for Object Detection  Tsung-Yi Lin, Piotr Dollar, Ross Girshick  概要  Deep CNNに対しわず かな追加コストでFeature Pyramidを生成する手法 を提案  Hand-crafted特徴の物体 検出では一般的  CNNによる物体検出で は、計算コストとメモリの 点からFeature Pyramid生 成は避けられてきた
  • 17.
    Feature Pyramid Networks 手法  Bottom-up pathway (左)  通常のCNN  Top-down pathway (右)  トップの最も表現力の高い 層を単純にアップサンプルし て、解像度を上げる  対応するBottom-up pathway の層のfeature mapに1x1の 畳み込みでfeature mapの数 を合わせてから、足す。  マージされた各層に3x3の畳 み込みをして最終的な Feature mapを算出
  • 18.
    Feature Pyramid Networks 実験  Bottom-upはResNets  各スケールのFeature Map上でFaster R-CNNで検出  COCO (single model)でstate-of-the-artを達成
  • 19.
    Real-time tracking fromdepth-colour imagery Real-time tracking of single and multiple objects from depth- colour imagery using 3D signed distance functions  C.Y. Ren,V.A.Prisacariu, O.Kahler, I.D.Reid, D.W.Murray  概要  RGB-Dカメラを用いて物体を3Dでリアルタイム追跡
  • 20.
    Real-time tracking fromdepth-colour imagery  手法  ベイズモデルで物体の位置/姿勢をMAP推定  追跡対象周辺のボクセルを表面からの距離関数φでモデル化
  • 21.
    Real-time tracking fromdepth-colour imagery  手法(続き)  ベイズモデルで物体の位置/姿勢をMAP推定  オブジェクトモデルと背景モデルをフレームごとに更新しながら
  • 22.
    Real-time tracking fromdepth-colour imagery  手法(続き)  ベイズモデルで物体の位置/姿勢をMAP推定  Levenberg-Marquart法 前景モデル (色ヒストグラム) 背景モデル (色ヒストグラム) モデルΩ上の点を姿勢pに 基づいて投影した位置に 反応するデルタ関数 モデルΩ上の周辺の点を姿 勢pに基づいて投影した位 置に反応するデルタ関数
  • 23.
    Real-time tracking fromdepth-colour imagery  結果
  • 24.
    Real-time tracking fromdepth-colour imagery  結果(処理時間)