関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instance-Level Discrimination

2018/7/21 岡本大和
関西CVPRML勉強会 2018
Unsupervised Feature Learning
via Non-Parametric
Instance-level Discrimination
関西CV・PRML勉強会 https://goo.gl/pMu9A2 1

はじめに
2関西CV・PRML勉強会 https://goo.gl/pMu9A2

自己紹介岡本大和（おかもとやまと）
 2013 京都大学情報学研究科修士課程修了（博士号も欲しいよぅ…）
 画像処理やパターン認識の研究に着手
 卒業後、オムロンに入社（京都企業！！）
 R&D担当、機械学習・IoT・データ分析を扱う（バズワードばかり……）
twitter.com/RoadRoller_DESU
イラストレーターの友人が
描いてくれた似顔絵キャラ
（※お気に入り）

本日はCVPRの論文読み会ですが、
今年はCVPRに参加していません。
（行けばよかった・・・）
なのでタイトルから「ｴｲﾔｧｯ！」で選びました。
ICML@Stockholmは
参加しました

今回ピックアップする論文

論文タイトルと著者
via Non-Parametric Instance-level Discrimination
Zhirong Wu・・・・UC Berkeley ICSI
Yuanjun Xiong・・・Chinese University of Hong Kong
Stella X. Yu・・・UC Berkeley ICSI
Dahua Lin・・・Chinese University of Hong Kong
https://arxiv.org/abs/1805.01978
https://arxiv.org/pdf/1805.01978.pdf
※CVPR 2018 spotlight paper

この論文を選んだ理由
Unsupervised Feature Learning に興味があった
Why？？
どの業界を見てもアノテーションされていないデータばか
りが大量にある現状に課題を感じている。
『AI』に大きな期待を抱く人々も「整ったデータがあれば
出来ます」という決まり文句にウンザリしてきているはず。
そこで！！
”そこそこ”の性能をアノテーション無しで達成したい
アノテーションに頼り切ることなく、フォローすることで、
センサ屋さんとAI屋さんの良い協力関係を築きたい。

論文を読んだ感想
アイデアはいたってシンプルだった
• 1枚1枚の画像を区別できるような特徴量は有用との仮説
• 全画像を超球上に”ばらばら”にプロットできるよう学習
手法の有効性を示すための評価が丁寧にされていた
・※たぶん

本編の前に…
Unsupervised Feature Learning の
従来手法

Unsupervised Feature Learning 従来手法
Self-supervised-Learning
• 観測済みの値を教師信号に見立てた問題を
解かせることで有効な特徴量を見つけ出す。
Adversarial learning
• 本物か偽物（生成データ）か見抜く問題を
解かせることで有効な特徴量を見つけ出す。
Exemplar CNN
• Augmentしたデータの元データを推測さ
せることで、有効な特徴量を見つけ出す。
The split-brain Autoencoder
• 入力値の復元問題を解かせることで有効な
特徴量を見つけ出す。

Self Supervised Learning
• 観測済みの値を教師信号に見立てた問題を解かせることで
有効な特徴量を見つけ出す。
ジグソーパズルのように並び替えた画像を復元させる
画像や時系列の一部分を復元する問題を解かせる

このときの中間層の値を取り出して特徴量として用いる

CVPR2018では別画像を
紛れ込ませる『Jigsaw++』
という手法も提案された。
（なんてイジワルをするんだ…）
Boosting Self-Supervised Learning via
Knowledge Transfer
http://openaccess.thecvf.com/content_cvpr_2018/papers/Noro
ozi_Boosting_Self-Supervised_Learning_CVPR_2018_paper.pdf

Adversarial Networks
• 本物か偽物（生成データ）か見抜く問題を解かせることで
有効な特徴量を見つけ出す。https://arxiv.org/pdf/1605.09782.pdf
D：discriminator
dataとfeatureのセットに
対して本物か偽物か判別する
E：encoder
画像から特徴を抽出
G：generator
潜在変数から画像を生成

Adversarial Networks
• 本物か偽物（生成データ）か見抜く問題を解かせることで
有効な特徴量を見つけ出す。https://arxiv.org/pdf/1605.09782.pdf
Encoderによって抽出されるE(x)や、
D(x,E(x))の中間層の値を特徴量として用いる

Exemplar CNN
• Augmentしたデータの元データを推測させることで、有効
な特徴量を見つけ出す。 https://arxiv.org/pdf/1406.6909.pdf
X={x1,x2…xn} {Ti1,Ti2…Tin}
{Ti1,Ti2…Tin}を入力して、
元の画像データはX={x1,x2…xn}のどれなのかラベルiを予測

Autoencoder
• 入力値の復元問題を解かせることで有効な特徴量を見つけ
出す。 https://arxiv.org/pdf/1611.09842.pdf
いわずと知れた従来のAutoEncoderに加えて、
要素を分離してそれぞれ復元させるsplit-brain手法もある。

提案手法

研究のMotivation
• 従来の教師あり学習はクラス区別に有効な特徴量を捉える
• インスタンスレベルで区別できるよう学習すれば、教師な
しでも有効な特徴量を捉えられるのではないか？
従来の特徴量は視覚的に
類似するデータが近くなる。
しかし、例えばleopardと
Jaguarは全く別の存在。
これらもしっかり区別でき
るような特徴量を捉えられ
ないものか？？

• 特徴空間に単位ベクトル V={v1 … vn} を n個だけランダム生成
• n個のデータ X={x1 … xn} をn個の異なるクラスに見立てる
• 全ての xi について fi=fθ(xi) が vi に近づくよう学習する
• 学習後、V={v1 … vn} を V={fθ(xi) … fθ(xn)} に上書き保存して完了

• 単位ベクトル V={v1 … vn} を n個だけランダム生成
• 全ての xi について fi=ƒθ(xi) が vi に近づくよう学習する
• 学習後、V={v1 … vn} を V={ƒθ(xi) … ƒθ(xn)} に上書き保存して完了
論文では128次元の単位ベクトルとした。

論文タイトルの『Instance-level Discrimination』とは
ここに由来する。
例えば、10クラスで画像が200枚ずつあった場合は、
１枚ずつの画像を全て異なるクラスだと見立てて、
2000クラス分類として学習する。

・ƒθはパラメータθによって定められるDeepNeuralNetwork
・J(θ)を最小化するよう学習する
※ v=ƒθ(x) vがviに近いほどxがクラスiに属する可能性が高い

クラス数がMillionオーダーなので現実的な計算量ではない。
論文ではNCE(noise-contrastive estimation)で
尤度最大化を近似計算することで処理を可能にした。
この論文のキモの１つではあるが、今回の主な興味は計算量の工
夫ではないので、省略。

• 全ての xi について fi=fθ(xi) が vi に近づくよう学習する
• 学習後、V={v1 … vn} を V={fθ(xi) … fθ(xn)} に上書き保存して完了
ランダム生成した単位ベクトル V={v1 … vn} が均等にバラけていると仮定すると、
学習により各インスタンスが距離を保って(≒区別しやすい状態で)超球上にプロットされる。
よって、データ xj から抽出した特徴量 fj=fθ(xi) は、kNNやSVMで有用という考え。

評価

評価方針
本論文では、
Unsupervised な Feature Learning の手法を提案
よって評価では、
従来の Unsupervised Feature Learning 手法に対し、
どちらがより良い特徴量を抽出できているのかを比較

評価方針
２つの方針で評価
(1). 抽出した特徴量から Linear-SVM によるクラス分類
(2). 抽出した特徴量から K-NN によるクラス分類
ImageNet
(Train)
X={x1, x2, … xn}
特徴量抽出関数fθ(x1)を学習
F={fθ(x1), fθ(x2)…}
(1). F={fθ(x1), fθ(x2)…}からSVMでクラス境界線を引いてfθ(xtest)をクラス識別
(2). fθ(xtest) から最近傍の F={fθ(x1), fθ(x2)…} が最も多く属するクラスに識別
k=200、距離尺度はコサイン距離
ImageNet
(TEST)
xtest
SVM kNN
認識器構築クラス識別
fθ(xTEST)

評価結果

評価結果
Baseline手法
①Self-supervised learning（AlexNetによる実装）
②Adversarial learning（AlexNetによる実装）
③Exemplar CNN（ResNet-101による実装）
④The split-brain Autoencoder（AlexNetによる実装）

評価結果
提案手法
４種類のネットワーク構造で実装

評価結果
SVMによる評価
どの中間層の値をfθ (xi)とするのか、
conv1～conv5のパターンで検証

評価結果
kNNによる評価
BaseLineでは128次元に落とし込んで
から同様にコサイン距離を適用。

評価結果
抽出した特徴量 fθ(xi) の次元数
提案手法は恐ろしく小さい

評価結果
State-of-the-Art 達成 35関西CV・PRML勉強会 https://goo.gl/pMu9A2

識別結果の具体例
左端列：Query画像、 2列目以降：Queryの最近傍画像

まとめ

まとめ
• Unsupervised Feature Learningの手法を提案。
• 各データが超球上にランダムプロットした単位ベクトルに
対応するように学習。
• これによってインスタンスレベルで区別できるような特徴
量の抽出を試みた。
• 得た特徴量をSVMやkNNに用いてSOTA達成。

APPENDIX

APPENDIX：Detection
Detectionタスクに応用した結果、
State-of-the-Artとはならなかったが、良い性能を示した。

APPENDIX：特徴量の次元数
提案手法で抽出する特徴量の次元数は128が最適だった

APPENDIX：学習データの量
学習データを減らすと性能も著しく低下した

APPENDIX：ParametricとNon-Parametric
（…よく見るとNon-Parametricと論文タイトルにある）
学習モデルにて v=fθ(x) に対する P(i|v) の算出式で定義を分けている
そして、Non-Parametricの方が性能が良かったと報告している
Parametric Non-Parametric

関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instance-Level Discrimination

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instance-Level Discrimination

Similar to 関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instance-Level Discrimination (20)

More from Yamato OKAMOTO

More from Yamato OKAMOTO (20)

Recently uploaded

Recently uploaded (14)

関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instance-Level Discrimination