Unsupervised learning of object landmarks by factorized spatial embeddings

Unsupervised learning of object landmarks
by factorized spatial embeddings
Takanori Ogata (@conta_)

緒方貴紀 (@conta_)
Co-Founder / Chief Research Officer @ABEJA, Inc.
基礎研究から、プロダクト開発、クラウドからGPUマシンの組み立てまで
なんでもやります。
Self Introduction

画像の意味理解において、物体の変形や見え方を考慮するのは大事
Ex) 物体のPartsと全体像の関係性を利用したり、物体の大きさの変化に対応し
た検出枠を予め準備したりすることで物体検出の精度向上に寄与することが知
られている
Intro
3
SSD[Liu+, ECCV 2016]DPM[Felzenszwalb+, CVPR 2008]

Landmarkを検出するためのアルゴリズムを作るには、アノテーション
データが必要
Landmark detection
4
https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/ http://cocodataset.org/#keypoints-challenge2017

=> アノテーション無しに、Keyとなる特徴を得ることができないか？？？
Landmarkのアノテーション辛い問題
5
landmarkのアノテーションはすごく時間かかって辛い。。。

• 同一物体が移った画像群から、Unsupervisedに
その物体の特徴を表すようなLandmarkを学習、
検出できるようなアルゴリズムの提案
• 対象物の見え方や変形が、共通の空間から射影
されると仮定して、CNNでimplicitにそういった
landmarkを抽出できた
• 学習で得られたLandmarkと、アノテーションされ
たlandmarkを線形回帰することで、ベンチマーク
ごとに一から学習させること無く、landmark
detectionができた
概要
6

この論文は理論を気持ちで感じ取って、NNで解きます
7

特定の物体(猫、鳥、犬 etc.)の特徴点は、ある共通の球面にマップされて
て、そこから射影して画像上に現れていると考える
Structure from viewpoint factorization
8

𝑆上にある物体の表面がマップされてると考える
特定物体に共通する座標から画像上の点𝑞に対する射影である、
𝑞 = Φ%(𝑝; 𝑋)を考えたい
9
X: image
Λ ⊂ ℝ6
𝑆 ⊂ ℝ7
𝑝, 𝑟 ∈ 𝑆
𝑞 ∈ Λ

𝑞を𝑞′に移す変換𝑔はΦを使って次のように表せる
10
X: image
Λ ⊂ ℝ6
𝑆 ⊂ ℝ7
𝑝, 𝑟 ∈ 𝑆
𝑞 ∈ Λ
すると、下記の関係式が得られる
𝑔はこんな感じで表せる
これを満たすΦを求めたい！

Q: どうやって求めるのか？
Landmark detection networks
11
A: やっぱNNっしょ！

Φ(−; 𝑥)から、K個の離散点をsampleしてそれらの射影集合Φ(𝑥)を考える
12
簡略化
これによって、ある物体の画像からK個のimplicitな点を得ることができる

このΦをNNで表す際に、出力がscore mapになるようにする
13
𝑠𝑐𝑜𝑟𝑒 𝑚𝑎𝑝𝑠 Ψ(𝑥) ∈ 𝑅G×I×J
Ψ(𝑥)
Deep learning

このscore mapをprobability mapに変換するために、
softmaxオペレーター𝜎を各Ψの出力に対してかける
14
Ψ(𝑥)
Deep learning
σを各pixelごとに適用

Probability mapから最終的なlandmark座標𝑢M
∗
を求めるには、
各mapに対しての最大値を取って決める
15
重み付き平均的なやつ
(x, y)

gによる変換後の画像xをΦに入れたときの出力と、変換前の画像をΦに入
れたときの出力をgで変換したものが等しくなるようにすれば、同じ画像か
ら共通のlandmarkを手に入れることができる、という気持ち
=> siamese networkのような形で計算する
Learning formulation
16
Loss functionをどう設計するか？

前式(5)は直接landmarkの差を取っていたが、landmarkの誤差を取るの
ではなく、直接probability mapsから計算できるように(6)式を代わりに
lossとして利用する
Probability maps loss
17
＊実装では(6)式を展開して計算を簡略化

先程の関数Ψ(𝑥) = (Ψ(𝑟_1; 𝑥), Ψ(𝑟_2; 𝑥), … , Ψ(𝑟_𝐾; 𝑥))の数は適当にKで決めて
いる
Þ K個すべての出力結果が同じになってしまう可能性がある
局所解を避けるために、 Diversity lossを導入
=>Score mapが重複しないようなLossを入れる
Diversity loss
18
Ψ(r_1; x)
Ψ(r_2; x)
Ψ(r_K; x)
:
局所解！！！！

Score mapが重複しない = 各Score mapの相関がなくなるようなlossを
考える
Diversity loss
19

(7)は計算コストが、Kに対して爆発的に増加してしまうので、代わりに(8)を使う
Score mapが重複しない = 各score mapの各点においてscoreが高くなるとこ
ろがばらつくようになるのと同義と考えて、次のように置き換える
Diversity loss
20

実際はScore mapはDown samplingされるので、座標は下記のようにな
る
Diversity loss
21

正則項 Score map画像変換による誤差
各Score mapの分散度合い
Lossを統合すると 9 式になる
Learning objective
22
Ψ(𝑥)
なるべく分散するようにΨ(𝑥′)
𝒈
対応点が近くなるように
𝒙′
𝒙

詳細は省略
23
Implementation Detail
ｇはThin Plate Spline(TPS)という
変換を利用

UT Zappos50k: 49525 shoes
Cat dataset: 8609 images
CelebA dataset: 200k celebrity images with 5 annotated landmarks
定性評価をVisualizeにて行った
Experiments
24

UT Zappos50k
Qualitative results
25

Cat Dataset
Qualitative results
26

CelebA Dataset
Qualitative results
27

UnsupervisedなLandmarkが実際に有用なものかをチェックするために
定性評価(Unsupervisedに出力したlandmarkをSupervisedにRegression)を
行った
Facial Landmark Detectionに関して、 AFLW /MAFL/300-W Datasetにて実験
Quantitative results
28

CelebAでUnsupervisedな学習させて、学習させるときにLandmarkのK
の数を増やしていったときの実験結果
Kは増やせば増やすほど良くなる
Quantitative results（Increasing K)
29

Supervised landmarkを増やしていったときの実験結果
UnsupervisedなlandmarkからSupervisedなLandmarkへ応用できるこ
とがわかる
Quantitative results(Increasing supervised label)
30

Networkはグローバルなので、各Datasetに対して、回帰することでそこそ
こ高精度なに近い結果を得ることが可能
31

左は成功例、右は失敗例
32

• 同一物体が移った画像群から、Unsupervisedにその物体の特徴を表
すようなLandmarkを学習、検出できるようなアルゴリズムの提案
• 対象物の見え方や変形が、共通の空間から射影されると仮定して、
CNNでimplicitにそういったlandmarkを抽出できた
• 学習で得られたLandmarkと、アノテーションされたlandmarkを線形
回帰することで、ベンチマークごとに一から学習させること無く、
landmark detectionができた
Conclusion
34

Join Us!
https://www.wantedly.com/companies/abeja
37

Unsupervised learning of object landmarks by factorized spatial embeddings

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Unsupervised learning of object landmarks by factorized spatial embeddings

Similar to Unsupervised learning of object landmarks by factorized spatial embeddings (20)

More from Takanori Ogata

More from Takanori Ogata (13)

Recently uploaded

Recently uploaded (16)

Unsupervised learning of object landmarks by factorized spatial embeddings