Attribute Guided Augmentation
2017/06/18
伊神 大貴
(@_Nonane_)
最新のML, CV, NLP関連
論文読み会
TL; DR
2
Data Augmentationを特徴量空間で行う
-Encoder-Decoderネットワークを用いて所望の
One-shot object recognition
実験
Attributeを持つような特徴量に変換する
Object-based one-shot scene recognition
-物体検出ネットワークを使ってワンショットシーン認識
-提案手法でAugmentationすると精度が上がるやったー!
Data Augmentation
3
Cifar-10, 9層のConvNet [1]
Method error
Without DA 9.08%
With DA 7.25%
With Large DA 4.41%
[1] JT Springenberg, Striving for Simplicity: The All Convolutional Net
学習データを人工的に増やす
flipping random cropping
目的・手法
4
DAを特徴量空間で行う
-Deep featureをSVMに突っ込む場合などは生画像
をDAするより特徴量をDAしたほうがよい
𝐱 ∈ 𝒳に対していい感じに特徴量を変換する
𝒳: feature space (an object)
𝜙 𝐱 : 𝒳 → 𝒳
を学習する
目的・手法
5
DAを特徴量空間で行う
𝐱 ∈ 𝒳に対して属性𝑡を持つように変換する関数
𝒳: feature space (an object)
𝐱 = 𝜙 𝐱 ,
を学習する
𝑠. 𝑡. 𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒 𝐱 = 𝑡
-Deep featureをSVMに突っ込む場合などは生画像
をDAするより特徴量をDAしたほうがよい
Tables with depth
in the range of 1-2[m]
6
𝐱 = 𝜙 𝐱, 𝑡
目的:𝜙の学習
𝑠. 𝑡. 𝛾 𝐱 = 𝑡
Input: 画像特徴𝐱
output: 画像特徴 𝐱
s.t. アトリビュート𝛾 𝐱 = 𝑡
Attribute Guided Augmentation
7
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+
Feature regressor 𝜙 𝐱, 𝑡 : 𝒳 × ℝ+ → 𝒳
𝒳: feature space (an object)
Attribute Guided Augmentation
8
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+
Feature regressor 𝜙𝑖
𝑘
𝐱 : 𝒳 → 𝒳
𝑖: 入力特徴のアトリビュート(区間)
𝑘: 出力特徴のアトリビュート
𝒳: feature space (an object)
入力区間数 × 出力ターゲット数 × アトリビュート数
の𝜙𝑖
𝑘
を学習する
Attribute regressor
9
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+
何でもいい
今回は二層のNN
𝒳: feature space (an object)
Feature regressor
10
Feature regressor
𝜙𝑖
𝑘
𝐱 : 𝒳 → 𝒳
min
𝜙
𝐿 𝐱, 𝑡 𝑘; 𝜙 = 𝐿1 + 𝜆𝐿2
𝐿2 = 𝜙 𝐱 − 𝐱 2
2
𝐿1 = 𝛾(𝜙 𝐱 − 𝑡 𝑘
2
Attribute error
Regularizer (same object)
Experiments
11
Attribute regressor, Feature regressor
の性能評価
One-shot object recognition
Object-based one-shot scene recognition
-物体検出ネットワークを使ってワンショットシーン認識
-提案手法でAugmentationすると精度が上がるやったー!
Dataset
12
SUN RGB-D
103,35 RGB-D images
2D & 3Dのバウンディングボックス(BB)
Dataset
13
今回用いたAttribute 𝒜 = depth, pose
-depth: BBの中心
-pose: BBのz軸周りの回転
SUN RGB-D
103,35 RGB-D images
2D & 3Dのバウンディングボックス(BB)
Experiments: attribute regressor
14
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+を学習する
入力:Fast RCNNのFC7
出力:depthとpose
15
Depth [m] Pose [deg]Median
absolute error
同一クラスで学習 vs クラスを無視して学習
Depth
0.2m, 7.5m
Pose
0°, 180°
データが少ない
(lamp, door)と厳
しい
Experiments: feature regressor
16
Feature regressor 𝜙𝑖
𝑘
𝐱 : 𝒳 → 𝒳を学習する
入力:Fast RCNNのFC7
出力:それっぽい特徴ベクトル
評価:
1. 同じオブジェクトの特徴
→ピアソンの相関係数
2. 所望のアトリビュート値
→𝛾 𝐱 と𝑡 𝑘のMAE
17
学習に使ってないオブジェクト
でもそこそこのスコア
Experiments: one-shot recognition
18
データセット1: ソースクラス𝒮
-アトリビュート付き,大量のデータ
-𝜙と𝛾をこれでトレーニング
データセット2: ターゲットクラス𝒯
-各クラス1枚,アトリビュート無し
-𝒮 ∩ 𝒯 = ∅
𝒯から1枚学習用サンプルを選び,SVMで学習
残りでテスト,を500回繰り返す
Experiments: one-shot recognition
19
RCNNで得られた物体候補特徴をAGAで増やす
(𝒯1, 𝒯2:10クラス,𝒯3:20クラス)
D: Depth augmentation, P: Pose augmentation
Object-based one-shot scene recognition
20
物体検出ネットワークの特徴ベクトルから
シーン認識を行う
AggregateFast RCNN
0.2
−0.8
⋮
0.4
Images from A. Gupta, From 3D Scene Geometry to Human Workspace
SVM
Experiments
21
MIT Indoor dataset
-屋内シーン認識
-25 classのサブセットを使用
Base line:
RCNNの候補領域の特徴をMax Pooling
提案手法:
特徴をAGAで増やしてFisher Vector
Results
22
まとめ,感想
23
Data Augmentationを特徴量空間で行う
One-shot object recognition
実験
Object-based one-shot scene recognition
-普通のAugmentationとの比較は?
-one-shotじゃない場合の精度向上はどの程度?
-Encoder-Decoderネットワークを用いて所望の
Attributeを持つような特徴量に変換する

AGA_CVPR2017