Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
2013/04/24 上智大学 山中高夫

フィッシャーベクトルによる画像認識
[0] 赤穂昭太郎,カーネル多変量解析,岩波書店,2009.
[1] F. Perronnin and C. Dance, “Fisher Kernels on V...
パターン認識におけるカーネル法
赤穂昭太郎,カーネル多変量解析,岩波書店,2009.
多変量解析(1)
線形モデル

𝑑

𝑦 = 𝒘𝑇 𝒙=

𝑤𝑚𝑥

𝑚

𝑚=1

評価関数
𝑁

𝑦𝑗 − 𝒘𝑇 𝒙𝑗

𝑅 𝒘 =

2

𝑗=1

行列表現
𝑦1
𝑦2 ,
𝒚=
⋮
𝑦𝑛
1
𝑥1
𝑦1
2
𝑦 2 = 𝑥1
⋮
⋮
...
多変量解析(2)
最小2乗解
𝒚 = 𝐗𝒘
𝑅 𝒘 = 𝒚 − 𝐗𝒘 𝑇 (𝒚 − 𝐗𝒘)
𝜕𝑅 𝒘
𝜕
&=
𝒚 𝑇 𝒚 − 2𝒘T 𝐗 𝑇 𝒚 + 𝒘 𝑇 𝐗 𝑇 𝐗𝒘
𝜕𝒘
𝜕𝒘
=
& −2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘

𝑅 𝒘 が最...
カーネル法(1)
線形モデル
𝑦 = 𝒘𝑇 𝒙
カーネル関数
𝒙 𝑖 , 𝒙の類似度を表す

カーネル関数を使った非線形モデル
ただし,

𝑛

𝑦&=

𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙

𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖

𝑖=1
𝑛

=
&

...
カーネル法(2)
カーネル関数を使った非線形モデル
𝑦&= 𝒘 𝑇 𝝓 𝒙

𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖

𝑛

=
&

𝑇

𝝓 𝒙

𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙
𝑖=1

𝑘(𝑥1 , 𝑥1 )
𝑦1
𝑦 2 , 𝐊 = 𝑘(𝑥1 ,...
カーネル法(3)
正則化:関数に制限をつけてオーバーフィッティングを防ぐ
𝒚 = 𝐊𝜶
𝑅 𝜶 = 𝒚 − 𝐊𝜶

𝑇

正則化項

𝑇

𝒚 − 𝐊𝜶 + 𝜆𝜶 𝐊𝜶

𝜕𝑅 𝜶
𝜕
&=
𝒚 𝑇 𝒚 − 2𝜶T 𝐊 𝑇 𝒚 + 𝜶 𝑇 𝐊 ...
カーネル関数の設計(1)
𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖

𝑇

𝝓 𝒙

𝑘(𝑥1 , 𝑥1 )
𝑘(𝑥1 , 𝑥2 )
𝐊=
⋯
⋮
𝑘(𝑥1 , 𝑥 𝑛 )

𝑘(𝑥 𝑛 , 𝑥1 )
𝑘(𝑥 𝑛 , 𝑥2 )
⋮
𝑘(𝑥 𝑛 , 𝑥 ...
カーネル関数の設計(2)
例2)フィッシャーカーネル
𝒙がパラメータ𝜽をもつ確率分布𝑝 𝒙; 𝜽 から生成されるとする
例えば,Gaussian Mixture Model (GMM)
𝐾

𝑝 𝒙 =
𝑘=1

1
𝜋 𝑘 exp −
𝒙− ...
カーネル関数の設計(3)
例2)フィッシャーカーネル(続き)
フィッシャー情報行列
𝐺 𝜽 = E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽

パラメータ数𝑀 × 𝑀の行列

𝑇

フィッシャーカーネル
𝑘 𝒙 𝑖 , 𝒙; 𝜽 = 𝒔 𝒙 𝑖 ; ...
Fisher Kernels on Visual Vocabularies for
Image Categorization
F. Perronnin and C. Dance, IEEE Conference on Computer
Visi...
画像認識 (Image Categorization)

Airplane

Ant

Butterfly

Camera

Chair

Dolphin
Bag of Visual Words / Bag of Features
Bag of Visual Wordsにおける処理の流れ
1. 画像から局所特徴量の抽出

2. ベクトル量子化による画像特徴量の表現
3. 識別器による画像識別
35...
Bag of Visual Words (1)
1. 画像から局所特徴量の抽出
よく利用される局所特徴量は,SIFT (Scale-Invariant Feature Transform)

赤で示した各点で,その周辺のパッ
チから特徴量ベクト...
Bag of Visual Words (2)
2. ベクトル量子化による画像特徴量の表現
35

5

30

6

7
25

20

𝑥2 15

4

400

350

2

10

300

250

5

0

1

3
0

5...
Bag of Visual Words (3)
3. 識別器による画像識別
Support Vector Machine (SVM)
による識別

カーネル関数を利用し
た高次元空間への写像
𝜙

ベクトル量子化ヒスト
グラムの特徴量空間

線...
Bag of Visual Wordsにおける課題
膨大な量の画像データを処理するために,計算量を可能な限り小さくしたい
1. コンパクトな画像特徴量表現: 少ないVisual Word数
2. ユニバーサルなVisual Words(辞書):...
フィッシャーカーネルの利用(1)
ベクトル量子化による特徴量分布表現

Gaussian Mixture Model(GMM)によ
る局所特徴量分布の表現

35

35

5

30

7

25

6

30

25
20

20

𝑥2
...
フィッシャーカーネルの利用(2)
各画像に対してGMMのパラメータを計算するのは計算コストが高い
あらかじめ多くの画像の局所特徴量から,様々な画像の局所特徴量に対
するGMMパラメータを求める(Visual Words辞書学習)
各画像に対して...
フィッシャーカーネルの理論(1)
GMMに限らず,局所特徴量分布を𝑝 𝒙|𝜽 の確率密度関数で表す
ただし,𝜽は確率密度関数のパラメータ
例えば,GMMの場合は,

𝐾

𝑝 𝒙|𝜽 =

𝜋 𝑘 exp −
𝑘=1

1
𝒙− 𝝁𝑘
2

𝑇...
フィッシャーカーネルの理論(2)
フィッシャーカーネル(フィッシャーベクトル)を定義するために,スコア関数を
以下の式で定義する
確率密度関数のモデルをデータ
𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽
𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2,...
フィッシャーカーネルの理論(3)
フィッシャーベクトルを計算する具体的手順

35

30

• あらかじめ,多くの画像の局所特徴量から,確率密
度関数のモデル𝑝 𝒙|𝜽 に最もフィットするパラメー
タ𝜽を求める
• 一枚の画像に対して,局所特...
GMMに対するフィッシャーベクトル(1)
確率密度関数のモデルをGMMとすると,パラメータ𝜽は𝐾個のガウス分布の重み,平
均,共分散行列である(ただし,確率密度関数の面積を1にするため,1番目の重み
パラメータは他の重みから決定される)
𝐾

...
GMMに対するフィッシャーベクトル(2)
サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は,
𝑇

𝐾

𝐿 𝑿 𝜽 =

log
𝑡=1

𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽
𝑘=1

パラメータ𝜽に対する勾配ベクト...
GMMに対するフィッシャーベクトル(3)
以上で,1枚の画像の局所特徴量集合𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,事前に学習し
たGMMパラメータ𝜽におけるスコア関数を計算できる
𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿...
GMMに対するフィッシャーベクトル(4)
フィッシャーベクトル計算式のまとめ
1
𝑿
𝑔𝜽 = 𝑳𝜽
𝑇

𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽
𝜕𝐿 𝑿|𝜽
,⋯,
,
,⋯,
,
,⋯,
𝜕𝜔2
𝜕𝜔 𝐾
𝜕...
Improving the Fisher Kernel for
Large-Scale Image Classification
F. Perronnin, S. Jorge, and T. Mensink, European Conferen...
フィッシャーベクトルの課題
膨大な量の画像データを処理するために,計算量を可能な限り小さくしたい
1. コンパクトな画像特徴量表現: 少ないVisual Word数
2. ユニバーサルなVisual Words(辞書): 辞書の学習データに依存...
L2正規化(1)
フィッシャーベクトル
𝑔 𝜽𝑿

1
𝑿
= 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽 𝑮 𝜃
𝑇
1
1
1
𝑿
𝑮 𝜃 = 𝒔 𝑿|𝜽 = 𝛻 𝜃 log 𝑝 𝑿|𝜽 = 𝛻 𝜃
𝑇
𝑇
𝑇

𝑇

log 𝑝 𝒙 𝑡 |𝜽
𝑡=1...
L2正規化(2)
1枚の画像から得られる局所特徴量の確率密度関数𝑝 𝒙 を背景𝑢 𝜽 𝒙 と対象物体
𝑞 𝒙 の確率密度関数の和で表す
𝑢𝜽 𝒙
𝑝 𝒙 = 𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙)
𝑿
𝑮 𝜃 &= 𝛻 𝜃

𝑝 𝒙 log ...
パワー正規化
問題点
• フィッシャーベクトルは非常にスパース(フィッシャーベクトルは高次
元ベクトルであり,各要素に0が多い.特にガウス分布の混合数が多いと
顕著)
• スパースなベクトル同士の距離を内積で評価すると精度が悪い
解決策
1. ...
空間ピラミッド
• Bag of Visual Wordsにおいて,画像を分割し,大まかな位置情報を付与
すると精度がよくなることが知られている
フィッシャーベクトルの評価実験
評価用データセット
•
PASCAL VOC 2007 (約10,000画像 @ 20カテゴリ)
•
CalTech256 (約30,000画像 @ 256カテゴリ)
局所特徴量
•
パッチサイズ:32x32,グ...
評価指標
PASCAL VOC 2007データセット
• 20クラスのそれぞれに対して,各画像中にそのクラスの物体が存在する
か,それともしないかを判断
• 各クラスに対してPrecision/Recall曲線を計算(Precision: 物体...
PASCAL VOC 2007に対する実験結果(1)

改良の効果: パワー正規化 > L2正規化 > 空間ピラミッド
PASCAL VOC 2007に対する実験結果(2)

Multichannels+non-linear SVM
Bounding box
Many channels+soft-assignment
Many channels+Multiple...
CalTech256に対する実験結果

5 Descriptors →
大規模学習データによる評価実験
データセット
•
2つの学習用データセット:ImageNet (270K画像@18カテゴリ),Flickr
(350K画像@18カテゴリ)
•
評価用データ:PASCAL VOC 2007 "test" set(...
大規模学習データによる実験結果

Multichannels
+non-linear SVM
+sliding window
まとめ
• 多変量解析に利用されるカーネル法を紹介し,カーネル関数の例として
フィッシャーカーネルを説明した.
• Bag of Visual Wordsの拡張として,フィッシャーカーネルに基づいた
フィッシャーベクトルを画像認識に適用した.ユ...
Upcoming SlideShare
Loading in …5
×

Fisher Vectorによる画像認識

16,206 views

Published on

文献紹介のスライドです。学部4年生〜修士課程1年生くらい向けです。1枚目に8本の文献リストを載せていますが、最初の3本しか説明していません。
- p. 26のωに対するFisher Vectorの式を修正したました (2014/01/14)

Published in: Education

Fisher Vectorによる画像認識

  1. 1. 2013/04/24 上智大学 山中高夫 フィッシャーベクトルによる画像認識 [0] 赤穂昭太郎,カーネル多変量解析,岩波書店,2009. [1] F. Perronnin and C. Dance, “Fisher Kernels on Visual Vocabularies for Image Categorization,” in IEEE Conference on Computer Vision and Pattern Recognition, 2007. [2] F. Perronnin, S. Jorge, and T. Mensink, “Improving the Fisher Kernel for Large-Scale Image Classification,” in European Conference on Computer Vision, 2010. [3] F. Perronnin, Y. Liu, J. Sanchez, and H. Poirier, “Large-scale image retrieval with compressed Fisher vectors,” in IEEE Conference on Computer Vision and Pattern Recognition, 2010. [4] J. Sanchez and F. Perronnin, “High-dimensional signature compression for large-scale image classification,” in IEEE Conference on Computer Vision and Pattern Recognition, 2011. [5] J. Krapac, J. Verbeek, and F. Jurie, “Modeling spatial layout with fisher vectors for image categorization,” in International Conference on Computer Vision, 2011. [6] V. Garg, S. Chandra, and C. V. Jawahar, “Sparse discriminative Fisher vectors in visual classification,” in Indian Conference on Computer Vision, Graphics and Image Processing, 2012. [7] J. Sánchez, F. Perronnin, and T. de Campos, “Modeling the spatial layout of images beyond spatial pyramids,” Pattern Recognition Letters, vol. 33, pp. 2216–2223, Dec. 2012.
  2. 2. パターン認識におけるカーネル法 赤穂昭太郎,カーネル多変量解析,岩波書店,2009.
  3. 3. 多変量解析(1) 線形モデル 𝑑 𝑦 = 𝒘𝑇 𝒙= 𝑤𝑚𝑥 𝑚 𝑚=1 評価関数 𝑁 𝑦𝑗 − 𝒘𝑇 𝒙𝑗 𝑅 𝒘 = 2 𝑗=1 行列表現 𝑦1 𝑦2 , 𝒚= ⋮ 𝑦𝑛 1 𝑥1 𝑦1 2 𝑦 2 = 𝑥1 ⋮ ⋮ 𝑛 𝑦 𝑥1𝑛 𝑇 1 𝑥1 𝒙1 𝑇 2 𝒙2 = 𝑥1 𝐗= ⋮ ⋮ 𝑇 𝑥1𝑛 𝒙𝑛 ⋯ 𝑥1 𝑑 𝑥2 𝑑 ⋮ 𝑥 𝑑𝑛 𝑤1 𝑤2 ⋮ 𝑤𝑑 ⋯ 𝑥1 𝑑 2 𝑥𝑑 ⋮ 𝑥 𝑑𝑛 𝒚 = 𝐗𝒘
  4. 4. 多変量解析(2) 最小2乗解 𝒚 = 𝐗𝒘 𝑅 𝒘 = 𝒚 − 𝐗𝒘 𝑇 (𝒚 − 𝐗𝒘) 𝜕𝑅 𝒘 𝜕 &= 𝒚 𝑇 𝒚 − 2𝒘T 𝐗 𝑇 𝒚 + 𝒘 𝑇 𝐗 𝑇 𝐗𝒘 𝜕𝒘 𝜕𝒘 = & −2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘 𝑅 𝒘 が最小になる𝒘では,微分 が0になるので(極値なので) −2𝐗 𝑇 𝒚 + 2𝐗 𝑇 𝐗𝒘 = 0 𝐗𝑇 𝐗 −1 𝐗𝑇 𝐗 𝒘= 𝐗𝑇 𝐗 −1 𝐗𝑇 𝒚 𝒘= 𝐗𝑇 𝐗 −1 𝐗𝑇 𝒚 近似直線を表すパラメータ
  5. 5. カーネル法(1) 線形モデル 𝑦 = 𝒘𝑇 𝒙 カーネル関数 𝒙 𝑖 , 𝒙の類似度を表す カーネル関数を使った非線形モデル ただし, 𝑛 𝑦&= 𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙 𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖 𝑖=1 𝑛 = & 𝑇 𝝓 𝒙 𝒙 𝑖 は𝑛点のサンプルのうちの一つ 𝛼𝑖 𝝓 𝒙𝑖 𝑇 𝝓 𝒙 𝑖=1 𝑛 = & = & 𝛼𝑖 𝝓 𝒙𝑖 𝑖=1 𝒘𝑇 𝝓 𝒙 𝑇 𝝓 𝒙 線形モデルにおける𝒙を非線形 関数𝝓 𝒙 に置き換えたモデル
  6. 6. カーネル法(2) カーネル関数を使った非線形モデル 𝑦&= 𝒘 𝑇 𝝓 𝒙 𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖 𝑛 = & 𝑇 𝝓 𝒙 𝛼 𝑖 𝑘 𝒙 𝑖, 𝒙 𝑖=1 𝑘(𝑥1 , 𝑥1 ) 𝑦1 𝑦 2 , 𝐊 = 𝑘(𝑥1 , 𝑥2 ) ⋯ 𝒚= ⋮ ⋮ 𝑘(𝑥1 , 𝑥 𝑛 ) 𝑦𝑛 最小2乗解 𝒚 = 𝐊𝜶 𝑅 𝜶 = 𝒚 − 𝐊𝜶 𝑇 (𝒚 − 𝐊𝜶) 𝜶= 𝐊𝑇 𝐊 −1 𝐊𝑇 𝒚 非線形モデル のパラメータ 𝐊を対称行列とすると 𝜶= 𝐊2 −1 𝐊𝒚 = 𝐊 −1 𝐲 全てのデータ間の類似度𝐊を定義できれば,非 線形関数𝝓 𝒙 を明示的に定義する必要がない 𝛼1 𝑘(𝑥 𝑛 , 𝑥1 ) 𝛼2 𝑘(𝑥 𝑛 , 𝑥2 ) , 𝜶= ⋮ ⋮ 𝛼𝑛 𝑘(𝑥 𝑛 , 𝑥 𝑛 )
  7. 7. カーネル法(3) 正則化:関数に制限をつけてオーバーフィッティングを防ぐ 𝒚 = 𝐊𝜶 𝑅 𝜶 = 𝒚 − 𝐊𝜶 𝑇 正則化項 𝑇 𝒚 − 𝐊𝜶 + 𝜆𝜶 𝐊𝜶 𝜕𝑅 𝜶 𝜕 &= 𝒚 𝑇 𝒚 − 2𝜶T 𝐊 𝑇 𝒚 + 𝜶 𝑇 𝐊 𝑇 𝐊𝜶 + 𝜆𝜶 𝑇 𝐊𝜶 𝜕𝜶 𝜕𝜶 = & −2𝐊 𝑇 𝒚 + 2 𝐊 𝑇 + 𝜆𝐈 𝐊𝜶 非線形モデル 𝜶 = 𝐊 𝑇 + 𝜆𝐈 𝐊 −1 𝐊 𝑇 𝒚 のパラメータ 𝐊を対称行列とすると −2𝐊𝒚 + 2 𝐊 + 𝜆𝐈 𝐊𝜶 = 𝟎 𝐊𝐊 + 𝜆𝐊 𝜶 = 𝐊𝒚 𝐊 + 𝜆𝐈 𝜶 = 𝒚 𝜶= 𝐊 + 𝜆𝐈 −1 𝒚
  8. 8. カーネル関数の設計(1) 𝑘 𝒙 𝑖, 𝒙 = 𝝓 𝒙 𝑖 𝑇 𝝓 𝒙 𝑘(𝑥1 , 𝑥1 ) 𝑘(𝑥1 , 𝑥2 ) 𝐊= ⋯ ⋮ 𝑘(𝑥1 , 𝑥 𝑛 ) 𝑘(𝑥 𝑛 , 𝑥1 ) 𝑘(𝑥 𝑛 , 𝑥2 ) ⋮ 𝑘(𝑥 𝑛 , 𝑥 𝑛 ) カーネル法のモデルパラメータ を推定するためには,この行列 が定義出来ればよい 例1)ガウスカーネル 𝑘 𝒙 𝑖 , 𝒙 = exp −𝛽 𝒙 𝑖 − 𝒙 2 近い点同士は高い類似度を,遠い 点同士は低い類似度を割り当てる
  9. 9. カーネル関数の設計(2) 例2)フィッシャーカーネル 𝒙がパラメータ𝜽をもつ確率分布𝑝 𝒙; 𝜽 から生成されるとする 例えば,Gaussian Mixture Model (GMM) 𝐾 𝑝 𝒙 = 𝑘=1 1 𝜋 𝑘 exp − 𝒙− 𝝁𝑘 2 𝑇 −1 𝚺𝑘 𝒙− 𝝁𝑘 𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀 スコア関数 𝒔 𝒙; &𝜽 = 𝜕 log 𝑝 𝒙; 𝜽 𝜕 log 𝑝 𝒙; 𝜽 ,⋯, 𝜕𝜃1 𝜕𝜃 𝑀 𝑇 仮定した確率分布𝑝 𝒙; 𝜽 を利用して,あるデータ𝒙及びあるパラメータ𝜽からスコ ア関数を計算できる.スコア関数は確率分布の対数をとったlog 𝑝 𝒙; 𝜽 に対して, パラメータ𝜽に関する偏微分を計算したベクトルである. 与えられたデータ𝒙を代入したlog 𝑝 𝒙; 𝜽 の𝜽に関する傾きを表す
  10. 10. カーネル関数の設計(3) 例2)フィッシャーカーネル(続き) フィッシャー情報行列 𝐺 𝜽 = E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽 パラメータ数𝑀 × 𝑀の行列 𝑇 フィッシャーカーネル 𝑘 𝒙 𝑖 , 𝒙; 𝜽 = 𝒔 𝒙 𝑖 ; &𝜽 𝑇 𝐺 −1 𝜽 𝒔 𝒙; &𝜽 フィッシャー情報行列における期待値を計算できないことが多いので,実 際にはサンプル平均で置き換えることが多い 𝐺 𝜽 &= E 𝒙 𝒔 𝒙; &𝜽 𝒔 𝒙; &𝜽 ≅ & 1 𝑛 𝑇 𝑛 𝒔 𝒙 𝑖 ; &𝜽 𝒔 𝒙 𝑖 ; &𝜽 𝑇 𝑖=1 スコア行列はあるデータ𝒙, あるパラメータ𝜽において計算するが,フィー シャーカーネルはフィッシャー情報行列の逆行列で正規化することにより パラメータ𝜽に依存しない値になる
  11. 11. Fisher Kernels on Visual Vocabularies for Image Categorization F. Perronnin and C. Dance, IEEE Conference on Computer Vision and Pattern Recognition, 2007.
  12. 12. 画像認識 (Image Categorization) Airplane Ant Butterfly Camera Chair Dolphin
  13. 13. Bag of Visual Words / Bag of Features Bag of Visual Wordsにおける処理の流れ 1. 画像から局所特徴量の抽出 2. ベクトル量子化による画像特徴量の表現 3. 識別器による画像識別 35 30 25 20 15 10 5 0 0 5 10 15 20 25 𝜙 400 350 300 250 200 150 100 50 0 画像から局所特徴量の抽出 1 2 3 4 5 6 7 ベクトル量子化による 画像特徴量の表現 識別器による画像識別
  14. 14. Bag of Visual Words (1) 1. 画像から局所特徴量の抽出 よく利用される局所特徴量は,SIFT (Scale-Invariant Feature Transform) 赤で示した各点で,その周辺のパッ チから特徴量ベクトル(局所特徴 量)を抽出する 点の設定方法 1.キーポイント検出器 2. GRID コンピュータ最先端ガイド2,第1章,アドコム・メディア,2010
  15. 15. Bag of Visual Words (2) 2. ベクトル量子化による画像特徴量の表現 35 5 30 6 7 25 20 𝑥2 15 4 400 350 2 10 300 250 5 0 1 3 0 5 200 10 15 20 𝑥1 25 150 100 50 1枚の画像における局所特徴量分布 (特徴量空間にプロット) 0 1 2 3 4 5 6 7 ベクトル量子化ヒストグラム
  16. 16. Bag of Visual Words (3) 3. 識別器による画像識別 Support Vector Machine (SVM) による識別 カーネル関数を利用し た高次元空間への写像 𝜙 ベクトル量子化ヒスト グラムの特徴量空間 線形の超平面に よる識別
  17. 17. Bag of Visual Wordsにおける課題 膨大な量の画像データを処理するために,計算量を可能な限り小さくしたい 1. コンパクトな画像特徴量表現: 少ないVisual Word数 2. ユニバーサルなVisual Words(辞書): 辞書の学習データに依存しな い認識精度 一般に両立しない • 少ないVisual Word数で高精度の認識を可能にするためには,評 価する画像をよく表現するVisual Wordsを用意する必要がある • 評価画像に特化したVisual Wordsになるため,他のデータベース 画像に対しては精度が低下する可能性が高い フィッシャーカーネルを利用して,出来る限り少ないVisual Word数 で表現力が豊かな画像特徴量表現を検討する
  18. 18. フィッシャーカーネルの利用(1) ベクトル量子化による特徴量分布表現 Gaussian Mixture Model(GMM)によ る局所特徴量分布の表現 35 35 5 30 7 25 6 30 25 20 20 𝑥2 𝑥2 4 15 10 2 15 10 5 0 3 0 5 1 5 10 15 20 25 0 𝑥1 0 5 10 15 20 25 𝑥1 𝐾 400 350 𝑝 𝒙 = 300 250 𝜋 𝑘 exp − 𝑘=1 200 150 1 𝒙− 𝝁𝑘 2 𝑇 𝚺 −1 𝑘 𝒙− 𝝁𝑘 100 50 0 1 2 3 4 5 6 7 1&&&&&2&&&&&3&&&&&4&&&&&5&&&&&6&&&&&7 𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀
  19. 19. フィッシャーカーネルの利用(2) 各画像に対してGMMのパラメータを計算するのは計算コストが高い あらかじめ多くの画像の局所特徴量から,様々な画像の局所特徴量に対 するGMMパラメータを求める(Visual Words辞書学習) 各画像に対して,GMMのパラメータをどのように変化させるとその画 像にフィットするGMMが求まるかで画像特徴量を表現する → フィッ シャーベクトル • • • 35 35 30 30 25 25 20 20 𝑥2 𝑥2 15 15 10 10 5 5 0 -5 -5 0 5 10 15 20 25 30 35 𝑥1 多くの画像の局所特徴量に対するGMM (Visual Words辞書に対応) 0 0 5 10 15 20 25 𝑥1 辞書のGMMパラメータを変化させて, 1枚の画像に対する局所特徴量分布に フィッティング
  20. 20. フィッシャーカーネルの理論(1) GMMに限らず,局所特徴量分布を𝑝 𝒙|𝜽 の確率密度関数で表す ただし,𝜽は確率密度関数のパラメータ 例えば,GMMの場合は, 𝐾 𝑝 𝒙|𝜽 = 𝜋 𝑘 exp − 𝑘=1 1 𝒙− 𝝁𝑘 2 𝑇 𝚺 −1 𝑘 𝒙− 𝝁𝑘 𝜽 = 𝜋2 , ⋯ , 𝜋 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀 サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は, 𝐿 𝑿 𝜽 = log 𝑝 𝑿|𝜽 であり,各サンプルが独立であると仮定すると, 𝐿 𝑿 𝜽 &= log = & log = & log = & log 𝑝 𝑿|𝜽 𝑝 𝒙1 , 𝒙2 , ⋯ , 𝒙 𝑇 |𝜽 𝑝 𝒙1 |𝜽 𝑝 𝒙2 |𝜽 ⋯ 𝑝 𝒙 𝑇 |𝜽 𝑝 𝒙1 |𝜽 + log 𝑝 𝒙2 |𝜽 + ⋯ + log 𝑝 𝒙 𝑇 |𝜽 𝑇 = & log 𝑝 𝒙 𝑡 |𝜽 𝑡=1
  21. 21. フィッシャーカーネルの理論(2) フィッシャーカーネル(フィッシャーベクトル)を定義するために,スコア関数を 以下の式で定義する 確率密度関数のモデルをデータ 𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽 𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 にフィッ 𝑇 ティングするため,モデルパラ 𝜕 log 𝑝 𝑿|𝜽 𝜕 log 𝑝 𝑿|𝜽 = & ,⋯, メータ𝜽を変化させる方向 𝜕𝜃1 𝜕𝜃 𝑀 フィッシャー情報行列 𝑭 𝜽 = E 𝑿 𝒔 𝑿|𝜽 𝒔 𝑿|𝜽 パラメータ数𝑀 × 𝑀の行列 𝑇 フィッシャーカーネル 1 𝑘 𝑿 𝑖 , 𝑿|𝜽 = 𝒔 𝑿 𝑖 |𝜽 𝑇 𝑇 𝑭−1 𝜽 1 𝒔 𝑿|𝜽 𝑇 フィッシャーベクトル 1 1 𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽 𝛻 log 𝑝 𝑿|𝜽 𝑇 𝑇 𝜃 確率密度関数モデルの勾配方 向をフィッシャー情報行列で 正規化 𝑭−1 = 𝑳 𝜽 𝑻 𝑳 𝜽 𝜽 とおくと,フィッシャーカーネルはフィッシャーベクトルの内積で表現できる 𝑿 𝑇 𝑘 𝑿 𝑖 , 𝑿|𝜽 = 𝑔 𝜽 𝑖 𝑔 𝜽𝑿 つまり,カーネル法において𝝓 𝑿 = 𝑔 𝜽𝑿
  22. 22. フィッシャーカーネルの理論(3) フィッシャーベクトルを計算する具体的手順 35 30 • あらかじめ,多くの画像の局所特徴量から,確率密 度関数のモデル𝑝 𝒙|𝜽 に最もフィットするパラメー タ𝜽を求める • 一枚の画像に対して,局所特徴量 𝑿 = 𝒙 𝑡 , 𝑡 = 1, ⋯ , 𝑇 を計算し, 𝑿にフィットするよ うに,パラメータ𝜽に対するlog 𝑝 𝑿|𝜽 の勾配ベクト ルを計算する 𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽 = & 𝜕 log 𝑝 𝑿|𝜽 𝜕 log 𝑝 𝑿|𝜽 ,⋯, 𝜕𝜃1 𝜕𝜃 𝑀 𝑇 25 20 15 𝑥2 10 5 0 -5 -5 0 5 10 15 20 25 30 35 𝑥1 多くの画像の局所特徴量に対するGMM (Visual Words辞書に対応) 35 30 25 • 以下の式でフィッシャーベクトルを計算する 1 𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 𝑇 • フィッシャーカーネルは𝑔 𝜽𝑿 の内積で表されるので, 内積を使った線形SVMによりフィッシャーカーネル を使ったSVMによる識別を実現できる 20 𝑥2 15 10 5 0 0 5 10 15 20 25 𝑥1 辞書のGMMパラメータを変化させて, 1枚の画像に対する局所特徴量分布に フィッティング
  23. 23. GMMに対するフィッシャーベクトル(1) 確率密度関数のモデルをGMMとすると,パラメータ𝜽は𝐾個のガウス分布の重み,平 均,共分散行列である(ただし,確率密度関数の面積を1にするため,1番目の重み パラメータは他の重みから決定される) 𝐾 𝑝 𝒙|𝜽 = 𝑘=1 1 𝜋 𝑘 exp − 𝒙− 𝝁𝑘 2 𝑝 𝑘 𝒙|𝜽 = 𝜽= 1 𝐷/2 2𝜋 Σ𝑘 𝐾 𝑇 𝚺 −1 𝑘 exp − 1/2 𝒙− 𝝁𝑘 = 𝜔 𝑘 𝑝 𝑘 𝒙|𝜽 𝑘=1 1 𝒙− 𝝁𝑘 2 𝐾 𝑇 𝚺 −1 𝑘 𝒙− 𝝁𝑘 𝜔2 , ⋯ , 𝜔 𝐾 , 𝝁1 , ⋯ , 𝝁 𝐾 , 𝚺1 , ⋯ , 𝚺 𝐾 = 𝜃1 , ⋯ , 𝜃 𝑀 , サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は, 𝐿 𝑿 𝜽 &= log 𝑝 𝑿|𝜽 𝑇 = & log 𝑝 𝒙 𝑡 |𝜽 𝑡=1 𝑇 = & 𝐾 log 𝑡=1 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝑘=1 , 𝜔𝑘 =1 𝑖=1 M = (2𝑑 + 1)𝐾 − 1
  24. 24. GMMに対するフィッシャーベクトル(2) サンプル𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,対数尤度は, 𝑇 𝐾 𝐿 𝑿 𝜽 = log 𝑡=1 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝑘=1 パラメータ𝜽に対する勾配ベクトルは,GMMの共分散行列Σ 𝑘 を対角行列と仮定すると, 𝜕𝐿 𝑿 𝜽 &= 𝜕𝜔 𝑖 𝜕𝐿 𝑿 𝜽 &= 𝜕𝜇 𝑖𝑑 𝜕𝐿 𝑿 𝜽 𝜕𝜎 𝑖 𝑑 𝑇 𝑡=1 𝑇 𝑡=1 𝑇 &= 𝑡=1 𝜕 1 𝛾𝑡 𝑖 − 𝒙 − 𝝁𝑖 2 𝑡 𝜕𝜇 𝑖𝑑 𝐾 𝑘=1 𝑡=1 𝛾 𝑡 (𝑖) 𝛾 𝑡 (1) − 𝜔𝑖 𝜔1 𝜔 𝑖 𝑝 𝑖 𝒙 𝑡 |𝜽 , 𝜔1 = 1 − 𝐾 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝑘=1 𝑖 = 2, ⋯ , 𝐾 𝑇 𝑇 𝚺 −1 𝑖 𝒙 𝑡 − 𝝁𝑖 = 𝛾𝑡 𝑖 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 𝑡=1 𝜔𝑖 𝜕 𝑝 𝒙|𝜽 = 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝜕𝜎 𝑖 𝑑 𝑖 ただし, 𝛾𝑡 𝑖 = 𝑇 −𝑝1 𝒙 𝑡 |𝜽 + 𝑝 𝑖 𝒙 𝑡 |𝜽 = 𝐾 𝜔 𝑘 𝑝 𝑘 𝒙 𝑡 |𝜽 𝑘=1 𝑇 𝛾𝑡 𝑖 𝑡=1 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝐾 𝜔 𝑘 , 𝜎𝑖 𝑑 𝑖=2 2 = Σ 𝑖 (𝑑, 𝑑) 𝑑 3 2 − 2 1 𝜎𝑖 𝑑
  25. 25. GMMに対するフィッシャーベクトル(3) 以上で,1枚の画像の局所特徴量集合𝑿 = 𝒙 𝑡 , 𝑡 = 1, 2, ⋯ , 𝑇 に対して,事前に学習し たGMMパラメータ𝜽におけるスコア関数を計算できる 𝒔 𝑿|𝜽 &= 𝛻 𝜃 log 𝑝 𝑿|𝜽 = & 𝜕 log 𝑝 𝑿|𝜽 𝜕 log 𝑝 𝑿|𝜽 ,⋯, 𝜕𝜃1 𝜕𝜃 𝑀 𝑇 以下の式でフィッシャーベクトルを計算するためには,フィッシャー情報行列𝑭 𝜽 が求 まれば良い.𝑭−1 = 𝑳 𝜽 𝑻 𝑳 𝜽 として, 𝜽 1 𝑔 𝜽𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 1 1 𝑇 𝑓 𝜔 𝑡 &= 𝑇 + 𝜔𝑖 𝜔1 フィッシャー情報行列𝑭 𝜽 は以下の仮定をおく 𝜔𝑖 と,右式のように近似できる 𝑓 𝑢 𝑑 &= 𝑇 2 𝑖 𝜎𝑖 𝑑 (1) フィッシャー情報行列を対角行列とする (計算を簡単にするため) 2𝜔 𝑖 𝑓 𝜎 𝑑 &&= 𝑇 2 (2) 各画像から得られる局所特徴量数は等しい 𝑖 𝜎𝑖 𝑑 (3) 𝛾 𝑡 𝑖 は0もしくは1に近い値をとる(各画 ただし,𝑓 𝜔 𝑡 , 𝑓 𝑢 𝑑 , 𝑓 𝜎 𝑑 はそれぞれ 像において,GMMの1つのガウス分布の寄 𝑖 𝑖 与が他に比べて非常に大きい) フィッシャー情報行列𝑭 𝜽 の対応す るパラメータの対角成分とする
  26. 26. GMMに対するフィッシャーベクトル(4) フィッシャーベクトル計算式のまとめ 1 𝑿 𝑔𝜽 = 𝑳𝜽 𝑇 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 𝜕𝐿 𝑿|𝜽 ,⋯, , ,⋯, , ,⋯, 𝜕𝜔2 𝜕𝜔 𝐾 𝜕𝜇1 𝜕𝜇 𝐾 𝜕𝜎1 𝜕𝜎 𝐾 1 𝑿 𝑔 𝜔 𝑖 &= 𝑇 𝑔 𝜇𝑿 𝑑 &= 𝑖 1 𝑇 1 𝑔 𝜎𝑿 𝑑 &= 𝑖 𝑇 𝑇 𝑇 𝑇 − 1 1 + 𝜔𝑖 𝜔1 1 − 2 𝜔𝑖 𝜎𝑖 𝑑 2 2𝜔 𝑖 𝜎𝑖 𝑑 2 1 2 𝑇 𝑡=1 𝑇 𝛾𝑡 𝑖 𝑡=1 − 1 2 𝑇 𝛾𝑡 𝑖 𝑡=1 35 𝛾𝑡 𝑖 𝛾𝑡 1 − 𝜔𝑖 𝜔1 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 2 = 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 3 − 1 1 1 = + 𝜔1 𝑇 𝑇 𝜔𝑖 𝑇 1 𝑇 𝑇𝜔 𝑖 2 − 1 𝜎𝑖 𝑑 𝛾𝑡 𝑖 𝑇 𝑡=1 𝛾𝑡 𝑖 𝛾𝑡 1 − 𝜔𝑖 𝜔1 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 𝑡=1 = 1 2 𝑇 1 𝑇 2𝑇𝜔 𝑖 𝑇 𝛾𝑡 𝑖 𝑡=1 𝑥 𝑡𝑑 − 𝜇 𝑖𝑑 𝜎𝑖 𝑑 2 2 −1 𝑿 𝑔 𝜔 𝑖 &: 各ガウス分布の重み(寄与) 𝑔 𝜇𝑿 𝑑 : 各ガウス分布の平均ベクトル 30 25 𝑖 20 𝑔 𝜎𝑿 𝑑 : 𝑖 𝑥2 15 各ガウス分布の分散(大きさ) 10 フィッシャーベクトルの次元: (2𝑑 + 1)𝐾 − 1 5 0 0 5 10 15 𝑥1 20 25
  27. 27. Improving the Fisher Kernel for Large-Scale Image Classification F. Perronnin, S. Jorge, and T. Mensink, European Conference on Computer Vision, 2010.
  28. 28. フィッシャーベクトルの課題 膨大な量の画像データを処理するために,計算量を可能な限り小さくしたい 1. コンパクトな画像特徴量表現: 少ないVisual Word数 2. ユニバーサルなVisual Words(辞書): 辞書の学習データに依存しな い認識精度 フィッシャーベクトルにより少ないVisual Wordsでユニ バーサルな辞書の作成ができた (CVPR2007) ただし,評価用データで辞書を学習した場合,Bag of Visual Wordsと同程度の認識精度しか得られず,精度向上ができていない フィッシャーベクトルを改良して,通常のBag of Visual Wordsより 高い精度を実現する 1. L2正規化 2. パワー正規化 3. 空間ピラミッド
  29. 29. L2正規化(1) フィッシャーベクトル 𝑔 𝜽𝑿 1 𝑿 = 𝑳 𝜽 𝒔 𝑿|𝜽 = 𝑳 𝜽 𝑮 𝜃 𝑇 1 1 1 𝑿 𝑮 𝜃 = 𝒔 𝑿|𝜽 = 𝛻 𝜃 log 𝑝 𝑿|𝜽 = 𝛻 𝜃 𝑇 𝑇 𝑇 𝑇 log 𝑝 𝒙 𝑡 |𝜽 𝑡=1 多くの画像から得られた局所特徴量の確率密度関数を𝑝 𝑿|𝜽 = 𝑢 𝜽 𝒙 とすると 𝑇 1 𝑿 𝑮 𝜃 = 𝛻𝜃 𝑇 log 𝑢 𝜽 𝒙 𝑡 𝑡=1 1枚の画像から得られる局所特徴量数𝑇が十分大きいと仮定すると, 𝑿 𝑮 𝜃 &= 𝛻 𝜃 𝐸 𝒙 log 𝑢 𝜽 𝒙 = & 𝛻𝜃 1枚の画像に対する期待値 𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 𝒙 1枚の画像から得られる局 所特徴量の確率密度関数 多くの画像から得られる局所特徴量の 確率密度関数 → 画像の背景と仮定
  30. 30. L2正規化(2) 1枚の画像から得られる局所特徴量の確率密度関数𝑝 𝒙 を背景𝑢 𝜽 𝒙 と対象物体 𝑞 𝒙 の確率密度関数の和で表す 𝑢𝜽 𝒙 𝑝 𝒙 = 𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙) 𝑿 𝑮 𝜃 &= 𝛻 𝜃 𝑝 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 𝒙 𝑞 𝒙 = & 𝛻𝜃 𝜔𝑞 𝒙 + 1 − 𝜔 𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙 𝒙 = & 𝜔𝛻 𝜃 𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃 𝒙 = & 𝜔𝛻 𝜃 𝒙 𝑢 𝜃 (𝒙) log 𝑢 𝜽 𝒙 𝑑𝒙 𝒙 𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 + 1 − 𝜔 𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 多くの画像から確率密度関数を最尤法で推定する場合,𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 が 最大となるように推定するので,𝛻 𝜃 𝐸 𝑢 𝜃 log 𝑢 𝜽 𝒙 ≅ 0 𝑿 ∴ & 𝑮 𝜃 ≅ 𝜔𝛻 𝜃 𝑞 𝒙 log 𝑢 𝜽 𝒙 𝑑𝒙 𝑿 𝑮𝜃 𝐾 𝑋, 𝑌 𝑿 𝑮𝜃 𝐾 𝑋, 𝑋 𝐾(𝑌, 𝑌) 対象物体の確率密度関数𝑞 𝒙 に依存する ただし,背景と物体の混合比𝜔が残るので,正規化で排除する 𝒙
  31. 31. パワー正規化 問題点 • フィッシャーベクトルは非常にスパース(フィッシャーベクトルは高次 元ベクトルであり,各要素に0が多い.特にガウス分布の混合数が多いと 顕著) • スパースなベクトル同士の距離を内積で評価すると精度が悪い 解決策 1. ベクトル同士の距離を内積ではなく,スパースなベクトルに対して精度 の良いものを使う → 計算コストが高い 2. ベクトルを出来る限りスパースではなくす K=16 K=64 K=256 フィッシャーベクトルの第1要素の分布 GMMの混合数Kが増加するとスパースになりやすい K=256 パワー正規化後 𝑓 𝑧 = 𝑠𝑖𝑔𝑛 𝑧 𝑧 𝛼
  32. 32. 空間ピラミッド • Bag of Visual Wordsにおいて,画像を分割し,大まかな位置情報を付与 すると精度がよくなることが知られている
  33. 33. フィッシャーベクトルの評価実験 評価用データセット • PASCAL VOC 2007 (約10,000画像 @ 20カテゴリ) • CalTech256 (約30,000画像 @ 256カテゴリ) 局所特徴量 • パッチサイズ:32x32,グリッドサンプリング(間隔16画素),5スケール • 128次元のSIFT特徴量,及び96次元のカラー特徴量(各パッチにおいて,4x4 に領域を分けてそれぞれの領域におけるRGBの平均と分散を並べた特徴量) • SIFTとカラー特徴量は主成分分析(PCA)により64次元に圧縮して利用 Gaussian Mixture Model (GMM) • GMMの混合数K=256に設定 • GMMの学習には,最尤法(Maximum Likelihood Estimation)と標準的なEMア ルゴリズムを使用 識別 • 線形SVMを使用 • SIFT特徴量とカラー特徴量を組み合わせるときは,それぞれで識別を行い, SVMのスコアを単純に平均して識別
  34. 34. 評価指標 PASCAL VOC 2007データセット • 20クラスのそれぞれに対して,各画像中にそのクラスの物体が存在する か,それともしないかを判断 • 各クラスに対してPrecision/Recall曲線を計算(Precision: 物体が存在す ると判断した画像中,実際に正解だった割合,Recall: 物体が存在する画 像中,物体が存在すると判断された画像の割合) • Recallに対するPrecisionをグラフに描き,Recallに対するPrecisionの平 均値を計算 Average Precision (AP) CalTech256データセット • 各クラスから学習データを決められた画像数だけランダムに抽出 (ntrain=15, 30, 45, 60) • SVMのパラメータは学習データ中のクラスバリデーションで決定 • 学習データ以外のデータをテストデータとして識別率を計算 • 学習データとテストデータの分け方を変えて5回繰り返して識別 平均識別率
  35. 35. PASCAL VOC 2007に対する実験結果(1) 改良の効果: パワー正規化 > L2正規化 > 空間ピラミッド
  36. 36. PASCAL VOC 2007に対する実験結果(2) Multichannels+non-linear SVM Bounding box Many channels+soft-assignment Many channels+Multiple Kernel Learning [8]+sliding window
  37. 37. CalTech256に対する実験結果 5 Descriptors →
  38. 38. 大規模学習データによる評価実験 データセット • 2つの学習用データセット:ImageNet (270K画像@18カテゴリ),Flickr (350K画像@18カテゴリ) • 評価用データ:PASCAL VOC 2007 "test" set(5K画像@20カテゴリ) 局所特徴量/ Gaussian Mixture Model (GMM) • 前の実験と同じ 識別 • それぞれの学習用データセットで学習し,評価用データで評価した結果 • 各データセットでSVMを学習後,そのスコアを統合して識別した結果
  39. 39. 大規模学習データによる実験結果 Multichannels +non-linear SVM +sliding window
  40. 40. まとめ • 多変量解析に利用されるカーネル法を紹介し,カーネル関数の例として フィッシャーカーネルを説明した. • Bag of Visual Wordsの拡張として,フィッシャーカーネルに基づいた フィッシャーベクトルを画像認識に適用した.ユニバーサルでコンパク トな辞書で画像識別が可能である. • L2正規化,パワー正規化,空間ピラミッドをフィッシャーベクトルに導 入することにより,複雑で高計算コストの手法と同等の画像識別精度が 実現可能であることを示した.高速な計算が可能なため,ImageNetなど 大規模データにも適用可能である. • 下記の文献では,近年提案された画像識別手法を比較した結果,フィッ シャーベクトルを利用した手法が高い精度を示すことが報告されている K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman, “The devil is in the details: an evaluation of recent feature encoding methods,” British Machine Vision Conference, 2011.

×