A bayesian approach to multimodal visual dictionary learningの紹介

A Bayesian Approach to Multimodal
Visual Dictionary Learning
の紹介
西村仁志
2013/10/15

論文について
A Bayesian Approach to Multimodal Visual
Dictionary Learning
Go Irie†, Dong Liu‡, Zhenguo Li‡, Shih-Fu Chang‡
† NTT Corporation, Kanagawa, Japan
‡ Columbia University, New York, USA
CVPR2013

1. Introduction
Bag of Features(BoF)：画像を局所特徴量のヒストグラムで表現
辞書の学習：画像のみから＋単語情報

問題１ Local descriptorとWordとの関係をどうやって得るか
→Co-clusteringを用いる
問題２ Local descriptor – 連続空間
Word – 離散空間
→Continuous-Discrete Bayesian co-clustering
(CD-BCC)を提案

引用
Co-clustering
(Biclustering)

2. Related Work
○Visual Dictionary learning
・教師なし(k-meansなど)，教師あり(最近)
・教師あり：強い「クラスラベル」を利用
提案手法：
弱い「単語」を利用．Descriptorのクラスタリングを補助
○Co-clustering
・入力を相関行列として，二つの量を同時にクラスタリング
提案手法：Bayesian Co-clusteringとの違いは「連続－離散」
○Multimodal Topic Models
・LSI，LDAなどを用いたものがある
提案手法：トピックモデルではなく，Co-clusteringモデル
image descriptorに分布を仮定，Wordには仮定なし

3. Multimodal Visual Dictionary
Learning
が最大となるような),|,( RXP 
Xに割り当てるクラスタ（隠れ変数）
},,{ 1 NxxX 
},,{ 1 N 
を求める

),|,( RXP 
3.1
生成過程をモデリング最終目標
3.1.1 Generative Process
パラ
パラパラ
隠れ
隠れ隠れ
隠れ観測
観測
隠れ
),,,( RXP ←

作る(V回)
取る(N回)
どこから取るか選ぶ(N回)
割合を決める(1回)

作る(K×L回)
取る(V×W回)
どこから取るか選ぶ
(V回，W回)
割合を決める
(1回，1回)
wordのクラスタ
Descriptorのクラスタのクラスタ

3.1.2 Visual Dictionary Inference
推定
モデリングした
),|,,,,,,,( RXzzp x
 
),,,,,,,,,(  
zzRXp x
？
が最大となる（隠れ変数とパラメータ）
の組を求めたい
 ,,, x
z
？
解析的に解くのは難しい
・EMアルゴリズム
・変分ベイズ
・ギブスサンプリング
で，隠れ変数を推定する1
x
z1
・・・
y
z3

に割り当てるクラスタ（隠れ変数）
},,{ 1 NxxX 
},,{ 1 N 
最終的なコードブック
モデリングした
),|,,( RXzzp x 

),,,,,,,,,(  
zzRXp x
崩壊型ギブスサンプリング
X
,,,,  を積分して消す(らしい)
ほしいもの
この後の流れ

頻度主義とベイズの世界観の違い
• 最短経路の山登りかそれとも酔っぱらいの回遊か
 最尤法では山頂にのみ関心があるが
 MCMCは山全体の形に興味がある
引用

具体的には？
固定
サンプルを１つ求める
が求まる

 zzx
,,
これを繰り返すと

3.2 Encoding Methods テスト画像
v
q
qx
辞書

3.2 Encoding Methods テスト画像
v
q
qx
qx
辞書

3.3 Non-parametric Extension
辞書サイズ：K
Descriptorのクラスタの数：V
単語のクラスタの数：L
自動で決めれる
正規分布のような少数のパラメータで記述せずに，
データにフィットする柔軟な無限次元の離散分布を考える
置き換え
ディリクレ過程(≒CRP)に

CRP (Chinese Restaurant Process)
：クラスタが生成される様子(事前確率)
クラスタtにいる人数
新しいテーブルに着く度
１２３４
1x 2x 3x4x
5x
5
2
5
1
5
2


5
6x ?

4. Experimental Results
・画像分類と画像検索を5つのデータセットで
・局所特徴量SIFTのみ使用
4.1 Image Categorization
4.1.1 Evaluation on UIUC-Sport & LabalMe
UIUC-Sports8 : 8スポーツ，各画像に15単語
LabalMe : 8シーン，各画像に11単語

１，XとRを統合することで，見えとテキスト両方を捉えれた
２，単語情報は有用
３，Co-clustering > Multimodal topic modeling

単語とのCo-clusteringによって，特定の画像カテゴリと
関連したimage descriptor clustersを見つけ出せた

4.1.2 Evaluation on Caltech101 Dataset
・101物体
・画像に単語が付いていないので，クラスラベルを用いた
Coding部分をLLCのような複雑なものにすれば上がるかも

4.2 CBIR (Contect-based Image Retrieval)
・画像検索(入力：画像)
・データベース：FLICKR，WIKIPEDIA
１，単語情報は画像検索においても有用
２，画像検索において提案手法はとても強い

5. Conclusion
・ A Bayesian Approach to Multimodal Visual
Dictionary Learningを提案した
・image descriptorの分布と，image descriptorとtextual words
の相関を利用した，CD-BCCを提案した
・従来手法よりも高い性能を示した
・variational methodやslice samplingのような，速い推定
アルゴリズムを試したい

参考文献
・Bag-of-keypointsによるカテゴリー認識
www.vision.cs.chubu.ac.jp/ssii08/ssii08-yanai.pdf
・最近のベイズ理論の進展と応用[3]ノンパラメトリックベイズ
http://ci.nii.ac.jp/lognavi?name=nels&lang=jp&type=pdf&id=AR
T0009222011
・ Direst Clustering of a Data Matrix, J.A. Hartigan
・第11章サンプリング法
bin.t.u-tokyo.ac.jp/prml2009/ppt/PRML11.ppt
・最近のベイズ理論の進展と応用[3]ノンパラメトリックベイズ
http://ci.nii.ac.jp/lognavi?name=nels&lang=jp&type=pdf&id=AR
T0009222011

A bayesian approach to multimodal visual dictionary learningの紹介

Recommended

Recommended

More Related Content

More from Hitoshi Nishimura

More from Hitoshi Nishimura (10)

A bayesian approach to multimodal visual dictionary learningの紹介