SlideShare a Scribd company logo
1 of 31
A Bayesian Approach to Multimodal
Visual Dictionary Learning
の紹介
西村仁志
2013/10/15
論文について
A Bayesian Approach to Multimodal Visual
Dictionary Learning
Go Irie†, Dong Liu‡, Zhenguo Li‡, Shih-Fu Chang‡
† NTT Corporation, Kanagawa, Japan
‡ Columbia University, New York, USA
CVPR2013
引用
引用
1. Introduction
Bag of Features(BoF):画像を局所特徴量のヒストグラムで表現
辞書の学習:画像のみから+ 単語情報
問題1 Local descriptorとWordとの関係をどうやって得るか
→Co-clusteringを用いる
問題2 Local descriptor – 連続空間
Word – 離散空間
→Continuous-Discrete Bayesian co-clustering
(CD-BCC)を提案
引用
Co-clustering
(Biclustering)
2. Related Work
○Visual Dictionary learning
・教師なし(k-meansなど),教師あり(最近)
・教師あり:強い「クラスラベル」を利用
提案手法:
弱い「単語」を利用.Descriptorのクラスタリングを補助
○Co-clustering
・入力を相関行列として,二つの量を同時にクラスタリング
提案手法:Bayesian Co-clusteringとの違いは「連続-離散」
○Multimodal Topic Models
・LSI,LDAなどを用いたものがある
提案手法:トピックモデルではなく,Co-clusteringモデル
image descriptorに分布を仮定,Wordには仮定なし
3. Multimodal Visual Dictionary
Learning
が最大となるような),|,( RXP 
Xに割り当てるクラスタ(隠れ変数)
},,{ 1 NxxX 
},,{ 1 N 
を求める
),|,( RXP 
3.1
生成過程をモデリング最終目標
3.1.1 Generative Process
パラ
パラパラ
隠れ
隠れ 隠れ
隠れ観測
観測
隠れ
),,,( RXP ←
作る(V回)
取る(N回)
どこから取るか選ぶ(N回)
割合を決める(1回)
作る(K×L回)
取る(V×W回)
どこから取るか選ぶ
(V回,W回)
割合を決める
(1回,1回)
wordのクラスタ
Descriptorのクラスタのクラスタ
3.1.2 Visual Dictionary Inference
推定
モデリングした
),|,,,,,,,( RXzzp x
 
),,,,,,,,,(  
zzRXp x
?
が最大となる (隠れ変数とパラメータ)
の組を求めたい
 ,,, x
z
?
解析的に解くのは難しい
・EMアルゴリズム
・変分ベイズ
・ギブスサンプリング
で,隠れ変数を推定する1
x
z1
・・・
y
z3
に割り当てるクラスタ(隠れ変数)
},,{ 1 NxxX 
},,{ 1 N 
最終的なコードブック
モデリングした
),|,,( RXzzp x 

),,,,,,,,,(  
zzRXp x
崩壊型ギブスサンプリング
X
,,,,  を積分して消す(らしい)
ほしいもの
この後の流れ
引用
1z
・・・
2z
3z
頻度主義とベイズの世界観の違い
• 最短経路の山登りかそれとも酔っぱらいの回遊か
 最尤法では山頂にのみ関心があるが
 MCMCは山全体の形に興味がある
引用
具体的には?
固定
サンプルを1つ求める
が求まる

 zzx
,,
これを繰り返すと
3.2 Encoding Methods テスト画像
v
q
qx
辞書
3.2 Encoding Methods テスト画像
v
q
qx
qx
辞書
3.3 Non-parametric Extension
辞書サイズ:K
Descriptorのクラスタの数:V
単語のクラスタの数:L
自動で決めれる
正規分布のような少数のパラメータで記述せずに,
データにフィットする柔軟な無限次元の離散分布を考える
置き換え
ディリクレ過程(≒CRP)に
CRP (Chinese Restaurant Process)
:クラスタが生成される様子(事前確率)
クラスタtにいる人数
新しいテーブルに着く度
1 2 3 4
1x 2x 3x4x
5x
5
2
5
1
5
2


5
6x ?
4. Experimental Results
・画像分類と画像検索を5つのデータセットで
・局所特徴量SIFTのみ使用
4.1 Image Categorization
4.1.1 Evaluation on UIUC-Sport & LabalMe
UIUC-Sports8 : 8スポーツ,各画像に15単語
LabalMe : 8シーン,各画像に11単語
1,XとRを統合することで,見えとテキスト両方を捉えれた
2,単語情報は有用
3,Co-clustering > Multimodal topic modeling
単語とのCo-clusteringによって,特定の画像カテゴリと
関連したimage descriptor clustersを見つけ出せた
Kに影響を
受けにくい
4.1.2 Evaluation on Caltech101 Dataset
・101物体
・画像に単語が付いていないので,クラスラベルを用いた
Coding部分をLLCのような複雑なものにすれば上がるかも
4.2 CBIR (Contect-based Image Retrieval)
・画像検索(入力:画像)
・データベース:FLICKR,WIKIPEDIA
1,単語情報は画像検索においても有用
2,画像検索において提案手法はとても強い
強い
5. Conclusion
・ A Bayesian Approach to Multimodal Visual
Dictionary Learningを提案した
・image descriptorの分布と,image descriptorとtextual words
の相関を利用した,CD-BCCを提案した
・従来手法よりも高い性能を示した
・variational methodやslice samplingのような,速い推定
アルゴリズムを試したい
参考文献
・Bag-of-keypointsによるカテゴリー認識
www.vision.cs.chubu.ac.jp/ssii08/ssii08-yanai.pdf
・最近のベイズ理論の進展と応用[3]ノンパラメトリックベイズ
http://ci.nii.ac.jp/lognavi?name=nels&lang=jp&type=pdf&id=AR
T0009222011
・ Direst Clustering of a Data Matrix, J.A. Hartigan
・第11章 サンプリング法
bin.t.u-tokyo.ac.jp/prml2009/ppt/PRML11.ppt
・最近のベイズ理論の進展と応用[3]ノンパラメトリックベイズ
http://ci.nii.ac.jp/lognavi?name=nels&lang=jp&type=pdf&id=AR
T0009222011

More Related Content

More from Hitoshi Nishimura

Tracking emerges by colorizing videosの紹介
Tracking emerges by colorizing videosの紹介Tracking emerges by colorizing videosの紹介
Tracking emerges by colorizing videosの紹介Hitoshi Nishimura
 
Online real time multiple spatiotemporal action localisation and predictionの紹介
Online real time multiple spatiotemporal action localisation and predictionの紹介Online real time multiple spatiotemporal action localisation and predictionの紹介
Online real time multiple spatiotemporal action localisation and predictionの紹介Hitoshi Nishimura
 
Learning to discover objects in rgb d images using correlation clusteringの紹介
Learning to discover objects in rgb d images using correlation clusteringの紹介Learning to discover objects in rgb d images using correlation clusteringの紹介
Learning to discover objects in rgb d images using correlation clusteringの紹介Hitoshi Nishimura
 
Sparse isotropic hashingの紹介
Sparse isotropic hashingの紹介Sparse isotropic hashingの紹介
Sparse isotropic hashingの紹介Hitoshi Nishimura
 
Dimensionality reduction with side information for image classification
Dimensionality reduction with side information for image classificationDimensionality reduction with side information for image classification
Dimensionality reduction with side information for image classificationHitoshi Nishimura
 
単一物体追跡論文のサーベイ
単一物体追跡論文のサーベイ単一物体追跡論文のサーベイ
単一物体追跡論文のサーベイHitoshi Nishimura
 

More from Hitoshi Nishimura (10)

Tracking emerges by colorizing videosの紹介
Tracking emerges by colorizing videosの紹介Tracking emerges by colorizing videosの紹介
Tracking emerges by colorizing videosの紹介
 
TRiPODの紹介
TRiPODの紹介TRiPODの紹介
TRiPODの紹介
 
Social LSTMの紹介
Social LSTMの紹介Social LSTMの紹介
Social LSTMの紹介
 
Online real time multiple spatiotemporal action localisation and predictionの紹介
Online real time multiple spatiotemporal action localisation and predictionの紹介Online real time multiple spatiotemporal action localisation and predictionの紹介
Online real time multiple spatiotemporal action localisation and predictionの紹介
 
Learning to discover objects in rgb d images using correlation clusteringの紹介
Learning to discover objects in rgb d images using correlation clusteringの紹介Learning to discover objects in rgb d images using correlation clusteringの紹介
Learning to discover objects in rgb d images using correlation clusteringの紹介
 
Sparse isotropic hashingの紹介
Sparse isotropic hashingの紹介Sparse isotropic hashingの紹介
Sparse isotropic hashingの紹介
 
Dimensionality reduction with side information for image classification
Dimensionality reduction with side information for image classificationDimensionality reduction with side information for image classification
Dimensionality reduction with side information for image classification
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
単一物体追跡論文のサーベイ
単一物体追跡論文のサーベイ単一物体追跡論文のサーベイ
単一物体追跡論文のサーベイ
 
KCFの紹介
KCFの紹介KCFの紹介
KCFの紹介
 

A bayesian approach to multimodal visual dictionary learningの紹介