More Related Content More from Hitoshi Nishimura More from Hitoshi Nishimura (10) A bayesian approach to multimodal visual dictionary learningの紹介2. 論文について
A Bayesian Approach to Multimodal Visual
Dictionary Learning
Go Irie†, Dong Liu‡, Zhenguo Li‡, Shih-Fu Chang‡
† NTT Corporation, Kanagawa, Japan
‡ Columbia University, New York, USA
CVPR2013
8. 2. Related Work
○Visual Dictionary learning
・教師なし(k-meansなど),教師あり(最近)
・教師あり:強い「クラスラベル」を利用
提案手法:
弱い「単語」を利用.Descriptorのクラスタリングを補助
○Co-clustering
・入力を相関行列として,二つの量を同時にクラスタリング
提案手法:Bayesian Co-clusteringとの違いは「連続-離散」
○Multimodal Topic Models
・LSI,LDAなどを用いたものがある
提案手法:トピックモデルではなく,Co-clusteringモデル
image descriptorに分布を仮定,Wordには仮定なし
9. 3. Multimodal Visual Dictionary
Learning
が最大となるような),|,( RXP
Xに割り当てるクラスタ(隠れ変数)
},,{ 1 NxxX
},,{ 1 N
を求める
13. 3.1.2 Visual Dictionary Inference
推定
モデリングした
),|,,,,,,,( RXzzp x
),,,,,,,,,(
zzRXp x
?
が最大となる (隠れ変数とパラメータ)
の組を求めたい
,,, x
z
?
解析的に解くのは難しい
・EMアルゴリズム
・変分ベイズ
・ギブスサンプリング
で,隠れ変数を推定する1
x
z1
・・・
y
z3
14. に割り当てるクラスタ(隠れ変数)
},,{ 1 NxxX
},,{ 1 N
最終的なコードブック
モデリングした
),|,,( RXzzp x
),,,,,,,,,(
zzRXp x
崩壊型ギブスサンプリング
X
,,,, を積分して消す(らしい)
ほしいもの
この後の流れ
21. CRP (Chinese Restaurant Process)
:クラスタが生成される様子(事前確率)
クラスタtにいる人数
新しいテーブルに着く度
1 2 3 4
1x 2x 3x4x
5x
5
2
5
1
5
2
5
6x ?
27. 4.1.2 Evaluation on Caltech101 Dataset
・101物体
・画像に単語が付いていないので,クラスラベルを用いた
Coding部分をLLCのような複雑なものにすれば上がるかも
28. 4.2 CBIR (Contect-based Image Retrieval)
・画像検索(入力:画像)
・データベース:FLICKR,WIKIPEDIA
1,単語情報は画像検索においても有用
2,画像検索において提案手法はとても強い
30. 5. Conclusion
・ A Bayesian Approach to Multimodal Visual
Dictionary Learningを提案した
・image descriptorの分布と,image descriptorとtextual words
の相関を利用した,CD-BCCを提案した
・従来手法よりも高い性能を示した
・variational methodやslice samplingのような,速い推定
アルゴリズムを試したい