条件付き確率場の推論と学習

条件付き確率場の推論と学習

東北大学情報科学研究科システム情報科学専攻
岡谷研究室博士後期課程1年
齋藤真樹

目次
1. コンピュータビジョンと条件付き確率場
2. マルコフ確率場
3. 最適化手法
1. 平均場近似
2. 確率伝搬法(max-product, sum-product)
4. 条件付き確率場とその学習

参考文献
Conditional Random Fields(CVPR2011 Tutorial)
http://www.nowozin.net/sebastian/cvpr2011tutorial/slides/talk-crf.pdf
Understanding Belief Propagation and Its Generalizations
http://www.merl.com/papers/docs/TR2001-22.pdf

目次
1. コンピュータビジョンと条件付き確率場
2. マルコフ確率場
3. 最適化手法
1. 平均場近似
2. 確率伝搬法(max-product, sum-product)
4. 条件付き確率場とその学習

条件付き確率場
• 最も多く使われている確率モデルの一つ
– 多くの論文に直接/間接的に現れる
• サイト間の隣接関係を考えた確率モデル

入力

条件付き確率
出力
(マルコフ確率場の構造をもつ)

例1: 二値セグメンテーション(GrabCut)
• ブラシで指定された情報を元に，領域を2つに分割
• 入力: 画像とブラシ情報
• 出力: 分割された領域の画像

例2: ステレオマッチング
• 左右2枚の画像を元に，各画素ごとの深度を推定
• 入力: 左右2枚の画像
• 出力: 各画素の深度を表す画像

例3: ノイズ除去
• ノイズを含む画像を元に，ノイズの無い画像を推定
• 入力: ノイズを含む画像
• 出力: ノイズが含まれない画像

Face Detection, Pose Estimation, and Landmark
Zhu et. al. CVPR2012
Localization in the Wild
• 写真から複数の顔の位置，
表情を認識
• 顔のパーツ位置同士の関係
を平滑化項として指定
• 木構造のGaussian MRFを
利用，ピーク位置をExact
に求めている

Efficient Inference in Fully-Connected CRFs
Krahenbuhl et. al. NIPS2010
with Gaussian Edge Potentials

•
•
•
•

ピクセル毎の一般物体認識
すべての画素がすべての画素に接続(Fully-Connected CRF)
平均場近似を用いて畳み込み積分の形に変形，高速に推論可能
学習は平均場近似を用いた近似学習

条件付き確率場の学習と推論
• 推論: 入力が与えられた際の出力の条件付き確率を使う

• (教師あり)学習: データを元に，分布を定めるパラメータを決定

フィッティング

Pairwise Markov Random Field
MRFの多くは，全体の結合確率分布を以下で表現する:
エネルギー関数
ボルツマン分布

分配関数(partition function)

(エネルギーが低いほど
確率は高くなる)

ここで，E(x)は次の形をとる:

データ項

平滑化項

例: 二値ラベルセグメンテーション
• 対象のサイトが{0, 1}の二値しかとりえない問題
– それでも，取りうる状態数は2Nと指数的に増加！

データ項

平滑化項
データ項だけで
最適化

平滑化項を
加えて最適化

確率モデルにとって重要な2つの操作
• MAP推定
– 推定値を求める目的で，p(x)が最大となるxを求める
– ボルツマン分布ではエネルギーの最小化問題と等価

• 周辺分布の推定
– 確率分布を周辺化した周辺分布pi(xi)を求める
– 推定値を求めたり，パラメータ学習の際に使用(後述)

どちらも，そのまま計算することは非常に困難
→確率伝搬法などの最適化手法を用いる

周辺分布の直感的な理解

• 周辺分布は結局どのような分布なのか？
– サイトi『だけ』を観測した際に得られる確率分布

全体を
観測

一部を
観測

平均場近似
• MRFの周辺分布を近似的に求めるための手法
– 物理学がそのルーツ
• 確率伝搬法(LBP)よりも精度は悪い分，計算速度が早い
• 機械学習では変分ベイズなどの別名でよく用いられる

マルコフ
確率場

ベーテ
近似

=

CS・CV

平均場
近似

イジング
模型

=

ワイス
理論

=

物理学

確率
伝播法

☹

計算困難性
• 真の分布Pから周辺分布を直接求めることは困難

周辺分布を
計算しやすい
近似分布Qを導入

近似分布Qを
真の分布Pに
近づける

Qから
周辺分布を
求める

P
すべてのサイトが独立と仮定
現実にはあり得ないものの，
高速に周辺分布を計算できる

Q

ℳ

☹

カルバック・ライブラー距離
• 真の分布Pから周辺分布を直接求めることは困難

周辺分布を
計算しやすい
近似分布Qを導入

近似分布Qを
真の分布Pに
近づける

Qから
周辺分布を
求める

P
『カルバック・ライブラー距離』
確率分布間の近さを測る指標

Q

ℳ

反復方程式の導出
• KL距離の停留点を求め，以下の反復方程式を得る:

まず，適当な分布ですべてのqiを初期化する

サイトi近傍の
サイト集合


次に，サイトi近傍の分布q jを参照して，qiを更新する


同様の操作をすべてのサイトに対して行い，
収束するまで繰り返す

確率伝搬法(1)
• MAP推定解や周辺分布解を求めるための有名な手法
– Max-product, Sum-productとも呼ばれる
• グラフ上でメッセージをやりとりして，解を求める
Judea Pearl(1936-)
1982年に確率伝搬法を提唱
2011年にチューリング賞受賞

確率伝搬法(1)
• MAP推定解や周辺分布解を求めるための有名な手法
– Max-product, Sum-productとも呼ばれる
• 対象のグラフィカルモデルが木構造である場合は
どちらも必ず厳密解が求められる！
– 木構造でない場合でも，比較的精度の高い結果が
得られることが知られている
(Loopy Belief Propagation, LBP)
厳密解を
求められる

近似解のみ

確率伝搬法(1)
• 確率伝搬法を用いて，以下のMRFモデルの最適化を行う:

厳密解を
求められる

近似解のみ

周辺分布の推定(Sum-product)

確率伝搬法(2)
• 『メッセージ』と呼ばれる関数を伝搬させることで
MAP推定解や周辺分布を求めていく
メッセージの伝搬則

周辺分布の計算規則

MAP推定(Max-product)

確率伝搬法(2)
• 『メッセージ』と呼ばれる関数を伝搬させることで
MAP推定解や周辺分布を求めていく
メッセージの伝搬則

MAP推定解の計算規則

確率伝搬法(3)
• 単純な木構造の場合を例に，確率伝搬法を説明する
• まず，根のサイトから親へ向かうメッセージを計算

この場合は考える必要なし

確率伝搬法(3)
• 前回計算されたメッセージを元に，中間部分のメッ
セージを計算する

確率伝搬法(3)
• 前回計算されたメッセージを元に，根に向かうメッ
セージを計算する

確率伝搬法(3)
• 周囲のメッセージを取り込んで，周辺分布を計算
• Max-productの場合もやり方は同じ

等価

確率伝搬法(4)
• 対象のグラフが鎖状である場合の確率伝搬法は
Forward-Backwardアルゴリズムと等価

• ループを含む場合は，適当に初期化したメッセージを
反復させることで更新する(Loopy Belief Propagation)．
– メッセージが収束する保証はない
– 得られる解も推定解で，厳密解でない

…

最尤推定によるCRFのパラメータ学習
• (教師あり)学習: データを元に，分布を定めるパラメータを決定

フィッティング

• 具体的には，観測されたND個のデータを用いて，
パラメータによって変化する確率分布から最も尤もらしい
分布を推定する(最尤推定)

例: 1次元ガウス分布
• 例として，1次元ガウス分布の最尤推定を行う:

• Lをそれぞれのパラメータで微分，停留点を求めることで
最終的に以下の推定値を得る:

平均
標準偏差

Kullback-Leibler距離(1)
• Kullback-Leibler距離を次のように定義する:

• KL距離は確率分布間の近さを測る距離のようなもの
(厳密には距離でない)
Q

P

ℳ

• KL距離を用いて，最尤推定を拡張
– 様々な分布の最適化問題を統一的に理解できる
• 『経験分布』qを，次で定義する:

経験分布: 観測データを表す分布

• 次に，条件付き分布間の近さを次のKL距離で定義する:


• 最後に，yについての期待値をとることで次を得る:

• ここで，<・>は期待値を表す記号である．すなわち


• このKL距離の最小化は，対数尤度の最大化と等価！

Q

P

ℳ

• CRFのKL距離をパラメータで微分し，次を得る:

データ項

モデル項
観測データで定まる分布

モデルの形で定まる分布

• 勾配を評価し，パラメータを繰り返し更新していく
– モデル項の計算には周辺分布の計算が必要

最適解の一意性
• エネルギー分布が以下の形をとる場合に対して，
前述の更新則で求めるパラメータは一意の解をもつ:
– KL距離を二階微分，半正定値の共分散行列となる

• このような分布族を『指数型分布族』という
– 最適なパラメータが必ず学習できる
• 学習にはモデル分布の周辺分布が必要
– 変分原理(平均場近似，確率伝搬法)で求める方法と，
Gibbs Samplingなどを用いて解く方法の二通りがある

CRF学習の一例(1)
• 以下の離散的なエネルギー分布をもつCRFを学習する:
– 各サイト，エッジ毎の重みが変わってくるモデル

パラメータ

既知

• KL距離をそれぞれのパラメータで微分し，次を得る:


• 式を整理，最終的に次を得る:

周辺分布

• 以下の離散的なエネルギー分布をもつCRFを学習する:
– データ項，平滑化項それ自体を学習で求める

パラメータ

既知

• KL距離をそれぞれのパラメータで微分，解を求める

• 最終的に次の式を得る:

周辺分布

• 学習によって，CRFのパラメータを高精度に求められる

条件付き確率場の推論と学習

More Related Content

What's hot

Viewers also liked

Similar to 条件付き確率場の推論と学習

Recently uploaded

条件付き確率場の推論と学習