Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

条件付き確率場の推論と学習

0 views

Published on

Published in: Technology
  • Be the first to comment

条件付き確率場の推論と学習

  1. 1. 条件付き確率場の推論と学習 東北大学情報科学研究科 システム情報科学専攻 岡谷研究室 博士後期課程1年 齋藤 真樹
  2. 2. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習 参考文献 Conditional Random Fields(CVPR2011 Tutorial) http://www.nowozin.net/sebastian/cvpr2011tutorial/slides/talk-crf.pdf Understanding Belief Propagation and Its Generalizations http://www.merl.com/papers/docs/TR2001-22.pdf
  3. 3. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習
  4. 4. 条件付き確率場 • 最も多く使われている確率モデルの一つ – 多くの論文に直接/間接的に現れる • サイト間の隣接関係を考えた確率モデル 入力 条件付き確率 出力 (マルコフ確率場の構造をもつ)
  5. 5. 例1: 二値セグメンテーション(GrabCut) • ブラシで指定された情報を元に,領域を2つに分割 • 入力: 画像とブラシ情報 • 出力: 分割された領域の画像
  6. 6. 例2: ステレオマッチング • 左右2枚の画像を元に,各画素ごとの深度を推定 • 入力: 左右2枚の画像 • 出力: 各画素の深度を表す画像
  7. 7. 例3: ノイズ除去 • ノイズを含む画像を元に,ノイズの無い画像を推定 • 入力: ノイズを含む画像 • 出力: ノイズが含まれない画像
  8. 8. Face Detection, Pose Estimation, and Landmark Zhu et. al. CVPR2012 Localization in the Wild • 写真から複数の顔の位置, 表情を認識 • 顔のパーツ位置同士の関係 を平滑化項として指定 • 木構造のGaussian MRFを 利用,ピーク位置をExact に求めている
  9. 9. Efficient Inference in Fully-Connected CRFs Krahenbuhl et. al. NIPS2010 with Gaussian Edge Potentials • • • • ピクセル毎の一般物体認識 すべての画素がすべての画素に接続(Fully-Connected CRF) 平均場近似を用いて畳み込み積分の形に変形,高速に推論可能 学習は平均場近似を用いた近似学習
  10. 10. 条件付き確率場の学習と推論 • 推論: 入力が与えられた際の出力の条件付き確率を使う • (教師あり)学習: データを元に,分布を定めるパラメータを決定 フィッティング
  11. 11. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習
  12. 12. Pairwise Markov Random Field MRFの多くは,全体の結合確率分布を以下で表現する: エネルギー関数 ボルツマン分布 分配関数(partition function) (エネルギーが低いほど 確率は高くなる) ここで,E(x)は次の形をとる: データ項 平滑化項
  13. 13. 例: 二値ラベルセグメンテーション • 対象のサイトが{0, 1}の二値しかとりえない問題 – それでも,取りうる状態数は2Nと指数的に増加! データ項 平滑化項 データ項だけで 最適化 平滑化項を 加えて最適化
  14. 14. 確率モデルにとって重要な2つの操作 • MAP推定 – 推定値を求める目的で,p(x)が最大となるxを求める – ボルツマン分布ではエネルギーの最小化問題と等価 • 周辺分布の推定 – 確率分布を周辺化した周辺分布pi(xi)を求める – 推定値を求めたり,パラメータ学習の際に使用(後述) どちらも,そのまま計算することは非常に困難 →確率伝搬法などの最適化手法を用いる
  15. 15. 周辺分布の直感的な理解 • 周辺分布は結局どのような分布なのか? – サイトi『だけ』を観測した際に得られる確率分布 全体を 観測 一部を 観測
  16. 16. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習
  17. 17. 平均場近似 • MRFの周辺分布を近似的に求めるための手法 – 物理学がそのルーツ • 確率伝搬法(LBP)よりも精度は悪い分,計算速度が早い • 機械学習では変分ベイズなどの別名でよく用いられる マルコフ 確率場 ベーテ 近似 = CS・CV 平均場 近似 イジング 模型 = ワイス 理論 = 物理学 確率 伝播法
  18. 18. ☹ 計算困難性 • 真の分布Pから周辺分布を直接求めることは困難 周辺分布を 計算しやすい 近似分布Qを導入 近似分布Qを 真の分布Pに 近づける Qから 周辺分布を 求める P すべてのサイトが独立と仮定 現実にはあり得ないものの, 高速に周辺分布を計算できる Q ℳ
  19. 19. ☹ カルバック・ライブラー距離 • 真の分布Pから周辺分布を直接求めることは困難 周辺分布を 計算しやすい 近似分布Qを導入 近似分布Qを 真の分布Pに 近づける Qから 周辺分布を 求める P 『カルバック・ライブラー距離』 確率分布間の近さを測る指標 Q ℳ
  20. 20. 反復方程式の導出 • KL距離の停留点を求め,以下の反復方程式を得る: まず,適当な分布ですべてのqiを初期化する サイトi近傍の サイト集合
  21. 21. 反復方程式の導出 • KL距離の停留点を求め,以下の反復方程式を得る: 次に,サイトi近傍の分布q jを参照して,qiを更新する
  22. 22. 反復方程式の導出 • KL距離の停留点を求め,以下の反復方程式を得る: 同様の操作をすべてのサイトに対して行い, 収束するまで繰り返す
  23. 23. 確率伝搬法(1) • MAP推定解や周辺分布解を求めるための有名な手法 – Max-product, Sum-productとも呼ばれる • グラフ上でメッセージをやりとりして,解を求める Judea Pearl(1936-) 1982年に確率伝搬法を提唱 2011年にチューリング賞受賞
  24. 24. 確率伝搬法(1) • MAP推定解や周辺分布解を求めるための有名な手法 – Max-product, Sum-productとも呼ばれる • 対象のグラフィカルモデルが木構造である場合は どちらも必ず厳密解が求められる! – 木構造でない場合でも,比較的精度の高い結果が 得られることが知られている (Loopy Belief Propagation, LBP) 厳密解を 求められる 近似解のみ
  25. 25. 確率伝搬法(1) • 確率伝搬法を用いて,以下のMRFモデルの最適化を行う: 厳密解を 求められる 近似解のみ
  26. 26. 周辺分布の推定(Sum-product) 確率伝搬法(2) • 『メッセージ』と呼ばれる関数を伝搬させることで MAP推定解や周辺分布を求めていく メッセージの伝搬則 周辺分布の計算規則
  27. 27. MAP推定(Max-product) 確率伝搬法(2) • 『メッセージ』と呼ばれる関数を伝搬させることで MAP推定解や周辺分布を求めていく メッセージの伝搬則 MAP推定解の計算規則
  28. 28. 確率伝搬法(3) • 単純な木構造の場合を例に,確率伝搬法を説明する • まず,根のサイトから親へ向かうメッセージを計算 この場合は考える必要なし
  29. 29. 確率伝搬法(3) • 単純な木構造の場合を例に,確率伝搬法を説明する • まず,根のサイトから親へ向かうメッセージを計算 この場合は考える必要なし
  30. 30. 確率伝搬法(3) • 前回計算されたメッセージを元に,中間部分のメッ セージを計算する
  31. 31. 確率伝搬法(3) • 前回計算されたメッセージを元に,根に向かうメッ セージを計算する
  32. 32. 確率伝搬法(3) • 前回計算されたメッセージを元に,根に向かうメッ セージを計算する
  33. 33. 確率伝搬法(3) • 周囲のメッセージを取り込んで,周辺分布を計算 • Max-productの場合もやり方は同じ 等価
  34. 34. 確率伝搬法(4) • 対象のグラフが鎖状である場合の確率伝搬法は Forward-Backwardアルゴリズムと等価 • ループを含む場合は,適当に初期化したメッセージを 反復させることで更新する(Loopy Belief Propagation). – メッセージが収束する保証はない – 得られる解も推定解で,厳密解でない …
  35. 35. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習
  36. 36. 最尤推定によるCRFのパラメータ学習 • (教師あり)学習: データを元に,分布を定めるパラメータを決定 フィッティング • 具体的には,観測されたND個のデータを用いて, パラメータによって変化する確率分布から最も尤もらしい 分布を推定する(最尤推定)
  37. 37. 例: 1次元ガウス分布 • 例として,1次元ガウス分布の最尤推定を行う: • Lをそれぞれのパラメータで微分,停留点を求めることで 最終的に以下の推定値を得る: 平均 標準偏差
  38. 38. Kullback-Leibler距離(1) • Kullback-Leibler距離を次のように定義する: • KL距離は確率分布間の近さを測る距離のようなもの (厳密には距離でない) Q P ℳ
  39. 39. Kullback-Leibler距離(2) • KL距離を用いて,最尤推定を拡張 – 様々な分布の最適化問題を統一的に理解できる • 『経験分布』qを,次で定義する: 経験分布: 観測データを表す分布 • 次に,条件付き分布間の近さを次のKL距離で定義する:
  40. 40. Kullback-Leibler距離(3) • 最後に,yについての期待値をとることで次を得る: • ここで,<・>は期待値を表す記号である.すなわち
  41. 41. Kullback-Leibler距離(4) • このKL距離の最小化は,対数尤度の最大化と等価! Q P ℳ
  42. 42. Kullback-Leibler距離(5) • CRFのKL距離をパラメータで微分し,次を得る: データ項 モデル項 観測データで定まる分布 モデルの形で定まる分布 • 勾配を評価し,パラメータを繰り返し更新していく – モデル項の計算には周辺分布の計算が必要
  43. 43. 最適解の一意性 • エネルギー分布が以下の形をとる場合に対して, 前述の更新則で求めるパラメータは一意の解をもつ: – KL距離を二階微分,半正定値の共分散行列となる • このような分布族を『指数型分布族』という – 最適なパラメータが必ず学習できる • 学習にはモデル分布の周辺分布が必要 – 変分原理(平均場近似,確率伝搬法)で求める方法と, Gibbs Samplingなどを用いて解く方法の二通りがある
  44. 44. CRF学習の一例(1) • 以下の離散的なエネルギー分布をもつCRFを学習する: – 各サイト,エッジ毎の重みが変わってくるモデル パラメータ 既知 • KL距離をそれぞれのパラメータで微分し,次を得る:
  45. 45. CRF学習の一例(1) • 式を整理,最終的に次を得る: 周辺分布
  46. 46. CRF学習の一例(2) • 以下の離散的なエネルギー分布をもつCRFを学習する: – データ項,平滑化項それ自体を学習で求める パラメータ 既知 • KL距離をそれぞれのパラメータで微分,解を求める
  47. 47. CRF学習の一例(2) • 最終的に次の式を得る: 周辺分布 • 学習によって,CRFのパラメータを高精度に求められる

×