Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

条件付き確率場の推論と学習

46,479 views

Published on

Published in: Technology
  • Be the first to comment

条件付き確率場の推論と学習

  1. 1. 条件付き確率場の推論と学習 東北大学情報科学研究科 システム情報科学専攻 岡谷研究室 博士後期課程1年 齋藤 真樹
  2. 2. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習 参考文献 Conditional Random Fields(CVPR2011 Tutorial) http://www.nowozin.net/sebastian/cvpr2011tutorial/slides/talk-crf.pdf Understanding Belief Propagation and Its Generalizations http://www.merl.com/papers/docs/TR2001-22.pdf
  3. 3. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習
  4. 4. 条件付き確率場 • 最も多く使われている確率モデルの一つ – 多くの論文に直接/間接的に現れる • サイト間の隣接関係を考えた確率モデル 入力 条件付き確率 出力 (マルコフ確率場の構造をもつ)
  5. 5. 例1: 二値セグメンテーション(GrabCut) • ブラシで指定された情報を元に,領域を2つに分割 • 入力: 画像とブラシ情報 • 出力: 分割された領域の画像
  6. 6. 例2: ステレオマッチング • 左右2枚の画像を元に,各画素ごとの深度を推定 • 入力: 左右2枚の画像 • 出力: 各画素の深度を表す画像
  7. 7. 例3: ノイズ除去 • ノイズを含む画像を元に,ノイズの無い画像を推定 • 入力: ノイズを含む画像 • 出力: ノイズが含まれない画像
  8. 8. Face Detection, Pose Estimation, and Landmark Zhu et. al. CVPR2012 Localization in the Wild • 写真から複数の顔の位置, 表情を認識 • 顔のパーツ位置同士の関係 を平滑化項として指定 • 木構造のGaussian MRFを 利用,ピーク位置をExact に求めている
  9. 9. Efficient Inference in Fully-Connected CRFs Krahenbuhl et. al. NIPS2010 with Gaussian Edge Potentials • • • • ピクセル毎の一般物体認識 すべての画素がすべての画素に接続(Fully-Connected CRF) 平均場近似を用いて畳み込み積分の形に変形,高速に推論可能 学習は平均場近似を用いた近似学習
  10. 10. 条件付き確率場の学習と推論 • 推論: 入力が与えられた際の出力の条件付き確率を使う • (教師あり)学習: データを元に,分布を定めるパラメータを決定 フィッティング
  11. 11. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習
  12. 12. Pairwise Markov Random Field MRFの多くは,全体の結合確率分布を以下で表現する: エネルギー関数 ボルツマン分布 分配関数(partition function) (エネルギーが低いほど 確率は高くなる) ここで,E(x)は次の形をとる: データ項 平滑化項
  13. 13. 例: 二値ラベルセグメンテーション • 対象のサイトが{0, 1}の二値しかとりえない問題 – それでも,取りうる状態数は2Nと指数的に増加! データ項 平滑化項 データ項だけで 最適化 平滑化項を 加えて最適化
  14. 14. 確率モデルにとって重要な2つの操作 • MAP推定 – 推定値を求める目的で,p(x)が最大となるxを求める – ボルツマン分布ではエネルギーの最小化問題と等価 • 周辺分布の推定 – 確率分布を周辺化した周辺分布pi(xi)を求める – 推定値を求めたり,パラメータ学習の際に使用(後述) どちらも,そのまま計算することは非常に困難 →確率伝搬法などの最適化手法を用いる
  15. 15. 周辺分布の直感的な理解 • 周辺分布は結局どのような分布なのか? – サイトi『だけ』を観測した際に得られる確率分布 全体を 観測 一部を 観測
  16. 16. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習
  17. 17. 平均場近似 • MRFの周辺分布を近似的に求めるための手法 – 物理学がそのルーツ • 確率伝搬法(LBP)よりも精度は悪い分,計算速度が早い • 機械学習では変分ベイズなどの別名でよく用いられる マルコフ 確率場 ベーテ 近似 = CS・CV 平均場 近似 イジング 模型 = ワイス 理論 = 物理学 確率 伝播法
  18. 18. ☹ 計算困難性 • 真の分布Pから周辺分布を直接求めることは困難 周辺分布を 計算しやすい 近似分布Qを導入 近似分布Qを 真の分布Pに 近づける Qから 周辺分布を 求める P すべてのサイトが独立と仮定 現実にはあり得ないものの, 高速に周辺分布を計算できる Q ℳ
  19. 19. ☹ カルバック・ライブラー距離 • 真の分布Pから周辺分布を直接求めることは困難 周辺分布を 計算しやすい 近似分布Qを導入 近似分布Qを 真の分布Pに 近づける Qから 周辺分布を 求める P 『カルバック・ライブラー距離』 確率分布間の近さを測る指標 Q ℳ
  20. 20. 反復方程式の導出 • KL距離の停留点を求め,以下の反復方程式を得る: まず,適当な分布ですべてのqiを初期化する サイトi近傍の サイト集合
  21. 21. 反復方程式の導出 • KL距離の停留点を求め,以下の反復方程式を得る: 次に,サイトi近傍の分布q jを参照して,qiを更新する
  22. 22. 反復方程式の導出 • KL距離の停留点を求め,以下の反復方程式を得る: 同様の操作をすべてのサイトに対して行い, 収束するまで繰り返す
  23. 23. 確率伝搬法(1) • MAP推定解や周辺分布解を求めるための有名な手法 – Max-product, Sum-productとも呼ばれる • グラフ上でメッセージをやりとりして,解を求める Judea Pearl(1936-) 1982年に確率伝搬法を提唱 2011年にチューリング賞受賞
  24. 24. 確率伝搬法(1) • MAP推定解や周辺分布解を求めるための有名な手法 – Max-product, Sum-productとも呼ばれる • 対象のグラフィカルモデルが木構造である場合は どちらも必ず厳密解が求められる! – 木構造でない場合でも,比較的精度の高い結果が 得られることが知られている (Loopy Belief Propagation, LBP) 厳密解を 求められる 近似解のみ
  25. 25. 確率伝搬法(1) • 確率伝搬法を用いて,以下のMRFモデルの最適化を行う: 厳密解を 求められる 近似解のみ
  26. 26. 周辺分布の推定(Sum-product) 確率伝搬法(2) • 『メッセージ』と呼ばれる関数を伝搬させることで MAP推定解や周辺分布を求めていく メッセージの伝搬則 周辺分布の計算規則
  27. 27. MAP推定(Max-product) 確率伝搬法(2) • 『メッセージ』と呼ばれる関数を伝搬させることで MAP推定解や周辺分布を求めていく メッセージの伝搬則 MAP推定解の計算規則
  28. 28. 確率伝搬法(3) • 単純な木構造の場合を例に,確率伝搬法を説明する • まず,根のサイトから親へ向かうメッセージを計算 この場合は考える必要なし
  29. 29. 確率伝搬法(3) • 単純な木構造の場合を例に,確率伝搬法を説明する • まず,根のサイトから親へ向かうメッセージを計算 この場合は考える必要なし
  30. 30. 確率伝搬法(3) • 前回計算されたメッセージを元に,中間部分のメッ セージを計算する
  31. 31. 確率伝搬法(3) • 前回計算されたメッセージを元に,根に向かうメッ セージを計算する
  32. 32. 確率伝搬法(3) • 前回計算されたメッセージを元に,根に向かうメッ セージを計算する
  33. 33. 確率伝搬法(3) • 周囲のメッセージを取り込んで,周辺分布を計算 • Max-productの場合もやり方は同じ 等価
  34. 34. 確率伝搬法(4) • 対象のグラフが鎖状である場合の確率伝搬法は Forward-Backwardアルゴリズムと等価 • ループを含む場合は,適当に初期化したメッセージを 反復させることで更新する(Loopy Belief Propagation). – メッセージが収束する保証はない – 得られる解も推定解で,厳密解でない …
  35. 35. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習
  36. 36. 最尤推定によるCRFのパラメータ学習 • (教師あり)学習: データを元に,分布を定めるパラメータを決定 フィッティング • 具体的には,観測されたND個のデータを用いて, パラメータによって変化する確率分布から最も尤もらしい 分布を推定する(最尤推定)
  37. 37. 例: 1次元ガウス分布 • 例として,1次元ガウス分布の最尤推定を行う: • Lをそれぞれのパラメータで微分,停留点を求めることで 最終的に以下の推定値を得る: 平均 標準偏差
  38. 38. Kullback-Leibler距離(1) • Kullback-Leibler距離を次のように定義する: • KL距離は確率分布間の近さを測る距離のようなもの (厳密には距離でない) Q P ℳ
  39. 39. Kullback-Leibler距離(2) • KL距離を用いて,最尤推定を拡張 – 様々な分布の最適化問題を統一的に理解できる • 『経験分布』qを,次で定義する: 経験分布: 観測データを表す分布 • 次に,条件付き分布間の近さを次のKL距離で定義する:
  40. 40. Kullback-Leibler距離(3) • 最後に,yについての期待値をとることで次を得る: • ここで,<・>は期待値を表す記号である.すなわち
  41. 41. Kullback-Leibler距離(4) • このKL距離の最小化は,対数尤度の最大化と等価! Q P ℳ
  42. 42. Kullback-Leibler距離(5) • CRFのKL距離をパラメータで微分し,次を得る: データ項 モデル項 観測データで定まる分布 モデルの形で定まる分布 • 勾配を評価し,パラメータを繰り返し更新していく – モデル項の計算には周辺分布の計算が必要
  43. 43. 最適解の一意性 • エネルギー分布が以下の形をとる場合に対して, 前述の更新則で求めるパラメータは一意の解をもつ: – KL距離を二階微分,半正定値の共分散行列となる • このような分布族を『指数型分布族』という – 最適なパラメータが必ず学習できる • 学習にはモデル分布の周辺分布が必要 – 変分原理(平均場近似,確率伝搬法)で求める方法と, Gibbs Samplingなどを用いて解く方法の二通りがある
  44. 44. CRF学習の一例(1) • 以下の離散的なエネルギー分布をもつCRFを学習する: – 各サイト,エッジ毎の重みが変わってくるモデル パラメータ 既知 • KL距離をそれぞれのパラメータで微分し,次を得る:
  45. 45. CRF学習の一例(1) • 式を整理,最終的に次を得る: 周辺分布
  46. 46. CRF学習の一例(2) • 以下の離散的なエネルギー分布をもつCRFを学習する: – データ項,平滑化項それ自体を学習で求める パラメータ 既知 • KL距離をそれぞれのパラメータで微分,解を求める
  47. 47. CRF学習の一例(2) • 最終的に次の式を得る: 周辺分布 • 学習によって,CRFのパラメータを高精度に求められる

×