Chap08 1 12
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,181
On Slideshare
2,136
From Embeds
45
Number of Embeds
2

Actions

Shares
Downloads
25
Comments
0
Likes
2

Embeds 45

http://d.hatena.ne.jp 30
http://www.slideshare.net 15

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 第8章グラフィカルモデル
    山下正行
    Twitter: @ruto5
    PRML勉強会第10回 2010/1/9
  • 2. 目次
    8 グラフィカルモデル
    • 8.1 ベイジアンネットワーク
    • 3. 8.1.1 例:多項式曲線フィッティング
    • 4. 8.1.2 生成モデル
    朱鷺の杜によれば
    確率変数をノードとし、確率変数間に統計的な依存関係を
    有向辺で表したグラフを考える。
    このグラフに基づいて、複数の確率変数の結合確率や条件付確率
    を扱うモデル
  • 5. 8章 グラフィカルモデル
    加法定理
    乗法定理
    これまでの確率論
    で成り立っていた
    どんな複雑なモデルでも定式化して解くことができる
    確率的グラフィカルモデル
    解析に使うと とても便利
    確率分布の図式的な表現
    特徴
    1:確率モデル構造の視覚化する方法を提供、新モデル設計方針の決定支援
    2:グラフ構造から条件付き独立性などのモデル性質に関する知見を得る
    3:精巧なモデルで推論や学習を実行するのにグラフ上の操作として表現
    数学的な表現も兼ねている
  • 6. グラフ
    リンク(辺、弧)
    ノード(頂点)
    グラフ:リンクによって接続されたノードの集まり
    確率的グラフィカルモデル
    :確率変数
    :変数間の確率的関係
    確率的グラフィカルモデルでのグラフ
    「全確率変数上の同時分布が、一部の変数のみに依存する因子の積として
    どのように分解可能か」を表現する
  • 7. 有向/無向グラフ
    ベイジアンネットワーク(別名 有向グラフィカルモデル)
    マルコフ確率場(別名 無向グラフィカルモデル)
    • 有向:グラフのリンクが特定の方向性を持ち矢印で描かれる
    確率変数間の因果関係を表現するのに便利
    • 無向:リンクが方向性を持たない
    確率変数間の緩い束縛関係を表現するのに便利
    • 因子:因子を■で表し、リンクは方向性を持たない
    8.4.3で説明
    推論問題を解く際 有/無向グラフを因子グラフに変換すると便利
    グラフィカルモデルの特徴
    パターン認識や機械学習に応用する場合に重要となる側面に焦点を当てる
  • 8. 一般的な議論に関する資料
    1.Whittaker, J. (1990) Graphical Models in Applied Multivariate Statistics. Wiley.
    2.Lauritzen, S.L. (1996) Graphical Models. Oxford University Press
    3.Jensen, F. V. (1996). An Introduction to Bayesian Networks. UCL Press
    4.Castillo, E., J. M. Gutierrez, and A. S. Hadi (1997). Expert Systems and                Probabilistic Network Modes. Springer.
    5.Jordan, M. I. (1999). Learning in Graphical Models. MIT Press.
    6.Cowell, R. G., A. P. Dawid, S. L. Lauritzen, and D. J. Spiegelhalter (1999). Probabilistic Networks and Expert Systems. Springer
    7.Jordan, M. I. (2007) An Introduction to Probabilistic Graphical Models. In preparatioA



    5

  • 9. 8.1 ベイジアンネットワーク
    広い確率分布のクラスをグラフで記述できる
    有向グラフを用いて確率分布を記述することの利点
    3変数a,b,c上の任意の同時分布 p(a,b,c)を考える
    確率の乗法定理 p(X,Y) = p(Y | X)p(X) (1.11)を用いる
    第2因子も(1.11)を適用
    aとbの関係
    a
    b
    aはbの親ノード
    bはaの子ノード
    Fig.8.1
  • 10. 全結合
    図8.1の例を拡張して、K変数の同時分布p(x1,...,xK)の場合を考える
    確率の乗法定理を繰り返し適用
    Kの値を決めれば
    同時分布はK個のノードを持つ有向グラフとして表現される
    全てのノードの組に対してリンクを持つ
    全結合
    条件付き確率への分解や全結合グラフ表現は、任意の同時分布に対して
    適用可能
    グラフはリンクが存在しないことをもって分布のクラスの性質に関する情報を表現する
  • 11. 全結合でないグラフ
    グラフに対応する同時確率分布を条件付分布の積で表す
    表し方
    1つの条件付分布を1つのノードに対応させる
    各条件付分布は対応するノードの親だけに条件
    付けられるようにする
    Fig.8.2
  • 12. 有向グラフと変数分布間の関係
    グラフによって定義される同時分布
    グラフ上で親に対応する変数によって条件付けられた
    各ノード変数上の条件付分布の積によって与えられる
    K個のノードを持つグラフに対応する同時分布
    xkの親ノード集合
    X={x1,...,xK}
    与えられた有向グラフィカルモデルに対応する同時分布の分解特性を表現している
    各ノードが1つの変数に対応するだけでなく、変数集合やベクトル値変数にも対応可能
  • 13. 演習8.1(基本)1/2

    変数を1つずつ周辺化することによって、有向グラフの同時分布の表現(8.5)
    が正しく規格化されていることを示せ。ただし、個々の条件付分布は
    正しく規格化されていると仮定する。
    グラフのノードに番号が割り振られていると仮定した場合
    x1が根ノードになる。大きい番号のノードは、小さい番号のノードへ矢印はつかない
    それぞれの条件付分布によって正しく規格化されると仮定した場合
    他の変数のいずれもxKに依存しないので
    xKからスタートしてノードの逆順に残すことができる。
  • 14. 演習8.1(基本)2/2
    この処理をK-2回繰り返して、以下の式の左が得られる
  • 15. 有向非循環グラフ(DAG)
    directed acyclic graph
    あるノードから出発して矢印に従って進んだ後、
    また初めのノードに戻ってくるような閉じた閉路
    有向閉路
    有向非循環グラフ
    有向閉路を持たない

    大きい番号を持つノードから小さい番号を持つノードへの
    リンクが存在しないようにノードを順序付けられる
  • 16. 演習8.2(基本)

    有向グラフにおいて、すべてのノードについて、自分より小さい番号を
    持つノードに向かうリンクが存在しないようにノードを順序付けることが
    できるなら、有向閉路は存在しないことを示せ
    グラフのノードがノードから小さい番号のノードまで行く
    辺がない順番のようなものである有向グラフについて考察する。
    また、次にノードの部分集合がグラフの有向閉路であるならば、
    この有向閉路に属するのは同じ番号である性質を満たさなければならない。
    エッジの向きに閉路を横断するならば、始めのノードで
    終わらなければならないので、ノード順は単調増加することができない。
    次の閉路は有向閉路であるはずがない
  • 17. 8.1.1多項式曲線フィッティング
    確率分布を記述するために有向グラフを利用する方法
    例:ベイズ多項式回帰モデル
    モデルの確率変数
    多項式係数ベクトル:w
    観測データ:t=(t1,....,tN)T
  • 18. 確率変数だけに注目すると同時分布は
    事前分布p(w)とN個の条件付分布p(tn|w)(n=1,...,N)の積で与えられる
    プレートによる
    コンパクトな表現
    ②プレート
    ③ノード数
    ①代表ノード
    Fig.8.3
  • 19. プレートによるコンパクトな表現
    入力データ x=(x1,...,xN)T
    ノイズの分散  σ2
    分布の精度パラメータ(ハイパーパラメータ) α
    モデルのパラメータも陽に書いた方が便利な場合もある
    グラフ表現でも描くことができる
    グラフ表現を描く際の慣例
    確率変数:塗りつぶさない円
    決定的パラメータ:塗りつぶされた小さい円
    確率変数
    Fig.8.5
  • 20. 観測変数
    機械学習やパターン認識問題にグラフィカルモデルを適用する場合
    確率変数のいくつかを特定の観測値に対応させる
    例:多項式曲線フィッティングの場合 学習データ{tn}
    観測変数は対応するノードに
    影付けする
    観測されていない
    潜在変数
    (隠れ変数)
    観測変数
    確率モデルで重要な役割を果たす
    Fig.8.6
    9章と12章で詳しく説明
  • 21. 事後分布
    1.2.5節 曲線フィッティング再訪より
    {tn}の値を観測すると、多項式係数wの事後分布を求めることができる
    ベイズの定理が適用されている
    ※決定的パラメータは省略
  • 22. 予測分布
    多項式フィッティングの最終目的:新しい入力値に対する予測を行うこと
    問:新しい入力値
    が、与えられた時、対応する観測データで条件付けられた
    の確率分布を求めたい
    グラフィカルモデルで表すと
    Fig.8.7
  • 23. 確率の加法定理よりモデルパラメータwを積分消去すると
    求めるべき
    の予測分布が得られる
    が求まる
    tに含まれる確率変数は学習データ集合の観測値に暗に固定されている
    計算詳細は、3章で議論した
  • 24. 8.1.2 生成モデル
    与えられた確率分布に対して、それに従うサンプルを発生させたい場合が多い
    サンプリング法については11章で説明
    グラフィカルモデルと特に関係の深い伝承サンプリング法について
    に従って因数分解されるK変数上の
    同時分布p(x1,...,xK)を考える
    親ノード
    変数の番号付け
    全てのノードはその親ノード
    よりも大きい番号を持つよう
    順序付けられている
    子ノード
  • 25. 目的:同時分布に従うサンプル
    を発生させること
    番号の最も小さいノードから順にサンプルを発生させていけば良い
    1.分布p(x1)に従うサンプルを発生させる
    p(x1)
    2.各ノードを番号順に進む
    p(x2)
    p(x1)
    3.n番目のノードでは条件付分布p(xn|pan)に従うサンプルを発生させる
    p(xn)
    p(x2)
    p(x1)
    p(x3)
    値は、サンプリングされた値を用いる
    親変数 pan
  • 26. 全変数上のサンプルを得る
    特定の形の分布からサンプル値を発生させる方法がある 11章で説明
    p(x1)
    p(x2)
    p(x1)
    p(x1,x2) = p(x1)p(x2|x1)
    ・・・
    p(xn)
    p(x2)
    p(x1)
    p(x1,x2,x3,...,xn) =p(x1) p(x2|x1)p(x3|x2)・・・p(xn|xn-1)
    ・・・
    全変数上の同時分布に従うサンプルを
    1つ発生させたことになる
    目的達成
    p(xK)
    p(xn)
    p(x1,x2,x3,...,xk) =p(x1) p(x2|x1) p(x3|x2)・・・p(xk|xk-1)
  • 27. 一部の変数上のサンプルを得る
    一部の変数集合上の周辺分布に従うサンプルを得たい場合
    p(x4)
    p(x1)
    p(x2)
    p(x3)
    同時分布p(x1,x2,x3,x4)に従うサンプル
    p(x1)
    p(x2)
    同時分布p(x1,x2)に従うサンプル
    分布p(x2,x4)に従うサンプル
    他の値
    は捨てる
    p(x2,x4) =p(x1) p(x2|x1) p(x1) p(x2|x1) p(x3|x2)p(x4|x3)
    確率モデルの実際のアプリケーションでは
    潜在変数の重要な役割
    x4
    x1
    x2
    x3
    観測変数上の複雑な形の分布を
    より単純な条件付き分布から作られた
    モデルを使って表現することにある
    末端ノードに対応する大きい番号
    が割り振られた変数
    小さい変数が
    振られたノード
    観測値
    潜在変数
    観測データを発生する過程を表現している
  • 28. 例 物体認識問題
    目的:観測データ(物体の像)から物体の種類を推論する
    問題
    観測像が1つ与えられたとき、すべての可能な位置、向きに関して
    隠れ変数を積分消去することで物体の種類に関する事後分布を求める
    隠れ変数
    像:観測データ点
    Fig.8.8
  • 29. 生成モデル
    図8.8は観測データが生成される因果過程を表現している
    生成モデル
    多項式回帰モデルは生成モデルではない
    理由
    ・入力変数xに関する確率分布を与えられていない
    ・人工的なデータ点を生成できない
    少し複雑になるが適切な事前分布p(x)を導入することで
    多項式回帰モデルを生成モデルにすることが可能
    複雑な同時分布を単純な要素から構成するため
    だけに導入してもOK
    伝承サンプリングを生成モデルに適用
    観測データの生成過程を模倣して観測データと
    全く同じ確率分布に従う「架空」のデータを発生
    実用上、そのモデルによって表現される確率分布の形を理解する上で有効
    Pearl,J. (1988). Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann
  • 30. 参考文献
    宮川雅巳 グラフィカルモデリング、朝倉書店、1997.3
    尾上守夫(監訳)パターン識別、新技術コミュニケーションズ、2001.2
    http://www.amazon.co.jp/gp/product/0471917508/ref=sib_rdr_dp
    http://books.google.co.jp/books?id=mGQWkx4guhAC&dq=graphical+models+lauritzen&printsec=frontcover&source=bn&hl=ja&ei=MxMdS-KrGpeXkQWA6q3SAw&sa=X&oi=book_result&ct=result&resnum=4&ved=0CCMQ6AEwAw#v=onepage&q=&f=false
    http://books.google.co.jp/books?id=L1kHa-Sb2y0C&printsec=frontcover&dq=expertsystems+and+probabilistic+networkmodels&as_brr=3#v=onepage&q=&f=false
    http://mitpress.mit.edu/catalog/item/default.asp?sid=702DE355-3E33-4B90-AF51-83300BD3BE68&ttype=2&tid=8141
    http://www.cis.upenn.edu/~mkearns/papers/barbados/jordan-tut.pdf
    http://www.cs.berkeley.edu/~jordan/
    http://people.cs.ubc.ca/~murphyk/Bayes/bayes.html
    http://ssli.ee.washington.edu/courses/ee512/lecs/lectures.html
    http://www-users.cs.york.ac.uk/~jc/teaching/agm/
  • 31. 補足
    p.25のような場合は(a)のように順番にサンプリングしていかなければならないが
    (b)のようなグラフィカルモデルでは順番に関係なくp(x2, x4)は独立して
    サンプリングできる
    p(x1)
    p(x1)
    p(x3)
    p(x2)
    p(x4)
    p(x2)
    p(x1)
    p(x2)
    p(x1)
    p(x3)
    p(x2)
    p(x1)
    p(x3)
    p(x4)
    (b)
    (a)
    図 一部の変数上のサンプルを得る場合