Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

PRML8章

9,186 views

Published on

Published in: Data & Analytics
  • Be the first to comment

PRML8章

  1. 1. PRML 第8章 グラフィカルモデル 東京理科大学大学院 薬学研究科 薬科学専攻 (博士後期課程3年) 理科学研究所 情報基盤センター
 バイオインフォマティクス研究開発ユニット (JRA) ! 露崎弘毅
  2. 2. 目次 ・8.1 ベイジアンネットワーク - 8.1.1 例: 多項式曲線フィッティング - 8.1.2 生成モデル - 8.1.3 離散変数 - 8.1.4 線形ガウスモデル ・8.2 条件付き独立性 - 8.2.1 3つのグラフの例 - 8.2.2 有向分離(D分離) ・8.3 マルコフ確率場 - 8.3.1 条件付き独立性 - 8.3.2 分解特性 - 8.3.3 例: 画像のノイズ除去 - 8.3.4 有向グラフとの関係 ・8.4 グラフィカルモデルにおける推論 - 8.4.1 連鎖における推論 - 8.4.2 木 - 8.4.3 因子グラフ - 8.4.4 積和アルゴリズム - 8.4.5 max-sumアルゴリズム - 8.4.6 一般のグラフにおける厳密推論 - 8.4.7 ループあり確率伝搬 - 8.4.8 グラフ構造の学習 今回 次回or次々回
  3. 3. 8章のための準備
  4. 4. 確率の加法定理(周辺化) (1.10) 1 1 1 1 1 0 1 0 1 1 0 1 0 0 0 0 0 1 0 1 X Y 二変量(X、Y)のデータのうち、Xの起きる確率は以下の二通りで求められる
 (左は普通の計算、右はYについての周辺化) (1: 事象が起きた
 0 : 事象が起きない) = 5 / 10 = 0.5 p(X, Y= 0) = 2/10 p(X, Y= 1)
 = 3/10 3/10 + 2/10 = 0.5 Yが起きた場合 1 1 1 1 1 0 1 0 1 1 0 1 0 0 0 0 0 1 0 1 X Y Yが起きなかった場合 1 1 1 1 1 0 1 0 1 1 0 1 0 0 0 0 0 1 0 1 X Y
  5. 5. 確率の乗法定理 (1.11) 条件付き確率(Xが起きた時にYが起きる確率)
 は以下のように定義される 両辺に p(X) 1 1 1 1 1 0 1 0 1 1 0 1 0 0 0 0 0 1 0 1 X Y 言葉の通りに計算すると、 「Xが起きた(5)時に、 Yが起きる(3)確率は、3/5」 ! p(Y¦X) = n(X, Y) / n(X) = (n(X, Y) / N) / (n(X) / N) = p(X, Y) / p(X) Xに条件づけられた確率 Xが
 起きた時
  6. 6. ベイズの定理 条件付き確率 分母は、加法定理、
 乗法定理から更に変形できる (1.12) ベイズの定理 (離散量Ver) 分母は定数だから ベイズの定理 (連続量Ver) 尤度 事前確率事後確率
  7. 7. 共役事前分布 事後分布 尤度 事前分布 ベータ分布 二項分布 ベータ分布 正規分布 正規分布 正規分布 逆ガンマ分布 正規分布 逆ガンマ分布 ガンマ分布 ポアソン分布 ガンマ分布 ディリクレ分布 多項分布 ディリクレ分布 ベイズな手法は、パラメーターが 分布を持ち、さらにその分布のパ ラメーターが分布を持ち…という 風に階層を増やしていける 幾らでも階層を作れる (階層ベイズモデル) 時系列解析に使える (データ同化) t t+1 t+2 左のような尤度・事前分布の組み合わせ は、事後分布が事前分布と同じ形になる ので、どれだけモデルが複雑になっても、 事後分布を求める事ができる (積分できる、計算がしやすい) ! ⇄ 最近はモデルが複雑になってもサンプ リング(MCMC)で分布を求めようとい うやり方も
  8. 8. 互いに独立とは かけ算に分けられるという事 (2つの変数の同時分布がその周辺の積に分解できる事, 上巻p17) P(A, B) = P(A) P(B) 例: データが同じ分布から独立にとられたとする仮定(i.i.d.) (1.60) (1.61) ベクトル要素の積として表現できる P(t¦x,w,β) = N(t¦y(x,w), β-1)
  9. 9. 1-of-K符号化法 K個の状態を取りうる離散変数を扱う際に用いられる 要素の一つxkのみが1で他を0とする x = (0,0,1,0,0,0)T 例: さいころの目が3だった時
  10. 10. ナイーブベイズ ベイズの定理を分類器として使ったもの 例: スパムメールフィルタ 受信BOX (C1 : カテゴリー1) 迷惑メール (C2: カテゴリー2) 受信したメールの文面 グラビア bag-of-words (D) (例: 無料、ダウンロー ド、 http://… ) ・実際は分母は無視する (大小関係には無関係) ・一度も出現しない単語は、 全体の確率を0にしてしまう -> スムージング http://qiita.com/aflc/items/13fe52243c35d3b678b0 http://www.slideshare.net/matuura/ss-8108633 (迷惑メール件数) / (全メール件数)
  11. 11. その他 確率変数 X 観測値 Pr(X = x) ・確率的に値をとる変数 ・大文字で書く ・パラメータで値が決まる関数 ・実際にとりうる値 ・小文字で書く パラメーター X ∼ Binom(n, p) ・実際にとりうる値 ・斜字体、ギリシャ文字とか?
  12. 12. 第8章 グラフィカルモデル
  13. 13. グラフ ノード(node)、頂点(vertex) リンク(link)、辺(edge)、弧(arc) ノードの集合とエッジの集合で構成されるもの(Wikipedia)
  14. 14. グラフィカルモデル 確率変数 確率変数間の関係 確率変数間の関係性をグラフで表現したもの
  15. 15. グラフィカルモデル 有向グラフィカルモデル (例:ベイジアンネットワーク) 無向グラフィカルモデル (例: マルコフ確率場) 因果関係 緩い束縛関係 (相関とか?)
  16. 16. ベイジアンネットワーク 3変数a,b,cの同時確率p(a,b,c)を考える 同時分布p(a,b,c)は乗法定理で以下のように分解できる (8.1) (8.2) また同時分布p(a,b)は乗法定理で以下のように分解できる
  17. 17. ベイジアンネットワーク ベイジアンネットワークはこの確率変数間の因果関係を
 グラフで表現したもの (8.2) 1. aが起きて… 2. aが起きることで bが起きて… 3. a, bが起きる ことでcが起きる 図8.1 aはbの親ノード、 bはaの子ノード という
  18. 18. ベイジアンネットワーク 例: K=5の時の全結合グラフ (8.3) 乗法定理を繰り返し適用する事で、同時分布は各変数上の条件付き 分布の積として書ける(全結合) x1 x2 x3 x4 x5 自分よりも小さい番号がふられたすべてのノードから
 向かってくるリンクをもつ
  19. 19. ベイジアンネットワーク 図8.2 (8.4)
  20. 20. ベイジアンネットワーク 一般系で書くと (pak : xkの親ノードの集合) この式は同時分布の分解特性を表現したという ベイジアンネットワークは有向閉路を持たない
 有向非循環グラフ(DAG: Directed acyclic graph) とか みたいなループ構造が無いという事 (自然現象ではよくあるけど) (8.5)
  21. 21. グラフィカルモデルの書き方 1.2.6節のベイズ多項式回帰モデル (N変量のデータから、yを予測する) 多項式係数ベクトル 観測データ 入力データ ノイズの分散 ガウス事前分布の精度 (超パラメーター) 確率変数 (パラメーターで値が変わる) パラメーター (定数) sinカーブ 図1.17 太字のx,tは訓練データ、 細字のx,tはテストデータ
  22. 22. グラフィカルモデルの書き方 確率変数にだけ注目した書き方(1.61のシンプル版) (8.6) N個のノードは左のように まとめて書いてもよい プレート 図8.3 図8.4
  23. 23. グラフィカルモデルの書き方 パラメーターも明示的に含んだ書き方 (8.7) 図8.5 図8.6 学習データを入れている事を 示す場合は、塗りつぶす パラメータは小さい点で書く 観測されない隠れ変数はそのまま (-> 第9, 12章 EMアルゴリズム)
  24. 24. 生成モデル 観測データが生成される因果仮定を表現したモデル 人口的なデータを生成できる 例: 伝承サンプリング
 (上位ノードから順に値を決めていくというだけ) 図8.5は生成モデルでは無い xnは値が既に決まっているから xnの事前分布が必要 図8.5 ? 2 1 2 3
  25. 25. 有向グラフの親子対が共役関係になる分布であると、良い性質をもつ (多分解析的に積分が解けるとか、モデルが複雑にならないとか) ! 特に重要なのが以下の二つで、これらは階層的に拡張して、
 任意の複雑なDAGが構築できる 離散変数 離散変数 ガウス変数 ガウス変数
  26. 26. 離散変数 (8.9) 1-of-K符号化で書かれた多項分布 例: さいころで3が出る確率 パラメーター数 : K - 1 規格化のための制約
  27. 27. パラメーター数 : K2 - 1 離散変数 1-of-K符号化で書かれた多項分布(二つの状態を取る場合) 規格化のための制約 例: さいころA,Bで各々(3, 4)が出る確率 以下略…(36個パラメーターがある) とりうる状態が増えると、パラメーターが指数的に増大してしまう KM - 1状態数Mで 個
  28. 28. 離散変数 乗法定理を用いると、P(x1,x2) = P(x2¦x1) P(x1) これは図8.9の(a) 図8.9 変数がM個だと、パラメーター数は M(K - 1) でMについて線形 パラメーター数 : K2 - 1 パラメーター数 : 2(K - 1)
  29. 29. 離散変数 リンクを除去するとパラメーターを減らせる 全結合 全てが独立 パラメーター数
 M(K - 1) パラメーター数 KM - 1 パラメーター数 K - 1 + (M - 1) K (K - 1) K状態の連鎖 図8.10 x1 x2 xM x1 x2 xM
  30. 30. 離散変数 パラメータを共有する事(sharing, tyling)
 でもパラメーターは減らせる 図8.11 図8.12 図8.10のモデルの事前分布として ディリクレ分布を導入したもの 更に1つのパラメーターuが全ての 条件付き分布に共有される場合 パラメーター数
 K2 - 1 パラメーター数
 2?
  31. 31. 離散変数 条件付き分布として、パラメトリックモデ ルを用いる事でもパラメーターは減らせる 図8.13 M個の親ノードと一つの子ノード (共に二値変数とする) そのままだとパラメーター数 : 2M (8.10) 親変数の線形結合を入力とする
 ロジスティックシグモイド関数を利用 パラメーター数 : M + 1
  32. 32. 線形ガウスモデル (8.11) 確率的主成分分析、因子分析、線形動的システム
 などで利用されているらしい 平均 pai 分散 : vi xi 全てのノードの同時分布の対数は (8.5, 一般系のベイジアンネットワークより) (8.12) (8.13)? j biwi xj
  33. 33. 線形ガウスモデル 平均 : u, 分散 :σ2の正規分布 自然対数をとる(expが消える) あとはuに σ2に を代入すれば8.13になる vi
  34. 34. 線形ガウスモデル 8.13はxの成分に関する2次関数なので、p(x)はD次元正規分布(?) (8.14) この時、期待値と分散は再帰的に求まる (8.15) (8.16)
  35. 35. 線形ガウスモデル リンクが一つもないD個のノード 全結合グラフ パラメーター数
 wij : 0個 bi : D個 vi : D個 パラメーター数
 wij : (D/(D-1))/2個 bi : D個 vi : D個 x1 b1 v1 x2 b2 v2 x3 b3 v3 x4 b4 v4 x1 b1 v1 x2 b2 v2 x3 b3 v3 x4 b4 v4
  36. 36. 線形ガウスモデル 中間的なグラフ(例: 図8.14) パラメーター数
 wij : D - 1個 bi : D個 vi : D個 x1 b1 v1 x2 b2 v2 x3 b3 v3 x4 b4 v4
  37. 37. 線形ガウスモデル ガウス分布の共役事前分布はガウス分布 ! ガウス変量の平均をガウス分布とする(事前分布) => ガウス分布の平均値は超パラメーター => 超パラメーターがガウス分布だとする…(超事前分布) ! => 階層ベイズモデル
 (何階層でもモデルを拡張・複雑化できる)
  38. 38. 条件付き独立性 (8.20) bがあってもなくてもaの条件付き確率に影響を与えない これをcが与えられた下で、aはbに対して条件付き独立であるという cに対してaとbが条件付き独立とは以下のように書く (8.21) (8.22) 条件付き独立性が示せるとリンクを減らせる a c b a c b
  39. 39. 可能性のある全ての条件付き独立性を調べれば、リンクは減らせる => 実際には、計算量が膨大 => グラフの形だけで独立かどうか判断が可能(d-separationという枠組み) 条件付き独立性 以降はまず3つのノードの簡単なグラフで説明する
  40. 40. 3つのグラフの例① a b c tail-to-tail cに対して周辺化 これはp(a) p(b)という形には変形できない (独立ではない) cで条件付ける p(a¦c) p(b¦c)という形に変形できた(条件付き独立、block) (8.23) (8.24)tail tail
  41. 41. 3つのグラフの例② a b c head-to-tail cに対して周辺化 これはp(a) p(b)という形には変形できない (独立ではない) cで条件付ける p(a¦c) p(b¦c)という形に変形できた(条件付き独立、block) (8.26)
  42. 42. 3つのグラフの例③ a b c head-to-head cに対して周辺化 これはp(a) p(b)という形に変形できた(独立) (8.28) 確率の総和は1だから
  43. 43. 3つのグラフの例③ a b c head-to-head cで条件付ける p(a¦c) p(b¦c)という形に変形できない(unblock) (8.28)
  44. 44. 3つのグラフの例(まとめ) グラフの形 cで周辺化 cで条件付け tail-to-tail 独立ではない 条件付き独立 (block) head-to-tail 独立ではない 条件付き独立 (block) head-to-head 独立 独立ではない
 (unblock)
  45. 45. head-to-headの更に特殊な 性質(弁明) 図8.20 バッテリーの状態 {0:切れている,
 1:充電されている} 燃料タンクの状態 {0:空,1:満タン} 電動燃料計 {0:空と示している, 1:満タンと示している} p(B=1) = 0.9 p(F=1) = 0.9 p(G=1 ¦ B = 1, F = 1) = 0.8 p(G=1 ¦ B = 1, F = 0) = 0.2 p(G=1 ¦ B = 0, F = 1) = 0.2 p(G=1 ¦ B = 0, F = 0) = 0.1 p(B=0) = 0.1 p(F=0) = 0.1 p(G=0 ¦ B = 1, F = 1) = 0.2 p(G=0 ¦ B = 1, F = 0) = 0.8 p(G=0 ¦ B = 0, F = 1) = 0.8 p(G=0 ¦ B = 0, F = 0) = 0.9 事前にこういった情報が与えられているとする
  46. 46. head-to-headの更に特殊な 性質(弁明) 何も観測されていないとき燃料タンクが空である確率は ! p(F=0) = 0.1 燃料計が空を指しているという事実を観測した時の 燃料タンクが空である確率は(ベイズの定理より) 少し確率が高まっている! 確率が低くなる! さらに、バッテリーが切れている事実を観測し た時の燃料タンクが空である確率は 図8.21
  47. 47. head-to-headの更に特殊な 性質(弁明) さらに子孫ノードのいずれかが観測されても 燃料タンクが空になる確率は変化する ! 子孫ノード が0
  48. 48. 有向分離(D分離) リンクを遮断する時の法則、今までの話をノード集合にまで拡張したもの? (グラフの形だけでわかる) (a) 集合Cに含まれるノードであって、経路に含まれる 矢印がそこでhead-to-tailあるいはtail-to-tailである (b) 経路に含まれる矢印がそのノードでhead-to-headであり、 自身あるいはそのすべての子孫のいずれもが集合Cに含まれない CA B CA B CA B あらゆるA-C-Bの経路が遮断されていれば、 集合Aは集合Cにおいて集合Bと条件付き独立
  49. 49. 有向分離(D分離) 図8.22 A AC C B B ノードaとノードbは集合C(ノードe, f)で遮断できるか? cが観測された場合 fが観測された場合 -> 遮断されない -> 遮断される fがtail-to-tailで観測さ れていない eはhead-to-headだが、 子孫fがCに含まれる fがtail-to-tailで観測 されている eはhead-to-headで、 それ自身あるいはその 子孫が条件付き集合に 含まれない
  50. 50. 有向分離(D分離) 図8.5のモデルの有向分離性 パラメーターは観測済みノードと同じ & 親ノードが無い -> 他のノードとのつながりは必ず、tail-to-tailになる -> 有向分離性に影響しない 1.2.4節のi.i.d.データの有向分離性 図8.23 パラメーターuはtail-to-tail -> uに値を入力したら、あらゆる子ノード間で独立 -> i.i.d. uを積分消去した場合、観測値は独立ではない (8.35)
  51. 51. 有向分離(D分離) 図8.7のモデルの有向分離性 (8.36)
  52. 52. 有向分離(D分離) ナイーブベイズの有向分離性 図8.24 例: bag-of-words 例: {受信BOX、迷惑メール} zが観測されると、あらゆる xノード間は独立
  53. 53. 有向分離定理 1. 有向分解
 (乗法定理を繰り返し適用して得た、条件付き確率分布) ! 2. 有向分離 (条件付き独立を繰り返し適用して得た、条件付き確率分布) 以下の二つは同じ分布を得る
  54. 54. マルコフブランケット xiが起きる確率を、xi以外の全てのノードで条件付けた分布で考える 分母をxiで周辺化する 条件付き確率の積にする xiに依存しないノードの条件付き確率は 分子と打ち消し合う(次頁)? あるノードの条件付き独立性を考える時の最小単位
  55. 55. マルコフブランケット 図8.26 つまり、xiの条件付き独立を考える時、 1) 親、子 2) 共同親 だけを考えれば良い 親 子 共同親A B C D E F G 結局Cの条件付き確率P(C¦A,B)と、 Cの子ノードの条件付き確率P(D¦C,F)やP(E¦C,G)だけ残る Cを含まない項は全部消える!
  56. 56. 無向グラフ(マルコフ確率場) 無向グラフは条件付き独立を考えるのが簡単 図8.27 集合Cを取り除いてA-B間の経路が無くなるなら条件付き独立 図8.28 無向グラフはマルコフブランケットも簡単 隣接ノードだけ考えれば良い
  57. 57. 無向グラフ(マルコフ確率場) 無向グラフの分解特性(これまで乗法定理を繰り返 し適用していたもの)は以下のように定式化される (8.38) xi, xj以外の全てのノードを取り除い た時の同時確率 よりと書くことも 各々の確率に分割できるなら、x{i,j} においてxi、xjは条件付き独立
  58. 58. クリーク 図8.29 無向グラフの分解特性は極大クリーク変数集合の関数にする事 クリーク : {x1, x2}, {x2, x3}, {x3, x4}, {x4, x2} 極大クリーク : {x1, x2, x3}, {x2, x3, x4} {x1, x2, x3, x4}はクリークではない(x1 - x4間にリンクがない) クリーク : 全てのノードの組にリンクが存在するグラフの部分集合 極大クリーク : もう一つを加えるとクリークでなくなってしまうようなクリーク
  59. 59. ポテンシャル関数 極大クリークを引数としたポテンシャル関数 の積に分解する どんな関数にするかは言及しない 基本的に総和は1にならない -> 規格化定数(分配関数)を導入 -> 計算は大変
  60. 60. 画像のノイズ除去の例 元のピクセル ランダムに反転したピクセル 元画像 10%のピクセルを ランダムに反転 ICMによる復元 グラフカット
 アルゴリズム
 による復元 (8.41) (8.42) (8.43) 図8.31
  61. 61. 有向->無向の変換 図8.32のような簡単な場合 有向グラフ(a) 無向グラフ(b) 以下のような対応づけができる
  62. 62. 有向->無向の変換 図8.33のような場合 親同士をリンクで結ぶ(モラル化) 1. 向きを無くす 2. モラル化する 3. 規格化する -> ジャンクションツリーアルゴリズム(8.4)
  63. 63. 生物の細胞 遺伝子間が相互作用のネットワーク を形成している geneX geneY Protein X Protein Y 様々な実験での遺伝子発現データ とりうる可能性高い遺伝子ネットワーク
 を探索(MAP推定) データからこれを推定したい 実験 遺伝子 more 番外編 ベイジアンネットワークの学習
  64. 64. → 近似的に求めるアルゴリズムが開発される http://www.scls.riken.jp/scruise/software/sign-bn.html 番外編 ベイジアンネットワークの学習
  65. 65. こういう、ネットワーク構造は未知でデータから推定するアプローチは
 ベイジアンネットワークの 学習 とか 推論 というらしい (8.4.8で紹介だけしている) SiGN-BN : スパコン「京」で計算するソフトウェア 自分の修論の内容 Rのbnlearnパッケージ(CBRCのBlue Gene上で実行) http://sign.hgc.jp/signbn/index_ja.html 番外編 ベイジアンネットワークの学習
  66. 66. 番外編 ベイジアンネットワークの学習 どのグラフが良いか決める基準 尤度、情報量基準(AIC, BIC: 尤度&パラメーター数)、 MAP推定(尤度 事前分布)… データを元に、最も最適と思われるグラフ構造を探索する データ グラフ 1 0 0 1 1 0 1 0 1 0 1 0 1 0 1 0 0 0 1 1 0 0 0 0 1 1 1 0 0 1 a b c b a c b a c b a c
  67. 67. データからグラフ構造を推定したい場合、単純な式変 形をしただけだと、数学的に等しいので、結局最適な グラフ構造を決定できないのでは(勉強会での議論) ! => 実際にやってみた 番外編 ベイジアンネットワークの学習
  68. 68. http://www.scls.riken.jp/scruise/wp-content/uploads/sites/ 3/2013/12/SIGN_HGC_Seminar_Tamada201302.pdf http://en.wikipedia.org/wiki/Directed_acyclic_graph ノード数の増加に対する 取りうるDAG数 番外編 ベイジアンネットワークの学習 3ノードなら手計算でいけそう
  69. 69. 乗法定理 2(n=6) 乗法定理 2 + 条件付き独立 (n=9) 乗法定理 1 + 独立(n=3) 全て独立(n=1) 乗法定理を使う (このままではグラフ として表現できない?) 乗法定理 1 + 独立 + 条件付き独立(n=6) エッジ0個 エッジ1個 エッジ2個(head-to-tail, tail-to-tail) エッジ2個(head-to-head) エッジ3個(全結合) ノード3つで式変形を片っ端から行った 番外編 ベイジアンネットワークの学習
  70. 70. 試しに、以下のような簡単な{0,1}データを用いる またここでは単純に尤度のみでグラフの善し悪しを判定する 番外編 ベイジアンネットワークの学習 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 1 1 a b c P(a) = 3/5 P(b) = 2/5 P(c) = 1/5 ! P(a, b) = 2/5 P(b, c) = 1/5 P(a, c) = 1/5 P(a, b, c) = 1/5 P(a ¦ b, c) = 1 P(b ¦ a, c) = 1 P(c ¦ a, b) = 1/2 ! P(a ¦ b) = 1 P(a ¦ c) = 1 P(b ¦ a) = 2/3 P(b ¦ c) = 1 P(c ¦ a) = 1/3 P(c ¦ b) = 1/2
  71. 71. 独立性について 番外編 ベイジアンネットワークの学習 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 1 1 a b c P(a ¦ b, c) = P(a ¦ b) P(a ¦ b, c) = P(a ¦ c) P(b ¦ a, c) P(b ¦ a) P(b ¦ a, c) = P(b ¦ c) P(c ¦ a, b) P(c ¦ a) P(c ¦ a, b) = P(c ¦ b) P(a, b, c) P(a) P(b) P(c) P(a, b) P(a) P(b) P(b, c) P(b) P(c) P(a, c) P(a) P(c) 条件付き独立性について データによって成り立ったり、
 成り立たなかったりする
  72. 72. 乗法定理 2(n=6) 乗法定理 2 + 条件付き独立 (n=9) 乗法定理 1 + 独立(n=3) 全て独立(n=1) 乗法定理 1 + 独立 + 条件付き独立(n=6) エッジ0個 エッジ1個 エッジ2個(head-to-tail, tail-to-tail) エッジ2個(head-to-head) エッジ3個(全結合) 番外編 ベイジアンネットワークの学習 尤度を計算した = 0.2 = 0.2 = 0.2 = 0.2 = 0.2 = 0.2 = 0.048 = 0.08 = 0.12 = 0.12 = 0.2 = 0.2 = 0.2 = 0.2 = 0.13... = 0.13... = 0.2 = 0.2 = 0.13... = 0.08 = 0.08 = 0.08 = 0.12 = 0.08 = 0.12
  73. 73. 乗法定理 2(n=6) エッジ3個(全結合) 番外編 ベイジアンネットワークの学習 = 0.2 = 0.2 = 0.2 = 0.2 = 0.2 = 0.2 乗法定理で変形したものはグラフ構造は違うのにも関わらず尤度は等しい b a c b a c b a c b a c b a c b a c
  74. 74. 乗法定理 2 + 条件付き独立 (n=9) 乗法定理 1 + 独立(n=3) 乗法定理 1 + 独立 + 条件付き独立(n=6) エッジ0個 エッジ1個 エッジ2個(head-to-tail, tail-to-tail) エッジ2個(head-to-head) 番外編 ベイジアンネットワークの学習 = 0.08 = 0.12 = 0.12 = 0.2 = 0.2 = 0.2 = 0.2 = 0.13... = 0.13... = 0.2 = 0.2 = 0.13... = 0.08 = 0.08 = 0.08 = 0.12 = 0.08 = 0.12 条件付き独立・独立はデータによって成り立ったり、成り立たなかっ たりする ! 「同じ尤度を持つDAGは複数存在する可能性がある」 21世紀の統計科学 第2巻 第6章 生命システムネットワークを明らかにするための統計的モデリング

×