Advertisement
Advertisement

More Related Content

Slideshows for you(20)

Advertisement

Similar to Probabilistic Graphical Models 輪読会 #1(20)

Recently uploaded(20)

Advertisement

Probabilistic Graphical Models 輪読会 #1

  1. Probabilistic Graphical Models 輪読会 #1 概論 16/05/14 東京工業大学 4年 八木 拓真(@t_Signull) Probabilistic Graphical Models 輪読会 #1 1
  2. 自己紹介 Probabilistic Graphical Models 輪読会 #1 2 八木 拓真 東京工業大学 情報工学科 4年 統計的パターン認識 、動画認識 WBA若手の会 関東支部代表 興味の方向:AGIの工学的実現 去年やった研究: 『人物動作系列からの「動作素」の自動抽出』 @t_Signull
  3. 今回読む本 D.Koller & N. Friedman Probabilistic Graphical Models: Principles and Techniques (2009) • グラフィカルモデルの00年代までの 進展を取り纏めた名著 • Coursera創設者、Daphne Koller先 生らが執筆 • 1200ページという圧巻の分量に加え、 多量のtypoと非直感的な数式が我々 を苦しめる Probabilistic Graphical Models 輪読会 #1 3
  4. グラフィカルモデル Probabilistic Graphical Models 輪読会 #1 4 マルコフ確率場 多項式回帰 HDP-HMM LDA(Latent Dirichlet Allocation) 4
  5. グラフィカルモデル Probabilistic Graphical Models 輪読会 #1 5 ロボットの言語獲得のモデル [Taniguchi+ 15]
  6. グラフィカルモデルでない Probabilistic Graphical Models 輪読会 #1 6 ニューラルネットワーク 決定木 0.8 0.2 0.80.2 状態遷移図
  7. なぜグラフィカルモデル? Probabilistic Graphical Models 輪読会 #1 言語処理 7 統計学 統計分析 符号理論 コンピュータ ビジョン グラフ理論 機械学習 1つの学問分野に囚われない、普遍の理論 統計的因果推論 認知科学 人工知能
  8. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 8
  9. 第1章 Introduction Probabilistic Graphical Models 輪読会 #1 9
  10. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 10
  11. 動機(1.1) • 多くのタスク(作業)は、推論能力を必要とする • 推論(reasoning)とは、(多くの場合限られた)情 報からある結論を導くこと • 例えばロボットは、様々な種類のセンサ情報か ら自らがどの地点にいるのかを把握し、障害物 と衝突しないようにゴールに向かう軌道を考え なければならない →決定的なプログラムで書けなくはないが、しば しば柔軟性・汎用性に欠ける Probabilistic Graphical Models 輪読会 #1 11
  12. 本書のアプローチ • 本書では、問題の解決を知識(の表現)と推論の2 段階に分離→宣言的(declarative)表現の導入 • タスク別に宣言的表現さえ導入すれば、その推論 はドメイン非依存で行えるのではないか →知識と推論の分離 Probabilistic Graphical Models 輪読会 #1 12 宣言的表現 𝑋1 𝑋2 𝑋3 𝑋4 実世界の 問題 共通の推論アルゴリズム
  13. 不確定性(Uncertainty)を扱う • 実世界において不確定性は原則回避できない • 私たちが観察から得る情報はしばしば (1) 不完全で (2) ノイズが混じっていて (3) 情報同士の関係性はさらに不明瞭 である • 不確定性は、私たちが不完全な観察、不完全なモデ ル化しかできないことによって引き起こされる →私たちが結論を下すためには、複数の可能性を考え、 かつその中で最も可能性の高いものを推論する必要が ある Probabilistic Graphical Models 輪読会 #1 13
  14. 確率を使う • 不確定性を扱うにはどうしたらいい? →確率論(probability theory)の利用 • 例外的な事象を、小さい確率を割り当てること で表現できる Probabilistic Graphical Models 輪読会 #1 14 ルール1 ルール2 ルール3 例外? ? ? 事象A 事象B 事象C あまり起き ないこと 例外も他のルールと平等 例外的な事象は重要ではない
  15. 構造化グラフィカルモデル(1.2) ここで、医療診断システムを考えよう: • 病名、症状、患者の状態/特性などの情報には それぞれ確率変数(random variable)が割り当てられ る • 確率変数には、0/1などの離散値あるいは連続値が 格納され、「インフルエンザである/ない」、「体 温が37.5℃である」などの意味を持つ • グラフィカルモデル(GM)を構成するこれらの確率 変数にどのような意味や値を与えるかは、我々の行 いたいタスクによって変化する Probabilistic Graphical Models 輪読会 #1 15
  16. • 私たちの目標:観測情報が与えられた下で、1つ または複数の確率変数について確率的に推論す ること • そのためには、私たちは確率変数の集合Χ(カイ) における全ての可能な割り当てを表す結合分布 (joint probability distribution)を構築する必要 がある • 結合分布を得ることで、ある確率変数𝑋𝑖が𝑥𝑖で あったときの事後分布(posterior distribution) を計算できる Probabilistic Graphical Models 輪読会 #1 16 構造化グラフィカルモデル(1.2)
  17. 例1.1:インフルエンザと花粉症 • 簡単な医療診断の例として、2つの病気と2つの 症状、1つの環境変数を考える (1)インフルエンザである/ない (2)花粉症である/ない (3)充血がある/ない (4)筋肉痛がある/ない (5)季節がいつであるか(春/夏/秋/冬) Q:この確率空間はどの程度広い? A:2×2×2×2×4=64通り Probabilistic Graphical Models 輪読会 #1 17
  18. 確率的グラフィカルモデル(1.2.1) • 先の医療診断の例では64通りの値をとりうることが わかったが、それはしばしば骨が折れる種類数であ る • 一般的な医療診断では数百もの疾患・症状を扱うた め、プログラムはすぐさま計算量爆発を起こし扱え なくなってしまう(e.g. 2100 通り) →もっとコンパクトに分布を表現したい • 確率的グラフィカルモデルはグラフ構造を基本とし て、高次元空間の複雑な分布をコンパクトに表現で きる Probabilistic Graphical Models 輪読会 #1 18
  19. 例1.1再訪 • 右下図のようなグラフ構造を仮定: • 例えば、現在の季節が直接充血や筋肉痛と結びつか なくなっている(因果関係の導入) • このグラフには双対(裏返し)な2つの視点がある: (1)グラフは独立性の集合を現している (2)グラフは高次元分布に構造を与え、いくつかの因 子(factor)に分解する グラフを与えたことで、 64通り→18通り (冗長でなくなった!) Probabilistic Graphical Models 輪読会 #1 19
  20. GMの等価な表現 Probabilistic Graphical Models 輪読会 #1 20 グラフによる表現 (graph representation) 𝐹 ⊥ 𝐻 𝑆) 𝐴 ⊥ 𝐶 𝐵, 𝐷) (条件付き)独立性 (independencies) 𝑃 𝐹, 𝑆 = 𝑃 𝑆 𝑃(𝐹|𝑆) 𝑃 𝐴, 𝐵, 𝐶 = 1 𝑍 𝜙1 𝐴, 𝐵 𝜙2 𝐶, 𝐷 因子分解 (factorization)
  21. 表現、推論、学習(1.2.2) GMの三大要素:表現、推論、学習 (1) 表現:結合分布𝑝(𝑥1, … , 𝑥 𝑁)がどのような構造によって 表現されるか →グラフ表現は(そのサイズにかかわらず)明瞭かつ取扱い が容易 (2) 推論:観測が与えられた際の事後確率𝑝(𝑋|𝐷)の確率を 効率よく計算する (3) 学習:専門家の知識またはデータ自身から、ふさわし い予測をするためのパラメタを学習する →PGMはデータ駆動(data-driven)な学習を可能にする Probabilistic Graphical Models 輪読会 #1 21
  22. GMで知的なシステムを作る • 表現、推論、学習は知的なシステムを作るうえ で不可欠な要素である。なぜなら: (1) 私たちは、自らの世界を記述する宣言的記述を表 現・用意する必要がある (2) 私たちはこの表現を様々な質問に答えられるよう 利用できるようにしなくてはならない (3) 専門家の知識と蓄積されたデータを利用して、適 切な分布を獲得しなければならない GMは小さいながらこれら3つの能力を全て兼ね備 えた理想的なモデルの1つなのだ! Probabilistic Graphical Models 輪読会 #1 22
  23. 視覚的表現としてのGM Probabilistic Graphical Models 輪読会 #1 23 GMは数式を読み替えた視覚的表現であり、実はGMを 用いずとも議論を進めることはできる! • (一般化された)機械学習における「学習」: 変数𝑥1, … , 𝑥 𝑛とラベル𝑦があるとき、 𝑝(𝑦, 𝑥1, 𝑥2, … , 𝑥 𝑛, )をデータ𝑋 1 , 𝑋 2 , … , 𝑋 𝑁 から推定す る • 機械学習における「予測」または「推論」 𝑦∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑦 𝑝 𝑦 𝑥1 ∗ , 𝑥2 ∗ , … , 𝑥 𝑛 ∗ ) ただ、数式だけで進めるのはしんどい→表現方法とし てのGM
  24. 本書の概観(1.3.1) • Part I: 表現(Representation) 3, 4章:GMの基本形、5, 6, 7章:その拡張 後半は特に実世界データに頻出する構造を扱う • Part II: 推論(Inference) 9, 10章:厳密推論、11・12章:近似推論 • Part III:学習(Learning) 16、17章:GMの学習の基本 18章:BNの構造学習 19、20章:より難しいGMの学習 • Part IV:行動と決定(Actions and decisions) 21、22、23章:意思決定のためのGM Probabilistic Graphical Models 輪読会 #1 24
  25. ロードマップ(1.3.2) Probabilistic Graphical Models 輪読会 #1 25
  26. 他の分野との関係(1.3.3) • GMは、多数の分野からの知見を輸入しつつ今日 まで発展してきている 例1:初期のベイジアンネットワークの研究は、家 族間の遺伝子の継承というごく狭い領域の研究か ら生起した 例2:無向グラフィカルモデルは、物理学における 電子の系のモデリングとして定式化された 例3:GMの主要なアルゴリズムである確率伝搬法 と、確率的な符号の一種であるLDPC符号のアルゴ リズムの等価性が指摘された Probabilistic Graphical Models 輪読会 #1 26
  27. GMの大家:Judea Pearl • Judea Pearl(1936-) • 計算機科学者・哲学者 • 2012年チューリング賞受賞 • 人工知能および因果的推論 への確率的な手法を大きく 発展させ、確率的手法の今 日の地位を築き上げた研究 者の1人 特にGMにおいては、歴史的背 景の理解も重要となる Probabilistic Graphical Models 輪読会 #1 27
  28. 第2章 Foundations Probabilistic Graphical Models 輪読会 #1 28
  29. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 29
  30. 確率論(2.1) • この本は、最初から最後まで確率分布を使います • 確率論の復習をしましょう • 定義/命題等は教科書に従います Probabilistic Graphical Models 輪読会 #1 30
  31. 事象空間(2.1.1.1) • 確率を扱うためには、何に確率を割り当てるのかを 定める必要がある • そこで、可能な結果(possible outcome)の空間 (space)を仮定し、それをΩと書く →例えばサイコロの出目ならΩ = 1, 2, 3, 4, 5, 6 Probabilistic Graphical Models 輪読会 #1 31
  32. 事象空間(2.1.1.1) • さらに、可測な事象(measurable events)𝑆を用意 し、そこに確率を割り当てる • そのうえで、事象𝛼 ∈ 𝑆(event)を考える。例えば、 事象{6}はサイコロの目が6を指す と考えることができる • 事象は次の3条件を満たす: (1) 空事象𝜙及び自明な(trivial)事象Ωが存在 (2) 和事象に関して閉じている(𝛼, 𝛽 ∈ 𝑆 ⇒ 𝛼 ∪ 𝛽 ∈ 𝑆) (3) 補集合に関して閉じている(𝛼 ∈ 𝑆 ⇒ Ω − 𝛼 ∈ 𝑆) Probabilistic Graphical Models 輪読会 #1 32 事象空間Ω {1, 2, 3} 可測な事象𝑆 {𝜙, 1 , 2 , 3 , 1,2 , 1,3 , 2,3 , Ω}
  33. 確率分布(2.1.1.2) 定義2.1(確率分布) (Ω, 𝑆)上の確率分布𝑃とは、以下の条件を満たす𝛼 ∈ 𝑆 からℝへの写像である: • 𝑃 𝛼 ≥ 0 𝑓𝑜𝑟 𝑎𝑙𝑙 𝛼 ∈ 𝑆. • 𝑃 Ω = 1. • 𝐼𝑓 𝛼, 𝛽 𝑎𝑛𝑑 𝛼 ∩ 𝛽 = ∅, 𝑡ℎ𝑒𝑛 𝑃 𝛼 ∪ 𝛽 = 𝑃 𝛼 + 𝑃 𝛽 . 3番目の条件は、背反な事象の和集合の確率はそれぞ れの確率の和であることを示している Probabilistic Graphical Models 輪読会 #1 33
  34. 確率の解釈(2.1.1.3) • 確率分布の議論を進める前に、(直感的に)確率に何 を割り当てるべきなのか、考えよう 歴史的に、確率の解釈には2つのパラダイムがある: (1) 頻度主義(frequentist interpretation) (2) 主観的確率(subjective interpretation) Probabilistic Graphical Models 輪読会 #1 34
  35. 頻度主義(frequentist) • 確率とは:事象の起こる回数(頻度) • 例えば、サイコロを振る例を考えて、 𝑃 1, 3, 5 = 0.3 ならば、サイコロを繰り返し振り続けた結果、私 たちが1, 3, 5の目を出した頻度の極限が0.3で あったということになる(無限回の試行を仮定) サイコロの目やコイン投げなら良いが… →明日雨が降る確率は?(明日は1度しか来ない!) Probabilistic Graphical Models 輪読会 #1 35
  36. 主観的確率 • 繰り返し試行できない事象は、頻度主義のパラダイ ムでは説明できなかった • そこで主観的確率では、確率を 信念(belief)の主観的度合い として取り扱う • ゆえに、”明日雨が50%の確率で降る”とは、この発 言者の不確定性に対する主観的な判断を表し、これ は周辺情報の観測によって更新される • では、なぜ人の信念と確率が結びつくのか? →著者曰く:合理的な行動は確率論に従うから Probabilistic Graphical Models 輪読会 #1 36
  37. 条件付き確率(2.1.2.1) • 例:ある生徒の集合と、彼(彼女)らがgrade A をとったという事象𝛼が与えられたときに、彼ら が真に知性を持ちうるという事象𝛽に関する信念 はどう変化するか? →一見、𝑃(𝛼 ∩ 𝛽)をとれば良い様に思うが、これ では信念の”変化“を測定できない 条件付き確率:𝑃 𝛽 𝛼 = P 𝛼∩𝛽 𝑃 𝛼 (2.1) ※𝑃 𝛼 = 0の場合条件付き確率は定義されない Probabilistic Graphical Models 輪読会 #1 37
  38. 連鎖規則(chain rule) • 条件付き分布の定義から、次の式を見出す: 𝑃 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽 𝛼 2.2 • これを一般の事象𝛼1, … , 𝛼 𝑘に適用すると、 𝑃 𝛼1 ∩ ⋯ ∩ 𝛼 𝑘 = 𝑃 𝛼1 𝑃 𝛼2 𝛼1 … 𝑃 𝛼 𝑘 𝛼1 ∩ ⋯ ∩ 𝛼 𝑘−1 . (2.3) これは、あらゆる結合分布(後述)および変数の順 序に成り立つ普遍の性質である(有向GMの分解と 混同しないこと) Probabilistic Graphical Models 輪読会 #1 38
  39. ベイズの規則(Bayes rule) • 条件付き確率からベイズの規則も導出できる: 𝑃 𝛼 𝛽 = 𝑃 𝛽 𝛼 𝑃 𝛼 𝑃 𝛽 (2.4) • 一般の場合のベイズの規則は背景事象𝛾を用いて、 𝑃 𝛼 𝛽 ∩ 𝛾 = 𝑃 𝛽 𝛼 ∩ 𝛾 𝑃 𝛼|𝛾 𝑃 𝛽|𝛾 と書ける Probabilistic Graphical Models 輪読会 #1 39
  40. 例2.1,2.2 • 2.1(生徒の成績) • 2.2(結核のTBテスト) (その場で計算) Probabilistic Graphical Models 輪読会 #1 40
  41. 確率変数と結合確率(2.1.3) • ここまで、確率分布を事象と結びつけて話して きた →e.g. “サイコロで5が出る” • しかし、私たちは事象のほかに、属性 (attribute)をの確率を考えたい場合がある →e.g. “55歳以上” “喫煙歴がある/ない” • 事象ベースで議論を進めることはできるが、数 学的に明確な定義で今後の話を進めたい →確率変数(random variable)の導入 Probabilistic Graphical Models 輪読会 #1 41
  42. 確率変数とは何か?(2.1.3.2) • 確率変数とは、各事象𝛼 ∈ Ωからℝへの写像 • 例えば、”生徒のgrade=A”という事象は 𝜔 ∈ Ω ∶ 𝑓𝑔𝑟𝑎𝑑𝑒 𝜔 = 𝐴 とかける (注)実際にはA=0, B=1, …などの値が割り当てられる • 確率変数は、通常離散変数または連続変数を取 りうる • 𝑉𝑎𝑙(𝑋):確率変数𝑋が取りうる値の集合 Probabilistic Graphical Models 輪読会 #1 42
  43. 確率変数の割り当てと略記 • 確率変数の集合として𝑿, 𝒀, 𝒁(太字)、各変数への具 体的な値の割り当てを𝒙, 𝒚, 𝒛とする • 𝒙 ∈ 𝑿, 𝒀 ⊆ 𝑿に関して、𝒙 𝒀 をYに対する𝒙の割り当 てと表すことにする • 𝒙 ~ 𝒚 ≝ 𝒙 𝑿 ∩ 𝒀 = 𝒚 𝑿 ∩ 𝒀 →例えば、𝒙 = {𝑥1 = 2, 𝑥2 = 3, 𝑥3 = 4} のうちの一部の 割り当てのみを使いたい時に用いる • いちいち𝑃( 𝑋 = 𝑥 ∩ 𝑌 = 𝑦 )などと書くのは面倒な ので、これを略記して𝑃(𝑥, 𝑦)などと表す Probabilistic Graphical Models 輪読会 #1 43
  44. 周辺分布(2.1.3.3) • 確率変数𝑋に関する分布𝑃(𝑋)を𝑋上の周辺分布 (marginal distribution)と呼ぶ • これは、確率の定義2.1に従い、唯一の違いは可 測な事象𝑆が確率変数𝑋に置き換えられたことで ある e.g. 𝑃 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = ℎ𝑖𝑔ℎ = 0.3, P 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = 𝑙𝑜𝑤 = 0.7. Probabilistic Graphical Models 輪読会 #1 44
  45. 結合分布(2.1.3.3) • 1つの確率変数𝑋だけではなく、複数の確率変数 𝜒 = { 𝑋1, … , 𝑋 𝑁 }上の結合分布(joint distribution) を考えたい →𝑃(𝑋1, … , 𝑋 𝑁)と表記し、複数の事象が同時に生起 する確率を割り当てる • 結合分布は、周辺分布との整合性を取る必要があ る 𝑃 𝑥 = 𝑃(𝑥, 𝑦) 𝑦 Probabilistic Graphical Models 輪読会 #1 45
  46. 条件付き確率再訪(2.1.3.4) • 事象ではなく確率変数を用いて条件付き確率を 書き直すと、 𝑃 𝑋 𝑌 = 𝑃 𝑋, 𝑌 𝑃 𝑌 . 𝑃 𝑋1, … , 𝑋 𝑘 = 𝑃 𝑋1 𝑃 𝑋2 𝑋1) … 𝑃 𝑋 𝑘 𝑋1, … , 𝑋 𝑘−1 . 𝑃 𝑋 𝑌 = 𝑃 𝑋 𝑃 𝑌 𝑋 𝑃 𝑌 . Probabilistic Graphical Models 輪読会 #1 46
  47. 独立性(2.1.4.1) • 通常、私たちは𝑃(𝛼|𝛽)と𝑃(𝛼)は何らかの点で異 なると考えたくなる • しかし、ある状況ではこの2つが一致する、即ち 𝛽を学ぶことが𝛼の確率に関して何ら影響を与え ない場合がある 定義2.2(独立な事象, independent events) 𝑃 𝛼 𝛽 = 𝑃(𝛼)または𝑃 𝛽 = 0が成り立つとき、事 象𝛼と事象𝛽が独立であると言い、𝑃 ⊨ (𝛼 ⊥ 𝛽)と書 き表す Probabilistic Graphical Models 輪読会 #1 47
  48. 独立性(2.1.4.1) • 独立性は、別の定義によっても与えられる: 命題2.1(独立性の別定義) 分布𝑃が(𝛼 ⊥ 𝛽)を満たす⇔ P 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽 証明: 連鎖規則を用いる Probabilistic Graphical Models 輪読会 #1 48
  49. 条件付き独立(CI)(2.1.4.2) • 独立性は、しばしば追加の事象が与えられたと きに初めて発現する →例:MIT is CI of Stanford given GradeA. 定義2.3(条件付き独立, conditional independence) 𝑃 𝛼 𝛽 ∩ 𝛾 = 𝑃 𝛼 𝛾 または𝑃 𝛽 ∩ 𝛾 = 0のとき、 分布𝑃上で事象𝛼と𝛽は𝛾が与えられた際に条件付き 独立であるといい、 𝑃 ⊨ (𝛼 ⊥ 𝛽|𝛾)と書き表す 以下、本スライドでは条件付き独立をCIと記す Probabilistic Graphical Models 輪読会 #1 49
  50. 条件付き独立(CI)(2.1.4.2) • 条件付き独立もまた、別の方法で定義可能: 命題2.2 分布𝑃が 𝛼 ⊥ 𝛽 𝛾 を満たす ⇔ P 𝛼 ∩ 𝛽|𝛾 = 𝑃 𝛼|𝛾 𝑃 𝛽|𝛾 証明: 命題2.1と同様 Probabilistic Graphical Models 輪読会 #1 50
  51. 複数の確率変数の独立性(2.1.4.3) 定義2.4 𝑿, 𝒀, 𝒁をそれぞれ確率変数の集合とする。もし𝑃があ らゆる𝒙 ∈ 𝑉𝑎𝑙 𝑿 , 𝒚 ∈ 𝑉𝑎𝑙 𝒀 , 𝒛 ∈ 𝑉𝑎𝑙(𝒁)において 𝑿 = 𝒙 ⊥ 𝒀 = 𝒚 𝒁 = 𝒛)を満たすならば、𝒁が与えら れた下で𝑿と𝒀が独立であるという。𝒁はしばしば”観 測された”と呼ばれる。𝒁が空であるとき、 𝑿 ⊥ 𝒀 ∅)を(𝑿 ⊥ 𝒀)と記述し、𝑿と𝒀は周辺的に独 立であるという。 命題2.3 分布𝑃が 𝑿 ⊥ 𝒀 𝒁)を満たす ⇔𝑃 𝑿, 𝒀 𝒁) = 𝑃 𝑿 𝒁 𝑃 𝒀 𝒁 Probabilistic Graphical Models 輪読会 #1 51
  52. CIの性質(2.1.4.3) • 対称性(Symmetry) 𝑿 ⊥ 𝒀 𝒁) ⇒ 𝒀 ⊥ 𝑿 𝒁). • 分解性(Decomposition) 𝑿 ⊥ 𝒀 𝑾, 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁). • 弱結合性(Weak union) 𝑿 ⊥ 𝒀, 𝑾 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁, 𝑾). • 縮約性(Contraction) 𝑿 ⊥ 𝑾 𝒁, 𝒀)& 𝑿 ⊥ 𝒀 𝒁) ⇒ 𝑿 ⊥ 𝒀, 𝑾 𝒁). Probabilistic Graphical Models 輪読会 #1 52
  53. 正値確率分布 定義2.5(正値確率分布) Pが正値であるとは、𝛼 ≠ ∅である全ての事象𝛼 ∈ 𝑆 において𝑃(𝛼) > 0であることである 正値確率分布に対しては、以下の性質が成り立つ • 交差性(Intersection) 𝑿 ⊥ 𝒀 𝒁, 𝑾)& 𝑿 ⊥ 𝑾 𝒁, 𝒀) ⇒ 𝑿 ⊥ 𝒀, 𝑾 𝒁). 証明:乗法定理と加法定理を繰り返し適用する Probabilistic Graphical Models 輪読会 #1 53
  54. クエリ(2.1.5) • 私たちの目標は、ある変数の集合が観測された ときに、注目するクエリ(query of interest)の 確率を評価することである • 本書では、2種類のクエリを紹介する (1)確率クエリ(Probability Queries) (2)MAPクエリ(MAP Queries) Probabilistic Graphical Models 輪読会 #1 54
  55. 確率クエリ(2.1.5.1) 確率クエリは2つのパーツから構成される: (1)エビデンス:確率変数群の部分集合𝐸と、実際 の割り当て値𝑒 (2)クエリ変数:ネットワーク中の確率変数群の部 分集合𝑌 私たちが考えたいのは、エビデンス𝑒 ∈ 𝐸で条件付 けられたときの𝑦 ∈ 𝑌に関する事後確率(posterior probability)である。 Probabilistic Graphical Models 輪読会 #1 55
  56. MAPクエリ(2.1.5.2) MAP=Maximum A Posteriori (最大事後確率) • 続いて考えたいのは、ある確率変数の部分集合 に対して、最大の事後確率を得る割り当てを見 つけることである • よりフォーマルに言えば、𝑾 = 𝜒 − 𝑬であると き、エビデンス𝐸 = 𝑒が与えられた状況で最大確 率をとる𝑤 ∈ 𝑊を見つけることである 𝑀𝐴𝑃 𝑾 𝐞 = argmaxwP(𝐰, 𝐞) Probabilistic Graphical Models 輪読会 #1 56
  57. MAP割り当て • 1変数へのMAP割り当ては簡単で、𝑃(𝐴|𝑒)を最 大化するような割り当て𝑎を選択すればよい • しかし、複数の確率変数のMAP割り当ては、 各個の変数を個別に最大化する割り当てでは結合 確率の大域的な最大化は達成できない ため、事後確率の同時最大化を要求する一般の MAP割り当ては本質的な難しさを抱えている Probabilistic Graphical Models 輪読会 #1 57
  58. 例2.4(MAP割り当て) 𝑎0 𝑎1 0.4 0.6 Probabilistic Graphical Models 輪読会 #1 58 𝐴 𝑏0 𝑏1 𝑎0 0.1 0.9 𝑎1 0.5 0.5 𝑀𝐴𝑃 𝐴 = 𝑎1 𝑀𝐴𝑃 𝐴, 𝐵 = (𝑎0 , 𝑏1 ) ∵ 𝑃 𝑎0 , 𝑏1 = 0.4 ∗ 0.9 = 0.36 𝑃 𝑎1, 𝑏∗ = 0.6 ∗ 0.5 = 0.3
  59. 周辺化MAPクエリ(2.1.5.3) • 医療診断においては、最終的に推定したいの は ”ある病気である確率”のみで、その過程の症 状の推定は重要ではない • 未観測だが重要でない確率変数は全ての組み合 わせについて和を取って周辺化(marginalize)す る MAP 𝐘 𝐞) = argmaxyP 𝐲 𝐞). 𝒁 = 𝝌 − 𝒀 − 𝑬としたときの周辺化MAPは、 MAP 𝐘 𝐞 ) = argmaxY P 𝐘, 𝐙 𝐞). z と表せる Probabilistic Graphical Models 輪読会 #1 59
  60. 連続値空間(2.1.6) • ここまでの議論は全て確率変数が離散値、すなわ ち有限の数の集合をとる場合であった、連続値の 場合はどうか? • 例えば、Val X = 0, 1 とした場合、 𝑃 𝑋 = 0 = 0. となる、どうする?→確率密度関数(PDF)を用いる 𝑝 𝑥 𝑑𝑥 = 1. 𝑉𝑎𝑙(𝑋) 𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝑝 𝑥 𝑑𝑥. 𝑏 𝑎 Probabilistic Graphical Models 輪読会 #1 60
  61. 一様/ガウス分布 定義2.6(一様分布) [𝑎, 𝑏]における一様分布𝑋 ~ 𝑈𝑛𝑖𝑓[𝑎, 𝑏]のPDFは、 𝑝 𝑥 = 1 𝑏 − 𝑎 𝑏 ≥ 𝑥 ≥ 𝑎 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒. 定義2.7(ガウス分布) 平均𝜇、分散𝜎2のガウス分布𝑋 ~ 𝑁(𝜇 ; 𝜎2)は、 𝑝 𝑥 = 1 2𝜋𝜎 𝑒 − 𝑥−𝜇 2 2𝜎2 標準ガウス分布は平均0、分散1を持つ Probabilistic Graphical Models 輪読会 #1 61
  62. 結合密度関数(2.1.6.2) 定義2.8(結合密度関数) 連続確率変数𝑋1, … , 𝑋 𝑛を考える。関数𝑝(𝑥1, … , 𝑥 𝑛) が次の条件を満たすとき、𝑃を𝑋1, … , 𝑋 𝑛の結合密度 分布であると呼ぶ: ・あらゆる𝑋1, . . , 𝑋 𝑛中の𝑥1, … , 𝑥 𝑛に対して𝑝 𝑥1, … , 𝑥 𝑛 ≥ 0 ・pは積分可能な関数 ・あらゆる𝑎1, … , 𝑎 𝑛, 𝑏1, … , 𝑏 𝑛に対して 𝑃 𝑎1 ≤ 𝑋1 ≤ 𝑏1, … , 𝑎 𝑛 ≤ 𝑋 𝑛 ≤ 𝑏 𝑛 = … 𝑝 𝑥1, … , 𝑥 𝑛 𝑑𝑥1 … 𝑑𝑥 𝑛. 𝑏 𝑛 𝑎 𝑛 𝑏1 𝑎1 Probabilistic Graphical Models 輪読会 #1 62
  63. 条件付き密度関数(2.1.6.3) • 条件付き確率を連続値に拡張する場合も、 𝑃 𝑋 = 𝑥 = 0の問題が出現する • そこで、𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖という微小区間を考 え(これで確率が正の値をとる)、その極限を 取ってみる Q:lim 𝜖→0 𝑃 𝑌 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖) の極限は存在するか? Probabilistic Graphical Models 輪読会 #1 63 http://mathematica.stackexchange.com/questions/27083/visualization-of-bivariate-distributions を改変
  64. 条件付き密度関数の導出 A:存在する 𝑃 𝑎 ≤ 𝑌 ≤ 𝐵 | 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖 = 𝑃 𝑎 ≤ 𝑌 ≤ 𝐵, 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖 𝑃(𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖) = 𝑝 𝑥′ , 𝑦 𝑑𝑦𝑑𝑥′𝑥+𝜖 𝑥−𝜖 𝑏 𝑎 𝑝 𝑥′, 𝑦 𝑑𝑥′𝑥+𝜖 𝑥−𝜖 . ここで、 𝑝 𝑥′ 𝑑𝑥′ ≈ 2𝜖𝑝(𝑥) 𝑥+𝜖 𝑥−𝜖 と近似できることから (左辺) ≈ 2𝜖𝑝 𝑥,𝑦 𝑑𝑦 𝑏 𝑎 2𝜖𝑝 𝑥 = 𝑝 𝑥,𝑦 𝑝(𝑥) 𝑑𝑦. 𝑏 𝑎 Probabilistic Graphical Models 輪読会 #1 64
  65. 条件付き密度関数/CI 定義2.9(条件付き密度関数) 𝑝 𝑥, 𝑦 を𝑋, 𝑌の結合密度であるとすると、𝑋が与えられたと きの𝑌の条件付き密度関数は 𝑝 𝑦 𝑥) = 𝑝 𝑥, 𝑦 𝑝(𝑥) . ただし𝑝 𝑥 = 0のときは未定義。 定義2.10(CI) 連続確率変数の集合𝑿, 𝒀, 𝒁および結合密度𝑃(𝑿, 𝒀, 𝒁)がある とき、以下が成り立てば、 𝑝 𝒙 𝒛) = 𝑝 𝒙, 𝒚 𝒛) 𝑓𝑜𝑟 𝑎𝑙𝑙 𝒙, 𝒚, 𝒛 𝑠. 𝑡. 𝑝 𝒛 > 0. 𝑿は𝒁が与えられたときに𝒀と条件付き独立であるという Probabilistic Graphical Models 輪読会 #1 65
  66. 期待値(2.1.7.1) • 離散確率変数に対する期待値 𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑃 𝑥 . 𝑥 • 連続確率変数に対する期待値 𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑝 𝑥 𝑑𝑥. • しばしば、次の関数が用いられる: 𝐼 𝑋 = 𝑥 = 1 𝑖𝑓 𝑋 = 𝑥 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒. (指示関数) Probabilistic Graphical Models 輪読会 #1 66
  67. 期待値の性質 命題2.4(期待値の線形性) 𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸 𝑌 . これは、変数が独立でない場合も成り立つ。 命題2.5(期待値の独立性) もし確率変数𝑋と𝑌が独立ならば、 𝐸 𝑋 ∙ 𝑌 = 𝐸 𝑋 ∙ 𝐸 𝑌 . また、𝒚が与えられたときの𝑋の条件付き期待値は 𝐸 𝑃 𝑋 𝑦] = 𝑥 ∙ 𝑃 𝑥 𝒚). 𝑥Probabilistic Graphical Models 輪読会 #1 67
  68. 分散(2.1.7.2) 分散:確率変数𝑋が平均からどれだけばらけているか 𝑉𝑎𝑟𝑃 𝑋 = 𝐸 𝑃 𝑋 − 𝐸 𝑃 𝑋 2 . これを展開すると 𝑉𝑎𝑟 𝑋 = 𝐸 𝑋2 − 𝐸 𝑋 2 . 命題2.6(分散と独立性) もし𝑋と𝑌が独立であるならば、 𝑉𝑎𝑟 𝑋 + 𝑌 = 𝑉𝑎𝑟 𝑋 + 𝑉𝑎𝑟 𝑌 . 期待値の性質から、次が容易に導かれる: 𝑉𝑎𝑟 𝑎 ∙ 𝑋 + 𝑏 = 𝑎2 𝑉𝑎𝑟 𝑋 . Probabilistic Graphical Models 輪読会 #1 68
  69. 標準偏差 また、標準偏差を次のように定義する: 𝜎 𝑋 = 𝑉𝑎𝑟 𝑋 . 標準偏差は、𝑋の値の”距離”を測るための1つの目 安として使用される 命題2.7(ガウス分布の性質) 𝑋をガウス分布𝑁(𝜇, 𝜎2 )に従う確率変数とすると、 𝐸 𝑋 = 𝜇かつ𝑉𝑎𝑟 𝑋 = 𝜎2である。 Probabilistic Graphical Models 輪読会 #1 69
  70. Chebyshevの不等式 定理2.1(Chebyshevの不等式) 確率変数𝑋、実数値𝑡が与えられたとき 𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑡 ≤ 𝑉𝑎𝑟𝑃 𝑋 𝑡2 𝑜𝑟 𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑘𝜎 𝑋 ≤ 1 𝑘2 証明: 𝑋 − 𝐸 𝑃 𝑋 ≤ 𝑡であることを用いる。 これは、平均及び分散を持つあらゆる確率分布に 成り立つ Probabilistic Graphical Models 輪読会 #1 70
  71. グラフ理論(2.2) • 本書は、グラフ構造に確率分布の表現を導入す る • グラフ理論の基本概念をここで押さえましょう Probabilistic Graphical Models 輪読会 #1 71
  72. ノードと辺(2.2.1) • グラフ 𝐾 = (X, Ε) • ノード 𝑋 = {𝑋1, … , 𝑋 𝑛} • 有向辺 𝑋𝑖 → 𝑋𝑗 • 無向辺 𝑋𝑖 − 𝑋𝑗 • 何らかの辺(≠双方向) 𝑋𝑖 ↔ 𝑋𝑗 本書では、一度に2つ以上の種類のエッジが接続す ることを想定しない 有向辺のみで構成される有向グラフを𝐺, 無向辺のみで構成される無向グラフを𝐻とする Probabilistic Graphical Models 輪読会 #1 72 𝑋1 𝑋2 𝑋3 𝑋2 − 𝑋3 𝑋1 → 𝑋2 𝐾
  73. 無向形(undirected version) 定義2.11(グラフの無向形) グラフ𝐾 = (𝑋, 𝐸)が与えられたとき、その無向形 は 𝐻 = 𝑋, 𝐸′ (但し、𝐸′ = 𝑋 − 𝑌 ∶ 𝑋 ↔ 𝑌 ∈ 𝐸 である。 Probabilistic Graphical Models 輪読会 #1 73 𝑋1 𝑋2 𝑋3 𝑋2 − 𝑋3 𝑋1 → 𝑋2 𝐾 𝑋1 𝑋2 𝑋3 𝑋2 − 𝑋3 𝑋1 − 𝑋2 𝐻
  74. 子/親/隣/次数/入次数 • 子(child), 𝐶ℎ 𝑋 • 親(parent), 𝑃𝑎 𝑋 • 隣(neighbor), 𝑁𝑏 𝑋 • 次数(degree): あるノードに接続する辺の数 • 入次数(indegree): あるノードに流入する辺の数 Probabilistic Graphical Models 輪読会 #1 74 有向グラフ向け 主に無向グラフ向け 𝑋1 𝑋3 𝑋4 𝑋5 𝑋2親 子 隣
  75. 誘導部分グラフ (induced subgraph) 定義2.12(誘導部分グラフ) 𝐾 = (Χ, Ε)および𝑿 ⊂ Χを考える。誘導部分グラフ K[𝐗]をΕ′ = {∀𝑋 ↔ 𝑌 ∈ Ε ∶ 𝑋, 𝑌 ∈ 𝑿}であるような グラフ(𝑿, Ε)とする。 Probabilistic Graphical Models 輪読会 #1 75 𝐾[𝐶, 𝐷, 𝐼] 要は、ノードの部分集合の 接続を保存したグラフ
  76. 完全部分グラフ (complete subgraph) 定義2.13(完全部分グラフ) 𝑿上の部分グラフを考えたとき、𝑋中の全てのノー ドの組が辺で接続されているとき、𝑋は完全であ るという。𝑋はクリークとも呼ばれる。さらに、 その上位集合𝑌 ⊃ 𝑋がいずれもクリークでないとき 𝑋は極大(maximal)であるという。 Probabilistic Graphical Models 輪読会 #1 76
  77. クリーク(clique) Probabilistic Graphical Models 輪読会 #1 77 クリーク(𝑐𝑙𝑖𝑞𝑢𝑒): ノード同士が全て隣接しているノードの集合 極大クリーク(𝑚𝑎𝑥𝑖𝑚𝑎𝑙 𝑐𝑙𝑖𝑞𝑢𝑒): クリーク性を保持する最大のクリーク 右図において、 {𝑥1, 𝑥2}はクリーク、 {𝑥2, 𝑥3, 𝑥4}は極大クリーク
  78. バウンダリ(Boundary, P149) • ノード𝑋の親(𝑌 → 𝑋が存在)および隣(𝑌 − 𝑋が存 在)の和集合を𝑋のバウンダリと呼び、 𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋と表記する Probabilistic Graphical Models 輪読会 #1 78
  79. Upward Closure 定義2.14(Upward Closure) ノードの部分集合𝑿 ⊂ Χを考える。すべての X ∈ 𝑿に関して𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋 ⊂ 𝑿であるとき、𝑿 ⊂ Χ はKに関して上方向に閉じているという 𝐗を含み、上に閉じている極小の集合𝒀を𝑿の upward closureと呼び、𝐾+[𝑿]と書き表す Probabilistic Graphical Models 輪読会 #1 79 𝐾+[𝐶]
  80. 路とトレイル(2.2.3) 定義2.15(路, path) グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋 𝑘が路であるとは、 各𝑖 = 1, … , 𝑘 − 1に対して𝑋𝑖 → 𝑋𝑖+1または𝑋𝑖 − 𝑋𝑖+1 で あることをいう。1つでも有向辺が含まれていれば、 その路は有向であるという。 定義2.16(トレイル, trail) グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋 𝑘が路であるとは、 各 𝑖 = 1, … , 𝑘 − 1 に対して 𝑋𝑖 ↔ 𝑋𝑖+1 であることをいう。 定義2.17(連結グラフ) 各𝑋𝑖, 𝑋𝑗間にトレイルがあるとき、グラフは連結である。 Probabilistic Graphical Models 輪読会 #1 80
  81. 先祖/子孫 • 先祖(ancestor):𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠 𝑋 • 子孫(descendants):𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 • 非子孫:𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 = Χ − 𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 例: 𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠𝐼 = 𝐴, 𝐵, 𝐶, 𝐷, 𝐸, 𝐻 𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝐷 = {𝐴, 𝐵, 𝐻} Probabilistic Graphical Models 輪読会 #1 81
  82. Topological ordering 定義2.19(Topological ordering) グラフK = (Χ, Ε)を考える。順序つきノード 𝑋1, . . , 𝑋 𝑛がつねに𝑋𝑖 → 𝑋𝑗 ∈ Εならば𝑖 < 𝑗を満たす とき、𝑋1, … , 𝑋 𝑛はtopological orderingであると呼 ぶ。 Probabilistic Graphical Models 輪読会 #1 82 親が子よりも必ず 小さい番号を持つようにする (アルゴリズム:付録A.3.1) トポロジカルソートとも呼ばれる
  83. 閉路(cycle) 定義2.20(閉路, cycle) グラフ𝐾の閉路とは、𝑋1 = 𝑋 𝑘であるような有向路 𝑋1, … , 𝑋 𝑘のことである。閉路を含まないグラフは 非巡回(acyclic)と呼ばれる。 Probabilistic Graphical Models 輪読会 #1 83 𝑋1 𝑋2 𝑋3 𝑋4 閉路(𝑋2, 𝑋3, 𝑋4)
  84. ☆DAG/PDAG • 有向非巡回グラフ(DAG, directed acyclic graph)とは、その名のとおり有向かつ非巡回な グラフである • DAGはベイジアンネットワークの表現の中心を 為すグラフで、本書の大半は非巡回のグラフを 取り扱う • 部分有向非巡回グラフ(PDAG)を有向辺および無 向辺が混在した非巡回グラフとする ※非巡回≠閉トレイルが存在 Probabilistic Graphical Models 輪読会 #1 84
  85. 連鎖成分 定義2.21(連鎖成分, chain component) 𝐾をΧ上のPDAGであるとする。Χの互いに素(disjoint) な分割𝐾1, … , 𝐾𝑙が ・𝐾𝑖の誘導部分グラフが有向辺を含まない ・𝑖 < 𝑗であるあらゆる組𝑋 ∈ 𝐾𝑖, 𝑌 ∈ 𝐾𝑗について、辺が 存在するならば有向辺𝑋𝑖 → 𝑋𝑗 を満たすとき、各𝐾𝑖を連鎖成分と呼ぶ。 Probabilistic Graphical Models 輪読会 #1 85 𝐾1 𝐾2 𝐾3 𝐾4 無向辺の塊をまとめて1つの ノードとみなしてTopological Ordering PDAGはChain Graphとも呼ぶ
  86. ループ(Loop)/polytree 定義2.22(ループ/polytree) 𝐾上のループとは、X1 = Xkであるようなトレイル 𝑋1, … , 𝑋 𝑘のことである。グラフがループを含まな いとき、”個別に連結している”という。 ループのないグラフ上で隣接ノードが1つしかない ノードを葉(leaf)と呼ぶ。 ループのない有向グラフはpolytree、無向グラフ は森(forest)と呼ばれる。それが連結していれば 木(tree)と呼ばれる。 Probabilistic Graphical Models 輪読会 #1 86
  87. 有向グラフにおける森/木 定義2.23(有向グラフにおける森/木) 各ノードがたかだが1つの親を持つ有向グラフを森 と呼ぶ。もし有向森が連結であれば、木と呼ぶ。 ※注意 有向グラフにおいては、木⊆森⊆polytreeである (木・森は複数の親を許さない) ループの存在は、多くの場合計算量を飛躍的に増 大させる Probabilistic Graphical Models 輪読会 #1 87
  88. Chordal(弦) Graph 定義2.24(Chordal graph) ループ𝑋1 − 𝑋2 − ⋯ − 𝑋 𝑘 − 𝑋1を考える。ループを構成 する非連続なノード2つによる辺をループ内の弦 (chord)と呼ぶ。無向グラフ𝐻が𝑘 = 4以上のループお よびその弦を持つとき、𝐻はChordal Graphであると 呼ぶ。 弦の概念は、推論の計算量を 見積もる際に利用される ※この定義は有向グラフにも拡張可(定義2.25) Probabilistic Graphical Models 輪読会 #1 88 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 弦
  89. グラフィカルモデル 概観 (3・4章に入る前の下準備) Probabilistic Graphical Models 輪読会 #1 89
  90. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 90
  91. グラフィカルモデル(GM) の基本原理 Probabilistic Graphical Models 輪読会 #1 91 Michael Jordan (1997)曰く、 複雑なシステムを簡単に扱うための2つの原理: (1)モジュラリティの原理 (2)抽象化の原理 「確率理論はこの2つの原理を深く、興味深い方法 ―因子分解と平均化によって提供している。この2 つのメカニズムを可能な限り活用することが、機 械学習を前進させる方法のように見える。」
  92. Probabilistic Graphical Models 輪読会 #1 92 • 具体的には、次のなじみ深い定理のこと (1)加法定理(変数の消去、周辺化) 𝑝 𝑎 = 𝑝 𝑎, 𝑏 𝑏 (または 𝑝 𝑎, 𝑏 𝑑𝑏) (2) 乗法定理(確率分布の因数分解) 𝑝 𝑎, 𝑏 = 𝑝 𝑏 𝑎 𝑝(𝑎) グラフィカルモデル(GM) の基本原理
  93. グラフィカルモデル(GM)の定義 Probabilistic Graphical Models 輪読会 #1 93 グラフィカルモデルの簡単な定義: • CIの仮定を置くことで、結合分布を表現する方法 • 各ノードが確率変数、辺の欠如がCIの仮定を表す • Graphical Modelsという呼び方は適切ではなく、 意味を正確に表すならば”independence diagrams”(独立ダイヤグラム)の方が良い • エッジが向きを持つか否かで (1) ベイジアンネットワーク(Bayesian Network) (2) 無向グラフィカルモデル(Undirected GM) に分けられる
  94. (1)ベイジアンネットワーク(BN) Probabilistic Graphical Models 輪読会 #1 94 ベイジアンネットワーク(BN)とは、 対応するグラフがDAGであるGM のことを指す(有向閉路が存在しない) (1) Directed Graphical Model (2) Belief networks (3) Causal networks などとも呼ばれるが、因果推論とGM自体は無関係 なので、中立的にはDGMと呼ぶ方が望ましい →本輪読会ではベイジアンネットワーク(BN)とい う呼称を使用する
  95. BNの例:マルコフ連鎖 Probabilistic Graphical Models 輪読会 #1 95 • 連鎖規則とマルコフ性の仮定を組み合わせて、 𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝(𝑥 𝑡|𝑥 𝑡−1) 𝑉 𝑡=1 と書き表すことができる。 • これを(1次の)マルコフ連鎖(markov chain)と呼 ぶ。
  96. BNの例:ALARM Network(1989) Probabilistic Graphical Models 輪読会 #1 96 • Alarm Network[Beinlich+ 89]:37変数と504の パラメタを持つ医者向けの医療診断システム • 計測変数と診断との間の因果関係とその確率表を専 門家の手で定義した確率的エキスパートシステム (probabilistic expert system)として構成された
  97. BNの例:遺伝リンク解析 Probabilistic Graphical Models 輪読会 #1 97 Pedigree graph: 親子の関係(家系)を示すDAG 歴史的に重要なモデル [Friedman+ 00] (1)遺伝子型𝑋𝑖𝑗 (観測済み) (2)父系/母系対立遺伝子𝐺𝑖𝑗 𝑚 , 𝐺𝑖𝑗 𝑝 (未知) (3)父母の選択変数 𝑍𝑖𝑗 𝑚 , 𝑍𝑖𝑗 𝑝 (未知) の3つの構成要素を結んだBNとして構成し、何ら かの疾患をもたらす遺伝子の遺伝経路を明らかに するためにBNによる推論を行う
  98. BNの例:遺伝リンク解析 Probabilistic Graphical Models 輪読会 #1 98 𝑋𝑖𝑗 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑧𝑖𝑗 𝑚 𝑧𝑖𝑗 𝑝 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑋𝑖𝑗 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑧𝑖𝑗 𝑚 𝑧𝑖𝑗 𝑝 𝑋𝑖𝑗 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑧𝑖𝑗+1 𝑚 𝑧𝑖𝑗+1 𝑝 選択変数𝑧は隣接箇所とリンク Locus 𝑗 + 1Locus 𝑗  観測されてい るのは𝑋𝑖𝑗のみ  𝑧𝑖𝑗 𝑝/𝑚 は母系と 父系どちらか ら遺伝したか 選択 青の変数を観測した状態での 赤・オレンジの変数を予測
  99. (2) 無向グラフィカルモデル(UGM) 無向グラフィカルモデルとは、 無向辺を用いたGM のことを指す。BNと同様、 (1) Markov Network (2) Markov Random Field(MRF) などの別名がある。本書ではUGMという呼称を中 心に使用する。 Probabilistic Graphical Models 輪読会 #1 99
  100. UGMの例:Izingモデル • 統計物理学に端を欲したMRFの一種 • 格子状にノードが連結され、各ノードは+1(ス ピンが上向き)または-1(スピンが下向き)を持つ • ある格子点上のスピンは隣接する格子点のスピ ンの値によって確率的に決定される 𝑃 𝑥 = 1 𝑍 exp( 𝐽𝑖𝑗 𝑥𝑖 𝑥𝑗 + ℎ𝑖 𝑥𝑖 𝑖 ) 𝑖~𝑗 • 上記の形の分布はGibbs分布と呼ばれる Probabilistic Graphical Models 輪読会 #1 100
  101. 応用例:画像復元 • 2値画像の各ピクセルが格子状につながっている 潜在変数に条件づけられていると仮定して、画 像のノイズ除去を行う Probabilistic Graphical Models 輪読会 #1 101 元画像 10%反転 復元結果 (グラフカット) 𝐸 𝑥, 𝑦 = ℎ 𝑥𝑖 𝑖 − 𝛽 𝑥𝑖 𝑥𝑗 𝑖,𝑗 − 𝜂 𝑥𝑖 𝑦𝑖 𝑖
  102. 問題設定 Probabilistic Graphical Models 輪読会 #1 102 次のような仮定を置いてみよう: 複数の互いに関連を持った変数を観測した (文書、画像、遺伝子etc) Question: (1)結合確率𝑝 𝒙 𝜽 をコンパクトに表現するには? (2)この確率を用いてある変数のセットから別の変数 のそれを現実的な計算量で推論(infer)するには? (3)適度な量のデータがある状態でこの確率のパラメ タを学習するには?
  103. 連鎖規則再訪 Probabilistic Graphical Models 輪読会 #1 103 連鎖規則を用いて、我々はあらゆる結合分布を、 あらゆる変数の順番を以て表現することができる 𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥2, 𝑥1 … 𝑝(𝑥 𝑉|𝒙1:𝑉−1) 𝑉 :変数の個数(1: 𝑉は集合{1,2, … 𝑉}を表す) 定数パラメタ𝜃は簡単のため省略 𝑡が大きくなるにつれ、𝑝(𝑥 𝑡|𝑥1:𝑡−1)の表現が複雑に なる
  104. 結合分布の計算量 Probabilistic Graphical Models 輪読会 #1 104 全ての変数が𝐾状態を持つと仮定すると、 • 𝑝 𝑥1 は𝑂 𝐾 厳密には𝑂 𝐾 − 1 個の表で離散分 布を表現できる 同様に、 • 𝑝(𝑥2|𝑥1)は𝑂 𝐾2 、𝑝(𝑥3|x1, x2)なら𝑂 𝐾3 個のパ ラメタが含まれ、それらを表にしたものを条件 付き確率表(CPT)と呼ぶ • 𝑝 𝒙1:𝑉 のテーブルの大きさは𝑂 𝐾 𝑉 に従い、 学習は現実的ではない
  105. BNの因子分解定理 Probabilistic Graphical Models 輪読会 #1 105 • Topological orderingの仮定を置いたとき、各ノード がその直接の親のみに依存するというordered markov propertyを定義することができる。すなわ ち: 𝑥 𝑠 ⊥ 𝒙 𝑝𝑟𝑒𝑑 𝑠 \p𝑎 𝑠 |𝒙 𝑝𝑎 𝑠 • DAG 𝐺(𝑉, Ε) がBNであるとは、確率分布族𝑿 = 𝑋𝑖 𝑖∈𝑉 と確率分布Pが以下に分解可能なことと同値: 𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋 𝑝𝑎 𝑖 ) 𝑖∈𝑉
  106. BNの因子分解 Probabilistic Graphical Models 輪読会 #1 106 • PRMLの例を拝借(PRML下巻 8.1) • 例えば、右記の結合分布は 𝑝 𝑥1, … , 𝑥7 = p x1 p x2 p x3 p x4 x1, x2, x3 p x5 x1, x3)p x6 x4 p(x7|x4, x5) という条件付き分布(CPD)の積で表 せる 𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋 𝑝𝑎 𝑖 ) 𝑖∈𝑉
  107. BNの計算量 Probabilistic Graphical Models 輪読会 #1 107 • 先述の通り、一般の確率分布のパラメタ数は 𝑂(𝐾 𝑉)であった • DGMの各ノードが𝑂(𝐹)個の親と𝐾状態を持つと き、そのパラメタ数は𝑂(𝑉𝐾 𝐹 )であり、CIの仮定 を置かない一般のそれよりパラメタ数が少ない ことが確認できた →続いて、BNの肝である条件付き独立(CI)とその 性質を見ていこう
  108. BNの肝:条件付き独立性の仮定 Probabilistic Graphical Models 輪読会 #1 108 • あらゆるグラフィカルモデルにおいて、条件付き 独立の仮定(CI assumption)がその根幹を成す • グラフGにおいてCが与えられたとき、AとBが独 立であることを𝒙 𝐴 ⊥ 𝐺 𝒙 𝐵|𝒙 𝐶と書く • CIの仮定はモデル構造の簡略化に役立つが、GM の特異な点は次の点に見出すことができる: CPDの積で表された同時分布を考えたとき、素朴に はその分布で考えられるすべてのCIをチェックする 必要があるが、GMはCIをグラフ自身の見た目から 簡単に読み取ることができる
  109. グラフの見た目とCI Probabilistic Graphical Models 輪読会 #1 109 結合度が高い 結合度が低い CIの仮定が少ない CIの仮定が多い 続いての疑問:BNの確率変数の間には、実際には どのようなCIが成り立つのか?
  110. BNの基本パーツ Probabilistic Graphical Models 輪読会 #1 110 BNには、最もシンプルな形の構造が3種類ある 1. chain(head-to-tail) あるいは indirect causal effect 2. tent(tail-to-tail) あるいは a common cause 3. collider(head-to-head) あるいは a common effect
  111. Chain(head-to-tail) Probabilistic Graphical Models 輪読会 #1 111 𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐 1. 𝑐が未観測⇒𝑝(𝑎, 𝑏, 𝑐)を𝑐に関して周辺化する 2. 𝑐が観測⇒𝑝 𝑎, 𝑏 𝑐)を考える ことで上記の性質を数式で表すことができて、実際に 𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑝 𝑐 𝑎 𝑝(𝑏|𝑐)𝑐 = 𝑝 𝑎 𝑝(𝑏|𝑎)(非独立) 𝑝 𝑎, 𝑏 𝑐) = 𝑝 𝑎, 𝑏, 𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑝 𝑐 𝑎 𝑝 𝑏 𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 (𝑐に関して条件付き独立)
  112. Tent(tail-to-tail) Probabilistic Graphical Models 輪読会 #1 112 𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐 𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 𝑝(𝑐)𝑐 (≠ 𝑝 𝑎 𝑝(𝑏)で非独立) 𝑝 𝑎, 𝑏 𝑐) = 𝑝 𝑎, 𝑏, 𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 (𝑐に関して条件付き独立)
  113. Collider (head-to-head) Probabilistic Graphical Models 輪読会 #1 113 𝑐が観測されないと𝑎と𝑏は「遮断」されているが、 𝑐が観測されると遮断が解かれる(前の2例と逆!) 𝑝 𝑎, 𝑏 = 𝑝(𝑎)𝑝(𝑏)𝑝(𝑐, 𝑎, 𝑏)𝑐 = 𝑝 𝑎 𝑝(𝑏) (独立) 𝑝 𝑎, 𝑏 𝑐) = 𝑝 𝑎,𝑏,𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑝 𝑏 𝑝 𝑐 𝑎,𝑏 𝑝 𝑐 (非独立)
  114. Bayes ballアルゴリズム Probabilistic Graphical Models 輪読会 #1 114 • Bayes ball algorithmは、Eが与えられたときAとB がd-分離(独立している)かどうかを判定するための 簡単な方法である • 観測済み変数𝑒 ∈ 𝐸をグレーに塗ったうえで、各 𝑎 ∈ 𝐴にボールを置き、決められたルールでその ボールがBに到達できるかどうか調べられる
  115. Probabilistic Graphical Models 輪読会 #1 115 下3つは、ボールが「バウンド」する特殊な条件を示す Bayes ballアルゴリズム
  116. 弁明(explaining away) Probabilistic Graphical Models 輪読会 #1 116 • Collider(head-to-head)が与えられたときの非常に 興味深い性質 • AとBの事象が共にCの親であるとき、Cが観測され るとAとBは独立でなくなる • その結果、Cの観測下では、 𝑝 𝑎 𝑐 ≠ 𝑝(𝑎|𝑐, 𝑏) が成り立ち、本来関係ないはずのbの追加観測がaの条 件付き確率を「弁明(explain away)」し影響を与える ≠
  117. 遮断の練習 Q:どのノードを観測すればノード2とノード6が 遮断されるか? A:ノード1, ノード3, ノード5 Probabilistic Graphical Models 輪読会 #1 117
  118. 今日のまとめ • グラフィカルモデル(GM)は、ドメインに依存し ない推論のための一般的かつ強力な手法である • GMは、統計学およびグラフ理論をベースにして いる • ベイジアンネットワーク(BN)は、有向非巡回グ ラフに対するGMである • BNには3つの基本的な構成部品がある • GMによって、条件付き独立性(CI)を視覚的に捉 えることができる Probabilistic Graphical Models 輪読会 #1 118
  119. 参考文献 ◆論文 [Belinich+ 89] Beinlich, I. A., Suermondt, H. J., Chavez, R. M., & Cooper, G. F. (1989). The ALARM monitoring system: A case study with two probabilistic inference techniques for belief networks (pp. 247-256). Springer Berlin Heidelberg. [Friedman+ 00] Friedman, N., Geiger, D., & Lotner, N. (2000, June). Likelihood computations using value abstraction. In Proceedings of the Sixteenth Conference on Uncertainty in Artificial Intelligence (pp. 192-200). Morgan Kaufmann Publishers Inc.. [Taniguchi+ 15] Taniguchi, T., Nakashima, R., & Nagasaka, S. (2015). Nonparametic Bayesian Double Articulation Analyzer for Direct Language Acquisition from Continuous Speech Signals. arXiv preprint arXiv:1506.06646. ◆書籍 D, Koller & N. Friedman, Probabilistic Graphical Models: Principles and Techniques, MIT Press, 2009. K. Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012. C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006 渡辺 有祐. 機械学習プロフェッショナルシリーズ グラフィカルモデル, 講談社, 2016. 宮川 雅巳. 統計的因果推論 –回帰分析の新しい枠組み-, 朝倉書店, 2004. J. Pearl, 黒木 学訳, 統計的因果推論 モデル・推論・推測, 共立出版, 2009. Probabilistic Graphical Models 輪読会 #1 119
Advertisement