Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Probabilistic Graphical Models 輪読会 #1

4,334 views

Published on

グラフィカルモデル輪読会での発表資料です。
http://wbawakate.connpass.com/event/31613/

Published in: Technology
  • Dating direct: ❶❶❶ http://bit.ly/2F7hN3u ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Follow the link, new dating source: ❶❶❶ http://bit.ly/2F7hN3u ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Probabilistic Graphical Models 輪読会 #1

  1. 1. Probabilistic Graphical Models 輪読会 #1 概論 16/05/14 東京工業大学 4年 八木 拓真(@t_Signull) Probabilistic Graphical Models 輪読会 #1 1
  2. 2. 自己紹介 Probabilistic Graphical Models 輪読会 #1 2 八木 拓真 東京工業大学 情報工学科 4年 統計的パターン認識 、動画認識 WBA若手の会 関東支部代表 興味の方向:AGIの工学的実現 去年やった研究: 『人物動作系列からの「動作素」の自動抽出』 @t_Signull
  3. 3. 今回読む本 D.Koller & N. Friedman Probabilistic Graphical Models: Principles and Techniques (2009) • グラフィカルモデルの00年代までの 進展を取り纏めた名著 • Coursera創設者、Daphne Koller先 生らが執筆 • 1200ページという圧巻の分量に加え、 多量のtypoと非直感的な数式が我々 を苦しめる Probabilistic Graphical Models 輪読会 #1 3
  4. 4. グラフィカルモデル Probabilistic Graphical Models 輪読会 #1 4 マルコフ確率場 多項式回帰 HDP-HMM LDA(Latent Dirichlet Allocation) 4
  5. 5. グラフィカルモデル Probabilistic Graphical Models 輪読会 #1 5 ロボットの言語獲得のモデル [Taniguchi+ 15]
  6. 6. グラフィカルモデルでない Probabilistic Graphical Models 輪読会 #1 6 ニューラルネットワーク 決定木 0.8 0.2 0.80.2 状態遷移図
  7. 7. なぜグラフィカルモデル? Probabilistic Graphical Models 輪読会 #1 言語処理 7 統計学 統計分析 符号理論 コンピュータ ビジョン グラフ理論 機械学習 1つの学問分野に囚われない、普遍の理論 統計的因果推論 認知科学 人工知能
  8. 8. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 8
  9. 9. 第1章 Introduction Probabilistic Graphical Models 輪読会 #1 9
  10. 10. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 10
  11. 11. 動機(1.1) • 多くのタスク(作業)は、推論能力を必要とする • 推論(reasoning)とは、(多くの場合限られた)情 報からある結論を導くこと • 例えばロボットは、様々な種類のセンサ情報か ら自らがどの地点にいるのかを把握し、障害物 と衝突しないようにゴールに向かう軌道を考え なければならない →決定的なプログラムで書けなくはないが、しば しば柔軟性・汎用性に欠ける Probabilistic Graphical Models 輪読会 #1 11
  12. 12. 本書のアプローチ • 本書では、問題の解決を知識(の表現)と推論の2 段階に分離→宣言的(declarative)表現の導入 • タスク別に宣言的表現さえ導入すれば、その推論 はドメイン非依存で行えるのではないか →知識と推論の分離 Probabilistic Graphical Models 輪読会 #1 12 宣言的表現 𝑋1 𝑋2 𝑋3 𝑋4 実世界の 問題 共通の推論アルゴリズム
  13. 13. 不確定性(Uncertainty)を扱う • 実世界において不確定性は原則回避できない • 私たちが観察から得る情報はしばしば (1) 不完全で (2) ノイズが混じっていて (3) 情報同士の関係性はさらに不明瞭 である • 不確定性は、私たちが不完全な観察、不完全なモデ ル化しかできないことによって引き起こされる →私たちが結論を下すためには、複数の可能性を考え、 かつその中で最も可能性の高いものを推論する必要が ある Probabilistic Graphical Models 輪読会 #1 13
  14. 14. 確率を使う • 不確定性を扱うにはどうしたらいい? →確率論(probability theory)の利用 • 例外的な事象を、小さい確率を割り当てること で表現できる Probabilistic Graphical Models 輪読会 #1 14 ルール1 ルール2 ルール3 例外? ? ? 事象A 事象B 事象C あまり起き ないこと 例外も他のルールと平等 例外的な事象は重要ではない
  15. 15. 構造化グラフィカルモデル(1.2) ここで、医療診断システムを考えよう: • 病名、症状、患者の状態/特性などの情報には それぞれ確率変数(random variable)が割り当てられ る • 確率変数には、0/1などの離散値あるいは連続値が 格納され、「インフルエンザである/ない」、「体 温が37.5℃である」などの意味を持つ • グラフィカルモデル(GM)を構成するこれらの確率 変数にどのような意味や値を与えるかは、我々の行 いたいタスクによって変化する Probabilistic Graphical Models 輪読会 #1 15
  16. 16. • 私たちの目標:観測情報が与えられた下で、1つ または複数の確率変数について確率的に推論す ること • そのためには、私たちは確率変数の集合Χ(カイ) における全ての可能な割り当てを表す結合分布 (joint probability distribution)を構築する必要 がある • 結合分布を得ることで、ある確率変数𝑋𝑖が𝑥𝑖で あったときの事後分布(posterior distribution) を計算できる Probabilistic Graphical Models 輪読会 #1 16 構造化グラフィカルモデル(1.2)
  17. 17. 例1.1:インフルエンザと花粉症 • 簡単な医療診断の例として、2つの病気と2つの 症状、1つの環境変数を考える (1)インフルエンザである/ない (2)花粉症である/ない (3)充血がある/ない (4)筋肉痛がある/ない (5)季節がいつであるか(春/夏/秋/冬) Q:この確率空間はどの程度広い? A:2×2×2×2×4=64通り Probabilistic Graphical Models 輪読会 #1 17
  18. 18. 確率的グラフィカルモデル(1.2.1) • 先の医療診断の例では64通りの値をとりうることが わかったが、それはしばしば骨が折れる種類数であ る • 一般的な医療診断では数百もの疾患・症状を扱うた め、プログラムはすぐさま計算量爆発を起こし扱え なくなってしまう(e.g. 2100 通り) →もっとコンパクトに分布を表現したい • 確率的グラフィカルモデルはグラフ構造を基本とし て、高次元空間の複雑な分布をコンパクトに表現で きる Probabilistic Graphical Models 輪読会 #1 18
  19. 19. 例1.1再訪 • 右下図のようなグラフ構造を仮定: • 例えば、現在の季節が直接充血や筋肉痛と結びつか なくなっている(因果関係の導入) • このグラフには双対(裏返し)な2つの視点がある: (1)グラフは独立性の集合を現している (2)グラフは高次元分布に構造を与え、いくつかの因 子(factor)に分解する グラフを与えたことで、 64通り→18通り (冗長でなくなった!) Probabilistic Graphical Models 輪読会 #1 19
  20. 20. GMの等価な表現 Probabilistic Graphical Models 輪読会 #1 20 グラフによる表現 (graph representation) 𝐹 ⊥ 𝐻 𝑆) 𝐴 ⊥ 𝐶 𝐵, 𝐷) (条件付き)独立性 (independencies) 𝑃 𝐹, 𝑆 = 𝑃 𝑆 𝑃(𝐹|𝑆) 𝑃 𝐴, 𝐵, 𝐶 = 1 𝑍 𝜙1 𝐴, 𝐵 𝜙2 𝐶, 𝐷 因子分解 (factorization)
  21. 21. 表現、推論、学習(1.2.2) GMの三大要素:表現、推論、学習 (1) 表現:結合分布𝑝(𝑥1, … , 𝑥 𝑁)がどのような構造によって 表現されるか →グラフ表現は(そのサイズにかかわらず)明瞭かつ取扱い が容易 (2) 推論:観測が与えられた際の事後確率𝑝(𝑋|𝐷)の確率を 効率よく計算する (3) 学習:専門家の知識またはデータ自身から、ふさわし い予測をするためのパラメタを学習する →PGMはデータ駆動(data-driven)な学習を可能にする Probabilistic Graphical Models 輪読会 #1 21
  22. 22. GMで知的なシステムを作る • 表現、推論、学習は知的なシステムを作るうえ で不可欠な要素である。なぜなら: (1) 私たちは、自らの世界を記述する宣言的記述を表 現・用意する必要がある (2) 私たちはこの表現を様々な質問に答えられるよう 利用できるようにしなくてはならない (3) 専門家の知識と蓄積されたデータを利用して、適 切な分布を獲得しなければならない GMは小さいながらこれら3つの能力を全て兼ね備 えた理想的なモデルの1つなのだ! Probabilistic Graphical Models 輪読会 #1 22
  23. 23. 視覚的表現としてのGM Probabilistic Graphical Models 輪読会 #1 23 GMは数式を読み替えた視覚的表現であり、実はGMを 用いずとも議論を進めることはできる! • (一般化された)機械学習における「学習」: 変数𝑥1, … , 𝑥 𝑛とラベル𝑦があるとき、 𝑝(𝑦, 𝑥1, 𝑥2, … , 𝑥 𝑛, )をデータ𝑋 1 , 𝑋 2 , … , 𝑋 𝑁 から推定す る • 機械学習における「予測」または「推論」 𝑦∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑦 𝑝 𝑦 𝑥1 ∗ , 𝑥2 ∗ , … , 𝑥 𝑛 ∗ ) ただ、数式だけで進めるのはしんどい→表現方法とし てのGM
  24. 24. 本書の概観(1.3.1) • Part I: 表現(Representation) 3, 4章:GMの基本形、5, 6, 7章:その拡張 後半は特に実世界データに頻出する構造を扱う • Part II: 推論(Inference) 9, 10章:厳密推論、11・12章:近似推論 • Part III:学習(Learning) 16、17章:GMの学習の基本 18章:BNの構造学習 19、20章:より難しいGMの学習 • Part IV:行動と決定(Actions and decisions) 21、22、23章:意思決定のためのGM Probabilistic Graphical Models 輪読会 #1 24
  25. 25. ロードマップ(1.3.2) Probabilistic Graphical Models 輪読会 #1 25
  26. 26. 他の分野との関係(1.3.3) • GMは、多数の分野からの知見を輸入しつつ今日 まで発展してきている 例1:初期のベイジアンネットワークの研究は、家 族間の遺伝子の継承というごく狭い領域の研究か ら生起した 例2:無向グラフィカルモデルは、物理学における 電子の系のモデリングとして定式化された 例3:GMの主要なアルゴリズムである確率伝搬法 と、確率的な符号の一種であるLDPC符号のアルゴ リズムの等価性が指摘された Probabilistic Graphical Models 輪読会 #1 26
  27. 27. GMの大家:Judea Pearl • Judea Pearl(1936-) • 計算機科学者・哲学者 • 2012年チューリング賞受賞 • 人工知能および因果的推論 への確率的な手法を大きく 発展させ、確率的手法の今 日の地位を築き上げた研究 者の1人 特にGMにおいては、歴史的背 景の理解も重要となる Probabilistic Graphical Models 輪読会 #1 27
  28. 28. 第2章 Foundations Probabilistic Graphical Models 輪読会 #1 28
  29. 29. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 29
  30. 30. 確率論(2.1) • この本は、最初から最後まで確率分布を使います • 確率論の復習をしましょう • 定義/命題等は教科書に従います Probabilistic Graphical Models 輪読会 #1 30
  31. 31. 事象空間(2.1.1.1) • 確率を扱うためには、何に確率を割り当てるのかを 定める必要がある • そこで、可能な結果(possible outcome)の空間 (space)を仮定し、それをΩと書く →例えばサイコロの出目ならΩ = 1, 2, 3, 4, 5, 6 Probabilistic Graphical Models 輪読会 #1 31
  32. 32. 事象空間(2.1.1.1) • さらに、可測な事象(measurable events)𝑆を用意 し、そこに確率を割り当てる • そのうえで、事象𝛼 ∈ 𝑆(event)を考える。例えば、 事象{6}はサイコロの目が6を指す と考えることができる • 事象は次の3条件を満たす: (1) 空事象𝜙及び自明な(trivial)事象Ωが存在 (2) 和事象に関して閉じている(𝛼, 𝛽 ∈ 𝑆 ⇒ 𝛼 ∪ 𝛽 ∈ 𝑆) (3) 補集合に関して閉じている(𝛼 ∈ 𝑆 ⇒ Ω − 𝛼 ∈ 𝑆) Probabilistic Graphical Models 輪読会 #1 32 事象空間Ω {1, 2, 3} 可測な事象𝑆 {𝜙, 1 , 2 , 3 , 1,2 , 1,3 , 2,3 , Ω}
  33. 33. 確率分布(2.1.1.2) 定義2.1(確率分布) (Ω, 𝑆)上の確率分布𝑃とは、以下の条件を満たす𝛼 ∈ 𝑆 からℝへの写像である: • 𝑃 𝛼 ≥ 0 𝑓𝑜𝑟 𝑎𝑙𝑙 𝛼 ∈ 𝑆. • 𝑃 Ω = 1. • 𝐼𝑓 𝛼, 𝛽 𝑎𝑛𝑑 𝛼 ∩ 𝛽 = ∅, 𝑡ℎ𝑒𝑛 𝑃 𝛼 ∪ 𝛽 = 𝑃 𝛼 + 𝑃 𝛽 . 3番目の条件は、背反な事象の和集合の確率はそれぞ れの確率の和であることを示している Probabilistic Graphical Models 輪読会 #1 33
  34. 34. 確率の解釈(2.1.1.3) • 確率分布の議論を進める前に、(直感的に)確率に何 を割り当てるべきなのか、考えよう 歴史的に、確率の解釈には2つのパラダイムがある: (1) 頻度主義(frequentist interpretation) (2) 主観的確率(subjective interpretation) Probabilistic Graphical Models 輪読会 #1 34
  35. 35. 頻度主義(frequentist) • 確率とは:事象の起こる回数(頻度) • 例えば、サイコロを振る例を考えて、 𝑃 1, 3, 5 = 0.3 ならば、サイコロを繰り返し振り続けた結果、私 たちが1, 3, 5の目を出した頻度の極限が0.3で あったということになる(無限回の試行を仮定) サイコロの目やコイン投げなら良いが… →明日雨が降る確率は?(明日は1度しか来ない!) Probabilistic Graphical Models 輪読会 #1 35
  36. 36. 主観的確率 • 繰り返し試行できない事象は、頻度主義のパラダイ ムでは説明できなかった • そこで主観的確率では、確率を 信念(belief)の主観的度合い として取り扱う • ゆえに、”明日雨が50%の確率で降る”とは、この発 言者の不確定性に対する主観的な判断を表し、これ は周辺情報の観測によって更新される • では、なぜ人の信念と確率が結びつくのか? →著者曰く:合理的な行動は確率論に従うから Probabilistic Graphical Models 輪読会 #1 36
  37. 37. 条件付き確率(2.1.2.1) • 例:ある生徒の集合と、彼(彼女)らがgrade A をとったという事象𝛼が与えられたときに、彼ら が真に知性を持ちうるという事象𝛽に関する信念 はどう変化するか? →一見、𝑃(𝛼 ∩ 𝛽)をとれば良い様に思うが、これ では信念の”変化“を測定できない 条件付き確率:𝑃 𝛽 𝛼 = P 𝛼∩𝛽 𝑃 𝛼 (2.1) ※𝑃 𝛼 = 0の場合条件付き確率は定義されない Probabilistic Graphical Models 輪読会 #1 37
  38. 38. 連鎖規則(chain rule) • 条件付き分布の定義から、次の式を見出す: 𝑃 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽 𝛼 2.2 • これを一般の事象𝛼1, … , 𝛼 𝑘に適用すると、 𝑃 𝛼1 ∩ ⋯ ∩ 𝛼 𝑘 = 𝑃 𝛼1 𝑃 𝛼2 𝛼1 … 𝑃 𝛼 𝑘 𝛼1 ∩ ⋯ ∩ 𝛼 𝑘−1 . (2.3) これは、あらゆる結合分布(後述)および変数の順 序に成り立つ普遍の性質である(有向GMの分解と 混同しないこと) Probabilistic Graphical Models 輪読会 #1 38
  39. 39. ベイズの規則(Bayes rule) • 条件付き確率からベイズの規則も導出できる: 𝑃 𝛼 𝛽 = 𝑃 𝛽 𝛼 𝑃 𝛼 𝑃 𝛽 (2.4) • 一般の場合のベイズの規則は背景事象𝛾を用いて、 𝑃 𝛼 𝛽 ∩ 𝛾 = 𝑃 𝛽 𝛼 ∩ 𝛾 𝑃 𝛼|𝛾 𝑃 𝛽|𝛾 と書ける Probabilistic Graphical Models 輪読会 #1 39
  40. 40. 例2.1,2.2 • 2.1(生徒の成績) • 2.2(結核のTBテスト) (その場で計算) Probabilistic Graphical Models 輪読会 #1 40
  41. 41. 確率変数と結合確率(2.1.3) • ここまで、確率分布を事象と結びつけて話して きた →e.g. “サイコロで5が出る” • しかし、私たちは事象のほかに、属性 (attribute)をの確率を考えたい場合がある →e.g. “55歳以上” “喫煙歴がある/ない” • 事象ベースで議論を進めることはできるが、数 学的に明確な定義で今後の話を進めたい →確率変数(random variable)の導入 Probabilistic Graphical Models 輪読会 #1 41
  42. 42. 確率変数とは何か?(2.1.3.2) • 確率変数とは、各事象𝛼 ∈ Ωからℝへの写像 • 例えば、”生徒のgrade=A”という事象は 𝜔 ∈ Ω ∶ 𝑓𝑔𝑟𝑎𝑑𝑒 𝜔 = 𝐴 とかける (注)実際にはA=0, B=1, …などの値が割り当てられる • 確率変数は、通常離散変数または連続変数を取 りうる • 𝑉𝑎𝑙(𝑋):確率変数𝑋が取りうる値の集合 Probabilistic Graphical Models 輪読会 #1 42
  43. 43. 確率変数の割り当てと略記 • 確率変数の集合として𝑿, 𝒀, 𝒁(太字)、各変数への具 体的な値の割り当てを𝒙, 𝒚, 𝒛とする • 𝒙 ∈ 𝑿, 𝒀 ⊆ 𝑿に関して、𝒙 𝒀 をYに対する𝒙の割り当 てと表すことにする • 𝒙 ~ 𝒚 ≝ 𝒙 𝑿 ∩ 𝒀 = 𝒚 𝑿 ∩ 𝒀 →例えば、𝒙 = {𝑥1 = 2, 𝑥2 = 3, 𝑥3 = 4} のうちの一部の 割り当てのみを使いたい時に用いる • いちいち𝑃( 𝑋 = 𝑥 ∩ 𝑌 = 𝑦 )などと書くのは面倒な ので、これを略記して𝑃(𝑥, 𝑦)などと表す Probabilistic Graphical Models 輪読会 #1 43
  44. 44. 周辺分布(2.1.3.3) • 確率変数𝑋に関する分布𝑃(𝑋)を𝑋上の周辺分布 (marginal distribution)と呼ぶ • これは、確率の定義2.1に従い、唯一の違いは可 測な事象𝑆が確率変数𝑋に置き換えられたことで ある e.g. 𝑃 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = ℎ𝑖𝑔ℎ = 0.3, P 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = 𝑙𝑜𝑤 = 0.7. Probabilistic Graphical Models 輪読会 #1 44
  45. 45. 結合分布(2.1.3.3) • 1つの確率変数𝑋だけではなく、複数の確率変数 𝜒 = { 𝑋1, … , 𝑋 𝑁 }上の結合分布(joint distribution) を考えたい →𝑃(𝑋1, … , 𝑋 𝑁)と表記し、複数の事象が同時に生起 する確率を割り当てる • 結合分布は、周辺分布との整合性を取る必要があ る 𝑃 𝑥 = 𝑃(𝑥, 𝑦) 𝑦 Probabilistic Graphical Models 輪読会 #1 45
  46. 46. 条件付き確率再訪(2.1.3.4) • 事象ではなく確率変数を用いて条件付き確率を 書き直すと、 𝑃 𝑋 𝑌 = 𝑃 𝑋, 𝑌 𝑃 𝑌 . 𝑃 𝑋1, … , 𝑋 𝑘 = 𝑃 𝑋1 𝑃 𝑋2 𝑋1) … 𝑃 𝑋 𝑘 𝑋1, … , 𝑋 𝑘−1 . 𝑃 𝑋 𝑌 = 𝑃 𝑋 𝑃 𝑌 𝑋 𝑃 𝑌 . Probabilistic Graphical Models 輪読会 #1 46
  47. 47. 独立性(2.1.4.1) • 通常、私たちは𝑃(𝛼|𝛽)と𝑃(𝛼)は何らかの点で異 なると考えたくなる • しかし、ある状況ではこの2つが一致する、即ち 𝛽を学ぶことが𝛼の確率に関して何ら影響を与え ない場合がある 定義2.2(独立な事象, independent events) 𝑃 𝛼 𝛽 = 𝑃(𝛼)または𝑃 𝛽 = 0が成り立つとき、事 象𝛼と事象𝛽が独立であると言い、𝑃 ⊨ (𝛼 ⊥ 𝛽)と書 き表す Probabilistic Graphical Models 輪読会 #1 47
  48. 48. 独立性(2.1.4.1) • 独立性は、別の定義によっても与えられる: 命題2.1(独立性の別定義) 分布𝑃が(𝛼 ⊥ 𝛽)を満たす⇔ P 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽 証明: 連鎖規則を用いる Probabilistic Graphical Models 輪読会 #1 48
  49. 49. 条件付き独立(CI)(2.1.4.2) • 独立性は、しばしば追加の事象が与えられたと きに初めて発現する →例:MIT is CI of Stanford given GradeA. 定義2.3(条件付き独立, conditional independence) 𝑃 𝛼 𝛽 ∩ 𝛾 = 𝑃 𝛼 𝛾 または𝑃 𝛽 ∩ 𝛾 = 0のとき、 分布𝑃上で事象𝛼と𝛽は𝛾が与えられた際に条件付き 独立であるといい、 𝑃 ⊨ (𝛼 ⊥ 𝛽|𝛾)と書き表す 以下、本スライドでは条件付き独立をCIと記す Probabilistic Graphical Models 輪読会 #1 49
  50. 50. 条件付き独立(CI)(2.1.4.2) • 条件付き独立もまた、別の方法で定義可能: 命題2.2 分布𝑃が 𝛼 ⊥ 𝛽 𝛾 を満たす ⇔ P 𝛼 ∩ 𝛽|𝛾 = 𝑃 𝛼|𝛾 𝑃 𝛽|𝛾 証明: 命題2.1と同様 Probabilistic Graphical Models 輪読会 #1 50
  51. 51. 複数の確率変数の独立性(2.1.4.3) 定義2.4 𝑿, 𝒀, 𝒁をそれぞれ確率変数の集合とする。もし𝑃があ らゆる𝒙 ∈ 𝑉𝑎𝑙 𝑿 , 𝒚 ∈ 𝑉𝑎𝑙 𝒀 , 𝒛 ∈ 𝑉𝑎𝑙(𝒁)において 𝑿 = 𝒙 ⊥ 𝒀 = 𝒚 𝒁 = 𝒛)を満たすならば、𝒁が与えら れた下で𝑿と𝒀が独立であるという。𝒁はしばしば”観 測された”と呼ばれる。𝒁が空であるとき、 𝑿 ⊥ 𝒀 ∅)を(𝑿 ⊥ 𝒀)と記述し、𝑿と𝒀は周辺的に独 立であるという。 命題2.3 分布𝑃が 𝑿 ⊥ 𝒀 𝒁)を満たす ⇔𝑃 𝑿, 𝒀 𝒁) = 𝑃 𝑿 𝒁 𝑃 𝒀 𝒁 Probabilistic Graphical Models 輪読会 #1 51
  52. 52. CIの性質(2.1.4.3) • 対称性(Symmetry) 𝑿 ⊥ 𝒀 𝒁) ⇒ 𝒀 ⊥ 𝑿 𝒁). • 分解性(Decomposition) 𝑿 ⊥ 𝒀 𝑾, 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁). • 弱結合性(Weak union) 𝑿 ⊥ 𝒀, 𝑾 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁, 𝑾). • 縮約性(Contraction) 𝑿 ⊥ 𝑾 𝒁, 𝒀)& 𝑿 ⊥ 𝒀 𝒁) ⇒ 𝑿 ⊥ 𝒀, 𝑾 𝒁). Probabilistic Graphical Models 輪読会 #1 52
  53. 53. 正値確率分布 定義2.5(正値確率分布) Pが正値であるとは、𝛼 ≠ ∅である全ての事象𝛼 ∈ 𝑆 において𝑃(𝛼) > 0であることである 正値確率分布に対しては、以下の性質が成り立つ • 交差性(Intersection) 𝑿 ⊥ 𝒀 𝒁, 𝑾)& 𝑿 ⊥ 𝑾 𝒁, 𝒀) ⇒ 𝑿 ⊥ 𝒀, 𝑾 𝒁). 証明:乗法定理と加法定理を繰り返し適用する Probabilistic Graphical Models 輪読会 #1 53
  54. 54. クエリ(2.1.5) • 私たちの目標は、ある変数の集合が観測された ときに、注目するクエリ(query of interest)の 確率を評価することである • 本書では、2種類のクエリを紹介する (1)確率クエリ(Probability Queries) (2)MAPクエリ(MAP Queries) Probabilistic Graphical Models 輪読会 #1 54
  55. 55. 確率クエリ(2.1.5.1) 確率クエリは2つのパーツから構成される: (1)エビデンス:確率変数群の部分集合𝐸と、実際 の割り当て値𝑒 (2)クエリ変数:ネットワーク中の確率変数群の部 分集合𝑌 私たちが考えたいのは、エビデンス𝑒 ∈ 𝐸で条件付 けられたときの𝑦 ∈ 𝑌に関する事後確率(posterior probability)である。 Probabilistic Graphical Models 輪読会 #1 55
  56. 56. MAPクエリ(2.1.5.2) MAP=Maximum A Posteriori (最大事後確率) • 続いて考えたいのは、ある確率変数の部分集合 に対して、最大の事後確率を得る割り当てを見 つけることである • よりフォーマルに言えば、𝑾 = 𝜒 − 𝑬であると き、エビデンス𝐸 = 𝑒が与えられた状況で最大確 率をとる𝑤 ∈ 𝑊を見つけることである 𝑀𝐴𝑃 𝑾 𝐞 = argmaxwP(𝐰, 𝐞) Probabilistic Graphical Models 輪読会 #1 56
  57. 57. MAP割り当て • 1変数へのMAP割り当ては簡単で、𝑃(𝐴|𝑒)を最 大化するような割り当て𝑎を選択すればよい • しかし、複数の確率変数のMAP割り当ては、 各個の変数を個別に最大化する割り当てでは結合 確率の大域的な最大化は達成できない ため、事後確率の同時最大化を要求する一般の MAP割り当ては本質的な難しさを抱えている Probabilistic Graphical Models 輪読会 #1 57
  58. 58. 例2.4(MAP割り当て) 𝑎0 𝑎1 0.4 0.6 Probabilistic Graphical Models 輪読会 #1 58 𝐴 𝑏0 𝑏1 𝑎0 0.1 0.9 𝑎1 0.5 0.5 𝑀𝐴𝑃 𝐴 = 𝑎1 𝑀𝐴𝑃 𝐴, 𝐵 = (𝑎0 , 𝑏1 ) ∵ 𝑃 𝑎0 , 𝑏1 = 0.4 ∗ 0.9 = 0.36 𝑃 𝑎1, 𝑏∗ = 0.6 ∗ 0.5 = 0.3
  59. 59. 周辺化MAPクエリ(2.1.5.3) • 医療診断においては、最終的に推定したいの は ”ある病気である確率”のみで、その過程の症 状の推定は重要ではない • 未観測だが重要でない確率変数は全ての組み合 わせについて和を取って周辺化(marginalize)す る MAP 𝐘 𝐞) = argmaxyP 𝐲 𝐞). 𝒁 = 𝝌 − 𝒀 − 𝑬としたときの周辺化MAPは、 MAP 𝐘 𝐞 ) = argmaxY P 𝐘, 𝐙 𝐞). z と表せる Probabilistic Graphical Models 輪読会 #1 59
  60. 60. 連続値空間(2.1.6) • ここまでの議論は全て確率変数が離散値、すなわ ち有限の数の集合をとる場合であった、連続値の 場合はどうか? • 例えば、Val X = 0, 1 とした場合、 𝑃 𝑋 = 0 = 0. となる、どうする?→確率密度関数(PDF)を用いる 𝑝 𝑥 𝑑𝑥 = 1. 𝑉𝑎𝑙(𝑋) 𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝑝 𝑥 𝑑𝑥. 𝑏 𝑎 Probabilistic Graphical Models 輪読会 #1 60
  61. 61. 一様/ガウス分布 定義2.6(一様分布) [𝑎, 𝑏]における一様分布𝑋 ~ 𝑈𝑛𝑖𝑓[𝑎, 𝑏]のPDFは、 𝑝 𝑥 = 1 𝑏 − 𝑎 𝑏 ≥ 𝑥 ≥ 𝑎 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒. 定義2.7(ガウス分布) 平均𝜇、分散𝜎2のガウス分布𝑋 ~ 𝑁(𝜇 ; 𝜎2)は、 𝑝 𝑥 = 1 2𝜋𝜎 𝑒 − 𝑥−𝜇 2 2𝜎2 標準ガウス分布は平均0、分散1を持つ Probabilistic Graphical Models 輪読会 #1 61
  62. 62. 結合密度関数(2.1.6.2) 定義2.8(結合密度関数) 連続確率変数𝑋1, … , 𝑋 𝑛を考える。関数𝑝(𝑥1, … , 𝑥 𝑛) が次の条件を満たすとき、𝑃を𝑋1, … , 𝑋 𝑛の結合密度 分布であると呼ぶ: ・あらゆる𝑋1, . . , 𝑋 𝑛中の𝑥1, … , 𝑥 𝑛に対して𝑝 𝑥1, … , 𝑥 𝑛 ≥ 0 ・pは積分可能な関数 ・あらゆる𝑎1, … , 𝑎 𝑛, 𝑏1, … , 𝑏 𝑛に対して 𝑃 𝑎1 ≤ 𝑋1 ≤ 𝑏1, … , 𝑎 𝑛 ≤ 𝑋 𝑛 ≤ 𝑏 𝑛 = … 𝑝 𝑥1, … , 𝑥 𝑛 𝑑𝑥1 … 𝑑𝑥 𝑛. 𝑏 𝑛 𝑎 𝑛 𝑏1 𝑎1 Probabilistic Graphical Models 輪読会 #1 62
  63. 63. 条件付き密度関数(2.1.6.3) • 条件付き確率を連続値に拡張する場合も、 𝑃 𝑋 = 𝑥 = 0の問題が出現する • そこで、𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖という微小区間を考 え(これで確率が正の値をとる)、その極限を 取ってみる Q:lim 𝜖→0 𝑃 𝑌 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖) の極限は存在するか? Probabilistic Graphical Models 輪読会 #1 63 http://mathematica.stackexchange.com/questions/27083/visualization-of-bivariate-distributions を改変
  64. 64. 条件付き密度関数の導出 A:存在する 𝑃 𝑎 ≤ 𝑌 ≤ 𝐵 | 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖 = 𝑃 𝑎 ≤ 𝑌 ≤ 𝐵, 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖 𝑃(𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖) = 𝑝 𝑥′ , 𝑦 𝑑𝑦𝑑𝑥′𝑥+𝜖 𝑥−𝜖 𝑏 𝑎 𝑝 𝑥′, 𝑦 𝑑𝑥′𝑥+𝜖 𝑥−𝜖 . ここで、 𝑝 𝑥′ 𝑑𝑥′ ≈ 2𝜖𝑝(𝑥) 𝑥+𝜖 𝑥−𝜖 と近似できることから (左辺) ≈ 2𝜖𝑝 𝑥,𝑦 𝑑𝑦 𝑏 𝑎 2𝜖𝑝 𝑥 = 𝑝 𝑥,𝑦 𝑝(𝑥) 𝑑𝑦. 𝑏 𝑎 Probabilistic Graphical Models 輪読会 #1 64
  65. 65. 条件付き密度関数/CI 定義2.9(条件付き密度関数) 𝑝 𝑥, 𝑦 を𝑋, 𝑌の結合密度であるとすると、𝑋が与えられたと きの𝑌の条件付き密度関数は 𝑝 𝑦 𝑥) = 𝑝 𝑥, 𝑦 𝑝(𝑥) . ただし𝑝 𝑥 = 0のときは未定義。 定義2.10(CI) 連続確率変数の集合𝑿, 𝒀, 𝒁および結合密度𝑃(𝑿, 𝒀, 𝒁)がある とき、以下が成り立てば、 𝑝 𝒙 𝒛) = 𝑝 𝒙, 𝒚 𝒛) 𝑓𝑜𝑟 𝑎𝑙𝑙 𝒙, 𝒚, 𝒛 𝑠. 𝑡. 𝑝 𝒛 > 0. 𝑿は𝒁が与えられたときに𝒀と条件付き独立であるという Probabilistic Graphical Models 輪読会 #1 65
  66. 66. 期待値(2.1.7.1) • 離散確率変数に対する期待値 𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑃 𝑥 . 𝑥 • 連続確率変数に対する期待値 𝐸 𝑃 𝑋 = 𝑥 ∙ 𝑝 𝑥 𝑑𝑥. • しばしば、次の関数が用いられる: 𝐼 𝑋 = 𝑥 = 1 𝑖𝑓 𝑋 = 𝑥 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒. (指示関数) Probabilistic Graphical Models 輪読会 #1 66
  67. 67. 期待値の性質 命題2.4(期待値の線形性) 𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸 𝑌 . これは、変数が独立でない場合も成り立つ。 命題2.5(期待値の独立性) もし確率変数𝑋と𝑌が独立ならば、 𝐸 𝑋 ∙ 𝑌 = 𝐸 𝑋 ∙ 𝐸 𝑌 . また、𝒚が与えられたときの𝑋の条件付き期待値は 𝐸 𝑃 𝑋 𝑦] = 𝑥 ∙ 𝑃 𝑥 𝒚). 𝑥Probabilistic Graphical Models 輪読会 #1 67
  68. 68. 分散(2.1.7.2) 分散:確率変数𝑋が平均からどれだけばらけているか 𝑉𝑎𝑟𝑃 𝑋 = 𝐸 𝑃 𝑋 − 𝐸 𝑃 𝑋 2 . これを展開すると 𝑉𝑎𝑟 𝑋 = 𝐸 𝑋2 − 𝐸 𝑋 2 . 命題2.6(分散と独立性) もし𝑋と𝑌が独立であるならば、 𝑉𝑎𝑟 𝑋 + 𝑌 = 𝑉𝑎𝑟 𝑋 + 𝑉𝑎𝑟 𝑌 . 期待値の性質から、次が容易に導かれる: 𝑉𝑎𝑟 𝑎 ∙ 𝑋 + 𝑏 = 𝑎2 𝑉𝑎𝑟 𝑋 . Probabilistic Graphical Models 輪読会 #1 68
  69. 69. 標準偏差 また、標準偏差を次のように定義する: 𝜎 𝑋 = 𝑉𝑎𝑟 𝑋 . 標準偏差は、𝑋の値の”距離”を測るための1つの目 安として使用される 命題2.7(ガウス分布の性質) 𝑋をガウス分布𝑁(𝜇, 𝜎2 )に従う確率変数とすると、 𝐸 𝑋 = 𝜇かつ𝑉𝑎𝑟 𝑋 = 𝜎2である。 Probabilistic Graphical Models 輪読会 #1 69
  70. 70. Chebyshevの不等式 定理2.1(Chebyshevの不等式) 確率変数𝑋、実数値𝑡が与えられたとき 𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑡 ≤ 𝑉𝑎𝑟𝑃 𝑋 𝑡2 𝑜𝑟 𝑃 𝑋 − 𝐸 𝑃[𝑋] ≥ 𝑘𝜎 𝑋 ≤ 1 𝑘2 証明: 𝑋 − 𝐸 𝑃 𝑋 ≤ 𝑡であることを用いる。 これは、平均及び分散を持つあらゆる確率分布に 成り立つ Probabilistic Graphical Models 輪読会 #1 70
  71. 71. グラフ理論(2.2) • 本書は、グラフ構造に確率分布の表現を導入す る • グラフ理論の基本概念をここで押さえましょう Probabilistic Graphical Models 輪読会 #1 71
  72. 72. ノードと辺(2.2.1) • グラフ 𝐾 = (X, Ε) • ノード 𝑋 = {𝑋1, … , 𝑋 𝑛} • 有向辺 𝑋𝑖 → 𝑋𝑗 • 無向辺 𝑋𝑖 − 𝑋𝑗 • 何らかの辺(≠双方向) 𝑋𝑖 ↔ 𝑋𝑗 本書では、一度に2つ以上の種類のエッジが接続す ることを想定しない 有向辺のみで構成される有向グラフを𝐺, 無向辺のみで構成される無向グラフを𝐻とする Probabilistic Graphical Models 輪読会 #1 72 𝑋1 𝑋2 𝑋3 𝑋2 − 𝑋3 𝑋1 → 𝑋2 𝐾
  73. 73. 無向形(undirected version) 定義2.11(グラフの無向形) グラフ𝐾 = (𝑋, 𝐸)が与えられたとき、その無向形 は 𝐻 = 𝑋, 𝐸′ (但し、𝐸′ = 𝑋 − 𝑌 ∶ 𝑋 ↔ 𝑌 ∈ 𝐸 である。 Probabilistic Graphical Models 輪読会 #1 73 𝑋1 𝑋2 𝑋3 𝑋2 − 𝑋3 𝑋1 → 𝑋2 𝐾 𝑋1 𝑋2 𝑋3 𝑋2 − 𝑋3 𝑋1 − 𝑋2 𝐻
  74. 74. 子/親/隣/次数/入次数 • 子(child), 𝐶ℎ 𝑋 • 親(parent), 𝑃𝑎 𝑋 • 隣(neighbor), 𝑁𝑏 𝑋 • 次数(degree): あるノードに接続する辺の数 • 入次数(indegree): あるノードに流入する辺の数 Probabilistic Graphical Models 輪読会 #1 74 有向グラフ向け 主に無向グラフ向け 𝑋1 𝑋3 𝑋4 𝑋5 𝑋2親 子 隣
  75. 75. 誘導部分グラフ (induced subgraph) 定義2.12(誘導部分グラフ) 𝐾 = (Χ, Ε)および𝑿 ⊂ Χを考える。誘導部分グラフ K[𝐗]をΕ′ = {∀𝑋 ↔ 𝑌 ∈ Ε ∶ 𝑋, 𝑌 ∈ 𝑿}であるような グラフ(𝑿, Ε)とする。 Probabilistic Graphical Models 輪読会 #1 75 𝐾[𝐶, 𝐷, 𝐼] 要は、ノードの部分集合の 接続を保存したグラフ
  76. 76. 完全部分グラフ (complete subgraph) 定義2.13(完全部分グラフ) 𝑿上の部分グラフを考えたとき、𝑋中の全てのノー ドの組が辺で接続されているとき、𝑋は完全であ るという。𝑋はクリークとも呼ばれる。さらに、 その上位集合𝑌 ⊃ 𝑋がいずれもクリークでないとき 𝑋は極大(maximal)であるという。 Probabilistic Graphical Models 輪読会 #1 76
  77. 77. クリーク(clique) Probabilistic Graphical Models 輪読会 #1 77 クリーク(𝑐𝑙𝑖𝑞𝑢𝑒): ノード同士が全て隣接しているノードの集合 極大クリーク(𝑚𝑎𝑥𝑖𝑚𝑎𝑙 𝑐𝑙𝑖𝑞𝑢𝑒): クリーク性を保持する最大のクリーク 右図において、 {𝑥1, 𝑥2}はクリーク、 {𝑥2, 𝑥3, 𝑥4}は極大クリーク
  78. 78. バウンダリ(Boundary, P149) • ノード𝑋の親(𝑌 → 𝑋が存在)および隣(𝑌 − 𝑋が存 在)の和集合を𝑋のバウンダリと呼び、 𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋と表記する Probabilistic Graphical Models 輪読会 #1 78
  79. 79. Upward Closure 定義2.14(Upward Closure) ノードの部分集合𝑿 ⊂ Χを考える。すべての X ∈ 𝑿に関して𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑋 ⊂ 𝑿であるとき、𝑿 ⊂ Χ はKに関して上方向に閉じているという 𝐗を含み、上に閉じている極小の集合𝒀を𝑿の upward closureと呼び、𝐾+[𝑿]と書き表す Probabilistic Graphical Models 輪読会 #1 79 𝐾+[𝐶]
  80. 80. 路とトレイル(2.2.3) 定義2.15(路, path) グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋 𝑘が路であるとは、 各𝑖 = 1, … , 𝑘 − 1に対して𝑋𝑖 → 𝑋𝑖+1または𝑋𝑖 − 𝑋𝑖+1 で あることをいう。1つでも有向辺が含まれていれば、 その路は有向であるという。 定義2.16(トレイル, trail) グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋 𝑘が路であるとは、 各 𝑖 = 1, … , 𝑘 − 1 に対して 𝑋𝑖 ↔ 𝑋𝑖+1 であることをいう。 定義2.17(連結グラフ) 各𝑋𝑖, 𝑋𝑗間にトレイルがあるとき、グラフは連結である。 Probabilistic Graphical Models 輪読会 #1 80
  81. 81. 先祖/子孫 • 先祖(ancestor):𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠 𝑋 • 子孫(descendants):𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 • 非子孫:𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 = Χ − 𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑋 例: 𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠𝐼 = 𝐴, 𝐵, 𝐶, 𝐷, 𝐸, 𝐻 𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝐷 = {𝐴, 𝐵, 𝐻} Probabilistic Graphical Models 輪読会 #1 81
  82. 82. Topological ordering 定義2.19(Topological ordering) グラフK = (Χ, Ε)を考える。順序つきノード 𝑋1, . . , 𝑋 𝑛がつねに𝑋𝑖 → 𝑋𝑗 ∈ Εならば𝑖 < 𝑗を満たす とき、𝑋1, … , 𝑋 𝑛はtopological orderingであると呼 ぶ。 Probabilistic Graphical Models 輪読会 #1 82 親が子よりも必ず 小さい番号を持つようにする (アルゴリズム:付録A.3.1) トポロジカルソートとも呼ばれる
  83. 83. 閉路(cycle) 定義2.20(閉路, cycle) グラフ𝐾の閉路とは、𝑋1 = 𝑋 𝑘であるような有向路 𝑋1, … , 𝑋 𝑘のことである。閉路を含まないグラフは 非巡回(acyclic)と呼ばれる。 Probabilistic Graphical Models 輪読会 #1 83 𝑋1 𝑋2 𝑋3 𝑋4 閉路(𝑋2, 𝑋3, 𝑋4)
  84. 84. ☆DAG/PDAG • 有向非巡回グラフ(DAG, directed acyclic graph)とは、その名のとおり有向かつ非巡回な グラフである • DAGはベイジアンネットワークの表現の中心を 為すグラフで、本書の大半は非巡回のグラフを 取り扱う • 部分有向非巡回グラフ(PDAG)を有向辺および無 向辺が混在した非巡回グラフとする ※非巡回≠閉トレイルが存在 Probabilistic Graphical Models 輪読会 #1 84
  85. 85. 連鎖成分 定義2.21(連鎖成分, chain component) 𝐾をΧ上のPDAGであるとする。Χの互いに素(disjoint) な分割𝐾1, … , 𝐾𝑙が ・𝐾𝑖の誘導部分グラフが有向辺を含まない ・𝑖 < 𝑗であるあらゆる組𝑋 ∈ 𝐾𝑖, 𝑌 ∈ 𝐾𝑗について、辺が 存在するならば有向辺𝑋𝑖 → 𝑋𝑗 を満たすとき、各𝐾𝑖を連鎖成分と呼ぶ。 Probabilistic Graphical Models 輪読会 #1 85 𝐾1 𝐾2 𝐾3 𝐾4 無向辺の塊をまとめて1つの ノードとみなしてTopological Ordering PDAGはChain Graphとも呼ぶ
  86. 86. ループ(Loop)/polytree 定義2.22(ループ/polytree) 𝐾上のループとは、X1 = Xkであるようなトレイル 𝑋1, … , 𝑋 𝑘のことである。グラフがループを含まな いとき、”個別に連結している”という。 ループのないグラフ上で隣接ノードが1つしかない ノードを葉(leaf)と呼ぶ。 ループのない有向グラフはpolytree、無向グラフ は森(forest)と呼ばれる。それが連結していれば 木(tree)と呼ばれる。 Probabilistic Graphical Models 輪読会 #1 86
  87. 87. 有向グラフにおける森/木 定義2.23(有向グラフにおける森/木) 各ノードがたかだが1つの親を持つ有向グラフを森 と呼ぶ。もし有向森が連結であれば、木と呼ぶ。 ※注意 有向グラフにおいては、木⊆森⊆polytreeである (木・森は複数の親を許さない) ループの存在は、多くの場合計算量を飛躍的に増 大させる Probabilistic Graphical Models 輪読会 #1 87
  88. 88. Chordal(弦) Graph 定義2.24(Chordal graph) ループ𝑋1 − 𝑋2 − ⋯ − 𝑋 𝑘 − 𝑋1を考える。ループを構成 する非連続なノード2つによる辺をループ内の弦 (chord)と呼ぶ。無向グラフ𝐻が𝑘 = 4以上のループお よびその弦を持つとき、𝐻はChordal Graphであると 呼ぶ。 弦の概念は、推論の計算量を 見積もる際に利用される ※この定義は有向グラフにも拡張可(定義2.25) Probabilistic Graphical Models 輪読会 #1 88 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 弦
  89. 89. グラフィカルモデル 概観 (3・4章に入る前の下準備) Probabilistic Graphical Models 輪読会 #1 89
  90. 90. 今日の内容 • 第1章 Introduction – 本書の構成 – GMの3要素 • 第2章 Foundations – 確率論 – グラフ理論 • グラフィカルモデル概観 – ベイジアンネットと無向グラフィカルモデル – ベイジアンネット(BN)入門 Probabilistic Graphical Models 輪読会 #1 90
  91. 91. グラフィカルモデル(GM) の基本原理 Probabilistic Graphical Models 輪読会 #1 91 Michael Jordan (1997)曰く、 複雑なシステムを簡単に扱うための2つの原理: (1)モジュラリティの原理 (2)抽象化の原理 「確率理論はこの2つの原理を深く、興味深い方法 ―因子分解と平均化によって提供している。この2 つのメカニズムを可能な限り活用することが、機 械学習を前進させる方法のように見える。」
  92. 92. Probabilistic Graphical Models 輪読会 #1 92 • 具体的には、次のなじみ深い定理のこと (1)加法定理(変数の消去、周辺化) 𝑝 𝑎 = 𝑝 𝑎, 𝑏 𝑏 (または 𝑝 𝑎, 𝑏 𝑑𝑏) (2) 乗法定理(確率分布の因数分解) 𝑝 𝑎, 𝑏 = 𝑝 𝑏 𝑎 𝑝(𝑎) グラフィカルモデル(GM) の基本原理
  93. 93. グラフィカルモデル(GM)の定義 Probabilistic Graphical Models 輪読会 #1 93 グラフィカルモデルの簡単な定義: • CIの仮定を置くことで、結合分布を表現する方法 • 各ノードが確率変数、辺の欠如がCIの仮定を表す • Graphical Modelsという呼び方は適切ではなく、 意味を正確に表すならば”independence diagrams”(独立ダイヤグラム)の方が良い • エッジが向きを持つか否かで (1) ベイジアンネットワーク(Bayesian Network) (2) 無向グラフィカルモデル(Undirected GM) に分けられる
  94. 94. (1)ベイジアンネットワーク(BN) Probabilistic Graphical Models 輪読会 #1 94 ベイジアンネットワーク(BN)とは、 対応するグラフがDAGであるGM のことを指す(有向閉路が存在しない) (1) Directed Graphical Model (2) Belief networks (3) Causal networks などとも呼ばれるが、因果推論とGM自体は無関係 なので、中立的にはDGMと呼ぶ方が望ましい →本輪読会ではベイジアンネットワーク(BN)とい う呼称を使用する
  95. 95. BNの例:マルコフ連鎖 Probabilistic Graphical Models 輪読会 #1 95 • 連鎖規則とマルコフ性の仮定を組み合わせて、 𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝(𝑥 𝑡|𝑥 𝑡−1) 𝑉 𝑡=1 と書き表すことができる。 • これを(1次の)マルコフ連鎖(markov chain)と呼 ぶ。
  96. 96. BNの例:ALARM Network(1989) Probabilistic Graphical Models 輪読会 #1 96 • Alarm Network[Beinlich+ 89]:37変数と504の パラメタを持つ医者向けの医療診断システム • 計測変数と診断との間の因果関係とその確率表を専 門家の手で定義した確率的エキスパートシステム (probabilistic expert system)として構成された
  97. 97. BNの例:遺伝リンク解析 Probabilistic Graphical Models 輪読会 #1 97 Pedigree graph: 親子の関係(家系)を示すDAG 歴史的に重要なモデル [Friedman+ 00] (1)遺伝子型𝑋𝑖𝑗 (観測済み) (2)父系/母系対立遺伝子𝐺𝑖𝑗 𝑚 , 𝐺𝑖𝑗 𝑝 (未知) (3)父母の選択変数 𝑍𝑖𝑗 𝑚 , 𝑍𝑖𝑗 𝑝 (未知) の3つの構成要素を結んだBNとして構成し、何ら かの疾患をもたらす遺伝子の遺伝経路を明らかに するためにBNによる推論を行う
  98. 98. BNの例:遺伝リンク解析 Probabilistic Graphical Models 輪読会 #1 98 𝑋𝑖𝑗 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑧𝑖𝑗 𝑚 𝑧𝑖𝑗 𝑝 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑋𝑖𝑗 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑧𝑖𝑗 𝑚 𝑧𝑖𝑗 𝑝 𝑋𝑖𝑗 𝐺𝑖𝑗 𝑚 𝐺𝑖𝑗 𝑝 𝑧𝑖𝑗+1 𝑚 𝑧𝑖𝑗+1 𝑝 選択変数𝑧は隣接箇所とリンク Locus 𝑗 + 1Locus 𝑗  観測されてい るのは𝑋𝑖𝑗のみ  𝑧𝑖𝑗 𝑝/𝑚 は母系と 父系どちらか ら遺伝したか 選択 青の変数を観測した状態での 赤・オレンジの変数を予測
  99. 99. (2) 無向グラフィカルモデル(UGM) 無向グラフィカルモデルとは、 無向辺を用いたGM のことを指す。BNと同様、 (1) Markov Network (2) Markov Random Field(MRF) などの別名がある。本書ではUGMという呼称を中 心に使用する。 Probabilistic Graphical Models 輪読会 #1 99
  100. 100. UGMの例:Izingモデル • 統計物理学に端を欲したMRFの一種 • 格子状にノードが連結され、各ノードは+1(ス ピンが上向き)または-1(スピンが下向き)を持つ • ある格子点上のスピンは隣接する格子点のスピ ンの値によって確率的に決定される 𝑃 𝑥 = 1 𝑍 exp( 𝐽𝑖𝑗 𝑥𝑖 𝑥𝑗 + ℎ𝑖 𝑥𝑖 𝑖 ) 𝑖~𝑗 • 上記の形の分布はGibbs分布と呼ばれる Probabilistic Graphical Models 輪読会 #1 100
  101. 101. 応用例:画像復元 • 2値画像の各ピクセルが格子状につながっている 潜在変数に条件づけられていると仮定して、画 像のノイズ除去を行う Probabilistic Graphical Models 輪読会 #1 101 元画像 10%反転 復元結果 (グラフカット) 𝐸 𝑥, 𝑦 = ℎ 𝑥𝑖 𝑖 − 𝛽 𝑥𝑖 𝑥𝑗 𝑖,𝑗 − 𝜂 𝑥𝑖 𝑦𝑖 𝑖
  102. 102. 問題設定 Probabilistic Graphical Models 輪読会 #1 102 次のような仮定を置いてみよう: 複数の互いに関連を持った変数を観測した (文書、画像、遺伝子etc) Question: (1)結合確率𝑝 𝒙 𝜽 をコンパクトに表現するには? (2)この確率を用いてある変数のセットから別の変数 のそれを現実的な計算量で推論(infer)するには? (3)適度な量のデータがある状態でこの確率のパラメ タを学習するには?
  103. 103. 連鎖規則再訪 Probabilistic Graphical Models 輪読会 #1 103 連鎖規則を用いて、我々はあらゆる結合分布を、 あらゆる変数の順番を以て表現することができる 𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥2, 𝑥1 … 𝑝(𝑥 𝑉|𝒙1:𝑉−1) 𝑉 :変数の個数(1: 𝑉は集合{1,2, … 𝑉}を表す) 定数パラメタ𝜃は簡単のため省略 𝑡が大きくなるにつれ、𝑝(𝑥 𝑡|𝑥1:𝑡−1)の表現が複雑に なる
  104. 104. 結合分布の計算量 Probabilistic Graphical Models 輪読会 #1 104 全ての変数が𝐾状態を持つと仮定すると、 • 𝑝 𝑥1 は𝑂 𝐾 厳密には𝑂 𝐾 − 1 個の表で離散分 布を表現できる 同様に、 • 𝑝(𝑥2|𝑥1)は𝑂 𝐾2 、𝑝(𝑥3|x1, x2)なら𝑂 𝐾3 個のパ ラメタが含まれ、それらを表にしたものを条件 付き確率表(CPT)と呼ぶ • 𝑝 𝒙1:𝑉 のテーブルの大きさは𝑂 𝐾 𝑉 に従い、 学習は現実的ではない
  105. 105. BNの因子分解定理 Probabilistic Graphical Models 輪読会 #1 105 • Topological orderingの仮定を置いたとき、各ノード がその直接の親のみに依存するというordered markov propertyを定義することができる。すなわ ち: 𝑥 𝑠 ⊥ 𝒙 𝑝𝑟𝑒𝑑 𝑠 \p𝑎 𝑠 |𝒙 𝑝𝑎 𝑠 • DAG 𝐺(𝑉, Ε) がBNであるとは、確率分布族𝑿 = 𝑋𝑖 𝑖∈𝑉 と確率分布Pが以下に分解可能なことと同値: 𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋 𝑝𝑎 𝑖 ) 𝑖∈𝑉
  106. 106. BNの因子分解 Probabilistic Graphical Models 輪読会 #1 106 • PRMLの例を拝借(PRML下巻 8.1) • 例えば、右記の結合分布は 𝑝 𝑥1, … , 𝑥7 = p x1 p x2 p x3 p x4 x1, x2, x3 p x5 x1, x3)p x6 x4 p(x7|x4, x5) という条件付き分布(CPD)の積で表 せる 𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋 𝑝𝑎 𝑖 ) 𝑖∈𝑉
  107. 107. BNの計算量 Probabilistic Graphical Models 輪読会 #1 107 • 先述の通り、一般の確率分布のパラメタ数は 𝑂(𝐾 𝑉)であった • DGMの各ノードが𝑂(𝐹)個の親と𝐾状態を持つと き、そのパラメタ数は𝑂(𝑉𝐾 𝐹 )であり、CIの仮定 を置かない一般のそれよりパラメタ数が少ない ことが確認できた →続いて、BNの肝である条件付き独立(CI)とその 性質を見ていこう
  108. 108. BNの肝:条件付き独立性の仮定 Probabilistic Graphical Models 輪読会 #1 108 • あらゆるグラフィカルモデルにおいて、条件付き 独立の仮定(CI assumption)がその根幹を成す • グラフGにおいてCが与えられたとき、AとBが独 立であることを𝒙 𝐴 ⊥ 𝐺 𝒙 𝐵|𝒙 𝐶と書く • CIの仮定はモデル構造の簡略化に役立つが、GM の特異な点は次の点に見出すことができる: CPDの積で表された同時分布を考えたとき、素朴に はその分布で考えられるすべてのCIをチェックする 必要があるが、GMはCIをグラフ自身の見た目から 簡単に読み取ることができる
  109. 109. グラフの見た目とCI Probabilistic Graphical Models 輪読会 #1 109 結合度が高い 結合度が低い CIの仮定が少ない CIの仮定が多い 続いての疑問:BNの確率変数の間には、実際には どのようなCIが成り立つのか?
  110. 110. BNの基本パーツ Probabilistic Graphical Models 輪読会 #1 110 BNには、最もシンプルな形の構造が3種類ある 1. chain(head-to-tail) あるいは indirect causal effect 2. tent(tail-to-tail) あるいは a common cause 3. collider(head-to-head) あるいは a common effect
  111. 111. Chain(head-to-tail) Probabilistic Graphical Models 輪読会 #1 111 𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐 1. 𝑐が未観測⇒𝑝(𝑎, 𝑏, 𝑐)を𝑐に関して周辺化する 2. 𝑐が観測⇒𝑝 𝑎, 𝑏 𝑐)を考える ことで上記の性質を数式で表すことができて、実際に 𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑝 𝑐 𝑎 𝑝(𝑏|𝑐)𝑐 = 𝑝 𝑎 𝑝(𝑏|𝑎)(非独立) 𝑝 𝑎, 𝑏 𝑐) = 𝑝 𝑎, 𝑏, 𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑝 𝑐 𝑎 𝑝 𝑏 𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 (𝑐に関して条件付き独立)
  112. 112. Tent(tail-to-tail) Probabilistic Graphical Models 輪読会 #1 112 𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐 𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 𝑝(𝑐)𝑐 (≠ 𝑝 𝑎 𝑝(𝑏)で非独立) 𝑝 𝑎, 𝑏 𝑐) = 𝑝 𝑎, 𝑏, 𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 (𝑐に関して条件付き独立)
  113. 113. Collider (head-to-head) Probabilistic Graphical Models 輪読会 #1 113 𝑐が観測されないと𝑎と𝑏は「遮断」されているが、 𝑐が観測されると遮断が解かれる(前の2例と逆!) 𝑝 𝑎, 𝑏 = 𝑝(𝑎)𝑝(𝑏)𝑝(𝑐, 𝑎, 𝑏)𝑐 = 𝑝 𝑎 𝑝(𝑏) (独立) 𝑝 𝑎, 𝑏 𝑐) = 𝑝 𝑎,𝑏,𝑐 𝑝 𝑐 = 𝑝 𝑎 𝑝 𝑏 𝑝 𝑐 𝑎,𝑏 𝑝 𝑐 (非独立)
  114. 114. Bayes ballアルゴリズム Probabilistic Graphical Models 輪読会 #1 114 • Bayes ball algorithmは、Eが与えられたときAとB がd-分離(独立している)かどうかを判定するための 簡単な方法である • 観測済み変数𝑒 ∈ 𝐸をグレーに塗ったうえで、各 𝑎 ∈ 𝐴にボールを置き、決められたルールでその ボールがBに到達できるかどうか調べられる
  115. 115. Probabilistic Graphical Models 輪読会 #1 115 下3つは、ボールが「バウンド」する特殊な条件を示す Bayes ballアルゴリズム
  116. 116. 弁明(explaining away) Probabilistic Graphical Models 輪読会 #1 116 • Collider(head-to-head)が与えられたときの非常に 興味深い性質 • AとBの事象が共にCの親であるとき、Cが観測され るとAとBは独立でなくなる • その結果、Cの観測下では、 𝑝 𝑎 𝑐 ≠ 𝑝(𝑎|𝑐, 𝑏) が成り立ち、本来関係ないはずのbの追加観測がaの条 件付き確率を「弁明(explain away)」し影響を与える ≠
  117. 117. 遮断の練習 Q:どのノードを観測すればノード2とノード6が 遮断されるか? A:ノード1, ノード3, ノード5 Probabilistic Graphical Models 輪読会 #1 117
  118. 118. 今日のまとめ • グラフィカルモデル(GM)は、ドメインに依存し ない推論のための一般的かつ強力な手法である • GMは、統計学およびグラフ理論をベースにして いる • ベイジアンネットワーク(BN)は、有向非巡回グ ラフに対するGMである • BNには3つの基本的な構成部品がある • GMによって、条件付き独立性(CI)を視覚的に捉 えることができる Probabilistic Graphical Models 輪読会 #1 118
  119. 119. 参考文献 ◆論文 [Belinich+ 89] Beinlich, I. A., Suermondt, H. J., Chavez, R. M., & Cooper, G. F. (1989). The ALARM monitoring system: A case study with two probabilistic inference techniques for belief networks (pp. 247-256). Springer Berlin Heidelberg. [Friedman+ 00] Friedman, N., Geiger, D., & Lotner, N. (2000, June). Likelihood computations using value abstraction. In Proceedings of the Sixteenth Conference on Uncertainty in Artificial Intelligence (pp. 192-200). Morgan Kaufmann Publishers Inc.. [Taniguchi+ 15] Taniguchi, T., Nakashima, R., & Nagasaka, S. (2015). Nonparametic Bayesian Double Articulation Analyzer for Direct Language Acquisition from Continuous Speech Signals. arXiv preprint arXiv:1506.06646. ◆書籍 D, Koller & N. Friedman, Probabilistic Graphical Models: Principles and Techniques, MIT Press, 2009. K. Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012. C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006 渡辺 有祐. 機械学習プロフェッショナルシリーズ グラフィカルモデル, 講談社, 2016. 宮川 雅巳. 統計的因果推論 –回帰分析の新しい枠組み-, 朝倉書店, 2004. J. Pearl, 黒木 学訳, 統計的因果推論 モデル・推論・推測, 共立出版, 2009. Probabilistic Graphical Models 輪読会 #1 119

×