More Related Content
PDF
PDF
PPTX
PDF
PDF
PDF
PDF
PDF
What's hot
PDF
PPTX
PDF
PRML上巻勉強会 at 東京大学 資料 第1章後半 PDF
PDF
PDF
PDF
PDF
PPTX
PPTX
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布 PPTX
PDF
PDF
PDF
PDF
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう PDF
PDF
PPTX
PPTX
PDF
Similar to PRML輪読#8
PDF
PDF
Prml Reading Group 10 8.3 PDF
Probabilistic Graphical Models 輪読会 #1 PDF
PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN PDF
PDF
PPTX
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章 PDF
PDF
PDF
Large-Scale Object Classification Using Label Relation Graphs PPTX
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章 PPTX
PDF
PDF
PDF
PDF
PDF
Infer net wk77_110613-1523 PPTX
Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4 PDF
Probabilistic Graphical Models 輪読会 §3.3-3.4 PRML輪読#8
- 1.
- 2.
- 3.
はじめに
• グラフィカルモデル
– 確率変数間の依存関係をグラフで表現したもの
•なぜグラフィカルモデルを使うのか?
1. 確率モデルの構造を視覚化する簡単な⽅法を提供し,新しいモデルの設計⽅
針を決めるのに役⽴つ
2. グラフの構造を調べることにより,条件付き独⽴性などのモデルの性質に関
する知⾒が得られる
3. 精巧なモデルにおいて推論や学習を実⾏するためには複雑な計算が必要と成
るが,これを数学的な表現を暗に伴うグラフ上の操作として表現することが
できる
• 表現するもの:全確率変数上の同時分布が,⼀部の変数のみに依存
する因⼦の積としてどのように分解可能か
– リンク(link, arc, edge)とノード(node, vertex)の集合によって表現
3
- 4.
- 5.
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
8.1.2 ⽣成モデル
• 同時分布に従うサンプルを発⽣させるには?
•伝承サンプリング
– 番号の⼩さいノードから順にサンプルを発⽣させていく
– 例:画像の⽣成
• Image:各観測データ点
• Object, Position, Orientation: 隠れ変数
• PositionとOrientationを積分消去すれば,Objectに関する事後分布が求まる
• ⽣成モデル:観測データが⽣成される因果過程を表現したモデル
– 隠れ変数の伝承サンプリングによって観測データの⽣成過程を模倣
– 観測データと「同じ」確率分布に従う架空のデータを発⽣
11
- 12.
8.1.3 離散変数
• 有向グラフの親⼦対が共役関係になっていると良い
–特に以下の場合は階層的に拡張して任意の複雑な有向⾮循環グラフが作れる
– 親:離散変数 → ⼦:離散変数
– 親:ガウス変数 → ⼦:ガウス変数
• K状態離散変数x(1-of-K表現)上の確率分布
– 規格化制約 より,K-1個のμkが求まれば分布が決定
• K状態変数がM個ある場合,パラメータ数は KM-1
– 指数的に増⼤
• しかし,M個の独⽴なK状態変数上の分布の場合,パラメータ数は M(K-1)
– 線形に増加
– リンクの除去によってパラメータが減少
12
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
- 20.
- 21.
8.2.1 3つのグラフの例
• 1.tail-to-tail
– cで周辺化すると
• これは⼀般に積 に変換できないので,独⽴ではない
– cで条件付けると
• に変換できたので,条件付き独⽴
21
引⽤: https://www.slideshare.net/sleepy_yoshi/prml-82
- 22.
8.2.1 3つのグラフの例
1. tail-to-tail
–cで周辺化すると
• に変換できないので,独⽴ではない
– cで条件付けると
• に変換できたので,条件付き独⽴
22
何も変数が観測されていない
→aとbを経由する経路が存在
→aとbは独⽴にならない
cに関して条件付け
→aとbを経由する経路がblock
→aとbは独⽴になる
引⽤: https://www.slideshare.net/sleepy_yoshi/prml-82
- 23.
8.2.1 3つのグラフの例
2. head-to-tail
–cで周辺化すると
• に変換できないので,独⽴ではない
– cで条件付けると
• に変換できたので,条件付き独⽴
23
何も変数が観測されていない
→aとbを経由する経路が存在
→aとbは独⽴にならない
cに関して条件付け
→aとbを経由する経路がblock
→aとbは独⽴になる
引⽤: https://www.slideshare.net/sleepy_yoshi/prml-82
- 24.
8.2.1 3つのグラフの例
3. head-to-head
–cで周辺化すると
• に変換できるので,独⽴
– cで条件付けると
• に変換できないので,条件付き独⽴ではない
24
何も変数が観測されていない
→aとbを経由する経路がblock
→aとbは独⽴
cに関して条件付け
→aとbを経由する経路がunblock
→aとbは独⽴になる
※⼦孫のいずれかが観測される
だけでunblock
引⽤: https://www.slideshare.net/sleepy_yoshi/prml-82
- 25.
- 26.
- 27.
8.2.2 有向分離
• 3つのグラフの例を,ノード集合までに拡張
–以下のいずれかを満たせば遮断(blocked)
1. 集合Cに含まれるノードであって,経路に含まれる⽮印がそこでhead-to-
tailあるいはtail-to-tail
2. 経路に含まれる⽮印がそのノードでhead-to-headであり,⾃⾝あるいはその全
ての⼦孫のいずれもが集合Cに含まれない
– すべての経路が遮断されていれば,AはCによってBから有向分離
27
引⽤: https://www.slideshare.net/antiplastics/prml8
- 28.
- 29.
- 30.
- 31.
- 32.
- 33.
- 34.
- 35.
- 36.
8.3.2 分解特性
• 無向グラフの因数分解の特性を考える
–同時分布p(x)が局所的な変数集合上の関数の積としてどのように表現されるか?
– 「局所性」とはなにか?
• 1つのリンクによって直接接続しないxi, xj
– グラフ上の他の全てのノードが与えられた下で,条件付き独⽴でなければならない
– なぜなら,直接経路がない→すべての経路は観測済みノードを経由→すべての経路が遮断
• この条件付き独⽴性がグラフ上のあらゆる分布について成⽴するには,xi, xjが
同じ因⼦に含まれないように因数分解する必要がある
– これを考えるためにクリークという概念を導⼊
36
引⽤: https://www.slideshare.net/antiplastics/prml8
- 37.
8.3.2 分解特性
• クリーク
–全てのノードの組にリンクが存在するようなグラフの部分集合
– クリークのノード集合は全結合
– 極⼤クリーク:もう1つノードを加えるとクリークでなくなるもの
• 同時分布を因数分解した時の各因⼦を,クリークが含む変数集合の関数にすれば
良い
37
- 38.
- 39.
- 40.
- 41.
- 42.
- 43.
- 44.
- 45.
- 46.
8.4.2 ⽊
• 連鎖より広いクラスの⽊(tree)のグラフ
–同様のメッセージパッシングによる推論が可能
– 無向:任意のノードの組の間に唯⼀の経路が存在するグラフ(ループなし)
– 有向:親を持たない根(root)ノードをただ1つ持ち,他のノードは親を1つずつ持つ
• 親を2つ以上持つことがないため,モラル化してもリンク追加なしで無向⽊になる
– 多重⽊:2つ以上の親を持つノードが存在するが,任意の2ノード間の経路は1つ
• モラル化するとループを持つ無向⽊になる
46
- 47.
- 48.
- 49.
- 50.
- 51.
- 52.
8.4.4 積和アルゴリズム
• 導出の⼤まかな流れ
–同時分布の因⼦を隣接因⼦ノードでグループ分け
– 和積交換により因⼦ノードfsから変数ノードxへのメッセージの積としてp(x)を表現
– 因⼦ノード→変数ノードのメッセージを計算
• 因⼦ノードに接続する他のすべてのリンクを伝わって流⼊するメッセージの積を計算
• 当該ノードに対応する因⼦を掛ける
• 流⼊するメッセージに関連する全ての変数について周辺化(図8.47)
• ※変数ノード→隣接因⼦ノードのメッセージの計算は流⼊メッセージの積を求めれば良い
52
- 53.
- 54.
- 55.
- 56.
- 57.
- 58.
- 59.
- 60.
8.4.8 グラフ構造の学習
• これまでの推論の前提:グラフ構造が既知
–しかし,推論を超えてグラフ構造そのものをデータから学習したい場合もある
• ベイズ的観点から,グラフ構造上の事後分布を計算してその分布に関する平
均を計算することで予測分布を求めるのが理想的
– mと番号付けられたグラフに対する事前確率p(m)
– モデルのエビデンスp(D|m)を各モデルのスコアとして使うことができるが,周辺化計算
が困難
• グラフ構造の数はノード数に対して指数的に増⼤するため,良い候補を⾒つ
けるには発⾒的⼿法に頼る必要がある場合が多い
60
- 61.
参考⽂献
• パターン認識と機械学習 下
–C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕治 (監訳), 村⽥ 昇 (監訳)
• グラフィカルモデル⼊⾨ (川本和彦,SlidShare)
– https://www.slideshare.net/Kawamoto_Kazuhiko/ss-35483453
• PRML8章 (霧崎弘毅,SlideShare)
– https://www.slideshare.net/antiplastics/prml8
• PRML 8.2 条件付き独⽴性 (SUHARA YOSHIHIKO,SlideShare)
– https://www.slideshare.net/sleepy_yoshi/prml-82
61