SlideShare a Scribd company logo
1 of 79
Probablistic Graphical Models
Section 4.1 - Section 4.4
藤沼祥成
自己紹介
• 藤沼祥成 @akkikiki
• 経歴
– 国際基督教大学 (ICU) 学士
– 東京大学大学院 情報理工学系研究科 CS専攻 修士
– 検索のソフトウェア開発エンジニア
用語集(翻訳集)
• Maximal clique
– 極大クリーク
– 資料によっては「最大クリーク」とも
• complete subgraph
– クリークと同義
– 完全部分グラフとも同義
• induced by, associated with
– 本プレゼンでは「導出される、付随する」とします
• Canonical Parameterization
– 正準パラメタ化 (MLaPPの輪講スライドより)
Chapter 4前半の概要(話の流れ)
• Chapter 3の有向グラフに対する定義を無向
グラフに対しても定義
• マルコフネットワークの:
– Gibbs分布との関係性
– 独立性と因子分解
– パラメタ化の粒度に関して
• 以下は(次回に?)飛ばします:
– Box 4.C, 4.D
Section 4.1 Misconception Example
(宿題の誤解モデル)
• Page 83, Example 3.8, Section 3.4.2
• 4人の生徒がペアを作り、宿題に取り組む。
– ただし授業中、教授が間違ったことを言っていた
– そのため生徒間で正しい共通認識がない
– 各生徒が授業での内容とは別に、独自に答えに
たどり着いた
– (Alice, Bob), (Bob, Charles), (Charles, Debbie),
(Debbie, Alice)の間でしか口をきかない
– ある二人の生徒間でmisconception(誤解)がある
かどうかをグラフィカルモデルでモデル化
宿題の誤解モデル
(マルコフネットワーク)
• ノード:確率変数
• エッジ:確率変数間の相互作用
Def 4.1 Factor (因子)
• 「確率変数間の相互作用」をきちんと定義
• D: 確率変数の集合
• Factor φ: Val(D) -> Rなる関数
• Dは”factorのスコープ”と呼ばれる
• factorの全てのentryが非負であるとき、Factorが非負
である、という
• (p. 58) Val(D):確率変数Dがとりうる値の集合
– 宿題の誤解モデルだと0か1
• φ(A, B), φ(A, B, C)といった形ででてくる
• 最初の方は|D| = 2で話が進む
宿題の誤解モデルにおけるFactor例
• 宿題の答えが0か1のどちらかしかない
• (0, 0)もしくは(1, 1)の値が大きいほど、同じ答
えに到達している
• 上の表を「Factorをテーブルで表現する」と本プレ
ゼンでは呼ぶ
Section 4.2 Parametrization
(P. 106)
• グラフ構造自体をパラメタ化し、確率分布を
表現したい
– ちなみにFactorは直接、確率や条件付き確率に
対応している訳ではない
Def. 4.2 Factor Product
• X, Y, Zは互いに疎(disjoint)な確率変数
• Factor:
• Factor product ψ(X, Y, Z)を以下に定義:
宿題の誤解モデルでのfactor product
例
• 先ほどのテー
ブルを確率分
布として正規
化した例
Def 4.3 (p.108) Gibbs分布
• Factor集合 Φによってパラメタ化される
• Factorの積をとる
• 正規化項Zは全てのとりうる割当の和をとる
• Zを用いて正規化しGibbs分布P_φを定義
Gibbs分布からMarkov networkを導出
(Coursera Week 2)
Def 4.4 (Page 109)
マルコフネットワークHでの因子分
解
• 分布
• がHの完全部分グラフである
とき、P_ΦはH上で因子分解される (P_Φ
factorize over H)という
• ちなみに完全部分グラフは(極大)クリークの
部分集合なのでクリークで定義してもよい
• ただし、グラフのover parameterizationが問題
– Section 4.4.1.1 (Factor Graph)にて詳しく解説
Section 4.3 (Page 114)
Independency in Markov
Network
- 独立性と因子分解との関
連性
そもそもIndependencyとは何か?
• Def 3.2 (p. 60)に分布Pに対する
Independencyの定義あり
– Independency associated with P
• Page 4より
• H:宿題の誤解モデル
– (マルコフネットワーク)
Independencies
{induced by, associated
with} Markov Network H
- まとめてI(H) と表す
導入: Separation(分離性?) in
Markov Network
• MN上の独立性をきちんと定義するための導入
Thm 4.1 (p. 115, Coursera week 2)
• I(H): グラフHから導出された独立性
– 教科書ではGlobal independencyとも
Def 3.3 I-map (p. 60)を
もう一度復習
• 注意: I-mapとI(H)は別物
– MNではI(H)はseparationによって定義されている
• K: グラフ(無向、有向、問わず)
• I(K): a set of independencies associated with K
• I: a set of independencies
• If I(K) ⊆ I, then KはIのI-map、という
• 「KはI(P)のI-map」ならば、「Kは分布PのI-map」と
呼ぶ
• Iの部分集合であればいいのがポイント
– (p. 61) 分布PはグラフKにない独立性を含む場合あり
– i.e. 分布PはグラフKにある独立性を含む必要あり
Thm 4.1, I-Mapの例
• P:
• H: • PはH上でfactorize
• =>Thm4.1よりHはPの
I-map
• Z = {D, B}がgivenの時、
– AとCはseparated
Thm 4.1, I-Mapの例
Pに付随している独立性とは?
• P:
• PはH上でfactorize
• Exercise 2.5で以下の同値条件を示した
– iff
Thm 4.1, I-Mapの例
HがPのI-mapであることの確認
• PはH上でfactorize
• Exercise 2.5で以下の同値条件を示した
– iff
Z = B Z = D
• Hの二つの独立性がPにも付
随していることが確認できる
Thm 4.2 (page 116)
Hammersley-Clifford theorem
• Independent => Factorization
• P: positive distribution
• If H is an I-map for P, then P factorizes over H
• グラフ上でseparatedであれば因子分解可能
• Example 4.4, page 109
• Ex. 4.1はpositive distributionでない場合、成立し
ない例を挙げ、確認する
Exercise 4.1 (p. 116): Thm 4.2におけ
るpositive distributionの重要性
• positive distributionでない場合、成立しない
例を挙げ、確認する
•
• 以下の割当全てに対して1/8の確率、他の割
当に対し0の確率とする確率分布Pがある。
• PはH上でfacorizeしないことを示せ
Exercise 4.1の続き
• PはH上でfacorizeすると仮
定
• 分布PはP(1,0,1,0)= 0
• Factorizeするので、定義か
ら4つの完全部分グラフ(X_1,
X_2), (X_2, X_3), (X_3, X_4),
(X_4, X_1)に対する因子の
集合Φに対して
P_Φ(X) = φ(X_1, X_2) *
φ(X_2, X_3) *
φ(X_3, X_4) *
φ(X_4, X_1)
• φ(X_1, X_2), φ(X_2, X_3),
φ(X_3, X_4), φ(X_4, X_1)
のいずれかはゼロ
ここまでのSummary
(Courseraより)
• Factorization: H allows P to be represented
• I-Map: Independencies encoded by H hold in P
• 正値分布Pに埋め込まれている独立性と、マ
ルコフネットワークHに埋め込まれている独立
性は一致している
• ちなみにここでいうH上での独立性とはglobal
independencyのこと
– 正値分布に対してはlocal independencyとglobal
independencyが一致することをこれから示す
• ここまでが6/18にて発表した内容
Section 4.2.3 (p.110)
Reduced Markov Network
• C = c^1として、Markov Networkを単純化する
• Figure 4.3 (p. 107) と Figure 4.5 p. (111)
• E.g. φ[c^1](a^1, b^1) = φ(a^1, b^1)*φ(b^1, c^1)
Def 4.5 (p.111)
Factor reduction (Φ[u]の定義)
• Y: 確率変数の集合
• U = u: 確率変数の集合に対する割当, U ⊆ Y
• Y’: Y – U
• y’: Y’に含まれる各確率変数に対する割当
• Φ(Y): factor
• Φ[u](Y): factor over Y’ such that
• 前スライドにある例はu=c^1, y’ = {a, b}
Def 4.6 (p.111)
Reduced Gibbs Distribution
• u: context (確率変数Uに割り当てる値)
• φ[u]: U=uとしてreduceされたfactor
• : factorの集合
• P_Φ[u]: reduceされたfactor集合Φによって定
義されるギブス分布
• Reduce後は確率分布の和が1になるよう、再
度正規化が必要
Def 4.7 (p.111)
Reduced Markov Network
• H: reduceされていないMarkov Network
• U = u: Hのcontext
• H[u] : U=uとしてreduceされたMarkov Network
• Reduced Markov Networkは
– W = X – Uをノードとする
– 任意の二点 X, Y∈W 間に対し、reduceされていな
いH上でエッジが存在する時のみ、X, Y間にエッジ
が存在する
Example 4.3 (p.112)
生徒の成績モデル
• Reduceなし • Context
– Grade=g
• Context
– Grade=g
– SAT=s
Minimal I-map (p. 102)
• 動機:I-mapのみでは不十分。なぜか?
• クリークは特に独立性をエンコードしていない
ので、任意の分布PのI-mapである
– I-mapの定義は部分集合であったことを思い出す!
• グラフGは分布PのMinimal I-mapであるとは[8]:
– 定義、以下の二点を満たす:
• GはPのI-map
• G’ ⊂ G ならばG’はPのI-mapでない
– Gに含まれる任意の辺を一つ取り除いた時、Pにな
かった独立性がGに含まれるようになる
Section 4.3.2 (p. 120)
Minimal I-mapの構築方法
• 二つのローカルな独立性を定義:
– Pairwise Independency
– Local Independency
• Def. Markov Blanket
• 以上がPositive distributionでは同値
• Globalな独立性はグラフのseparationによる
定義
Def. 4.10 (p. 118)
Pairwise Independency
• H上のノードX, Y以外がgivenなとき、XとYの間
にエッジがない時、XとYはpairwise
independentである、と定義する
• i.e. 全てのノードのペアX, Yに対し、条件付き
独立でないノードのペアをエッジで結んでいく
Def. 4.11 Markov Blanket (MB)
(Def 4.12でも定義されている)
• MB(X): Xに隣接したノードの集合
– ただしこの定義はグラフを用いて定義している
– 分布Pからグラフを構築する際にこの定義だけ
どと「どのノードをXに隣接させるか」が断定でき
ない
http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/AV0809/ORCHARD/
Def 4.11, 4.12 Local Independency
• Local independency associated with Markov
network Hを以下のように定義
• なお、分布Pの独立性を用いて、MBを定義する:
– 以下の性質を満たす最小の集合UはMBと定義する
– 結果としてノードXに隣接したノードの集合となる
• i.e. 全てのノードXに対してMB(X)をとり、MB(X)
に含まれる全てのノードに対し、Xとエッジで結ぶ
Section 4.3.2.2 (p.118)
マルコフ性との関係性
• {Global, pairwise, local} independencyをまと
めて「マルコフ性」と呼んでいる
– Koller本ではセクションのタイトルのみだが、MLプ
ロフェッショナルシリーズでは定義として出てくる
– 名前の由来はおそらく「局所的」な独立性
• 命題 4.3:
• 命題 4.4:
• Pairwise independencyはlocalと比較し
て、”givenなノードが多い”定義
命題4.3の図解
Thm 4.4 (p.119)
正値分布での3種類の独立の同値性
• P:正値分布
証明:
• I(H) = {(X indep Y |Z ) : Sep_H(X;Y|Z)} (∵定義より)
• 互いに全ての素な確率変数の集合X, Y, Z⊆χに対し、
Sep_H(X;Y|Z)=>P|= (X indep Y |Z)を示せばよい
• |Z|に対する帰納法で示す。X ∈ X, Y∈Y
• |Z| = n – 2の時、Z = χ – {X, Y}, X = {X}, Y = {Y}
– I_p(H) = { (X indep Y | χ – {X, Y}) : X, Y間にエッジなし } (∵定義より)
– ∴P |= Sep_H(X;Y|Z) => P |= (X indep Y |Z )
• i.e.全てのZ’ s.t. |Z’| = kに対し、Sep_H(X;Y|Z’) => P|= (X indep Y |
Z’)を仮定。
– 任意のZ s.t. |Z| = k -1に対してもSep_H(X;Y|Z) => P|= (X indep Y | Z)
が成立することを示す
Thm 4.4 の証明の続き
• X ∪ Y ∪ Z = χの時、
• Y’ = Y – {A}を考える
• Sep(X;Y|Z)
1. => Sep_H(X;Y’|Z) & Sep_H(X;A|Z)
2. => Sep_H(X;Y’|Z∪{A}) & Sep_H(X;A|Z∪Y’)
• |Z∪{A}| = k, |Z∪Y’| =k, より帰納法の仮定が成立
• ∴ P|= (X indep Y’ | Z∪{A}), (X indpep {A}|Z∪Y’)
• P.25, (2.11)より (X indep Y’∪{A}|Z) = (X indep Y|Z)
• Exercise 4.9でX ∪ Y ∪ Z ≠ χの場合を考える
Cororally 4.1 (p. 119)
• i.e. 正値分布Pに対してはglobal
independency, local independency, pairwise
independencyは全て同値である。
• 以下が同値である
Section 4.3.3 (p. 120)
分布PのMinimal I-mapの構築方法
• (Thm 4.5) Pairwise independency => unique
minimal I-map
• (Thm 4.6) local independency => unique minimal
I-map
– 証明はExercise 4.11
• ただしPが正値分布である必要があることに注意
– Example 4.7は正値分布でない場合に成立しない例を
挙げている
p.121 Example 4.7 Thm 4.5, 4.6におけ
る正値分布の重要性
• 以下の分布Pを考える:
– P(a^1, b^1, c^1, d^1) = 0.5
– P(a^0, b^0, c^0, d^0) = 0.5
– 以上以外の割当では0
• 以上の分布は である
– e.g., P(A | B) = P(A, C | B)より (A indep C | B)
• Local independencyを用いてI-map構築を試みる
• MBの定義4.12でU={B}とすると、MB(A) = B
p. 121 Example 4.7, Thm 4.6でもし
Pが正値分布でない場合
• 同様に(C indep A, B | D)よりMB(C) = D
• (D indep A, B | C)よりMB(D) = C
• 以下のグラフKが構築される
• しかしKはPのI-mapでない
– Pで埋め込まれていない独立性がKにある
– E.g. 分布Pは(A indep D)ではないが、グラフKはA, D
間にエッジがないため、(A indep D)であるため
Minimal I-mapが分布Pの独立性を全
て網羅しているとは限らない
(Coursera Week2より)
• Perfect map: I(H) = I(P)
– Hは分布Pの独立性を完全にencodeしている
• ただし、perfect mapが存在するとは限らない
• 例: 左のBNから導出される分布Pを考える
– Gがgivenな時
• BNでは (D indep I | G)ではない • 上のMNではindpendentにな
るので、PのI-mapでない
Minimal I-mapが分布Pの独立性を全
て網羅しているとは限らない
(Coursera week 2より)
• Perfect map: I(H) = I(P)
– Hは分布Pの独立性を完全にencodeしている
• ただし、perfect mapが存在するとは限らない
• 例: 左のBNから導出される分布Pを考える
– Gがgivenな時
• BNでは (D indep I | G)ではない • 上のMNではindpendentにな
るので、PのI-mapになる
Section 4.4.1.1 (p. 123)
Factor Graph
• 同じ分布を表している(Exercise 4.6)が、
Factorizationが異なることを陽に示している
Markov NetworkFactor Graph 2Factor Graph 1
Def. 4.13 (p. 123)
Factor Graph
• MNとの大きな違い:ノードの種類を増やす
– 確率変数に対応するノード
– Factorに対応するノード
• Factor Graph F: factor集合によってパラメタ化
されており、各factor node V_φは一つの
factor Φに紐付けられている。
– このfactor Φのscopeはfactorノードに隣接した確
率変数のノードである
Log linear model (対数線形モデル)の
導入
• Factor graphはまだfactorをテーブルとして表
現するのでパラメタ数が多くなる
• テーブルではなく、分布をよりコンパクトに表
現するためにenergy functionを導入する
• その後featureを定義し、log-linear modelを定
義する
P.124 Energy function
• Factorを対数空間上に変換する
• i.e. log φ(D) = -ε(D)
• すると分布Pが以下のように表される:
Example 4.10 (p.125)
• A_1, A_2 のとりうる値がl(エル)個あるとす
る
• A_1 = A_2である場合が好ましい分布を表現
したい、とする
– 通常ではl^2個の値を設定する必要あり
• 以上のケースに関して以下のenergy function
を設定すればl^2個の値を扱う必要なし
Def 4.14 (p. 125)
Feature
• D: 確率変数の部分集合
• Feature f(D)とは Val(D) -> Rへの関数である、
と定義する
• ようするにfactorから「非負であること」の要件
がなくなったもの (p.125より)
Def. 4.15 (p.125)
Log linear model
• 下記を満たす確率分布PはMarkov Network(MN)
Hの対数線形モデルという:
• D_i: Hのクリーク
• Feature集合:
• Weight集合: {w_i}
• Box 4.Eにあるとおり、変数の値の範囲が大き
いときにこのようなコンパクトな表現は有効
Section 4.4.1.3 Discussion (Page 125)
• Markov Networkの表現方法は3つ
• Fine-grained (=表現がコンパクトである順)
1. Log linear model
2. Factor graph
3. Markov Network
• E.g. Box 4.EでのCRFの表現がコンパクト(=少な
いパラメタで確率分布の表現が可能)になる
• ただし、いつも対数線形モデルを使えばいいと
は限らない
– 独立性に着目したい時はMarkov Network
– Factor graphは推論する時に有用
Section 4.4.2 (p. 128)
Overparametrization
• Fine-grained factorを用いても一般的にはパ
ラメタ数が余剰である
• Example 4.11 (Page 128), Exercise 4.2 : energy
functionは一意でない
– E(A, B): P(A, B), P(A), P(B)に関する情報を含んで
いるため
• → canonical parameterization、もしくは
Eliminating Redundancyによって対処する
Section 4.4.2.1 Canonical
Parameterization (CP)
• H上のギブス分布のCPはHに含まれる全てのク
リークDを用いて定義
• 割当ξに対してl(ξ) = log P(ξ)とする
• ξ* はfixedな割当
• Z: クリークDの部分集合
• : と同じ。確率変数の集合Zに含ま
れない確率変数に対するfixedな割当
• Dに対するCanonical Energy Functionを以下のよ
うに定義:
Canonical Energy Function(CEF)をより
詳しく
• 割当のscope内にある部分集合全てに対して
包除原理(inclusion-exclusion principle)を適用
していく
Dの全ての部分集合Zに対する和
(空集合を含む)
包除原理適用時に用いる
Scope内の割当
Scope外の割当
p.130 Example 4.12宿題の誤解モデル
におけるCEFの算出例
D= {A, B}のScope
=
ln(1.4 * 10^-6) = -13.48 (?)
ln(1.4 * 10^-5) = -11.18
ln(6.9 * 10^-5) = -9.58
ln(0.04) = -3.2188... (?)
ξ* = (a^0, b^0, c^0, d^0)
p.130 宿題の誤解モデルにおける
CEFの算出結果
• 理解を深めるためにもε*(a^1, b^0), ε*(a^0),
ε*(a^1), ε*(c^0, d^0)も算出
Figure 4.11のε*(a^1, b^0)の計算
• D = {A, B}, d: Dに対する割当
• Z = {A, B}, d_Z = {a^1, b^0}の時、
– |D - Z| = 0, ξ*_-Z = {c^0, d^0}
Z = φd_Z = {b^0}
d_Z = {a^1}d_Z = {a^1, b^0}
Figure 4.11のε*(a^0)の計算
• ε*(a^0) = 0, D = {A}
Figure 4.11のε*(a^1)の計算
• ε*(a^1) = -8.01, D = {A}
Thm 4.7(p.130)
Canonical parameterizationは元の分
布と一致
• P: 正値ギブス分布
• D_i: クリーク
• : クリークD_iに対するCEF
• 証明はChapter 4の後半で。Hが一つのクリークし
か含まない場合は exercise 4.4で。
Thm 4.8 (p. 131)
Hammersly-Cliford Theorem
• HがPのI-map => PはH上のギブス分布
証明:
• Canonical parameterizationを用いて証明する
• Gibbs分布がマルコフ性を満たすことを示す。
• 1. 全ての確率変数の部分集合Dに対し、energy
functionを定義
• P. 130 Thm 4.7の証明と同様
• D: クリーク (確率変数の集合)
• W:ある確率変数の部分集合
– W ⊆ D – {X, Y}
– X, Y ∈ W
Thm4.8の証明の続き
• Canonical Energy functionによって定義され
る分布がギブス分布であることを示せばよ
い。
Section 4.4.2.2 (p. 131) 冗長性の排除
(Eliminating Redundancy)
• Feature間の線形独立性を用いて排除する
• 任意の割当ξに対し、以下の式を満たす全て0
でない定数a_0, …, a_kが存在する時、
f_1, …, f_kは線形独立でない(linearly
dependent)、という
命題4.5 (p.133)
• 線形独立でないと、分布Pを表現しうる対数線形モデルが複数存
在する
• F: 分布Pを表すfeatureの集合
• w: 分布Pを表すweightの集合
• 任意の割当ξに対し、以下の式を満たす全て0でない定数a_0, …,
a_kが存在する時、
• weight集合 w’ = {w_1 + a_1, …, w_k + a_k}も分布Pを表す
• 互いに線形独立でないfeatureはredundantである、という
命題4.5の証明
命題4.6(p.133) non-redundant feature
なら分布Pに対するweightは一意
• f: non-redundant feature
• w, w’ ∈ R^k
(p.133) example 4.15 Misconception
exampleのNonredundant feature set
• 16 * 16 matrix: 16 features, 16通りの割当
– “four factors with four features each”
– four factorsとはφ(A, B), φ(B, C), φ(C, D), φ(D, A)
– Indicator featureをexample 4.13で設定
– 以下の行列はrank 9よりnon-redundant feature setは8つ
16*16の行列の全容:
八木さんのスクリプト実行結果
Nonredundant feature setの一例
• Figure 4.11を参考にすると以下の8 featuresが一例
– f{a^1, b^1}, f{b^1, c^1}, f{c^1, d^1}, f{d^1, a^1}.
– f_{a^1}, f_{b^1}, f_{c^1}, f_{d^1}
ε*{c^1}, ε*{d^1}が0であるのは偶然:
Figure 4.11のε*(c^1)の計算
• ε*(c^1) = 0, D = {C}
ln(0.04) = -3.2188... (?)
0
(再掲)Figure 4.11のε*(a^0)の計算
• ε*(a^0) = 0, Z = { {a^0}, φ}
• Misconception exampleで、全てゼロの割当のCEFは
factorの値がなんであろうと必ずゼロになっている
Example 4.15 p.133 Nonredundant
feature set
• f{a^1, b^1}、f_{a^1}の2つのfeatureにf_{a^1, b^0}を加える
とlinearly dependentであることを見てみる
1. A = a^1 B=b^1の時、
– f_{a^1, b^0} = 0, f{a^1, b^1} = 1, f_{a^1} = 1より上の式は= 0
2. A = a^1 B=b^0の時、
– f_{a^1, b^0} = 1, f{a^1, b^1} = 0, f_{a^1} = 1より上の式は= 0
3. A = a^0 B=b^1の時、
– f_{a^1, b^0} = 0, f{a^1, b^1} = 0, f_{a^1} = 0より上の式は= 0
4. A = a^0 B=b^0の時、
– f_{a^1, b^0} = 0, f{a^1, b^1} = 0, f_{a^1} = 0より上の式は= 0
今日(約1時間)発表した内容
(=重要なポイント)
• Reduced Markov Network (10分)
• {local, pairwise} independency (10分)
• Markov Networkのパラメタ化 (30分)
– Factor graph
– Log-linear model
– Canonical Energy Functionの算出例(Figure 4.11)
発表で飛ばしたところ
• Thm 4.4(p.119)の証明
• Thm 4.8(p.131) の証明
参考文献一覧(リンク)
1. Koller本 (教科書)
2. CourseraのWeek 2 “Fundamentals of Markov Network”
3. CMUの授業プリント http://www.cs.cmu.edu/~16831-
f14/notes/F11/16831_lecture07_bneuman.pdf
4. CMUの授業スライド http://www.cs.cmu.edu/~guestrin/Class/10708-
F06/Slides/undirected-variational-annotated.pdf
5. 機械学習プロフェッショナルシリーズ「グラフィカルモデル」
6. Buffalow大学の授業スライド
http://www.cedar.buffalo.edu/~srihari/CSE574/Chap8/Ch8-PGM-
Undirected/9.3-ConstructingMNs.pdf
7. Northwestern大学の授業スライド
http://www.cs.northwestern.edu/~ddowney/courses/395_Winter2010/
mnets.pdf
8. UC Santa Cruzの授業スライド
https://classes.soe.ucsc.edu/cmps290c/Winter06/paps/nir2.pdf

More Related Content

What's hot

[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミングYuto Takei
 
Magnitude ~ extend the Euler Characteristics via Möbius Inversion ~
Magnitude ~ extend the Euler Characteristics via  Möbius Inversion ~Magnitude ~ extend the Euler Characteristics via  Möbius Inversion ~
Magnitude ~ extend the Euler Characteristics via Möbius Inversion ~Tatsuki SHIMIZU
 
一階述語論理のメモ
一階述語論理のメモ一階述語論理のメモ
一階述語論理のメモKeisuke OTAKI
 
Chaos Game Representation Web Service
Chaos Game Representation Web ServiceChaos Game Representation Web Service
Chaos Game Representation Web ServiceKazuharu Arakawa
 

What's hot (6)

[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
 
Magnitude ~ extend the Euler Characteristics via Möbius Inversion ~
Magnitude ~ extend the Euler Characteristics via  Möbius Inversion ~Magnitude ~ extend the Euler Characteristics via  Möbius Inversion ~
Magnitude ~ extend the Euler Characteristics via Möbius Inversion ~
 
一階述語論理のメモ
一階述語論理のメモ一階述語論理のメモ
一階述語論理のメモ
 
Chapter1 4.6 mod
Chapter1 4.6 modChapter1 4.6 mod
Chapter1 4.6 mod
 
Chapter1 4.6
Chapter1 4.6Chapter1 4.6
Chapter1 4.6
 
Chaos Game Representation Web Service
Chaos Game Representation Web ServiceChaos Game Representation Web Service
Chaos Game Representation Web Service
 

Viewers also liked

「実ロボットの運動生成」
「実ロボットの運動生成」「実ロボットの運動生成」
「実ロボットの運動生成」Yurika Doi
 
Logic Apps と Api Apps の話
Logic Apps と Api Apps の話Logic Apps と Api Apps の話
Logic Apps と Api Apps の話Sunao Tomita
 
ZDDでSATを解く
ZDDでSATを解くZDDでSATを解く
ZDDでSATを解くgotoloop
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布Junya Saito
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みMasahiro Sakai
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelKei Uchiumi
 
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないPyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないToshihiro Kamishima
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2Jiro Nishitoba
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131Hangyo Masatsugu
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural NetworksSeiya Tokui
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)Yoshinari Fujinuma
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてHiroshi Shimizu
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるitoyan110
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習Yuki Noguchi
 
Hype vs. Reality: The AI Explainer
Hype vs. Reality: The AI ExplainerHype vs. Reality: The AI Explainer
Hype vs. Reality: The AI ExplainerLuminary Labs
 

Viewers also liked (19)

言語モデル入門
言語モデル入門言語モデル入門
言語モデル入門
 
「実ロボットの運動生成」
「実ロボットの運動生成」「実ロボットの運動生成」
「実ロボットの運動生成」
 
Logic Apps と Api Apps の話
Logic Apps と Api Apps の話Logic Apps と Api Apps の話
Logic Apps と Api Apps の話
 
ZDDでSATを解く
ZDDでSATを解くZDDでSATを解く
ZDDでSATを解く
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組み
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないPyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づける
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習
 
Hype vs. Reality: The AI Explainer
Hype vs. Reality: The AI ExplainerHype vs. Reality: The AI Explainer
Hype vs. Reality: The AI Explainer
 

More from Yoshinari Fujinuma (14)

IT業界における英語とプログラミングの関係性
IT業界における英語とプログラミングの関係性IT業界における英語とプログラミングの関係性
IT業界における英語とプログラミングの関係性
 
Kuromoji FST
Kuromoji FSTKuromoji FST
Kuromoji FST
 
Liさん
LiさんLiさん
Liさん
 
冨田さん
冨田さん冨田さん
冨田さん
 
藤沼さん
藤沼さん藤沼さん
藤沼さん
 
Yokoさん
YokoさんYokoさん
Yokoさん
 
Panotさん
PanotさんPanotさん
Panotさん
 
大橋さん
大橋さん大橋さん
大橋さん
 
研究室紹介用ポスター
研究室紹介用ポスター研究室紹介用ポスター
研究室紹介用ポスター
 
Minhさん
MinhさんMinhさん
Minhさん
 
Pascualさん
PascualさんPascualさん
Pascualさん
 
Pontusさん
PontusさんPontusさん
Pontusさん
 
hara-san's research
hara-san's researchhara-san's research
hara-san's research
 
Tweet Recommendation with Graph Co-Ranking
Tweet Recommendation with Graph Co-RankingTweet Recommendation with Graph Co-Ranking
Tweet Recommendation with Graph Co-Ranking
 

Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

  • 1. Probablistic Graphical Models Section 4.1 - Section 4.4 藤沼祥成
  • 2. 自己紹介 • 藤沼祥成 @akkikiki • 経歴 – 国際基督教大学 (ICU) 学士 – 東京大学大学院 情報理工学系研究科 CS専攻 修士 – 検索のソフトウェア開発エンジニア
  • 3. 用語集(翻訳集) • Maximal clique – 極大クリーク – 資料によっては「最大クリーク」とも • complete subgraph – クリークと同義 – 完全部分グラフとも同義 • induced by, associated with – 本プレゼンでは「導出される、付随する」とします • Canonical Parameterization – 正準パラメタ化 (MLaPPの輪講スライドより)
  • 4. Chapter 4前半の概要(話の流れ) • Chapter 3の有向グラフに対する定義を無向 グラフに対しても定義 • マルコフネットワークの: – Gibbs分布との関係性 – 独立性と因子分解 – パラメタ化の粒度に関して • 以下は(次回に?)飛ばします: – Box 4.C, 4.D
  • 5. Section 4.1 Misconception Example (宿題の誤解モデル) • Page 83, Example 3.8, Section 3.4.2 • 4人の生徒がペアを作り、宿題に取り組む。 – ただし授業中、教授が間違ったことを言っていた – そのため生徒間で正しい共通認識がない – 各生徒が授業での内容とは別に、独自に答えに たどり着いた – (Alice, Bob), (Bob, Charles), (Charles, Debbie), (Debbie, Alice)の間でしか口をきかない – ある二人の生徒間でmisconception(誤解)がある かどうかをグラフィカルモデルでモデル化
  • 7. Def 4.1 Factor (因子) • 「確率変数間の相互作用」をきちんと定義 • D: 確率変数の集合 • Factor φ: Val(D) -> Rなる関数 • Dは”factorのスコープ”と呼ばれる • factorの全てのentryが非負であるとき、Factorが非負 である、という • (p. 58) Val(D):確率変数Dがとりうる値の集合 – 宿題の誤解モデルだと0か1 • φ(A, B), φ(A, B, C)といった形ででてくる • 最初の方は|D| = 2で話が進む
  • 8. 宿題の誤解モデルにおけるFactor例 • 宿題の答えが0か1のどちらかしかない • (0, 0)もしくは(1, 1)の値が大きいほど、同じ答 えに到達している • 上の表を「Factorをテーブルで表現する」と本プレ ゼンでは呼ぶ
  • 9. Section 4.2 Parametrization (P. 106) • グラフ構造自体をパラメタ化し、確率分布を 表現したい – ちなみにFactorは直接、確率や条件付き確率に 対応している訳ではない
  • 10. Def. 4.2 Factor Product • X, Y, Zは互いに疎(disjoint)な確率変数 • Factor: • Factor product ψ(X, Y, Z)を以下に定義:
  • 12. Def 4.3 (p.108) Gibbs分布 • Factor集合 Φによってパラメタ化される • Factorの積をとる • 正規化項Zは全てのとりうる割当の和をとる • Zを用いて正規化しGibbs分布P_φを定義
  • 14. Def 4.4 (Page 109) マルコフネットワークHでの因子分 解 • 分布 • がHの完全部分グラフである とき、P_ΦはH上で因子分解される (P_Φ factorize over H)という • ちなみに完全部分グラフは(極大)クリークの 部分集合なのでクリークで定義してもよい • ただし、グラフのover parameterizationが問題 – Section 4.4.1.1 (Factor Graph)にて詳しく解説
  • 15. Section 4.3 (Page 114) Independency in Markov Network - 独立性と因子分解との関 連性
  • 16. そもそもIndependencyとは何か? • Def 3.2 (p. 60)に分布Pに対する Independencyの定義あり – Independency associated with P • Page 4より • H:宿題の誤解モデル – (マルコフネットワーク) Independencies {induced by, associated with} Markov Network H - まとめてI(H) と表す
  • 17. 導入: Separation(分離性?) in Markov Network • MN上の独立性をきちんと定義するための導入
  • 18. Thm 4.1 (p. 115, Coursera week 2) • I(H): グラフHから導出された独立性 – 教科書ではGlobal independencyとも
  • 19. Def 3.3 I-map (p. 60)を もう一度復習 • 注意: I-mapとI(H)は別物 – MNではI(H)はseparationによって定義されている • K: グラフ(無向、有向、問わず) • I(K): a set of independencies associated with K • I: a set of independencies • If I(K) ⊆ I, then KはIのI-map、という • 「KはI(P)のI-map」ならば、「Kは分布PのI-map」と 呼ぶ • Iの部分集合であればいいのがポイント – (p. 61) 分布PはグラフKにない独立性を含む場合あり – i.e. 分布PはグラフKにある独立性を含む必要あり
  • 20. Thm 4.1, I-Mapの例 • P: • H: • PはH上でfactorize • =>Thm4.1よりHはPの I-map • Z = {D, B}がgivenの時、 – AとCはseparated
  • 21. Thm 4.1, I-Mapの例 Pに付随している独立性とは? • P: • PはH上でfactorize • Exercise 2.5で以下の同値条件を示した – iff
  • 22. Thm 4.1, I-Mapの例 HがPのI-mapであることの確認 • PはH上でfactorize • Exercise 2.5で以下の同値条件を示した – iff Z = B Z = D • Hの二つの独立性がPにも付 随していることが確認できる
  • 23. Thm 4.2 (page 116) Hammersley-Clifford theorem • Independent => Factorization • P: positive distribution • If H is an I-map for P, then P factorizes over H • グラフ上でseparatedであれば因子分解可能 • Example 4.4, page 109 • Ex. 4.1はpositive distributionでない場合、成立し ない例を挙げ、確認する
  • 24. Exercise 4.1 (p. 116): Thm 4.2におけ るpositive distributionの重要性 • positive distributionでない場合、成立しない 例を挙げ、確認する • • 以下の割当全てに対して1/8の確率、他の割 当に対し0の確率とする確率分布Pがある。 • PはH上でfacorizeしないことを示せ
  • 25. Exercise 4.1の続き • PはH上でfacorizeすると仮 定 • 分布PはP(1,0,1,0)= 0 • Factorizeするので、定義か ら4つの完全部分グラフ(X_1, X_2), (X_2, X_3), (X_3, X_4), (X_4, X_1)に対する因子の 集合Φに対して P_Φ(X) = φ(X_1, X_2) * φ(X_2, X_3) * φ(X_3, X_4) * φ(X_4, X_1) • φ(X_1, X_2), φ(X_2, X_3), φ(X_3, X_4), φ(X_4, X_1) のいずれかはゼロ
  • 26. ここまでのSummary (Courseraより) • Factorization: H allows P to be represented • I-Map: Independencies encoded by H hold in P • 正値分布Pに埋め込まれている独立性と、マ ルコフネットワークHに埋め込まれている独立 性は一致している • ちなみにここでいうH上での独立性とはglobal independencyのこと – 正値分布に対してはlocal independencyとglobal independencyが一致することをこれから示す
  • 28. Section 4.2.3 (p.110) Reduced Markov Network • C = c^1として、Markov Networkを単純化する • Figure 4.3 (p. 107) と Figure 4.5 p. (111) • E.g. φ[c^1](a^1, b^1) = φ(a^1, b^1)*φ(b^1, c^1)
  • 29. Def 4.5 (p.111) Factor reduction (Φ[u]の定義) • Y: 確率変数の集合 • U = u: 確率変数の集合に対する割当, U ⊆ Y • Y’: Y – U • y’: Y’に含まれる各確率変数に対する割当 • Φ(Y): factor • Φ[u](Y): factor over Y’ such that • 前スライドにある例はu=c^1, y’ = {a, b}
  • 30. Def 4.6 (p.111) Reduced Gibbs Distribution • u: context (確率変数Uに割り当てる値) • φ[u]: U=uとしてreduceされたfactor • : factorの集合 • P_Φ[u]: reduceされたfactor集合Φによって定 義されるギブス分布 • Reduce後は確率分布の和が1になるよう、再 度正規化が必要
  • 31. Def 4.7 (p.111) Reduced Markov Network • H: reduceされていないMarkov Network • U = u: Hのcontext • H[u] : U=uとしてreduceされたMarkov Network • Reduced Markov Networkは – W = X – Uをノードとする – 任意の二点 X, Y∈W 間に対し、reduceされていな いH上でエッジが存在する時のみ、X, Y間にエッジ が存在する
  • 32. Example 4.3 (p.112) 生徒の成績モデル • Reduceなし • Context – Grade=g • Context – Grade=g – SAT=s
  • 33. Minimal I-map (p. 102) • 動機:I-mapのみでは不十分。なぜか? • クリークは特に独立性をエンコードしていない ので、任意の分布PのI-mapである – I-mapの定義は部分集合であったことを思い出す! • グラフGは分布PのMinimal I-mapであるとは[8]: – 定義、以下の二点を満たす: • GはPのI-map • G’ ⊂ G ならばG’はPのI-mapでない – Gに含まれる任意の辺を一つ取り除いた時、Pにな かった独立性がGに含まれるようになる
  • 34. Section 4.3.2 (p. 120) Minimal I-mapの構築方法 • 二つのローカルな独立性を定義: – Pairwise Independency – Local Independency • Def. Markov Blanket • 以上がPositive distributionでは同値 • Globalな独立性はグラフのseparationによる 定義
  • 35. Def. 4.10 (p. 118) Pairwise Independency • H上のノードX, Y以外がgivenなとき、XとYの間 にエッジがない時、XとYはpairwise independentである、と定義する • i.e. 全てのノードのペアX, Yに対し、条件付き 独立でないノードのペアをエッジで結んでいく
  • 36. Def. 4.11 Markov Blanket (MB) (Def 4.12でも定義されている) • MB(X): Xに隣接したノードの集合 – ただしこの定義はグラフを用いて定義している – 分布Pからグラフを構築する際にこの定義だけ どと「どのノードをXに隣接させるか」が断定でき ない http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/AV0809/ORCHARD/
  • 37. Def 4.11, 4.12 Local Independency • Local independency associated with Markov network Hを以下のように定義 • なお、分布Pの独立性を用いて、MBを定義する: – 以下の性質を満たす最小の集合UはMBと定義する – 結果としてノードXに隣接したノードの集合となる • i.e. 全てのノードXに対してMB(X)をとり、MB(X) に含まれる全てのノードに対し、Xとエッジで結ぶ
  • 38. Section 4.3.2.2 (p.118) マルコフ性との関係性 • {Global, pairwise, local} independencyをまと めて「マルコフ性」と呼んでいる – Koller本ではセクションのタイトルのみだが、MLプ ロフェッショナルシリーズでは定義として出てくる – 名前の由来はおそらく「局所的」な独立性 • 命題 4.3: • 命題 4.4: • Pairwise independencyはlocalと比較し て、”givenなノードが多い”定義
  • 40. Thm 4.4 (p.119) 正値分布での3種類の独立の同値性 • P:正値分布 証明: • I(H) = {(X indep Y |Z ) : Sep_H(X;Y|Z)} (∵定義より) • 互いに全ての素な確率変数の集合X, Y, Z⊆χに対し、 Sep_H(X;Y|Z)=>P|= (X indep Y |Z)を示せばよい • |Z|に対する帰納法で示す。X ∈ X, Y∈Y • |Z| = n – 2の時、Z = χ – {X, Y}, X = {X}, Y = {Y} – I_p(H) = { (X indep Y | χ – {X, Y}) : X, Y間にエッジなし } (∵定義より) – ∴P |= Sep_H(X;Y|Z) => P |= (X indep Y |Z ) • i.e.全てのZ’ s.t. |Z’| = kに対し、Sep_H(X;Y|Z’) => P|= (X indep Y | Z’)を仮定。 – 任意のZ s.t. |Z| = k -1に対してもSep_H(X;Y|Z) => P|= (X indep Y | Z) が成立することを示す
  • 41. Thm 4.4 の証明の続き • X ∪ Y ∪ Z = χの時、 • Y’ = Y – {A}を考える • Sep(X;Y|Z) 1. => Sep_H(X;Y’|Z) & Sep_H(X;A|Z) 2. => Sep_H(X;Y’|Z∪{A}) & Sep_H(X;A|Z∪Y’) • |Z∪{A}| = k, |Z∪Y’| =k, より帰納法の仮定が成立 • ∴ P|= (X indep Y’ | Z∪{A}), (X indpep {A}|Z∪Y’) • P.25, (2.11)より (X indep Y’∪{A}|Z) = (X indep Y|Z) • Exercise 4.9でX ∪ Y ∪ Z ≠ χの場合を考える
  • 42. Cororally 4.1 (p. 119) • i.e. 正値分布Pに対してはglobal independency, local independency, pairwise independencyは全て同値である。 • 以下が同値である
  • 43. Section 4.3.3 (p. 120) 分布PのMinimal I-mapの構築方法 • (Thm 4.5) Pairwise independency => unique minimal I-map • (Thm 4.6) local independency => unique minimal I-map – 証明はExercise 4.11 • ただしPが正値分布である必要があることに注意 – Example 4.7は正値分布でない場合に成立しない例を 挙げている
  • 44. p.121 Example 4.7 Thm 4.5, 4.6におけ る正値分布の重要性 • 以下の分布Pを考える: – P(a^1, b^1, c^1, d^1) = 0.5 – P(a^0, b^0, c^0, d^0) = 0.5 – 以上以外の割当では0 • 以上の分布は である – e.g., P(A | B) = P(A, C | B)より (A indep C | B) • Local independencyを用いてI-map構築を試みる • MBの定義4.12でU={B}とすると、MB(A) = B
  • 45. p. 121 Example 4.7, Thm 4.6でもし Pが正値分布でない場合 • 同様に(C indep A, B | D)よりMB(C) = D • (D indep A, B | C)よりMB(D) = C • 以下のグラフKが構築される • しかしKはPのI-mapでない – Pで埋め込まれていない独立性がKにある – E.g. 分布Pは(A indep D)ではないが、グラフKはA, D 間にエッジがないため、(A indep D)であるため
  • 46. Minimal I-mapが分布Pの独立性を全 て網羅しているとは限らない (Coursera Week2より) • Perfect map: I(H) = I(P) – Hは分布Pの独立性を完全にencodeしている • ただし、perfect mapが存在するとは限らない • 例: 左のBNから導出される分布Pを考える – Gがgivenな時 • BNでは (D indep I | G)ではない • 上のMNではindpendentにな るので、PのI-mapでない
  • 47. Minimal I-mapが分布Pの独立性を全 て網羅しているとは限らない (Coursera week 2より) • Perfect map: I(H) = I(P) – Hは分布Pの独立性を完全にencodeしている • ただし、perfect mapが存在するとは限らない • 例: 左のBNから導出される分布Pを考える – Gがgivenな時 • BNでは (D indep I | G)ではない • 上のMNではindpendentにな るので、PのI-mapになる
  • 48. Section 4.4.1.1 (p. 123) Factor Graph • 同じ分布を表している(Exercise 4.6)が、 Factorizationが異なることを陽に示している Markov NetworkFactor Graph 2Factor Graph 1
  • 49. Def. 4.13 (p. 123) Factor Graph • MNとの大きな違い:ノードの種類を増やす – 確率変数に対応するノード – Factorに対応するノード • Factor Graph F: factor集合によってパラメタ化 されており、各factor node V_φは一つの factor Φに紐付けられている。 – このfactor Φのscopeはfactorノードに隣接した確 率変数のノードである
  • 50. Log linear model (対数線形モデル)の 導入 • Factor graphはまだfactorをテーブルとして表 現するのでパラメタ数が多くなる • テーブルではなく、分布をよりコンパクトに表 現するためにenergy functionを導入する • その後featureを定義し、log-linear modelを定 義する
  • 51. P.124 Energy function • Factorを対数空間上に変換する • i.e. log φ(D) = -ε(D) • すると分布Pが以下のように表される:
  • 52. Example 4.10 (p.125) • A_1, A_2 のとりうる値がl(エル)個あるとす る • A_1 = A_2である場合が好ましい分布を表現 したい、とする – 通常ではl^2個の値を設定する必要あり • 以上のケースに関して以下のenergy function を設定すればl^2個の値を扱う必要なし
  • 53. Def 4.14 (p. 125) Feature • D: 確率変数の部分集合 • Feature f(D)とは Val(D) -> Rへの関数である、 と定義する • ようするにfactorから「非負であること」の要件 がなくなったもの (p.125より)
  • 54. Def. 4.15 (p.125) Log linear model • 下記を満たす確率分布PはMarkov Network(MN) Hの対数線形モデルという: • D_i: Hのクリーク • Feature集合: • Weight集合: {w_i} • Box 4.Eにあるとおり、変数の値の範囲が大き いときにこのようなコンパクトな表現は有効
  • 55. Section 4.4.1.3 Discussion (Page 125) • Markov Networkの表現方法は3つ • Fine-grained (=表現がコンパクトである順) 1. Log linear model 2. Factor graph 3. Markov Network • E.g. Box 4.EでのCRFの表現がコンパクト(=少な いパラメタで確率分布の表現が可能)になる • ただし、いつも対数線形モデルを使えばいいと は限らない – 独立性に着目したい時はMarkov Network – Factor graphは推論する時に有用
  • 56. Section 4.4.2 (p. 128) Overparametrization • Fine-grained factorを用いても一般的にはパ ラメタ数が余剰である • Example 4.11 (Page 128), Exercise 4.2 : energy functionは一意でない – E(A, B): P(A, B), P(A), P(B)に関する情報を含んで いるため • → canonical parameterization、もしくは Eliminating Redundancyによって対処する
  • 57. Section 4.4.2.1 Canonical Parameterization (CP) • H上のギブス分布のCPはHに含まれる全てのク リークDを用いて定義 • 割当ξに対してl(ξ) = log P(ξ)とする • ξ* はfixedな割当 • Z: クリークDの部分集合 • : と同じ。確率変数の集合Zに含ま れない確率変数に対するfixedな割当 • Dに対するCanonical Energy Functionを以下のよ うに定義:
  • 58. Canonical Energy Function(CEF)をより 詳しく • 割当のscope内にある部分集合全てに対して 包除原理(inclusion-exclusion principle)を適用 していく Dの全ての部分集合Zに対する和 (空集合を含む) 包除原理適用時に用いる Scope内の割当 Scope外の割当
  • 59. p.130 Example 4.12宿題の誤解モデル におけるCEFの算出例 D= {A, B}のScope = ln(1.4 * 10^-6) = -13.48 (?) ln(1.4 * 10^-5) = -11.18 ln(6.9 * 10^-5) = -9.58 ln(0.04) = -3.2188... (?) ξ* = (a^0, b^0, c^0, d^0)
  • 61. Figure 4.11のε*(a^1, b^0)の計算 • D = {A, B}, d: Dに対する割当 • Z = {A, B}, d_Z = {a^1, b^0}の時、 – |D - Z| = 0, ξ*_-Z = {c^0, d^0} Z = φd_Z = {b^0} d_Z = {a^1}d_Z = {a^1, b^0}
  • 64. Thm 4.7(p.130) Canonical parameterizationは元の分 布と一致 • P: 正値ギブス分布 • D_i: クリーク • : クリークD_iに対するCEF • 証明はChapter 4の後半で。Hが一つのクリークし か含まない場合は exercise 4.4で。
  • 65. Thm 4.8 (p. 131) Hammersly-Cliford Theorem • HがPのI-map => PはH上のギブス分布 証明: • Canonical parameterizationを用いて証明する • Gibbs分布がマルコフ性を満たすことを示す。 • 1. 全ての確率変数の部分集合Dに対し、energy functionを定義 • P. 130 Thm 4.7の証明と同様 • D: クリーク (確率変数の集合) • W:ある確率変数の部分集合 – W ⊆ D – {X, Y} – X, Y ∈ W
  • 66. Thm4.8の証明の続き • Canonical Energy functionによって定義され る分布がギブス分布であることを示せばよ い。
  • 67. Section 4.4.2.2 (p. 131) 冗長性の排除 (Eliminating Redundancy) • Feature間の線形独立性を用いて排除する • 任意の割当ξに対し、以下の式を満たす全て0 でない定数a_0, …, a_kが存在する時、 f_1, …, f_kは線形独立でない(linearly dependent)、という
  • 68. 命題4.5 (p.133) • 線形独立でないと、分布Pを表現しうる対数線形モデルが複数存 在する • F: 分布Pを表すfeatureの集合 • w: 分布Pを表すweightの集合 • 任意の割当ξに対し、以下の式を満たす全て0でない定数a_0, …, a_kが存在する時、 • weight集合 w’ = {w_1 + a_1, …, w_k + a_k}も分布Pを表す • 互いに線形独立でないfeatureはredundantである、という
  • 71. (p.133) example 4.15 Misconception exampleのNonredundant feature set • 16 * 16 matrix: 16 features, 16通りの割当 – “four factors with four features each” – four factorsとはφ(A, B), φ(B, C), φ(C, D), φ(D, A) – Indicator featureをexample 4.13で設定 – 以下の行列はrank 9よりnon-redundant feature setは8つ
  • 73. Nonredundant feature setの一例 • Figure 4.11を参考にすると以下の8 featuresが一例 – f{a^1, b^1}, f{b^1, c^1}, f{c^1, d^1}, f{d^1, a^1}. – f_{a^1}, f_{b^1}, f_{c^1}, f_{d^1}
  • 75. (再掲)Figure 4.11のε*(a^0)の計算 • ε*(a^0) = 0, Z = { {a^0}, φ} • Misconception exampleで、全てゼロの割当のCEFは factorの値がなんであろうと必ずゼロになっている
  • 76. Example 4.15 p.133 Nonredundant feature set • f{a^1, b^1}、f_{a^1}の2つのfeatureにf_{a^1, b^0}を加える とlinearly dependentであることを見てみる 1. A = a^1 B=b^1の時、 – f_{a^1, b^0} = 0, f{a^1, b^1} = 1, f_{a^1} = 1より上の式は= 0 2. A = a^1 B=b^0の時、 – f_{a^1, b^0} = 1, f{a^1, b^1} = 0, f_{a^1} = 1より上の式は= 0 3. A = a^0 B=b^1の時、 – f_{a^1, b^0} = 0, f{a^1, b^1} = 0, f_{a^1} = 0より上の式は= 0 4. A = a^0 B=b^0の時、 – f_{a^1, b^0} = 0, f{a^1, b^1} = 0, f_{a^1} = 0より上の式は= 0
  • 77. 今日(約1時間)発表した内容 (=重要なポイント) • Reduced Markov Network (10分) • {local, pairwise} independency (10分) • Markov Networkのパラメタ化 (30分) – Factor graph – Log-linear model – Canonical Energy Functionの算出例(Figure 4.11)
  • 79. 参考文献一覧(リンク) 1. Koller本 (教科書) 2. CourseraのWeek 2 “Fundamentals of Markov Network” 3. CMUの授業プリント http://www.cs.cmu.edu/~16831- f14/notes/F11/16831_lecture07_bneuman.pdf 4. CMUの授業スライド http://www.cs.cmu.edu/~guestrin/Class/10708- F06/Slides/undirected-variational-annotated.pdf 5. 機械学習プロフェッショナルシリーズ「グラフィカルモデル」 6. Buffalow大学の授業スライド http://www.cedar.buffalo.edu/~srihari/CSE574/Chap8/Ch8-PGM- Undirected/9.3-ConstructingMNs.pdf 7. Northwestern大学の授業スライド http://www.cs.northwestern.edu/~ddowney/courses/395_Winter2010/ mnets.pdf 8. UC Santa Cruzの授業スライド https://classes.soe.ucsc.edu/cmps290c/Winter06/paps/nir2.pdf

Editor's Notes

  1. Dに対する割当かな?
  2. 対数線形モデルの説明において「factorをテーブルで表現する必要がない」
  3. P(A, C | B, D) = P(A | B, D) * P(C | B, D) 18章、構造の学習。 ある確率性が指数オーダーの計算になるはず。
  4. 健全性
  5. 例を挙げてHがPのI-mapであることを確認
  6. Misconception Exampleではない! 割当にC = c^2もあるしね
  7. U’はYとUの共通部分(積集合)
  8. 4.5でBayesian Networkのケースを扱います。
  9. 分布PはHのlocal independencyを満たす (satisfies), CourseraのI-mapsでもそう言っていた。
  10. p. 21 χ = {X_1, X_2, …, X_n}
  11. ここもカバーしきれていない
  12. 何のためにやるの? P(A | B) = P(A, C | B)より A \indep C | B (Def. 2.10) p. 31
  13. 「グラフKは分布PのI-map」分布PはグラフKにある独立性をすべて含んでいる必要がある あとのIndependencyは以上4つからp. 24, 25の性質を用いて導出できる P(A, B) ≠ P(A) P(B)
  14. Φ(A, B, C) V^3 Φ(A, B) + φ(B, C) * φ(C, A) V^2 + V^2 + V^2 テーブルのサイズが小さくなるか、大きくなるか
  15. 推論や学習の際の計算量に関わる
  16. 完全グラフになる誘導部分グラフを「クリーク」と呼ぶ