Ishihata 150319-final

Copyright©2014 NTTcorp. All Rights Reserved.
離散分布と離散構造
NTT コミュニケーション科学基礎研究所
石畠正和
数学協働プログラム
確率的グラフィカルモデル
2015年3月19(木)-20(金) @ 電気通信大学

2Copyright©2014 NTTcorp. All Rights Reserved.
石畠正和 (いしはたまさかず)
経歴
2006 石川高専修了
2008-2014 東工大 (学士, 修士, 博士) 修了
2013 NTT CS 研入社
指導教官
佐藤泰介教授 (東工大)
研究内容
論理に基づく確率モデリング
博士論文
Propositionalized Probability Computation and Learning on Binary Decision Diagrams
北陸新幹線 - Wikipedia
http://ja.wikipedia.org/wiki/%E5%8C%97%E9%99%B8%E6%96%B0%E
5%B9%B9%E7%B7%9A

発表の流れ
1. 確率モデリングとは
2. 確率と論理
3. 離散分布と離散構造

確率モデリングとは
• 確率モデリング
• 興味のある対象を確率モデルで記述すること
• 確率モデル = 確率分布
• 同時確率分布
• 条件付き確率分布
• 用途
• 予測 / 分類 / 診断
• 期待値計算
• 確率変数間の関係を理解

有名な確率モデル
• Naïve Bayes Model (NBM)
• 分類、診断、クラスタリング
• Hidden Markov Model (HMM)
• 系列データ解析
• Latent Dirichlet Allocation (LDA)
• 文書中の単語のトピック解析
y
x1 x2 xN
z1
x1 x2 xN
z2 zN
...
...
...
zdi xdiθd
φkβα

確率的グラフィカルモデル
• グラフで表現された確率モデル
• Bayesian Network (BN) : 有向
• Markov Random Field (MRF) : 無向
• 条件付き独立性を定義
• 素敵なところ
• 一目で分かった気になれる
y
x1 x2 xN
z1
x1 x2 xN
z2 zN
...
...
...
zdi xdiθd
φkβα

Bayesian Network (BN)
Bayesian network - Wikipedia, the free encyclopedia
http://en.wikipedia.org/wiki/Bayesian_network

Bayesian network - Wikipedia, the free encyclopedia
http://en.wikipedia.org/wiki/Bayesian_network
Directed Acyclic Graph
(DAG)
Conditional Probability Table
(CPT)
同時分布を定義

確率変数集合の同時分布を定義
Directed Acyclic Graph (DAG)
確率変数間の条件付き独立性を定義
Conditional Probability Table (CPT)
各確率変数の条件付き確率分布を定義
p(A, B, C)
p(A, B, C) =
p(A) p(B | A) p(C | A)
p(B=0 | A=1) = 0.3
p(B=1 | A=1) = 0.7
A
B C

確率モデルを設計する
• モデルの設計
• モデルの複雑さと表現力のトレードオフをコントロール
• モデルの複雑さ = 計算量
• 何も仮定しない  指数的な計算量
• 独立性を仮定する  計算量を削減
• モデルの表現力 = 精度
• 何も仮定しない  ありとあらゆる分布を表現可能
• 独立性を仮定する  表現力が下がる
独立性を仮定

確率モデルを設計する
• どうやって独立性を記述する？
• グラフで表現する (= 確率的グラフィカルモデル)
• 独立性の調整 = グラフ構造の調整
• グラフの記述力は十分？
• 不十分！
• 細かな独立性を記述するには論理が適役！
• 独立性の調整 = 論理式の書き換え

細かい独立性なんて必要？
• あなたは問診票から病気A の検診を受け
るべきかの識別器を作る依頼を受けました
• 問診票と回答者の病気Aの有無の教師
データが与えられました
• あなたはとりあえず Naïve Bayes Model で
データを学習しました

A
Q1 Q4Q2 Q3 Q5
p(A, Q1,…,Q5) = p(A) Πi p(Qi | A)
A が与えられた元では Q1~Q5 は独立

• 精度はもう一声…
• モデルを医者に見せてアドバイスを仰ぎました
• 「問診票で Yes が 3 個以上なら検診してます」
• ルール単体の精度ももう一声…
• ルールとモデルを組合せて精度向上できる？

A
Q1 Q4Q2 Q3 Q5
仮定) A = True なら Yes が 3 個以上
A が与えられた元では Q1~Q5 は独立

A
Q1 Q4Q2 Q3 Q5
= True
||
No
||
No

A
Q1 Q4Q2 Q3 Q5
= True
||
No
||
No
||
Yes
||
Yes
||
Yes
A が与えられた時 Q1~Q5 が独立でない！！

• 条件付き独立性だけでは表現力不足
• もっと細かな独立性が必要
1. Independence
2. Conditional Independence
3. Context Specific Independence
4. Partial Exchangeability 弱い仮定
強い仮定

発表の流れ
2. 確率と論理
1. 離散同時分布
2. 条件付き確率
3. 独立性と論理

離散確率変数
離散確率変数 X
• 離散の値を取る確率変数
• 本発表では有限の値とする
Bernoulli 分布 (= 2値 / コイン)
• p(X=x | θ) = θx (1-θ)1-x,
• x∈{0,1}, θ ∈[0,1]
Categorical 分布 (= 多値 / サイコロ)
• p(X=x | θ) = Πi θi
[x=i] = θx
• x∈{1,...,M}, θ=(θ1,...,θM), θi∈[0,1], ∑i θi = 1
p( X = 表(1) ) = θ
p( X = 裏(0) ) =1-θ
p(X = 1) = θ1
p(X = 2) = θ2
...
p(X = 6) = θ6
(∑i=1...6 θi = 1)

ID x1 x2 x3 p(x)
1 0 0 0 θ1
2 0 0 1 θ2
3 0 1 0 θ3
4 0 1 1 θ4
5 1 0 0 θ5
6 1 0 1 θ6
7 1 1 0 θ7
8 1 1 1 θ8
離散確率変数の同時分布 p(X | θ)
• Xi = 離散確率変数, xi∈{0,1}
• X = (X1,...,XN), x ∈Ω ≡{0, 1}N
• p(X = x | θ) = θID(x)
• θ=(θ1,...,θM), M = 2N
任意の同時分布を定めるには指数個のパラメータが必要
X の確率表
離散同時分布

条件付き確率
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ331 θ332
4 1 1 θ341 θ342
X1 の CPT
ID x1=0 1
1 θ111 θ112
X2 の CPT
X3 の CPT
p(X1, X2, X3 | θ) = p(X1 | θ1)p(X2 | X1, θ2)p(X3 | X1, X2, θ3)
X1
X2 X3
p(X | θ) の DAG

条件付き確率
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ331 θ332
4 1 1 θ341 θ342
θijk ≡ 表 i の行 j の列 k のパラメータ
= p(Xi = xik | ID(x1:i-1) = j, θi)
xik ≡ Xi の k 番目の値
x1:i ≡ (x1,...,xi)
X1 の CPT
X2 の CPT
X3 の CPT
3
2
1

条件付き確率
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ331 θ332
4 1 1 θ341 θ342
p(X1=1, X2=1, X3=1, θ) = θ112 θ222 θ342
= p(Xi = xik | ID(x1:i-1) = j, θi)
X1 の CPT
X2 の CPT
X3 の CPT

条件付き確率
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ331 θ332
4 1 1 θ341 θ342
X1 の CPT
X2 の CPT
X3 の CPT
p(X1=1, X2=1, X3=1, θ) = θ112 θ222 θ342
= p(Xi = xik | ID(x1:i-1) = j, θi)

条件付き確率
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ331 θ332
4 1 1 θ341 θ342
ただ条件付き確率に分解してもパラメータは指数個 
各行が Categorical 分布
X1 の CPT
X2 の CPT
X3 の CPT

p(X | θ) を効率的に定義する唯一の方法
ID x1 x2 ... xi-1 xi=0 1
1 0 0 ... 0 θi11 θi12
2 0 0 ... 1 θi21 θi22
... ... ... ... ... ... ...
... ... ... ... ... ... ...
... ... ... ... ... ... ...
2i-1-1 1 1 ... 0 ... ...
2i-1 1 1 ... 1 θi2i-11 θi2i-12
Xi の CPT = 指数サイズ
p(Xi | X1,...,Xi-1, θ)
p(Xi=xik| ID(x1:i-1)= j, θi) ≡ θijk

ID x1 x2 ... xi-1 xi=0 1
1 0 0 ... 0 θi11 θi12
2 0 0 ... 1 θi21 θi22
... ... ... ... ... ... ...
... ... ... ... ... ... ...
... ... ... ... ... ... ...
2i-1-1 1 1 ... 0 ... ...
2i-1 1 1 ... 1 θi2i-11 θi2i-12
ID xi=0 1
1 θi11 θi12
2 θi21 θi22
... ... ...
Mi θiMi1 θiMi2
パラメータを共有する
???
Xi のコンパクトな CPT
Mi = 多項式サイズ
写像
Ti
Xi の CPT = 指数サイズ
p(Xi | X1,...,Xi-1, θ) p(Xi | X1,...,Xi-1, θ)

ID Ti(x1:i-1) xi=0 1
1 1 θi11 θi12
2 2 θi21 θi22
... ... ... ...
Mi Mi θiMi1 θiMi2
Parameter Tying (Sharing)
Ti : {0,1}i-1 → {1,...,Mi}
p(Xi=xik | Ti(x1:i-1) = j, θi) ≡ θijk
x1:i-1 = (x1, x2,..., xi-1)
x1:i-1 ∈{0,1}i-1
p(Xi | X1,...,Xi-1, θ)
x1:i-1の代わりに Ti(x1:i-1) の値で
対応するパラメータを定義

ID Ti(x1:i-1) xi=0 1
1 1 θi11 θi12
2 2 θi21 θi22
... ... ... ...
Mi Mi θiMi1 θiMi2
Parameter Tying (Sharing)
Ti : {0,1}i-1 → {1,...,Mi}
p(Xi=xik | Ti(x1:i-1) = j, θi) ≡ θijk
p(Xi | X1,...,Xi-1, θ)
Ti を定義する
= 独立性を仮定する
x1:i-1 = (x1, x2,..., xi-1)
x1:i-1 ∈{0,1}i-1

離散分布と独立性
1. Independence
3. Context Specific Independence [Boutilier+ 96]
4. Partial Exchangeability [Niepert+ 14a]
強い独立性
弱い独立性

1. Independence
Bayesian Network
強い独立性
弱い独立性

1. Independence
論理
強い独立性
弱い独立性

0. 独立性なし
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ331 θ332
4 1 1 θ341 θ342
X1
X2 X3
すべての条件列が異なるパラメータを持つ (指数個)

1. Independence
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ211 θ212
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ311 θ312
3 1 0 θ311 θ312
4 1 1 θ311 θ312
独立性 = すべての条件列を無視する
p(X1, X2, X3 | θ) = p(X1 | θ1)p(X2 | θ2)p(X3 | θ3) : X1⊥⊥X2⊥⊥X3

1. Independence
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 * θ211 θ212
ID x1 x2 x3=0 1
1 * * θ311 θ312
T2(x1) = 1
T3(x1, x2) = 1

1. Independence
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 * θ211 θ212
ID x1 x2 x3=0 1
1 * * θ311 θ312
X1
X2 X3

ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ311 θ312
3 1 0 θ321 θ322
4 1 1 θ321 θ322
条件付き独立性 = 特定の条件列を無視する
p(X3 | X1, X2, θ3) = p(X3 | X1, θ3) : X2⊥⊥X3 | X1

ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 * θ311 θ312
2 1 * θ321 θ322
T3(x1, x2) =
1 : x1 = 0
2 : x1 = 1
p(X3 | X1, X2, θ3) = p(X3 | X1, θ3) : X2⊥⊥X3 | X1

ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 * θ311 θ312
2 1 * θ321 θ322
p(X3 | X1, X2, θ3) = p(X3 | X1, θ3) : X2⊥⊥X3 | X1
X1
X2 X3

ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ331 θ332
4 1 1 θ331 θ332
文脈依存独立性 = 特定の条件下で特定の条件列を無視する
p(X3 | X1=1, X2, θ3) = p(X3 | X1=1, θ3) : X2⊥⊥X3 | X1=1

ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 * θ331 θ332
T3(x1, x2) =
1 : x1=0, x2=0
2 : x1=0, x2=1
3 : x1=1
p(X3 | X1=1, X2, θ3) = p(X3 | X1=1, θ3) : X2⊥⊥X3 | X1=1

ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 * θ331 θ332
p(X3 | X1=1, X2, θ3) = p(X3 | X1=1, θ3) : X2⊥⊥X3 | X1=1
X1=0
X2 X3
X1=1
X2 X3 CSI は BN で表現できない

4. Partial Exchangeability
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ321 θ322
4 1 1 θ331 θ332
逆にこのように Parameter Tying するには
どうすればよいか？
p(X3 | X1, X2, θ3) = ???

ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ321 θ322
4 1 1 θ331 θ332
T3(x1, x2) = ???
p(X3= x3k | X1=x1, X2=x2, θ3) = θ3 T3(x1,x2) k

ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID T3(x1,x2) x3=0 1
1 1 θ311 θ312
2 2 θ321 θ322
3 3 θ331 θ332
T3(x1, x2) =
部分交換可能性 = 特定の条件 T でパラメータを共有
p(X3= x3k | X1=x1, X2=x2, θ3) = θ3 T3(x1,x2) k
1 : x1 = x2= 0
2 : x1 ≠ x2
3 : x1 = x2 =1

ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID T3(x1,x2) x3=0 1
1 1 θ311 θ312
2 2 θ321 θ322
3 3 θ331 θ332
部分交換可能性 = 特定の条件 T でパラメータを共有
p(X3= x3k | X1=x1, X2=x2, θ3) = θ3 T3(x1,x2) k
X1
X2 X3
BN ではこれ以上表現しようがない

論理と独立性
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ321 θ322
4 1 1 θ311 θ312
更に！このように Parameter Tying するには
どうすればよいか？
p(X3= x3k | X1=x1, X2=x2, θ3) = θ3 T3(x1,x2) k

論理と独立性
ID x1=0 1
1 θ111 θ112
ID x1 x2=0 1
1 0 θ211 θ212
2 1 θ221 θ222
ID x1 x2 x3=0 1
1 0 0 θ311 θ312
2 0 1 θ321 θ322
3 1 0 θ321 θ322
4 1 1 θ331 θ332
T3(x1, x2) =
1 : x1 ⊕ x2
2 : otherwise
あらゆる条件は論理で記述可能！！
p(X3= x3k | X1=x1, X2=x2, θ3) = θ3 T3(x1,x2) k

論理と独立性
論理を用いたパラメータ共有
Tij ≡ X1:i-1 上の論理式
Tij(x1:i-1) ≡ “Ti(xi:i-1) = j ”と等価な論理関数
ID x1 x2 x3=0 1 T31 T32
1 0 0 θ311 θ312 1 0
2 0 1 θ321 θ322 0 1
3 1 0 θ321 θ322 0 1
4 1 1 θ331 θ332 1 0
共有を直接論理式で
書き下せば良い

論理と独立性
• 確率表も同様に定義可能 ID x1 x2 x3 p(x)
1 0 0 0 θ1
2 0 0 1 θ2
3 0 1 0 θ3
4 0 1 1 θ4
5 1 0 0 θ5
6 1 0 1 θ6
7 1 1 0 θ7
8 1 1 1 θ8
X の確率表
p(X = x | θ) = θID(x)

論理と独立性
• 確率表も同様に定義可能 ID x1 x2 x3 p(x)
1 0 0 0 θ1
2 0 0 1
θ2
3 0 1 0
4 0 1 1 θ3
5 1 0 0 θ2
6 1 0 1
θ3
7 1 1 0
8 1 1 1 θ4
X の確率表
p(X = x | θ) = θID(x)
p(X = x | θ) = θT(x)
T(x) =
1 : sum(x) = 0
2 : sum(x) = 1
3 : sum(x) = 2
4 : sum(x) = 3

問診の例
ID Q1 Q2 Q3 Q4 Q5 p(Q | A)
1 No No No No No θ1
... … …
…
… … …
… … …
32 Yes Yes Yes Yes Yes θ32
A
Q1 Q4Q2 Q3 Q5

問診の例
ID Q1 Q2 Q3 Q4 Q5 p(Q | A)
1 Yes の数 = 0 θ1
A
Q1 Q4Q2 Q3 Q5
p(Q = q | A=True, θ) = θT(q)
T(q) = q 中の Yes の数
Low
High

論理と独立性
• 論理を用いて細かな独立性を定義可能
• 論理を用いることでルールを考慮した柔軟
なモデリングが可能

発表の流れ
2. 確率と論理
1. Compiling Probabilistic Models
2. 発想の転換

離散分布と離散構造
• 離散分布
• 離散確率変数の同時分布
• 実は論理を用いて独立性（= モデル）を記述可能
• 離散構造
• 論理、グラフなど + それらを効率的に扱う仕組み
• 離散分布と離散構造
• 論理を効率的に扱えれば、離散分布も効率的に扱える
• すべての不幸を論理に押し付ける

Knowledge Compilation [Darwich 02]
タスクに応じて論理を適切な形式に変換
変換後の形式上で効率的にタスクを実行
タスクの例
Consistency
Validity
Implicant
Equivalence
Model Counting
Model Enumeration
...
形式の例
Negation Normal Form (NNF)
Decomposable NNF (DNNF)
Deterministic NNF (d-NNF)
d-DNNF
Binary Decision Diagram (BDD)
Disjunctive Normal Form (DNF)
Conjunctive Normal Form (CNF)
...
||
変換後の形式サイズに対して多項式時間
X1
X3
X2
0 1

Compiling Probabilistic Models
1. 離散同時分布を論理式 Tij を用いて定義
2. 適切なデータ構造に Compile (圧縮)
3. データ構造上で Dynamic Programming を実行
X1
X3
X2
0 1
Model
Ti1 = (X1∨X2)∧X3
Ti2 = ￢Til ∧ X4
Ti3 = ￢（Ti1∨Ti2)
....
Observation
F = X1 ∨ X2
1. Modeling 2. Compiling 3. Dynamic Programming
X1
X3
X2
0 1

Compiling Probabilistic Models
• Compiling Bayesian Networks
• Probabilistic Logic Programming
• Lifted Inference

Compiling Bayesian Network
DAG + CPT を合わせて別の構造に Compile (圧縮)
変換後の構造上の DP で確率計算
→ Context Specific Independence を効率的に扱える
BDD に変換
[Ishihata+ 11a]
ZDD に変換
[Minato+ 07]
d-DNNF に変換
[Chavira+ 05, 07]

Probabilistic Logic Programming
Model (Language) Structure
PRISM [Sato+ 01] Explanation Graph / BDD
LPAD [Vennekens+ 04] BDD
Markov Logic [Richardson+06] d-DNNF
ProbLog [DeRaedt+07] BDD / d-DNNF
EM algorithm on BDDs [Ishihata+ 08]
Variational Bayes on BDDs [Ishiahta+ 11b]
MCMC-Bayes on BDDs [Ishihata+ 11c]
述語論理を利用して確率モデルを定義 [DeRaedt+ 08]
Statistical Relational Learning とも呼ばれる [Getoor+ 07]
推論、学習を行う処理系を含む

Lifted Inference
当初 : Lifted Inference [Poole 03]
述語論理を利用して効率的に確率を定義・計算する
述語 : Friend(X,Y), Smoke(X), X, Y ∈ D
ルール : Smoke(X) ∧ Friend(X,Y) ⇒ Smoke(Y)
ドメイン : D ≡ {Alice, Bob, Charlie, ...}
確率変数: Friend(Alice, Bob), Friend(Alice, Charlie), ...
現在 : Domain-lifted Inference [Broeck 11b]
確率推論がドメインサイズ |D| の多項式時間 O(Poly(|D|))
変数の数 = O( Poly(|D|) )
通常の計算量 = O( 2Poly(|D|) )
“効率的” = 曖昧な定義
Lift!!

Lifted Inference の Trick
Partial Exchangeability in First-Order Logic
述語論理 = 1ルールで複数変数の関係を記述
→ 似た関係をもつ変数が大量に発生
→ Partial Exchangeability!!
First-Order Model Counting [Broeck 11]
述語論理の MC を命題論理を経由せずに計算
述語論理の対称性を利用することで効率化

Lifted Inference の Trick
First-Order d-DNNF [Broeck 11a]
d-DNNF を述語論理に拡張
Partial Exchangeability を非常に効率的に表現
→ O(2Poly(N)) を O(Poly(N)) に削減
FO d-DNNF は万能か?? No!!
モデルの持つ対称性に依存
強い対称性を仮定 [Broack+ 12]
(２項関係の観測があると #P-hard)

発想の転換
従来の考え
論理で独立性 (= 確率モデル) を記述
論理を別形式 (BDD, d-DNNF,...) に Compile (圧縮)
別形式がコンパクトなら効率的に計算可能
発想の転換
はじめからコンパクトな形式で確率モデルを定義

Sum Product Network
d-DNNF と似た構造を利用して p(x) を定義
• 厳密計算 [Poon+ 11] ← UAI Best Paper
• パラメータ学習 [Gens+ 12] ← NIPS Best Paper
• 構造学習 [Gens+ 13]
• ID-SPN [Rooshenas+ 14]
Sum Product Network Compiling BN to d-DNNF

Exchangeable Variable Model
Exchangeable Variable Model [Niepert+ 14b]
Exchangeable Component の混合分布
Naïve Bayes を Partial Exchangeability により一般化
単純な計算で SVM 並みの性能
Exchangeable Component
Partial Exchangeable が成り立つ変数集合 X の生成分布
T(X) の値 j を生成し、 T(x) = j なる x を一様に生成

Generating Graphical models [Ishihata+14]
• データは順序木で表現できる構造を持つと仮定
• 構造を元に効率的に計算できる範囲で Graphical Model を自動生成
• 汎用学習アルゴリズムによりモデルが変わっても学習可能
文書データを表す順序木

まとめ : 論理と確率
~ 2010 年
離散分布は複雑
離散分布は論理を用いて効率的に定義可能
論理はグラフ構造を用いて効率的に計算可能
2010年~
最も効率的に計算できるのはどのようなときか？ = Lifted Inference
離散分布を直接効率的に計算できるグラフで定義
人工知能ブーム
Deep Learning に便乗
論理(やグラフ)という古き良き AI の技を ML 業界で流行らせたい（という意図が見られる）

Bayesian Networks
[Pearl 85] Judea Pearl: “Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning”,
CogSci85
[Pearl 82] Judea Pearl: “Reverend Bayes on inference engines: A distributed hierarchical approach”,
AAAI Press
[Kim+ 83] Jin H Kim, Judea Pearl: “A computational model for combined causal and diagnostic reasoning
in inference systems”, IJCAI83
[Pearl 88] Judea Pearl: “Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference”
[Lauritzen88] Lauritzen, S.L. and Spiegelhalter, D.: “local computations with probabilities on graphical
structures and their application to expert systems”, JRSS88
[Boutilier+ 96] C. Boutilier, N. Friedman, M. Goldszmidt, and D. Koller: “Context-Specific Independence
in Bayesian Networks”, UAI96

Compiling Bayesian Networks
[Chavira+ 05] Mark Chavira, Adnan Darwiche: “Compiling Bayesian
Networks with Local Structure”, IJCAI05
[Minato+ 07] S. Minato, K. Satoh, and T. Sato: “Compiling Bayesian
Networks by Symbolic Probability Calculation Based on Zero-
suppressed BDDs”, IJCAI07
[Chavira+ 07] “Compiling Bayesian Networks Using Variable
Elimination ”, IJCAI07
[Ishihata+ 11] M. Ishihata, T. Sato and S. Minato: "Compiling Bayesian
Networks for Parameter Learning based on Shared BDDs“, AAI11

Probabilistic Logic Programming
[Getoor+ 07] Lise Getoor and Ben Taskar: “Introduction to Statistical Relational Learning”, MIT Press
[DeRaedt+ 08] L. DeRaedt and K. Kersting: “Probabilistic inductive logic programming”, Springer
[Sato+ 01] T. Sato and Y. Kameya: “Parameter learning of logic programs for symbolic-statistical
modeling”, JAIR
[Vennekens+ 04] Vennekens, J., Verbaeten, S., Bruynooghe, M.: “Logic programs with annotaqted
disjunctions”, ICLP04
[Richardson+ 06] M. Richardson and P. Domingos: “Markov logic networks”, Machine Learning
[DeRaedt+ 07] L. De Raedt, A. Kimming and H. Toivonen: “ProbLog: a probabilistic Prolog and its
application in link discovery”, IJCAI07

Lifted Inference
[Poole 03] David Poole “First-order probabilistic inference”, IJCAI03
[Broeck 11a] Guy Van den Broeck, Nima Taghipour, Wannes Meert, Jesse Davis and Luc De Raedt: “Lifted
Probabilistic Inference by First-Order Knowledge Comppilation”, IJCAI11
[Broeck 11b] Guy Van den Broeck: “On the completeness of first-order knowledge compilation for lifted
probabilistic inference”, NIPS11
[Broeck+ 12] Guy Van den Broeck and Adnan Darwiche: “On the complexity and approximation of binary
evidence in lifted inference”, NIPS12
[Niepert+ 14a] Mathias Niepert and Guy Van den Broeck: “Tractability through Exchangeability: A New
Perspective on Efficient Probabilistic Inference”, AAAI’14

Tractable Probabilistic Models
[Poon+ 11] Hoifung Poon and Pedro Domingos: “Sum-Product Networks: A New Deep Architecture”,
UAI11
[Gens+ 12] Robert Gens and Pedro Domingos: “Discriminative Learning of Sum-Product Networks”,
NIPS12
[Gens+ 13] Robert Gens and Pedro Domingos: “Learning the Structure of Sum-Product Networks”,
ICML13
[Rooshenas+ 14] Amirmohammad Rooshenas and Daniel Lowd: “Learning Sum-Product Networks with
Direct and Indirect Variable Interactions”, ICML14
[Niepert+ 14b] Mathias Niepert and Pedro Domingos: “Exchangeable Variable Models”, ICML14
[Ishihata+ 14] Masakazu Ishihata and Tomoharu Iwata: “Generating structure of latent variable models
for nested data”, UAI14

Ishihata 150319-final

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Ishihata 150319-final

Similar to Ishihata 150319-final (20)

Ishihata 150319-final