Probabilistic Graphical Models 輪読会 §3.3-3.4Yuki Yoshida
D. Koller "Probabilistic Graphical Models" の輪読会での発表資料です。
3.3 Independencies in Graphs
3.4 From Distributions to Graphs
の内容に沿っています。
http://wbawakate.connpass.com/event/31613/
Image Retrieval with Fisher Vectors of Binary Features (MIRU'14)Yusuke Uchida
Recently, the Fisher vector representation of local features has attracted much attention because of its effectiveness in both image classification and image retrieval. Another trend in the area of image retrieval is the use of binary feature such as ORB, FREAK, and BRISK. Considering the significant performance improvement in terms of accuracy in both image classification and retrieval by the Fisher vector of continuous feature descriptors, if the Fisher vector were also to be applied to binary features, we would receive the same benefits in binary feature based image retrieval and classification. In this paper, we derive the closed-form approximation of the Fisher vector of binary features which are modeled by the Bernoulli mixture model. In experiments, it is shown that the Fisher vector representation improves the accuracy of image retrieval by 25% compared with a bag of binary words approach.
4. 5.2 Deterministic CPDs
5.2.1 Representation
変数Xがその親の 決定的 な関数になっているCPD
f : V al(Pa ) ↦ V al(X)があるとき,以下のようなCPD
P(x∣Pa ) =
関数fは,たとえば
[2値変数] 親同士の or / and
[連続値変数] X = Y + Z など
X
X {
1
0
x = f(Pa )X
otherwise
5. 5.2.2 Independencies
Example 5.3
※ 2重丸のCは(AとBの)決定的な関数であることを示す.
AとBが与えられている時,Cの値は必ず決まるので,
(D ⊥ E∣A, B)
CがAとBの決定的な関数でない場合,必ずしもこの独立性は成
立しない
実際,d‐separation でこの独立性は推論できない
d‐separation を今回のようなの独立性を見つけることに適用でき
ないか?
6. 5.2.2 Independencies
(X ⊥ Y ∣Z) という場合を考える.
deterministic CPDを持っている,かつ
その親PaX がすべて与えられている (Z の部分集合)
変数 X を観測可能であるとして,逐次的にZ に追加して
d‐separationを計算する
i
+
i
+
7. 5.2.2 Independencies
定理5.1
Gをネットワークの構造,D, X, Y , Zを変数の集合とする.
Zが与えられた時XがY と deterministically separated なら,
P ⊨I (G) のようなすべての分布Pと,
決定的条件付き確率分布P(X∣Pa ),X ∈ Dのそれぞれに
ついて,P ⊨ (X ⊥ Y ∣Z)を得る.
証明は﴾exercise 5.1﴿
この方法で,全ての決定的関数を含む独立性を得られるか?
l
X
8. 5.2.2 Independencies
定理5.2
Gをネットワークの構造,D, X, Y , Zを変数の集合とする.
DET‐SEP(G, D, X, Y , Z)が偽なら,
P ⊨I (G) のような分布Pが存在していて,
決定的条件付き確率分布P(X∣Pa ),X ∈ Dでも,
P ⊨ (X ⊥ Y ∣Z)ではない.
DET‐SEPは親の決定的関数になっている変数から単に由来する
独立性は,見つけることができる.
しかし,特別な決定的関数は他の独立性をつくることがある
l
X
10. 5.2.2 Independencies
Revisit Example 5.3 (Example 5.5)
※ Cは(AとBの)OR関数
A = a の時,Cは親のORをとるので,Bの値に関係なく決定
したがって,P(D∣B, a ) = P(D∣a ).(BとDは独立)
A = a の時では,Cはまだ決定しないので,上記は成立せず
決定的な変数は,特別な形の独立を持つため,本書では,
P(X∣Y , Z) = P(X∣Z)と仮定した(X ⊥ Y ∣Z)の形式のも
のに限定する.
1
1 1
0
11. 5.2.2 Independencies
Definition 5.1
X, Y , Zを互いに素な変数集合,Cを変数集合(
X ∪ Y ∪ Zと素でなくてもよい),cをc ∈ V al(C)とす
る.
P(X∣Y , Z, c) = P(X∣Z, c)whereneverP(Y , Z, c) > 0
ならば,
Zと,(X ⊥ Y ∣Z, c)で示されるコンテキストcが与えられた
下でXとY が contextually independentであるという.
この形の独立を context‐specific independencies ﴾CSI﴿と呼ぶ.
c
12. 5.2.2 Independencies
Revisit Example 5.3 with CSI (Example 5.6)
※ Cは(AとBの)OR関数
A = a のときには,Bを観測せずともC = c が決定した
したがって,(C ⊥ B∣a ),(D ⊥ B∣a )
C = c のときには,A = a もB = b も決定する
したがって,(A ⊥ B∣c ),(D ⊥ E∣c )
C = c ,B = b のときには,A = a が決定する
したがって,(D ⊥ E∣b , c )
1 1
c
1
c
1
0 0 0
c
0
c
0
1 0 1
c
0 1
13. 5.3 Context-Specific CPDs
5.3.1 Representation
Example 5.7
Job ... 採用オファーするかどうか
Apply ... 会社の採用に申し込んだかどうか
(申し込まなくてもオファーは出せるが,SATもLetterもみれ
ない)
リクルータは,LetterよりもSATを先にみる,
もし,SATが低ければLetterを見て採用を決める
つまり,P(J∣a , s , l ) = P(J∣a , s , l )1 1 1 1 1 0
14. 5.3.1.1 Tree-CPDs
Example 5.7 with Tree-CPD (Example 5.8)
あるJの確率を知りたければ,木の根から順番に各属性を
"テスト"すれば良い
ex.﴿ P(J∣a , s , l )は,
J : P(j ) = 0.1, and P(j ) = 0.9
1 1 0
0 1
15. 5.3.1.1 Tree-CPDs
Definition 5.2
根が1つ ﴾rooted tree﴿
各tノードは葉か内部tノードを持つ
葉はP(X)を表す
内部tノードはZ ∈ Pa なある変数Zを表す
各内部tノードは,子への弧﴾arc, エッジ﴿の集合を持つ
それぞれ,変数割当てZ = z for z ∈ V al(Z)を表す
枝βは根から葉までの経路を表す
枝は,同じ変数を示す内部tノードを2つ以上持たない
X
i i
16. 5.3.1.1 Tree-CPDs
Example 5.9
親コンテキスト<a >は,申し込まなかった場合に対応する
親コンテキスト<a , s >は,高いSATスコアの人が採用に応募
した場合に対応する
テーブル記法では8つのパラメータが必要だが,
木記法では4つのみでよい!
tree‐CPDはある変数が,大量の変数群のうち一つだけに依存
するような場合には有効な方法
0
1 1
22. 5.3.1.1 Tree-CPDs
Revisit Example 5.7 (Example 5.11)
前ページで定めたルールを使うと以下のように表現できる
このようなルールの集合からちゃんとしたCPDを定義したい
P(X∣Pa )の形の各CPDが,たった一つのルールで示さ
れているかどうか確認する必要がある
X
23. 5.3.1.2 Rule CPDs
Definition 5.5 rule‐based CPD
rule‐based CPD P(X∣Pa )とは,
以下のようなルール集合Rである.
各ルール ρ ∈ Rについて,Scope[ρ] ⊆ {X} ∪ Pa
{X} ∪ Pa への各割当て(x, u)について,
cが(x, u)と一致するようなルール⟨c; p⟩ ∈ Rがひとつだ
けある
P(X∣U)は, P(x∣u) = 1を満たす適当なCPD
前ページのExample 5.11はこの定義を満たしている
X
X
X
∑x
24. 5.3.1.2 Rule CPDs
Example 5.12
XをPa = {A, B, C}を親に持つ変数とし,
XのCPDを以下ののルール集合から定義する
以下のようなCPDが定義できる
各列ごとに和をとれば,ちゃんと1になっている
X
25. 5.3.1.2 Rule CPDs
Proposition 5.1
Bをベイジアンネットワーク,Bにおける各CPD P(X∣Pa )
がルール集合R として表現されているとする.
Rは∪ R として定義される多重集合である.
ここで,∪ は多重集合和であり,重複を含む全てのルールイ
ンスタンスを持っている.
そして,ネットワーク変数Xへの任意の割当てξの確率は,
P(ξ) = p
として計算される.
X
X
X∈X
+
X
+
∏⟨c;p⟩∈R,ξ∼c
26. 5.3.1.2 Rule CPDs
Revisit Example 5.12 with tree-CPD (Example 5.13)
Example 5.12を木記法で表すことを考える
以下は最もコンパクトな木記法になるように根を選んだ場合
根の選び方によっては,ルール数以上に枝ができてしまう
29. 5.3.2 Independencies
Revisit Example 5.7 with independence (Example 5.14)
a のとき,リクルータはSATとLetterを見れない
(J ⊥ S, L∣a )
a , s のとき,リクルータはLetterを見ない
(J ⊥ L∣a , s )
0
c
0
1 1
c
1 1
42. 5.3.2 Independencies
Revisit Example 5.10 with CSI-sep (Example 5.19)
C = c なら,L → Jはspurious
Jが与えられたとき,L とL の間にパスはないので
(L ⊥ L ∣J, c )が導かれる
C = c のときも同様に考えれば,結局(L ⊥ L ∣J, C)
しかし,CSI‐SEPではこれは導けない
(具体的なコンテキストがないと,spuriousなエッジがわ
からない)
全ケースについてチェックすればいいが,
変数の数だけ指数的に計算が増加する…
1
2
1 2
1 c 2
1
2
1 c 2
43. 5.4 Independence of Causal Influence
局所確率モデルにおける異なる種類の構造をみていく
noisy‐or model
generalized linear model
44. 5.4.1 The Noisy-Or Model
教授が学生の推薦状(Letter)を書く例を考える
Letterの良さは,
良い質問をしていたか ﴾Question﴿
最終レポートの成績 ﴾Final paper﴿
できまり,学生は両方とも良い推薦状をもらうに十分だが
その学生の印象があまり残っていない場合
字が汚くてレポートが読めない場合
といったノイズを含む
45. 5.4.1 The Noisy-Or Model
2つの causal mechanism
教授が学生の授業態度や質問を覚えていた
P(l ∣q , f ) = 0.8
20%で質問を覚えていない
レポートの文字が読めた
P(l ∣q , f ) = 0.9
10%でレポートの字が読めない
質問も覚えていない,レポートの字も読めない確率は?
1 1 0
1 0 1
46. 5.4.1 The Noisy-Or Model
質問も覚えていない,レポートの字も読めない
0.2 ⋅ 0.1 = 0.02
良い推薦状がもらえる確率
P(l ∣q , f ) = 0.981 1 1
47. 5.4.1 The Noisy-Or Model
定式化のために,新たな変数を導入する
変数Q は良い質問をして,教授がそれを覚えていれば真
変数F は良いレポートを出して,その文字が読めれば真
ノイズパラメータλ
λ = P( ∣q ) = 0.8,λ = P( ∣f ) = 0.9
leak probability
全く関係ない理由で良いLetterがもらえる確率
λ = 0.0001
′
′
Q q`1 1
F f`1 1
0
48. 5.4.1 The Noisy-Or Model
Definition 5.8 noisy‐or CPD
Y をk個の2値をとる親X , ..., X をもつ2値変数とする.
P(y ∣X , ..., X ) = (1 − λ ) (1 − λ )
P(y ∣X , ..., X ) = 1 − [(1 − λ ) (1 − λ )]
となるk + 1個のノイズパラメータλ , λ , ..., λ があれば,
PCD P(Y ∣X , ..., X )はnoisy‐orである.
x を1, x を0と解釈すれば,以下のように変形できる.
P(y ∣X , ..., X ) = (1 − λ ) (1 − λ )
1 k
0
1 k 0 ∏i:X =xi i
1 i
1
1 k 0 ∏i:X =xi i
1 i
0 1 k
1 k
i
1
i
0
0
1 k 0
i=1
∏ i
xi
49. 5.4.1 The Noisy-Or Model
すべての変数が,同じノイズパラメータをもっているような特殊
なnoisy‐orモデルの,λと真なXの数とP(Y )の関係
﴾a﴿: λ = 0
﴾b﴿: λ = 0.5
0
0
50. 5.4.2 Generalized Linear Models
causal influenceの独立性を満たす異なったモデルたちを
Generalized Linear Modelsとよぶ
多くのモデルが存在するが,ここではY がある不連続な有限
空間内の値を取る確率分布P(Y ∣X , ...X )を定義するモデル
を扱う
1 k
51. 5.4.2 Generalized Linear Models
5.4.2.1 2値変数の場合
体の免疫系を例に
侵入者は体へ負担(burden)をかける
total burden ... どれくらい病気を引き起こしそうか
f(X , ..., X ) = w X
w はその負担がどれほど病気を引き起こすのに影響
するか
その負担が閾値を超えると,発熱やその他の感染症の症
状が出現しはじめる
f(X , ..., X )が閾値τを超えれば症状がでる
f(X , ..., X ) = w + w X
w = −τ
1 k ∑i=1
k
i i
i
1 k
1 k 0 ∑i=1
k
i i
0
52. 5.4.2 Generalized Linear Models
5.4.2.1 2値変数の場合
体の免疫系を例に
現実的なモデル化のために,なめらかな閾値関数を用い
る
sigmoid(z) = 1+ez
ez
53. 5.4.2 Generalized Linear Models
5.4.2.1 2値変数の場合
Definition 5.9 logistic CPD
Y を,数値をとるk個の親X , ..., X をもつ2値変数とする.
P(y ∣X , ..., X ) = sigmoid(w + w X )
のようなk + 1個の重みw , w , ..., w があるなら,
CPD P(Y ∣X , ..., X )はlogistic CPDである.
パラメータwは,Y の対数オッズに及ぼす影響という解釈がで
きる.
2値変数のオッズ比はy とy の確率比なので,
O(X) = = = e
あるX が偽から真になったときの影響を考えると,
= = e
1 k
1
1 k 0 ∑i=1
k
i i
0 1 k
1 k
1 0
P(y ∣X ,...,X )0
1 k
P(y ∣X ,...,X )1
1 k
1/(1+e )z
e /(1+e )z z
z
j
O(X ,x )−j j
0
O(X ,x )−j j
1
exp(w + w X )0 ∑i≠j i i
exp(w + w X +w )0 ∑i≠j i i j wj
54. 5.4.2 Generalized Linear Models
5.4.2.1 2値変数の場合
すべてのwが同じ値をとったときのlogical CPD
﴾b﴿: w = 0, ﴾c﴿: w = −5, ﴾d﴿: wとw を10倍
特に﴾b﴿のグラフがnoisy‐orのときと似ているため,
λとwが似た役割を持っているように見える
logistic CPDはw に負数を許容することで,X のY に対す
る負の影響も表現している
モデルの説明性とデータからのモデルが学習できる
ことの両面で優れている
0 0 0
i i
55. 5.4.2 Generalized Linear Models
5.4.2.2 多値変数の場合
Y をy , ..., y の複数の値を取るようにすることで,
logistic CPDを多値に拡張できる
Y の値の選択に,なめらかな"winner‐takes‐all"を用いる
あるy が1に近い値を取り,その他が0に近い値を取る
Definition 5.10 multinomial logistic PCD
Y を,k個の親X , ..., X をもつm値変数とする.
各j = 1, ..., mについて,
l (X , ..., X ) = w + w X
P(y ∣X , ..., X ) =
のようなk + 1個の重みw , w , ..., w があるなら,
CPD P(Y ∣X , ..., X )はmultinomial logistic CPDである.
1 n
i
1 k
i 1 k j,0 ∑i=1
k
j,i i
j
1 k exp(l (X ,...,X ))∑j =1′
m
j′ 1 k
exp(l (X ,...,X ))j 1 k
j,0 j,1 j,k
1 k
56. 5.4.2 Generalized Linear Models
5.4.2.2 多値変数の場合
親X , X を持つ3値のY についてのモデルの例
親X が2値以上を取るような場合も扱える
X = x , ..., x なら,X = jのときX = x になる
2値変数X , ..., X を定義すれば良い
m値をとる親Xをもつ2値変数Y なら,m + 1個の重みを
使って
P(y ∣X) = sigmoid(w + w 1{X = x })
1 2
i
i i
1
i
m
i i,j i,j
1
i,1 i,m
1
0 ∑j=1
m
j
j