.
......
相互情報量の推定と独立性検定
鈴木 譲
大阪大学大学院理学研究科
沖縄科学技術大学院大学
2015 年 6 月 23 日 
「slideshare Joe Suzuki」で検索
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
Road Map
...1 独立性を検定する
...2 離散の場合
...3 連続な場合
...4 HSIC
...5 実験
...6 まとめ
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
独立性を検定する
動機
例 (x1, y1), · · · , (xn, yn) から、X ⊥⊥ Y (独立) か否かを判定したい
 
xn = (x1, · · · , xn), yn = (y1, · · · , yn) と書き、それぞれ i.i.d とする
 
ρ(X, Y ) :=
cov(X, Y )
√
V (X)V (Y )
= 0
⇐=
̸=⇒
X ⊥⊥ Y
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
独立性を検定する
⃝⃝ (X, Y ) = 0 ⇐⇒ X ⊥⊥ Y となる⃝⃝
相互情報量 I(X, Y ) :=
∑
x
∑
y
PXY (x, y) log
PXY (x, y)
PX (x)PY (y)
I(X, Y ) = 0 ⇐⇒ X ⊥⊥ Y
Hilbert Schmidt independent criterion (ρ(X, Y ) の非線形版)
HSIC(X, Y ) = 0 ⇐⇒ X ⊥⊥ Y
.
X ⊥⊥ Y か否か
..
......(x1, y1), · · · , (xn, yn) から計算できる、I(X, Y ), HSIC(X, Y ) の推定量
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
離散の場合
相互情報量の最尤推定量による対処
X, Y : 離散
In(xn
, yn
) :=
∑
x
∑
y
ˆPn(x, y) log
ˆPn(x, y)
ˆPn(x)ˆPn(y)
ˆPn(x, y), ˆPn(x), ˆPn(y): 相対頻度
n → ∞ で、In(x, y) → I(X, Y )
X ⊥⊥ Y であっても、In(xn, yn) ̸= 0 が確率 1 で無限回、
In(xn
, yn
) < ϵn ⇐⇒ X ⊥⊥ Y
なる {ϵn} を設定する必要がある
X, Y が連続の場合にまで、拡張できない
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
離散の場合
データ圧縮とユニバーサル確率
A: 有限集合
以下の符号化 φ で、
∑
2−m ≤ 1 を満足するものを考える:
φ : An
→ {0, 1}∗
xn
→ zm
= φ(xn
)
.
Lempel-Ziv (lzh, gzip etc.)
..
......
Xn = xn の確率 Pn
X によらず、n → ∞ で確率 1 で、圧縮率
m
n
→ H(X)
Qn
X (xn
) := 2−m
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
離散の場合
相互情報量の Bayes 推定量 (JS 2012)
有限集合 B, A × B についても、Qn
Y (yn), Qn
XY (xn, yn) を定義
X ⊥⊥ Y の事前確率 p が与えられている
.
離散の場合
..
......
pQn
X (xn
)Qn
Y (yn
) ≥ (1 − p)Qn
XY (xn
, yn
) ⇐⇒ X ⊥⊥ Y
が確率 1 で成立するような、Qn
X , Qn
Y , Qn
XY が存在する
相互情報量の Bayes 推定量
Jn(xn
, yn
) :=
1
n
log
(1 − p)Qn
XY (xn, yn)
pQn
X (xn)Qn
Y (yn)
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
離散の場合
MDL(minimum description length) 原理
例をあたえられたときに、
モデルの記述長
モデルを与えられたもとでの例の記述長
の合計が最小になるモデルを選択すべきだ
(Rissanen, 1976)
MDL(X ⊥⊥ Y ) := − log p − log Qn
X (xn
) − log Qn
Y (yn
)
MDL(X ̸⊥⊥ Y ) := − log(1 − p) − log Qn
XY (xn
, yn
)
.
一致性
..
......MDL モデルは、n → ∞ で確率 1 で、真のモデルに一致する
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
離散の場合
相互情報量の Bayes 推定量の漸近近似 (JS 1993)
MDL の一致性は、独立性検定のそれを意味する:
(Jn(xn, yn) は、マイナスの値を取りうる)
Jn(xn
, yn
) ≤ 0 ⇐⇒ MDL(X ⊥⊥ Y ) ≤ MDL(X ̸⊥⊥ Y )
α := |X|, β := |Y | として、
Jn(xn
, yn
) ≈ In(xn
.yn
) −
(α − 1)(β − 1)
2n
log n
Jn(xn
, yn
) ≤ 0 ⇐⇒ In(xn
, yn
) ≤ ϵn :=
(α − 1)(β − 1)
2n
log n
n → ∞ で、Jn(xn, yn) → I(X, Y )
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
連続な場合
一般の場合のユニバーサル密度関数
レベル k での量子化: xn = (x1, · · · , xn) → (a
(k)
1 , · · · , a
(k)
n )
...
...
...
...
-
-
-
Level 1
Level 2
Level k
Qn
1 (a
(1)
1 , · · · , a
(1)
n )
λ(a
(1)
1 ) · · · λ(a
(1)
n )
Qn
2 (a
(2)
1 , · · · , a
(2)
n )
λ(a
(2)
1 ) · · · λ(a
(2)
n )
Qn
k (a
(k)
1 , · · · , a
(k)
n )
λ(a
(k)
1 ) · · · λ(a
(k)
n )
wk > 0 ,
∑
k
wk = 1 , gn
X (xn
) =
∑
k
wk
Qn
i (a
(k)
1 , · · · , a
(k)
n )
λ(a
(k)
1 ) · · · λ(a
(k)
n )
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
連続な場合
K および {wk} の選び方
K = O(log n):
ビンの個数が、K とともに指数的に増
える
ビンに含まれるサンプル数の下限を一
定以上にしたい
 
{wk}: wk = 1/K としている
(最後に課題として触れる)
...
...
...
...
-
-
-
-
-
-
Level 1
Level 2
Level k
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
連続な場合
相互情報量の Bayes 推定量: 一般的な場合
.
相互情報量の Bayes 推定量
..
......
Jn(xn
, yn
) :=
1
n
log
(1 − p)gn
XY (xn, yn)
pgn
X (xn)gn
Y (yn)
 
MDL の一般化:
MDL(X ⊥⊥ Y ) := − log p − log gn
X (xn
) − log gn
Y (yn
)
MDL(X ̸⊥⊥ Y ) := − log(1 − p) − log gn
XY (xn
, yn
)
.
一致性: Jn(xn, yn) → I(X, Y )
..
......
MDL モデルは、n → ∞ で確率 1 で、真のモデルに一致する
X ⊥⊥ Y ⇐⇒ MDL(X ⊥⊥ Y ) ≤ MDL(X ̸⊥⊥ Y )
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
連続な場合
他の相互情報量の推定量との比較
推定量 強一致性 独立性検定 離散・連続& 計算時間
KDE N/A N/A
√
O(n2)
k-NN N/A N/A N/A O(n2)
Silva, et.al
√
N/A N/A O(n1+ϵ)
今回
√ √ √
O(n log2
n)
KDE kernel density estimator
(X, Y , XY の分布を kernel で推定する)
k-NN k 個の最も近いサンプルで相対頻度を求める
(最適な k を求めるのに時間がかかる)
Silva, et.al Xn × Yn を有限個の領域に分割
IEEE Trans. on Signal Processing (2012)
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
HSIC
HSIC
X, Y: X, Y の値域
k : X × X → R (正定値 kernel)
l : Y × Y → R (正定値 kernel)
HSIC(PXY , k, l) := EXX′YY ′ k(X, X′
)l(Y , Y ′
)
+EXX′ k(X, X′
)EYY ′ l(Y , Y ′
) − 2EXY {EX′ k(X, X′
)EY ′ l(Y , Y ′
)}
(EXYX′Y ′ : PXY から発生する独立な 2 対 XY , X′Y ′ に関する平均)
 
PXY (·, ·) → EXY [k(·, X)l(·, Y )] が X × Y と 1 対 1 となる (k, l) について、
HSIC(PXY , k, l) = 0 ⇐⇒ X ⊥⊥ Y
 
(例) Gaussian kernel: σ2 > 0 を定数として、
k(x, x′
) = exp{−
(x − x′)2
2σ2
} , x, x′
∈ X
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
HSIC
HSIC の推定量
K = (k(xi , xj )), L = (l(yi , yj )), H = (δi,j − 1
n ) として、
HSIC(xn
, yn
, k, l) :=
1
(n − 1)2
tr(KHLH)
=
1
n2
∑
i,j
k(xi , xj )l(yi , yj ) +
1
n4
∑
i,j
k(xi , xj )
∑
p,q
l(yp, yq)
−
2
n3
∑
i,p.q
k(xi , xp)l(yi , yq)}
.
HSIC の推定量の計算
..
......O(n3) の計算時間
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
HSIC
HSIC による独立性検定
H0: xn = (x1, · · · , xn), yn = (y1, · · · , yn) が独立
α = 0.05
並べ替え検定:
...1 yn をランダムに M 回並べなおして、
それぞれで HSIC(xn, yn, k, l) を計算
...2 オリジナルの xn, yn の
HSIC(xn, yn, k, l) が上位 Mα 以内な
ら、独立でない (p 値が小さい) と判定
...1 HSIC(xn, yn, k, l) → HSIC(PXY , k, l) が、概収束ではなく確率収束
...2 独立性検定のしきい値 ϵ(n) が、xn, yn に依存 (並べ替え検定)
...3 帰無仮説をシミュレートするのに、HSIC の推定量を M 回計算
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
実験
実験 1: 2 値の場合
X ∈ {0, 1} (等確率 0.5)、U ∈ {0, 1} (確率 p = 0.1, 0.2, 0.3, 0.4, 0.5)
Y = X + U mod 2
n = 100, n = 200
Jn(xn, yn) and HSICn(xn, yn) を 100 回求め、分布を表示
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
実験
独立性検定
n = 200 p=0.5 p=0.4
(100 trials) ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥
HSIC 95 5 24 76
相互情報量 94 6 19 81
 
n = 100 p=0.5 p=0.4
(100 trials) ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥
HSIC 95 5 49 51
相互情報量 88 12 33 67
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
実験
実験 2: Gauss の場合
X, U ∼ N(0, 1) (相互に独立)
Y = qX +
√
1 − q2U, q = 0, 0.2, 0.4, 0.6, 0.8
n = 100, n = 200.
Jn(xn, yn) and HSICn(xn, yn) を 100 回求め、分布を表示
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
実験
独立性検定
n = 200 q=0 q=0.2 q=0.4
(100 trials) ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥
HSIC 97 3 51 49 0 100
相互情報量 95 5 58 42 4 92
 
n = 100 q=0 q=0.2 q=0.4
(100 trials) ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥
HSIC 93 7 74 26 11 89
相互情報量 94 6 56 44 23 77
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
実験
HSIC では対応できない例 1: まるめ
X, U ∼ N(0, 0.25) (相互に独立)
Y = X − ⌊X⌋ + ⌊U⌋
整数部は X, Y で独立、小数点以下は X, Y で一致
n = 200 まるめ
(100 試行) ⊥⊥ ̸⊥⊥
HSIC 100 0
相互情報量 1 99
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
実験
HSIC では対応できない例 2: 奇偶
X ∈ {0, 1, · · · , 9} (一様)
Y ∈
{
{0, 2, 4, 6, 8}, X : even
{1, 3, 5, 7, 9}, X : odd
X + Y が偶数になるという制約がある
n = 200 奇偶
(100 試行) ⊥⊥ ̸⊥⊥
HSIC 96 4
相互情報量 0 100
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
実験
HSIC が得意とする典型的な例
U ∈ {−1, 1} (確率 1/2)、X ∼ N(0, 1) (X ⊥⊥ U)、Y = XU
n = 200 相関係数 0
(100 trials) ⊥⊥ ̸⊥⊥
HSIC 0 100
相互情報量 12 88
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
実験
実行時間 (実験 2)
n 100 500 1000 2000
HSIC 0.50 9.51 40.28 185.53
相互情報量 0.30 0.33 0.62 1.05
(単位: 秒)
.
サンプル n に対して
..
......HSIC は O(n3)、相互情報量を用いた方法は O(n log2
n)
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
まとめ
まとめ
相互情報量の推定方法の提案と、独立性判定への応用
相互情報量 HSIC
原理 Bayes 仮説検定
強い問題 離散 連続
しきい値 不要 例から計算する
事前確率 必要 不要
計算時間 O(n log n) O(n3)
一致性 強一致性 弱一致性
.
No Free Lunch 予想
..
......
一つの独立性検定が、すべての問題について、他のすべての独立性検定
より優れた性能を示すことはない
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26
まとめ
課題
離散や連続を仮定しない情報量基準への応用
R パッケージの公開: できてはいるが、最適化してからソースを公開
独立でないものを独立とみなす傾向 (過学習ではなく、未学習)。
wk =
1
K
ではなく、wk =
kα
∑K
j=1 jα
(α > 0) の方が性能がよい
鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定
沖縄科学技術大学院大学 2015 年 6 月 23 日 
/ 26

相互情報量を用いた独立性の検定

  • 1.
    . ...... 相互情報量の推定と独立性検定 鈴木 譲 大阪大学大学院理学研究科 沖縄科学技術大学院大学 2015 年6 月 23 日  「slideshare Joe Suzuki」で検索 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 2.
    Road Map ...1 独立性を検定する ...2離散の場合 ...3 連続な場合 ...4 HSIC ...5 実験 ...6 まとめ 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 3.
    独立性を検定する 動機 例 (x1, y1),· · · , (xn, yn) から、X ⊥⊥ Y (独立) か否かを判定したい   xn = (x1, · · · , xn), yn = (y1, · · · , yn) と書き、それぞれ i.i.d とする   ρ(X, Y ) := cov(X, Y ) √ V (X)V (Y ) = 0 ⇐= ̸=⇒ X ⊥⊥ Y 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 4.
    独立性を検定する ⃝⃝ (X, Y) = 0 ⇐⇒ X ⊥⊥ Y となる⃝⃝ 相互情報量 I(X, Y ) := ∑ x ∑ y PXY (x, y) log PXY (x, y) PX (x)PY (y) I(X, Y ) = 0 ⇐⇒ X ⊥⊥ Y Hilbert Schmidt independent criterion (ρ(X, Y ) の非線形版) HSIC(X, Y ) = 0 ⇐⇒ X ⊥⊥ Y . X ⊥⊥ Y か否か .. ......(x1, y1), · · · , (xn, yn) から計算できる、I(X, Y ), HSIC(X, Y ) の推定量 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 5.
    離散の場合 相互情報量の最尤推定量による対処 X, Y :離散 In(xn , yn ) := ∑ x ∑ y ˆPn(x, y) log ˆPn(x, y) ˆPn(x)ˆPn(y) ˆPn(x, y), ˆPn(x), ˆPn(y): 相対頻度 n → ∞ で、In(x, y) → I(X, Y ) X ⊥⊥ Y であっても、In(xn, yn) ̸= 0 が確率 1 で無限回、 In(xn , yn ) < ϵn ⇐⇒ X ⊥⊥ Y なる {ϵn} を設定する必要がある X, Y が連続の場合にまで、拡張できない 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 6.
    離散の場合 データ圧縮とユニバーサル確率 A: 有限集合 以下の符号化 φで、 ∑ 2−m ≤ 1 を満足するものを考える: φ : An → {0, 1}∗ xn → zm = φ(xn ) . Lempel-Ziv (lzh, gzip etc.) .. ...... Xn = xn の確率 Pn X によらず、n → ∞ で確率 1 で、圧縮率 m n → H(X) Qn X (xn ) := 2−m 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 7.
    離散の場合 相互情報量の Bayes 推定量(JS 2012) 有限集合 B, A × B についても、Qn Y (yn), Qn XY (xn, yn) を定義 X ⊥⊥ Y の事前確率 p が与えられている . 離散の場合 .. ...... pQn X (xn )Qn Y (yn ) ≥ (1 − p)Qn XY (xn , yn ) ⇐⇒ X ⊥⊥ Y が確率 1 で成立するような、Qn X , Qn Y , Qn XY が存在する 相互情報量の Bayes 推定量 Jn(xn , yn ) := 1 n log (1 − p)Qn XY (xn, yn) pQn X (xn)Qn Y (yn) 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 8.
    離散の場合 MDL(minimum description length)原理 例をあたえられたときに、 モデルの記述長 モデルを与えられたもとでの例の記述長 の合計が最小になるモデルを選択すべきだ (Rissanen, 1976) MDL(X ⊥⊥ Y ) := − log p − log Qn X (xn ) − log Qn Y (yn ) MDL(X ̸⊥⊥ Y ) := − log(1 − p) − log Qn XY (xn , yn ) . 一致性 .. ......MDL モデルは、n → ∞ で確率 1 で、真のモデルに一致する 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 9.
    離散の場合 相互情報量の Bayes 推定量の漸近近似(JS 1993) MDL の一致性は、独立性検定のそれを意味する: (Jn(xn, yn) は、マイナスの値を取りうる) Jn(xn , yn ) ≤ 0 ⇐⇒ MDL(X ⊥⊥ Y ) ≤ MDL(X ̸⊥⊥ Y ) α := |X|, β := |Y | として、 Jn(xn , yn ) ≈ In(xn .yn ) − (α − 1)(β − 1) 2n log n Jn(xn , yn ) ≤ 0 ⇐⇒ In(xn , yn ) ≤ ϵn := (α − 1)(β − 1) 2n log n n → ∞ で、Jn(xn, yn) → I(X, Y ) 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 10.
    連続な場合 一般の場合のユニバーサル密度関数 レベル k での量子化:xn = (x1, · · · , xn) → (a (k) 1 , · · · , a (k) n ) ... ... ... ... - - - Level 1 Level 2 Level k Qn 1 (a (1) 1 , · · · , a (1) n ) λ(a (1) 1 ) · · · λ(a (1) n ) Qn 2 (a (2) 1 , · · · , a (2) n ) λ(a (2) 1 ) · · · λ(a (2) n ) Qn k (a (k) 1 , · · · , a (k) n ) λ(a (k) 1 ) · · · λ(a (k) n ) wk > 0 , ∑ k wk = 1 , gn X (xn ) = ∑ k wk Qn i (a (k) 1 , · · · , a (k) n ) λ(a (k) 1 ) · · · λ(a (k) n ) 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 11.
    連続な場合 K および {wk}の選び方 K = O(log n): ビンの個数が、K とともに指数的に増 える ビンに含まれるサンプル数の下限を一 定以上にしたい   {wk}: wk = 1/K としている (最後に課題として触れる) ... ... ... ... - - - - - - Level 1 Level 2 Level k 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 12.
    連続な場合 相互情報量の Bayes 推定量:一般的な場合 . 相互情報量の Bayes 推定量 .. ...... Jn(xn , yn ) := 1 n log (1 − p)gn XY (xn, yn) pgn X (xn)gn Y (yn)   MDL の一般化: MDL(X ⊥⊥ Y ) := − log p − log gn X (xn ) − log gn Y (yn ) MDL(X ̸⊥⊥ Y ) := − log(1 − p) − log gn XY (xn , yn ) . 一致性: Jn(xn, yn) → I(X, Y ) .. ...... MDL モデルは、n → ∞ で確率 1 で、真のモデルに一致する X ⊥⊥ Y ⇐⇒ MDL(X ⊥⊥ Y ) ≤ MDL(X ̸⊥⊥ Y ) 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 13.
    連続な場合 他の相互情報量の推定量との比較 推定量 強一致性 独立性検定離散・連続& 計算時間 KDE N/A N/A √ O(n2) k-NN N/A N/A N/A O(n2) Silva, et.al √ N/A N/A O(n1+ϵ) 今回 √ √ √ O(n log2 n) KDE kernel density estimator (X, Y , XY の分布を kernel で推定する) k-NN k 個の最も近いサンプルで相対頻度を求める (最適な k を求めるのに時間がかかる) Silva, et.al Xn × Yn を有限個の領域に分割 IEEE Trans. on Signal Processing (2012) 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 14.
    HSIC HSIC X, Y: X,Y の値域 k : X × X → R (正定値 kernel) l : Y × Y → R (正定値 kernel) HSIC(PXY , k, l) := EXX′YY ′ k(X, X′ )l(Y , Y ′ ) +EXX′ k(X, X′ )EYY ′ l(Y , Y ′ ) − 2EXY {EX′ k(X, X′ )EY ′ l(Y , Y ′ )} (EXYX′Y ′ : PXY から発生する独立な 2 対 XY , X′Y ′ に関する平均)   PXY (·, ·) → EXY [k(·, X)l(·, Y )] が X × Y と 1 対 1 となる (k, l) について、 HSIC(PXY , k, l) = 0 ⇐⇒ X ⊥⊥ Y   (例) Gaussian kernel: σ2 > 0 を定数として、 k(x, x′ ) = exp{− (x − x′)2 2σ2 } , x, x′ ∈ X 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 15.
    HSIC HSIC の推定量 K =(k(xi , xj )), L = (l(yi , yj )), H = (δi,j − 1 n ) として、 HSIC(xn , yn , k, l) := 1 (n − 1)2 tr(KHLH) = 1 n2 ∑ i,j k(xi , xj )l(yi , yj ) + 1 n4 ∑ i,j k(xi , xj ) ∑ p,q l(yp, yq) − 2 n3 ∑ i,p.q k(xi , xp)l(yi , yq)} . HSIC の推定量の計算 .. ......O(n3) の計算時間 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 16.
    HSIC HSIC による独立性検定 H0: xn= (x1, · · · , xn), yn = (y1, · · · , yn) が独立 α = 0.05 並べ替え検定: ...1 yn をランダムに M 回並べなおして、 それぞれで HSIC(xn, yn, k, l) を計算 ...2 オリジナルの xn, yn の HSIC(xn, yn, k, l) が上位 Mα 以内な ら、独立でない (p 値が小さい) と判定 ...1 HSIC(xn, yn, k, l) → HSIC(PXY , k, l) が、概収束ではなく確率収束 ...2 独立性検定のしきい値 ϵ(n) が、xn, yn に依存 (並べ替え検定) ...3 帰無仮説をシミュレートするのに、HSIC の推定量を M 回計算 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 17.
    実験 実験 1: 2値の場合 X ∈ {0, 1} (等確率 0.5)、U ∈ {0, 1} (確率 p = 0.1, 0.2, 0.3, 0.4, 0.5) Y = X + U mod 2 n = 100, n = 200 Jn(xn, yn) and HSICn(xn, yn) を 100 回求め、分布を表示 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 18.
    実験 独立性検定 n = 200p=0.5 p=0.4 (100 trials) ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥ HSIC 95 5 24 76 相互情報量 94 6 19 81   n = 100 p=0.5 p=0.4 (100 trials) ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥ HSIC 95 5 49 51 相互情報量 88 12 33 67 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 19.
    実験 実験 2: Gaussの場合 X, U ∼ N(0, 1) (相互に独立) Y = qX + √ 1 − q2U, q = 0, 0.2, 0.4, 0.6, 0.8 n = 100, n = 200. Jn(xn, yn) and HSICn(xn, yn) を 100 回求め、分布を表示 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 20.
    実験 独立性検定 n = 200q=0 q=0.2 q=0.4 (100 trials) ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥ HSIC 97 3 51 49 0 100 相互情報量 95 5 58 42 4 92   n = 100 q=0 q=0.2 q=0.4 (100 trials) ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥ ⊥⊥ ̸⊥⊥ HSIC 93 7 74 26 11 89 相互情報量 94 6 56 44 23 77 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 21.
    実験 HSIC では対応できない例 1:まるめ X, U ∼ N(0, 0.25) (相互に独立) Y = X − ⌊X⌋ + ⌊U⌋ 整数部は X, Y で独立、小数点以下は X, Y で一致 n = 200 まるめ (100 試行) ⊥⊥ ̸⊥⊥ HSIC 100 0 相互情報量 1 99 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 22.
    実験 HSIC では対応できない例 2:奇偶 X ∈ {0, 1, · · · , 9} (一様) Y ∈ { {0, 2, 4, 6, 8}, X : even {1, 3, 5, 7, 9}, X : odd X + Y が偶数になるという制約がある n = 200 奇偶 (100 試行) ⊥⊥ ̸⊥⊥ HSIC 96 4 相互情報量 0 100 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 23.
    実験 HSIC が得意とする典型的な例 U ∈{−1, 1} (確率 1/2)、X ∼ N(0, 1) (X ⊥⊥ U)、Y = XU n = 200 相関係数 0 (100 trials) ⊥⊥ ̸⊥⊥ HSIC 0 100 相互情報量 12 88 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 24.
    実験 実行時間 (実験 2) n100 500 1000 2000 HSIC 0.50 9.51 40.28 185.53 相互情報量 0.30 0.33 0.62 1.05 (単位: 秒) . サンプル n に対して .. ......HSIC は O(n3)、相互情報量を用いた方法は O(n log2 n) 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 25.
    まとめ まとめ 相互情報量の推定方法の提案と、独立性判定への応用 相互情報量 HSIC 原理 Bayes仮説検定 強い問題 離散 連続 しきい値 不要 例から計算する 事前確率 必要 不要 計算時間 O(n log n) O(n3) 一致性 強一致性 弱一致性 . No Free Lunch 予想 .. ...... 一つの独立性検定が、すべての問題について、他のすべての独立性検定 より優れた性能を示すことはない 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26
  • 26.
    まとめ 課題 離散や連続を仮定しない情報量基準への応用 R パッケージの公開: できてはいるが、最適化してからソースを公開 独立でないものを独立とみなす傾向(過学習ではなく、未学習)。 wk = 1 K ではなく、wk = kα ∑K j=1 jα (α > 0) の方が性能がよい 鈴木 譲 (大阪大学大学院理学研究科) 相互情報量の推定と独立性検定 沖縄科学技術大学院大学 2015 年 6 月 23 日  / 26