Estimating Mutual Information for
Discrete‐Continuous Mixtures [Gao et al.
2017]
離散・連続混合の相互情報量の推定
高品佑也 NIPS2017読み会@PFN
1
自己紹介 @takashinayuya
所属: 早稲田大学 確率的情報処理研究室 M1
研究: グラフィカルモデルの構造推定
インターン・その他:
サイボウズ・ラボユース 6&7 期
PyCon JP 2016&2017 スタッフ
2
相互情報量
次式で定義される相互情報量は,確率変数間の従属性の尺度.
I(X, Y ) ≡ log ,
ただし,⟨⋅⟩ は p(x) での期待値.以降対数の底は e とする.
特徴選択や独立成分分析など様々な応用がある.
⟨
p(x)p(y)
p(x, y)
⟩
p(x,y)
p(x)
3
離散・連続の相互情報量を知りたい
回帰や識別タスクで,特徴量に離散変数と連続変数がどちらも入
っており,その中から特徴選択したい場合がある.
例: ライフログから生活習慣病のリスクを予測
体重,身長,性別,年齢,睡眠時間,etc...
4
"混合"のされ方は色々
左: X が離散で Y が連続,右: 離散・連続の混合分布.
他にも,X, Y がベクトルで,その中に離散変数と連続変数が混ざ
っている場合などがある.今回紹介する手法 [Gao et al. 2017] は,
上記の全ての組み合わせに適用できる.
5
本発表の以降の流れ
先行手法 1: 3H estimator
先行手法 2: KSG estimator [Kraskov et al 2003]
離散連続混合の相互情報量 [Gao et al. 2017]
6
3H estimator
相互情報量を次式のようにエントロピーに分解し,各エントロピ
ーを個別に推定して代入.
I(X, Y ) = H(X) + H(Y ) − H(X, Y ).
X, Y が離散だったり,真の分布を知っていてエントロピーを解析
的に求められる場合はこれでも良いことはある.
7
3H estimator の問題点
個々のエントロピーの推定誤差が積み重なり,全体として誤差が
大きくなってしまうことがある.
解決策:エントロピーに分解せず,相互情報量を直接推定.
KSG estimator [Kraskov et al 2003]
Maximum likelihood mutual information [Suzuki et al 2008]
8
KSG estimator [Kraskov et al 2003]
k 近傍法で確率密度を近似し,連続値の相互情報量を推定.
(X, Y ) ≡ ψ(k) + ψ(N) − ψ(n + 1) − ψ(n + 1) ,
ただし,ψ(⋅) は digamma 関数.また,i 番目の観測の k 近傍ま
での距離 ϵ /2 とすると,n は X において i 番目の観測から
ϵ /2 までの距離にある点の数. n についても同様.
また,Z = (X, Y ) のノルム ∥z∥ ≡ max{∥x∥, ∥y∥} とする.
I^
N
1
i=1
∑
N
( x,i y,i )
i x,i
i y,i
9
10
11
12
先ほどの相互情報量の近似式は次のように解釈できる:
実際には,3 行目の対数の中の分子・分母に同じ数がかかったもの
が確率密度.
I(X, Y ) ≡ log⟨
p(x)p(y)
p(x, y)
⟩
p(x,y)
≈ ψ(k) + ψ(N) − ψ(n + 1) − ψ(n + 1)
N
1
i=1
∑
N
( x,i y,i )
= log .
N
1
i=1
∑
N
⋅exp ψ(N)
exp ψ(n +1)x,i
exp ψ(N)
exp ψ(n +1)y,i
exp ψ(N)
exp ψ(k)
13
なお,ψ(N) = log(N) + O(1/N) なので,N が十分大きいと
仮定して,次式が使われることもある.
ただし,N → ∞ で n → ∞, n → ∞ .
(X, Y )I^
   ≡ ψ(k) + log(N) − log(n + 1) − log(n + 1) ,
N
1
i=1
∑
N
( x,i y,i )
x,i y,i
14
離散連続混合の相互情報量 [Gao et al. 2017]
元々の KSG estimator から k を少しだけ変える.
つまり,k 近傍までの距離が 0 であれば ﴾i.e. その点では離散﴿ ,近
傍の数を同じ値の観測の数に置き換える.
上記の推定量が一致性があることを証明.
(X, Y )I^
   ≡ ψ(k ) + log(N) − log(n + 1) − log(n + 1) ,
N
1
i=1
∑
N
( i x,i y,i )
where k ≡i {
∣{j ∣ ∥z − z ∥ = 0,  j ≠ i}∣,i j
k,
if ϵ = 0,i
otherwise.
15
実験 1: 相互情報量の近似
真の相互情報量が解析的に分かるデータに対して,提案手法と既
存手法の平均二乗誤差を比較.﴾黒が提案手法.﴿
16
実験 2: 特徴選択
人工データに関して,選ぶ特徴量の数を増やしながら特徴選択し
たときの ROC 曲線を比較.﴾黒が提案手法.﴿
17
実験 3: 遺伝子調節ネットワークの推定
人工の遺伝子調節ネットワークで,dropout(遺伝子があるのに観
測されないこと)があるときの AUC を比較.﴾黒が提案手法.﴿
18
追試
Iris の特徴量とラベルに関して相互情報量を計算 ﴾Gist﴿ .
19
ラベルとの相互情報量が特に
大きい次元をプロット.識別
に使えそうな次元の相互情報
量が大きくなっている.
20
Appendix
KL estimator [Kozachenko & Leonenko 1987]
エントロピーを推定
KSG estimator [Kraskov et al 2003]
KL estimator を利用して連続値の相互情報量を推定
21
KL estimator [Kozachenko & Leonenko 1987]
エントロピー H(X) を近似するために,確率変数 X ∈R が従う
分布 p(x) を k 近傍法を用いて近似:
p(x) ≡ ,
ただし,c は d 次元単位球の体積,ϵ/2 が k 近傍までの距離.
k 近傍法では,x に対して P を固定して ϵ だけを動かす.
d
c ϵd
d
Pk
d
k
22
≡ k/N とすれば一般的な k 近傍法による確率密度の近似だ
が,KL estimator では代わりに次式のように近似する.
= exp(ψ(k) − ψ(N)),
ただし,ψ(⋅) は digamma 関数.導出は [2] を参照.
P^k
Pk
^
23
したがって,確率密度は次式のように近似できる.
p(x) ≡ .
最終的にエントロピーの近似値は次式で得られる.
(X) = −ψ(k) + ψ(N) + log c + log ϵ .
c ϵd
d
exp(ψ(k) − ψ(N))
H^ d
N
d
i=1
∑
N
i
24
KSG estimator [Kraskov et al 2003]
Z = (X, Y ) として,それぞれエントロピーを計算すると,
上式で,ϵ = ϵ = ϵ となるように H(X) と H(Y ) におけ
る k を取り直すことで,各式の最終項を打ち消す.
(X)H^
(Y )H^
(Z)H^
= ψ(k) − ψ(N) − log(c ) − log ϵ ,dx
N
dx
i=1
∑
N
x,i
= ψ(k) − ψ(N) − log(c ) − log ϵ ,dy
N
dy
i=1
∑
N
y,i
= ψ(k) − ψ(N) − log(c c ) − log ϵ .dx dy
N
d + dx y
i=1
∑
N
z,i
x,i y,i z,i
25
具体的には,ϵ を ϵ と揃えるため,近傍の数を,x から
ϵ /2 までの距離にある点の数 n を使って置き換える:
(X) = ψ(n + 1) − ψ(N) − log(c ) − log ϵ .
Y についても同様:
(Y ) = ψ(n + 1) − ψ(N) − log(c ) − log ϵ .
x,i z,i i
z,i x,i
H^
N
1
i=1
∑
N
x,i dx
N
dx
i=1
∑
N
z,i
H^
N
1
i=1
∑
N
y,i dy
N
dy
i=1
∑
N
z,i
26
改めて I(X, Y ) = H(X) + H(Y ) − H(X, Y ) に代入する
と,次式が得られる.
(X, Y ) ≡ ψ(k) + ψ(N) − ψ(n + 1) − ψ(n + 1) .I^
N
1
i=1
∑
N
( x,i y,i )
27
Reference
[1] Kozachenko, L. F., and Nikolai N. Leonenko. "Sample estimate of
the entropy of a random vector." Problemy Peredachi Informatsii
23.2 ﴾1987﴿: 9‐16.
[2] Kraskov, Alexander, Harald Stogbauer, and Peter Grassberger.
"Estimating mutual information." Physical review E 69.6 ﴾2004﴿:
066138.
[1] は KL estimator を提案した論文.ロシア語.
[2] は KSG estimator を提案した論文. KL estimator について
も説明されている.本資料の KL estimator の説明は,主にこ
の論文の記述に拠った.
28
[3] Gao, Weihao, et al. "Estimating mutual information for discrete‐
continuous mixtures." Advances in Neural Information Processing
Systems. 2017.
[4] Gao, Weihao, Sewoong Oh, and Pramod Viswanath.
"Demystifying fixed k‐nearest neighbor information estimators."
IEEE International Symposium on Information Theory ﴾ISIT﴿. 2017.
[3] は NIPS2017 で発表された離散・連続混合の相互情報量の
近似の論文.
[4] は [3] と同一の著者による KSG estimator のバイアスを改良
した論文.
29

Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定