連続変量を含む相互情報量の推定
2017年3月27日
鈴木譲
(大阪大学)
日本数学会 2017年度 春季大会
(於 首都大学東京)
本講演の目的
連続でも離散でも、仮定をおかない相互情報量の推定方法
独立性の検出 漸近的に正しい値
(一致性)
離散 1993
2012
自明
一般
(離散でも連続でも)
2015年 2017年3月
(証明ができた)
• 独立性検定への応用
• ゲノム解析への応用
• Rパッケージ (BNSL, 2017年3月)
ゲノム解析への応用
Int. J. Approximate Reasoning, 2017
独立性検定への応用
Entropy J., 2016
HSICとの比較
ロードマップ
• 推定(離散)
• 推定(連続)
1. 既存の方法
2. 提案している方法
3. 独立性の検出、一致性
4. 証明について
5. Rパッケージの紹介
まとめ
相互情報量 (離散)
← 筋が悪い
最尤法だと、過学習で値が大きめ
MDL/BICによる相互情報量の推定 (Suzuki 93)
← が負のとき
は0とする
Bayesによる相互情報量の推定 (Suzuki 12)
← が負のとき
は0とする
最尤法だと、過学習で値が大きめ
最尤法 MDL/BIC、Bayes
連続: 正規分布を仮定する場合
相関係数の推定
に帰着される
一般の相互情報量の推定
提案の手順
1. X軸、Y軸とも、順序によって、サンプルが等しい個数になるように、メッシュに区切る
2. 色々な幅のメッシュで区切り、その量子化(離散化)されたデータから相互情報量を推定する
3. 得られた相互情報量の中の最大値を、相互情報量の推定値とする。
離散データを入れても問題なく動作する
同じ順序のデータの間に、境界をいれない
• 取りうる値が少ない場合、メッシュは収束する
• サンプルに対して、取りうる値が多い場合、最適な区切りを見出す
証明ができたこと
定理: 提案した一般的な相互情報量の推定アルゴリズムについて、
← 今回初めて
← 既発表
相互情報量は、量子化しても、推定精度が大きくは落ちないが、
メッシュが細かすぎると、過学習で、値が小さくなる
独立性が確率1で検出できる (証明の概略)
ガンマ関数
(分割表の
モデル選択の
イメージ)
一致性の正確なステートメント
メッシュmで相互情報量がI(X,Y)であったときに
それを細分化したメッシュでは、I(X,Y)を超えないことを検出
メッシュmでのデータのもとでの
条件付き相互情報量が0になることを検出
オリジナルの分布が十分細
分化されたヒストグラムで表
現されている場合の一致性
の保証
Rパッケージ BNSL
(Bayesian Network Structure Learning)
2017年3月5日公開
提案アルゴリズムの他、
ベイジアンネットワーク
の自動生成など
鈴木譲 (阪大)
川原純(NAIST)
まとめ
連続量を含む相互情報量の推定
• 離散と連続を区別しない(順序のみをみている)
• 一致性
• 独立性の検出
• 分布を仮定しない
たくさんの応用とRパッケージの公開
今後の課題:
条件付き相互情報量の推定と条件付き独立性の検出

連続変量を含む相互情報量の推定