More Related Content More from Joe Suzuki (20) CRAN Rパッケージ BNSLの概要10. BNSLの高速化の検討
アプローチ 現状 将来 (1年以内)
分枝限定法
(最適な構造)
ICML-96、UAI-17
通常の方法より10倍速い
PCで1時間以内に
nを定数として、pの多項式時間
ヒューリスティック
(近似)
親集合の個数を制限
構造の探索のしかたを制限
やり方は無数にある
{D,X}は、
Eの親集合
BNではなく、事後確率を最大にする森を求める
14. データ -> 相互情報量の推定値 -> 森
(Chow-Liu, Kruskal)
分布が森で表現されることを仮定
相互情報量の推定値大きいものから、
ループができない限り、辺を結んでいく
18. Rパッケージ BNSLの主な関数
関数名 機能
mi 相互情報量の推定
mi_matrix データフレームから相互情報量の推定量の行列を生成
cmi 条件付き相互情報量の推定
kruskal Chow-Liuアルゴリズムの実行で必要
parent_set ベイジアンネットワーク構築の親集合
bnsl ベイジアンネットワークの→の向き、変数の順序を決定
mi(x, y, proc=0)
等しい長さのベクトルx,yから、相互情報量を推定。
Jeffreys’ (proc=0), MDL (proc=1), 最尤 (proc=9), 連続を含む (proc=10)
29. 1: 2158 UBIC
2: 2389 オプト
3: 3622 ネットイヤー
4: 3655 ブレインパッド
5: 3680 ホットリンク
6: 3905 データセクション
7: 3906 ALBERT
8: 6031 サイジニア
8社の株値の関連性を森で表すと
34. ゲノム解析への応用 (1)
Int. J. Approximate Reasoning, 2016
青: p値の大きな遺伝子
赤: 症例/対照
1000個の連続変量
1個の2値変量
乳がん患者の遺伝子発現データ
(p51遺伝子をもつサンプル192個、
もたないサンプル58個)
39. 多い質問(2): スコアとして、BDeu, MDL, AICのどれがいいのですか
どれが良いかは、データによる。ちまたにあふれたガセを信じべからず
• MDLは、事後確率最大の近似解
• AICは、他のと比べると、過学習で枝が多くなる
• BDeuは、デファクトに近い待遇をうけてきたが、
• 致命的な性質が証明された (Suzuki 2017)
少ないサンプルでも枝が多くなる。
使われなくなると予想。
40. 他ツールとの比較 (自己評価)
bnlearn BayoLink BNSL
連続 △ ☓ ◯
研究の最先端 ☓ ☓ ◎
大規模な
BNの構造学習
近似を許して、大規
模な処理を行う
近似を許して、大規
模な処理を行う
最適解が求まる場
合しか動かない
ユーザ数 ◎ ◯ △
価格 無料 (Rパッケージ) 有料 無料 (Rパッケージ)
グラフィック △ ◎ ☓