Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

因果探索: 基本から最近の発展までを概説

9,223 views

Published on

第23回情報論的学習理論と機械学習研究会 (IBISML)

Published in: Science
  • Login to see the comments

因果探索: 基本から最近の発展までを概説

  1. 1. 因果探索: 基本から最近の発展までを概説 清水昌平 大阪大学 産業科学研究所 2016年3月17日 IBISML 関連文献はココ: https://sites.google.com/site/sshimizu06/home/lingampapers
  2. 2. Abstract • 統計的因果推論 – 因果関係についてデータから推測する方法論 – 「何かを変化させて、何か他のものが変化したら」 前者が原因で、後者が結果 • フレームワーク: – 因果の定義:反事実モデル – 因果を数学的に記述: 構造方程式モデル • 因果構造をデータから推定する因果探索法 の主要なアイデアを概説 2
  3. 3. 出発点 Correlation does not imply causation 3
  4. 4. チョコレート消費量と ノーベル賞受賞者数には正の相関 4 Chocolate Consumption, Cognitive Function, and Nobel Laureates Franz H. Messerli, (2012), New England Journal of Medicine (Occasional Notes) 2002-2011チョコレートの消費量 ノ ー ベ ル 賞 受 賞 者 の 数 相関係数: 0.79 P値 < 0.0001
  5. 5. チョコレートをたくさん食べさせれば 受賞者が増えるのか?(因果関係) • 飛躍しすぎ (Maurage et al., 2013, J. Nutrition) 5 チョコ 賞 ?チョコ 賞 or GDP GDP チョコ 賞 or GDP 相関係数 0.791 P値 < 0.001 複数の因果関係が そのような相関関係を与えるギャップ チョコ 賞 潜在共通原因 潜在共通原因 潜在共通原因 (相関関係)
  6. 6. 出発点: 相関関係は因果関係を含意しない • では、因果関係を数学的にどう記述? – 相関係数は corr(チョコ,賞) • そして、因果関係が推定可能な条件は? – 因果の大きさ – 因果構造(方向など): 因果探索 6 チョコ 賞 ?チョコ 賞 or GDP GDP チョコ 賞 or GDP 潜在共通原因 潜在共通原因 潜在共通原因
  7. 7. 統計的因果推論で「採用」 されている因果の考え方 反事実モデル 7 (David Hume, 1748)
  8. 8. 個体における因果 (Neyman, 1923; Rubin, 1974; cf. Hernan, 2004) • 患者ゼウスにとって、投薬は治癒の原因? • 次のふたつを比較 – 「もしも薬を飲ませたとしたら、治癒するか」 – 「もしも飲ませなかったとしたら、治癒するか」 • もし○○だとしたらどうなる?: 反事実モデル 薬 治癒 治癒せずなし  ゼウス 8
  9. 9. 因果推論の根本問題 (Holland, 1986) • 個体における因果は、一般には同定できない – 観測できるのはどちらか一方 – 薬を飲ませてしまったら、薬を飲ませなかった場合にどうなる かは不明 薬 治癒 ?なし  ゼウス 9
  10. 10. 集団における因果 (Neyman, 1923; Rubin, 1974) • 患者集団(ゼウス、ヘラ、アテナ、アポロン...たくさん) – 「もしも全員に薬を飲ませた場合の治癒する割合」 ≠「もしも全員に飲ませなかった場合の治癒する割合」 ⇒「この集団において、投薬は治癒の原因」 • 集団における因果は同定できる場合がある 薬 治癒の 割合 治癒の 割合 なし ? 神様集団 10
  11. 11. 数学的に表現するための フレームワーク Pearlの構造的因果モデル 11 確率論の言葉では足りないよ
  12. 12. 構造方程式モデル (Bollen, 1989; Pearl, 2000) • データ生成過程のモデル – 変数の「値」が、どういう過程を経て生成されるか • 構造方程式:変数の「値」の決定関係を表す – 𝑦 = 𝑔 𝑦 𝑥, 𝑓, 𝑒 𝑦 » 単なる等式ではない ( := や  と解釈) » 𝑒 𝑦: yの値を決定するために必要な要因全て(x以外)   ),,( , yy xx efxgy efgx   x (薬) y (治癒) 構造方程式 因果グラフ 12 xe ye f (重症度)
  13. 13. 介入 (Pearl, 2000) • 介入: 変数の値を(他の変数に依らず=強制で)固定する – 薬を飲ませる:do(薬=飲む) or do(x=1) – xの構造方程式を「x=1」に取り換える • 介入前のデータ生成過程 (自然におまかせ) • 介入後のデータ生成過程𝑀 𝑥=1 x (薬) y (治癒) 𝑒 𝑥 𝑒 𝑦 構造方程式 因果グラフ ),,( 1 yy efxgy x   x (薬) y (治癒) 1 𝑒 𝑦 自律性の仮定:他の関数は変わらない (強制的に投薬した場合の仮想集団) 13   ),,( , yy xx efxgy efgx   f (重症度) f (重症度)
  14. 14. 介入後の分布 (Pearl, 2000) • 介入後のyの分布 := 介入後のモデル 𝑀 𝑥=1での分布 • もし介入後のyの分布が違うxの値cとdがあれば、 「この集団において、xはyの原因(のひとつ)」と言う     ypxdoyp xM 1 :1|        dxdoypcxdoyp  || ),,( 1 yy efxgy x   x (薬) y (治癒) 1 𝑒 𝑦 構造方程式 因果グラフ(パス図) 14 介入後の モデル 𝑀 𝑥=1 𝑀 𝑥=1 f
  15. 15. 定量化: 因果効果 (Rubin, 1974; Pearl, 2000) • 変数xの値をcからdに変化させた時に、 変数yの値が平均的にどのくらい変化するか • 変化させる:do(x=c)をした後、cをdに変える • 因果の大きさを知りたいなら 相関係数ではなく、因果効果を計算する      cxdoyEdxdoyE  ||:)( 因果効果平均 15
  16. 16. の計算 16 y x f ey ex yy xx efxby efx     xy b y x f ey yy efxby x    y b  cxdo xの値を強制的にcにする c c       yy eEfEbccxdoyE  |下のモデルでの E(y) が   cxdoyE | 介入前のデータ生成過程 (自然におまかせ)
  17. 17. 逆に、yの値を変化させたら? 17 y x f ex               xxxx eEfEeEfE cydoxEdydoxE    ||)( 因果効果平均  x 0 y c “ちゃんと”ゼロになる (注: xをyに回帰しても, 回帰係数 ≠ 0) c yy xx efbxy efx    
  18. 18. • 因果グラフは既知としよう • 非巡回有向きグラフの場合: – 十分条件 (Pearl, 1995) xの親を観測して調整: – 線形なら – 因果グラフ(因果構造)を知る必要がある • 結果変数qや中間変数uは説明変数に入れちゃダメ     の親の親 xxyEExdoyE x ,|)|(  y x z w u v q        cdx cxdoyEdxdoyE   の偏回帰係数 || 18 因果効果の識別性
  19. 19. 因果構造の推定(因果探索) 19 データ行列X 観測 変 数 推定 x4 x21 x3 x57 x83 x15 +仮定 データから因果グラフを推定
  20. 20. 因果探索のフレームワーク • 構造的因果モデル (Pearl09)で 仮定を表現 – データ生成過程 • 関数形と外生変数分布 – 自律性 • 介入しても他の構造方程式は変 わらない – No Interference between Subjects • 個体間の依存なし • データと組み合わせて データ生成過程を推定 – 定性的な部分:因果構造 20    yy xx efxgy efygx ,, ,,   1. どういう関数で決まるか 2. 外生変数はどういう分布か fee yx ,, の分布 y x 観測変数 の分布  yxp , 分布 決まる 推定 y x f ey ex
  21. 21. ノンパラメトリックな方法 関数形には仮定をおかない どこまで識別可能か? 21
  22. 22. ノンパラメトリックな方法 • 関数形にも分布にも仮定を``おかない” • 基本設定 – 非巡回 – が独立: 潜在共通原因なし • 推定原理:観測変数の条件付き独立性+忠実性 • ゴール: マルコフ同値類を見つける 22  iiii exfx ,の親 x3 x1 e3 e1 x2 e2 ie
  23. 23. 伝統的な識別原理: Causal Markov condition • 「非巡回+潜在共通原因なし」の構造方程式モデル なら、Causal Markov condition が成り立つ: – 各変数 𝑥𝑖 は、親で条件付けると非子孫と独立 (Pearl & Verma, 1991) x3 x1 e3 e1 x2 e2 23 p(x)に現れる特性: 条件付き独立性 データXで成り立つ 条件付き独立性: 𝒙 𝟐と𝒙 𝟑が独立 | 𝒙 𝟏
  24. 24. 追加の仮定:忠実性 (Spirtes et al., 1993; Pearl, 2000) • 「観測変数間の独立性・条件付き独立性の 有無は、グラフ構造のみによって決まる」 • 特定のパラメータ値には依存しない 24 忠実性が崩れている例( 𝑒𝑖 がガウスと仮定) x y𝑒 𝑥 𝑒 𝑦 z 1 -1 1 𝑒 𝑧 0),cov( zx z y x eyxz exy ex   
  25. 25. 例: Causal Markov Cond.で推定 25 x3 x1 x2 データXで成り立つ 条件付き独立性: 𝒙 𝟐と𝒙 𝟑が独立 | 𝒙 𝟏 データXが 生成される x3 x1 x2 x3 x1 x2 x3 x1 x2 x3 x1 x2 真 データで成り立つのと同じ 条件付き独立性を 与えるモデルを列挙 まとめる 復元できない この3つが全部そう(マルコフ同値類) ここまで が限界 Pattern
  26. 26. • PCアルゴリズム (Spirtes+91) – Skeletonの推定 • xとy独立 | s となるような変数集合(空ok)があれば辺なし – 残った辺に向きをつける • V字合流 – 構造から示唆される有向辺 (Meek95UAI): Complete • 例: 非巡回になるように 制約ベースの推定法 26 x y z x y z 初期 グラフ x,y独立だが x y z zで条件づける とx,y従属 • 検定で独立性を 判定 • 一致性: 閾値を 未知量に合せる • Sparseなら 1000変数5分 (Kalisch+07JMLR) V字合流
  27. 27. 拡張など • モデルの拡張 – 潜在共通原因に「頑健」 (Spirtes+95UAI) – 巡回 (Richardson96UAI) – 忠実性を緩める(Ramsey+06UAI) • スコアベースの推定法 (Chickering02JMLR) – 例: 線形ガウスでBICで貪欲法 – マルコフ同値類ごとにスコア付け • 高次元小標本(Kalisch+07JMLR, Colombo+12AS) • 因果効果バウンド(Maathuis+09AS) 27
  28. 28. セミパラメトリックな方法 関数形に制約を入れる 一意性を課した時に制約をどこまで 緩められるか? 28
  29. 29. • Linear Non-Gaussian Acyclic Model (LiNGAM) (Shimizu+06JMLR) • データXから因果方向, 係数が識別可能 • 忠実性不要 LiNGAMモデル 29 i ij jiji exbx   x1 x2 x3 21b 23b13b 2e 3e 1e - 非巡回 - 非ガウス外生変数(誤差) ei - ei は互いに独立 (潜在共通原因なし) )( eBxx  行列表現
  30. 30. 識別可能: 方向が違えば分布が違う 𝑒1, 𝑒2がガウス 𝑒1, 𝑒2が非ガウス (一様分布) モデル1: モデル2: x1 x2 x1 x2 e1 e2 x1 x2 e1 e2 x1 x2 x1 x2 x1 x2 212 11 8.0 exx ex   22 121 8.0 ex exx       1varvar 21  xx     ,021  eEeE 30 相関係数は どれも0.8
  31. 31. 独立成分分析モデル (ICAモデル) (Jutten & Herault, 1991; Comon, 1994) • 観測変数ベクトルxのデータ生成過程: ここで独立成分 𝑠𝑖 は非ガウスかつ独立 • 混合行列Aは(列の置換とスケーリングを除いて) 識別可能 • LiNGAMの非ガウス独立誤差変数=独立成分 Asx   p j jiji sax 1 or 31 Ae eBIxeBxx   1 )(
  32. 32. 識別性証明のアイデア • 向きが違えば、Aのゼロ非ゼロパターン異なる – LiNGAMでは対角にゼロないから列置換定まる 32                     2 1 212 1 1 01 e e bx x  21212 11 exbx ex   A sx                     2 112 2 1 10 1 e eb x x  A sx 22 12121 ex exbx   x1 x2 e1 e2 x1 x2 e1 e2
  33. 33. 推定法の例 (Shimizu+11JMLR, Hyvarinen+13JMLR) • 因果順序の上から下へ順に推定 – 1番上を見つけて、残差を計算 (Shimizu+11JMLR) • 1番上(外生変数)の見つけ方 – 2変数ごとに向きを比較して、どのペアでも原因 33 )3( 2r)3( 1rx3 x1 x2 )1,3( 2r Step. 1 Step. 2 Step. 3                         )( )( )( )( )( )( loglim )1( 2 )1( 2 1)2( 1 )2( 1 2 21 21 rsd r HxH rsd r HxH xxL xxL n Hを最大エントロピー近似(Hyvarinen98NIPS) エントロピー和を小さくする 向きが因果の向き
  34. 34. だからといって • 「エントロピーの和を小さくする向き」を 因果の向きと「定義する」のはまずい • 例えば潜在共通原因があれば、エントロピー を小さくする向きが因果の向きとは限らない – グレンジャー因果 – Information theoretic measure 34
  35. 35. 拡張 • 巡回 (Lacerda+08UAI) • 時系列 (Hyvarinen+10JMLR; Huang+15IJCAI; Gong15ICML) • 非線形 (Zhang+09UAI; Peters+14JMLR; cf. Imoto02PSB) • ノンパラ+セミパラ (Hoyer+08UAI;Ramsey11NeuroImage) – ノンパラで残った辺を向きづけ • 離散変数 – ブール代数 XOR (Peters+11TPAMI) – ポワソン分布 (Park+15NIPS) • 連続と離散の混在はまだない 35   iiiii exffx   の親1, 1 2, - Post-Nonlinear ICA+
  36. 36. 適用事例 36 化学: Campomanes+14, J. Am. Chem. Soc. 経済学: Moneta+12, Oxford B Econ. Stat. 脳: Mills-Finnerty+14, NeuroImage 利益(t) 雇用(t) 売上(t) R&D(t) 雇用(t+1) 売上(t+1) R&D(t+1) 利益(t+1) 雇用(t+2) 売上(t+2) R&D(t+2) 利益(t+2) 疫学: Rosenstrom+12, PLOS ONE 抑うつ気分 睡眠障害 抑うつ気分 睡眠障害 or ?
  37. 37. 仮定の評価 モデルが正しいとは肯定的には言えないが、 間違ってたら検出できることもある • ガウス性の検定 – 観測変数や外生変数(誤差)の非ガウス性チェッ (Moneta+13) • 外生変数(誤差)間の独立性検定 – 従属  潜在共通原因あり (Entner+ 2011; 2012) • 全体的な適合度 – カイ二乗検定 (Shimizu & Kano, 2008) • 参考: 統計的信頼性評価 – ブートストラップ (Komatsu, Shimizu & Shimodaira, 2010) – 漸近論はまだない 37
  38. 38. 潜在共通原因 38
  39. 39. i ij jij Q q qiqi exbfx   1  • 潜在共通原因 を追加 (非ガウス) 潜在共通原因がある場合の LiNGAMモデル (Hoyer+08IJAR) 39 ただし は独立(WLG)),,1( Qqfq  qf x1 x2 2e1e 1f 2f 2121 1 22 1 1 11 exbfx efx Q q qq Q q qq        
  40. 40. 非ガウス (一様分布) x2 x1 e1,e2, f1がガウス x2 • Aのゼロ・非ゼロパターンからグラフは識別可能 – 𝑥𝑖, 𝑓𝑖に忠実性を仮定 + 𝑓𝑖の数given • 課題: 効率のよい推定アルゴリズムは発展途 例えば、以下が識別可能に (Hoyer+08IJAR) 40 x1 x2 f1 x1 x2 f1 x1 x2 f1 モデル 1. 2. 3. 共分散行列が同じになるようにパス係数を選んでも非ガウスなら分布が違う       **0 *0*       *** *0*       **0 *** A A
  41. 41. 過完備ICAに基づく推定アプローチ • 潜在共通原因を陽にモデリングしてモデル選択 – 最尤推定 or ベイズ推定 (Hoyer+08IJAR; Henao+11JMLR) – 潜在共通原因の数を特定する必要 – 大変 41 x1 x2 f1 fQ … 2e1e 2121 1 22 1 1 11 exbfx efx Q q qq Q q qq        
  42. 42. )( 2 m  観測は, 切片 が異なるかもしれない LiNGAMモデルから生成される )( 2 m  )1( 1x )1( 2x )( 2 m x )( 1 m x )( 2 )( 121 1 )( 2 )( 2 mm Q q m qq m exbfx    階層ベイズに基づくアプローチ (1/2) (Shimizu & Bollen, 2014) • 潜在共通原因ありのLiNGAMの別の見方: 42 x1 x2 f1 fQ… 2e1e )1( 2e)1( 1e )( 2 m e)( 1 m e …… 21b 21b 21b )( 2 m  )1( 2 m-番目の観測: 観測固有の切片
  43. 43. 階層ベイズに基づくアプローチ (2/2) 観測固有の切片の事前分布 • 動機: 中心極限定理 – よりたくさんの独立な潜在共通原因の和は, よりガウスに • ベル型の分布で切片を近似、例えばガウスやt-分布 • 小さい : 切片が似てる • 観測ごとに別の構造方程式: Mixed model • 潜在共通原因fqを陽にモデリングしなくてよい 43    Q q m qq m Q q m qq m ff 1 )( 2 )( 2 1 )( 1 )( 1 ,  ~)( 2 )( 1       m m   t-分布 (標準偏差 , 相関 , 自由度 )1221, v 21,
  44. 44. 因果の向きと潜在共通原因 それ以外に 非ガウス性が役立つ場合は? 44/57
  45. 45. 時系列データにおける サブサンプリングの影響 (Gong+15ICML; Hyttinen+16; cf. Hyvarinen+10) • ガウスの場合より、非ガウスの方が復元できる場合が 多いようだ 45 サブサンプリング 復元? 図はHyttinen+16より t-2時点 t-1時点 t時点 t-2時点 t時点
  46. 46. おわりに • 因果探索: データ+仮定  因果グラフ – 最大の課題は潜在共通原因:スタートにはついた! • 理論的な課題: 識別性 – 一意性を課しつつどこまで仮定を緩められる? • 適用する際の方法論的課題 – 非定常性・個人差 – 高精度化、高速化、高次元化、漸近論、外れ値、欠測 etc. • 統計学・機械学習技術の投入 • Causal Machine Learning – 因果構造に基づく異常検知、変化点検知、クラスタリング etc. 46
  47. 47. • とは、do(x=d)のモデルでのゼウスのy 外生変数 の値で、個体(+状況)を特定 ( は、yの値を決めるx以外の要因すべてを含む) 再訪: 個体における因果 (Pearl, 2000)   ゼウス ゼウスゼウス yyx yydx edb edfy   , yyx x exby ex   モデル1: x y ex ey yyx exby dx   モデル1’ do(x=d): x y d ey ye 47 ゼウス dxy  ye ゼウス xe ゼウス ye ゼウスのデータを作るときにつかったeyの値

×