Successfully reported this slideshow.
Your SlideShare is downloading. ×

統計的因果推論への招待 -因果構造探索を中心に-

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 56 Ad

More Related Content

Slideshows for you (20)

Advertisement

Recently uploaded (20)

Advertisement

統計的因果推論への招待 -因果構造探索を中心に-

  1. 1. 統計的因果推論への招待 - 因果構造探索を中心に - 滋賀大学 データサイエンス学部 大阪大学 産業科学研究所 理化学研究所 AIPセンター 清水昌平
  2. 2. 出発点 Correlation does not imply causation
  3. 3. 相関があるからと言って 因果関係があるとは限らない 3 Messerli, (2012), New England Journal of Medicine ノ ー ベ ル 賞 受 賞 者 の 数 相関係数: 0.79 P値 < 0.0001 チョコレート消費量
  4. 4. 相関関係と因果関係のギャップ 4 チョコ 賞 ?チョコ 賞 or GDP GDP チョコ 賞 or GDP 相関係数 0.79 P値 < 0.0001 複数の因果関係が 同じ相関関係を与える 賞 潜在共通原因 潜在共通原因 潜在共通原因 ギャップ
  5. 5. 相関と因果の違い • 相関関係 • チョコ消費量が多い国ほど、受賞者が多い • チョコ消費量が多い国と少ない国 の受賞者数を比較 • 異なる国の違い • 因果関係 • チョコ消費量を増やすと、受賞者が増える • 介入して、 ある国のチョコ消費を増やす場合とそのままの場合 の受賞者を比較 • 同じ国の違い • 介入効果 • チョコ消費量を増やすと、受賞者数がどのくらい増えるか (減るか) 5
  6. 6. ランダム化実験 最も解析がシンプルになる方法 • (患者)集団をランダムにふたつに分ける 6 薬 治癒の 割合 治癒の 割合 なし などなどたくさん 違いは、投薬の有無のみ ≠?
  7. 7. ランダム化実験しないとき • 重症な患者に投薬する傾向 7 薬 治癒の 割合 治癒の 割合 なし などなどたくさん ≠? 重症多め 少なめ 投薬の有無以外にも重症度が違う
  8. 8. 重症度の高低で分ける(層別) • 重症の人のみ集める (軽症の人のみ集める) 8 薬 治癒の 割合 治癒の 割合 なし などなどたくさん ≠? みな重症 違いは、投薬の有無のみ
  9. 9. • 重症かで投薬するかが決まり • 重症かで治癒するかも決まる • 相関関係と因果関係のギャップを生み出す • Correlation does not imply causation 重症度は共通原因 9 薬 治癒 重症度 潜在共通原因 誤差 誤差
  10. 10. 共通原因を観測して「調整」(層別) • 線形性を仮定 • 「治癒」を「薬」に単回帰 • 「薬」と「重症度」に重回帰するとゼロになる 10 X:薬 Y:治癒 Z:重症度 潜在共通原因 誤差 誤差yyz xxz ezy ezx       0 )var()var( var )var( ),cov( 2    xxz xzyz ez z x xy   xz yz 回帰係数
  11. 11. 共通原因は複数あることが普通 • wとzを観測して調整 • 回帰の説明変数に入れる • vは入れなくていい • 因果グラフを基に、 どれを入れるか判断 • バックドア基準 • 因果構造を表すグラフが 因果グラフ 11 x y zw u v q 図を修正しました
  12. 12. 因果グラフが不明なことが多い • 事前知識が足りない • 仮説が十分ない • データの助けがほしい • データから因果グラフを推測: 因果構造探索 12 データ行列X 観測 変 数 推測 x4 x1 x5 x6 x3 x2 +仮定
  13. 13. トークの概要 • 統計的因果推論のフレームワーク • 因果関係を数式で表現 • 因果グラフを基にした介入効果の推定 • 因果グラフの推測 13
  14. 14. 因果推論の フレームワーク
  15. 15. 基本となる概念: 反事実 • もし○○だとしたらどうなる? • 「もしも薬を飲ませたとしたら、治癒するか」 • 「もしも飲まないでもらったとしたら、治癒するか」 15 薬 治癒 治癒せずなし  ゼウス ゼウス(個体)について、薬の治癒への介入効果あり
  16. 16. 因果推論の根本問題 (Holland, 1986, JASA) • 個体における因果は、一般には同定できない • 観測できるのはどちらか一方 16 薬 治癒 ?なし  ゼウス 薬を飲ませてしまったら、 薬を飲まないでもらった場合にどうなるかは不明
  17. 17. 代わりに、集団における因果 • もし集団全員に薬を飲ませた場合 • もし集団全員に薬を飲まないでもらった場合 17 薬 治癒の 割合 治癒の 割合 なし ? 集団 やはり観測できるのはどちらか一方
  18. 18. ランダムに分けることで模擬 • メンバーは違うが、集団としては同じ • 男女比、重症の人の割合、…などなど同じ 18 治癒の 割合 治癒の 割合 なし ? 集団 違いは、投薬の有無のみ
  19. 19. Rubinの フレームワーク Imbens and Rubin, 2015
  20. 20. 新たな変数を導入 • 潜在反応モデル • 2つの場合に治癒するかを表す変数を導入 20 ゼウス 1xy ゼウス 0xy 薬 なしゼウス x=1 x=0 D. B. Rubin. Journal of Educational Psychology, 1974 潜在反応
  21. 21. 潜在反応の分布が違うか • 確率変数 (潜在反応) 21  1xyp 01  xx yy と  0xyp     )(01 のひとつの原因はなら, yxypyp xx  
  22. 22. 実際には両方のデータはとれない 22 x=1 x=0 ゼウス 欠測 アポロン 欠測 ⋮ ⋮⋮    は不明と 01  xx ypyp らが独立」が成り立つなとが独立」かつ「と「 xyxy xx 01         xypyp xypyp xx xx | | 00 11     欠測データ 欠測データから 推定可能 (ランダム化実験では成り立つ) 11 xy 00 xy
  23. 23. Pearlの フレームワーク J. Pearl. Causality, 2nd ed. 2009
  24. 24. doという介入を表す記号を導入 • 介入do(x=1)をした集団と • 介入do(x=0)をした集団を比較 24  )1(| xdoyp  )0(| xdoyp     )()1(|)1(| のひとつの原因はなら, yxxdoypxdoyp 
  25. 25. 介入をした集団とは • 介入前のデータ生成過程を方程式で表す • 介入do(x=1)すると新しい集団ができる 25   ),,( , yy xx ezxgy ezgx   x y xe ye z 構造方程式 因果グラフ ),,( 1 yy ezxgy x   x yye z 構造方程式 因果グラフ 1  )1(| xdoyp
  26. 26. 定量化: 平均因果効果 • 変数xの値を0から1に変化させた時に、 変数yの値が平均的にどのくらい変化するか • 因果の大きさを知りたいなら 相関係数ではなく、平均因果効果を計算する    01:)(   xx yEyE因果効果平均 26      0|1|  xdoyExdoyE
  27. 27. 予測との目的の違い • 予測 • 何かを観測したとき、他の何かはどのくらいか? • 薬を飲むのを観測した時、治癒する確率は? • 推定したい量: • 条件付き期待値: E( 治癒 | 薬=飲む) • 因果 • 何かを変化させると、他の何かがどう変化するか • 薬を飲ませると、治癒する確率はどう変わる? • 推定したい量: • 介入効果: E[ 治癒 | do( 薬 = 飲む ) ] – E[ 治癒 | do( 薬 = 飲まない ) ] 27
  28. 28. 因果グラフを 基にした介入効果の推定 林岳彦・黒木学, p.28-48, 2017星野崇宏, 2009
  29. 29. 対処したいこと: 交絡 • 交絡: 介入後の分布と条件付き分布が異なる • そのときは、平均も異なる • 交絡が起きるのはいつか • 潜在共通原因があるとき • 選択バイアス • 異質な集団の混合など 29    1|)1(|  xypxdoyp    1|)1(|  xyExdoyE
  30. 30. • 非巡回有向グラフを基に、どの変数で調整すべき かを判定するための基準 • 十分条件の例: xの親をすべて 観測して調整 よりどころ: バックドア基準 30 x:薬 y:治癒 z: 重症度 共通原因         み治癒する人の割合軽症の人の中で薬を飲軽症の人の割合 み治癒する人の割合重症の人の中で薬を飲重症の人の割合 重症度薬飲む治癒 の親 重症度 の親     ,| ,1|)1|( EE xxyEExdoyE x バックドア基準を基に変数を選び調整すると、 条件付き分布から介入した後の分布を推定可能
  31. 31. ランダム化実験の因果グラフ     1|1|  xyExdoyE 31 • xの値はランダムに決めるため、親変数なし J. Pearl. Biometrika, 1995 M. H. Maathuis and D. Colombo. Annals of Statistics, 2015 バックドア基準の論文 共通原因 共通原因 (x=0の場合も同じ) x:薬 y:治癒 z: 重症度 x:薬 y:治癒 z: 重症度
  32. 32. 因果グラフの推測 因果探索 Spirtes, Glymour, Shceines, 2001 (2nd ed)
  33. 33. 基本アイデア • 因果グラフの構造に仮定をおく • 非巡回有向グラフ • 潜在共通原因なし(すべて観測されている) • その場合に、観測変数の分布に成り立つはずの 特性を理論的に導く • 実際にデータで成り立つ特性と照らし合わせて、 つじつまの(最も)合うグラフを推測 33
  34. 34. 非巡回有向グラフを探索 • 3変数の場合の因果グラフ候補 • 識別性 • データから正しいグラフを見つけられるのか? • 計算負荷 • 総当たりで探すのは困難(8変数ぐらいで不可能に) 34
  35. 35. 35 因果的マルコフ条件 • 各変数 𝑥𝑖 は、親で条件付けると非子孫と独立 • 因果グラフの構造と条件付き独立性の対応 x3 x1 e3 e1 x2 e2 条件付き独立性 𝒙 𝟐と𝒙 𝟑が独立 | 𝒙 𝟏 のみ 因果グラフ J. Pearl and T. Verma. Proc. 2nd International Conference on Principles of Knowledge Representation and Reasoning, 1991.
  36. 36. 忠実性 • 変数間の独立性・条件付き独立性の 有無は、グラフ構造のみによって決まる • 「因果的マルコフ条件から導かれる独立性」 のみが成り立つことを保証: 「例外」の排除 36 𝑥1 𝑥2 𝑥3 1 -1 1 0),cov( 31 xx 3213 212 11 exxx exx ex   
  37. 37. 因果的マルコフ条件を用いて探索 37 x3 x1 x2 成り立つ条件付き独立性 「 𝒙 𝟐と𝒙 𝟑が独立 | 𝒙 𝟏」 データXが 生成される x3 x1 x2 x3 x1 x2 x3 x1 x2 x3 x1 x2 正 同じ条件付き独立性を 与える因果グラフを列挙 まとめる 復元できない (識別できない) ここまで が限界 のみ
  38. 38. 一意に決まる例 38 x3 x1 x2 データXが 生成される 正 復元できる (識別できる) x3 x1 x2 は独立」と「 32 xx ひとつだけ 成り立つ条件付き独立性 のみ 同じ条件付き独立性を 与える因果グラフを列挙 V字合流
  39. 39. 同じ条件付き独立性を与える 因果グラフの集合: 同値類 • 非巡回有向グラフ • 有向辺の有無は共通 • V字合流は共通 39 x3 x1 x2 x3 x1 x2 x3 x1 x2 x3 x2 x1 V字合流 x2とx3は独立 しかし, x1で条件づける と従属
  40. 40. 2種類の探索アプローチ • 制約ベースの探索 • 制約: 観測変数の条件付き独立性 • 仮説検定で有無 • 制約を満たす因果グラフ • スコアベースの探索 • 制約を全体的に最も満たす因果グラフ • 情報量基準(BICなど)で評価 • 目的 • 正しい因果グラフを含む同値類を見つける 40 P. Spirtes and C. Glymour. Social Science Computer Review, 1991. D. M. Chickering. Journal of Machine Learning Research, 2002.
  41. 41. 拡張など • 巡回グラフを含めた同値類 (Richardson96UAI) • 潜在共通原因を含めた同値類 (Spirtes+95UAI) • 介入効果の範囲 41 x y f w z x yw z x y f1 w z f2 F. Eberhardt CRM Workshop 2016より D. Malinsky and P. Spirtes, International J. Approximate Reasoning, 2017 M.H. Maathuis, M. Kalisch, and P. Bühlmann. Annals of Statistics, 2009
  42. 42. 因果探索 関数形にも仮定を入れてみる 線形性や加法性など 清水昌平, 2017 Chap. 7: S. Shimizu Chap. 8: K. Zhang and A. Hyvarinen
  43. 43. 関数形にも仮定を入れてみる • 因果的マルコフ条件以外にも利用可能な情報 • 条件付き独立性だけでなく分布の違いを利用 • 線形性+非ガウス分布 43 x1 x2 x1 x2 観測変数x1,x2の 分布が違う (条件付き独立性に違いはない)
  44. 44. 44 • 非巡回有向グラフ • 関数形は線形 • 誤差変数𝑒𝑖は独立 • 誤差変数𝑒𝑖の分布が非ガウス連続分布 LiNGAMモデル Linear Non-Gaussian Acyclic Model (Shimizu+06JMLR) i xx jiji exbx ij   )(pa x1 x2 x3 21b 23b13b 2e 3e 1e 因果グラフ 識別可能
  45. 45. 誤差変数𝑒𝑖の非ガウス性と独立性が どう役立つか? 45 21212 11 exbx ex   x1 x2 e1 e2 正しいモデル 結果x2を原因x1に回帰 原因x1を結果x2に回帰 2 1212 1 1 12 2 )1( 2 )var( ),cov( e xbx x x xx xr    は独立と )1( 211 )( rex  残差   )var( var )var( ),cov( 1 )var( ),cov( 2 121 1 2 2121 2 2 21 1 )2( 1 x xb e x xxb x x xx xr          はと )2( 121212 )( reebx  2e 従属 021 b ガウスだと 無相関=独立
  46. 46. • は最初: どの変数の子にもならない • LiNGAMモデルにおいて 因果的順番が最初の変数の同定 (Shimizu et al., 2011, J. Machine Learning Research) 46 定理1: 「 は その残差 のどれとも独立 ( は 以外全部)」 「 は最初」   j j ji i j i x x xx xr )var( )cov( , jx jxi j jx x3 x1 x2 x3 x1 x2
  47. 47. 推定法の例 (Shimizu et al., 2011, J. Machine Learning Research) • 因果順序の上から下へ順に推定 • 1番上を見つけて、残差を計算 • 残差もLiNGAMモデル • 因果関係は変わらない 47                                            2 1 3 2 1 3 2 1 3 03.10 005.1 000 e e e x x x x x x 0 0 0 0 0 0 00                          2 1 )3( 2 )3( 1 )3( 2 )3( 1 03.1 00 e e r r r r 0 0 )3( 2r)3( 1rx3 x1 x2 0
  48. 48. 相互情報量の差=非ガウス性の差 (Hyvarinen & Smith, 2013, J. Machine Learning Research) • 正なら,𝑥1と𝑟2 (1) の方が𝑥2と𝑟1 (2) より独立 (𝑥1  𝑥2) • 負なら,反対 (𝑥1 ← 𝑥2) • 相互情報量の代わりに,1次元のエントロピーを計算 • Hを最大エントロピー近似 (Hyvarinen, 1999) 48                      )( )( )( )(),(),( )2( 1 )2( 1 2)1( 2 )1( 2 1 )2( 12 )1( 21 rsd r HxH rsd r HxHrxIrxI
  49. 49. 49 • 「非線形+加法誤差」のモデル • いくつかの非線形性と誤差変数の分布の組み合わせを 除いて識別可能 (Zhang+09UAI; Peters+14JMLR) • 下から推定 (Mooij+ICML09) 非線形モデル       iiiii iiii i x jiji exffx exfx exfx i      の親 の親 の親 1, 1 2, -- Hoyer+08NIPS -- Zhang+09UAI 1. 2. 3. -- Imoto+02; Buhlman+14AS
  50. 50. 拡張
  51. 51. 巡回性のあるLiNGAMモデル (Lacerda et al., UAI08) • モデル: • 識別性の条件 • B=[bij]の固有値の絶対値が1以下(平衡状態にある) • ループ(閉路)が交わらない • 自己ループなし x1 x2 e1 e2 x5 e5 x4e4 x3e3 51 i ij jiji exbx   例えば、二変数の場合は識別できる x1e1 x2e2
  52. 52. 時系列 • サブサンプリング: 低解像度データ • SVAR: 構造型自己回帰モデル (Swanson & Granger, 1997) • 非ガウス独立 (Hyvarinen et al., 2010, JMLR) • 「間」を復元 (Gong et al., ICML15) • 非定常 (Huang et al., IJCAI15) • 平均や係数が時間的に滑らかに変化 )()()( 0 ttt k exBx     52
  53. 53. i ij jij Q q qiqi exbfx   1  • 潜在共通原因 を追加 (非ガウス) 潜在共通原因がある場合の LiNGAMモデル (Hoyer+08IJAR) 53 ただし は独立(WLG)),,1( Qqfq  qf x1 x2 2e1e 1f 2f • 推定 • 潜在共通原因の数を陽に (Hoyer+08IJAR;Henao+10JMLR) • 陰に (Shimizu+14JMLR)
  54. 54. 線形の場合は 独立としても一般性を失わない 独立な潜在共通原因 i ij jij Q q qiqii exbfx   1  54 x1 x2 2e1e 1f e 2f e x1 x2 2e1e 1 :1 f ef 2 :2 f ef 1f 2f 従属な潜在共通原因                               2 1 2221 11 2221 11 2 1 00 2 1 f f aa a e e aa a f f f f
  55. 55. おわりに
  56. 56. 因果推論は介入効果を推定 • 介入効果予測の汎化誤差を最小に • 数理的フレームワーク: 因果関係を式で書く • 因果グラフが既知の場合の介入効果の推定 • 因果グラフの推測 • 今後: 潜在共通原因がある場合への対処 (本丸) • リンク集 (論文やコード) • https://sites.google.com/site/sshimizu06/home/lingam papers 56

×