Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

因果探索: 観察データから 因果仮説を探索する

1,261 views

Published on

日本社会心理学会:第3回春の方法論セミナーのスライド

Published in: Science
  • Be the first to comment

因果探索: 観察データから 因果仮説を探索する

  1. 1. 因果探索: 観察データから 因果仮説を探索する 清水昌平 大阪大学 産業科学研究所 日本社会心理学会:第3回春の方法論セミナー 関連文献はココ: https://sites.google.com/site/sshimizu06/home/lingampapers
  2. 2. 因果探索 • 観察データから因果に関する仮説を探索 • データ+仮定  因果グラフ(パス図) – どんな仮定の下で何が導けるか? – 仮定の評価方法は? 2 データ行列X 観測 変 数 推定 x4 x21 x3 x57 x83 x15 +仮定
  3. 3. 構造方程式モデリング(SEM)と 因果探索 • 社会学データ: General Social Survey (n=1380) • パス図(因果グラフ)が正しいとして、因果の大きさを 推定 • 因果探索法のねらい: そもそもパス図を推定 3 Status attainment model (Duncan et al., 1972) 0.16 0.30 -0.05 0.08 -0.02 0.61 0.30 0.18 χ2 = 9.484 (4 df)
  4. 4. SEM: 分析者は事前に判断 • 因果方向 • 潜在共通原因がない 4 y x 「潜在」共通原因はない y x 潜在共通 原因 z zに関する「潜在」共通原因なし xはyの原因でない zはyの原因 zからxへは直接効果なし 操作変数 観測済み 共通原因
  5. 5. そんなときに、因果探索法! • データが分析者を助けてくれる場合もあるはず • 仮定の按排・トレードオフ – パス図 vs. 関数形 • そのための方法論は足りているのか? 5 足りてない!つくろう! 因果探索の方法論
  6. 6. 因果探索法を 簡単にサーベイ 6
  7. 7. 因果探索の基本問題 7 潜在共通原因 f 潜在共通原因f 潜在共通原因f    yy xx efgy efygx , ,,      yy xx efxgy efgx ,, ,      yy xx efgy efgx , ,   データ行列 x y ~i.i.d. p x, y( ) obs.1 仮定: どれかが データを生成 問題: どれが生成 したかを推定 obs.nobs.2 … y x f y x f y x f ey ex ey ex ey ex ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布 構 造 方 程 式 モ デ ル 構 造 方 程 式 モ デ ル 構 造 方 程 式 モ デ ル
  8. 8. 因果探索: 3つのアプローチ 1. ノンパラ (Spirtes+93; Pearl00) – 関数形にも分布にも仮定おかず  どれかわからない 2. パラメトリック – 線形+正規分布  どれかわからない 3. セミパラ – 線形+非正規分布  どれかわかる 8 潜在共通原因f 潜在共通原因f 潜在共通原因f    yy xx efgy efygx , ,,      yy xx efxgy efgx ,, ,      yy xx efgy efgx , ,   y x f y x f y x f ey ex ey ex ey ex ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布 構 造 方 程 式 モ デ ル 構 造 方 程 式 モ デ ル 構 造 方 程 式 モ デ ル
  9. 9. 非正規分布 • General Social Survey (米国) – 非農業, 35-44歳, 白人、男性、就業、1972-2006 – サンプルサイズ: 1380 背景知識 (Duncan et al., 1972) Status attainment model x2: Son’s Income 9
  10. 10. 適用イメージ (Shimizu & Bollen, 2014) • 社会学データ: General Social Survey (n=1380) • 係数の事後分布 – 収入学歴 • やっとスタート地点についた!? 10 息子収入 息子 学歴スコア … < 周辺尤度 息子収入 息子 学歴スコア …
  11. 11. 1. 時間情報がないときに因果方向を推定 2. 潜在共通原因への対処 11 Major challenges x1 x2 ?x1 x2 or x1 x2 ?x1 x2 or f1 f1
  12. 12. 潜在共通原因が「ない」場合 12 y x y x y xey ex ey ex ey ex
  13. 13. • データXから因果方向, 係数, 切片が 識別可能(一意に推定可能) SEMにおける非正規性利用 LiNGAMモデル (Shimizu et al., 2006, J. Machine Learning Research) 13 i ij jijii exbx    x1 x2 x3 21b 23b13b 2e 3e 1e - 非巡回 - 非正規誤差 ei - ei は互いに独立 (潜在共通原因なし) 基礎仮定 - 線形性
  14. 14. 識別可能: 方向が違えば分布が違う 𝑒1, 𝑒2がガウス 𝑒1, 𝑒2が非ガウス (一様分布) モデル1: モデル2: x1 x2 x1 x2 e1 e2 x1 x2 e1 e2 x1 x2 x1 x2 x1 x2 212 11 8.0 exx ex   22 121 8.0 ex exx       1varvar 21  xx     ,021  eEeE 14 相関係数は どれも0.8
  15. 15. 線形非正規以外にも 15
  16. 16. • 「非線形+加法の外生変数」のモデル • いくつかの非線形性と外生変数の分布を除いて識別可能 (Zhang & Hyvarinen, 2009; Peters et al., 2014) • Open problem: どこまで緩められるか? 非線形+加法の外生変数       iiiii iiii i x kki exffx exfx exfx i      の親 の親 の親 1, 1 2, -- Hoyer et al. (2008) -- Zhang et al. (2009) 1. 2. 16 3. -- Imoto et al. (2002)
  17. 17. 巡回モデル (Lacerda et al., 2008; Hyvarinen & Smith, 2013) • モデル: • 識別性の十分条件 – Bの固有値の絶対値が1未満(平衡状態にある) – ループが交わらない – 自己ループなし x1 x2 e1 e2 x5 e5 x4e4 x3e3 17 i ij jijii exbx   
  18. 18. 正規と非正規が混在 • PCアルゴリズム(or GES)+LiNGAM – Hoyer+08UAI; Ramsey+11NeuroImage 18 ○は誤差項が正規 □が誤差項が非正規 真 PC +LiNGAM
  19. 19. 潜在共通原因が「ある」場合 19 潜在共通原因 f 潜在共通原因f 潜在共通原因f y x f y x f y x f ey ex ey ex ey ex この中で、どれが一番いい?
  20. 20. 潜在共通原因がある場合 (Hoyer et al., 2008, Int. J. Approximate Reasoning Shimizu & Bollen, 2014, J. Machine Learning Research) • 条件: 線形性+非巡回+非正規連続分布 – 潜在共通原因の個数は特定不要 • 推定法に関する研究は発展途上 20 x1 x2 ? x1 x2 or f1 f1 x1 x2 f1 or 21211212 11121 : : efxbx efx     21212 11122121 : : efx efxbx     22212 11121 : : efx efx    
  21. 21. 識別可能: 方向が違えば分布が違う • 推定: モデル選択(尤度、ベイズ etc.) 21 x1 x2 f1 x1 x2 or fQ f1 fQ … … 2e1e2e1e 2121 1 22 1 1 11 exbfx efx Q q qq Q q qq         2 1 22 1212 1 11 efx exbfx Q q qq Q q qq         1x1x 2x2x
  22. 22. 適用イメージ (Shimizu & Bollen, 2014) • 社会学データ: General Social Survey (n=1380) • 係数の事後分布 – 収入学歴 • やっとスタート地点についた!? 22 息子収入 息子 学歴スコア … < 周辺尤度 息子収入 息子 学歴スコア … 再
  23. 23. 課題 23
  24. 24. 適用分野からの要請 • 異質性・非定常性 – 人により時点により因果関係が異なる – 潜在調整変数もココか • 出始めた: Huang+IJCAI15 24 経済学: Moneta+13, Oxford B Econ. Stat. 利益(t) 雇用(t) 売上(t) R&D(t) 雇用(t+1) 売上(t+1) R&D(t+1) 利益(t+1) 雇用(t+2) 売上(t+2) R&D(t+2) 利益(t+2) 脳: Mills-Finnerty+14, NeuroImage
  25. 25. 潜在中間変数? • 風が吹けば… • 時系列データにおけるサブサンプリングの影響 (Gong+15ICML; Hyttinen+16; cf. Hyvarinen+10) 25 サブサンプリング 復元?t-2時点 t-1時点 t時点 t-2時点 t時点 図はHyttinen+16より
  26. 26. 未知のこと多い • 潜在共通原因を許しつつ どこまで拡張できるのか? – 非線形性、巡回性、異質性、非定常性 – 局所解は避けたい • 離散変数の場合は?混在する場合は? – Peters+11TPAM, Parks+15NIPS • 選択バイアスのある場合は?(+αある?) • 一般的話題(?)も必要 – はずれ値? – 変数変換? 26
  27. 27. 仮定の評価 • 正規性の検定 – 観測変数や外生変数(誤差)の非正規性チェッ (Moneta+13) • 外生変数(誤差)間の独立性検定 – 従属  潜在共通原因あり (Entner+ 2011; 2012) • 全体的な適合度 – カイ二乗検定 (Shimizu & Kano, 2008) • 参考: 統計的信頼性評価 – ブートストラップ (Komatsu, Shimizu & Shimodaira, 2010) 27
  28. 28. おわりに • 因果推論の数理的基盤はかなり整った – Rubin, Pearl, … • 因果探索の方法論をつくろう/使ってみよう – どんな状況で何が何の原因で結果か • 未知の事柄は多い – さぁ、これからです! 28

×