相関と因果について考える:統計的因果推論、その(不)可能性の中心

38,964 views

Published on

0 Comments
87 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
38,964
On SlideShare
0
From Embeds
0
Number of Embeds
14,744
Actions
Shares
0
Downloads
407
Comments
0
Likes
87
Embeds 0
No embeds

No notes for slide

相関と因果について考える:統計的因果推論、その(不)可能性の中心

  1. 1. 2012年6月25日(月)某セミナー 相関と因果について考える: 統計的因果推論、その(不)可能性の中心 (20120625version:不適切な部分を見つけ次第適宜改訂の予定) 林岳彦 国立環境研究所環境リスク研究センター 環境リスク研究推進室 takehiko.i.hayashi@gmail.com
  2. 2. DISCLAIMERもし間違ってたらすみません...
  3. 3. 今回のもくじイントロ -『相関と因果』再訪基礎編 - 因果概念の変遷: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択考察 - 因果推論の不可能性, モデル選択の3視点
  4. 4. 相関と因果は一致しない 86 女 性 84 の 平 82 均 寿 80 命 78(歳) 30 34 38 NHKの放送受信契約数(百万) http://www.stat.go.jp/data/nihon/02.htm 元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
  5. 5. 相関と因果は一致しない 86 p < 0.00000002 女 2 性 84 R = 0.99 の 平 82 均 寿 80 命 78(歳) 30 34 38 NHKの放送受信契約数(百万) http://www.stat.go.jp/data/nihon/02.htm 元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
  6. 6. 相関と因果は一致しない 2010 2005 86 p < 0.00000002 女 2 性 84 R = 0.99 2000 の 1990 1995 平 82 均 寿 80 1985 命 1980 78 1975(歳) 30 34 38 NHKの放送受信契約数(百万) http://www.stat.go.jp/data/nihon/02.htm 元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
  7. 7. 相関と因果は一致しない? ある藻類毒性試験の結果 1.772時間平 0.85均増殖率 0 C 0.5 1 2 4 8 農薬濃度(ppb)
  8. 8. 相関と因果は一致しない? 出典:日経エコロジー2007年9月号, p39
  9. 9. (一般論として)因果は 総合的 に判断される ヒルの因果判定基準 (Hill 1965) 1. 関連の強さ 2. 人、地理、時間的な一貫性 3. 関連の特異性(1つの原因に対して1つの結果) 4. 時間的な前後関係(原因が結果の前に起きる) 5. 用量が多いほど反応が強い 6. 生物学的な蓋然性 7. 過去の経験や知識との一致 8. 実験に基づく証拠 9. 類似性(他の事例から類推できる) http://listfreak.com/list/1793より引用
  10. 10. (一般論として)因果は 総合的 に判断される ヒルの因果判定基準 (Hill 1965) 1. 関連の強さ 2. 人、地理、時間的な一貫性 3. 関連の特異性(1つの原因に対して1つの結果) 4. 時間的な前後関係(原因が結果の前に起きる) 5. 用量が多いほど反応が強い 6. 生物学的な蓋然性 7. 過去の経験や知識との一致 8. 実験に基づく証拠 9. 類似性(他の事例から類推できる) http://listfreak.com/list/1793より引用 Hillの基準@英語版wikipdia
  11. 11. (一般論として)因果は 総合的 に判断される ヒルの因果判定基準 (Hill 1965) 1. 関連の強さ 2. 人、地理、時間的な一貫性 3. 関連の特異性(1つの原因に対して1つの結果) 4. 時間的な前後関係(原因が結果の前に起きる) 5. 用量が多いほど反応が強い 6. 生物学的な蓋然性 7. 過去の経験や知識との一致 8. 実験に基づく証拠 ... counterfactural 9. 類似性(他の事例から類推できる) http://listfreak.com/list/1793より引用 って何すか? Hillの基準@英語版wikipdia
  12. 12. 今回のもくじイントロ -『相関と因果』再訪基礎編 - 因果概念の変遷: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択考察 - 因果推論の不可能性, モデル選択の3視点
  13. 13. 因果概念の変遷(ひと昔前): 心の習慣 千昌夫に似て蝶 『因果概念』なんて観察者の しれっ 心の習慣 の産物でしょ 我々に観察可能な事実は 「ボールAがボールBに当たる →ボールBが動く」というDavid Hume (1711-1776) 連関だけ http://www.sxc.hu/photo/478133
  14. 14. 因果概念の変遷(ひと昔前): 心の習慣 千昌夫に似て蝶 『因果概念』なんて観察者の しれっ 心の習慣 の産物でしょ 我々に観察可能な事実は 「ボールAがボールBに当たる →ボールBが動く」という David Hume (1711-1776) 連関だけ http://www.sxc.hu/photo/478133 きりっ 観察可能なのは「相関」だけ 因果概念なんて科学じゃない そんなこんなで残念ながら比較的近年まで 「因果」は統計学の埓外にあった 画像出典: Karl Pearson (1857-1936)http://en.wikipedia.org/wiki/File:David_Hume.jpg http://ja.wikipedia.org/wiki/file:Karl_Pearson.jpg
  15. 15. 因果概念の変遷(今):反事実的依存性ここでクリプキを挙げるのが適切かは自信ない 「可能世界」の枠組みで考えれば 色々と捗るよ! 「Xは必然である」とは? 全ての可能世界においてXが成り立つ 「Xは可能である」とは? Saul Kripke (1940-) 少なくとも一つの可能世界でXが成り立つ 論理学者、哲学者
  16. 16. 因果概念の変遷(今):反事実的依存性 ここでクリプキを挙げるのが適切かは自信ない 「可能世界」の枠組みで考えれば 色々と捗るよ! 「Xは必然である」とは? 全ての可能世界においてXが成り立つ 「Xは可能である」とは? Saul Kripke (1940-) 少なくとも一つの可能世界でXが成り立つ 論理学者、哲学者 @wikipediaの写真(なぜこの写真?) 「xがyの原因である」 到達可能な近傍世界 「同じ状況で、もしもxが起こらなけ れば、yは起こらなかっただろう」 David Lewis (1941-) 哲学者 (反事実的依存性に基づく因果解釈)画像出典 http://en.wikipedia.org/wiki/File:Kripke.JPG http://en.wikipedia.org/wiki/File:David_K_Lewis.jpg
  17. 17. 因果概念の変遷(今):反事実的依存性 到達可能な近傍世界「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 因果効果を次のように定義できそう:x→yへの因果効果= 出来事xが起きた世界におけるy - 出来事xが起きなかった世界におけるy
  18. 18. 因果概念の変遷(今):反事実的依存性 到達可能な近傍世界 「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 因果効果を次のように定義できそう: x→yへの因果効果 = 出来事xが起きた世界におけるy - 出来事xが起きなかった世界におけるyしかし、「起きた世界」と「起きなかった世界」の両方 を同時に観測することは原理的に不可能 どちらかは必ず 反事実的な世界となる ex. 震災 因果推論の根本問題
  19. 19. 因果概念の変遷(今):反事実的依存性 到達可能な近傍世界 「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 反事実的な世界 を統計的に 因果効果を次のように定義できそう: 構成することにより x→yへの因果効果 この「根本問題」を解決するのが = 出来事xが起きた世界におけるy 『統計的因果推論』である - 出来事xが起きなかった世界におけるy ex. 実験計画法しかし、「起きた世界」と「起きなかった世界」の両方 を同時に観測することは原理的に不可能 どちらかは必ず 反事実的な世界となる ex. 震災 因果推論の根本問題
  20. 20. 現代的『統計的因果推論』のポンチ絵 なぎら健壱に似て蝶 可能世界論を介した 因果概念の転回 ベイジアン 欠損値 の ネットワーク 枠組み *この2つの流派による 説明の仕方がかなり 違うので Judea Pearl (1936-) 勉強する上で Donald Rubin (1943-) 人工知能界の 巨人 とっても混乱する 統計学者@ハーバード大 (2011年チューリング賞) 反事実的依存性を軸とした 因果問題への 統計的アプローチが発展 (今日はPearl系のアプローチに基づき説明していきます)左画像出典: 右画像出典:http://www.cambridgeblog.org/2012/03/judea-pearl-turing-award/ http://www.stat.harvard.edu/faculty_page.php?page=rubin.html
  21. 21. 今回のもくじイントロ -『相関と因果』再訪基礎編 - 因果概念の転回: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択考察 - 因果推論の不可能性, モデル選択の3視点
  22. 22. 確率論に もしも はない到達可能な近傍世界「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 確率論で扱いたいが... 確率の言語では「もしも」が表せない! え?条件付き確率 じゃダメなの?
  23. 23. 確率論に もしも はない到達可能な近傍世界「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 確率論で扱いたいが... 確率の言語では「もしも」が表せない! え?条件付き確率 じゃダメなの? p(y¦x=30) x=30であるときの もしも という含意は 含まれない
  24. 24. Judea Pearlによるdo演算子の導入p(y¦x=30) x=30であるときのp(y¦do(x=30)) x=30に変えたときの 介入 の概念を持ち込むことに より もしも を導入いやでもこの2つ何が違うんすか
  25. 25. Judea Pearlによるdo演算子の導入 p(y¦x=30) x=30であるときの p(y¦do(x=30)) x=30に変えたときの 女 86 性 84 の 平 82 均 80 見かけ上の相関に基づく予測 寿 p(y¦x=30) 命 78(歳) 30 34 38 NHKの放送受信契約数(百万)
  26. 26. Judea Pearlによるdo演算子の導入p(y¦x=30) x=30であるときのp(y¦do(x=30)) x=30に変えたときの *こういう図を 因果ダイアグラム といいます NHK契約数 x 擬似相関 共通要因 平均寿命 y 因果関係に基づく予測 に変えたとき p(y¦do(x=30))=p(y)
  27. 27. ポイント:do演算子は 介入効果 を示す であるとき に変えたとき p(y¦x=30) p(y¦do(x=30))相関に基づく予測 因果に基づく予測 介入効果 =介入効果 NHK契約数 x 擬似相関 共通要因 平均寿命 y ここで p(y¦x=・)を介入効果と 勘違いすると見事に空振りする 介入が目的のときはdo(・)を見よ
  28. 28. do演算子と「交絡」 グラフ理論の体系と対応付けdo演算子は「交絡」概念を明確化するもの 共通要因 交絡要因 =某重金属 興味のある説明変数と 濃度 結果変数の両方の BOD 上流側に存在する要因種数 y *この因果ダイアグラムは 仮想的なものです 交絡によるバイアスが存在する p(y¦x=30) p(y¦do(x=30)) 相関関係と因果関係が一致しない
  29. 29. do演算子と「交絡」 グラフ理論の体系と対応付け do演算子は「交絡」概念を明確化するもの 共通要因 交絡要因 = 某重金属 興味のある説明変数と 濃度 結果変数の両方の BOD 上流側に存在する要因 種数 y *この因果ダイアグラムは 仮想的なものです +選択バイアスも 交絡によるバイアスが取り除かれている= p(y¦x=30) = p(y¦do(x=30))= 見かけ上の相関から因果効果を判断してOK
  30. 30. 交絡によるバイアスの無い状態p(y¦x=・) = p(y¦do(x=・))を目指すための方法- 実験計画法に基づき実験する 局所管理- 均一化・無作為化を念頭にサンプルする- 層別化・マッチング(交絡変数の値が似たもの同士で比較)- 統計モデルに交絡変数を組み込む 例. 重回帰で説明変数を追加する どう追加すればいいの?→『バックドア基準』
  31. 31. 今回のもくじイントロ -『相関と因果』再訪基礎編 - 因果概念の変遷: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択考察 - 因果推論の不可能性, モデル選択の3視点
  32. 32. 重回帰とは 説明変数目的変数 Y = β A + βB B + βC C + βD D... A 偏回帰係数 (それぞれの変数への重み付け係数)例えば...年平均気温 = 33.4 - 1.3 緯度 - 0.6 高度 + 0.1 経度
  33. 33. 重回帰とは 因果構造分解酵素 であるA B C A B C A B C Y Y Y etcetc....背後の因果構造を分解して 単純な形に再び繋げます Y = β A + βB B + βC C A + 定数 A B C β βB相関関係 に基づき実質上こういう形と A βC して解析している Y
  34. 34. 重回帰とは 因果構造分解酵素 である A B C A B C A B C Y Y Y etcetc.... 変化させたとき であるとき偏回帰係数の 意味 は背後の因果構造に依存する 背後の因果構造を分解して 単純な形に再び繋げます Y = β A + βB B + βC C A + 定数 A B C β βB 相関関係 に基づき 実質上こういう形と A βC して解析している Y
  35. 35. バックドア基準による変数選択 「偏回帰係数 = 説明変数を1単位変化させた ときの因果効果」となる条件は? であるとき に変えたとき = p(y¦A=・) = p(y¦do(A=・))選ばれた変数群がバックドア基準を満たしている 因果効果を知りたい説明変数から結果変数へ至る 裏口からの因果径路が全てブロックされている ・・・図で説明します
  36. 36. 因果効果を知りたい説明変数から結果変数へ至る 裏口からの因果径路が全てブロックされている 裏口ドアからの 因果径路 共通要因 その因果効果を知りたい説明変数 某重金属 濃度 ブロック BOD 種数 y 重回帰の説明変数として加えることで 結果変数 その径路からのバイアスを ブロック できるのだ!種数 = β 重金属 + βB BOD 重 *この因果ダイアグラムは 仮想的なものです
  37. 37. 因果効果を知りたい説明変数から結果変数へ至る 裏口からの因果径路が全てブロックされているA B C A B C A B C Y Y Y Y=βA A Y=βA A+βB B Y=βA A+βB BA B C A B C A B C Y Y Y Y=βA A Y=βA A+βB B+βC C Y=βA A+βB B Y=βA A+βB C
  38. 38. (再)バックドア基準による変数選択「偏回帰係数 = 説明変数を1単位変化させた ときの因果効果」となる条件は? = p(y¦A=・) = p(y¦do(A=・))選ばれた変数がバックドア基準を満たせばよい 因果効果を知りたい説明変数から結果変数へ至る 裏口からの因果径路が全てブロックされている +下流側の中間変量を選ばない +合流点での変量を選ばない
  39. 39. あと下流の中間変量は入れちゃだめ! Y=β A A A B C Yこういう形のときにBを説明変数として入れてしまうと 「Bを経由したAの因果効果」が無視されてしまう *その辺りの因果構造自体に興味が有る場合は パス解析や構造方程式を使います
  40. 40. 合流点も入れちゃだめ! Y=β A A A B C D C B Y A Yこういう形のときにBを説明変数として入れてしまうと 新たなバイアスが発生する collider bias (合流点バイアスという← 選択バイアス はこの一種) *データをサンプルする段階で選択バイアスが発生しているとバックドア基準でも補正不可
  41. 41. 論点:多重共線性とバックドア基準 (現状での私見) 説明変数間に何らかの強い因果的関連 ↑が問題の本質で いわゆる多重共線性 の問題 ←は現象だと思う 主症状:変数の出し入れにより回帰係数が大きく変化する データ数が増えれば数理統計的問題 データ数は関係ない 因果的問題 問題は解消可 係数の推定が 因果効果を議 交絡による 論したい場合 不安定化 にはこちらの バイアス アプローチは分散拡大係数 良くないん じゃないかな VIFによる診断と バックドア基準 変数の除去 による変数選択 興味のある変数に対して上流→除去すると交絡入るかも 興味のある変数に対して下流→さっさと除去
  42. 42. 今回のもくじイントロ -『相関と因果』再訪基礎編 - 因果概念の変遷: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択考察 - 因果推論の不可能性, モデル選択の3視点
  43. 43. 統計的因果推論の不可能性 (1) 「未知の交絡要因がない」ことを 確認する方法は原理的に存在しない ? 共通要因 某重金属 濃度 ? BOD 種数 y *この因果ダイアグラムは 仮想的なものです (交絡を除去するためにはバックドア基準を満たせばよいことが分かっても バックドア基準が満たされているか否かは原理的に確認できない!)「どの程度未知の交絡要因がありえそうか」を常に意識しよう「未知の交絡要因」を減らしていくこと自体が研究の進歩
  44. 44. 統計的因果推論の不可能性 (2) 現実問題として「背後の因果構造」なんて (完全には)分からないことが多い- 因果ダイアグラムが描けないとバックドア基準は 使えない(まあでも原則的な指針を与えてくれるものではある)- 因果構造が分からないなりに工夫する(傾向スコア法とか)- とりあえず因果構造そのものを明らかにすること を目的とする(学術的研究としてはこっちの方が本丸の場合が多いかも) 統計解析からの因果的判断を「適切に自重する」 ことも重要(「分からなさ」の程度と理由を説明することも専門家の役割)
  45. 45. モデル(変数)選択の3視点(現状での私的整理) ベイズファ バックドア 手法 AIC系 クター系 基準 介入を伴わ モデルの 因果効果の 目的 ない予測 適合性比較 推定 事後確率 条件付き 原理 情報量規準 尤度比 独立性実務上は「先行知見から見て一定の妥当性があるモデル群」を絞り込む過程でバックドア基準的なものが暗黙のうちに適用されているケースが多いのかも 「因果効果の推定」や「介入を伴う予測」が目的ならばバックドア基準を優先させるべき(と思う)
  46. 46. 最後にちょっとまとめます
  47. 47. take-home messages:「因果と相関」の区別は実務上も非常に重要(介入を伴う場合には特にクリティカルな問題)重回帰は背後の因果構造をかなり単純化していることを認識しよう因果ダイアグラムを描こう/バックドア基準を適用しよう(そうすれば「偏回帰係数=因果効果」と解釈してOK)統計的因果推論はしばしば不可能であることを認識し、しかしその不可能性の内実にはグラデーションがあることも認識しよう「統計データから因果の話は無理(不可知論)」と「統計解析の結果を因果的に解釈しちゃっても実用上はしょうがないよね(なし崩し)」の間の隘路を丁寧に 進むことの中に 可能性の中心 はあるのだと思います
  48. 48. ご清聴ありがとうございました
  49. 49. Appendix: その他スライド資料
  50. 50. なぜ重回帰?構造方程式でよくない? 確かに。反事実的状況を取り扱うならおそらく本来 メカニスティックなモデルが一番いい 構造方程式やパス解析はその近似 重回帰系はさらにその近似 逆に言うと、因果効果を知りたいだけなら重回帰系withバックドア基準が最も簡便かと まあその辺はケースバイケースで
  51. 51. 因果関係それ自体はどうやって推測するの? 私の勉強不足によりかなりぼんやりした ことしか言えません
  52. 52. 交絡バイアスを避けるための統計学上の工夫- 実験計画法に基づき実験する実験計画法では、興味のある変数以外の条件を揃える(局所管理)か ランダムに割り当てる(無作為化)ことにより 交絡の要因となりうる相関関係が切断される 切断 毒性物質 切断 濃度x 系統 齢 生存率 y であるとき に変えたとき p(y¦x=30) = p(y¦do(x=30))
  53. 53. do演算子の計算規則出典:http://ccc.inaoep.mx/ esucar/Clases-ia/Adicional/ijcai-notes.pdf
  54. 54. 参考文献統計的因果推論 - モデル・推論・推測 -Judea Pearl(著), 黒木学(訳)私的コメント:Pearlの主著。おもしろいけど激ムズ。いきなり哲学の話になったりするし。       まだ通読できてません。統計的因果推論 - 回帰分析の新しい枠組み -宮川雅巳(著)私的コメント:名著。 Pearl流の枠組みからの解説書。 ちょっと難しいけどPearl本より全然良い。今回の発表のネタ本。調査観察データの統計科学 --- 因果推論・選択バイアス・データ融合星野崇宏(著)私的コメント:名著。Rubin流の欠損値の枠組みからの解説書。       ただPearl流の方法論に対する理解が今ひとつ浅いような気がするような気もしないでもない。多変量解析の展開 --- 隠れた構造と因果を整理する甘利俊一ら(著)私的コメント:第二部(狩野裕著)はSEMから、第三部(佐藤俊哉&松山裕著)は疫学の観点から統計的因果推論を解説。       統計的因果推論の入門としてはこの本が分量的にも内容的にも一番敷居が低くていいかも。可能世界の哲学 --- 「存在」と「自己」を考える三浦俊彦(著)私的コメント:可能世界論入門。これを読んでから「確率の意味論」みたいのを考える際には可能世界の枠組みがすげえ便利       というか寧ろ不可欠だな、と思うようになった。

×