Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例

12,790 views

Published on

生態学者に向けて統計的因果推論について説明した発表の縮約版です(ver20190919)

Published in: Science
  • Login to see the comments

「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例

  1. 1. 「⽣態学における統計的因果推論」という ⼤ネタへの挑戦:その理論的背景と適⽤事例 (2019/6/15 @九州・沖縄昆⾍研究会@佐賀⼤での発表内容を元にしています) 林岳彦 国⽴環境研究所環境リスク・健康研究センター 1 【Web公開⽤縮約版】
  2. 2. 統計的因果推論(⽣態学者にはあまり知られてない)
  3. 3. 本⽇の構成 3 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 トンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  4. 4. 本⽇の構成 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 トンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  5. 5. 導⼊|相関と因果は違う 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ 『X→Yの介⼊効果』= Xを1単位量分だけ介⼊により変化させたときの Yの平均的な変化量 【本⽇の発表の中での定義】
  6. 6. 導⼊|相関と因果は違う 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y p < 0.001
  7. 7. 導⼊|相関と因果は違う 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y p < 0.001 「Xが⼩さいとき、Yは⼤きい」 (=相関関係がある)とほぼ確実に⾔える
  8. 8. 導⼊|相関と因果は違う 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y p < 0.001 「Xが⼩さいとき、Yは⼤きい」 (=相関関係がある)とほぼ確実に⾔える 「Xを⼩さくすると、Yは⼤きくなる」 (=因果関係がある)と⾔えるか?
  9. 9. 導⼊|相関と因果は違う もしXとYの相関が「Xと関係ない要因」で⽣じ ているならば、Xを減少させてもYは回復しない ■ 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y 下流域 上流域
  10. 10. 導⼊|相関と因果は違う もしYの状態がXにより⽣じているならば、Xを 減少させればYは回復する ■ 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y 下流域 上流域
  11. 11. 導⼊|相関と因果は違う もしYの状態がXにより部分的に⽣じているなら ば、Xを減少させればYは部分的に回復する ■ 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y 下流域 上流域
  12. 12. 導⼊|相関と因果は違う もしYの状態がXにより部分的に⽣じているなら ば、Xを減少させればYは部分的に回復する ■ 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y 下流域 上流域 「Xを⼩さくすると、Yは⼤きくなる」かは Yの状態が何によって⽣じているかに依存する
  13. 13. 導⼊| 相関と因果で必要とされる⽅法論が違う 「Xが⼩さいとき、Yは⼤きい」か? ∈「相関関係(association)」についての問い p(Y|X=⼩さい) やるべきこと:Xが⼩さいときのYの計算 ←所与の数値のみから計算できる 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y p < 0.001
  14. 14. 導⼊|相関と因果で必要とされる⽅法論が違う 「Xを⼩さくすると、Yは⼤きくなる」か? ∈「因果的影響(causal effect)」についての問い p(Y|X=do(⼩さい)) やるべきこと:Xを⼩さくしたときのYの計算 ←計算に因果的情報が必要 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y 下流域 上流域
  15. 15. 導⼊|相関と因果で必要とされる⽅法論が違う p(Y|X=⼩さい) Xが⼩さいときのYの計算 p(Y|X=do(⼩さい)) Xを⼩さくしたときのYの計算 現状、⽣態学分野ではこの違いが⼗分に 理解されていないことが多い その結果として「なんでもAIC」みたいな 間違った解析法に頼りがち 因果の問題相関の問題 いうなればp(Y|see(X=⼩さい))
  16. 16. 本⽇の構成 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 トンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  17. 17. 系統樹の推定 生息予測マップ の作成 保全措置の 効果推定 研究内容の例 導⼊|われわれの研究⽬的を再整理する ⽣態学におけるデータ解析の⽬的は何か?■ 真理 (/最尤仮説) が知りたい 状態を 予測したい 因果効果を 知りたい 周辺尤度系 予測誤差系 因果推論系 研究の目的 依るべき規範 周辺尤度、尤度比 ベイズファクター等 (広義の)クロス バリデーション、AIC等 無視可能性、交換可能性 バックドア基準等 現象を理解したい ⽬的の違いを⼗分に意識せずに解析が⾏われがち
  18. 18. 本⽇の構成 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 トンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  19. 19. 余談|「失われた系統」としての因果推論 https://en.wikipedia.org/wiki/Sewall_Wright Evolution toward “optimum” RA Fisher (1890-1962) S Wright (1889-1988) FisherとWright: 現代進化⽣態学の始祖として■ From Wikimedia Commons by Randy Olson •CC BY-SA 3.0 Shifting-balance theory Fisherのreductionistと してのセンスの凄さ Wrightのsystem 論的なセンスの 凄さ
  20. 20. 余談|「失われた系統」としての因果推論 RA Fisher (1890-1962) S Wright (1889-1988) FisherとWright: 統計的因果推論の始祖として■ 無作為化 による 因果推論 構造に基づく因果推論 https://en.wikipedia.org/wiki/Path_analysis_(statistics) [public domain] https://en.wikipedia.org/wiki/Sewall_WrightFrom Wikimedia Commons Fisherのreductionistと してのセンスの凄さ Wrightのsystem 論的なセンスの 凄さ
  21. 21. 余談|「失われた系統」としての因果推論 本⽇の話 From Wikimedia Commons https://en.wikipedia.org/wiki/Sewall_Wright ☓ 現代進化 ⽣態学 統計的 因果推論
  22. 22. 本⽇の構成 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 トンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  23. 23. 前置き|バックドア基準は「何について」の話? 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y 下流域 上流域
  24. 24. 前置き|バックドア基準は「何について」の話? ■ 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある 内⽣性のせい! ⼀歩込み⼊った議論をする際に判断に迷うことがある なぜズレるの? 交絡のせい! 本⽇の ⽬標 「バックドアパスが開いているせい」 「バックドア基準が満たされていないせい」 という説明の仕⽅・概念を理解する
  25. 25. 前置き|バックドア基準は「何について」の話? ■ 例えば、重回帰モデルの場合 モデルに追加された説明変数の組が「X→Y」についてバック ドア基準を満たすとき、重回帰分析から得られたXの偏回帰係 数をそのまま「X→Yの介⼊効果」のバイアスのない推定量と みなせる 例えば、「シンプソンのパラドックス」(ここでは、どの変数で層別化す るかによって推定結果が変るケースの意味で⽤いる)が⽣じている場合 興味の対象となる「処理X→結果Y」についてバックドア基準 を満たす変数で層別化して解析すれば「X→Yの介⼊効果」を バイアスなく推定できる 具体的には、バックドア基準を満たすと: *データが適切に測定されており、かつ適切なモデルが適⽤されているという⼤前提での話です * *
  26. 26. (再掲)|バックドア基準は「何について」の話? 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y 下流域 上流域
  27. 27. (再掲)|バックドア基準は「何について」の話? 散布図上の相関関係からの素朴な予測や期待と 因果効果(介⼊効果)がズレることがある ■ 底 生 昆 虫 の 種 数 Y 下流域 上流域 バックドア基準に基づき変数を選択したモデル を⽤うと、因果効果をバイアスなく推定できる *データが適切に測定されており、かつ適切なモデルが適⽤されているという⼤前提での話です
  28. 28. 今⽇の話| バックドア基準とは?(ざっくり) 28 “バックドア基準が満たされている”■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない≒ “ブロック”って何?
  29. 29. 今⽇の話| バックドア基準とは?(ざっくり) 29 “バックドア基準が満たされている”■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない≒ “ブロック”って何?
  30. 30. 超ざっくり説明|”バックドアパス”とは? 30 n 因果構造を丘にある「⼈⼯池」でイメージする 迂遠かもしれませんが、因果の「流れ」のアナロジーと して有効だと思うので少々お付き合いいただければ・・ X Y *降⾬の影響などは考えない 本講演を通して X: 処理 Y: 結果 Z: 共変量 で表記します * Y=βX+γ+ε ⼈⼯池 ⼈⼯池 ⽔路
  31. 31. 超ざっくり説明|”バックドアパス”とは? 31 「バックドアパス」=『処理Xと結果Yの上 流側にある両者に影響を与える流れ』 ■ X Y Z1 Z2 (X→Yの) バックドアパス 上流側にある「Z1」に インクをぶちまけると XにもYにも到達する (=両者に影響を与える)
  32. 32. 超ざっくり説明|バックドアパスの何が問題? 32 上流側の変動に伴い”シンクロ”が⽣じる■ X Y Z X Y Zの変動によりX-Y間に "シンクロ"が⽣じる Zが⼤ Zが⼩ (X→Yの) バックドアパス このZの変動によるシンクロが”疑似相関”を⽣み、 X→Yの介⼊効果の推定にバイアスをもたらす ⾮因果的 連関
  33. 33. 超ざっくり説明|バックドアパスの何が問題? 33 参考:バックドアパスがない場合の例■ X Y Z X Y Zの変動でX-Y間に “シンクロ”は⽣じない Zが⼤ Zが⼩ バックドアパスがないとき、Zの変動はバイアス・ 擬似相関の原因とならない
  34. 34. 今⽇の話| バックドア基準とは?(ざっくり) 34 “バックドア基準が満たされている”■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない≒ “ブロック”って何?
  35. 35. 超ざっくり説明|バックドアパスが”閉じる”とは? バックドアパスが”閉じる”=バックドアパス 上の変数を”固定”する ■ X Y Z Zを“固定”する バックドアパスが”閉じ” 交絡の影響が消える シンクロを⽣む流れが “ブロック”される Zで層別化して解析 重回帰分析の共変量としてZをモデルに追加 “固定”= 条件付けconditioning の⼿法の例 ・ ・
  36. 36. 超ざっくり説明|バックドアパスが”閉じる”とは? 36 参考:Zでの層別化(X:流域, Y:汚染, Z:種数)■ 「上流」「下流」の層別に X→Yの効果を計算して集計する Z:流域 X:汚染 濃度 Y:種数 流域Zを層別化により”固定”し解析することで交絡 の影響が消え、介⼊効果をバイアスなく推定できる 環境汚染物質の河川中濃度 X 底 生 昆 虫 の 種 数 Y 下流域 上流域
  37. 37. 超ざっくり説明|パスが”開きっぱなし”とは? 37 バックドアパスが開きっぱなし=変数が固定 されずパスの流れが”ブロック”されていない ■ X Y Z X Y Zの変動によりX-Y間に "シンクロ"が⽣じる Zが⼤ Zが⼩ (X→Yの) バックドアパス ⾮因果的 連関 介⼊効果の推定のバイアスが調整されぬまま残る
  38. 38. 超ざっくり追記|固定により”開く”こともある 38 合流点を固定すると、“親”の間に双⽅向 パスが開く ■ バックドアパスが “開いた”状態 X Y Z (X→Yの) バックドアパス ⼦ 親 親 バックドアパスの ない状態 X Y Z Zを“固定
  39. 39. 超ざっくり追記|固定により”開く”こともある 39 参考:合流点となる「合否」を”固定”■ 実 技 試 験 Z:合否 Y:実技 試験 美⼤の⼊学試験における仮想例 合格者 Z=1 不合格者 Z=0 X:学⼒ 試験 100 100 学⼒試験 合 格 ラ イ ン 合否Zで層別化すると、XとYの間に⾮因果的な連関 が⽣じ、X→Yの介⼊効果にバイアスが⽣じる
  40. 40. 内容の説明| バックドア基準とは?(概要版) 40 “バックドア基準が満たされている”■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない≒ “ブロック”って何?
  41. 41. 超ざっくり説明| ”X→Yの道がブロックされてない” 41 Zが中間点の場合は”固定”してはいけない■ Z Y X X Y Zを"固定"しなければ、何の問題も⽣じない
  42. 42. 超ざっくり説明| ”X→Yの道を閉じるな” 42 中間点をZを固定すると、Xからの「介⼊効 果」の流れ⾃体がブロックされてしまう ("overconditioning") ■ 在来種Aを護るための 外来種Bの駆除の効果(仮想例) Z:外来種B の根絶 Y:在来種A の個体数 X:外来種B の駆除努⼒ 外来種Bの駆除努⼒ 在 来 種 A の 個 体 数 種Bの根絶に成功(Z=1) 種Bの根絶に失敗(Z=0)
  43. 43. 内容の説明| バックドア基準とは?(概要版) 43 “バックドア基準が満たされている”■ “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない≒ “ブロック”って何?
  44. 44. 具体例でおさらい|3変量(X, Y, Z)の場合 44 3変量で⾒る”ほぼバックドア基準”■ X Y Z ) X Y Z ) X Z Y ( ) Zを加えよ Zを加えるな
  45. 45. 具体例でおさらい|3変量(X, Y, Z)の場合 45 3変量で⾒る”ほぼバックドア基準”■ X Y Z ) X Y Z ) X Z Y ( ) Zを加えよ Zを加えるな *3変量の場合では、巷の”rule-of-thumb”的な変数選択 ルール以上のご利益はあまり感じられないかも
  46. 46. 補⾜| 下流の変数の追加はpartlyに機能する X Y Z Z’ Z’の固定により 部分的に バックドアパスが 閉じる Surrogate variableしか測定されていないときも 追加しておいたほうがベターな場合も多い 「部分的」の程度はZとZ’の関連の強さに応じて決まる X Y Z Z’ Z’の固定により 部分的に 双⽅向パスが開く X Y Z Z’の固定により 部分的に 因果効果が ブロックされる Z’ Zが分岐点 Zが合流点 Zが中間点
  47. 47. 具体例でおさらい|4変量の場合 47 4変量以上だと「道」を考える必要がある■ X Y Z1 Z2 もし処理Xと結果Yの「両者の共通 原因」を”交絡変数”と呼ぶ場合 Z2は”交絡変数”かつ分岐点 Z1は”交絡変数”と呼ばれない 必ずモデルに追加すべき? モデルに追加しなくてよい? common cause *Z2は観測不可能、Z1は観測済み のときどうする?
  48. 48. 具体例でおさらい| 4変量の場合 48 変数ベースではなく”道“の開閉がキモ■ このどの場合もバックドアパスは閉じられている *どのケースもXとYの"シンクロ"の原因となりうる上流側の流れが遮断されている X Y Z2 Z1 X Y X Y Z1 Z2 Z2 Z1
  49. 49. 例題その1| どの変数を加えれば良いのか? 49 X Y Z1 Z2 Z3 バックドアパスの⾒極めに迷ったら、もし「その⼈⼯池にインクを ぶちまけたらどうなるか」を考えてみよう!
  50. 50. 例題その1| どの変数を加えれば良いのか? 50 X Y Z1 Z2 Z3 バックドアパスの⾒極めに迷ったら、もし「その⼈⼯池にインクを ぶちまけたらどうなるか」を考えてみよう!
  51. 51. 例題その1| どの変数を加えれば良いのか? 51 X Y Z3 Z2 Z1 バックドア基準を満たす最⼩の変数セットは「Z1, Z2」
  52. 52. ちょっと複雑な場合|どの変数を加えれば良い? 52 X Y Z1 Z4 Z3 Z2 Z5 Z6
  53. 53. ちょっと複雑な場合|どの変数を加えれば良い? 53 X Y Z1 Z4 Z3 Z2 Z5 Z6
  54. 54. ちょっと複雑な場合|どの変数を加えれば良い? 54 X Y Z4 Z3 Z2 Z5 Z6 Z1 バックドア基準 を満たす最⼩の 変数セットは「Z1」 *ここでZ5, Z6を⼊れると 新たなバックドアパスが 開いてしまう *Z4はそもそも 中間点なので⼊れてはダメ Z1をブロックすると2つの バックドアパスが全て遮断される
  55. 55. ⼀部が不明な場合|どの変数を加えれば良い? 55 X Y Z1 Z2 この部分の 因果構造は不明
  56. 56. ⼀部が不明な場合|どの変数を加えれば良い? 56 X Y Z1 Z2 この部分の 因果構造は不明 バックドアパスが ある場合、必ず Z1, Z2のどちらかを通る
  57. 57. ⼀部が不明な場合|どの変数を加えれば良い? 57 X Z1 Z2 この部分の 因果構造は不明 Y 「Z1, Z2」を加えればバックドア基準を満たす Z1, Z2をブロックすれば バックドアパスは 遮断される ポイントとなる部分の適切な粒度の背景知識があればよい
  58. 58. 補⾜|実験における無作為化との関係 X Y Z1Z3 Z2Z5Z6 Z4 So many バックドアパス 実験はランダム⽣成機によりバックドアパスを閉じる■
  59. 59. 補⾜|実験における無作為化との関係 X Y Z1Z3 Z2Z5Z6 Z4 コイントス 実験は”ランダム⽣成機”によりバックドアパスを閉じる■
  60. 60. 補⾜|傾向スコアとの関係 X Y Z1Z3 Z2Z5Z6 Z4 So many バックドアパス 傾向スコアはバックドアパスをブロックする"合成変数"■
  61. 61. 補⾜|傾向スコアとの関係 X Y Z1Z3 Z2Z5Z6 Z4 e 傾向スコアで まとめてブロック 傾向スコアはバックドアパスをブロックする"合成変数"■
  62. 62. 補⾜ |傾向スコアとの関係 X Y Z1Z3 Z2Z5Z6 Z4 e 傾向スコアで まとめてブロック 傾向スコアはバックドアパスをブロックする"合成変数"■ うまく適⽤できれば超強⼒な⼿法!
  63. 63. (再掲)|バックドア基準は「何について」の話? ■ 例えば、重回帰モデルの場合 モデルに追加された説明変数の組が「X→Y」についてバック ドア基準を満たすとき、重回帰分析から得られたXの偏回帰係 数をそのまま「X→Yの介⼊効果」のバイアスのない推定量と みなせる 例えば、「シンプソンのパラドックス」(ここでは、どの変数で層別化す るかによって推定結果が変るケースの意味で⽤いる)が⽣じている場合 興味の対象となる「処理X→結果Y」についてバックドア基準 を満たす変数で層別化して解析すれば「X→Yの介⼊効果」を バイアスなく推定できる 具体的には、バックドア基準を満たすと: *データが適切に測定されており、かつ適切なモデルが適⽤されているという⼤前提での話です * *
  64. 64. (前半終了)| バックドア基準のまとめ “バックドア基準が満たされている”■ + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない≒ 変数ベースではなく”道”の開閉がキモ■ ・「ちょっと複雑」な場合に⼀番役にたつかも ・構造の全てを知る必要はない(リソースの有効利⽤) ・傾向スコアもバックドアパスを閉じるための強⼒ な⼿法(バックドア基準は理論的条件) 介⼊効果がバイアスなく推定できる *補⾜:下流の変数の追加もsurrogateとしてpartlyに機能するので注意 *データが適切に測定されており、かつ適切なモデルが適⽤されているという⼤前提での話です
  65. 65. 本⽇の構成 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 トンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  66. 66. 前置き|統計的因果推論@⽣態学への挑戦 ■因果推論の視点からの⽣態学データの特徴 原因となる変数が連続量(non-binary)の ことが多い ・ サンプルサイズが⼩さいことが普通・ 共変量が計測されていないことが多い・ 野外での無作為化実験はしばしば難しい・ *傾向スコアなどの⼿法がハマらず ⼿法⾯でかなり制限される(正直しんどい) *調査観察データに頼らざるをえない *他分野での統計的因果推論ではサンプル サイズが百/千/万のオーダーも普通 *測定にいちいち⼿間がかかる (⾃ら調査票に記⼊してくれる昆⾍はいない)
  67. 67. 前置き|統計的因果推論@⽣態学への挑戦 ■ 統計的因果推論でのデータ解析の⼿順の例 データ⽣成の背後にある因果構造のモデル を作成する(例えば、因果ダイアグラムで) (1) 因果構造のモデルをもとに統計モデルを作 成する(例えば、バックドア基準に基づき) (2) 統計モデルをもとに因果効果のパラメータ を推定する(例えば、重回帰分析を⽤いて) (3) 必要に応じて感度分析等で頑健さの検討(4)
  68. 68. 本⽇の構成 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 トンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  69. 69. 家畜ミツバチへの農薬影響データの(再)解析 「ネオニコチノイド系殺⾍剤」が 「家畜ミツバチのコロニー死亡率」を 上昇させているか? Q.
  70. 70. 家畜ミツバチへの農薬影響データの(再)解析 70 地域 年 調査した コロニー数 死亡 コロニー数 ナタネ 密度 ネオニコ 使⽤量 イミダ 使⽤量 気象データ(温度、⽇照、降⽔) 1 Supplementary Information Evidence for pollinator cost and farming benefits of neonicotinoid seed coatings on oilseed rape Giles E. Budge, Dave Garthwaite, Andrew Crowe, Nigel D. Boatman, Keith S. Delaplane, Mike A. Brown, Helene H. Thygesen and Stéphane Pietravalle Supplementary Table S1 Regional data used to analyse honey bee colony losses Region Year # honey bee colonies inspectedi # honey bee colonies found deadi Density of oilseed rape grown (m2 /m2 )ii Neonicotinoid usage on oilseed rape (kg/m2 ) iii Imidacloprid usage on oilseed rape (kg/m2 ) iii Spring Temp max (°C) Spring Temp mean (°C) Spring Temp min (°C) Spring Sunshine (h) Spring Rainfall (mm) Summer Tempmax (°C) Summer Tempmean (°C) Summer Tempmin (°C) Summer Sunshine (h) Summer Rainfall (mm) North-East 2000 687 22 1.62E-02 0 0 13.42 9.34 5.33 466.5 273.7 17.32 13.36 9.45 401.6 254.8 North-West 2000 1304 96 1.88E-03 0 0 14.67 10.57 6.45 525.8 259.0 18.10 14.32 10.54 447.0 327.2 Yorkshire & Humber 2000 521 39 2.34E-02 4.76E-10 4.76E-10 14.72 10.61 6.52 471.5 275.3 18.55 14.52 10.50 411.7 238.9 East Midlands 2000 1358 46 4.49E-02 1.20E-09 1.20E-09 15.77 11.41 7.05 475.1 237.7 19.81 15.35 10.89 441.0 202.8 Eastern 2000 2677 227 3.36E-02 0 0 16.51 12.16 7.82 516.0 202.9 20.59 16.12 11.63 473.6 180.4 London & SE 2000 3467 120 2.60E-02 0 0 16.37 12.10 7.84 500.1 256.2 20.61 16.10 11.60 505.3 202.1 South-West 2000 3710 209 1.05E-02 0 0 15.43 11.43 7.45 494.2 285.9 19.75 15.65 11.57 502.2 267.9 Wales 2000 3163 605 7.99E-04 0 0 14.60 10.50 6.49 502.7 325.6 18.41 14.46 10.60 458.6 350.2 North-East 2002 406 9 2.07E-02 1.16E-08 1.16E-08 14.00 10.03 6.06 484.9 175.0 17.82 13.87 9.84 412.7 200.4 North-West 2002 1487 109 2.06E-03 0 0 14.72 10.83 7.00 494.7 291.5 18.20 14.42 10.67 426.4 253.7 Yorkshire & Humber 2002 322 15 2.65E-02 1.41E-08 1.41E-08 15.40 11.11 6.82 517.5 166.4 19.10 14.95 10.80 413.7 240.9 East Midlands 2002 747 24 5.14E-02 1.76E-08 1.76E-08 16.43 11.75 7.08 542.9 132.2 20.36 15.75 11.12 459.6 209.0 West Midlands 2002 1490 136 1.77E-02 6.85E-09 6.85E-09 16.07 11.52 6.99 539.4 162.0 20.05 15.43 10.80 481.8 153.4 Eastern 2002 3449 141 3.82E-02 1.12E-08 1.12E-08 16.93 12.28 7.66 568.9 124.2 21.18 16.51 11.86 490.1 155.4 London & SE 2002 3763 121 2.67E-02 1.41E-08 1.41E-08 16.66 12.20 7.76 590.5 183.8 21.04 16.33 11.62 551.5 156.7 South-West 2002 3703 168 1.12E-02 6.96E-09 6.96E-09 15.44 11.43 7.43 547.5 233.9 19.77 15.48 11.21 536.1 152.5 Wales 2002 2698 473 4.95E-04 0 0 14.37 10.54 6.81 477.4 323.2 18.26 14.21 10.23 446.6 185.3 North-East 2004 496 49 2.87E-02 2.51E-08 2.51E-08 14.68 10.53 6.38 484.0 192.8 17.77 13.95 10.07 454.7 308.2 North-West 2004 1694 116 2.08E-03 1.55E-09 1.55E-09 15.23 11.30 7.41 493.5 207.6 18.31 14.75 11.20 450.6 435.1 Yorkshire & Humber 2004 530 5 4.17E-02 2.91E-08 2.91E-08 15.81 11.53 7.24 488.2 200.6 19.06 15.05 11.05 470.1 294.7 East Midlands 2004 1606 66 6.70E-02 3.95E-08 3.95E-08 16.90 12.26 7.63 515.9 175.6 20.40 15.95 11.47 498.2 276.4 West Midlands 2004 1977 46 2.75E-02 2.53E-08 2.53E-08 16.78 12.19 7.62 530.4 179.1 20.09 15.72 11.34 487.4 243.6 Eastern 2004 2972 172 4.63E-02 3.68E-08 3.68E-08 17.36 12.63 7.90 539.8 142.7 21.43 16.79 12.17 536.7 217.1 London & SE 2004 3592 128 3.89E-02 3.51E-08 3.51E-08 17.45 12.67 7.89 587.4 157.9 21.36 16.77 12.17 562.6 191.8 South-West 2004 3723 340 1.95E-02 1.72E-08 1.72E-08 16.65 12.25 7.89 607.2 176.7 19.91 15.89 11.88 514.6 245.4 Wales 2004 3958 870 1.40E-03 9.63E-10 9.63E-10 15.30 11.25 7.29 510.4 221.0 18.39 14.77 11.19 443.1 379.8 North-East 2006 344 5 2.56E-02 3.16E-08 3.16E-08 14.57 10.08 5.61 597.5 153.6 20.01 15.47 10.90 593.4 193.7 8地域 ✕ 6年分 (2000-2010年隔年) の死亡率等データ■ Budge et al. (2015)
  71. 71. 家畜ミツバチへの農薬影響データの(再)解析 ⾮因果推論的解析 因果推論的解析 Budge et al. (2015) Hayashi et al. (in prep) 因果構造を 考慮せずに 有意差検定で 変数を選択 因果構造を 考慮して バックドア基準で 変数を選択 GLMで効果量推定 GLMで効果量推定 ? ?
  72. 72. 未出版内容のため ここからの内容はweb公開版では 割愛します (すみません。。)
  73. 73. 本⽇の構成 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 トンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  74. 74. 河川底⽣昆⾍への重⾦属影響の解析 「河川中のニッケル」が 「河川底⽣昆⾍の種数」を低下させて いるか? Q.
  75. 75. 河川底⽣昆⾍への重⾦属影響の解析 今回の発表で⽤いる調査 データの収集⾵景 カゲロウ( ) カワゲラ( ) トビケラ( ) 45地点( 8県14流域)で河川底⽣昆⾍およびニッケル 濃度等の調査実施
  76. 76. 河川底⽣昆⾍への重⾦属影響の解析 ⾮因果推論的解析 Takeshita et al. (2019) 因果構造を 考慮せずに パーセンタイル 回帰で効果推定 ? 因果推論的解析 Takeshita et al. (in prep) 因果構造を 考慮して バックドア基準で 変数を選択 重回帰で効果量推定 ?
  77. 77. 未出版内容のため ここからの内容はweb公開版では 割愛します (すみません。。)
  78. 78. 本⽇の構成 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 佐賀のトンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  79. 79. 佐賀のトンボへの農薬影響の解析(途中経過) 「⽔⽥⽤苗箱施⽤ネオニコ系殺⾍剤」が 「野外でのトンボの種数や個体数」を 低下させているか? Q.
  80. 80. 未出版内容のため ここからの内容はweb公開版では 割愛します (すみません。。)
  81. 81. 本⽇の構成 81 理論: バックドア基準の紹介(ざっくり版) 事例: 家畜ミツバチへの農薬影響データの(再)解析 導⼊: なぜ統計的因果推論なのか 河川底⽣昆⾍への重⾦属影響の解析 ⽣態学の「失われた系統」としての因果推論・ 相関と因果は違う(必要とされる⽅法論も!)・ ・ ・ 統計的因果推論@⽣態学への挑戦 トンボへの農薬影響の解析(途中経過)・ われわれの研究⽬的を再整理する・
  82. 82. 全体のまとめ “バックドア基準が満たされている”■ + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない≒ 「何を調整するべきか」を真剣に検討しよう■ ・ 介⼊効果をバイアスなく推定できる ・“⽣態を知るからこそできる因果推論”がある! データの背後にある構造を明⽰的に考えよう 相関と因果は違う■ ・必要となる⽅法論も違う!(”なんでもAIC”はやめよう)
  83. 83. 以下、補⾜⽤スライド
  84. 84. 導⼊|バックドア基準は「何について」の話? 統計的因果推論に関する議論のレイヤー (1) そもそもの解析の⽬的についての議論 ■ (2) 介⼊効果の統計的推定の際に満たされるべき 理論的条件についての議論 (3) 介⼊効果の統計的推定の際に適⽤可能な 解析⼿法についての議論 e.g., 条件付き交換可能性・無視可能性 e.g., 傾向スコアマッチング 異なるレイヤーの議論を混ぜると混乱のもと e.g., 最善仮説の推定/予測/介⼊効果推定のどれがしたいのか? バックドア基準は の「理論的条件」の話 ・ ・ (2)
  85. 85. 前置き|バックドア基準は「何について」の話? 85 介⼊効果推定におけるバックドア基準とは■ バックドア基準は上式が成り⽴つ際に含まれる べき共変量Zのセット(上式の成⽴条件)を⽰す ・処置Xについて(conditional) exchangeability が成⽴し ているとき、交絡の影響なく介⼊効果推定が可能 共変量結果変数の 潜在反応 処置 Hernan and Robins (2017) 『Causal Inference』 より 介⼊効果推定における変数選択の基準を与える Conditional exchangeability:
  86. 86. 前置き|バックドア基準は「何について」の話? つまり、共変量セットZがバックドア基準を 満たすとき: ■ ⽐較したい要因以外の要因(共変量) が“全て揃っている"とみなせる! 共変量の違いによる影響が調整された状態 での処理間の⽐較が可能となる p(Y|X=⼩さい, Z) = p(Y|X=do(⼩さい)) 共変量Zを含んだモデルからのXの条件付き確率が Xへの介⼊時の確率と等しくなる do()の表現で書くと:
  87. 87. Morgan and Winship (2015)での因果推論⼿法の説明 Morgan and Winship (2015) Counterfactuals and Causal Inference: Methods and Principles for Social Research (2nd ed.)
  88. 88. Morgan and Winship (2015)での因果推論⼿法の説明 [第III章] 観測された変数で条件付けして バックドアパスをブロックでき るときの因果効果の推定法 [第IV章] バックドアパスの条件付けが ineffectiveなときの因果効果の 推定法 マッチング 回帰による推定 重み付け回帰による推定 バックドアパスを条件付けするとは どういうことか(バックドア基準) バックドアパスの条件付けが ineffectiveとはどういうことか 操作変数法 メカニズムと因果的説明 繰り返し観測 観測済変数でバックドアパスを閉められるか否かで 介⼊効果推定における⼿法選択の⼤⽅針が決まる III.1 III.2 III.3 III.4 IV.1 IV.2 IV.3 IV.4 傾向スコア Doubly-Robust フロントドア基準 回帰分断デザイン IV
  89. 89. 補⾜その2 |バックドア基準が考えていないもの (基本的に)巡回的な因果構造の場合は考えていない サンプルによる偶然誤差は考えていない ただし推定におけるバイアスと精度の関係を理解する上でも ⼀致推定量となる条件(バックドア基準)の理解⾃体は重要 例:交絡によるバイアスと多重共線性の関係 場合によっては推定の精度(バリアンス)を重視 する場合もあることを別に否定するものではない (あくまで⼀般論としては、バイアスの⽅が御しがたいケースが多い) 信頼区間がめちゃくちゃ⼤きいときに⼩さなバイアスを苦⼼して除去 したところであまり意味はない ⼤きなバイアスがあると分かっているときに信頼区間を苦⼼して狭め たところであまり意味はない 普通に、要はバランスである ・ ・ (興味の中⼼は⼀致推定=サンプルサイズ無限⼤のときのバイアスの有無)
  90. 90. 補⾜その3 |バックドア基準と”モデル選択” 介⼊効果の推定が⽬的のとき、どの変数を選択する べきかは「データ⽣成メカニズム」における要因間 の因果の繋がり⽅によって規定される ⾔うまでもなく,「データ⽣成メカニズム」はサンプル サイズに依存して変化するようなものではない! AICやBICのような、ベストモデルがサンプルサイズ に依存して変化するようなモデル選択のロジックとは 本質的に論理の筋道の異なる話である 介⼊効果の推定が⽬的のはずなのに、AICによるモデル選択で話が 終始している解析を⾒かけることがあるが、その理論的根拠は乏しい (AICそのものが悪いわけではなく、適⽤のTPOの問題) しかるに ・
  91. 91. 補⾜その3 |バックドア基準を満たすときだけ? バックドア基準を満たさなくともバイアスなく推定 できる場合ももちろんある X Y Z1 その他、バックドア基準を満たさなくとも「フロ ントドア基準」などが満たされている場合には他の ⽅法での推定が可能 モデルへの「Z1」の追加はバック ドア基準を満たさないが、バイア スの原因にもならないので⼀致推 定に関しては問題ない (まあでも追加することの積極的な意味もおそらくない) 単純な例 (詳しくは後述の参考⽂献をご参照ください) ・ ・
  92. 92. 補⾜その4 |実務におけるご利益 (*分野と対象による) バックドア基準/因果モデル検討によるご利益の例■ ・ 調整すべき変数についての論理が得られる ・量的(統計的)研究と質的研究の橋渡しとなりうる ・ 調整すべき変数を絞り込むことができる ・ 感度分析・媒介効果分析への橋渡しとなりうる ・ 調整すべき変数の抜け漏れを防げる ・因果の図解⾃体が関係者とのやりとりに役⽴つ ・ ⼀般化可能性についての議論も深まりやすくなる(⼀般化可 能性は⽣成メカニズムの安定性や類似性にも⼤きく依存するため)
  93. 93. 補⾜その4 |実務におけるご利益 (*分野と対象による) ■ 因果 モデル 介⼊効果 推定 深化 “量的” 研究 “質的” 研究 “概念”の吟味と ⾼解像度化 “繋がり”の吟味と ⾼解像度化 X バイアスの 減少 介⼊効果推定の ⾼解像度化 (例; 集団内不均⼀性の考慮, 媒介分析) 量的(統計的)研究と質的研究の理想イメージ 介⼊効果がいかに/どの程度⽣じるかについての “Sufficiently deep explanation”を社会に提供できる Morgan and Winship (2015)
  94. 94. 補遺:バックドア基準と多重線形性の関係の説明 94 • まとめ:変数の追加で偏回帰係数が揺れる理由 𝛽" = 𝑟"% − 𝑟"' 𝑟'% 1 − 𝑟"' ) 𝛽 = 𝑟"% (2) xとzの相関が1に近い (⾏列式が0に近い) (1) x, z, yの相関によるバイアスの⽣滅 バックドア基準の守備範囲 いわゆる「多重共線性」の守備範囲 (3) サンプルサイズの有限性による誤差 「多重共線性」 という現象 サンプルサイズ無限⼤でも⽣じる (相関が1でない限り) サンプルサイズ無限⼤ では⽣じない これ⾃体は符号 の向きを変えない!
  95. 95. 95 林岳彦・⿊⽊学(2016) 「相関関係」と「因果関係」は違います。これはよく知られています。ある要 因 X ともうひとつの要因 Y のあいだに高い相関が見られたからといって,それ らのあいだに因果的な関係があるとは限りません。一方で,そのような高い相関 を「因果関係」として解釈できる場合もたしかにあります。この辺りが難しいと ころです。もしあなたの同僚やクライアントが,あなたが作成した散布図を見て 「相関関係」と「因果関係」を明らかに混同した発言をしはじめたとしましょう。 このとき,「この場合はこれこれこうだからこの相関関係は因果関係として解釈 できるんですよ/できないんですよ」と相手に向かって理路整然と説明するのは, それほど簡単なことではありません。こと因果関係の話になると,自分の頭の中 でその内容を整理するのも,その内容を相手に伝わるように説明するのも,なか なか難しいものです。 私たちの経験上,そんなときにとても役に立つのは,データの背後に想定して いる「因果構造(データ生成のメカニズム)」についての(分かる範囲での)簡単な ポンチ絵を丸と矢印で描いてみせることです[本稿ではそんなポンチ絵の例がたくさん 出てきます]。そして,そのようなポンチ絵を描いたあとに,その描かれた因果構 造が「あ ・ る ・ 特 ・ 定 ・ の ・ 条 ・ 件 ・ 群 ・ 」を満たしているかどうかを相手と共同で検討していき ます。多くの場合,その検討を通して「この相関関係は因果関係を示していると 解釈してよいのか?」や「相関関係を因果関係として解釈するためには本来はど のようなデータが必要なのか?」といった本質的な問いについて,より明確かつ 端的な議論ができるようになります。 相関と因果と丸と矢印のはなし はじめてのバックドア基準 林岳彦(国立環境研究所)・黒木学(統計数理研究所) [特集]因果推論 現実の課題に答える統計学 補遺 | バックドア基準の解説原稿 (本⽇の元ネタ) 2016年6⽉発売「岩波データサイエンスvol. 3」因果推論特集号
  96. 96. 96 補遺 | バックドア基準の解説 (ガチ勢向け)

×