Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

『バックドア基準の入門』@統数研研究集会

14,926 views

Published on

2017年2月17日に行われた統計数理研究所での研究集会『因果推論の基礎』での講演内容です(配布用の改変あり)。スライドだけだと口頭での説明がないので分かりにくい部分もあるかもしれません。

[http://www.ism.ac.jp/events/2017/meeting0216_17.html:title]

Published in: Data & Analytics

『バックドア基準の入門』@統数研研究集会

  1. 1. バックドア基準の入門とその使用例 林 岳彦 2017年2月17日(金)13:00-14:30 リスク解析戦略研究センター研究集会『因果推論の基礎』@統計数理研究所 1 国立環境研究所環境リスク・健康研究センター 建設性のある議論のために/ 【後日配布版スライド】
  2. 2. バックドア基準の入門とその使用例 林 岳彦 2 国立環境研究所環境リスク・健康研究センター 建設性のある議論のために/ いちユーザー視点からの「実質科学上の意義」の話 バックドア基準自体の解説 林の現在進行形の研究の話 (ケーススタディとして) 2017年2月17日(金)13:00-14:30 リスク解析戦略研究センター研究集会『因果推論の基礎』@統計数理研究所
  3. 3. 本日の話(もくじ) 3 I. 6ステップで説明するバックドア基準入門 III. いちユーザー視点からの「実質科学上の意義」 1. 前置き 2. バックドアパスをイメージしよう 3. まずは2変量(x,y)を考える ネオニコチノイド系農薬のミツバチコロニーへの影響についての 既往研究論文(Budge et al. 2015)の再解析 4. 3変量(x,y,z)で見る基本的論理 5. 4変量以上の場合を見る 6. "まとめ"としてのバックドア基準 *個人の感想です。また、ものすごく「分野による」話です II. 環境リスク分野でのバックドア基準の”使用”例 (時間が余れば):バックドア基準と多重線形性の関係の説明
  4. 4. 本日の話(もくじ) 4 I. 6ステップで説明するバックドア基準入門 III. いちユーザー視点からの「実質科学上の意義」 1. 前置き 2. バックドアパスをイメージしよう 3. まずは2変量(x,y)を考える ネオニコチノイド系農薬のミツバチコロニーへの影響についての 既往研究論文(Budge et al. 2015)の再解析 4. 3変量(x,y,z)で見る基本的論理 5. 4変量以上の場合を見る 6. "まとめ"としてのバックドア基準 *個人の感想です。また、ものすごく「分野による」話です II. 環境リスク分野でのバックドア基準の”使用”例 (時間が余れば):バックドア基準と多重線形性の関係の説明
  5. 5. I. 6ステップで説明するバックドア基準入門 5 1. 前置き:交絡、内生性、バックドアパス 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)で理解する基本的ロジック 5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 6. "まとめ"としてのバックドア基準 +フォローアップ:事例と補遺
  6. 6. ステップ1| 前置き:交絡、内生性、バックドアパス 6  散布図上の相関関係からの素朴な予測や期待と 因果効果(介入効果)がズレることがある 『X→Yの介入効果』= Xを1単位量分だけ介入により変化させたときの、 Yの平均的な変化量 【本日の話の中での定義】
  7. 7. ステップ1| 前置き:交絡、内生性、バックドアパス 7  散布図上の相関関係からの素朴な予測や期待と 因果効果(介入効果)がズレることがある 1年間でゲームに費やした時間 1 年 間 で の 身 長 の 伸 び ゲームすれば 背が伸びる! 中学二年生に対する調査データ(仮想のもの) p < 0.001
  8. 8. ステップ1| 前置き:交絡、内生性、バックドアパス 8  散布図上の相関関係からの素朴な予測や期待と 因果効果(介入効果)がズレることがある 1年間でゲームに費やした時間 1 年 間 で の 身 長 の 伸 び ゲームすれば 背が伸びる! 中学二年生に対する調査データ(仮想のもの) p < 0.001 女子 男子 身長 ゲーム 性別
  9. 9. ステップ1| 前置き:交絡、内生性、バックドアパス 9  散布図上の相関関係からの素朴な予測や期待と 因果効果(介入効果)がズレることがある 内生性のせい! 一歩込み入った議論をする際に判断に迷うことがある なぜズレるの? 交絡のせい! 本日の 目標 「バックドアパスが開いているせい」 「バックドア基準が満たされていないせい」 という説明を理解する
  10. 10. ステップ1| 前置き:交絡、内生性、バックドアパス 10  「バックドアパス」を軸とした因果推論法の整理例 Morgan and Winship (2015) 『Counterfactuals and Causal Inference: Methods and Principles for Social Research』 (2nd ed.) 潜在反応モデルと構造的因果モデルの両者を わりとシームレスに解説しつつ実質科学的な 目配せも効いた好著 (だと思う/読んだ範囲では)
  11. 11. ステップ1| 前置き:交絡、内生性、バックドアパス 11  Morgan and Winship (2015)での統計的因果推論手法の整理 [第III章] 観測された変数で条件付けして バックドアパスをブロックでき るときの因果効果の推定法 [第IV章] バックドアパスの条件付けが ineffectiveなときの因果効果の 推定法 マッチング 回帰による推定 重み付け回帰による推定 バックドアパスを条件付けするとは どういうことか(バックドア基準) バックドアパスの条件付けが ineffectiveとはどういうことか 操作変数法 メカニズムと因果的説明 繰り返し観測 つまり、バックドアパスを閉められそうか否かで 因果推定における解析の大方針が決まる III.1 III.2 III.3 III.4 IV.1 IV.2 IV.3 IV.4 傾向スコア Doubly-Robust フロントドア基準 回帰分断デザイン 自己選択
  12. 12. I. 6ステップで説明するバックドア基準入門 12 1. 前置き:交絡、内生性、バックドアパス 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)で理解する基本的ロジック 5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 6. "まとめ"としてのバックドア基準 +フォローアップ:事例と補遺
  13. 13. ステップ2 | 「バックドアパス」をざっくりイメージ 13  因果構造を丘にある「人工池」でイメージする 迂遠かもしれませんが、因果の「流れ」のアナロジーと して有効だと思うので少々お付き合いいただければ・・ X Y *降雨の影響などは考えない 本講演を通して X: 処理 Y: 結果 Z: 共変量 で表記します * Y=βX+γ+ε 人工池 人工池 水路
  14. 14. ステップ2 | 「バックドアパス」をざっくりイメージ 14  超ざっくり言うと「バックドアパス」とは『処理Xと 結果Yの上流側にある両者に影響を与える流れ 』 X Y Z1 Z2 (X→Yの) バックドアパス 上流側にある「Z1」に インクをぶちまけると XにもYにも到達する (=両者に影響を与える) *非常に細かい補足:ここで「結果Yに影響する流れ」を考えるときには、「処理Xを経由するYへの流れ」 については除外する(例:次ページのZ1についてはYに影響する流れをもたないものと考える) *
  15. 15. ステップ2 | 「バックドアパス」をざっくりイメージ 15  超ざっくり言うと「バックドアパス」とは『処理Xと 結果Yの上流側にある両者に影響を与える流れ 』 X Y Z1 Z2 (X→Yの) バックドアパス ではない 上流側にある「Z1」に インクをぶちまけても Xにしか到達しない (=両者には影響を与えない) *非常に細かい補足:ここで「結果Yに影響する流れ」を考えるときには、「処理Xを経由するYへの流れ」 については除外する。つまり、本ページのZ1からはYに影響する流れはないものと考える *
  16. 16. ステップ2 | 「バックドアパス」をざっくりイメージ 16  超ざっくり言うと「バックドアパス」とは『処理Xと 結果Yの上流側にある両者に影響を与える流れ』 X Y Z1 Z2 (X→Yの) バックドアパス ではない 上流側にある「Z1」に インクをぶちまけても Yにしか到達しない (=両者には影響を与えない)
  17. 17. ステップ2 | 「バックドアパス」をざっくりイメージ 17  超ざっくり言うと「バックドアパス」とは『処理Xと 結果Yの上流側にある両者に影響を与える流れ』 ステップ3からもう少し丁寧に説明していきます X Y Z1 Z2 これをブロックする /閉じることが重要 (X→Yの) バックドアパス 上流側にある「Z1」に インクをぶちまけると XにもYにも到達する (=両者に影響を与える)
  18. 18. I. 6ステップで説明するバックドア基準入門 18 1. 前置き:交絡、内生性、バックドアパス 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)で理解する基本的ロジック 5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 6. "まとめ"としてのバックドア基準 +フォローアップ:事例と補遺
  19. 19. ステップ3 | まずは2変量(X,Y)から考える 19  説明の単純化のため線形方程式を考えます X YX Y Y=βX+γ+ε さて、このβは介入によりXを1単位量増やしたときの Yの増分(『X→Yの介入効果』)に相当するだろうか?
  20. 20. ステップ3 | まずは2変量(X,Y)から考える 20  説明の単純化のため線形方程式を考えます X YX Y Y=βX+γ+ε さて、このβは介入によりXを1単位量増やしたときの Yの増分(『X→Yの介入効果』)に相当するだろうか? XがYの上流のとき、β=「X→Yの介入効果」
  21. 21. ステップ3 | まずは2変量(X,Y)から考える 21  説明の単純化のため線形方程式を考えます X Y YがXの上流のとき、β≠「X→Yの介入効果」 介入効果は背景にある因果構造(生成メカニズム)に依存する Y X Y=βX+γ+ε 2変量の場合は 『因果の向き』
  22. 22. I. 6ステップで説明するバックドア基準入門 22 1. 前置き:交絡、内生性、バックドアパス 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)で理解する基本的ロジック 5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 6. "まとめ"としてのバックドア基準 +フォローアップ:事例と補遺
  23. 23. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 23  共変量 Z とのつながり方の重要3パターン X Y Z (1)Zが分岐点 X Y Z (2)Zが合流点 X Z Y (3)Zが中間点 『分岐経路』 『合流経路』 『連鎖経路』 Zをモデルに追加することの「意味」がパターンにより異なる
  24. 24. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 24  (1)「Zが分岐点の場合」について考える X Y Z X Y Zの変動によりX-Y間 に"シンクロ"が生じる Zが大 Zが小 (X→Yの) バックドアパス バックドアパスがあるとき、上流側の共通要因の変動によって XとYのあいだに(非因果的な/介入効果と関係ない)シンクロが生じる このシンクロがX→Yの介入効果の推定にバイアスをもたらす 非因果的 連関
  25. 25. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 25  ちなみに「Zが分岐点でない場合」は(例1) X Y Z X Y Zの変動はX-Y間の "シンクロ"を生み出さない Zが大 Zが小
  26. 26. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 26  ちなみに「Zが分岐点でない場合」は(例2) X Y Z X Y Zの変動はX-Y間の "シンクロ"を生み出さない Zが大 Zが小
  27. 27. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 27  では、この"シンクロ"を止めるにはどうすれば? X Y Z X Y Zを"固定"すればよい! Zが固定されれば"シンクロ"も消える Zで層別化して解析する 重回帰分析の共変量としてZをモデルに追加する "固定"= 条件付け (conditioning)
  28. 28. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 28  Zで層別化して解析する(X:ゲーム, Y:身長, Z:性別) 「男子」「女子」別々に X→Yの効果を計算して 集計する ゲーム時間 身 長 の 伸 び Z:性別 X:ゲーム 時間 Y:身長 Zで層別化して解析することにより"シンクロ"の影響を消せる
  29. 29. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 29  Zを重回帰モデルに加える(X:ゲーム, Y:身長, Z:性別) Z:性別 X:ゲーム 時間 Y:身長 *今後、切片と誤差項は表記の単純化のため省略します 身長 = β ゲーム時間+γ性別 "性別"がモデルに 追加されているとき "ゲーム時間"の偏回帰係数は, 「"性別"を固定したときの "ゲーム時間"が1単位変化したときの "身長"の変化量」を意味する Zが分岐点のとき、Zを加えた重回帰モデルにおける Xの偏回帰係数の値はX→Yの介入効果として素直に解釈してよい! 一般化すると、すなわち X, Y, Zの3変量のケースにおいて: "シンクロ" を遮断
  30. 30. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 30  ちなみに「Zを重回帰モデルに加えない」と Z:性別 X:ゲーム 時間 Y:身長 *今後、切片と誤差項は表記の単純化のため省略します 身長 = β ゲーム時間 "性別"を特に固定しないときの "ゲーム時間"が1単位変化したときの "身長"の変化量 Zが分岐点のとき、Zを加えない回帰モデルにおける Xの回帰係数は"シンクロ込み"の分だけバイアスがかかる Zの変動によるシンクロの 影響が加味される X, Y, Zの3変量のケースにおいて:
  31. 31. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 31  バックドアパスを「閉じる/ブロックする」とは バックドアパスが "開いている" バックドアパスが "閉まっている" X Y Z (X→Yの) バックドアパス 分岐点Zを重回帰モデルに 加えない場合 分岐点Zを重回帰モデルに 加えた場合 シンクロの 原因となる "水の流れ"が 遮断される
  32. 32. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 32  バックドアパスを「閉じる/ブロックする」とは X Y Z (X→Yの) バックドアパス 分岐点Zを重回帰モデルに 加えない場合 分岐点Zを重回帰モデルに 加えた場合 3変量における小まとめ(その1): 「Zが分岐点のときはモデルに加えるべし」 シンクロの 原因となる "水の流れ"が 遮断される
  33. 33. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 33  (2)「Zが合流点の場合」について考える X Y Z X Y Zを"固定"しなければ、何の問題も生じない Xの回帰係数をX→Yの介入効果として素直に解釈してよい
  34. 34. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 34  合流点Zを"固定"するとどうなるのか? 学力試験 実 技 試 験 Z:合否 Y:実技 試験 X:学力 試験 美大の入学試験における仮想例 100 100 *学力試験と実技試験の 合計点によって 試験の「合否」が決まる *実技試験と学力試験の間には 因果的関係は無い
  35. 35. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 35  合流点Zを"固定"するとどうなるのか? 実 技 試 験 Z:合否 Y:実技 試験 美大の入学試験における仮想例 合否Zで層別化すると、XとYの間に非因果的な連関が生じ、 層別解析の結果はX→Yの介入効果とズレる 合格者 Z=1 不合格者 Z=0 (重回帰分析でZをモデルに追加しても本質的に同様なことが起こる) X:学力 試験 100 100 学力試験
  36. 36. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック  ルール:合流点を固定すると"親"の間に双方向パスが開く バックドアパスが "閉まったまま" 合流点Zを重回帰モデルに 加えない場合 X Y Z バックドアパスが "開いてしまった" 合流点Zを重回帰モデルに 加えた場合 X Y Z (X→Yの) バックドアパス 子 親 親
  37. 37. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック  ルール:合流点を固定すると"親"の間に双方向パスが開く 合流点Zを重回帰モデルに 加えない場合 X Y Z 合流点Zを重回帰モデルに 加えた場合 X Y Z (X→Yの) バックドアパス 3変量における小まとめ(その2): 「Zが合流点のときはモデルに加えてはいけない」 子 親 親
  38. 38. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 38  (3)「Zが中間点の場合」について考える Z Y X X Y Zを"固定"しなければ、何の問題も生じない Xの回帰係数をX→Yの介入効果として素直に解釈してよい
  39. 39. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 39  中間点Zを"固定"するとどうなるのか? 在来種Aを護るための 外来種Bの駆除の効果(仮想例) Z:外来種B の根絶 Y:在来種A の個体数 X:外来種B の駆除努力 外来種Bの駆除努力 在 来 種 A の 個 体 数 *「外来種Bの駆除努力」は 「外来種Bの根絶」を通して 「在来種Aの個体数」に影響を与える *「外来種Bの駆除努力」と 「在来種Aの個体数」の間には 因果的関係がある アメリカザリガニとか 在来ザリガニとか
  40. 40. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 40  中間点Zを"固定"するとどうなるのか? 根絶Zで層別化すると、Xからの「因果効果」自体がブロッ クされてしまい、X→Yの介入効果とズレる ("overconditioning") (重回帰分析でZをモデルに追加しても本質的に同様なことが起こる) 在来種Aを護るための 外来種Bの駆除の効果(仮想例) Z:外来種B の根絶 Y:在来種A の個体数 X:外来種B の駆除努力 外来種Bの駆除努力 在 来 種 A の 個 体 数 種Bの根絶に成功(Z=1) 種Bの根絶に失敗(Z=0) アメリカザリガニとか 在来ザリガニとか
  41. 41. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック 41  3変量(X,Y,Z)の場合の総まとめ *上記のまとめは、 4変量以上の場合には あくまで"rule-of-thumb"である Zを加えよ Zを加えるな
  42. 42. I. 6ステップで説明するバックドア基準入門 42 1. 前置き:交絡、内生性、バックドアパス 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)で理解する基本的ロジック 5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 6. "まとめ"としてのバックドア基準 +フォローアップ:事例と補遺
  43. 43. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 43  4変量以上だと「道」を考える必要が出て来る X Y Z1 Z2 もし、処理Xと結果Yの「両者の共通 原因」を”交絡要因”と呼ぶ場合 Z2は”交絡要因”かつ分岐点 Z1は”交絡要因”と呼ばれない 必ずモデルに追加すべき? モデルに追加しなくてよい? common cause
  44. 44. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 44  4変量以上だと「道」を考える必要が出て来る X Y Z1 Z2 (X→Yの) バックドアパス X Y Z2 Z1 バックドアパス はブロック
  45. 45. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 45  4変量以上だと「道」を考える必要が出て来る どの場合もバックドアパスはブロックされている *どのケースもXとYの"シンクロ"の原因となりうる上流側の流れが遮断されている X Y Z2 Z1 X Y X Y Z1 Z2 Z2 Z1
  46. 46. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 46  4変量以上だと「道」を考える必要が出て来る(再掲) X Y Z1 Z2 もし、処理Xと結果Yの「両者の共通 原因」を「交絡要因」と呼ぶ場合 必ずモデルに追加すべき? モデルに追加しなくてよい? 全体として"道"がブロックされていることが肝要 (X→Yの) バックドアパス Z2は”交絡要因”かつ分岐点 Z1は”交絡要因”と呼ばれない
  47. 47. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 47  4変量以上で「道」を考える:合流点の例 X Y Z2 Z3 Z1 Z3は合流点 絶対にモデルに追加 したらダメ?
  48. 48. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 48  4変量以上で「道」を考える:合流点の例 Z1 X Z2 Y Z3 Z1 X Y Z3 X Z2 Y Z3 全体として"道"がブロックされていることが肝要 絶対にモデルに追加したらダメ? (X→Yの) バックドアパス Z1Z2
  49. 49. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 49  (マニア向け補足)4変量以上の合流点について X Y Z1 子 親 親 Z2 孫 X Y Z1 子 親 親 Z2 孫 X Y Z1 親 親 Z2 孫 子 合流点の子孫を固定しても合流点の親に双方向パスがつく
  50. 50. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 50  4変量以上で「道」を考える:中間点の場合 X Y Z2 Z1 Z1, Z2は中間点 絶対にモデルに追加 したらダメ?
  51. 51. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 51  4変量以上で「道」を考える:中間点の場合 X Y Z2 Z1 Z1, Z2は中間点 絶対にモデルに追加 したらダメ? 中間点を入れるとXからの 因果効果自体が ブロックされてしまう (これは3変量の場合と同様)
  52. 52. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 52  4変量以上で「道」を考える:中間点の場合 X Y Z1 Z2 全体としてX→Yの因果の"道"がブロックされないことが肝要 X Y X Y Z2 Z1 Z1 Z2
  53. 53. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 53  4変量以上のまとめ X Y Z2 Z1 X Y X Y Z1 Z2 Z2 Z1 X Y Z1 Z2 X Y X Y Z2 Z1 Z1 Z2 バックドアパスを ブロックしろ X→Yの道を ブロックするな もうほとんどバックドア基準ものすごい細かい論点をのぞけば
  54. 54. I. 6ステップで説明するバックドア基準入門 54 1. 前置き:交絡、内生性、バックドアパス 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)で理解する基本的ロジック 5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 6. "まとめ"としてのバックドア基準 +フォローアップ:事例と補遺
  55. 55. ステップ6 | "まとめ"としてのバックドア基準 55  「バックドア基準」を解読してみよう 宮川雅巳(2004)『統計的因果推論 --- 回帰分析の新しい枠組み』 p82より引用
  56. 56. ステップ6 | "まとめ"としてのバックドア基準 56  「バックドア基準」を解読してみよう 因果ダイアグラムGにおいて、XからYへと有向道があるとする。こ のとき、次の2つの条件を満たす頂点集合Sは、(X, Y)について バックドア基準を満たすという (1) XからSの任意の要素に有向道がない (2) 因果ダイアグラムGよりXから出る矢線を除いたグラフに おいて、SがXとYを有向分離する 宮川雅巳(2004)『統計的因果推論 --- 回帰分析の新しい枠組み』 p82より引用
  57. 57. ステップ6 | "まとめ"としてのバックドア基準 57  「バックドア基準」を解読してみよう 因果ダイアグラムGにおいて、XからYへと有向道があるとする。こ のとき、次の2つの条件を満たす頂点集合Sは、(X, Y)について バックドア基準を満たすという (1) XからSの任意の要素に有向道がない (2) 因果ダイアグラムGよりXから出る矢線を除いたグラフに おいて、SがXとYを有向分離する 宮川雅巳(2004)『統計的因果推論 --- 回帰分析の新しい枠組み』 p82より引用 YがXの下流にある Xの下流の変数をモデルに加えてはいけない バックドアパスがブロックされている 中間変数と下流の合流点 がここで除外される
  58. 58. ステップ6 | "まとめ"としてのバックドア基準 58  「バックドア基準」の"カジュアル言い換え"版 林・黒木(2016)『相関と因果と丸と矢印のはなし』 p44より引用
  59. 59. ステップ6 | "まとめ"としてのバックドア基準 59  「バックドア基準」の"カジュアル言い換え"版 丸と矢印で書かれた因果構造において、Xから下流側に矢印をた どったときにYにつながる経路があるとする。X→Yの介入効果の推 定において、次の2つの条件を満たす「モデルに追加した説明変数 の組」は、バックドア基準を満たすという。 (1) 追加した説明変数はXの下流側にない (2) Xから出る矢印を除いたときの因果構造において、追加し た「説明変数の組」により、(XとYの)上流側の共通要因から のXとYの両方に影響を与える流れがすべて遮断されている 林・黒木(2016)『相関と因果と丸と矢印のはなし』 p44より引用
  60. 60. ステップ6 | "まとめ"としてのバックドア基準 60  「バックドア基準」の"カジュアル言い換え"版 丸と矢印で書かれた因果構造において、Xから下流側に矢印をた どったときにYにつながる経路があるとする。X→Yの介入効果の推 定において、次の2つの条件を満たす「モデルに追加した説明変数 の組」は、バックドア基準を満たすという。 (1) 追加した説明変数はXの下流側にない (2) Xから出る矢印を除いたときの因果構造において、追加し た「説明変数の組」により、(XとYの)上流側の共通要因から のXとYの両方に影響を与える流れがすべて遮断されている 林・黒木(2016)『相関と因果と丸と矢印のはなし』 p44より引用 バックドアパスがブロックされている
  61. 61. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える 61  4変量以上のまとめ(再掲) X Y Z2 Z1 X Y X Y Z1 Z2 Z2 Z1 X Y Z1 Z2 X Y X Y Z2 Z1 Z1 Z2 バックドアパスを ブロックしろ X→Yの道を ブロックするな もうほとんどバックドア基準ものすごい細かい論点をのぞけば 条件(1)に対応条件(2)に対応
  62. 62. ステップ6 | "まとめ"としてのバックドア基準 62  で、バックドア基準を満たすとき・・どうなの? 例えば、重回帰モデルの場合 モデルに追加された説明変数の組が「X→Y」についてバック ドア基準を満たすとき、重回帰分析から得られたXの偏回帰係 数をそのまま「X→Yの介入効果」とみなせる (Xの偏回帰係数がX→Yの介入効果についてのバイアスのない推定量となる) 例えば、「シンプソンのパラドックス」(ここでは、どの変数で層別化す るかによって推定結果が変るケースの意味で用いる)が生じている場合 興味の対象となる「処理X→結果Y」についてバックドア基準 を満たす変数で層別化して解析すれば「X→Yの介入効果」を バイアスなく推定できる
  63. 63. I. 6ステップで説明するバックドア基準入門 63 1. 前置き:交絡、内生性、バックドアパス 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)で理解する基本的ロジック 5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 6. "まとめ"としてのバックドア基準 +フォローアップ:例題と補遺
  64. 64. 例題その1| どの変数を加えれば良いのか? 64 X Y Z1 Z2 Z3 バックドアパスの見極めに迷ったら、もし「その人工池にインクを ぶちまけたらどうなるか」を考えてみよう!
  65. 65. 例題その1| どの変数を加えれば良いのか? 65 X Y Z1 Z2 Z3 バックドアパスの見極めに迷ったら、もし「その人工池にインクを ぶちまけたらどうなるか」を考えてみよう! Z1にインクをぶちまけると XとYの両方にインクは到達する
  66. 66. 例題その1| どの変数を加えれば良いのか? 66 X Y Z1 Z2 Z3 バックドアパスの見極めに迷ったら、もし「その人工池にインクを ぶちまけたらどうなるか」を考えてみよう! Z2にインクを ぶちまけると XとYの両方に インクは到達する
  67. 67. 例題その1| どの変数を加えれば良いのか? 67 X Y Z1 Z2 Z3 バックドアパスの見極めに迷ったら、もし「その人工池にインクを ぶちまけたらどうなるか」を考えてみよう! Z2からは こういう 経路もある
  68. 68. 例題その1| どの変数を加えれば良いのか? 68 X Y Z1 Z2 Z3 バックドアパスの見極めに迷ったら、もし「その人工池にインクを ぶちまけたらどうなるか」を考えてみよう! 全部で3つの バックドアパス がある
  69. 69. 例題その1| どの変数を加えれば良いのか? 69 X Y Z3 Z2 Z1 バックドア基準を満たす最小の変数セットは「Z1, Z2」 *「Z1, Z2, Z3」もバックドア基準を満たします Z1, Z2をブロックすると3つの バックドアパスが全て遮断される
  70. 70. 例題その2| どの変数を加えれば良いのか? 70 X Y Z1 Z4 Z3 Z2 Z5 Z6
  71. 71. 例題その2| どの変数を加えれば良いのか? 71 X Y Z1 Z4 Z3 Z2 Z5 Z6 Z1にインクをぶちまけると XとYの両方にインクは到達する
  72. 72. 例題その2| どの変数を加えれば良いのか? 72 X Y Z1 Z4 Z3 Z2 Z5 Z6 Z2にインクをぶちまけると XとYの両方にインクは到達する *Z3にインクを ぶちまけても XとYのどちらか片方にしか インクは到達しない
  73. 73. 例題その2| どの変数を加えれば良いのか? 73 X Y Z1 Z4 Z3 Z2 Z5 Z6 全部で2つの バックドアパスがある
  74. 74. 例題その2| どの変数を加えれば良いのか? 74 X Y Z4 Z3 Z2 Z5 Z6 Z1 バックドア基準を 満たす最小の 変数セットは「Z1」 *ここでZ5, Z6を入れると 新たなバックドアパスが 開いてしまう *Z4はそもそも 中間点なので入れてはダメ Z1をブロックすると2つの バックドアパスが全て遮断される
  75. 75. 例題その3| どの変数を加えれば良いのか? 75 X Y Z1 Z2 この部分の 因果構造は不明 Xへの道は必ず Z1かZ2を経ることは 知られている
  76. 76. 例題その3| どの変数を加えれば良いのか? 76 X Y Z1 Z2 この部分の 因果構造は不明 バックドアパスが ある場合、必ず Z1, Z2のどちらかを通る
  77. 77. 例題その3| どの変数を加えれば良いのか? 77 X Z1 Z2 この部分の 因果構造は不明 Y 「Z1, Z2」を加えれば少なくともバックドア基準を満たす Z1, Z2をブロックすれば バックドアパスは 遮断される
  78. 78. 例題その3| どの変数を加えれば良いのか? 78  構造の全てを知る必要は全くない:路線図の喩え TX公式HP http://www.mir.co.jp/route_map/e-book/#page=1より引用 つくば 立 川 守谷駅さえ封鎖すれば林は (電車では)家に帰れない *首都圏の路線図*
  79. 79. 例題その3| どの変数を加えれば良いのか? 79  構造の全てを知る必要は全くない:路線図の喩え つくば 駅 立川駅 守谷 駅 東京の 極度に 複雑な 鉄道網 必要なのは 「守谷の先は一本線」 という"背景知識"のみ ポイントとなる部分の適切な粒度の背景知識があればよい TX
  80. 80. 例題その3| どの変数を加えれば良いのか? 80 X Z1 Z2 この部分の 因果構造は不明 Y ポイントとなる部分の適切な粒度の背景知識があればよい Z1, Z2をブロックすれば バックドアパスは 遮断される
  81. 81. 補遺的議論 I|バックドア基準が考えていないもの 81  (基本的に)巡回的な因果構造の場合は考えていない  サンプルによる偶然誤差は考えていない (興味の中心は一致推定=サンプルサイズ無限大のときのバイアスの有無) ただし推定におけるバイアスと精度の関係を理解する上でも 一致推定量となる条件(バックドア基準)の理解自体は重要 例:交絡によるバイアスと多重共線性の関係 (後に補遺として説明) 場合によっては推定の精度(バリアンス)を重視 する場合もあることを別に否定するものではない (あくまで一般論としては、バイアスの方が御しがたいケースが多いと思いますが) 信頼区間がめちゃくちゃ大きいときに小さなバイアスを苦心して除去 したところであまり意味はない 大きなバイアスがあると分かっているときに信頼区間を苦心して狭め たところであまり意味はない 普通に、要はバランスである
  82. 82. 補遺的議論 II | バックドア基準の理論的含意 82  介入効果の推定が目的のとき、どの変数を選択する べきかは「データ生成メカニズム」における要因間 の因果の繋がり方によって規定される 言うまでもなく、「データ生成メカニズム」はサンプル サイズに依存して変化するようなものではない! AICやBICのような、ベストモデルがサンプルサイズに 依存して変化するようなモデル選択のロジックとは 本質的に論理の筋道の異なる話である 介入効果推定が目的のはずなのに、AICによるモデル選択で話が 終始している解析を見かけることがあるが、その理論的根拠は乏しい (AICそのものが悪いわけではなく、適用のTPOの問題) しかるに
  83. 83. 補遺的議論 III| ブロック手法としての傾向スコア 83  傾向スコアはバックドアパスをブロックする"合成変数" (たまに誤解されていることがあるが) バックドア基準と傾向スコアは対立的なものでは全くない! バックドア基準は介入効果についてのバイアスの無い 推定(一致推定)が可能となる「基準/条件」を示す 傾向スコアは「バックドア基準の条件2を満たす (バックドアパスをブロックする)」ための強力な手法
  84. 84. ステップ1| 前置き:交絡、内生性、バックドアパス 84  Morgan and Winship (2015)での統計的因果推論手法の整理(再掲) [第III章] 観測された変数で条件付けして バックドアパスをブロックでき るときの因果効果の推定法 [第IV章] バックドアパスの条件付けが ineffectiveなときの因果効果の 推定法 マッチング 回帰による推定 重み付け回帰による推定 バックドアパスを条件付けするとは どういうことか(バックドア基準) バックドアパスの条件付けが ineffectiveとはどういうことか 操作変数法 メカニズムと因果的説明 繰り返し観測 つまり、バックドアパスを閉められそうか否かで 因果推定における解析の大方針が決まる III.1 III.2 III.3 III.4 IV.1 IV.2 IV.3 IV.4 傾向スコア Doubly-Robust フロントドア基準 回帰分断デザイン 自己選択
  85. 85. 補遺的議論 III| ブロック手法としての傾向スコア 85 X Y  傾向スコアはバックドアパスをブロックする"合成変数" Z1Z3 Z2Z5Z6 Z4 So many バックドアパス
  86. 86. 補遺的議論 III| ブロック手法としての傾向スコア 86 X Y Z1Z3 Z2Z5Z6 Z4 e 傾向スコアで まとめてブロック  傾向スコアはバックドアパスをブロックする"合成変数"
  87. 87. 補遺的議論 III| ブロック手法としての傾向スコア 87  傾向スコアはバックドアパスをブロックする"合成変数" X Y Z1Z3 Z2Z5Z6 Z4 e 層別化における 次元の呪いの回避 回帰分析における モデルの誤設定の回避 興味のある推定と無い推定部分の 分離(Overfittingの問題を傾向スコアの導 出部分に押し込める等々) 処理Xが連続変数の ケースには向かない 偶然による交絡起因の 影響も補正可能 真の傾向スコアよりも傾向スコアの推定値の方が バランシングの能力が高い! (参照:Morgan and Winship 2015 前掲書, p152) もちろん共変量は連続でも良い +アルファの性質 共変量のバランシングから 妥当性をチェックできる
  88. 88. 補遺的議論 IV|バックドア基準を満たすときのみ? 88  バックドア基準を満たさなくともバイアスなく推定 できる場合ももちろんある X Y Z1  その他、「フロントドア基準」など モデルへの「Z1」の追加はバックドア基準 を満たさないが、バイアスの原因にもなら ないので一致推定上は問題ない (まあでも追加することの積極的な意味もおそらくないけれど) 単純な例
  89. 89. ステップ1| 前置き:交絡、内生性、バックドアパス 89  Morgan and Winship (2015)での統計的因果推論手法の整理(再々掲) [第III章] 観測された変数で条件付けして バックドアパスをブロックでき るときの因果効果の推定法 [第IV章] バックドアパスの条件付けが ineffectiveなときの因果効果の 推定法 マッチング 回帰による推定 重み付け回帰による推定 バックドアパスを条件付けするとは どういうことか(バックドア基準) バックドアパスの条件付けが ineffectiveとはどういうことか 操作変数法 メカニズムと因果的説明 繰り返し観測 つまり、バックドアパスを閉められそうか否かで 因果推定における解析の大方針が決まる III.1 III.2 III.3 III.4 IV.1 IV.2 IV.3 IV.4 傾向スコア Doubly-Robust フロントドア基準 回帰分断デザイン 自己選択
  90. 90. 補遺的宣伝 | バックドア基準の解説原稿 (本日の元ネタ)  2016年6月発売「岩波データサイエンスvol. 3」因果推論特集号 林岳彦・黒木学(2016)
  91. 91. I. バックドア基準入門 | まとめとメッセージ  バックドア基準は本当は難しくないんです! X Y Z2 Z1 X Y X Y Z1 Z2 Z2 Z1 X Y Z1 Z2 X Y X Y Z2 Z1 Z1 Z2 バックドアパスを ブロックしろ X→Yの道を ブロックするな 基本的にはこの2つだけの話 分岐点・合流点・中間点がもつ各性質に留意しつつ
  92. 92. 本日の話(もくじ) 92 I. 6ステップで説明するバックドア基準入門 III. いちユーザー視点からの「実質科学上の意義」 1. 前置き 2. バックドアパスをイメージしよう 3. まずは2変量(x,y)を考える ネオニコチノイド系農薬のミツバチコロニーへの影響についての 既往研究論文(Budge et al. 2015)の再解析 4. 3変量(x,y,z)で見る基本的論理 5. 4変量以上の場合を見る 6. "まとめ"としてのバックドア基準 *個人の感想です。また、ものすごく「分野による」話です II. 環境リスク分野でのバックドア基準の”使用”例 (時間が余れば):バックドア基準と多重線形性の関係の説明
  93. 93. II. 環境リスク分野でのバックドア基準の”使用”例 93 ネオニコチノイド系農薬のミツバチコロニーへの 影響についての既往研究論文の再解析 *本解析については現在進行中の研究であるため 配布資料からは割愛
  94. 94. 本日の話(もくじ) 94 I. 6ステップで説明するバックドア基準入門 III. いちユーザー視点からの「実質科学上の意義」 1. 前置き 2. バックドアパスをイメージしよう 3. まずは2変量(x,y)を考える ネオニコチノイド系農薬のミツバチコロニーへの影響についての 既往研究論文(Budge et al. 2015)の再解析 4. 3変量(x,y,z)で見る基本的論理 5. 4変量以上の場合を見る 6. "まとめ"としてのバックドア基準 *個人の感想です。また、ものすごく「分野による」話です II. 環境リスク分野でのバックドア基準の”使用”例 (時間が余れば):バックドア基準と多重線形性の関係の説明
  95. 95. 分野の紹介 |環境リスク研究者の「頭の中」 95  リスク研究者の多くは頭の中に何らかの"因果モデル"をもつ 有機水銀 の生成 水産物 市民 市場 例:有機水銀汚染による健康リスクについての"頭の中” 工場での 生産過程 漁師 排水 海での 生物濃縮 海での 汚染蓄積
  96. 96. 分野の紹介 |環境リスク研究者の「頭の中」 96  リスク研究者の多くは頭の中に何らかの"因果モデル"をもつ どこに介入しうるのか/介入したらどうなるのかについてのアイデアが 常に頭の中をぐるぐるしている 有機水銀 の生成 水産物 市民 市場 例:有機水銀汚染による健康リスクについての"頭の中” 工場での 生産過程 漁師 排水 海での 生物濃縮 海での 汚染蓄積 工場の生産過程を 変えれば有機水銀 の生成を抑えられ るのでは? 排水処理を変えれ ば有機水銀を除去 できるのでは? 禁漁により人への 曝露を防げるのは? 浚渫により汚染を 低減できるので は? 市場への流通を止めれば 市民への曝露は防げるのでは? 妊婦や子供などへの注意喚起により ハイリスクグループへの曝露を減ら せるのでは? 市場への流通を止める と自家消費により曝露 が増えるかも?
  97. 97. 昔の私の「もやもや」 97  頭の中の"因果モデル"と「介入効果推定」の関係性は? 頭の中の"因果モデル" (政策的対応を念頭においた) 介入効果推定 do(市場= 流通禁止) do(市場= 流通あり) 市民の 健康 市民の 健康 ここの差分 =介入効果
  98. 98. 昔の私の「もやもや」 98  頭の中の"因果モデル"と「介入効果推定」の関係性は? 頭の中の"因果モデル" (政策的対応を念頭においた) 介入効果推定 do(市場= 流通禁止) do(市場= 流通あり) 市民の 健康 市民の 健康 ここの差分 =介入効果 どちらかに思考のピントが合っているとき、もう一方はぼやけてしまう
  99. 99. 昔の私の「もやもや」 99  頭の中の"因果モデル"と「介入効果推定」の関係性は? 頭の中の"因果モデル" (政策的対応を念頭においた) 介入効果推定 do(市場= 流通禁止) do(市場= 流通あり) 市民の 健康 市民の 健康 ここの差分 =介入効果 どちらかに思考のピントが合っているとき、もう一方はぼやけてしまう
  100. 100. 昔の私の「もやもや」 100  両者にピントを合わせて思考できるようになってきた 頭の中の"因果モデル" (政策的規制措置等を念頭においた) 介入効果推定 do(市場= 流通禁止) do(市場= 流通あり) 市民の 健康 市民の 健康 ここの差分 =介入効果 両者の関係が見えるぞ・・・!
  101. 101. 昔の私の「もやもや」 101  両者にピントを合わせて思考できるようになってきた バックドア基準 構造的因果モデル そのときふと 自分の足元を 見てみてみると・・
  102. 102. 昔の私の「もやもや」 102  両者にピントを合わせて思考できるようになってきた 頭の中の"因果モデル" (政策的規制措置等を念頭においた) 介入効果推定 do(市場= 流通禁止) do(市場= 流通あり) 市民の 健康 市民の 健康 ここの差分 =介入効果 バックドア基準が分かると両者の関係の感覚がつかめてくる
  103. 103. 昔の私の「もやもや」 103  両者にピントを合わせて思考できるようになってきた 因果 モデル 介入効果 推定 深化 • 研究テーマ全体の中での「介入効果推定」の位置づけがより明確になる • 介入効果の中長期的な「波及効果」についても考えやすくなる • 介入効果推定の検討過程から「足りない点=いま重要な研究テーマ」が 見えてくることもある • 一般化可能性についての議論も深まりやすくなる(一般化可能性は生成 メカニズムの安定性や類似性にも依存するため) • 因果モデルの解像度が上がるほど考慮すべき変数の抜け漏れが減る/調 査努力量を減らせる • 利害関係者(共同研究者、市民、行政等)とのコミュニケーションも捗る *ただし、全てひっくるめて「分野やテーマに依る話」でもあります*
  104. 104. ただし:「ピントが合う」≠「問題が解決する」 104  ピントが合うことにより「アラ」に気づくことの方が多いかも 著者らがバックドア基準を知っていたら ネガティブリザルトの解析結果のため論文 にならなかなったかもしれない  「耳の痛い助言を言ってくれる存在」としてのバックドア基準 • 「間違えると生物が絶滅する/人が死ぬ」という立場の人(リスク研 究者等)にとっては耳の痛い助言はありがたい • ただ論文をガシガシ書きたいという人には? 公共政策の近傍で働く研究者として、「査読をパスする」という「業界の内輪のルール」 の外部にある「基準」の存在とその尊重は非常に重要であると林は考えています 因果推論の「可能性」より「不可能性」の ほうがより見えるようになるかも 例えば先ほどの例では: だいたいの人は この中間のどこか と思われる
  105. 105. 参考|Elwert and Winship (2014) in Annu. Rev. Sociol. 105 ・合流点バイアスについての総説 ・社会学の研究において「因果の絵を 描くこと」の意義が垣間見える
  106. 106. 参考|Morgan and Winship (2015) 106 ・社会学を念頭においた因果推論の教科書 ・介入効果の推定とメカニズム的議論による 説明や理解の両者を重視する立場から 書かれている(例えば、本書p40参照)
  107. 107. 本日のまとめとメッセージ 107  バックドア基準は本当は難しくない 分岐点・合流点・中間点がもつ各性質に留意しつつ: (1)バックドアパスはブロック (2)X→Yの道はブロックしない  バックドア基準が分かると、"因果モデル"と 「介入効果推定」の関係性が見えてくる ・至近的には変数選択の役にたつ ・中長期的には実質科学における「因果モデルの解像度の 向上」と政策立案等のための「介入効果推定の信頼性の 向上」の間の好循環の形成が期待できる *ただし分野とテーマに依る*
  108. 108. 本日の話(もくじ) 108 I. 6ステップで説明するバックドア基準入門 III. いちユーザー視点からの「実質科学上の意義」 1. 前置き 2. バックドアパスをイメージしよう 3. まずは2変量(x,y)を考える ネオニコチノイド系農薬のミツバチコロニーへの影響についての 既往研究論文(Budge et al. 2015)の再解析 4. 3変量(x,y,z)で見る基本的論理 5. 4変量以上の場合を見る 6. "まとめ"としてのバックドア基準 *個人の感想です。また、ものすごく「分野による」話です II. 環境リスク分野でのバックドア基準の”使用”例 (時間が余れば):バックドア基準と多重線形性の関係の説明
  109. 109. 補遺:バックドア基準と多重線形性の関係の説明 109 すみません。ここから先の議論ではサンプルベース の議論とパラメータベースの議論が未整理になって いるところが多々あります。 後日、その辺りもきちんと整理した文章を用意する予 定ですので、現段階ではその点はどうかご容赦くださ い。
  110. 110. 補遺:バックドア基準と多重線形性の関係の説明 110 ステップ1:まず2変量(X, Y)の場合を考える 𝑦 = 𝛽𝑥 + 𝛾 単回帰モデルの回帰係数βは 単純化のためデータが標準化 されている場合を考える 単回帰係数は 相関係数に等しい
  111. 111. 補遺:バックドア基準と多重線形性の関係の説明 111 ステップ2:3変量(X, Y, Z)の場合を考える 𝑦 = 𝛽 𝑥 𝑥 + 𝛽𝑧 𝑧 + γ 重回帰モデルの回帰係数βxは 単純化のためデータが標準化 されている場合を考えると 𝛽 𝑥 = 𝑟𝑧 𝑧 𝑟𝑥 𝑦 − 𝑟𝑥 𝑧 𝑟𝑧 𝑦 𝑟𝑧𝑧 𝑟𝑥𝑥 − 𝑟𝑥𝑧 𝑟𝑥𝑧 分母に行列式が 出て来るのがポイント
  112. 112. 補遺:バックドア基準と多重線形性の関係の説明 112 ステップ3:3変量の偏回帰係数βxとβの比較 重回帰モデルの回帰係数βxは 同じデータをxで単回帰すると 本来はZを含まねばならぬときには ↓の式が正解
  113. 113. 補遺:バックドア基準と多重線形性の関係の説明 113 ステップ3:3変量の偏回帰係数βxとβの比較 重回帰モデルの回帰係数βxは 同じデータをxで単回帰すると 本来はZを含まねばならぬときには ↓の式が正解
  114. 114. 補遺:バックドア基準と多重線形性の関係の説明 114 ステップ3:3変量の偏回帰係数βxとβの比較 重回帰モデルの回帰係数βxは 同じデータをxで単回帰すると ずれる本来はZを含まねばならぬときには ↓の式が正解 いわゆる"交絡"に よるバイアス この項が 欠落
  115. 115. 補遺:バックドア基準と多重線形性の関係の説明 115 ステップ3:3変量の偏回帰係数βxとβの比較 重回帰モデルの回帰係数βxは 同じデータをxで単回帰すると ずれる xとzの相関が1に近いときに 誤差により母数の推定が不安定になる 本来はZを含まねばならぬときには ↓の式が正解 いわゆる"交絡"に よるバイアス この項が 欠落 いわゆる "多重共線性"
  116. 116. 補遺:バックドア基準と多重線形性の関係の説明 116 ステップ4:バックドア基準で振り返る(その1) Zを追加しなくともバックドア基準が満たされている場合 には偏回帰係数βxと単回帰係数βは等しいはずである X Y Z
  117. 117. 補遺:バックドア基準と多重線形性の関係の説明 117 ステップ4:バックドア基準で振り返る(その1) Zを追加しなくともバックドア基準が満たされている場合 には偏回帰係数βxと単回帰係数βは等しいはずである X Y Z ゼロ ゼロ この場合、交絡も多重共線性も生じない
  118. 118. 補遺:バックドア基準と多重線形性の関係の説明 118 ステップ4:バックドア基準で振り返る(その2) X Y Z Zを追加しなくともバック ドア基準が満たされている
  119. 119. 補遺:バックドア基準と多重線形性の関係の説明 119 ステップ4:バックドア基準で振り返る(その2) X Y Z この場合、交絡は生じないが、因果構造の知識を利用せずにZを含めて 計算すると多重共線性の問題は生じうる Zを追加しなくともバック ドア基準が満たされている "多重共線性" の可能性 因果構造の 知識から
  120. 120. 補遺:バックドア基準と多重線形性の関係の説明 120 まとめ:変数の追加で偏回帰係数が揺れる理由 (2) xとzの相関が1に近い (行列式が0に近い) (1) x, z, yの相関によるバイアスの生滅 バックドア基準の守備範囲 いわゆる「多重共線性」の守備範囲 (3) サンプルサイズの有限性による誤差 「多重共線性」 という現象 サンプルサイズ無限大でも生じる (相関が1でない限り) サンプルサイズ無限大 では生じない これ自体は符号 の向きを変えない!
  121. 121. 補遺:バックドア基準と多重線形性の関係の説明 121 まとめ:変数の追加で偏回帰係数が揺れる理由 交絡によるバイアスと多重共線性は「rxz」という"common cause"を共有しているので現象面からは見分けがつきにくい ただしここで見てきたように両者はメカニズム的には 別物であり、対処法も別物である 実務的には「銀の弾丸」は無いが、作業仮説的な因果構造の図を幾つか描いてみつつ、 共変量の出し入れによって偏回帰係数や信頼区間がとう変化するのかを検討すると 「何が起きているのか/何が起きていないのか」が分かってくることが多い 交絡の"原因" 多重共線性の"原因"
  122. 122. 122 ご清聴いただきありがとうございました

×