More Related Content More from takehikoihayashi (9) 『バックドア基準の入門』@統数研研究集会11. ステップ1| 前置き:交絡、内生性、バックドアパス
11
Morgan and Winship (2015)での統計的因果推論手法の整理
[第III章]
観測された変数で条件付けして
バックドアパスをブロックでき
るときの因果効果の推定法
[第IV章]
バックドアパスの条件付けが
ineffectiveなときの因果効果の
推定法
マッチング
回帰による推定
重み付け回帰による推定
バックドアパスを条件付けするとは
どういうことか(バックドア基準)
バックドアパスの条件付けが
ineffectiveとはどういうことか
操作変数法
メカニズムと因果的説明
繰り返し観測
つまり、バックドアパスを閉められそうか否かで
因果推定における解析の大方針が決まる
III.1
III.2
III.3
III.4
IV.1
IV.2
IV.3
IV.4
傾向スコア
Doubly-Robust
フロントドア基準
回帰分断デザイン
自己選択
13. ステップ2 | 「バックドアパス」をざっくりイメージ
13
因果構造を丘にある「人工池」でイメージする
迂遠かもしれませんが、因果の「流れ」のアナロジーと
して有効だと思うので少々お付き合いいただければ・・
X
Y
*降雨の影響などは考えない
本講演を通して
X: 処理
Y: 結果
Z: 共変量
で表記します
*
Y=βX+γ+ε
人工池
人工池
水路
14. ステップ2 | 「バックドアパス」をざっくりイメージ
14
超ざっくり言うと「バックドアパス」とは『処理Xと
結果Yの上流側にある両者に影響を与える流れ 』
X
Y
Z1
Z2
(X→Yの)
バックドアパス
上流側にある「Z1」に
インクをぶちまけると
XにもYにも到達する
(=両者に影響を与える)
*非常に細かい補足:ここで「結果Yに影響する流れ」を考えるときには、「処理Xを経由するYへの流れ」
については除外する(例:次ページのZ1についてはYに影響する流れをもたないものと考える)
*
15. ステップ2 | 「バックドアパス」をざっくりイメージ
15
超ざっくり言うと「バックドアパス」とは『処理Xと
結果Yの上流側にある両者に影響を与える流れ 』
X
Y
Z1
Z2
(X→Yの)
バックドアパス
ではない
上流側にある「Z1」に
インクをぶちまけても
Xにしか到達しない
(=両者には影響を与えない)
*非常に細かい補足:ここで「結果Yに影響する流れ」を考えるときには、「処理Xを経由するYへの流れ」
については除外する。つまり、本ページのZ1からはYに影響する流れはないものと考える
*
16. ステップ2 | 「バックドアパス」をざっくりイメージ
16
超ざっくり言うと「バックドアパス」とは『処理Xと
結果Yの上流側にある両者に影響を与える流れ』
X
Y
Z1
Z2
(X→Yの)
バックドアパス
ではない
上流側にある「Z1」に
インクをぶちまけても
Yにしか到達しない
(=両者には影響を与えない)
17. ステップ2 | 「バックドアパス」をざっくりイメージ
17
超ざっくり言うと「バックドアパス」とは『処理Xと
結果Yの上流側にある両者に影響を与える流れ』
ステップ3からもう少し丁寧に説明していきます
X
Y
Z1
Z2
これをブロックする
/閉じることが重要
(X→Yの)
バックドアパス
上流側にある「Z1」に
インクをぶちまけると
XにもYにも到達する
(=両者に影響を与える)
20. ステップ3 | まずは2変量(X,Y)から考える
20
説明の単純化のため線形方程式を考えます
X
YX
Y
Y=βX+γ+ε
さて、このβは介入によりXを1単位量増やしたときの
Yの増分(『X→Yの介入効果』)に相当するだろうか?
XがYの上流のとき、β=「X→Yの介入効果」
29. ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
29
Zを重回帰モデルに加える(X:ゲーム, Y:身長, Z:性別)
Z:性別
X:ゲーム
時間
Y:身長
*今後、切片と誤差項は表記の単純化のため省略します
身長 = β ゲーム時間+γ性別
"性別"がモデルに
追加されているとき
"ゲーム時間"の偏回帰係数は,
「"性別"を固定したときの
"ゲーム時間"が1単位変化したときの
"身長"の変化量」を意味する
Zが分岐点のとき、Zを加えた重回帰モデルにおける
Xの偏回帰係数の値はX→Yの介入効果として素直に解釈してよい!
一般化すると、すなわち
X, Y, Zの3変量のケースにおいて:
"シンクロ"
を遮断
46. ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
46
4変量以上だと「道」を考える必要が出て来る(再掲)
X
Y
Z1
Z2 もし、処理Xと結果Yの「両者の共通
原因」を「交絡要因」と呼ぶ場合
必ずモデルに追加すべき?
モデルに追加しなくてよい?
全体として"道"がブロックされていることが肝要
(X→Yの)
バックドアパス
Z2は”交絡要因”かつ分岐点
Z1は”交絡要因”と呼ばれない
56. ステップ6 | "まとめ"としてのバックドア基準
56
「バックドア基準」を解読してみよう
因果ダイアグラムGにおいて、XからYへと有向道があるとする。こ
のとき、次の2つの条件を満たす頂点集合Sは、(X, Y)について
バックドア基準を満たすという
(1) XからSの任意の要素に有向道がない
(2) 因果ダイアグラムGよりXから出る矢線を除いたグラフに
おいて、SがXとYを有向分離する
宮川雅巳(2004)『統計的因果推論 --- 回帰分析の新しい枠組み』 p82より引用
57. ステップ6 | "まとめ"としてのバックドア基準
57
「バックドア基準」を解読してみよう
因果ダイアグラムGにおいて、XからYへと有向道があるとする。こ
のとき、次の2つの条件を満たす頂点集合Sは、(X, Y)について
バックドア基準を満たすという
(1) XからSの任意の要素に有向道がない
(2) 因果ダイアグラムGよりXから出る矢線を除いたグラフに
おいて、SがXとYを有向分離する
宮川雅巳(2004)『統計的因果推論 --- 回帰分析の新しい枠組み』 p82より引用
YがXの下流にある
Xの下流の変数をモデルに加えてはいけない
バックドアパスがブロックされている
中間変数と下流の合流点
がここで除外される
59. ステップ6 | "まとめ"としてのバックドア基準
59
「バックドア基準」の"カジュアル言い換え"版
丸と矢印で書かれた因果構造において、Xから下流側に矢印をた
どったときにYにつながる経路があるとする。X→Yの介入効果の推
定において、次の2つの条件を満たす「モデルに追加した説明変数
の組」は、バックドア基準を満たすという。
(1) 追加した説明変数はXの下流側にない
(2) Xから出る矢印を除いたときの因果構造において、追加し
た「説明変数の組」により、(XとYの)上流側の共通要因から
のXとYの両方に影響を与える流れがすべて遮断されている
林・黒木(2016)『相関と因果と丸と矢印のはなし』 p44より引用
60. ステップ6 | "まとめ"としてのバックドア基準
60
「バックドア基準」の"カジュアル言い換え"版
丸と矢印で書かれた因果構造において、Xから下流側に矢印をた
どったときにYにつながる経路があるとする。X→Yの介入効果の推
定において、次の2つの条件を満たす「モデルに追加した説明変数
の組」は、バックドア基準を満たすという。
(1) 追加した説明変数はXの下流側にない
(2) Xから出る矢印を除いたときの因果構造において、追加し
た「説明変数の組」により、(XとYの)上流側の共通要因から
のXとYの両方に影響を与える流れがすべて遮断されている
林・黒木(2016)『相関と因果と丸と矢印のはなし』 p44より引用
バックドアパスがブロックされている
62. ステップ6 | "まとめ"としてのバックドア基準
62
で、バックドア基準を満たすとき・・どうなの?
例えば、重回帰モデルの場合
モデルに追加された説明変数の組が「X→Y」についてバック
ドア基準を満たすとき、重回帰分析から得られたXの偏回帰係
数をそのまま「X→Yの介入効果」とみなせる
(Xの偏回帰係数がX→Yの介入効果についてのバイアスのない推定量となる)
例えば、「シンプソンのパラドックス」(ここでは、どの変数で層別化す
るかによって推定結果が変るケースの意味で用いる)が生じている場合
興味の対象となる「処理X→結果Y」についてバックドア基準
を満たす変数で層別化して解析すれば「X→Yの介入効果」を
バイアスなく推定できる
81. 補遺的議論 I|バックドア基準が考えていないもの
81
(基本的に)巡回的な因果構造の場合は考えていない
サンプルによる偶然誤差は考えていない
(興味の中心は一致推定=サンプルサイズ無限大のときのバイアスの有無)
ただし推定におけるバイアスと精度の関係を理解する上でも
一致推定量となる条件(バックドア基準)の理解自体は重要
例:交絡によるバイアスと多重共線性の関係
(後に補遺として説明)
場合によっては推定の精度(バリアンス)を重視
する場合もあることを別に否定するものではない
(あくまで一般論としては、バイアスの方が御しがたいケースが多いと思いますが)
信頼区間がめちゃくちゃ大きいときに小さなバイアスを苦心して除去
したところであまり意味はない
大きなバイアスがあると分かっているときに信頼区間を苦心して狭め
たところであまり意味はない
普通に、要はバランスである
82. 補遺的議論 II | バックドア基準の理論的含意
82
介入効果の推定が目的のとき、どの変数を選択する
べきかは「データ生成メカニズム」における要因間
の因果の繋がり方によって規定される
言うまでもなく、「データ生成メカニズム」はサンプル
サイズに依存して変化するようなものではない!
AICやBICのような、ベストモデルがサンプルサイズに
依存して変化するようなモデル選択のロジックとは
本質的に論理の筋道の異なる話である
介入効果推定が目的のはずなのに、AICによるモデル選択で話が
終始している解析を見かけることがあるが、その理論的根拠は乏しい
(AICそのものが悪いわけではなく、適用のTPOの問題)
しかるに
83. 補遺的議論 III| ブロック手法としての傾向スコア
83
傾向スコアはバックドアパスをブロックする"合成変数"
(たまに誤解されていることがあるが)
バックドア基準と傾向スコアは対立的なものでは全くない!
バックドア基準は介入効果についてのバイアスの無い
推定(一致推定)が可能となる「基準/条件」を示す
傾向スコアは「バックドア基準の条件2を満たす
(バックドアパスをブロックする)」ための強力な手法
84. ステップ1| 前置き:交絡、内生性、バックドアパス
84
Morgan and Winship (2015)での統計的因果推論手法の整理(再掲)
[第III章]
観測された変数で条件付けして
バックドアパスをブロックでき
るときの因果効果の推定法
[第IV章]
バックドアパスの条件付けが
ineffectiveなときの因果効果の
推定法
マッチング
回帰による推定
重み付け回帰による推定
バックドアパスを条件付けするとは
どういうことか(バックドア基準)
バックドアパスの条件付けが
ineffectiveとはどういうことか
操作変数法
メカニズムと因果的説明
繰り返し観測
つまり、バックドアパスを閉められそうか否かで
因果推定における解析の大方針が決まる
III.1
III.2
III.3
III.4
IV.1
IV.2
IV.3
IV.4
傾向スコア
Doubly-Robust
フロントドア基準
回帰分断デザイン
自己選択
87. 補遺的議論 III| ブロック手法としての傾向スコア
87
傾向スコアはバックドアパスをブロックする"合成変数"
X Y
Z1Z3 Z2Z5Z6 Z4
e
層別化における
次元の呪いの回避
回帰分析における
モデルの誤設定の回避
興味のある推定と無い推定部分の
分離(Overfittingの問題を傾向スコアの導
出部分に押し込める等々)
処理Xが連続変数の
ケースには向かない
偶然による交絡起因の
影響も補正可能
真の傾向スコアよりも傾向スコアの推定値の方が
バランシングの能力が高い!
(参照:Morgan and Winship 2015 前掲書, p152)
もちろん共変量は連続でも良い
+アルファの性質
共変量のバランシングから
妥当性をチェックできる
89. ステップ1| 前置き:交絡、内生性、バックドアパス
89
Morgan and Winship (2015)での統計的因果推論手法の整理(再々掲)
[第III章]
観測された変数で条件付けして
バックドアパスをブロックでき
るときの因果効果の推定法
[第IV章]
バックドアパスの条件付けが
ineffectiveなときの因果効果の
推定法
マッチング
回帰による推定
重み付け回帰による推定
バックドアパスを条件付けするとは
どういうことか(バックドア基準)
バックドアパスの条件付けが
ineffectiveとはどういうことか
操作変数法
メカニズムと因果的説明
繰り返し観測
つまり、バックドアパスを閉められそうか否かで
因果推定における解析の大方針が決まる
III.1
III.2
III.3
III.4
IV.1
IV.2
IV.3
IV.4
傾向スコア
Doubly-Robust
フロントドア基準
回帰分断デザイン
自己選択
91. I. バックドア基準入門 | まとめとメッセージ
バックドア基準は本当は難しくないんです!
X
Y
Z2
Z1 X
Y
X
Y
Z1
Z2 Z2
Z1
X
Y
Z1
Z2
X
Y
X
Y
Z2
Z1 Z1
Z2
バックドアパスを
ブロックしろ
X→Yの道を
ブロックするな
基本的にはこの2つだけの話
分岐点・合流点・中間点がもつ各性質に留意しつつ
105. 参考|Elwert and Winship (2014) in Annu. Rev. Sociol.
105
・合流点バイアスについての総説
・社会学の研究において「因果の絵を
描くこと」の意義が垣間見える
106. 参考|Morgan and Winship (2015)
106
・社会学を念頭においた因果推論の教科書
・介入効果の推定とメカニズム的議論による
説明や理解の両者を重視する立場から
書かれている(例えば、本書p40参照)