『バックドア基準の入門』＠統数研研究集会

バックドア基準の入門とその使用例
林岳彦
2017年2月17日(金）13:00-14:30 リスク解析戦略研究センター研究集会『因果推論の基礎』＠統計数理研究所
1
国立環境研究所環境リスク・健康研究センター
建設性のある議論のために／
【後日配布版スライド】

バックドア基準の入門とその使用例
林岳彦
2
国立環境研究所環境リスク・健康研究センター
建設性のある議論のために／
いちユーザー視点からの「実質科学上の意義」の話
バックドア基準自体の解説
林の現在進行形の研究の話
（ケーススタディとして）
2017年2月17日(金）13:00-14:30 リスク解析戦略研究センター研究集会『因果推論の基礎』＠統計数理研究所

本日の話（もくじ）
3
I. 6ステップで説明するバックドア基準入門
III. いちユーザー視点からの「実質科学上の意義」
1. 前置き
2. バックドアパスをイメージしよう
3. まずは2変量(x,y)を考える
ネオニコチノイド系農薬のミツバチコロニーへの影響についての
既往研究論文（Budge et al. 2015）の再解析
4. 3変量(x,y,z)で見る基本的論理
5. 4変量以上の場合を見る
6. "まとめ"としてのバックドア基準
＊個人の感想です。また、ものすごく「分野による」話です
II. 環境リスク分野でのバックドア基準の”使用”例
(時間が余れば)：バックドア基準と多重線形性の関係の説明

4
1. 前置き

5
1. 前置き：交絡、内生性、バックドアパス
2. バックドアパスをざっくりとイメージしよう
3. まずは2変量(X,Y)から考える
4. 3変量(X,Y,Z)で理解する基本的ロジック
5. 4変量以上（X,Y,Z1,Z2...）では「道」に着目
＋フォローアップ：事例と補遺

ステップ１| 前置き：交絡、内生性、バックドアパス
6
 散布図上の相関関係からの素朴な予測や期待と
因果効果（介入効果）がズレることがある
『X→Yの介入効果』＝
Xを1単位量分だけ介入により変化させたときの、
Yの平均的な変化量
【本日の話の中での定義】

7
1年間でゲームに費やした時間
1
年
間
で
の
身
長
の
伸
び
ゲームすれば
背が伸びる！
中学二年生に対する調査データ（仮想のもの）
p < 0.001

8
1年間でゲームに費やした時間
1
年
間
で
の
身
長
の
伸
び
ゲームすれば
背が伸びる！
中学二年生に対する調査データ（仮想のもの）
p < 0.001
女子
男子
身長ゲーム
性別

9
内生性のせい！
一歩込み入った議論をする際に判断に迷うことがある
なぜズレるの？
交絡のせい！
本日の
目標
「バックドアパスが開いているせい」
「バックドア基準が満たされていないせい」
という説明を理解する

10
 「バックドアパス」を軸とした因果推論法の整理例
Morgan and Winship (2015)
『Counterfactuals and Causal
Inference: Methods and Principles
for Social Research』
(2nd ed.)
潜在反応モデルと構造的因果モデルの両者を
わりとシームレスに解説しつつ実質科学的な
目配せも効いた好著
（だと思う／読んだ範囲では）

11
 Morgan and Winship (2015)での統計的因果推論手法の整理
[第III章]
観測された変数で条件付けして
バックドアパスをブロックでき
るときの因果効果の推定法
[第IV章]
バックドアパスの条件付けが
ineffectiveなときの因果効果の
推定法
マッチング
回帰による推定
重み付け回帰による推定
バックドアパスを条件付けするとは
どういうことか（バックドア基準）
ineffectiveとはどういうことか
操作変数法
メカニズムと因果的説明
繰り返し観測
つまり、バックドアパスを閉められそうか否かで
因果推定における解析の大方針が決まる
III.1
III.2
III.3
III.4
IV.1
IV.2
IV.3
IV.4
傾向スコア
Doubly-Robust
フロントドア基準
回帰分断デザイン
自己選択

12

ステップ2 | 「バックドアパス」をざっくりイメージ
13
 因果構造を丘にある「人工池」でイメージする
迂遠かもしれませんが、因果の「流れ」のアナロジーと
して有効だと思うので少々お付き合いいただければ・・
X
Y
＊降雨の影響などは考えない
本講演を通して
X: 処理
Y: 結果
Z: 共変量
で表記します
＊
Y=βX+γ+ε
人工池
人工池
水路

14
 超ざっくり言うと「バックドアパス」とは『処理Xと
結果Yの上流側にある両者に影響を与える流れ』
X
Y
Z1
Z2
（X→Yの）
バックドアパス
上流側にある「Z1」に
インクをぶちまけると
XにもYにも到達する
(＝両者に影響を与える)
＊非常に細かい補足：ここで「結果Yに影響する流れ」を考えるときには、「処理Xを経由するYへの流れ」
については除外する（例：次ページのZ1についてはYに影響する流れをもたないものと考える）
＊

15
X
Y
Z1
Z2
（X→Yの）
ではない
インクをぶちまけても
Xにしか到達しない
(＝両者には影響を与えない)
＊非常に細かい補足：ここで「結果Yに影響する流れ」を考えるときには、「処理Xを経由するYへの流れ」
については除外する。つまり、本ページのZ1からはYに影響する流れはないものと考える
＊

16
X
Y
Z1
Z2
（X→Yの）
ではない
インクをぶちまけても
Yにしか到達しない
(＝両者には影響を与えない)

17
ステップ３からもう少し丁寧に説明していきます
X
Y
Z1
Z2
これをブロックする
／閉じることが重要
（X→Yの）
インクをぶちまけると
XにもYにも到達する
(＝両者に影響を与える)

18

ステップ3 | まずは2変量(X,Y)から考える
19
 説明の単純化のため線形方程式を考えます
X
YX
Y
Y=βX+γ+ε
さて、このβは介入によりXを1単位量増やしたときの
Yの増分（『X→Yの介入効果』）に相当するだろうか？

20
X
YX
Y
Y=βX+γ+ε
さて、このβは介入によりXを1単位量増やしたときの
Yの増分（『X→Yの介入効果』）に相当するだろうか？
XがYの上流のとき、β=「X→Yの介入効果」

21
X
Y
YがXの上流のとき、β≠「X→Yの介入効果」
介入効果は背景にある因果構造（生成メカニズム）に依存する
Y
X
Y=βX+γ+ε
２変量の場合は
『因果の向き』

22

ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
23
 共変量 Z とのつながり方の重要３パターン
X
Y
Z
(1)Zが分岐点
X
Y
Z
(2)Zが合流点
X
Z
Y
(3)Zが中間点
『分岐経路』『合流経路』『連鎖経路』
Zをモデルに追加することの「意味」がパターンにより異なる

24
 (1)「Zが分岐点の場合」について考える
X
Y
Z
X
Y
Zの変動によりX-Y間
に"シンクロ"が生じる
Zが大
Zが小
（X→Yの）
バックドアパスがあるとき、上流側の共通要因の変動によって
XとYのあいだに（非因果的な／介入効果と関係ない）シンクロが生じる
このシンクロがX→Yの介入効果の推定にバイアスをもたらす
非因果的
連関

25
 ちなみに「Zが分岐点でない場合」は（例１）
X
Y
Z
X
Y
Zの変動はX-Y間の
"シンクロ"を生み出さない
Zが大
Zが小

26
 ちなみに「Zが分岐点でない場合」は（例２）
X
Y
Z
X
Y
Zの変動はX-Y間の
"シンクロ"を生み出さない
Zが大
Zが小

27
 では、この"シンクロ"を止めるにはどうすれば？
X
Y
Z
X
Y
Zを"固定"すればよい！
Zが固定されれば"シンクロ"も消える
Zで層別化して解析する
重回帰分析の共変量としてZをモデルに追加する
"固定"=
条件付け
(conditioning)

28
 Zで層別化して解析する（X：ゲーム, Y：身長, Z：性別）
「男子」「女子」別々に
X→Yの効果を計算して
集計する
ゲーム時間
身
長
の
伸
び
Z:性別
X:ゲーム
時間
Y:身長
Zで層別化して解析することにより"シンクロ"の影響を消せる

29
 Zを重回帰モデルに加える（X：ゲーム, Y：身長, Z：性別）
Z:性別
X:ゲーム
時間
Y:身長
＊今後、切片と誤差項は表記の単純化のため省略します
身長 = β ゲーム時間＋γ性別
"性別"がモデルに
追加されているとき
"ゲーム時間"の偏回帰係数は,
「"性別"を固定したときの
"ゲーム時間"が1単位変化したときの
"身長"の変化量」を意味する
Zが分岐点のとき、Zを加えた重回帰モデルにおける
Xの偏回帰係数の値はX→Yの介入効果として素直に解釈してよい!
一般化すると、すなわち
X, Y, Zの３変量のケースにおいて：
"シンクロ"
を遮断

30
 ちなみに「Zを重回帰モデルに加えない」と
Z:性別
X:ゲーム
時間
Y:身長
＊今後、切片と誤差項は表記の単純化のため省略します
身長 = β ゲーム時間
"性別"を特に固定しないときの
"ゲーム時間"が1単位変化したときの
"身長"の変化量
Zが分岐点のとき、Zを加えない回帰モデルにおける
Xの回帰係数は"シンクロ込み"の分だけバイアスがかかる
Zの変動によるシンクロの
影響が加味される
X, Y, Zの３変量のケースにおいて：

31
 バックドアパスを「閉じる／ブロックする」とは
バックドアパスが
"開いている"
"閉まっている"
X
Y
Z
（X→Yの）
分岐点Zを重回帰モデルに
加えない場合
加えた場合
シンクロの
原因となる
"水の流れ"が
遮断される

32
 バックドアパスを「閉じる／ブロックする」とは
X
Y
Z
（X→Yの）
加えない場合
加えた場合
３変量における小まとめ（その１）：
「Zが分岐点のときはモデルに加えるべし」
シンクロの
原因となる
"水の流れ"が
遮断される

33
 (2)「Zが合流点の場合」について考える
X
Y
Z
X
Y
Zを"固定"しなければ、何の問題も生じない
Xの回帰係数をX→Yの介入効果として素直に解釈してよい

34
 合流点Zを"固定"するとどうなるのか？
学力試験
実
技
試
験
Z:合否
Y:実技
試験
X:学力
試験
美大の入学試験における仮想例
100
100
＊学力試験と実技試験の
合計点によって
試験の「合否」が決まる
＊実技試験と学力試験の間には
因果的関係は無い

35
 合流点Zを"固定"するとどうなるのか？
実
技
試
験
Z:合否
Y:実技
試験
美大の入学試験における仮想例
合否Zで層別化すると、XとYの間に非因果的な連関が生じ、
層別解析の結果はX→Yの介入効果とズレる
合格者 Z=1
不合格者 Z=0
（重回帰分析でZをモデルに追加しても本質的に同様なことが起こる）
X:学力
試験
100
100
学力試験

 ルール：合流点を固定すると"親"の間に双方向パスが開く
"閉まったまま"
合流点Zを重回帰モデルに
加えない場合
X
Y
Z
"開いてしまった"
加えた場合
X
Y
Z
（X→Yの）
子
親
親

 ルール：合流点を固定すると"親"の間に双方向パスが開く
加えない場合
X
Y
Z
加えた場合
X
Y
Z
（X→Yの）
３変量における小まとめ（その２）：
「Zが合流点のときはモデルに加えてはいけない」
子
親
親

38
 (3)「Zが中間点の場合」について考える
Z
Y
X
X
Y
Zを"固定"しなければ、何の問題も生じない
Xの回帰係数をX→Yの介入効果として素直に解釈してよい

39
 中間点Zを"固定"するとどうなるのか？
在来種Aを護るための
外来種Bの駆除の効果（仮想例）
Z:外来種B
の根絶
Y:在来種A
の個体数
X:外来種B
の駆除努力
外来種Bの駆除努力
在
来
種
A
の
個
体
数
＊「外来種Bの駆除努力」は
「外来種Bの根絶」を通して
「在来種Aの個体数」に影響を与える
＊「外来種Bの駆除努力」と
「在来種Aの個体数」の間には
因果的関係がある
アメリカザリガニとか
在来ザリガニとか

40
 中間点Zを"固定"するとどうなるのか？
根絶Zで層別化すると、Xからの「因果効果」自体がブロッ
クされてしまい、X→Yの介入効果とズレる ("overconditioning")
（重回帰分析でZをモデルに追加しても本質的に同様なことが起こる）
在来種Aを護るための
外来種Bの駆除の効果（仮想例）
Z:外来種B
の根絶
Y:在来種A
の個体数
X:外来種B
の駆除努力
外来種Bの駆除努力
在
来
種
A
の
個
体
数
種Bの根絶に成功(Z=1)
種Bの根絶に失敗(Z=0)
アメリカザリガニとか
在来ザリガニとか

41
 3変量(X,Y,Z)の場合の総まとめ
＊上記のまとめは、 4変量以上の場合には
あくまで"rule-of-thumb"である
Zを加えよ Zを加えるな

42

ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
43
 4変量以上だと「道」を考える必要が出て来る
X
Y
Z1
Z2
もし、処理Xと結果Yの「両者の共通
原因」を”交絡要因”と呼ぶ場合
Z2は”交絡要因”かつ分岐点
Z1は”交絡要因”と呼ばれない
必ずモデルに追加すべき？
モデルに追加しなくてよい？
common cause

44
X
Y
Z1
Z2
（X→Yの）
X
Y
Z2
Z1
はブロック

45
どの場合もバックドアパスはブロックされている
＊どのケースもXとYの"シンクロ"の原因となりうる上流側の流れが遮断されている
X
Y
Z2
Z1 X
Y
X
Y
Z1
Z2 Z2
Z1

46
 4変量以上だと「道」を考える必要が出て来る(再掲)
X
Y
Z1
Z2 もし、処理Xと結果Yの「両者の共通
原因」を「交絡要因」と呼ぶ場合
必ずモデルに追加すべき？
モデルに追加しなくてよい？
全体として"道"がブロックされていることが肝要
（X→Yの）
Z2は”交絡要因”かつ分岐点
Z1は”交絡要因”と呼ばれない

47
 4変量以上で「道」を考える：合流点の例
X Y
Z2
Z3
Z1
Z3は合流点
絶対にモデルに追加
したらダメ？

48
 4変量以上で「道」を考える：合流点の例
Z1
X
Z2
Y
Z3
Z1
X Y
Z3
X
Z2
Y
Z3
全体として"道"がブロックされていることが肝要
絶対にモデルに追加したらダメ？
（X→Yの）
Z1Z2

49
 (マニア向け補足)4変量以上の合流点について
X
Y
Z1
子
親
親
Z2
孫
X
Y
Z1
子
親
親
Z2
孫
X
Y
Z1
親
親
Z2
孫
子
合流点の子孫を固定しても合流点の親に双方向パスがつく

50
 4変量以上で「道」を考える：中間点の場合
X
Y
Z2
Z1
Z1, Z2は中間点
したらダメ？

51
X
Y
Z2
Z1
Z1, Z2は中間点
したらダメ？
中間点を入れるとXからの
因果効果自体が
ブロックされてしまう
（これは3変量の場合と同様）

52
X
Y
Z1
Z2
全体としてX→Yの因果の"道"がブロックされないことが肝要
X
Y
X
Y
Z2
Z1 Z1
Z2

53
 4変量以上のまとめ
X
Y
Z2
Z1 X
Y
X
Y
Z1
Z2 Z2
Z1
X
Y
Z1
Z2
X
Y
X
Y
Z2
Z1 Z1
Z2
バックドアパスを
ブロックしろ
X→Yの道を
ブロックするな
もうほとんどバックドア基準ものすごい細かい論点をのぞけば

54

ステップ6 | "まとめ"としてのバックドア基準
55
 「バックドア基準」を解読してみよう
宮川雅巳(2004)『統計的因果推論 --- 回帰分析の新しい枠組み』 p82より引用

56
因果ダイアグラムGにおいて、XからYへと有向道があるとする。こ
のとき、次の２つの条件を満たす頂点集合Sは、（X, Y）について
バックドア基準を満たすという
(1) XからSの任意の要素に有向道がない
(2) 因果ダイアグラムGよりXから出る矢線を除いたグラフに
おいて、SがXとYを有向分離する

57
因果ダイアグラムGにおいて、XからYへと有向道があるとする。こ
のとき、次の２つの条件を満たす頂点集合Sは、（X, Y）について
バックドア基準を満たすという
(1) XからSの任意の要素に有向道がない
(2) 因果ダイアグラムGよりXから出る矢線を除いたグラフに
おいて、SがXとYを有向分離する
YがXの下流にある
Xの下流の変数をモデルに加えてはいけない
バックドアパスがブロックされている
中間変数と下流の合流点
がここで除外される

58
 「バックドア基準」の"カジュアル言い換え"版
林・黒木(2016)『相関と因果と丸と矢印のはなし』 p44より引用

59
丸と矢印で書かれた因果構造において、Xから下流側に矢印をた
どったときにYにつながる経路があるとする。X→Yの介入効果の推
定において、次の２つの条件を満たす「モデルに追加した説明変数
の組」は、バックドア基準を満たすという。
(1) 追加した説明変数はXの下流側にない
(2) Xから出る矢印を除いたときの因果構造において、追加し
た「説明変数の組」により、(XとYの)上流側の共通要因から
のXとYの両方に影響を与える流れがすべて遮断されている

60
丸と矢印で書かれた因果構造において、Xから下流側に矢印をた
どったときにYにつながる経路があるとする。X→Yの介入効果の推
定において、次の２つの条件を満たす「モデルに追加した説明変数
の組」は、バックドア基準を満たすという。
(1) 追加した説明変数はXの下流側にない
(2) Xから出る矢印を除いたときの因果構造において、追加し
た「説明変数の組」により、(XとYの)上流側の共通要因から
のXとYの両方に影響を与える流れがすべて遮断されている
バックドアパスがブロックされている

61
 4変量以上のまとめ（再掲）
X
Y
Z2
Z1 X
Y
X
Y
Z1
Z2 Z2
Z1
X
Y
Z1
Z2
X
Y
X
Y
Z2
Z1 Z1
Z2
ブロックしろ
X→Yの道を
もうほとんどバックドア基準ものすごい細かい論点をのぞけば
条件(1)に対応条件(2)に対応

62
 で、バックドア基準を満たすとき・・どうなの？
例えば、重回帰モデルの場合
モデルに追加された説明変数の組が「X→Y」についてバック
ドア基準を満たすとき、重回帰分析から得られたXの偏回帰係
数をそのまま「X→Yの介入効果」とみなせる
（Xの偏回帰係数がX→Yの介入効果についてのバイアスのない推定量となる）
例えば、「シンプソンのパラドックス」(ここでは、どの変数で層別化す
るかによって推定結果が変るケースの意味で用いる）が生じている場合
興味の対象となる「処理X→結果Y」についてバックドア基準
を満たす変数で層別化して解析すれば「X→Yの介入効果」を
バイアスなく推定できる

63
＋フォローアップ：例題と補遺

例題その１| どの変数を加えれば良いのか？
64
X
Y
Z1
Z2
Z3
バックドアパスの見極めに迷ったら、もし「その人工池にインクを
ぶちまけたらどうなるか」を考えてみよう！

65
X
Y
Z1
Z2
Z3
Z1にインクをぶちまけると
XとYの両方にインクは到達する

66
X
Y
Z1
Z2
Z3
Z2にインクを
ぶちまけると
XとYの両方に
インクは到達する

67
X
Y
Z1
Z2
Z3
Z2からは
こういう
経路もある

68
X
Y
Z1
Z2
Z3
全部で３つの
がある

69
X
Y
Z3
Z2
Z1
バックドア基準を満たす最小の変数セットは「Z1, Z2」
＊「Z1, Z2, Z3」もバックドア基準を満たします
Z1, Z2をブロックすると３つの
バックドアパスが全て遮断される

例題その2| どの変数を加えれば良いのか？
70
X
Y
Z1
Z4
Z3
Z2
Z5
Z6

71
X
Y
Z1
Z4
Z3
Z2
Z5
Z6

72
X
Y
Z1
Z4
Z3
Z2
Z5
Z6
＊Z3にインクを
ぶちまけても
XとYのどちらか片方にしか
インクは到達しない

73
X
Y
Z1
Z4
Z3
Z2
Z5
Z6
全部で２つの
バックドアパスがある

74
X
Y
Z4
Z3
Z2
Z5
Z6
Z1
バックドア基準を
満たす最小の
変数セットは「Z1」
＊ここでZ5, Z6を入れると
新たなバックドアパスが
開いてしまう
＊Z4はそもそも
中間点なので入れてはダメ
Z1をブロックすると２つの
バックドアパスが全て遮断される

75
X
Y
Z1
Z2
この部分の
因果構造は不明
Xへの道は必ず
Z1かZ2を経ることは
知られている

76
X
Y
Z1
Z2
この部分の
ある場合、必ず
Z1, Z2のどちらかを通る

77
X
Z1
Z2
この部分の
Y
「Z1, Z2」を加えれば少なくともバックドア基準を満たす
Z1, Z2をブロックすれば
バックドアパスは
遮断される

78
 構造の全てを知る必要は全くない：路線図の喩え
TX公式HP http://www.mir.co.jp/route_map/e-book/#page=1より引用
つくば
立
川
守谷駅さえ封鎖すれば林は
（電車では）家に帰れない
＊首都圏の路線図＊

79
 構造の全てを知る必要は全くない：路線図の喩え
つくば
駅
立川駅
守谷
駅
東京の
極度に
複雑な
鉄道網
必要なのは
「守谷の先は一本線」
という"背景知識"のみ
ポイントとなる部分の適切な粒度の背景知識があればよい
TX

80
X
Z1
Z2
この部分の
Y
ポイントとなる部分の適切な粒度の背景知識があればよい
Z1, Z2をブロックすれば
バックドアパスは
遮断される

補遺的議論 I|バックドア基準が考えていないもの
81
 (基本的に)巡回的な因果構造の場合は考えていない
 サンプルによる偶然誤差は考えていない
（興味の中心は一致推定＝サンプルサイズ無限大のときのバイアスの有無）
ただし推定におけるバイアスと精度の関係を理解する上でも
一致推定量となる条件（バックドア基準）の理解自体は重要
例：交絡によるバイアスと多重共線性の関係
（後に補遺として説明）
場合によっては推定の精度（バリアンス）を重視
する場合もあることを別に否定するものではない
（あくまで一般論としては、バイアスの方が御しがたいケースが多いと思いますが）
信頼区間がめちゃくちゃ大きいときに小さなバイアスを苦心して除去
したところであまり意味はない
大きなバイアスがあると分かっているときに信頼区間を苦心して狭め
たところであまり意味はない
普通に、要はバランスである

補遺的議論 II | バックドア基準の理論的含意
82
 介入効果の推定が目的のとき、どの変数を選択する
べきかは「データ生成メカニズム」における要因間
の因果の繋がり方によって規定される
言うまでもなく、「データ生成メカニズム」はサンプル
サイズに依存して変化するようなものではない！
AICやBICのような、ベストモデルがサンプルサイズに
依存して変化するようなモデル選択のロジックとは
本質的に論理の筋道の異なる話である
介入効果推定が目的のはずなのに、AICによるモデル選択で話が
終始している解析を見かけることがあるが、その理論的根拠は乏しい
（AICそのものが悪いわけではなく、適用のTPOの問題）
しかるに

補遺的議論 III| ブロック手法としての傾向スコア
83
 傾向スコアはバックドアパスをブロックする"合成変数"
（たまに誤解されていることがあるが）
バックドア基準と傾向スコアは対立的なものでは全くない！
バックドア基準は介入効果についてのバイアスの無い
推定（一致推定）が可能となる「基準／条件」を示す
傾向スコアは「バックドア基準の条件2を満たす
（バックドアパスをブロックする）」ための強力な手法

84
 Morgan and Winship (2015)での統計的因果推論手法の整理（再掲）
[第III章]
[第IV章]
推定法
マッチング
操作変数法
繰り返し観測
III.1
III.2
III.3
III.4
IV.1
IV.2
IV.3
IV.4
傾向スコア
Doubly-Robust
自己選択

85
X Y
Z1Z3 Z2Z5Z6 Z4
So many

86
X Y
Z1Z3 Z2Z5Z6 Z4
e
傾向スコアで
まとめてブロック

87
X Y
Z1Z3 Z2Z5Z6 Z4
e
層別化における
次元の呪いの回避
回帰分析における
モデルの誤設定の回避
興味のある推定と無い推定部分の
分離（Overfittingの問題を傾向スコアの導
出部分に押し込める等々）
処理Xが連続変数の
ケースには向かない
偶然による交絡起因の
影響も補正可能
真の傾向スコアよりも傾向スコアの推定値の方が
バランシングの能力が高い！
（参照：Morgan and Winship 2015 前掲書, p152）
もちろん共変量は連続でも良い
＋アルファの性質
共変量のバランシングから
妥当性をチェックできる

補遺的議論 IV|バックドア基準を満たすときのみ？
88
 バックドア基準を満たさなくともバイアスなく推定
できる場合ももちろんある
X
Y Z1
 その他、「フロントドア基準」など
モデルへの「Z1」の追加はバックドア基準
を満たさないが、バイアスの原因にもなら
ないので一致推定上は問題ない
（まあでも追加することの積極的な意味もおそらくないけれど）
単純な例

89
 Morgan and Winship (2015)での統計的因果推論手法の整理（再々掲）
[第III章]
[第IV章]
推定法
マッチング
操作変数法
繰り返し観測
III.1
III.2
III.3
III.4
IV.1
IV.2
IV.3
IV.4
傾向スコア
Doubly-Robust
自己選択

補遺的宣伝 | バックドア基準の解説原稿 (本日の元ネタ)
 2016年6月発売「岩波データサイエンスvol. 3」因果推論特集号
林岳彦・黒木学（2016）

I. バックドア基準入門 | まとめとメッセージ
 バックドア基準は本当は難しくないんです！
X
Y
Z2
Z1 X
Y
X
Y
Z1
Z2 Z2
Z1
X
Y
Z1
Z2
X
Y
X
Y
Z2
Z1 Z1
Z2
ブロックしろ
X→Yの道を
基本的にはこの２つだけの話
分岐点・合流点・中間点がもつ各性質に留意しつつ

92
1. 前置き

93
ネオニコチノイド系農薬のミツバチコロニーへの
影響についての既往研究論文の再解析
＊本解析については現在進行中の研究であるため
配布資料からは割愛

94
1. 前置き

分野の紹介 |環境リスク研究者の「頭の中」
95
 リスク研究者の多くは頭の中に何らかの"因果モデル"をもつ
有機水銀
の生成
水産物
市民
市場
例：有機水銀汚染による健康リスクについての"頭の中”
工場での
生産過程
漁師
排水
海での
生物濃縮
海での
汚染蓄積

分野の紹介 |環境リスク研究者の「頭の中」
96
 リスク研究者の多くは頭の中に何らかの"因果モデル"をもつ
どこに介入しうるのか／介入したらどうなるのかについてのアイデアが
常に頭の中をぐるぐるしている
有機水銀
の生成
水産物
市民
市場
例：有機水銀汚染による健康リスクについての"頭の中”
工場での
生産過程
漁師
排水
海での
生物濃縮
海での
汚染蓄積
工場の生産過程を
変えれば有機水銀
の生成を抑えられ
るのでは？
排水処理を変えれ
ば有機水銀を除去
できるのでは？
禁漁により人への
曝露を防げるのは？
浚渫により汚染を
低減できるので
は？
市場への流通を止めれば
市民への曝露は防げるのでは？
妊婦や子供などへの注意喚起により
ハイリスクグループへの曝露を減ら
せるのでは？
市場への流通を止める
と自家消費により曝露
が増えるかも？

昔の私の「もやもや」
97
 頭の中の"因果モデル"と「介入効果推定」の関係性は？
頭の中の"因果モデル" （政策的対応を念頭においた）
介入効果推定
do(市場=
流通禁止）
do(市場=
流通あり）
市民の
健康
市民の
健康
ここの差分
＝介入効果

98
介入効果推定
do(市場=
流通禁止）
do(市場=
流通あり）
市民の
健康
市民の
健康
ここの差分
＝介入効果
どちらかに思考のピントが合っているとき、もう一方はぼやけてしまう

99
介入効果推定
do(市場=
流通禁止）
do(市場=
流通あり）
市民の
健康
市民の
健康
ここの差分
＝介入効果
どちらかに思考のピントが合っているとき、もう一方はぼやけてしまう

100
 両者にピントを合わせて思考できるようになってきた
頭の中の"因果モデル" （政策的規制措置等を念頭においた）
介入効果推定
do(市場=
流通禁止）
do(市場=
流通あり）
市民の
健康
市民の
健康
ここの差分
＝介入効果
両者の関係が見えるぞ・・・！

101
バックドア基準
構造的因果モデル
そのときふと
自分の足元を
見てみてみると・・

102
頭の中の"因果モデル" （政策的規制措置等を念頭においた）
介入効果推定
do(市場=
流通禁止）
do(市場=
流通あり）
市民の
健康
市民の
健康
ここの差分
＝介入効果
バックドア基準が分かると両者の関係の感覚がつかめてくる

103
因果
モデル
介入効果
推定
深化
• 研究テーマ全体の中での「介入効果推定」の位置づけがより明確になる
• 介入効果の中長期的な「波及効果」についても考えやすくなる
• 介入効果推定の検討過程から「足りない点＝いま重要な研究テーマ」が
見えてくることもある
• 一般化可能性についての議論も深まりやすくなる（一般化可能性は生成
メカニズムの安定性や類似性にも依存するため）
• 因果モデルの解像度が上がるほど考慮すべき変数の抜け漏れが減る／調
査努力量を減らせる
• 利害関係者（共同研究者、市民、行政等）とのコミュニケーションも捗る
＊ただし、全てひっくるめて「分野やテーマに依る話」でもあります＊

ただし：「ピントが合う」≠「問題が解決する」
104
 ピントが合うことにより「アラ」に気づくことの方が多いかも
著者らがバックドア基準を知っていたら
ネガティブリザルトの解析結果のため論文
にならなかなったかもしれない
 「耳の痛い助言を言ってくれる存在」としてのバックドア基準
• 「間違えると生物が絶滅する／人が死ぬ」という立場の人（リスク研
究者等）にとっては耳の痛い助言はありがたい
• ただ論文をガシガシ書きたいという人には？
公共政策の近傍で働く研究者として、「査読をパスする」という「業界の内輪のルール」
の外部にある「基準」の存在とその尊重は非常に重要であると林は考えています
因果推論の「可能性」より「不可能性」の
ほうがより見えるようになるかも
例えば先ほどの例では：
だいたいの人は
この中間のどこか
と思われる

参考|Elwert and Winship (2014) in Annu. Rev. Sociol.
105
・合流点バイアスについての総説
・社会学の研究において「因果の絵を
描くこと」の意義が垣間見える

参考|Morgan and Winship (2015)
106
・社会学を念頭においた因果推論の教科書
・介入効果の推定とメカニズム的議論による
説明や理解の両者を重視する立場から
書かれている（例えば、本書p40参照）

本日のまとめとメッセージ
107
 バックドア基準は本当は難しくない
分岐点・合流点・中間点がもつ各性質に留意しつつ：
(1)バックドアパスはブロック
(2)X→Yの道はブロックしない
 バックドア基準が分かると、"因果モデル"と
「介入効果推定」の関係性が見えてくる
・至近的には変数選択の役にたつ
・中長期的には実質科学における「因果モデルの解像度の
向上」と政策立案等のための「介入効果推定の信頼性の
向上」の間の好循環の形成が期待できる
＊ただし分野とテーマに依る＊

108
1. 前置き

補遺：バックドア基準と多重線形性の関係の説明
109
すみません。ここから先の議論ではサンプルベース
の議論とパラメータベースの議論が未整理になって
いるところが多々あります。
後日、その辺りもきちんと整理した文章を用意する予
定ですので、現段階ではその点はどうかご容赦くださ
い。

110
ステップ１：まず２変量（X, Y）の場合を考える
𝑦 = 𝛽𝑥 + 𝛾
単回帰モデルの回帰係数βは
単純化のためデータが標準化
されている場合を考える
単回帰係数は
相関係数に等しい

111
ステップ２：３変量（X, Y, Z）の場合を考える
𝑦 = 𝛽 𝑥 𝑥 + 𝛽𝑧 𝑧 + γ
重回帰モデルの回帰係数βxは
単純化のためデータが標準化
されている場合を考えると
𝛽 𝑥 =
𝑟𝑧 𝑧 𝑟𝑥 𝑦 − 𝑟𝑥 𝑧 𝑟𝑧 𝑦
𝑟𝑧𝑧 𝑟𝑥𝑥 − 𝑟𝑥𝑧 𝑟𝑥𝑧
分母に行列式が
出て来るのがポイント

112
ステップ3：３変量の偏回帰係数βxとβの比較
重回帰モデルの回帰係数βxは同じデータをxで単回帰すると
本来はZを含まねばならぬときには
↓の式が正解

113
↓の式が正解

114
ずれる本来はZを含まねばならぬときには
↓の式が正解
いわゆる"交絡"に
よるバイアス
この項が
欠落

115
ずれる
xとzの相関が1に近いときに
誤差により母数の推定が不安定になる
↓の式が正解
いわゆる"交絡"に
よるバイアス
この項が
欠落
いわゆる
"多重共線性"

116
ステップ4：バックドア基準で振り返る(その１)
Zを追加しなくともバックドア基準が満たされている場合
には偏回帰係数βxと単回帰係数βは等しいはずである
X
Y
Z

117
ステップ4：バックドア基準で振り返る(その１)
Zを追加しなくともバックドア基準が満たされている場合
には偏回帰係数βxと単回帰係数βは等しいはずである
X
Y
Z
ゼロ
ゼロ
この場合、交絡も多重共線性も生じない

118
ステップ4：バックドア基準で振り返る(その2)
X
Y
Z
Zを追加しなくともバック
ドア基準が満たされている

119
ステップ4：バックドア基準で振り返る(その2)
X
Y
Z
この場合、交絡は生じないが、因果構造の知識を利用せずにZを含めて
計算すると多重共線性の問題は生じうる
Zを追加しなくともバック
ドア基準が満たされている
"多重共線性"
の可能性
因果構造の
知識から

120
まとめ：変数の追加で偏回帰係数が揺れる理由
(2) xとzの相関が1に近い
（行列式が0に近い）
(1) x, z, yの相関によるバイアスの生滅
バックドア基準の守備範囲
いわゆる「多重共線性」の守備範囲
(3) サンプルサイズの有限性による誤差
「多重共線性」
という現象
サンプルサイズ無限大でも生じる
（相関が1でない限り）
サンプルサイズ無限大
では生じない
これ自体は符号
の向きを変えない！

121
まとめ：変数の追加で偏回帰係数が揺れる理由
交絡によるバイアスと多重共線性は「rxz」という"common
cause"を共有しているので現象面からは見分けがつきにくい
ただしここで見てきたように両者はメカニズム的には
別物であり、対処法も別物である
実務的には「銀の弾丸」は無いが、作業仮説的な因果構造の図を幾つか描いてみつつ、
共変量の出し入れによって偏回帰係数や信頼区間がとう変化するのかを検討すると
「何が起きているのか／何が起きていないのか」が分かってくることが多い
交絡の"原因"
多重共線性の"原因"

122
ご清聴いただきありがとうございました

『バックドア基準の入門』＠統数研研究集会

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

More from takehikoihayashi

More from takehikoihayashi (9)

『バックドア基準の入門』＠統数研研究集会