SlideShare a Scribd company logo
バックドア基準の入門とその使用例
林 岳彦
2017年2月17日(金)13:00-14:30 リスク解析戦略研究センター研究集会『因果推論の基礎』@統計数理研究所
1
国立環境研究所環境リスク・健康研究センター
建設性のある議論のために/
【後日配布版スライド】
バックドア基準の入門とその使用例
林 岳彦
2
国立環境研究所環境リスク・健康研究センター
建設性のある議論のために/
いちユーザー視点からの「実質科学上の意義」の話
バックドア基準自体の解説
林の現在進行形の研究の話
(ケーススタディとして)
2017年2月17日(金)13:00-14:30 リスク解析戦略研究センター研究集会『因果推論の基礎』@統計数理研究所
本日の話(もくじ)
3
I. 6ステップで説明するバックドア基準入門
III. いちユーザー視点からの「実質科学上の意義」
1. 前置き
2. バックドアパスをイメージしよう
3. まずは2変量(x,y)を考える
ネオニコチノイド系農薬のミツバチコロニーへの影響についての
既往研究論文(Budge et al. 2015)の再解析
4. 3変量(x,y,z)で見る基本的論理
5. 4変量以上の場合を見る
6. "まとめ"としてのバックドア基準
*個人の感想です。また、ものすごく「分野による」話です
II. 環境リスク分野でのバックドア基準の”使用”例
(時間が余れば):バックドア基準と多重線形性の関係の説明
本日の話(もくじ)
4
I. 6ステップで説明するバックドア基準入門
III. いちユーザー視点からの「実質科学上の意義」
1. 前置き
2. バックドアパスをイメージしよう
3. まずは2変量(x,y)を考える
ネオニコチノイド系農薬のミツバチコロニーへの影響についての
既往研究論文(Budge et al. 2015)の再解析
4. 3変量(x,y,z)で見る基本的論理
5. 4変量以上の場合を見る
6. "まとめ"としてのバックドア基準
*個人の感想です。また、ものすごく「分野による」話です
II. 環境リスク分野でのバックドア基準の”使用”例
(時間が余れば):バックドア基準と多重線形性の関係の説明
I. 6ステップで説明するバックドア基準入門
5
1. 前置き:交絡、内生性、バックドアパス
2. バックドアパスをざっくりとイメージしよう
3. まずは2変量(X,Y)から考える
4. 3変量(X,Y,Z)で理解する基本的ロジック
5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目
6. "まとめ"としてのバックドア基準
+フォローアップ:事例と補遺
ステップ1| 前置き:交絡、内生性、バックドアパス
6
 散布図上の相関関係からの素朴な予測や期待と
因果効果(介入効果)がズレることがある
『X→Yの介入効果』=
Xを1単位量分だけ介入により変化させたときの、
Yの平均的な変化量
【本日の話の中での定義】
ステップ1| 前置き:交絡、内生性、バックドアパス
7
 散布図上の相関関係からの素朴な予測や期待と
因果効果(介入効果)がズレることがある
1年間でゲームに費やした時間
1
年
間
で
の
身
長
の
伸
び
ゲームすれば
背が伸びる!
中学二年生に対する調査データ(仮想のもの)
p < 0.001
ステップ1| 前置き:交絡、内生性、バックドアパス
8
 散布図上の相関関係からの素朴な予測や期待と
因果効果(介入効果)がズレることがある
1年間でゲームに費やした時間
1
年
間
で
の
身
長
の
伸
び
ゲームすれば
背が伸びる!
中学二年生に対する調査データ(仮想のもの)
p < 0.001
女子
男子
身長 ゲーム
性別
ステップ1| 前置き:交絡、内生性、バックドアパス
9
 散布図上の相関関係からの素朴な予測や期待と
因果効果(介入効果)がズレることがある
内生性のせい!
一歩込み入った議論をする際に判断に迷うことがある
なぜズレるの?
交絡のせい!
本日の
目標
「バックドアパスが開いているせい」
「バックドア基準が満たされていないせい」
という説明を理解する
ステップ1| 前置き:交絡、内生性、バックドアパス
10
 「バックドアパス」を軸とした因果推論法の整理例
Morgan and Winship (2015)
『Counterfactuals and Causal
Inference: Methods and Principles
for Social Research』
(2nd ed.)
潜在反応モデルと構造的因果モデルの両者を
わりとシームレスに解説しつつ実質科学的な
目配せも効いた好著
(だと思う/読んだ範囲では)
ステップ1| 前置き:交絡、内生性、バックドアパス
11
 Morgan and Winship (2015)での統計的因果推論手法の整理
[第III章]
観測された変数で条件付けして
バックドアパスをブロックでき
るときの因果効果の推定法
[第IV章]
バックドアパスの条件付けが
ineffectiveなときの因果効果の
推定法
マッチング
回帰による推定
重み付け回帰による推定
バックドアパスを条件付けするとは
どういうことか(バックドア基準)
バックドアパスの条件付けが
ineffectiveとはどういうことか
操作変数法
メカニズムと因果的説明
繰り返し観測
つまり、バックドアパスを閉められそうか否かで
因果推定における解析の大方針が決まる
III.1
III.2
III.3
III.4
IV.1
IV.2
IV.3
IV.4
傾向スコア
Doubly-Robust
フロントドア基準
回帰分断デザイン
自己選択
I. 6ステップで説明するバックドア基準入門
12
1. 前置き:交絡、内生性、バックドアパス
2. バックドアパスをざっくりとイメージしよう
3. まずは2変量(X,Y)から考える
4. 3変量(X,Y,Z)で理解する基本的ロジック
5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目
6. "まとめ"としてのバックドア基準
+フォローアップ:事例と補遺
ステップ2 | 「バックドアパス」をざっくりイメージ
13
 因果構造を丘にある「人工池」でイメージする
迂遠かもしれませんが、因果の「流れ」のアナロジーと
して有効だと思うので少々お付き合いいただければ・・
X
Y
*降雨の影響などは考えない
本講演を通して
X: 処理
Y: 結果
Z: 共変量
で表記します
*
Y=βX+γ+ε
人工池
人工池
水路
ステップ2 | 「バックドアパス」をざっくりイメージ
14
 超ざっくり言うと「バックドアパス」とは『処理Xと
結果Yの上流側にある両者に影響を与える流れ 』
X
Y
Z1
Z2
(X→Yの)
バックドアパス
上流側にある「Z1」に
インクをぶちまけると
XにもYにも到達する
(=両者に影響を与える)
*非常に細かい補足:ここで「結果Yに影響する流れ」を考えるときには、「処理Xを経由するYへの流れ」
については除外する(例:次ページのZ1についてはYに影響する流れをもたないものと考える)
*
ステップ2 | 「バックドアパス」をざっくりイメージ
15
 超ざっくり言うと「バックドアパス」とは『処理Xと
結果Yの上流側にある両者に影響を与える流れ 』
X
Y
Z1
Z2
(X→Yの)
バックドアパス
ではない
上流側にある「Z1」に
インクをぶちまけても
Xにしか到達しない
(=両者には影響を与えない)
*非常に細かい補足:ここで「結果Yに影響する流れ」を考えるときには、「処理Xを経由するYへの流れ」
については除外する。つまり、本ページのZ1からはYに影響する流れはないものと考える
*
ステップ2 | 「バックドアパス」をざっくりイメージ
16
 超ざっくり言うと「バックドアパス」とは『処理Xと
結果Yの上流側にある両者に影響を与える流れ』
X
Y
Z1
Z2
(X→Yの)
バックドアパス
ではない
上流側にある「Z1」に
インクをぶちまけても
Yにしか到達しない
(=両者には影響を与えない)
ステップ2 | 「バックドアパス」をざっくりイメージ
17
 超ざっくり言うと「バックドアパス」とは『処理Xと
結果Yの上流側にある両者に影響を与える流れ』
ステップ3からもう少し丁寧に説明していきます
X
Y
Z1
Z2
これをブロックする
/閉じることが重要
(X→Yの)
バックドアパス
上流側にある「Z1」に
インクをぶちまけると
XにもYにも到達する
(=両者に影響を与える)
I. 6ステップで説明するバックドア基準入門
18
1. 前置き:交絡、内生性、バックドアパス
2. バックドアパスをざっくりとイメージしよう
3. まずは2変量(X,Y)から考える
4. 3変量(X,Y,Z)で理解する基本的ロジック
5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目
6. "まとめ"としてのバックドア基準
+フォローアップ:事例と補遺
ステップ3 | まずは2変量(X,Y)から考える
19
 説明の単純化のため線形方程式を考えます
X
YX
Y
Y=βX+γ+ε
さて、このβは介入によりXを1単位量増やしたときの
Yの増分(『X→Yの介入効果』)に相当するだろうか?
ステップ3 | まずは2変量(X,Y)から考える
20
 説明の単純化のため線形方程式を考えます
X
YX
Y
Y=βX+γ+ε
さて、このβは介入によりXを1単位量増やしたときの
Yの増分(『X→Yの介入効果』)に相当するだろうか?
XがYの上流のとき、β=「X→Yの介入効果」
ステップ3 | まずは2変量(X,Y)から考える
21
 説明の単純化のため線形方程式を考えます
X
Y
YがXの上流のとき、β≠「X→Yの介入効果」
介入効果は背景にある因果構造(生成メカニズム)に依存する
Y
X
Y=βX+γ+ε
2変量の場合は
『因果の向き』
I. 6ステップで説明するバックドア基準入門
22
1. 前置き:交絡、内生性、バックドアパス
2. バックドアパスをざっくりとイメージしよう
3. まずは2変量(X,Y)から考える
4. 3変量(X,Y,Z)で理解する基本的ロジック
5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目
6. "まとめ"としてのバックドア基準
+フォローアップ:事例と補遺
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
23
 共変量 Z とのつながり方の重要3パターン
X
Y
Z
(1)Zが分岐点
X
Y
Z
(2)Zが合流点
X
Z
Y
(3)Zが中間点
『分岐経路』 『合流経路』 『連鎖経路』
Zをモデルに追加することの「意味」がパターンにより異なる
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
24
 (1)「Zが分岐点の場合」について考える
X
Y
Z
X
Y
Zの変動によりX-Y間
に"シンクロ"が生じる
Zが大
Zが小
(X→Yの)
バックドアパス
バックドアパスがあるとき、上流側の共通要因の変動によって
XとYのあいだに(非因果的な/介入効果と関係ない)シンクロが生じる
このシンクロがX→Yの介入効果の推定にバイアスをもたらす
非因果的
連関
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
25
 ちなみに「Zが分岐点でない場合」は(例1)
X
Y
Z
X
Y
Zの変動はX-Y間の
"シンクロ"を生み出さない
Zが大
Zが小
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
26
 ちなみに「Zが分岐点でない場合」は(例2)
X
Y
Z
X
Y
Zの変動はX-Y間の
"シンクロ"を生み出さない
Zが大
Zが小
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
27
 では、この"シンクロ"を止めるにはどうすれば?
X
Y
Z
X
Y
Zを"固定"すればよい!
Zが固定されれば"シンクロ"も消える
Zで層別化して解析する
重回帰分析の共変量としてZをモデルに追加する
"固定"=
条件付け
(conditioning)
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
28
 Zで層別化して解析する(X:ゲーム, Y:身長, Z:性別)
「男子」「女子」別々に
X→Yの効果を計算して
集計する
ゲーム時間
身
長
の
伸
び
Z:性別
X:ゲーム
時間
Y:身長
Zで層別化して解析することにより"シンクロ"の影響を消せる
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
29
 Zを重回帰モデルに加える(X:ゲーム, Y:身長, Z:性別)
Z:性別
X:ゲーム
時間
Y:身長
*今後、切片と誤差項は表記の単純化のため省略します
身長 = β ゲーム時間+γ性別
"性別"がモデルに
追加されているとき
"ゲーム時間"の偏回帰係数は,
「"性別"を固定したときの
"ゲーム時間"が1単位変化したときの
"身長"の変化量」を意味する
Zが分岐点のとき、Zを加えた重回帰モデルにおける
Xの偏回帰係数の値はX→Yの介入効果として素直に解釈してよい!
一般化すると、すなわち
X, Y, Zの3変量のケースにおいて:
"シンクロ"
を遮断
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
30
 ちなみに「Zを重回帰モデルに加えない」と
Z:性別
X:ゲーム
時間
Y:身長
*今後、切片と誤差項は表記の単純化のため省略します
身長 = β ゲーム時間
"性別"を特に固定しないときの
"ゲーム時間"が1単位変化したときの
"身長"の変化量
Zが分岐点のとき、Zを加えない回帰モデルにおける
Xの回帰係数は"シンクロ込み"の分だけバイアスがかかる
Zの変動によるシンクロの
影響が加味される
X, Y, Zの3変量のケースにおいて:
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
31
 バックドアパスを「閉じる/ブロックする」とは
バックドアパスが
"開いている"
バックドアパスが
"閉まっている"
X
Y
Z
(X→Yの)
バックドアパス
分岐点Zを重回帰モデルに
加えない場合
分岐点Zを重回帰モデルに
加えた場合
シンクロの
原因となる
"水の流れ"が
遮断される
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
32
 バックドアパスを「閉じる/ブロックする」とは
X
Y
Z
(X→Yの)
バックドアパス
分岐点Zを重回帰モデルに
加えない場合
分岐点Zを重回帰モデルに
加えた場合
3変量における小まとめ(その1):
「Zが分岐点のときはモデルに加えるべし」
シンクロの
原因となる
"水の流れ"が
遮断される
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
33
 (2)「Zが合流点の場合」について考える
X
Y
Z
X
Y
Zを"固定"しなければ、何の問題も生じない
Xの回帰係数をX→Yの介入効果として素直に解釈してよい
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
34
 合流点Zを"固定"するとどうなるのか?
学力試験
実
技
試
験
Z:合否
Y:実技
試験
X:学力
試験
美大の入学試験における仮想例
100
100
*学力試験と実技試験の
合計点によって
試験の「合否」が決まる
*実技試験と学力試験の間には
因果的関係は無い
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
35
 合流点Zを"固定"するとどうなるのか?
実
技
試
験
Z:合否
Y:実技
試験
美大の入学試験における仮想例
合否Zで層別化すると、XとYの間に非因果的な連関が生じ、
層別解析の結果はX→Yの介入効果とズレる
合格者 Z=1
不合格者 Z=0
(重回帰分析でZをモデルに追加しても本質的に同様なことが起こる)
X:学力
試験
100
100
学力試験
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
 ルール:合流点を固定すると"親"の間に双方向パスが開く
バックドアパスが
"閉まったまま"
合流点Zを重回帰モデルに
加えない場合
X
Y
Z
バックドアパスが
"開いてしまった"
合流点Zを重回帰モデルに
加えた場合
X
Y
Z
(X→Yの)
バックドアパス
子
親
親
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
 ルール:合流点を固定すると"親"の間に双方向パスが開く
合流点Zを重回帰モデルに
加えない場合
X
Y
Z
合流点Zを重回帰モデルに
加えた場合
X
Y
Z
(X→Yの)
バックドアパス
3変量における小まとめ(その2):
「Zが合流点のときはモデルに加えてはいけない」
子
親
親
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
38
 (3)「Zが中間点の場合」について考える
Z
Y
X
X
Y
Zを"固定"しなければ、何の問題も生じない
Xの回帰係数をX→Yの介入効果として素直に解釈してよい
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
39
 中間点Zを"固定"するとどうなるのか?
在来種Aを護るための
外来種Bの駆除の効果(仮想例)
Z:外来種B
の根絶
Y:在来種A
の個体数
X:外来種B
の駆除努力
外来種Bの駆除努力
在
来
種
A
の
個
体
数
*「外来種Bの駆除努力」は
「外来種Bの根絶」を通して
「在来種Aの個体数」に影響を与える
*「外来種Bの駆除努力」と
「在来種Aの個体数」の間には
因果的関係がある
アメリカザリガニとか
在来ザリガニとか
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
40
 中間点Zを"固定"するとどうなるのか?
根絶Zで層別化すると、Xからの「因果効果」自体がブロッ
クされてしまい、X→Yの介入効果とズレる ("overconditioning")
(重回帰分析でZをモデルに追加しても本質的に同様なことが起こる)
在来種Aを護るための
外来種Bの駆除の効果(仮想例)
Z:外来種B
の根絶
Y:在来種A
の個体数
X:外来種B
の駆除努力
外来種Bの駆除努力
在
来
種
A
の
個
体
数
種Bの根絶に成功(Z=1)
種Bの根絶に失敗(Z=0)
アメリカザリガニとか
在来ザリガニとか
ステップ4|3変量(X,Y,Z)で理解する基本的なロジック
41
 3変量(X,Y,Z)の場合の総まとめ
*上記のまとめは、 4変量以上の場合には
あくまで"rule-of-thumb"である
Zを加えよ Zを加えるな
I. 6ステップで説明するバックドア基準入門
42
1. 前置き:交絡、内生性、バックドアパス
2. バックドアパスをざっくりとイメージしよう
3. まずは2変量(X,Y)から考える
4. 3変量(X,Y,Z)で理解する基本的ロジック
5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目
6. "まとめ"としてのバックドア基準
+フォローアップ:事例と補遺
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
43
 4変量以上だと「道」を考える必要が出て来る
X
Y
Z1
Z2
もし、処理Xと結果Yの「両者の共通
原因」を”交絡要因”と呼ぶ場合
Z2は”交絡要因”かつ分岐点
Z1は”交絡要因”と呼ばれない
必ずモデルに追加すべき?
モデルに追加しなくてよい?
common cause
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
44
 4変量以上だと「道」を考える必要が出て来る
X
Y
Z1
Z2
(X→Yの)
バックドアパス
X
Y
Z2
Z1
バックドアパス
はブロック
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
45
 4変量以上だと「道」を考える必要が出て来る
どの場合もバックドアパスはブロックされている
*どのケースもXとYの"シンクロ"の原因となりうる上流側の流れが遮断されている
X
Y
Z2
Z1 X
Y
X
Y
Z1
Z2 Z2
Z1
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
46
 4変量以上だと「道」を考える必要が出て来る(再掲)
X
Y
Z1
Z2 もし、処理Xと結果Yの「両者の共通
原因」を「交絡要因」と呼ぶ場合
必ずモデルに追加すべき?
モデルに追加しなくてよい?
全体として"道"がブロックされていることが肝要
(X→Yの)
バックドアパス
Z2は”交絡要因”かつ分岐点
Z1は”交絡要因”と呼ばれない
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
47
 4変量以上で「道」を考える:合流点の例
X Y
Z2
Z3
Z1
Z3は合流点
絶対にモデルに追加
したらダメ?
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
48
 4変量以上で「道」を考える:合流点の例
Z1
X
Z2
Y
Z3
Z1
X Y
Z3
X
Z2
Y
Z3
全体として"道"がブロックされていることが肝要
絶対にモデルに追加したらダメ?
(X→Yの)
バックドアパス
Z1Z2
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
49
 (マニア向け補足)4変量以上の合流点について
X
Y
Z1
子
親
親
Z2
孫
X
Y
Z1
子
親
親
Z2
孫
X
Y
Z1
親
親
Z2
孫
子
合流点の子孫を固定しても合流点の親に双方向パスがつく
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
50
 4変量以上で「道」を考える:中間点の場合
X
Y
Z2
Z1
Z1, Z2は中間点
絶対にモデルに追加
したらダメ?
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
51
 4変量以上で「道」を考える:中間点の場合
X
Y
Z2
Z1
Z1, Z2は中間点
絶対にモデルに追加
したらダメ?
中間点を入れるとXからの
因果効果自体が
ブロックされてしまう
(これは3変量の場合と同様)
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
52
 4変量以上で「道」を考える:中間点の場合
X
Y
Z1
Z2
全体としてX→Yの因果の"道"がブロックされないことが肝要
X
Y
X
Y
Z2
Z1 Z1
Z2
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
53
 4変量以上のまとめ
X
Y
Z2
Z1 X
Y
X
Y
Z1
Z2 Z2
Z1
X
Y
Z1
Z2
X
Y
X
Y
Z2
Z1 Z1
Z2
バックドアパスを
ブロックしろ
X→Yの道を
ブロックするな
もうほとんどバックドア基準ものすごい細かい論点をのぞけば
I. 6ステップで説明するバックドア基準入門
54
1. 前置き:交絡、内生性、バックドアパス
2. バックドアパスをざっくりとイメージしよう
3. まずは2変量(X,Y)から考える
4. 3変量(X,Y,Z)で理解する基本的ロジック
5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目
6. "まとめ"としてのバックドア基準
+フォローアップ:事例と補遺
ステップ6 | "まとめ"としてのバックドア基準
55
 「バックドア基準」を解読してみよう
宮川雅巳(2004)『統計的因果推論 --- 回帰分析の新しい枠組み』 p82より引用
ステップ6 | "まとめ"としてのバックドア基準
56
 「バックドア基準」を解読してみよう
因果ダイアグラムGにおいて、XからYへと有向道があるとする。こ
のとき、次の2つの条件を満たす頂点集合Sは、(X, Y)について
バックドア基準を満たすという
(1) XからSの任意の要素に有向道がない
(2) 因果ダイアグラムGよりXから出る矢線を除いたグラフに
おいて、SがXとYを有向分離する
宮川雅巳(2004)『統計的因果推論 --- 回帰分析の新しい枠組み』 p82より引用
ステップ6 | "まとめ"としてのバックドア基準
57
 「バックドア基準」を解読してみよう
因果ダイアグラムGにおいて、XからYへと有向道があるとする。こ
のとき、次の2つの条件を満たす頂点集合Sは、(X, Y)について
バックドア基準を満たすという
(1) XからSの任意の要素に有向道がない
(2) 因果ダイアグラムGよりXから出る矢線を除いたグラフに
おいて、SがXとYを有向分離する
宮川雅巳(2004)『統計的因果推論 --- 回帰分析の新しい枠組み』 p82より引用
YがXの下流にある
Xの下流の変数をモデルに加えてはいけない
バックドアパスがブロックされている
中間変数と下流の合流点
がここで除外される
ステップ6 | "まとめ"としてのバックドア基準
58
 「バックドア基準」の"カジュアル言い換え"版
林・黒木(2016)『相関と因果と丸と矢印のはなし』 p44より引用
ステップ6 | "まとめ"としてのバックドア基準
59
 「バックドア基準」の"カジュアル言い換え"版
丸と矢印で書かれた因果構造において、Xから下流側に矢印をた
どったときにYにつながる経路があるとする。X→Yの介入効果の推
定において、次の2つの条件を満たす「モデルに追加した説明変数
の組」は、バックドア基準を満たすという。
(1) 追加した説明変数はXの下流側にない
(2) Xから出る矢印を除いたときの因果構造において、追加し
た「説明変数の組」により、(XとYの)上流側の共通要因から
のXとYの両方に影響を与える流れがすべて遮断されている
林・黒木(2016)『相関と因果と丸と矢印のはなし』 p44より引用
ステップ6 | "まとめ"としてのバックドア基準
60
 「バックドア基準」の"カジュアル言い換え"版
丸と矢印で書かれた因果構造において、Xから下流側に矢印をた
どったときにYにつながる経路があるとする。X→Yの介入効果の推
定において、次の2つの条件を満たす「モデルに追加した説明変数
の組」は、バックドア基準を満たすという。
(1) 追加した説明変数はXの下流側にない
(2) Xから出る矢印を除いたときの因果構造において、追加し
た「説明変数の組」により、(XとYの)上流側の共通要因から
のXとYの両方に影響を与える流れがすべて遮断されている
林・黒木(2016)『相関と因果と丸と矢印のはなし』 p44より引用
バックドアパスがブロックされている
ステップ5 | 4変量(X,Y,Z1,Z2...)以上の場合を考える
61
 4変量以上のまとめ(再掲)
X
Y
Z2
Z1 X
Y
X
Y
Z1
Z2 Z2
Z1
X
Y
Z1
Z2
X
Y
X
Y
Z2
Z1 Z1
Z2
バックドアパスを
ブロックしろ
X→Yの道を
ブロックするな
もうほとんどバックドア基準ものすごい細かい論点をのぞけば
条件(1)に対応条件(2)に対応
ステップ6 | "まとめ"としてのバックドア基準
62
 で、バックドア基準を満たすとき・・どうなの?
例えば、重回帰モデルの場合
モデルに追加された説明変数の組が「X→Y」についてバック
ドア基準を満たすとき、重回帰分析から得られたXの偏回帰係
数をそのまま「X→Yの介入効果」とみなせる
(Xの偏回帰係数がX→Yの介入効果についてのバイアスのない推定量となる)
例えば、「シンプソンのパラドックス」(ここでは、どの変数で層別化す
るかによって推定結果が変るケースの意味で用いる)が生じている場合
興味の対象となる「処理X→結果Y」についてバックドア基準
を満たす変数で層別化して解析すれば「X→Yの介入効果」を
バイアスなく推定できる
I. 6ステップで説明するバックドア基準入門
63
1. 前置き:交絡、内生性、バックドアパス
2. バックドアパスをざっくりとイメージしよう
3. まずは2変量(X,Y)から考える
4. 3変量(X,Y,Z)で理解する基本的ロジック
5. 4変量以上(X,Y,Z1,Z2...)では「道」に着目
6. "まとめ"としてのバックドア基準
+フォローアップ:例題と補遺
例題その1| どの変数を加えれば良いのか?
64
X
Y
Z1
Z2
Z3
バックドアパスの見極めに迷ったら、もし「その人工池にインクを
ぶちまけたらどうなるか」を考えてみよう!
例題その1| どの変数を加えれば良いのか?
65
X
Y
Z1
Z2
Z3
バックドアパスの見極めに迷ったら、もし「その人工池にインクを
ぶちまけたらどうなるか」を考えてみよう!
Z1にインクをぶちまけると
XとYの両方にインクは到達する
例題その1| どの変数を加えれば良いのか?
66
X
Y
Z1
Z2
Z3
バックドアパスの見極めに迷ったら、もし「その人工池にインクを
ぶちまけたらどうなるか」を考えてみよう!
Z2にインクを
ぶちまけると
XとYの両方に
インクは到達する
例題その1| どの変数を加えれば良いのか?
67
X
Y
Z1
Z2
Z3
バックドアパスの見極めに迷ったら、もし「その人工池にインクを
ぶちまけたらどうなるか」を考えてみよう!
Z2からは
こういう
経路もある
例題その1| どの変数を加えれば良いのか?
68
X
Y
Z1
Z2
Z3
バックドアパスの見極めに迷ったら、もし「その人工池にインクを
ぶちまけたらどうなるか」を考えてみよう!
全部で3つの
バックドアパス
がある
例題その1| どの変数を加えれば良いのか?
69
X
Y
Z3
Z2
Z1
バックドア基準を満たす最小の変数セットは「Z1, Z2」
*「Z1, Z2, Z3」もバックドア基準を満たします
Z1, Z2をブロックすると3つの
バックドアパスが全て遮断される
例題その2| どの変数を加えれば良いのか?
70
X
Y
Z1
Z4
Z3
Z2
Z5
Z6
例題その2| どの変数を加えれば良いのか?
71
X
Y
Z1
Z4
Z3
Z2
Z5
Z6
Z1にインクをぶちまけると
XとYの両方にインクは到達する
例題その2| どの変数を加えれば良いのか?
72
X
Y
Z1
Z4
Z3
Z2
Z5
Z6
Z2にインクをぶちまけると
XとYの両方にインクは到達する
*Z3にインクを
ぶちまけても
XとYのどちらか片方にしか
インクは到達しない
例題その2| どの変数を加えれば良いのか?
73
X
Y
Z1
Z4
Z3
Z2
Z5
Z6
全部で2つの
バックドアパスがある
例題その2| どの変数を加えれば良いのか?
74
X
Y
Z4
Z3
Z2
Z5
Z6
Z1
バックドア基準を
満たす最小の
変数セットは「Z1」
*ここでZ5, Z6を入れると
新たなバックドアパスが
開いてしまう
*Z4はそもそも
中間点なので入れてはダメ
Z1をブロックすると2つの
バックドアパスが全て遮断される
例題その3| どの変数を加えれば良いのか?
75
X
Y
Z1
Z2
この部分の
因果構造は不明
Xへの道は必ず
Z1かZ2を経ることは
知られている
例題その3| どの変数を加えれば良いのか?
76
X
Y
Z1
Z2
この部分の
因果構造は不明
バックドアパスが
ある場合、必ず
Z1, Z2のどちらかを通る
例題その3| どの変数を加えれば良いのか?
77
X
Z1
Z2
この部分の
因果構造は不明
Y
「Z1, Z2」を加えれば少なくともバックドア基準を満たす
Z1, Z2をブロックすれば
バックドアパスは
遮断される
例題その3| どの変数を加えれば良いのか?
78
 構造の全てを知る必要は全くない:路線図の喩え
TX公式HP http://www.mir.co.jp/route_map/e-book/#page=1より引用
つくば
立
川
守谷駅さえ封鎖すれば林は
(電車では)家に帰れない
*首都圏の路線図*
例題その3| どの変数を加えれば良いのか?
79
 構造の全てを知る必要は全くない:路線図の喩え
つくば
駅
立川駅
守谷
駅
東京の
極度に
複雑な
鉄道網
必要なのは
「守谷の先は一本線」
という"背景知識"のみ
ポイントとなる部分の適切な粒度の背景知識があればよい
TX
例題その3| どの変数を加えれば良いのか?
80
X
Z1
Z2
この部分の
因果構造は不明
Y
ポイントとなる部分の適切な粒度の背景知識があればよい
Z1, Z2をブロックすれば
バックドアパスは
遮断される
補遺的議論 I|バックドア基準が考えていないもの
81
 (基本的に)巡回的な因果構造の場合は考えていない
 サンプルによる偶然誤差は考えていない
(興味の中心は一致推定=サンプルサイズ無限大のときのバイアスの有無)
ただし推定におけるバイアスと精度の関係を理解する上でも
一致推定量となる条件(バックドア基準)の理解自体は重要
例:交絡によるバイアスと多重共線性の関係
(後に補遺として説明)
場合によっては推定の精度(バリアンス)を重視
する場合もあることを別に否定するものではない
(あくまで一般論としては、バイアスの方が御しがたいケースが多いと思いますが)
信頼区間がめちゃくちゃ大きいときに小さなバイアスを苦心して除去
したところであまり意味はない
大きなバイアスがあると分かっているときに信頼区間を苦心して狭め
たところであまり意味はない
普通に、要はバランスである
補遺的議論 II | バックドア基準の理論的含意
82
 介入効果の推定が目的のとき、どの変数を選択する
べきかは「データ生成メカニズム」における要因間
の因果の繋がり方によって規定される
言うまでもなく、「データ生成メカニズム」はサンプル
サイズに依存して変化するようなものではない!
AICやBICのような、ベストモデルがサンプルサイズに
依存して変化するようなモデル選択のロジックとは
本質的に論理の筋道の異なる話である
介入効果推定が目的のはずなのに、AICによるモデル選択で話が
終始している解析を見かけることがあるが、その理論的根拠は乏しい
(AICそのものが悪いわけではなく、適用のTPOの問題)
しかるに
補遺的議論 III| ブロック手法としての傾向スコア
83
 傾向スコアはバックドアパスをブロックする"合成変数"
(たまに誤解されていることがあるが)
バックドア基準と傾向スコアは対立的なものでは全くない!
バックドア基準は介入効果についてのバイアスの無い
推定(一致推定)が可能となる「基準/条件」を示す
傾向スコアは「バックドア基準の条件2を満たす
(バックドアパスをブロックする)」ための強力な手法
ステップ1| 前置き:交絡、内生性、バックドアパス
84
 Morgan and Winship (2015)での統計的因果推論手法の整理(再掲)
[第III章]
観測された変数で条件付けして
バックドアパスをブロックでき
るときの因果効果の推定法
[第IV章]
バックドアパスの条件付けが
ineffectiveなときの因果効果の
推定法
マッチング
回帰による推定
重み付け回帰による推定
バックドアパスを条件付けするとは
どういうことか(バックドア基準)
バックドアパスの条件付けが
ineffectiveとはどういうことか
操作変数法
メカニズムと因果的説明
繰り返し観測
つまり、バックドアパスを閉められそうか否かで
因果推定における解析の大方針が決まる
III.1
III.2
III.3
III.4
IV.1
IV.2
IV.3
IV.4
傾向スコア
Doubly-Robust
フロントドア基準
回帰分断デザイン
自己選択
補遺的議論 III| ブロック手法としての傾向スコア
85
X Y
 傾向スコアはバックドアパスをブロックする"合成変数"
Z1Z3 Z2Z5Z6 Z4
So many
バックドアパス
補遺的議論 III| ブロック手法としての傾向スコア
86
X Y
Z1Z3 Z2Z5Z6 Z4
e
傾向スコアで
まとめてブロック
 傾向スコアはバックドアパスをブロックする"合成変数"
補遺的議論 III| ブロック手法としての傾向スコア
87
 傾向スコアはバックドアパスをブロックする"合成変数"
X Y
Z1Z3 Z2Z5Z6 Z4
e
層別化における
次元の呪いの回避
回帰分析における
モデルの誤設定の回避
興味のある推定と無い推定部分の
分離(Overfittingの問題を傾向スコアの導
出部分に押し込める等々)
処理Xが連続変数の
ケースには向かない
偶然による交絡起因の
影響も補正可能
真の傾向スコアよりも傾向スコアの推定値の方が
バランシングの能力が高い!
(参照:Morgan and Winship 2015 前掲書, p152)
もちろん共変量は連続でも良い
+アルファの性質
共変量のバランシングから
妥当性をチェックできる
補遺的議論 IV|バックドア基準を満たすときのみ?
88
 バックドア基準を満たさなくともバイアスなく推定
できる場合ももちろんある
X
Y Z1
 その他、「フロントドア基準」など
モデルへの「Z1」の追加はバックドア基準
を満たさないが、バイアスの原因にもなら
ないので一致推定上は問題ない
(まあでも追加することの積極的な意味もおそらくないけれど)
単純な例
ステップ1| 前置き:交絡、内生性、バックドアパス
89
 Morgan and Winship (2015)での統計的因果推論手法の整理(再々掲)
[第III章]
観測された変数で条件付けして
バックドアパスをブロックでき
るときの因果効果の推定法
[第IV章]
バックドアパスの条件付けが
ineffectiveなときの因果効果の
推定法
マッチング
回帰による推定
重み付け回帰による推定
バックドアパスを条件付けするとは
どういうことか(バックドア基準)
バックドアパスの条件付けが
ineffectiveとはどういうことか
操作変数法
メカニズムと因果的説明
繰り返し観測
つまり、バックドアパスを閉められそうか否かで
因果推定における解析の大方針が決まる
III.1
III.2
III.3
III.4
IV.1
IV.2
IV.3
IV.4
傾向スコア
Doubly-Robust
フロントドア基準
回帰分断デザイン
自己選択
補遺的宣伝 | バックドア基準の解説原稿 (本日の元ネタ)
 2016年6月発売「岩波データサイエンスvol. 3」因果推論特集号
林岳彦・黒木学(2016)
I. バックドア基準入門 | まとめとメッセージ
 バックドア基準は本当は難しくないんです!
X
Y
Z2
Z1 X
Y
X
Y
Z1
Z2 Z2
Z1
X
Y
Z1
Z2
X
Y
X
Y
Z2
Z1 Z1
Z2
バックドアパスを
ブロックしろ
X→Yの道を
ブロックするな
基本的にはこの2つだけの話
分岐点・合流点・中間点がもつ各性質に留意しつつ
本日の話(もくじ)
92
I. 6ステップで説明するバックドア基準入門
III. いちユーザー視点からの「実質科学上の意義」
1. 前置き
2. バックドアパスをイメージしよう
3. まずは2変量(x,y)を考える
ネオニコチノイド系農薬のミツバチコロニーへの影響についての
既往研究論文(Budge et al. 2015)の再解析
4. 3変量(x,y,z)で見る基本的論理
5. 4変量以上の場合を見る
6. "まとめ"としてのバックドア基準
*個人の感想です。また、ものすごく「分野による」話です
II. 環境リスク分野でのバックドア基準の”使用”例
(時間が余れば):バックドア基準と多重線形性の関係の説明
II. 環境リスク分野でのバックドア基準の”使用”例
93
ネオニコチノイド系農薬のミツバチコロニーへの
影響についての既往研究論文の再解析
*本解析については現在進行中の研究であるため
配布資料からは割愛
本日の話(もくじ)
94
I. 6ステップで説明するバックドア基準入門
III. いちユーザー視点からの「実質科学上の意義」
1. 前置き
2. バックドアパスをイメージしよう
3. まずは2変量(x,y)を考える
ネオニコチノイド系農薬のミツバチコロニーへの影響についての
既往研究論文(Budge et al. 2015)の再解析
4. 3変量(x,y,z)で見る基本的論理
5. 4変量以上の場合を見る
6. "まとめ"としてのバックドア基準
*個人の感想です。また、ものすごく「分野による」話です
II. 環境リスク分野でのバックドア基準の”使用”例
(時間が余れば):バックドア基準と多重線形性の関係の説明
分野の紹介 |環境リスク研究者の「頭の中」
95
 リスク研究者の多くは頭の中に何らかの"因果モデル"をもつ
有機水銀
の生成
水産物
市民
市場
例:有機水銀汚染による健康リスクについての"頭の中”
工場での
生産過程
漁師
排水
海での
生物濃縮
海での
汚染蓄積
分野の紹介 |環境リスク研究者の「頭の中」
96
 リスク研究者の多くは頭の中に何らかの"因果モデル"をもつ
どこに介入しうるのか/介入したらどうなるのかについてのアイデアが
常に頭の中をぐるぐるしている
有機水銀
の生成
水産物
市民
市場
例:有機水銀汚染による健康リスクについての"頭の中”
工場での
生産過程
漁師
排水
海での
生物濃縮
海での
汚染蓄積
工場の生産過程を
変えれば有機水銀
の生成を抑えられ
るのでは?
排水処理を変えれ
ば有機水銀を除去
できるのでは?
禁漁により人への
曝露を防げるのは?
浚渫により汚染を
低減できるので
は?
市場への流通を止めれば
市民への曝露は防げるのでは?
妊婦や子供などへの注意喚起により
ハイリスクグループへの曝露を減ら
せるのでは?
市場への流通を止める
と自家消費により曝露
が増えるかも?
昔の私の「もやもや」
97
 頭の中の"因果モデル"と「介入効果推定」の関係性は?
頭の中の"因果モデル" (政策的対応を念頭においた)
介入効果推定
do(市場=
流通禁止)
do(市場=
流通あり)
市民の
健康
市民の
健康
ここの差分
=介入効果
昔の私の「もやもや」
98
 頭の中の"因果モデル"と「介入効果推定」の関係性は?
頭の中の"因果モデル" (政策的対応を念頭においた)
介入効果推定
do(市場=
流通禁止)
do(市場=
流通あり)
市民の
健康
市民の
健康
ここの差分
=介入効果
どちらかに思考のピントが合っているとき、もう一方はぼやけてしまう
昔の私の「もやもや」
99
 頭の中の"因果モデル"と「介入効果推定」の関係性は?
頭の中の"因果モデル" (政策的対応を念頭においた)
介入効果推定
do(市場=
流通禁止)
do(市場=
流通あり)
市民の
健康
市民の
健康
ここの差分
=介入効果
どちらかに思考のピントが合っているとき、もう一方はぼやけてしまう
昔の私の「もやもや」
100
 両者にピントを合わせて思考できるようになってきた
頭の中の"因果モデル" (政策的規制措置等を念頭においた)
介入効果推定
do(市場=
流通禁止)
do(市場=
流通あり)
市民の
健康
市民の
健康
ここの差分
=介入効果
両者の関係が見えるぞ・・・!
昔の私の「もやもや」
101
 両者にピントを合わせて思考できるようになってきた
バックドア基準
構造的因果モデル
そのときふと
自分の足元を
見てみてみると・・
昔の私の「もやもや」
102
 両者にピントを合わせて思考できるようになってきた
頭の中の"因果モデル" (政策的規制措置等を念頭においた)
介入効果推定
do(市場=
流通禁止)
do(市場=
流通あり)
市民の
健康
市民の
健康
ここの差分
=介入効果
バックドア基準が分かると両者の関係の感覚がつかめてくる
昔の私の「もやもや」
103
 両者にピントを合わせて思考できるようになってきた
因果
モデル
介入効果
推定
深化
• 研究テーマ全体の中での「介入効果推定」の位置づけがより明確になる
• 介入効果の中長期的な「波及効果」についても考えやすくなる
• 介入効果推定の検討過程から「足りない点=いま重要な研究テーマ」が
見えてくることもある
• 一般化可能性についての議論も深まりやすくなる(一般化可能性は生成
メカニズムの安定性や類似性にも依存するため)
• 因果モデルの解像度が上がるほど考慮すべき変数の抜け漏れが減る/調
査努力量を減らせる
• 利害関係者(共同研究者、市民、行政等)とのコミュニケーションも捗る
*ただし、全てひっくるめて「分野やテーマに依る話」でもあります*
ただし:「ピントが合う」≠「問題が解決する」
104
 ピントが合うことにより「アラ」に気づくことの方が多いかも
著者らがバックドア基準を知っていたら
ネガティブリザルトの解析結果のため論文
にならなかなったかもしれない
 「耳の痛い助言を言ってくれる存在」としてのバックドア基準
• 「間違えると生物が絶滅する/人が死ぬ」という立場の人(リスク研
究者等)にとっては耳の痛い助言はありがたい
• ただ論文をガシガシ書きたいという人には?
公共政策の近傍で働く研究者として、「査読をパスする」という「業界の内輪のルール」
の外部にある「基準」の存在とその尊重は非常に重要であると林は考えています
因果推論の「可能性」より「不可能性」の
ほうがより見えるようになるかも
例えば先ほどの例では:
だいたいの人は
この中間のどこか
と思われる
参考|Elwert and Winship (2014) in Annu. Rev. Sociol.
105
・合流点バイアスについての総説
・社会学の研究において「因果の絵を
描くこと」の意義が垣間見える
参考|Morgan and Winship (2015)
106
・社会学を念頭においた因果推論の教科書
・介入効果の推定とメカニズム的議論による
説明や理解の両者を重視する立場から
書かれている(例えば、本書p40参照)
本日のまとめとメッセージ
107
 バックドア基準は本当は難しくない
分岐点・合流点・中間点がもつ各性質に留意しつつ:
(1)バックドアパスはブロック
(2)X→Yの道はブロックしない
 バックドア基準が分かると、"因果モデル"と
「介入効果推定」の関係性が見えてくる
・至近的には変数選択の役にたつ
・中長期的には実質科学における「因果モデルの解像度の
向上」と政策立案等のための「介入効果推定の信頼性の
向上」の間の好循環の形成が期待できる
*ただし分野とテーマに依る*
本日の話(もくじ)
108
I. 6ステップで説明するバックドア基準入門
III. いちユーザー視点からの「実質科学上の意義」
1. 前置き
2. バックドアパスをイメージしよう
3. まずは2変量(x,y)を考える
ネオニコチノイド系農薬のミツバチコロニーへの影響についての
既往研究論文(Budge et al. 2015)の再解析
4. 3変量(x,y,z)で見る基本的論理
5. 4変量以上の場合を見る
6. "まとめ"としてのバックドア基準
*個人の感想です。また、ものすごく「分野による」話です
II. 環境リスク分野でのバックドア基準の”使用”例
(時間が余れば):バックドア基準と多重線形性の関係の説明
補遺:バックドア基準と多重線形性の関係の説明
109
すみません。ここから先の議論ではサンプルベース
の議論とパラメータベースの議論が未整理になって
いるところが多々あります。
後日、その辺りもきちんと整理した文章を用意する予
定ですので、現段階ではその点はどうかご容赦くださ
い。
補遺:バックドア基準と多重線形性の関係の説明
110
ステップ1:まず2変量(X, Y)の場合を考える
𝑦 = 𝛽𝑥 + 𝛾
単回帰モデルの回帰係数βは
単純化のためデータが標準化
されている場合を考える
単回帰係数は
相関係数に等しい
補遺:バックドア基準と多重線形性の関係の説明
111
ステップ2:3変量(X, Y, Z)の場合を考える
𝑦 = 𝛽 𝑥 𝑥 + 𝛽𝑧 𝑧 + γ
重回帰モデルの回帰係数βxは
単純化のためデータが標準化
されている場合を考えると
𝛽 𝑥 =
𝑟𝑧 𝑧 𝑟𝑥 𝑦 − 𝑟𝑥 𝑧 𝑟𝑧 𝑦
𝑟𝑧𝑧 𝑟𝑥𝑥 − 𝑟𝑥𝑧 𝑟𝑥𝑧
分母に行列式が
出て来るのがポイント
補遺:バックドア基準と多重線形性の関係の説明
112
ステップ3:3変量の偏回帰係数βxとβの比較
重回帰モデルの回帰係数βxは 同じデータをxで単回帰すると
本来はZを含まねばならぬときには
↓の式が正解
補遺:バックドア基準と多重線形性の関係の説明
113
ステップ3:3変量の偏回帰係数βxとβの比較
重回帰モデルの回帰係数βxは 同じデータをxで単回帰すると
本来はZを含まねばならぬときには
↓の式が正解
補遺:バックドア基準と多重線形性の関係の説明
114
ステップ3:3変量の偏回帰係数βxとβの比較
重回帰モデルの回帰係数βxは 同じデータをxで単回帰すると
ずれる本来はZを含まねばならぬときには
↓の式が正解
いわゆる"交絡"に
よるバイアス
この項が
欠落
補遺:バックドア基準と多重線形性の関係の説明
115
ステップ3:3変量の偏回帰係数βxとβの比較
重回帰モデルの回帰係数βxは 同じデータをxで単回帰すると
ずれる
xとzの相関が1に近いときに
誤差により母数の推定が不安定になる
本来はZを含まねばならぬときには
↓の式が正解
いわゆる"交絡"に
よるバイアス
この項が
欠落
いわゆる
"多重共線性"
補遺:バックドア基準と多重線形性の関係の説明
116
ステップ4:バックドア基準で振り返る(その1)
Zを追加しなくともバックドア基準が満たされている場合
には偏回帰係数βxと単回帰係数βは等しいはずである
X
Y
Z
補遺:バックドア基準と多重線形性の関係の説明
117
ステップ4:バックドア基準で振り返る(その1)
Zを追加しなくともバックドア基準が満たされている場合
には偏回帰係数βxと単回帰係数βは等しいはずである
X
Y
Z
ゼロ
ゼロ
この場合、交絡も多重共線性も生じない
補遺:バックドア基準と多重線形性の関係の説明
118
ステップ4:バックドア基準で振り返る(その2)
X
Y
Z
Zを追加しなくともバック
ドア基準が満たされている
補遺:バックドア基準と多重線形性の関係の説明
119
ステップ4:バックドア基準で振り返る(その2)
X
Y
Z
この場合、交絡は生じないが、因果構造の知識を利用せずにZを含めて
計算すると多重共線性の問題は生じうる
Zを追加しなくともバック
ドア基準が満たされている
"多重共線性"
の可能性
因果構造の
知識から
補遺:バックドア基準と多重線形性の関係の説明
120
まとめ:変数の追加で偏回帰係数が揺れる理由
(2) xとzの相関が1に近い
(行列式が0に近い)
(1) x, z, yの相関によるバイアスの生滅
バックドア基準の守備範囲
いわゆる「多重共線性」の守備範囲
(3) サンプルサイズの有限性による誤差
「多重共線性」
という現象
サンプルサイズ無限大でも生じる
(相関が1でない限り)
サンプルサイズ無限大
では生じない
これ自体は符号
の向きを変えない!
補遺:バックドア基準と多重線形性の関係の説明
121
まとめ:変数の追加で偏回帰係数が揺れる理由
交絡によるバイアスと多重共線性は「rxz」という"common
cause"を共有しているので現象面からは見分けがつきにくい
ただしここで見てきたように両者はメカニズム的には
別物であり、対処法も別物である
実務的には「銀の弾丸」は無いが、作業仮説的な因果構造の図を幾つか描いてみつつ、
共変量の出し入れによって偏回帰係数や信頼区間がとう変化するのかを検討すると
「何が起きているのか/何が起きていないのか」が分かってくることが多い
交絡の"原因"
多重共線性の"原因"
122
ご清聴いただきありがとうございました

More Related Content

What's hot

構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
Shiga University, RIKEN
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
gree_tech
 
MICの解説
MICの解説MICの解説
MICの解説
logics-of-blue
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門shima o
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
Yuya Takashina
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
Hidetoshi Matsui
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
Yasuyuki Okumura
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRDaisuke Yoneoka
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
Shota Yasui
 

What's hot (20)

構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
 
MICの解説
MICの解説MICの解説
MICの解説
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
 

Viewers also liked

生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー
takehikoihayashi
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
Hatsuru Morita
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
Takashi J OZAKI
 
共創はいつ,どこで起こる?
共創はいつ,どこで起こる?共創はいつ,どこで起こる?
共創はいつ,どこで起こる?
Takahito Kamihira
 
デザインすることは, Giveすること—オープンなデザインにおける相互贈与の視点
デザインすることは, Giveすること—オープンなデザインにおける相互贈与の視点デザインすることは, Giveすること—オープンなデザインにおける相互贈与の視点
デザインすることは, Giveすること—オープンなデザインにおける相互贈与の視点
Takahito Kamihira
 
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
. .
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
Masanori Takano
 
レゴシリアスプレイ研修 Lego serious play
レゴシリアスプレイ研修 Lego serious playレゴシリアスプレイ研修 Lego serious play
レゴシリアスプレイ研修 Lego serious play
Jun Chiba
 
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービスLyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Kosetsu Tsukuda
 
広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行
Takahiro Ogoshi
 
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
考司 小杉
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
Shinnosuke Takamichi
 
アドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤についてアドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤について
kazuhiro ito
 
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
cyberagent
 
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0Michitaka Yumoto
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
logics-of-blue
 
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」
Takashi J OZAKI
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 

Viewers also liked (20)

生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
 
共創はいつ,どこで起こる?
共創はいつ,どこで起こる?共創はいつ,どこで起こる?
共創はいつ,どこで起こる?
 
デザインすることは, Giveすること—オープンなデザインにおける相互贈与の視点
デザインすることは, Giveすること—オープンなデザインにおける相互贈与の視点デザインすることは, Giveすること—オープンなデザインにおける相互贈与の視点
デザインすることは, Giveすること—オープンなデザインにおける相互贈与の視点
 
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
レゴシリアスプレイ研修 Lego serious play
レゴシリアスプレイ研修 Lego serious playレゴシリアスプレイ研修 Lego serious play
レゴシリアスプレイ研修 Lego serious play
 
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービスLyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
 
広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行
 
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
 
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
 
アドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤についてアドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤について
 
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
 
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
 
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 

More from takehikoihayashi

EBPM, “E”から見るか? “PM”から見るか?
EBPM, “E”から見るか? “PM”から見るか?EBPM, “E”から見るか? “PM”から見るか?
EBPM, “E”から見るか? “PM”から見るか?
takehikoihayashi
 
環境分野における"EBPM"の可能性と危うさ:他山の石として
環境分野における"EBPM"の可能性と危うさ:他山の石として環境分野における"EBPM"の可能性と危うさ:他山の石として
環境分野における"EBPM"の可能性と危うさ:他山の石として
takehikoihayashi
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
takehikoihayashi
 
応用哲学会2018『リスク分析と予防原則』
応用哲学会2018『リスク分析と予防原則』応用哲学会2018『リスク分析と予防原則』
応用哲学会2018『リスク分析と予防原則』
takehikoihayashi
 
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
takehikoihayashi
 
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
takehikoihayashi
 
A Bayesian Approach to probabilistic ecological risk assessment
A Bayesian Approach to probabilistic ecological risk assessmentA Bayesian Approach to probabilistic ecological risk assessment
A Bayesian Approach to probabilistic ecological risk assessment
takehikoihayashi
 
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
takehikoihayashi
 

More from takehikoihayashi (8)

EBPM, “E”から見るか? “PM”から見るか?
EBPM, “E”から見るか? “PM”から見るか?EBPM, “E”から見るか? “PM”から見るか?
EBPM, “E”から見るか? “PM”から見るか?
 
環境分野における"EBPM"の可能性と危うさ:他山の石として
環境分野における"EBPM"の可能性と危うさ:他山の石として環境分野における"EBPM"の可能性と危うさ:他山の石として
環境分野における"EBPM"の可能性と危うさ:他山の石として
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
 
応用哲学会2018『リスク分析と予防原則』
応用哲学会2018『リスク分析と予防原則』応用哲学会2018『リスク分析と予防原則』
応用哲学会2018『リスク分析と予防原則』
 
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
 
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
 
A Bayesian Approach to probabilistic ecological risk assessment
A Bayesian Approach to probabilistic ecological risk assessmentA Bayesian Approach to probabilistic ecological risk assessment
A Bayesian Approach to probabilistic ecological risk assessment
 
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
 

『バックドア基準の入門』@統数研研究集会