Rubinの論文
(の行間)を読んでみる
傾向スコア解析の理論
2015/06/15 学生セミナー
バイオ統計センターM1 宜保光一郎
http://faculty.smu.edu/Millimet/classes/eco7377/papers/rosenbaum%20rubin%2083a.pdf
http://www.
stat.harvard
.edu/DonRu
bin70/
Introduction
• 1983年の論文を意訳していきます
• 重要な「large sampleで傾向スコアがなぜ機能
するか」の証明まで。
• 証明は元論文ではわかりにくいので、前述した2
015年出版の書籍での証明をさらに噛み砕くこ
とを狙う(一部?のところはあるが..)
• 条件付き期待値のもろもろの定理を駆使して証
明していくので、以下のURLなどを参照。
• http://math.arizona.edu/~tgk/464_07/cond_exp.pdf
• 実践的な話はナシです。
Notation
• i: ユニットの番号
• r: アウトカム
• z: 割り付けの指標。z={1,0}
• r1i: 1の割り付けをされたユニットiの周辺アウト
カム→後述
• xi: ユニットiの観察された共変量(ベクトル)
Causal Inference
• ある割り付けをされたとき(e.g. treatment V.S
. control)に、その割り付けによる効果について
の推定をしたい
• その効果を因果効果(causal effect)とよぶ。
• 効果の推定を以下の式で表すときに
• これをAverage treatment effect(ATE) と呼ぶ
E(r1)−E(r0)
Motivation
• ATEはRCTにおいては直接測定できる。
• なぜなら、割り付けはランダムに行われおり、
両群の背景は同一と考えられるから。
• (後述するが、割り付けはランダムなので、アウ
トカムと独立しているから)
• しかし、非RCTにおいてはATEを直接推定する
ことは困難。
• なぜか?
E(r1∣z=1)−E(r0∣z=0)
Motivation
• ATEはRCTにおいては直接測定できる。
• なぜなら、割り付けはランダムに行われおり、
両群の背景は同一と考えられるから。
• (後述するが、割り付けはランダムなので、アウ
トカムと独立しているから)
• しかし、非RCTにおいてはATEを直接推定する
ことは困難。
• なぜか?
E(r1∣z=1)−E(r0∣z=0)
Rubin’s potential outcome
E[r1
| z=1]
i=1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
ATE
E[r0
| z=0]
Rubin’s potential outcome
E[r1
| z=1]
i=1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
ATE
E[ r0 | z=1 ]
E[ r1 | z=0 ]
E[r0
| z=0]
Rubin’s potential outcome
z=1 z=0
E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ]
E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
Rubin’s potential outcome
z=1 z=0
E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ]
E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
この周辺和の差がATE
現実では欠測している(反事実)
Rubin’s potential outcome
z=1 z=0
E[ r1 ] E[ r1 | z=1 ] E[ r1 | z=0 ]
E[ r0 ] E[ r0 | z=1 ] E[ r0 | z=0 ]
この周辺和の差がATE
現実では欠測している(反事実)
現実はこの両者しか直接推定で
きない(因果推論の根本問題)
RCT
z=1 z=0
E[ r1 ] E[ r1 | z=1 ]
E[ r0 ] E[ r0 | z=0 ]
ランダム割り付け
=
=
(r1 ,r0)⊥z
Strongly ignorable treatment assignment
z=1 z=0
E[ r1 ] E[ r1 | z=1 ]
E[ r0 ] E[ r0 | z=0 ]
(観測された)共変量 x
(r1 ,r0)⊥z∣x
目標はこれを利用することだが
、xはベクトルなので使いづらい。
よってxを簡易にしたものを探
すことにする
Strongly ignorable treatment assignment
• 観測された共変量xで条件づけると、アウトカム
と割り付けの確率は独立になる=RCTのように
比較ができるという、仮定
• かなり強い仮定のように思えるが、この仮定が
傾向スコア解析の肝
• この仮定が本当に成り立っているかは、非常に
重要なのだが直接確かめる方法は存在しないた
め、間接的な確認を行う。
Balancing score
• 定義:バランシングスコアb(x)とは、共変量xか
ら成る関数で、それで条件付けると割り付けzと
共変量xが独立になるようなものである
• 条件つき独立の性質からb(x)=xとなり得るのは
自明である
• 一番関心があるのはb(x)がスカラーとなる場合
→これが後の傾向スコアとなる
z ⊥ x∣b(x)
Propensity score
• 定義:傾向スコアe(x)は共変量xから成る関
数で、z=1に割り付けされる確率である。
• (前述のバランシングスコアとの関係は定義
上では明らかでないことに注意)
• i={1,2,..,n}の同時確率は、独立なベルヌー
イ分布を考え、次のように表すことができる
e(x)= pr(z=1∣x)
Pr(z1 ,..., zn∣x1 ,..., xn)=∏
n
e(xi)
xi
[1−e(xi)]
1−xi
定理
• これからいくつかの定理を証明する。示したい
ことは
• 1. 傾向スコアはバランシングスコアである
• 2. 全てのバランシングスコアに適当な関数をと
れば、傾向スコアと等しくなる(最も”粗い”もの
が傾向スコア)
• 3. もし、共変量xのもとでstorngly ignorableで
あれば、バランシングスコアで条件付けてもそ
うである
Theorem 1
•      を証明できれば、z ⊥x∣e(x)
Pr(z=1∣x ,e(x))=E(z∣x ,e(x))
=E(z∣x)
=e(x)
Pr(z=1∣e(x))=E(z∣e(x))
=E[E(z∣x ,e(x))∣e(x)]
=E[e(x)∣e(x)]
=e(x)
Pr(z=1∣x ,e(x))=Pr(z=1∣e(x))⇔ z⊥x∣e(x)∴
∵
Definition of Conditional Independence
E[ A∣B , g (B)]=E[A∣B]∵
E[E(A∣B ,C)∣B]=E[A∣B]∵
E[g (A)∣A]=g (A)
e(x)⊆b(x)
Theorem 2
バランシングスコアの定義からe(x)=f{b(x)}であることを
背理法で証明する。
全てのb(x)に対しe(x)≠f{b(x)}とすると、e(x1)≠e(x2)かつ
b(x1)=b(x2)となる2つの異なるx1, x2が存在する。よって、
e(x1)=E(z∣x1)=E(z∣b(x1), x1)=E(z∣b(x1))=E(z∣b(x2))=E(z∣x2)
E[ A∣B , g (B)]=E[A∣B] Definition of balancing score
e(x1)=e(x2)となり矛盾。ゆえに、バランシングスコアが定義され
れば、e(x)=f{b(x)}が言える。(逆も言える。証明可能。)
Theorem 3
• 目標は
• 同様に、b(x)をe(x)としても成り立つ。
E[E(A∣B ,C)∣B]=E[A∣B]
Strongly ignorable treatment assignment
Definition of balancing score
Tower property of conditional expectation
(r1 ,r0)⊥ z∣b(x)
Pr(z=1∣r1 ,r0 ,b(x))=E[z∣r1 ,r0 ,b(x)]
=E[E(z∣r1 , r0 , x ,b(x))∣r1 ,r0 ,b(x)]
=E[E(z∣x ,b(x))∣r1 ,r0 ,b(x)]
=E[E(z∣b(x))∣r1 ,r0 ,b(x)]
=E(z∣b(x))
=Pr(z=1∣b(x))
z=1 z=0
E[ r1 ] E[ r1 | z=1 ]
E[ r0 ] E[ r0 | z=0 ]
バランシングスコアb(x)
E[r1
| z=1,
b(x)]
E[r0
| z=0,
b(x)]
Theorem 4
E(r1∣z=1,b(x))−E(r0∣z=0,b(x))
=E(r1∣b(x))−E(r0∣b(x))
=E(r1−r0∣b(x))
Theorem 3
さらに期待値をとると、
E[E(r1−r0∣b(x))]=E(r1−r0) Law of iterative expectations
よって、E(r1
-r0
|b(x))を推定量と考えると
E(r1
-r0
)=ATEの不偏推定量となる
(ちなみに条件付き確率の期待値は確率変数)
Summary
•バランシングスコア(傾向スコアはその一
部)で条件付けると、割り付けz=1,0の両群の
アウトカムの平均値の差は、ATEの不偏推定量
となる。つまりATEの推定が可能となる。
•バランシングスコアの中でも傾向スコアは
最も粗く、1次元のスカラーなので、今後はこ
の傾向スコアを使用する
傾向スコアによる条件付け
① マッチング
② 層別化
③ 傾向スコアを共変量としての回帰モデル調
整
④ 傾向スコアによる重み付け推定法(IPW法)
それぞれに長所と短所がある。
ここまでで、とりあえず終了
Remarks
•論文はこの後”small sample
theory”,”some applications”と続いていく
•“strongly ignorable assumption”は最近は
”unconfoundness”と記述されることも多い
•実践的な適応については多くの資料が出回
っているので今回はパス

Rubinの論文(の行間)を読んでみる-傾向スコアの理論-