星野「調査観察データの統計科学」
第3章
2015/9/14
@shuyo ( Cybozu Labs )
1&2章 ダイジェスト
調査観察研究
• 実験(無作為割り当て)ができない研究
– 対象が理論的・倫理的に操作可能ではない
– 実験という特殊性により、被験者が通常と異なる
行動を取る可能性がある
– コストが高く、サンプルが小さすぎる
– 被験者の負担が高く、少数の協力者に限定される
• 割り当ては無作為であっても、不遵守(被験者のサボ
り)が起きると、無作為データで無くなる
Notation
• 𝑧 ∈ {0,1} : 割り当て(所属群を表す独立変数)
• 𝑑 ∈ {0,1} : 割り当てを受け入れたか否か
• 𝑦 : (潜在的な)結果変数
– 𝑦1 : 処置群(特別な条件を与えた群, 𝑧 = 1)
– 𝑦0 : 対照群(条件を与えていない群, 𝑧 = 0)
– 𝑦 = 𝑧𝑦1 + 1 − 𝑧 𝑦0
• 𝒙 : 共変量
– 結果変数と割り当ての両方に影響のある量
– すべての対象者について観測できる量
• 観測できない共変量がある場合については4章
3.7 章で登場
欠測のメカニズム
𝑝 𝑦1, 𝑦0, 𝑧, 𝒙 = 𝑝(𝑧|𝑦1, 𝑦0, 𝒙)𝑝(𝑦1, 𝑦0|𝒙) 𝑝(𝒙)
1. 完全にランダムな欠測
– 欠測するかどうかは結果変数に(全く間接的にも)依存しない
– 𝑝 𝑧 𝑦, 𝒙 = 𝑝(𝑧)
2. 強く無視できる割り当て
– 割り当ては共変量のみに依存し、結果変数に(直接は)依存しない
– 𝑝 𝑧 𝑦, 𝒙 = 𝑝 𝑧 𝒙
3. ランダムな欠測
– 欠測するかどうかは欠測値には依存せず、観測値に依存
• このとき、モデルパラメータは観測値のみから最尤推定できる
– 𝑝 𝑧 = 𝑗 𝑦, 𝒙 = 𝑝 𝑧 = 𝑗 𝑦𝑗, 𝒙
因果効果(Rubin 1974)
• 因果効果 = 𝑦1 − 𝑦0
– 処置群に割り当てられた場合の結果と、割り当てら
れていなかった場合の結果の差
– 割り当て以外の対象者の要因が除外された量
– 片方は欠測値なので、直接計算はできない
• Rubin の因果効果 = 𝐸 𝑦1 − 𝐸 𝑦0
– 処置群が無作為抽出なら、各群の観測値の平均の差
𝐸 𝑦1 𝑧 = 1 − 𝐸 𝑦0 𝑧 = 0 に一致
𝐸 𝑦1 𝑧 = 1 は
観測値の平均
処置群(z) 1 1 1 0 0 0
対象者番号 1 2 … … N-1 N
… …
… …
早期教育する群(z=1) 早期教育しない群(z=0)
𝐸(𝑦1)
ここを推定する必要がある
因果効果と介入効果の関係
• 処置群での平均介入効果(average Treatment Effect on the Treated)
– 𝑇𝐸𝑇 = 𝐸 𝑦1 − 𝑦0 𝑧 = 1
• 対照群での平均介入効果(average Treatment Effect on the Untreated)
– 𝑇𝐸U = 𝐸 𝑦1 − 𝑦0 𝑧 = 0
• このとき因果効果は
– 𝐸 𝑦1 − 𝑦0 = 𝑇𝐸𝑇 × 𝑝 𝑧 = 1 + 𝑇𝐸𝑈 × 𝑝(𝑧 = 0)
– 処置群と対照群の母集団における割合に依存
共変量調整
• 因果効果=処置群の期待値-対照群の期待値
– 共変量の影響により見かけ上の関係(擬似相関)やバイ
アスが生じる可能性がある
– 早期教育の例:「中学校での英語の成績」(結果変
数)も「小学校での英語教育の有無」(割り当て)
もどちらも親の教育意欲や収入などの影響を受ける
• 共変量調整:
– 結果変数から共変量の影響を除去すること
– 影響を除去しても残る相関から因果効果を求めたい
一般には難しかったりめんどくさかったり
強く無視できる割り当て
• 「割り当ては共変量のみに依存し、結果変数には
依存しない」という仮定
– (𝑦1, 𝑦0) ⊥ 𝑧|𝒙 すなわち 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 = 𝑝 𝑧 𝒙
• このとき、
𝑝 𝑦1, 𝑦0, 𝑧, 𝒙
= 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙
= 𝑝 𝑧 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙
• 𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 も成立
– 共変量を条件付ければ、 𝑦1, 𝑦0 の同時分布はどちら
の群に割り当てられたかに依存しない
𝑥
𝑦 𝑧
この分解の時に
𝑦 → 𝑧 が切れる
ホントは条件付き独立の記号(縦2本)
因果効果 on 強く無視できる割り当て
• 𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 から、平均での独
立性が得られる
– 𝐸 𝑦1 𝑧 = 1, 𝒙 = 𝐸 𝑦1 𝒙
– 𝐸 𝑦0 𝑧 = 0, 𝒙 = 𝐸 𝑦0 𝒙
• よって
𝐸 𝑦1 − 𝐸 𝑦0
= 𝐸 𝒙 𝐸 𝑦1 − 𝐸 𝑦0
= 𝐸 𝒙[𝐸 𝑦1 𝑧 = 1, 𝒙 − 𝐸 𝑦0 𝑧 = 0, 𝒙 ]
共変量調整による因果効果の推定法
1. マッチング
– 各群から共変量が一致する(or 近い)対象者のペアを作
り、その 𝑦1 − 𝑦0 の標本平均を取る
2. 層別解析
– (何らかの基準で5つほどの)サブクラスに分け、各ク
ラスで 𝐸 𝑦1 − 𝐸 𝑦0 を求め、クラスのサイズで重み
づけた平均を取る
3. 回帰モデルを用いる方法
– 各群ごとに回帰関数 𝐸 𝑦𝑗 𝑧 = 𝑗, 𝑥 を推定、その差の
標本平均を取る
マッチング・層別解析の欠点
• 恣意性
– 「近さ」の定義が恣意的
• 次元問題
– 高次元だと実行コストが高い
• サポート問題
– スパースだと「近い」対象者が存在しない
3. セミパラメトリック解析
傾向スコア (Rosenbaum & Rubin 1983)
• 「複数の共変量を1つの変数に集約するこ
とができれば、その1変数上で層別化など
を行うことができ、マッチングや層別で
の問題が起こらない、ということから考
えだされた概念」(p60)
バランシングスコア
• 𝑏 𝒙 が「バランシングスコア」とは
𝒙 ⊥ 𝑧|𝑏(𝒙)
– (そのような 𝑏(𝒙) が存在するとはまだ言ってない)
• 𝒙 ⊥ 𝑧|𝑏(𝒙) ⇔ 𝑝 𝑧 𝑥, 𝑏 𝒙 = 𝑝 𝑧 𝑏 𝒙
• Proposition
𝒙 ⊥ 𝑧|𝑏 𝒙 ⇔
∃
𝑔, 𝑝 𝑧 = 1 𝒙 = 𝑔 𝑏 𝒙
– 𝑝 𝑧 = 1 𝒙 が 𝑏 𝒙 で決まる
𝑥
𝑧
𝑏(𝑥)
• [⇒] 𝑥 を止めた時 𝑏(𝑥) も止まるので 𝑝 𝑧 𝑥 = 𝑝 𝑧 𝑥, 𝑏 𝑥 より
𝑝 𝑧 𝑥 = 𝑝 𝑧 𝑥, 𝑏 𝑥 = 𝑝 𝑧 𝑏 𝑥
よって 𝑔 𝑏 𝑥 ≔ 𝑝(𝑧 = 1|𝑏 𝑥 ) とおけばよい
• [⇐] 𝑝 𝑧 = 1 𝑏 𝑥 = 𝑝(𝑧 = 1|𝑥) を示せば良い
𝑒 = 𝑏(𝑥) を固定して、
𝑝 𝑧 = 1 𝑏 𝑥 = 𝑒
=
𝑥|𝑏 𝑥 =𝑒
𝑝 𝑧 = 1, 𝑥 𝑏 𝑥 = 𝑒 𝑑𝑥
=
𝑥|𝑏 𝑥 =𝑒
𝑝 𝑧 = 1 𝑥, 𝑏 𝑥 = 𝑒 𝑝 𝑥 𝑏 𝑥 = 𝑒 𝑑𝑥
=
𝑥|𝑏 𝑥 =𝑒
𝑔 𝑏 𝑥 = 𝑒 𝑝(𝑥|𝑏 𝑥 = 𝑒)𝑑𝑥
= 𝑔 𝑏 𝑥 = 𝑒
𝑥|𝑏 𝑥 =𝑒
𝑝(𝑥|𝑏 𝑥 = 𝑒)𝑑𝑥 = 𝑔 𝑏 𝑥 = 𝑒 = 𝑝(𝑧 = 1|𝑥)
𝒙 ⊥ 𝑧|𝑏 𝒙 ⇔
∃
𝑔, 𝑝 𝑧 = 1 𝑥 = 𝑔(𝑏 𝑥 )の証明
※書籍は必要条件を証明しているように書いているが、𝑝(𝑧 = 1|𝑥) = 𝑔(𝑏(𝑥))を使って等式を導き、そ
の等式が成立するためには𝑝(𝑧 = 1|𝑥) = 𝑔(𝑏(𝑥))が必要という流れになっており、残念ながら証明とは
言えない。また、あとの傾向スコアがバランシングスコアであることを言うために使うのは十分条件の方である
[Rosenbaum, Rubin 1983] では
背理法を使っているが
その必要はない
[Rosenbaum, Rubin 1983] では
これが 𝐸 𝑝 𝑧 = 1 𝑥 𝑏 𝑥 で
あることをだけを指摘した
簡潔な証明になっている
傾向スコア
• 𝑒𝑖 ≔ 𝑝 𝑧𝑖 = 1 𝒙𝑖 を第 i 対象者の傾向スコアとい
う
• 傾向スコアはバランシングスコア
– b 𝒙𝑖 ≔ 𝑒𝑖 for all i
– 𝑔 b 𝒙 ≔ b 𝒙 は 𝑝 𝑧 = 1 𝒙 = 𝑔(𝑏 𝒙 ) を満たすの
で、Proposition の十分条件により 𝑒𝑖 はバランシング
スコア
• 𝑒𝑖 の真値はわからない
– {𝒙𝑖, 𝑧𝑖} を観測値とし 𝑏 𝒙 = 𝑝 𝑧 = 1 𝒙 をロジス
ティック回帰で推定、 𝑒𝑖 = 𝑏 𝒙𝑖 とする
バランシングスコア+強く無視できる割り当て
• 𝑏 𝒙 がバランシングスコア、かつ「強く無視できる割
り当て」ならば、 𝑦𝑗と z は b(z) の元で条件付き独立
𝒙 ⊥ 𝑧|𝑏 𝒙 ⋀ 𝑦1, 𝑦0 ⊥ 𝑧|𝒙 ⇒ (𝑦1, 𝑦0) ⊥ 𝑧|𝑏 𝒙
[証明]
• (1) 𝑝 𝑧, 𝑥 𝑦1, 𝑦0, 𝑏 𝑥
= 𝑝 𝑥 𝑦1, 𝑦0, 𝑧, 𝑏 𝑥 𝑝 𝑧 𝑦1, 𝑦0, 𝑏 𝑥
= 𝑝 𝑥 𝑦1, 𝑦0, 𝑏 𝑥 𝑝 𝑧 𝑦1, 𝑦0, 𝑏 𝑥 ∵ 𝒙 ⊥ 𝑧 𝑏 𝒙
• (2) 𝑝 𝑧, 𝑥 𝑦1, 𝑦0, 𝑏 𝑥
= 𝑝 𝑧 𝑦1, 𝑦0, 𝑥, 𝑏 𝑥 𝑝 𝑥 𝑦1, 𝑦0, 𝑏 𝑥
= 𝑝 𝑧 𝑥, 𝑏 𝑥 𝑝 𝑥 𝑦1, 𝑦0, 𝑏 𝑥 ∵ 𝑦1, 𝑦0 ⊥ 𝑧 𝒙
= 𝑝 𝑧 𝑏 𝑥 𝑝 𝑥 𝑦1, 𝑦0, 𝑏 𝑥 ∵ 𝒙 ⊥ 𝑧 𝑏 𝒙
• (1)=(2) より 𝑝 𝑧 𝑦1, 𝑦0, 𝑏 𝑥 = 𝑝 𝑧 𝑏 𝑥
※書籍の証明は積分を使っているが、上に見る通り乗法公式のみで示すことができる。またそこ
の積分では、𝑥で期待値をとっているのに𝑥が残っており、間違いにしか見えないが、これはおそらく
一度𝑔(𝑏(𝑥))に置き換えてから戻すというステップを省略しているのだと思われる。多分……。 𝑥
𝑦𝑗 𝑧
𝑏(𝑥)
グラフィカル
モデルを見れば
一目瞭然
傾向スコアを使った因果効果推定
• 傾向スコア 𝑒 と強く無視できる割り当て
のもとで、
– 𝐸 𝑦𝑗 𝑒 = 𝐸 𝑦𝑗 𝑒, 𝑧 = 𝑗 ゆえ
– 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸𝑒 𝐸 𝑦1 − 𝑦0 𝑒
= 𝐸𝑒 𝐸 𝑦1 𝑒, 𝑧 = 1 − 𝐸 𝑦0 𝑒, 𝑧 = 0
– 𝐸 𝑦1 𝑒, 𝑧 = 1 − 𝐸 𝑦0 𝑒, 𝑧 = 0 が推定できれば
因果効果が得られる
𝐸 𝑦1 𝑒, 𝑧 = 1 − 𝐸 𝑦0 𝑒, 𝑧 = 0 の推定
• マッチング
– 2群で傾向スコアが等しい(近い)対象者ペアの 𝑦1 − 𝑦0 を平均
– 共変量を使ったマッチングにあった距離の定義の恣意性や次元
問題、サポート問題が大幅に解消
• 層別解析
– 傾向スコアの大小によって5つほどのサブクラスに分け、各クラ
ス内で (𝑦1 の平均)- (𝑦0 の平均) をとり、クラスの大きさの重み
をかけた平均を推定値とする
• 線形回帰(共分散分析)
– 𝑧, 𝑒 を説明変数として 𝐸(𝑦𝑗|𝑧 = 𝑗, 𝑒) を線形回帰で推定
• (IPW推定量:のちほど)
傾向スコアの問題点
1. 3群以上の比較に関心がある場合も、2群ごとの推定となり、
母集団が各2群ごとに異なる
2. マッチング・層別解析では、推定した因果効果の標準誤差
が計算できない
3. 個々の 𝐸 𝑦𝑗 の推定はできない
4. ペアや層を作る基準に恣意性が残る
5. マッチングでペアから漏れた対象者のデータが無駄になり、
推定値も「対象者の少ない方の群の共変量の分布」上での
期待値をとったものとなる
6. 線形回帰は線形性を仮定するが、𝑧 ∈ {0,1} なので無理があ
る
𝐸 𝑦𝑗 の推定
• 𝐸 𝑦1 ≅
1
𝑁 𝑖=1
𝑁
𝑦𝑖1 は欠測している 𝑦𝑖1 がある
ため計算できない
• 重み付き平均 𝑖=1
𝑁
𝑤𝑖 𝑦 𝑖
𝑖=1
𝑁
𝑤𝑖
で、その重み 𝑤𝑖 が欠
測している 𝑦𝑖1 に対しては 0 になっていて、
かつ 𝑁 → ∞ のときに推定値が期待値に一致
してくれるような、そんな都合のいい重みが
あればいいのに → IPW 推定量
IPW 推定量
(Inverse Probability Weighting)
• 傾向スコアの逆数による重み付け平均を周辺期待値の
推定値とする手法
• 𝑤𝑖 = 𝑧𝑖/𝑒𝑖, 𝑣𝑖 = 1 − 𝑧𝑖 /(1 − 𝑒𝑖) とすると、
𝐸 𝑦1 ≔
𝑖=1
𝑁
𝑤𝑖 𝑦𝑖
𝑖=1
𝑁
𝑤𝑖
=
𝑖=1
𝑁 𝑧𝑖 𝑦𝑖
𝑒𝑖
𝑖=1
𝑁 𝑧𝑖
𝑒𝑖
𝐸 𝑦0 ≔
𝑖=1
𝑁
𝑣𝑖 𝑦𝑖
𝑖=1
𝑁
𝑣𝑖
=
𝑖=1
𝑁 (1 − 𝑧𝑖)𝑦𝑖
1 − 𝑒𝑖
𝑖=1
𝑁 1 − 𝑧𝑖
1 − 𝑒𝑖
※潜在的な結果変数 𝑦1, 𝑦0 と、i番目の対象者の結果変数 𝑦𝑖 の notation がゴッチャになってい
るが、心の目で見れば区別できるので、特にフォローせず本のとおりに記載する
IPW 推定量の一致性
• IPW 推定量は一致性をもつ(つまり lim
𝑁→∞
𝐸 𝑦𝑗 = 𝐸 𝑦𝑗 )ことを示す
– 𝐸 𝑧|𝒙 = 1 ⋅ 𝑝 𝑧 = 1 𝑥 + 0 ⋅ 𝑝 𝑧 = 0 𝑥 = 𝑒 より
𝐸
𝑧
𝑒
=
𝐸 𝑧
𝑒
=
𝐸 𝑥 𝐸 𝑧 𝑥
𝑒
=
𝑒
𝑒
= 1
– 𝑧𝑦 = 𝑧 𝑧𝑦1 + 1 − 𝑧 𝑦0 = 𝑧𝑦1 (∵ 𝑧 ∈ 0,1 ゆえ 𝑧2
= 𝑧, 𝑧 1 − 𝑧 = 0)
– 𝐸
𝑧𝑦
𝑒
= 𝐸
𝑧𝑦1
𝑒
= 𝐸 𝑥 𝐸
𝑧𝑦1
𝑒
|𝑥
= 𝐸 𝑥
1
𝑒
𝐸 𝑧 𝑥 𝐸 𝑦1 𝑥 ∵ 𝑧 ⊥ 𝑦𝑗 𝑥
= 𝐸 𝑥 𝐸 𝑦1 𝑥 = 𝐸 𝑦1
– ∴ 𝐸 𝑦1 =
𝑖=1
𝑁 𝑧 𝑖 𝑦 𝑖
𝑒 𝑖
𝑖=1
𝑁 𝑧 𝑖
𝑒 𝑖
=
1
𝑁 𝑖=1
𝑁 𝑧 𝑖 𝑦 𝑖
𝑒 𝑖
1
𝑁 𝑖=1
𝑁 𝑧 𝑖
𝑒 𝑖
→
𝐸
𝑧𝑦
𝑒
𝐸
𝑧
𝑒
= 𝐸 𝑦1
• 𝑦0 についても同様
書籍はこのステップが
なぜか省略されている
IPW 推定量の漸近分散
• 推定量がどれくれい信頼できるかの見積もり
𝑁 𝐸 𝑦𝑗 − 𝐸 𝑦𝑗 ~𝑁 0, 𝜎2
where 𝜎2 =
1
𝑁
𝑖=1
𝑁
𝑧𝑖 𝑦𝑖 − 𝐸 𝑦1
2
𝑒𝑖
2 +
1 − 𝑧𝑖 𝑦𝑖 − 𝐸 𝑦0
2
1 − 𝑒𝑖
2
• M推定量の枠組みから導く
– 一致推定量とその分散が得られるフレームワーク
書籍の M 推定量まわりの話
• 全部フォローしていると大変なので部分的に
– ここからしばらく、書籍を持っていること前提で
差分だけ書く。持ってない人ごめんなさい
– 書籍では、目的関数を =0 とおいてその解が求め
る推定量だったり、別の場所では目的関数を最適
化してその最大・最小を与えるのが推定量だった
りとゴッチャなのだが、そこはツッコまない。
書籍 p70
– 書籍の記号では混乱するので、思い切って変える
– 書籍では真値は 𝜃0 だが、それはパラメータに使いたいので、𝜃∗
を真値とした
• 付録 A.1 節での 𝜽 = 𝜃1, 𝜃0
𝑡 を真値 𝜽∗ が 𝐸 𝑦1 , 𝐸 𝑦0
𝑡
である母数 とし、
関数 𝒎 を
𝒎 𝑦, 𝜽 =
𝑧
𝑒
𝑦 − 𝜃1 ,
1 − 𝑧
1 − 𝑒
𝑦 − 𝜃0
𝑡
• とおけば、 𝐸 𝒎 y, 𝜽 = 0 は 𝐸 𝑦1 , 𝐸 𝑦0
𝑡
を解に持つM推定量の推定方
程式となり、式(A.2)は
1
𝑁
𝑖=1
𝑁
𝑧𝑖
𝑒𝑖
𝑦𝑖 − 𝜃1 ,
1 − 𝑧𝑖
1 − 𝑒𝑖
𝑦𝑖 − 𝜃0 = 0
• となる。これを 𝜃1, 𝜃0 について解くと IPW 推定量 (3.8) が得られる。
これ最重要ポイント
𝜃をこうおけば、あとは普通に
式展開できるようになる
書籍 p71 : 𝑨 𝜽∗
𝑨 𝜽∗ = 𝐸 −
𝜕
𝜕𝜽 𝑡
𝒎 𝑦, 𝜽
𝜽=𝜽∗
= 𝐸
−
𝜕
𝜕𝜃1
𝑧
𝑒
𝑦 − 𝜃1 −
𝜕
𝜕𝜃0
𝑧
𝑒
𝑦 − 𝜃1
−
𝜕
𝜕𝜃1
1 − 𝑧
1 − 𝑒
𝑦 − 𝜃0 −
𝜕
𝜕𝜃0
1 − 𝑧
1 − 𝑒
𝑦 − 𝜃0
𝜽=𝜽∗
= 𝐸
𝑧
𝑒
0
0
1 − 𝑧
1 − 𝑒 𝜽=𝜽∗
=
1 0
0 1
最後の等号は
𝐸 𝑧|𝑥 = 𝑒 などを
使って IPW と同様に
書籍 p71 : 𝑩 𝜽∗ その1
– Bの計算の前に、この変形をすましとくと楽
• 𝑧2
= 𝑧 , 𝑧 1 − 𝑧 = 0 より
𝑧𝑦 = 𝑧 𝑧𝑦1 + 1 − 𝑧 𝑦0 = 𝑧𝑦1
• 同様に 1 − 𝑧 𝑦 = 1 − 𝑧 𝑦0
∴ 𝒎 𝑦, 𝜽 =
𝑧
𝑒
𝑦 − 𝜃1 ,
1 − 𝑧
1 − 𝑒
𝑦 − 𝜃0
𝑡
=
𝑧
𝑒
𝑦1 − 𝜃1 ,
1 − 𝑧
1 − 𝑒
𝑦0 − 𝜃0
𝑡
書籍 p71 : 𝑩 𝜽∗ その2
• 𝑩 𝜽∗
= 𝐸 𝒎 𝑦, 𝜽∗
𝒎 𝑦, 𝜽∗ 𝑡
= 𝐸
𝑧2
𝑒2
𝑦1 − 𝐸 𝑦1
2 𝑧
𝑒
𝑦1 − 𝐸 𝑦1 ⋅
1 − 𝑧
1 − 𝑒
𝑦0 − 𝐸 𝑦0
𝑧
𝑒
𝑦1 − 𝐸 𝑦1 ⋅
1 − 𝑧
1 − 𝑒
𝑦0 − 𝐸 𝑦0
(1 − 𝑧)2
(1 − 𝑒)2
𝑦0 − 𝐸 𝑦0
2
= 𝐸
𝑧
𝑒2
𝑦1 − 𝐸 𝑦1
2
0
0
1 − 𝑧
(1 − 𝑒)2
𝑦0 − 𝐸 𝑦0
2
∵ 𝑧2
= 𝑧 , 𝑧 1 − 𝑧 = 0
• ここで強く無視できる割り当て条件から、
𝐸
𝑧
𝑒2
𝑦1 − 𝐸 𝑦1
2
= 𝐸 𝑥 𝐸
𝑧
𝑒2 𝑦1 − 𝐸 𝑦1
2
𝑥 = 𝐸 𝑥 𝐸
𝑧
𝑒2 𝑥 𝐸 𝑦1 − 𝐸 𝑦1
2
𝑥
= 𝐸
1
𝑒
𝑦1 − 𝐸 𝑦1
2
• 同様に E
1−𝑧
1−𝑒 2 𝑦0 − 𝐸 𝑦0
2
= 𝐸
1
1−𝑒
𝑦0 − 𝐸 𝑦0
2
ここに前スライドで変形
しといた 𝒎 𝑦, 𝜽∗
を代入
式 (3.10) ではこの変形をしたもの
を使うが、次の式でまたもとに戻す
ので、かなり無益な計算となる……
書籍 p71 : 式(3.10)
• IPW 推定量 𝜃 = 𝐸 𝑦1 , 𝐸 𝑦0 の漸近分散𝑽 𝜽∗
は
𝑽 𝜽∗
= 𝑨 𝜽∗ −1
𝑩 𝜽∗
𝐀 𝜽∗ −1 𝑡
= 𝑩 𝜽∗
• 𝑽 𝜽∗
= 𝑩 𝜽∗
から 𝐸 𝑦1 と 𝐸 𝑦0 の漸近相関は 0 であり、
よって IPW 推定量にもとづく因果効果 𝐸 𝑦1 − 𝐸 𝑦0 の漸近
分散は、
var 𝑁 𝐸 𝑦1 − 𝐸 𝑦0 = var 𝑁 𝐸 𝑦1 + var 𝑁 𝐸 𝑦0
= 𝐸
1
𝑒
𝑦1 − 𝐸 𝑦1
2
+ 𝐸
1
1 − 𝑒
𝑦0 − 𝐸 𝑦0
2
(3.10改)
書籍では式 (3.10) のあとに「ただし、実際には
これは計算できないので~」と続くが、式 (3.10)
はほぼ計算できる。よって計算できない式に改め、
その後の文章の意味が通じるようにした
書籍 p71 : (3.10) の次の式
– 式(3.10)の次の行から
• ただし実際にはこれは計算出来ないので、𝐸 𝑦1 らを
推定量に、外側の期待値を観測平均で置き換えたもの
を利用したいが、そのままでは欠測値 𝑦𝑗 が出てきて
しまう。そこで 𝑧/𝑒2
から 1/𝑒 への置き換えをやめて
元に戻すと、欠測値の係数が 0 になり計算できるよう
になる。
1
𝑁
𝑖=1
𝑁
𝑧𝑖 𝑦𝑖1 − 𝐸 𝑦1
2
𝑒𝑖
2 +
1 − 𝑧𝑖 𝑦𝑖0 − 𝐸 𝑦0
2
1 − 𝑒𝑖
2
書籍 p71 : 母数𝜶も同時に推定
– 𝜶も同時に推定した場合の漸近分散の結果だけあるが、M推定量のセッ
ティングが明記されていないので、定式化する
• ……母数𝜶を最尤法で推定する場合には、関数𝒎に対数尤度の導関
数ベクトルを追加する。すなわち 𝜽 = 𝜃1, 𝜃0, 𝜶 𝑡 𝑡 としたとき
𝒎 𝑦, 𝑧, 𝑥, 𝜽 ≔
𝑧
𝑒
𝑦 − 𝜃1 ,
1 − 𝑧
1 − 𝑒
𝑦 − 𝜃0 ,
𝜕
𝜕𝜶 𝑡
𝐿 𝜶
𝑡
• ただし
𝑒 = 𝑒 𝜶 = 𝑝 𝑧 = 1 𝒙; 𝜶 =
1
1 + exp −𝜶 𝑡 𝒙
𝐿 𝜶 = 𝑧 log 𝑒 + 1 − 𝑧 log(1 − 𝑒)
• とおけば、𝒎 𝑦, 𝑧, 𝑥, 𝜽 は推定方程式となり、同様に M-推定量の議
論をすればよい。
あとはがんばったら
きっとできるので
省略
2.7 章の実験(モデル)
• 2.7 章では傾向スコアを使った解析はバイアスが小さい
という実験結果が示されていたので、確認してみる
• 割り付け
– p(x|z=1) = N(1,1), p(x|z=0) = N(-1,1)
– p(z=1)=1/2
– このとき、𝑝 𝑧 = 1 𝑥 = 1 / 1 + exp −2𝑥
• 結果変数
– 𝑦𝑖𝑗 = 𝜏𝑗 + 𝛽𝑗 𝑥𝑖 + 𝜖𝑖𝑗, 𝜖𝑖𝑗~𝑁 0,1 𝑗 = 1,0
– 例) 𝜏1 = 2.0, 𝛽1 = 1.5, 𝜏0 = 0.0, 𝛽0 = 1.0
緑は z=1, 赤は z=0。直線は真の回帰直線
実験(層別解析 vs IPW)
• 𝜏1 = 2.0, 𝜏0 = 0.0 のまま
(因果効果の真値=2) 𝛽1 −
𝛽0 を [-5,5] で変化
• 因果効果を層別解析と
IPW とで推定しプロット
– 𝑥 ≤ −2, −2 < 𝑥 ≤
− 1, −1 < 𝑥 ≤ 0,0 < 𝑥 ≤
1,1 < 𝑥 ≤ 2,2 < 𝑥 の6つの
層に分け、各層での𝑦1, 𝑦0
の平均の差の重み付け平
均を取る
• IPW はバイアスが小さく、
層別解析は分散が小さい?
横軸が 𝛽1 − 𝛽0 、縦軸が推定量(真値=2)
赤が層別解析による因果効果の推定量、緑が IPW 推定量
例)外傷センターの有用性
(MacKenzie+ 2006)
– 外傷センター:外傷治療に特化した救命救急センター
• 患者 5043人の治療予後を比較
– 処置群:質の高い外傷センターのある18病院
– 対照群:外傷センターを持たない51病院
– 共変量:処置群は年齢が低く、依存疾患が少なく、男性・
非白人・保険未加入者が多く、症状の程度が重い
• 症状に関する変数を加えて IPW 推定量を計算
– 処置群での入院中の死亡率は有意に低く(7.6%<9.5%)、
1年以内の死亡率も有意に低かった(10.4%<13.8%)
例)小学校での英語教育の国語への影響
(Ojima and Hagiwara 2007)
• 国語テストの平均得点を比較
– 処置群:低学年から英語教育を行う学校に通う子供
– 対照群:行っていない学校に通う子供
– 単純標本平均は処置群 79.49(標準誤差 1.528) に対し、対照
群 84.87(標準誤差 1.377)。p値も 0.009 と有意に低い?
• 対照群の学校は転勤族が多く住む地域で、親の学歴や
教育費が高かった。これらの共変量を取り入れ IPW
推定量による周辺期待値の推定値を求めると、処置群
83.60±1.627、対照群 80.56±1.644、p値も 0.094 となり、
「国語テスト得点にほぼ違いがない」
「書き言葉に慣れていない低学年への英語
教育は、日本語学習に支障があるのでは」
3.3 一般化推定方程式
• 結果変数が共分散を持つ(つまり iid ではない)
一般化線形モデルを解く手法(Liang and Zeger 1986)
• 𝑦 の 𝑤 への回帰関数を 𝜇(𝑤; 𝛽) とする
• 結果変数の variance structure 𝑉𝑖 に対し、
𝑖=1
𝑁
𝑆𝑖 𝛽 =
𝑖=1
𝑁
𝜕𝜇 𝑤𝑖; 𝛽
𝜕𝛽 𝑡
𝑉𝑖
−1
𝑦𝑖 − 𝜇 𝑤𝑖; 𝛽 = 0
• を解くと、母数 𝛽 の一致推定量が得られる
– 多変量ガウス分布の平均の最尤推定と同じ式?
結果変数同士の相関を
反映した「作業共分散行列」
※章の流れ的に因果効果に関係あるとばかり思っていて混乱した。実は因果効果は
直接は関係なく、IPW の考え方を一般化推定方程式に使った時の話
一般化推定方程式 with 欠測値
• 結果変数 𝑦 が欠測する場合:
– 𝑧 を欠測するかどうかを表す変数とする
• 𝑧 が従属変数 𝑤 にのみ依存する、つまり 𝑝 𝑧𝑖 𝑦𝑖, 𝑤𝑖 = 𝑝 𝑧𝑖 𝑤𝑖 なら、
𝑖=1
𝑁
𝑧𝑖
𝜕𝜇 𝑤𝑖; 𝛽
𝜕𝛽 𝑡
𝑉𝑖
−1
𝑦𝑖 − 𝜇 𝑤𝑖; 𝛽 = 0
– は 𝛽 の一致推定量を与える
• 𝑧 が従属変数 𝑤 以外にも依存する変数 𝑥 があるなら、
– モデル 𝑝 𝑧𝑖 𝑥𝑖, 𝑤𝑖; 𝛼 を考え、𝜒𝑖 𝛼 =
1
𝑝 𝑧𝑖 𝑥𝑖, 𝑤𝑖; 𝛼
とおくと
𝑖=1
𝑁
𝜒𝑖 𝛼
𝜕𝜇 𝑤𝑖; 𝛽
𝜕𝛽 𝑡
𝑉𝑖
−1
𝑦𝑖 − 𝜇 𝑤𝑖; 𝛽 = 0
– は 𝛽 の一致推定量を与える(Robins+ 1994)
逆確率重み付け!
反実仮想的枠組みを入れる
3.4 傾向スコアによる重み付き M 推定量
• 目的: 𝐸 𝑦1 − 𝑦0 や 𝐸 𝑦𝑗 ではなく、𝑝 𝑦𝑗 = 𝑝 𝑦𝑗 𝜃
が知りたい
– 結果変数や共変量以外の変数との関係を見たい
– 結果変数間の相関構造を見たい
• N人の対象者は 𝐽 個の群いずれかに属す
– 𝑧𝑖 ∈ {1, ⋯ , 𝐽} : i 番目の対象者が属する群
– 𝑧𝑖𝑗 = 1 (𝑧𝑖 = 𝑗), 𝑧𝑖𝑗 = 0 (𝑧𝑖 ≠ 𝑗)
– 𝑦𝑖𝑗 : i 番目の対象者が j 群に属した時の潜在的な結果変数
– 𝑥𝑖 : i 番目の対象者の共変量
PME(Propensity score weighted M-Estimator)
•
∀
𝑦𝑖𝑗 が観測されるときのM-推定関数を 𝑚𝑗 𝑦𝑖𝑗 𝜃 とする
– とりあえず対数尤度を想像しておくといい
–
1
𝑁 𝑖=1
𝑁
𝑗=1
𝐽
𝑚𝑗 𝑦𝑖𝑗 𝜃 を最大化する 𝜃 を求める流れ
• しかし実際には 𝑧𝑖𝑗 = 0 な 𝑦𝑖𝑗 は欠測
– そこで次の目的関数 𝑄 𝑊 を最適化する 𝜃 = 𝜃 を求める
𝑄 𝑊 𝑦, 𝑥, 𝑧 𝜃, 𝛼 =
1
𝑁
𝑖=1
𝑁
𝑗=1
𝐽
𝑧𝑖𝑗
𝑒𝑗 𝑥𝑖, 𝛼
𝑚𝑗 𝑦𝑖𝑗 𝜃
– ただし 𝑒𝑗 𝑥𝑖, 𝛼 = 𝑝 𝑧𝑖 = 𝑗 𝑥𝑖 は一般化傾向スコアの推定値
– M-推定量の議論から、 𝜃 は 𝜃 の真値の一致推定量となる
• 漸近分散も評価できるが、そのへんもろもろは省略
推定値が推定「方程式の解」
ではなく推定「関数の最適
化」によって与えられる話に
変わっているので注意。
まじめにやるなら、ここで推
定関数と呼んでいるものの
偏微分=0 を推定方程式とす
るべきなのだろう
IPW なアプローチの問題点
• 𝑝 𝑧 = 1 𝑥 の推定時には対照群の共変量の情
報を用いているが、平均や母数の推定時には
用いない(重み 0 のため項ごと消える)
– もったいない!
• 𝑝 𝑧 = 1 𝑥 のモデル(一般にロジスティック
回帰)が正しくない(=真のモデルとかけはなれている?)
場合に、誤った結果を与える可能性がある
3.5 二重にロバストな推定
(Doubly Robust Estimator)
• 𝑔 𝑥; 𝛽1 を 𝑦1 の 𝑥 における回帰関数(≈ 𝐸 𝑦1 𝑥 )、
𝛽1 をその母数の一致推定量とするとき
𝐸 𝐷𝑅
𝑦1 ≔
1
𝑁
𝑁
𝑧𝑖
𝑒 𝑥𝑖, 𝛼
𝑦𝑖1 + 1 −
𝑧𝑖
𝑒 𝑥𝑖, 𝛼
𝑔 𝑥𝑖, 𝛽1
• はある条件の下で 𝐸 𝑦1 の一致推定量を与える
– IPW では 𝑧/𝑒を平均の重みとする
– DR では 𝑧/𝑒: 1 − 𝑧/𝑒 を観測値と、回帰による推定値
との配分の割合とする
• 𝐸 𝐷𝑅 𝑦0 も同様に定義
𝐸 𝐷𝑅
が一致推定量となる条件
第2項が0になればいい
• 次の条件A or B が成立すれば 𝐸 𝐷𝑅 𝑦1 は 𝐸 𝑦1 の一致推定量
– 条件A: 𝑝 𝑧 = 1 𝑥 のモデルが正しい
– 条件B: 𝑔 𝑥; 𝛽1 のモデルが正しい
• ∵ 𝐸 𝐷𝑅
𝑦1 の式から 𝑦𝑖1 をくくりだすと
𝐸 𝐷𝑅
𝑦1 =
1
𝑁
𝑁
𝑦𝑖1 +
𝑧𝑖 − 𝑒 𝑥𝑖, 𝛼
𝑒 𝑥𝑖, 𝛼
𝑦𝑖1 − 𝑔 𝑥𝑖, 𝛽1
→ 𝐸 𝑦1 + 𝐸
𝑧 − 𝑒 𝑥, 𝛼∗
𝑒 𝑥, 𝛼∗
𝑦1 − 𝑔 𝑥, 𝛽1
∗
– ただし 𝛼∗, 𝛽1
∗
はそれぞれの極限
• 「正しいモデル」 なら 𝛼 らは一致推定量ゆえ、極限では真値に収束
IPW のとこでも書いたけど、
本では期待値を取っているが、
示したいのは一致性なので
極限を取るべき
• A ⇒ 第2項= 𝐸 𝑦,𝑥 𝐸𝑧|𝑦,𝑥
𝑧−𝑒 𝑥,𝛼∗
𝑒 𝑥,𝛼∗ 𝑦1 − 𝑔 𝑥, 𝛽1
∗
– 𝑦𝑗 ⊥ 𝑧|𝑥 より 𝐸𝑧|𝑦,𝑥 𝑧 = 𝐸𝑧|𝑥 𝑧 = 𝑒 𝑥, 𝛼∗
– ∴ 第2項=0
• B ⇒第2項= 𝐸𝑧,𝑥 𝐸 𝑦|𝑧,𝑥
𝑧−𝑒 𝑥,𝛼∗
𝑒 𝑥,𝛼∗ 𝑦1 − 𝑔 𝑥, 𝛽1
∗
– 𝑔 が正しいなら、𝐸 𝑦|𝑥 𝑦1 = 𝑔 𝑥, 𝛽1
∗
– ∴ 第2項=0
PME のロバスト化
• 同様に推定方程式と、周辺の共変量を
使った推定値とを 𝑧/𝑒: 1 − 𝑧/𝑒 の割合で混
ぜる
3.6 𝑝(𝑦|𝑧) の母数推定
• 𝑇𝐸𝑇 = 𝐸 𝑦1 𝑧 = 1 − 𝐸 𝑦0 𝑧 = 1 を推定するには 𝑝 𝑦 𝑧 の考
え方を利用
– 何も仮定(モデル)を置かなければ、欠測している網掛け部の母数
を推定できない
• 強く無視できる割り当て仮定のもとで、𝑝 𝑦1 𝑧 = 0, 𝜃10 の母
数𝜃10 (or統計量)の一致推定量は
– 𝐸 𝑦1|𝑧=0
𝜕
𝜕𝜃10
𝑚10 𝑦1 𝜃10 = 0 を満たす推定関数𝑚10について
– 𝑄10
𝑊
=
1
𝑁 𝑖=1
𝑁 𝑧 𝑖 1−𝑒 𝑥 𝑖, 𝛼
𝑒 𝑥 𝑖, 𝛼
𝑚10 𝑦𝑖1 𝜃10 を最大化する 𝜃10
• とくに 𝜇10 = 𝐸 𝑦1 𝑧 = 0 を推定するなら
– 𝑄10
𝑊
= −
1
𝑁 𝑖=1
𝑁 𝑧 𝑖 1−𝑒 𝑥 𝑖, 𝛼
𝑒 𝑥 𝑖, 𝛼
𝑦𝑖 − 𝜇10
2
として
– 𝜇10 =
𝑖=1
𝑁 𝑧 𝑖 1−𝑒 𝑥 𝑖, 𝛼
𝑒 𝑥 𝑖, 𝛼
𝑦 𝑖
𝑖=1
𝑁
𝑧 𝑖 1−𝑒 𝑥 𝑖, 𝛼
𝑒 𝑥 𝑖, 𝛼
が得られる
• 同様に 𝜇01 を求めて、
– 𝑇𝐸𝑇 = 𝑦1 − 𝜇01 = 𝑦1 −
𝑖=1
𝑁 1−𝑧 𝑖 𝑒 𝑥 𝑖, 𝛼
1−𝑒 𝑥 𝑖, 𝛼
𝑦 𝑖
𝑖=1
𝑁 1−𝑧 𝑖 𝑒 𝑥 𝑖, 𝛼
1−𝑒 𝑥 𝑖, 𝛼
• さらに同様に二重にロバストな推定量を求めることもできる
3.7 操作変数法
• 回帰分析モデルでは説明変数と誤差が無相関
である仮定が要請される
– 𝑦 = 𝜃1 + 𝜃2 𝑥 + 𝜖 において 𝑥 ⊥ 𝜖
• 一般にはこの仮定は満たされない
– 成績、病気の致死率のばらつき 𝜖 は人 𝑥 による
• 「操作変数」を導入
– 独立変数(割り当て)とは相関があるが、誤差とは
無相関な変数
例:コロンビアの教育バウチャー制度
• 私立中学の授業料の半額を補助
– 対象:くじ(無作為)で当たった9万人の生徒のう
ち、私立中学に入学した者
• この制度の因果効果を推定するには?
– 割り当て 𝑧 = 1 は「くじで当たった群」?
• 当たっても半額じゃ私立に行けないから辞退
– それとも「くじに当たって私立入学」?
• 当たらなくても私立に行く=保護者が裕福=成績高め
• 誤差と相関あり
LATE / 操作変数
• 𝑧 ∈ {1,0} : くじ当たり(1)/はずれ(0) (操作変数)
• 𝑑 ∈ {1,0} : 私立入学(1)/入学せず(0) (割り当て)
– 𝑑1:くじに当たったら~、𝑑0:くじにはずれたら~
– 𝑑 = 𝑧𝑑1 + 1 − 𝑧 𝑑0
• 𝑦1:私立入学した場合の成績、𝑦0:しなかった場合 (結果変数)
– 𝑦 = 𝑑𝑦1 + 1 − 𝑑 𝑦0
• バウチャーの効果 = 𝐸 𝑦1 − 𝑦0 𝑑1 = 1, 𝑑0 = 0
– 「くじに当たったら私立に行くが、はずれたら行かない」(𝑑1 =
1, 𝑑0 = 0)群が私立に行った場合の成績上昇度
– 𝑧 (実際にくじが当たったかどうか)は見ていない
LATE (Local Averate
Treatment Effect)
Assumption of LATE [Angrist+ 1996]
– LATE に課される一般的な仮定
– 書籍でも一応触れられてはいるのだが、 𝑑 𝑧 ⊥ 𝑧 とか解釈のしよ
うがないため、元論文を参照
• d は同じ対象者の z のみに依存
• y は同じ対象者の d のみに依存 i.e. 𝑦1, 𝑦0 ⊥ 𝑧 | 𝑑
• 𝐸 𝑑1 − 𝑑0 ≠ 0、とくに d は z と独立でない
• z は無作為(P(z=1) が個体によらない)
• 単調性 : 𝑑1 ≥ 𝑑0
– defiers (𝑑1 = 0, 𝑑0 = 1) はいない
• この仮定のもとで 𝐿𝐴𝑇𝐸 =
𝐸 𝑦 𝑧 = 1 −𝐸 𝑦 𝑧 = 0
𝐸 𝑑 𝑧 = 1 −𝐸 𝑑 𝑧 = 0
くじが当たったら私立行かない
はずれたら行く
3.8 回帰分断デザイン
• 書籍でも雰囲気に触れているだけなので
パス
3.9 差分の差
• 経済・政治・教育における「介入」の効果
– 処置群(介入対象)と対照群は質的に大きく異なる
ことが多い
• 対象の観測値は介入後も比較的低く、対照群と単純比
較できない(例:成績悪いから補習)
• 処置前後での変化量に注目したい
DID (Difference In Differences)
• 差分の差=介入後の差-介入前の差
=処置群での介入前後の差-対照群での差
• 𝐷𝐼𝐷 = 𝐸 𝑦1𝑏 − 𝑦0𝑏 − 𝐸 𝑦1𝑎 − 𝑦0𝑎
= 𝐸 𝑦1𝑏 − 𝑦1𝑎 − 𝐸 𝑦0𝑏 − 𝑦0𝑎
= 𝐸 𝑦1𝑏 − 𝑦1𝑎|𝑧 = 1 − 𝐸 𝑦0𝑏 − 𝑦0𝑎|𝑧 = 0
=
1
𝑁1
𝑖:𝑧 𝑖=1(𝑦𝑏
(𝑖)
− 𝑦𝑎
𝑖
) −
1
𝑁0
𝑖:𝑧 𝑖=0(𝑦𝑏
(𝑖)
− 𝑦𝑎
𝑖
)
本来 𝑦0𝑎, 𝑦1𝑎 を区別せず
𝑦𝑎 とするが、説明の容易さの
ため、今だけ分けている
𝑦0𝑎𝑦1𝑎
𝑦1⋅, 𝑦0⋅ : 介入があった場合(z=1), 介入が
なかった場合(z=0)
𝑦⋅𝑎, 𝑦⋅𝑏 : 介入前(時刻 a)、介入後(時刻 b)
かんたんに
求められる
DID と TET の差
• 𝐷𝐼𝐷 = 𝐸 𝑦1𝑏 − 𝑦𝑎 𝑧 = 1 − 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 0
• 𝑇𝐸𝑇 = 𝐸 𝑦1𝑏 − 𝑦0𝑏 𝑧 = 1
∴ 𝐷𝐼𝐷 − 𝑇𝐸𝑇
= 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 1 − 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 0
• DID と TET が等しい
⇔ 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 1 − 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 0 = 0
– つまり「介入対象とならなかったときの2群の経
時変化が等しい」と仮定すれば、 TET=DID
本では謎い式変形をしているが
単純に引けばいい
セミパラメトリックな「差分の差」推定
• p106 の TET などの数式展開が間違ってい
る
– × 𝐸 ⋅ 𝑧 = 1 = 𝐸 𝑥 𝐸 ⋅ 𝑧 = 1, 𝑥
– ○ 𝐸 ⋅ 𝑧 = 1 = 𝐸 𝑥|𝑧=1 𝐸 ⋅ 𝑧 = 1, 𝑥
• 正しい計算は元論文読まないと多分わか
らない(まだ読んでない)

星野「調査観察データの統計科学」第3章

  • 1.
  • 2.
  • 3.
    調査観察研究 • 実験(無作為割り当て)ができない研究 – 対象が理論的・倫理的に操作可能ではない –実験という特殊性により、被験者が通常と異なる 行動を取る可能性がある – コストが高く、サンプルが小さすぎる – 被験者の負担が高く、少数の協力者に限定される • 割り当ては無作為であっても、不遵守(被験者のサボ り)が起きると、無作為データで無くなる
  • 4.
    Notation • 𝑧 ∈{0,1} : 割り当て(所属群を表す独立変数) • 𝑑 ∈ {0,1} : 割り当てを受け入れたか否か • 𝑦 : (潜在的な)結果変数 – 𝑦1 : 処置群(特別な条件を与えた群, 𝑧 = 1) – 𝑦0 : 対照群(条件を与えていない群, 𝑧 = 0) – 𝑦 = 𝑧𝑦1 + 1 − 𝑧 𝑦0 • 𝒙 : 共変量 – 結果変数と割り当ての両方に影響のある量 – すべての対象者について観測できる量 • 観測できない共変量がある場合については4章 3.7 章で登場
  • 5.
    欠測のメカニズム 𝑝 𝑦1, 𝑦0,𝑧, 𝒙 = 𝑝(𝑧|𝑦1, 𝑦0, 𝒙)𝑝(𝑦1, 𝑦0|𝒙) 𝑝(𝒙) 1. 完全にランダムな欠測 – 欠測するかどうかは結果変数に(全く間接的にも)依存しない – 𝑝 𝑧 𝑦, 𝒙 = 𝑝(𝑧) 2. 強く無視できる割り当て – 割り当ては共変量のみに依存し、結果変数に(直接は)依存しない – 𝑝 𝑧 𝑦, 𝒙 = 𝑝 𝑧 𝒙 3. ランダムな欠測 – 欠測するかどうかは欠測値には依存せず、観測値に依存 • このとき、モデルパラメータは観測値のみから最尤推定できる – 𝑝 𝑧 = 𝑗 𝑦, 𝒙 = 𝑝 𝑧 = 𝑗 𝑦𝑗, 𝒙
  • 6.
    因果効果(Rubin 1974) • 因果効果= 𝑦1 − 𝑦0 – 処置群に割り当てられた場合の結果と、割り当てら れていなかった場合の結果の差 – 割り当て以外の対象者の要因が除外された量 – 片方は欠測値なので、直接計算はできない • Rubin の因果効果 = 𝐸 𝑦1 − 𝐸 𝑦0 – 処置群が無作為抽出なら、各群の観測値の平均の差 𝐸 𝑦1 𝑧 = 1 − 𝐸 𝑦0 𝑧 = 0 に一致 𝐸 𝑦1 𝑧 = 1 は 観測値の平均 処置群(z) 1 1 1 0 0 0 対象者番号 1 2 … … N-1 N … … … … 早期教育する群(z=1) 早期教育しない群(z=0) 𝐸(𝑦1) ここを推定する必要がある
  • 7.
    因果効果と介入効果の関係 • 処置群での平均介入効果(average TreatmentEffect on the Treated) – 𝑇𝐸𝑇 = 𝐸 𝑦1 − 𝑦0 𝑧 = 1 • 対照群での平均介入効果(average Treatment Effect on the Untreated) – 𝑇𝐸U = 𝐸 𝑦1 − 𝑦0 𝑧 = 0 • このとき因果効果は – 𝐸 𝑦1 − 𝑦0 = 𝑇𝐸𝑇 × 𝑝 𝑧 = 1 + 𝑇𝐸𝑈 × 𝑝(𝑧 = 0) – 処置群と対照群の母集団における割合に依存
  • 8.
    共変量調整 • 因果効果=処置群の期待値-対照群の期待値 – 共変量の影響により見かけ上の関係(擬似相関)やバイ アスが生じる可能性がある –早期教育の例:「中学校での英語の成績」(結果変 数)も「小学校での英語教育の有無」(割り当て) もどちらも親の教育意欲や収入などの影響を受ける • 共変量調整: – 結果変数から共変量の影響を除去すること – 影響を除去しても残る相関から因果効果を求めたい 一般には難しかったりめんどくさかったり
  • 9.
    強く無視できる割り当て • 「割り当ては共変量のみに依存し、結果変数には 依存しない」という仮定 – (𝑦1,𝑦0) ⊥ 𝑧|𝒙 すなわち 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 = 𝑝 𝑧 𝒙 • このとき、 𝑝 𝑦1, 𝑦0, 𝑧, 𝒙 = 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙 = 𝑝 𝑧 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙 • 𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 も成立 – 共変量を条件付ければ、 𝑦1, 𝑦0 の同時分布はどちら の群に割り当てられたかに依存しない 𝑥 𝑦 𝑧 この分解の時に 𝑦 → 𝑧 が切れる ホントは条件付き独立の記号(縦2本)
  • 10.
    因果効果 on 強く無視できる割り当て •𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 から、平均での独 立性が得られる – 𝐸 𝑦1 𝑧 = 1, 𝒙 = 𝐸 𝑦1 𝒙 – 𝐸 𝑦0 𝑧 = 0, 𝒙 = 𝐸 𝑦0 𝒙 • よって 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝒙 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝒙[𝐸 𝑦1 𝑧 = 1, 𝒙 − 𝐸 𝑦0 𝑧 = 0, 𝒙 ]
  • 11.
    共変量調整による因果効果の推定法 1. マッチング – 各群から共変量が一致する(or近い)対象者のペアを作 り、その 𝑦1 − 𝑦0 の標本平均を取る 2. 層別解析 – (何らかの基準で5つほどの)サブクラスに分け、各ク ラスで 𝐸 𝑦1 − 𝐸 𝑦0 を求め、クラスのサイズで重み づけた平均を取る 3. 回帰モデルを用いる方法 – 各群ごとに回帰関数 𝐸 𝑦𝑗 𝑧 = 𝑗, 𝑥 を推定、その差の 標本平均を取る
  • 12.
    マッチング・層別解析の欠点 • 恣意性 – 「近さ」の定義が恣意的 •次元問題 – 高次元だと実行コストが高い • サポート問題 – スパースだと「近い」対象者が存在しない
  • 13.
  • 14.
    傾向スコア (Rosenbaum &Rubin 1983) • 「複数の共変量を1つの変数に集約するこ とができれば、その1変数上で層別化など を行うことができ、マッチングや層別で の問題が起こらない、ということから考 えだされた概念」(p60)
  • 15.
    バランシングスコア • 𝑏 𝒙が「バランシングスコア」とは 𝒙 ⊥ 𝑧|𝑏(𝒙) – (そのような 𝑏(𝒙) が存在するとはまだ言ってない) • 𝒙 ⊥ 𝑧|𝑏(𝒙) ⇔ 𝑝 𝑧 𝑥, 𝑏 𝒙 = 𝑝 𝑧 𝑏 𝒙 • Proposition 𝒙 ⊥ 𝑧|𝑏 𝒙 ⇔ ∃ 𝑔, 𝑝 𝑧 = 1 𝒙 = 𝑔 𝑏 𝒙 – 𝑝 𝑧 = 1 𝒙 が 𝑏 𝒙 で決まる 𝑥 𝑧 𝑏(𝑥)
  • 16.
    • [⇒] 𝑥を止めた時 𝑏(𝑥) も止まるので 𝑝 𝑧 𝑥 = 𝑝 𝑧 𝑥, 𝑏 𝑥 より 𝑝 𝑧 𝑥 = 𝑝 𝑧 𝑥, 𝑏 𝑥 = 𝑝 𝑧 𝑏 𝑥 よって 𝑔 𝑏 𝑥 ≔ 𝑝(𝑧 = 1|𝑏 𝑥 ) とおけばよい • [⇐] 𝑝 𝑧 = 1 𝑏 𝑥 = 𝑝(𝑧 = 1|𝑥) を示せば良い 𝑒 = 𝑏(𝑥) を固定して、 𝑝 𝑧 = 1 𝑏 𝑥 = 𝑒 = 𝑥|𝑏 𝑥 =𝑒 𝑝 𝑧 = 1, 𝑥 𝑏 𝑥 = 𝑒 𝑑𝑥 = 𝑥|𝑏 𝑥 =𝑒 𝑝 𝑧 = 1 𝑥, 𝑏 𝑥 = 𝑒 𝑝 𝑥 𝑏 𝑥 = 𝑒 𝑑𝑥 = 𝑥|𝑏 𝑥 =𝑒 𝑔 𝑏 𝑥 = 𝑒 𝑝(𝑥|𝑏 𝑥 = 𝑒)𝑑𝑥 = 𝑔 𝑏 𝑥 = 𝑒 𝑥|𝑏 𝑥 =𝑒 𝑝(𝑥|𝑏 𝑥 = 𝑒)𝑑𝑥 = 𝑔 𝑏 𝑥 = 𝑒 = 𝑝(𝑧 = 1|𝑥) 𝒙 ⊥ 𝑧|𝑏 𝒙 ⇔ ∃ 𝑔, 𝑝 𝑧 = 1 𝑥 = 𝑔(𝑏 𝑥 )の証明 ※書籍は必要条件を証明しているように書いているが、𝑝(𝑧 = 1|𝑥) = 𝑔(𝑏(𝑥))を使って等式を導き、そ の等式が成立するためには𝑝(𝑧 = 1|𝑥) = 𝑔(𝑏(𝑥))が必要という流れになっており、残念ながら証明とは 言えない。また、あとの傾向スコアがバランシングスコアであることを言うために使うのは十分条件の方である [Rosenbaum, Rubin 1983] では 背理法を使っているが その必要はない [Rosenbaum, Rubin 1983] では これが 𝐸 𝑝 𝑧 = 1 𝑥 𝑏 𝑥 で あることをだけを指摘した 簡潔な証明になっている
  • 17.
    傾向スコア • 𝑒𝑖 ≔𝑝 𝑧𝑖 = 1 𝒙𝑖 を第 i 対象者の傾向スコアとい う • 傾向スコアはバランシングスコア – b 𝒙𝑖 ≔ 𝑒𝑖 for all i – 𝑔 b 𝒙 ≔ b 𝒙 は 𝑝 𝑧 = 1 𝒙 = 𝑔(𝑏 𝒙 ) を満たすの で、Proposition の十分条件により 𝑒𝑖 はバランシング スコア • 𝑒𝑖 の真値はわからない – {𝒙𝑖, 𝑧𝑖} を観測値とし 𝑏 𝒙 = 𝑝 𝑧 = 1 𝒙 をロジス ティック回帰で推定、 𝑒𝑖 = 𝑏 𝒙𝑖 とする
  • 18.
    バランシングスコア+強く無視できる割り当て • 𝑏 𝒙がバランシングスコア、かつ「強く無視できる割 り当て」ならば、 𝑦𝑗と z は b(z) の元で条件付き独立 𝒙 ⊥ 𝑧|𝑏 𝒙 ⋀ 𝑦1, 𝑦0 ⊥ 𝑧|𝒙 ⇒ (𝑦1, 𝑦0) ⊥ 𝑧|𝑏 𝒙 [証明] • (1) 𝑝 𝑧, 𝑥 𝑦1, 𝑦0, 𝑏 𝑥 = 𝑝 𝑥 𝑦1, 𝑦0, 𝑧, 𝑏 𝑥 𝑝 𝑧 𝑦1, 𝑦0, 𝑏 𝑥 = 𝑝 𝑥 𝑦1, 𝑦0, 𝑏 𝑥 𝑝 𝑧 𝑦1, 𝑦0, 𝑏 𝑥 ∵ 𝒙 ⊥ 𝑧 𝑏 𝒙 • (2) 𝑝 𝑧, 𝑥 𝑦1, 𝑦0, 𝑏 𝑥 = 𝑝 𝑧 𝑦1, 𝑦0, 𝑥, 𝑏 𝑥 𝑝 𝑥 𝑦1, 𝑦0, 𝑏 𝑥 = 𝑝 𝑧 𝑥, 𝑏 𝑥 𝑝 𝑥 𝑦1, 𝑦0, 𝑏 𝑥 ∵ 𝑦1, 𝑦0 ⊥ 𝑧 𝒙 = 𝑝 𝑧 𝑏 𝑥 𝑝 𝑥 𝑦1, 𝑦0, 𝑏 𝑥 ∵ 𝒙 ⊥ 𝑧 𝑏 𝒙 • (1)=(2) より 𝑝 𝑧 𝑦1, 𝑦0, 𝑏 𝑥 = 𝑝 𝑧 𝑏 𝑥 ※書籍の証明は積分を使っているが、上に見る通り乗法公式のみで示すことができる。またそこ の積分では、𝑥で期待値をとっているのに𝑥が残っており、間違いにしか見えないが、これはおそらく 一度𝑔(𝑏(𝑥))に置き換えてから戻すというステップを省略しているのだと思われる。多分……。 𝑥 𝑦𝑗 𝑧 𝑏(𝑥) グラフィカル モデルを見れば 一目瞭然
  • 19.
    傾向スコアを使った因果効果推定 • 傾向スコア 𝑒と強く無視できる割り当て のもとで、 – 𝐸 𝑦𝑗 𝑒 = 𝐸 𝑦𝑗 𝑒, 𝑧 = 𝑗 ゆえ – 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸𝑒 𝐸 𝑦1 − 𝑦0 𝑒 = 𝐸𝑒 𝐸 𝑦1 𝑒, 𝑧 = 1 − 𝐸 𝑦0 𝑒, 𝑧 = 0 – 𝐸 𝑦1 𝑒, 𝑧 = 1 − 𝐸 𝑦0 𝑒, 𝑧 = 0 が推定できれば 因果効果が得られる
  • 20.
    𝐸 𝑦1 𝑒,𝑧 = 1 − 𝐸 𝑦0 𝑒, 𝑧 = 0 の推定 • マッチング – 2群で傾向スコアが等しい(近い)対象者ペアの 𝑦1 − 𝑦0 を平均 – 共変量を使ったマッチングにあった距離の定義の恣意性や次元 問題、サポート問題が大幅に解消 • 層別解析 – 傾向スコアの大小によって5つほどのサブクラスに分け、各クラ ス内で (𝑦1 の平均)- (𝑦0 の平均) をとり、クラスの大きさの重み をかけた平均を推定値とする • 線形回帰(共分散分析) – 𝑧, 𝑒 を説明変数として 𝐸(𝑦𝑗|𝑧 = 𝑗, 𝑒) を線形回帰で推定 • (IPW推定量:のちほど)
  • 21.
    傾向スコアの問題点 1. 3群以上の比較に関心がある場合も、2群ごとの推定となり、 母集団が各2群ごとに異なる 2. マッチング・層別解析では、推定した因果効果の標準誤差 が計算できない 3.個々の 𝐸 𝑦𝑗 の推定はできない 4. ペアや層を作る基準に恣意性が残る 5. マッチングでペアから漏れた対象者のデータが無駄になり、 推定値も「対象者の少ない方の群の共変量の分布」上での 期待値をとったものとなる 6. 線形回帰は線形性を仮定するが、𝑧 ∈ {0,1} なので無理があ る
  • 22.
    𝐸 𝑦𝑗 の推定 •𝐸 𝑦1 ≅ 1 𝑁 𝑖=1 𝑁 𝑦𝑖1 は欠測している 𝑦𝑖1 がある ため計算できない • 重み付き平均 𝑖=1 𝑁 𝑤𝑖 𝑦 𝑖 𝑖=1 𝑁 𝑤𝑖 で、その重み 𝑤𝑖 が欠 測している 𝑦𝑖1 に対しては 0 になっていて、 かつ 𝑁 → ∞ のときに推定値が期待値に一致 してくれるような、そんな都合のいい重みが あればいいのに → IPW 推定量
  • 23.
    IPW 推定量 (Inverse ProbabilityWeighting) • 傾向スコアの逆数による重み付け平均を周辺期待値の 推定値とする手法 • 𝑤𝑖 = 𝑧𝑖/𝑒𝑖, 𝑣𝑖 = 1 − 𝑧𝑖 /(1 − 𝑒𝑖) とすると、 𝐸 𝑦1 ≔ 𝑖=1 𝑁 𝑤𝑖 𝑦𝑖 𝑖=1 𝑁 𝑤𝑖 = 𝑖=1 𝑁 𝑧𝑖 𝑦𝑖 𝑒𝑖 𝑖=1 𝑁 𝑧𝑖 𝑒𝑖 𝐸 𝑦0 ≔ 𝑖=1 𝑁 𝑣𝑖 𝑦𝑖 𝑖=1 𝑁 𝑣𝑖 = 𝑖=1 𝑁 (1 − 𝑧𝑖)𝑦𝑖 1 − 𝑒𝑖 𝑖=1 𝑁 1 − 𝑧𝑖 1 − 𝑒𝑖 ※潜在的な結果変数 𝑦1, 𝑦0 と、i番目の対象者の結果変数 𝑦𝑖 の notation がゴッチャになってい るが、心の目で見れば区別できるので、特にフォローせず本のとおりに記載する
  • 24.
    IPW 推定量の一致性 • IPW推定量は一致性をもつ(つまり lim 𝑁→∞ 𝐸 𝑦𝑗 = 𝐸 𝑦𝑗 )ことを示す – 𝐸 𝑧|𝒙 = 1 ⋅ 𝑝 𝑧 = 1 𝑥 + 0 ⋅ 𝑝 𝑧 = 0 𝑥 = 𝑒 より 𝐸 𝑧 𝑒 = 𝐸 𝑧 𝑒 = 𝐸 𝑥 𝐸 𝑧 𝑥 𝑒 = 𝑒 𝑒 = 1 – 𝑧𝑦 = 𝑧 𝑧𝑦1 + 1 − 𝑧 𝑦0 = 𝑧𝑦1 (∵ 𝑧 ∈ 0,1 ゆえ 𝑧2 = 𝑧, 𝑧 1 − 𝑧 = 0) – 𝐸 𝑧𝑦 𝑒 = 𝐸 𝑧𝑦1 𝑒 = 𝐸 𝑥 𝐸 𝑧𝑦1 𝑒 |𝑥 = 𝐸 𝑥 1 𝑒 𝐸 𝑧 𝑥 𝐸 𝑦1 𝑥 ∵ 𝑧 ⊥ 𝑦𝑗 𝑥 = 𝐸 𝑥 𝐸 𝑦1 𝑥 = 𝐸 𝑦1 – ∴ 𝐸 𝑦1 = 𝑖=1 𝑁 𝑧 𝑖 𝑦 𝑖 𝑒 𝑖 𝑖=1 𝑁 𝑧 𝑖 𝑒 𝑖 = 1 𝑁 𝑖=1 𝑁 𝑧 𝑖 𝑦 𝑖 𝑒 𝑖 1 𝑁 𝑖=1 𝑁 𝑧 𝑖 𝑒 𝑖 → 𝐸 𝑧𝑦 𝑒 𝐸 𝑧 𝑒 = 𝐸 𝑦1 • 𝑦0 についても同様 書籍はこのステップが なぜか省略されている
  • 25.
    IPW 推定量の漸近分散 • 推定量がどれくれい信頼できるかの見積もり 𝑁𝐸 𝑦𝑗 − 𝐸 𝑦𝑗 ~𝑁 0, 𝜎2 where 𝜎2 = 1 𝑁 𝑖=1 𝑁 𝑧𝑖 𝑦𝑖 − 𝐸 𝑦1 2 𝑒𝑖 2 + 1 − 𝑧𝑖 𝑦𝑖 − 𝐸 𝑦0 2 1 − 𝑒𝑖 2 • M推定量の枠組みから導く – 一致推定量とその分散が得られるフレームワーク
  • 26.
    書籍の M 推定量まわりの話 •全部フォローしていると大変なので部分的に – ここからしばらく、書籍を持っていること前提で 差分だけ書く。持ってない人ごめんなさい – 書籍では、目的関数を =0 とおいてその解が求め る推定量だったり、別の場所では目的関数を最適 化してその最大・最小を与えるのが推定量だった りとゴッチャなのだが、そこはツッコまない。
  • 27.
    書籍 p70 – 書籍の記号では混乱するので、思い切って変える –書籍では真値は 𝜃0 だが、それはパラメータに使いたいので、𝜃∗ を真値とした • 付録 A.1 節での 𝜽 = 𝜃1, 𝜃0 𝑡 を真値 𝜽∗ が 𝐸 𝑦1 , 𝐸 𝑦0 𝑡 である母数 とし、 関数 𝒎 を 𝒎 𝑦, 𝜽 = 𝑧 𝑒 𝑦 − 𝜃1 , 1 − 𝑧 1 − 𝑒 𝑦 − 𝜃0 𝑡 • とおけば、 𝐸 𝒎 y, 𝜽 = 0 は 𝐸 𝑦1 , 𝐸 𝑦0 𝑡 を解に持つM推定量の推定方 程式となり、式(A.2)は 1 𝑁 𝑖=1 𝑁 𝑧𝑖 𝑒𝑖 𝑦𝑖 − 𝜃1 , 1 − 𝑧𝑖 1 − 𝑒𝑖 𝑦𝑖 − 𝜃0 = 0 • となる。これを 𝜃1, 𝜃0 について解くと IPW 推定量 (3.8) が得られる。 これ最重要ポイント 𝜃をこうおけば、あとは普通に 式展開できるようになる
  • 28.
    書籍 p71 :𝑨 𝜽∗ 𝑨 𝜽∗ = 𝐸 − 𝜕 𝜕𝜽 𝑡 𝒎 𝑦, 𝜽 𝜽=𝜽∗ = 𝐸 − 𝜕 𝜕𝜃1 𝑧 𝑒 𝑦 − 𝜃1 − 𝜕 𝜕𝜃0 𝑧 𝑒 𝑦 − 𝜃1 − 𝜕 𝜕𝜃1 1 − 𝑧 1 − 𝑒 𝑦 − 𝜃0 − 𝜕 𝜕𝜃0 1 − 𝑧 1 − 𝑒 𝑦 − 𝜃0 𝜽=𝜽∗ = 𝐸 𝑧 𝑒 0 0 1 − 𝑧 1 − 𝑒 𝜽=𝜽∗ = 1 0 0 1 最後の等号は 𝐸 𝑧|𝑥 = 𝑒 などを 使って IPW と同様に
  • 29.
    書籍 p71 :𝑩 𝜽∗ その1 – Bの計算の前に、この変形をすましとくと楽 • 𝑧2 = 𝑧 , 𝑧 1 − 𝑧 = 0 より 𝑧𝑦 = 𝑧 𝑧𝑦1 + 1 − 𝑧 𝑦0 = 𝑧𝑦1 • 同様に 1 − 𝑧 𝑦 = 1 − 𝑧 𝑦0 ∴ 𝒎 𝑦, 𝜽 = 𝑧 𝑒 𝑦 − 𝜃1 , 1 − 𝑧 1 − 𝑒 𝑦 − 𝜃0 𝑡 = 𝑧 𝑒 𝑦1 − 𝜃1 , 1 − 𝑧 1 − 𝑒 𝑦0 − 𝜃0 𝑡
  • 30.
    書籍 p71 :𝑩 𝜽∗ その2 • 𝑩 𝜽∗ = 𝐸 𝒎 𝑦, 𝜽∗ 𝒎 𝑦, 𝜽∗ 𝑡 = 𝐸 𝑧2 𝑒2 𝑦1 − 𝐸 𝑦1 2 𝑧 𝑒 𝑦1 − 𝐸 𝑦1 ⋅ 1 − 𝑧 1 − 𝑒 𝑦0 − 𝐸 𝑦0 𝑧 𝑒 𝑦1 − 𝐸 𝑦1 ⋅ 1 − 𝑧 1 − 𝑒 𝑦0 − 𝐸 𝑦0 (1 − 𝑧)2 (1 − 𝑒)2 𝑦0 − 𝐸 𝑦0 2 = 𝐸 𝑧 𝑒2 𝑦1 − 𝐸 𝑦1 2 0 0 1 − 𝑧 (1 − 𝑒)2 𝑦0 − 𝐸 𝑦0 2 ∵ 𝑧2 = 𝑧 , 𝑧 1 − 𝑧 = 0 • ここで強く無視できる割り当て条件から、 𝐸 𝑧 𝑒2 𝑦1 − 𝐸 𝑦1 2 = 𝐸 𝑥 𝐸 𝑧 𝑒2 𝑦1 − 𝐸 𝑦1 2 𝑥 = 𝐸 𝑥 𝐸 𝑧 𝑒2 𝑥 𝐸 𝑦1 − 𝐸 𝑦1 2 𝑥 = 𝐸 1 𝑒 𝑦1 − 𝐸 𝑦1 2 • 同様に E 1−𝑧 1−𝑒 2 𝑦0 − 𝐸 𝑦0 2 = 𝐸 1 1−𝑒 𝑦0 − 𝐸 𝑦0 2 ここに前スライドで変形 しといた 𝒎 𝑦, 𝜽∗ を代入 式 (3.10) ではこの変形をしたもの を使うが、次の式でまたもとに戻す ので、かなり無益な計算となる……
  • 31.
    書籍 p71 :式(3.10) • IPW 推定量 𝜃 = 𝐸 𝑦1 , 𝐸 𝑦0 の漸近分散𝑽 𝜽∗ は 𝑽 𝜽∗ = 𝑨 𝜽∗ −1 𝑩 𝜽∗ 𝐀 𝜽∗ −1 𝑡 = 𝑩 𝜽∗ • 𝑽 𝜽∗ = 𝑩 𝜽∗ から 𝐸 𝑦1 と 𝐸 𝑦0 の漸近相関は 0 であり、 よって IPW 推定量にもとづく因果効果 𝐸 𝑦1 − 𝐸 𝑦0 の漸近 分散は、 var 𝑁 𝐸 𝑦1 − 𝐸 𝑦0 = var 𝑁 𝐸 𝑦1 + var 𝑁 𝐸 𝑦0 = 𝐸 1 𝑒 𝑦1 − 𝐸 𝑦1 2 + 𝐸 1 1 − 𝑒 𝑦0 − 𝐸 𝑦0 2 (3.10改) 書籍では式 (3.10) のあとに「ただし、実際には これは計算できないので~」と続くが、式 (3.10) はほぼ計算できる。よって計算できない式に改め、 その後の文章の意味が通じるようにした
  • 32.
    書籍 p71 :(3.10) の次の式 – 式(3.10)の次の行から • ただし実際にはこれは計算出来ないので、𝐸 𝑦1 らを 推定量に、外側の期待値を観測平均で置き換えたもの を利用したいが、そのままでは欠測値 𝑦𝑗 が出てきて しまう。そこで 𝑧/𝑒2 から 1/𝑒 への置き換えをやめて 元に戻すと、欠測値の係数が 0 になり計算できるよう になる。 1 𝑁 𝑖=1 𝑁 𝑧𝑖 𝑦𝑖1 − 𝐸 𝑦1 2 𝑒𝑖 2 + 1 − 𝑧𝑖 𝑦𝑖0 − 𝐸 𝑦0 2 1 − 𝑒𝑖 2
  • 33.
    書籍 p71 :母数𝜶も同時に推定 – 𝜶も同時に推定した場合の漸近分散の結果だけあるが、M推定量のセッ ティングが明記されていないので、定式化する • ……母数𝜶を最尤法で推定する場合には、関数𝒎に対数尤度の導関 数ベクトルを追加する。すなわち 𝜽 = 𝜃1, 𝜃0, 𝜶 𝑡 𝑡 としたとき 𝒎 𝑦, 𝑧, 𝑥, 𝜽 ≔ 𝑧 𝑒 𝑦 − 𝜃1 , 1 − 𝑧 1 − 𝑒 𝑦 − 𝜃0 , 𝜕 𝜕𝜶 𝑡 𝐿 𝜶 𝑡 • ただし 𝑒 = 𝑒 𝜶 = 𝑝 𝑧 = 1 𝒙; 𝜶 = 1 1 + exp −𝜶 𝑡 𝒙 𝐿 𝜶 = 𝑧 log 𝑒 + 1 − 𝑧 log(1 − 𝑒) • とおけば、𝒎 𝑦, 𝑧, 𝑥, 𝜽 は推定方程式となり、同様に M-推定量の議 論をすればよい。
  • 34.
  • 35.
    2.7 章の実験(モデル) • 2.7章では傾向スコアを使った解析はバイアスが小さい という実験結果が示されていたので、確認してみる • 割り付け – p(x|z=1) = N(1,1), p(x|z=0) = N(-1,1) – p(z=1)=1/2 – このとき、𝑝 𝑧 = 1 𝑥 = 1 / 1 + exp −2𝑥 • 結果変数 – 𝑦𝑖𝑗 = 𝜏𝑗 + 𝛽𝑗 𝑥𝑖 + 𝜖𝑖𝑗, 𝜖𝑖𝑗~𝑁 0,1 𝑗 = 1,0 – 例) 𝜏1 = 2.0, 𝛽1 = 1.5, 𝜏0 = 0.0, 𝛽0 = 1.0 緑は z=1, 赤は z=0。直線は真の回帰直線
  • 36.
    実験(層別解析 vs IPW) •𝜏1 = 2.0, 𝜏0 = 0.0 のまま (因果効果の真値=2) 𝛽1 − 𝛽0 を [-5,5] で変化 • 因果効果を層別解析と IPW とで推定しプロット – 𝑥 ≤ −2, −2 < 𝑥 ≤ − 1, −1 < 𝑥 ≤ 0,0 < 𝑥 ≤ 1,1 < 𝑥 ≤ 2,2 < 𝑥 の6つの 層に分け、各層での𝑦1, 𝑦0 の平均の差の重み付け平 均を取る • IPW はバイアスが小さく、 層別解析は分散が小さい? 横軸が 𝛽1 − 𝛽0 、縦軸が推定量(真値=2) 赤が層別解析による因果効果の推定量、緑が IPW 推定量
  • 37.
    例)外傷センターの有用性 (MacKenzie+ 2006) – 外傷センター:外傷治療に特化した救命救急センター •患者 5043人の治療予後を比較 – 処置群:質の高い外傷センターのある18病院 – 対照群:外傷センターを持たない51病院 – 共変量:処置群は年齢が低く、依存疾患が少なく、男性・ 非白人・保険未加入者が多く、症状の程度が重い • 症状に関する変数を加えて IPW 推定量を計算 – 処置群での入院中の死亡率は有意に低く(7.6%<9.5%)、 1年以内の死亡率も有意に低かった(10.4%<13.8%)
  • 38.
    例)小学校での英語教育の国語への影響 (Ojima and Hagiwara2007) • 国語テストの平均得点を比較 – 処置群:低学年から英語教育を行う学校に通う子供 – 対照群:行っていない学校に通う子供 – 単純標本平均は処置群 79.49(標準誤差 1.528) に対し、対照 群 84.87(標準誤差 1.377)。p値も 0.009 と有意に低い? • 対照群の学校は転勤族が多く住む地域で、親の学歴や 教育費が高かった。これらの共変量を取り入れ IPW 推定量による周辺期待値の推定値を求めると、処置群 83.60±1.627、対照群 80.56±1.644、p値も 0.094 となり、 「国語テスト得点にほぼ違いがない」 「書き言葉に慣れていない低学年への英語 教育は、日本語学習に支障があるのでは」
  • 39.
    3.3 一般化推定方程式 • 結果変数が共分散を持つ(つまりiid ではない) 一般化線形モデルを解く手法(Liang and Zeger 1986) • 𝑦 の 𝑤 への回帰関数を 𝜇(𝑤; 𝛽) とする • 結果変数の variance structure 𝑉𝑖 に対し、 𝑖=1 𝑁 𝑆𝑖 𝛽 = 𝑖=1 𝑁 𝜕𝜇 𝑤𝑖; 𝛽 𝜕𝛽 𝑡 𝑉𝑖 −1 𝑦𝑖 − 𝜇 𝑤𝑖; 𝛽 = 0 • を解くと、母数 𝛽 の一致推定量が得られる – 多変量ガウス分布の平均の最尤推定と同じ式? 結果変数同士の相関を 反映した「作業共分散行列」 ※章の流れ的に因果効果に関係あるとばかり思っていて混乱した。実は因果効果は 直接は関係なく、IPW の考え方を一般化推定方程式に使った時の話
  • 40.
    一般化推定方程式 with 欠測値 •結果変数 𝑦 が欠測する場合: – 𝑧 を欠測するかどうかを表す変数とする • 𝑧 が従属変数 𝑤 にのみ依存する、つまり 𝑝 𝑧𝑖 𝑦𝑖, 𝑤𝑖 = 𝑝 𝑧𝑖 𝑤𝑖 なら、 𝑖=1 𝑁 𝑧𝑖 𝜕𝜇 𝑤𝑖; 𝛽 𝜕𝛽 𝑡 𝑉𝑖 −1 𝑦𝑖 − 𝜇 𝑤𝑖; 𝛽 = 0 – は 𝛽 の一致推定量を与える • 𝑧 が従属変数 𝑤 以外にも依存する変数 𝑥 があるなら、 – モデル 𝑝 𝑧𝑖 𝑥𝑖, 𝑤𝑖; 𝛼 を考え、𝜒𝑖 𝛼 = 1 𝑝 𝑧𝑖 𝑥𝑖, 𝑤𝑖; 𝛼 とおくと 𝑖=1 𝑁 𝜒𝑖 𝛼 𝜕𝜇 𝑤𝑖; 𝛽 𝜕𝛽 𝑡 𝑉𝑖 −1 𝑦𝑖 − 𝜇 𝑤𝑖; 𝛽 = 0 – は 𝛽 の一致推定量を与える(Robins+ 1994) 逆確率重み付け! 反実仮想的枠組みを入れる
  • 41.
    3.4 傾向スコアによる重み付き M推定量 • 目的: 𝐸 𝑦1 − 𝑦0 や 𝐸 𝑦𝑗 ではなく、𝑝 𝑦𝑗 = 𝑝 𝑦𝑗 𝜃 が知りたい – 結果変数や共変量以外の変数との関係を見たい – 結果変数間の相関構造を見たい • N人の対象者は 𝐽 個の群いずれかに属す – 𝑧𝑖 ∈ {1, ⋯ , 𝐽} : i 番目の対象者が属する群 – 𝑧𝑖𝑗 = 1 (𝑧𝑖 = 𝑗), 𝑧𝑖𝑗 = 0 (𝑧𝑖 ≠ 𝑗) – 𝑦𝑖𝑗 : i 番目の対象者が j 群に属した時の潜在的な結果変数 – 𝑥𝑖 : i 番目の対象者の共変量
  • 42.
    PME(Propensity score weightedM-Estimator) • ∀ 𝑦𝑖𝑗 が観測されるときのM-推定関数を 𝑚𝑗 𝑦𝑖𝑗 𝜃 とする – とりあえず対数尤度を想像しておくといい – 1 𝑁 𝑖=1 𝑁 𝑗=1 𝐽 𝑚𝑗 𝑦𝑖𝑗 𝜃 を最大化する 𝜃 を求める流れ • しかし実際には 𝑧𝑖𝑗 = 0 な 𝑦𝑖𝑗 は欠測 – そこで次の目的関数 𝑄 𝑊 を最適化する 𝜃 = 𝜃 を求める 𝑄 𝑊 𝑦, 𝑥, 𝑧 𝜃, 𝛼 = 1 𝑁 𝑖=1 𝑁 𝑗=1 𝐽 𝑧𝑖𝑗 𝑒𝑗 𝑥𝑖, 𝛼 𝑚𝑗 𝑦𝑖𝑗 𝜃 – ただし 𝑒𝑗 𝑥𝑖, 𝛼 = 𝑝 𝑧𝑖 = 𝑗 𝑥𝑖 は一般化傾向スコアの推定値 – M-推定量の議論から、 𝜃 は 𝜃 の真値の一致推定量となる • 漸近分散も評価できるが、そのへんもろもろは省略 推定値が推定「方程式の解」 ではなく推定「関数の最適 化」によって与えられる話に 変わっているので注意。 まじめにやるなら、ここで推 定関数と呼んでいるものの 偏微分=0 を推定方程式とす るべきなのだろう
  • 43.
    IPW なアプローチの問題点 • 𝑝𝑧 = 1 𝑥 の推定時には対照群の共変量の情 報を用いているが、平均や母数の推定時には 用いない(重み 0 のため項ごと消える) – もったいない! • 𝑝 𝑧 = 1 𝑥 のモデル(一般にロジスティック 回帰)が正しくない(=真のモデルとかけはなれている?) 場合に、誤った結果を与える可能性がある
  • 44.
    3.5 二重にロバストな推定 (Doubly RobustEstimator) • 𝑔 𝑥; 𝛽1 を 𝑦1 の 𝑥 における回帰関数(≈ 𝐸 𝑦1 𝑥 )、 𝛽1 をその母数の一致推定量とするとき 𝐸 𝐷𝑅 𝑦1 ≔ 1 𝑁 𝑁 𝑧𝑖 𝑒 𝑥𝑖, 𝛼 𝑦𝑖1 + 1 − 𝑧𝑖 𝑒 𝑥𝑖, 𝛼 𝑔 𝑥𝑖, 𝛽1 • はある条件の下で 𝐸 𝑦1 の一致推定量を与える – IPW では 𝑧/𝑒を平均の重みとする – DR では 𝑧/𝑒: 1 − 𝑧/𝑒 を観測値と、回帰による推定値 との配分の割合とする • 𝐸 𝐷𝑅 𝑦0 も同様に定義
  • 45.
    𝐸 𝐷𝑅 が一致推定量となる条件 第2項が0になればいい • 次の条件Aor B が成立すれば 𝐸 𝐷𝑅 𝑦1 は 𝐸 𝑦1 の一致推定量 – 条件A: 𝑝 𝑧 = 1 𝑥 のモデルが正しい – 条件B: 𝑔 𝑥; 𝛽1 のモデルが正しい • ∵ 𝐸 𝐷𝑅 𝑦1 の式から 𝑦𝑖1 をくくりだすと 𝐸 𝐷𝑅 𝑦1 = 1 𝑁 𝑁 𝑦𝑖1 + 𝑧𝑖 − 𝑒 𝑥𝑖, 𝛼 𝑒 𝑥𝑖, 𝛼 𝑦𝑖1 − 𝑔 𝑥𝑖, 𝛽1 → 𝐸 𝑦1 + 𝐸 𝑧 − 𝑒 𝑥, 𝛼∗ 𝑒 𝑥, 𝛼∗ 𝑦1 − 𝑔 𝑥, 𝛽1 ∗ – ただし 𝛼∗, 𝛽1 ∗ はそれぞれの極限 • 「正しいモデル」 なら 𝛼 らは一致推定量ゆえ、極限では真値に収束 IPW のとこでも書いたけど、 本では期待値を取っているが、 示したいのは一致性なので 極限を取るべき
  • 46.
    • A ⇒第2項= 𝐸 𝑦,𝑥 𝐸𝑧|𝑦,𝑥 𝑧−𝑒 𝑥,𝛼∗ 𝑒 𝑥,𝛼∗ 𝑦1 − 𝑔 𝑥, 𝛽1 ∗ – 𝑦𝑗 ⊥ 𝑧|𝑥 より 𝐸𝑧|𝑦,𝑥 𝑧 = 𝐸𝑧|𝑥 𝑧 = 𝑒 𝑥, 𝛼∗ – ∴ 第2項=0 • B ⇒第2項= 𝐸𝑧,𝑥 𝐸 𝑦|𝑧,𝑥 𝑧−𝑒 𝑥,𝛼∗ 𝑒 𝑥,𝛼∗ 𝑦1 − 𝑔 𝑥, 𝛽1 ∗ – 𝑔 が正しいなら、𝐸 𝑦|𝑥 𝑦1 = 𝑔 𝑥, 𝛽1 ∗ – ∴ 第2項=0
  • 47.
  • 48.
    3.6 𝑝(𝑦|𝑧) の母数推定 •𝑇𝐸𝑇 = 𝐸 𝑦1 𝑧 = 1 − 𝐸 𝑦0 𝑧 = 1 を推定するには 𝑝 𝑦 𝑧 の考 え方を利用 – 何も仮定(モデル)を置かなければ、欠測している網掛け部の母数 を推定できない • 強く無視できる割り当て仮定のもとで、𝑝 𝑦1 𝑧 = 0, 𝜃10 の母 数𝜃10 (or統計量)の一致推定量は – 𝐸 𝑦1|𝑧=0 𝜕 𝜕𝜃10 𝑚10 𝑦1 𝜃10 = 0 を満たす推定関数𝑚10について – 𝑄10 𝑊 = 1 𝑁 𝑖=1 𝑁 𝑧 𝑖 1−𝑒 𝑥 𝑖, 𝛼 𝑒 𝑥 𝑖, 𝛼 𝑚10 𝑦𝑖1 𝜃10 を最大化する 𝜃10
  • 49.
    • とくに 𝜇10= 𝐸 𝑦1 𝑧 = 0 を推定するなら – 𝑄10 𝑊 = − 1 𝑁 𝑖=1 𝑁 𝑧 𝑖 1−𝑒 𝑥 𝑖, 𝛼 𝑒 𝑥 𝑖, 𝛼 𝑦𝑖 − 𝜇10 2 として – 𝜇10 = 𝑖=1 𝑁 𝑧 𝑖 1−𝑒 𝑥 𝑖, 𝛼 𝑒 𝑥 𝑖, 𝛼 𝑦 𝑖 𝑖=1 𝑁 𝑧 𝑖 1−𝑒 𝑥 𝑖, 𝛼 𝑒 𝑥 𝑖, 𝛼 が得られる • 同様に 𝜇01 を求めて、 – 𝑇𝐸𝑇 = 𝑦1 − 𝜇01 = 𝑦1 − 𝑖=1 𝑁 1−𝑧 𝑖 𝑒 𝑥 𝑖, 𝛼 1−𝑒 𝑥 𝑖, 𝛼 𝑦 𝑖 𝑖=1 𝑁 1−𝑧 𝑖 𝑒 𝑥 𝑖, 𝛼 1−𝑒 𝑥 𝑖, 𝛼 • さらに同様に二重にロバストな推定量を求めることもできる
  • 50.
    3.7 操作変数法 • 回帰分析モデルでは説明変数と誤差が無相関 である仮定が要請される –𝑦 = 𝜃1 + 𝜃2 𝑥 + 𝜖 において 𝑥 ⊥ 𝜖 • 一般にはこの仮定は満たされない – 成績、病気の致死率のばらつき 𝜖 は人 𝑥 による • 「操作変数」を導入 – 独立変数(割り当て)とは相関があるが、誤差とは 無相関な変数
  • 51.
    例:コロンビアの教育バウチャー制度 • 私立中学の授業料の半額を補助 – 対象:くじ(無作為)で当たった9万人の生徒のう ち、私立中学に入学した者 •この制度の因果効果を推定するには? – 割り当て 𝑧 = 1 は「くじで当たった群」? • 当たっても半額じゃ私立に行けないから辞退 – それとも「くじに当たって私立入学」? • 当たらなくても私立に行く=保護者が裕福=成績高め • 誤差と相関あり
  • 52.
    LATE / 操作変数 •𝑧 ∈ {1,0} : くじ当たり(1)/はずれ(0) (操作変数) • 𝑑 ∈ {1,0} : 私立入学(1)/入学せず(0) (割り当て) – 𝑑1:くじに当たったら~、𝑑0:くじにはずれたら~ – 𝑑 = 𝑧𝑑1 + 1 − 𝑧 𝑑0 • 𝑦1:私立入学した場合の成績、𝑦0:しなかった場合 (結果変数) – 𝑦 = 𝑑𝑦1 + 1 − 𝑑 𝑦0 • バウチャーの効果 = 𝐸 𝑦1 − 𝑦0 𝑑1 = 1, 𝑑0 = 0 – 「くじに当たったら私立に行くが、はずれたら行かない」(𝑑1 = 1, 𝑑0 = 0)群が私立に行った場合の成績上昇度 – 𝑧 (実際にくじが当たったかどうか)は見ていない LATE (Local Averate Treatment Effect)
  • 53.
    Assumption of LATE[Angrist+ 1996] – LATE に課される一般的な仮定 – 書籍でも一応触れられてはいるのだが、 𝑑 𝑧 ⊥ 𝑧 とか解釈のしよ うがないため、元論文を参照 • d は同じ対象者の z のみに依存 • y は同じ対象者の d のみに依存 i.e. 𝑦1, 𝑦0 ⊥ 𝑧 | 𝑑 • 𝐸 𝑑1 − 𝑑0 ≠ 0、とくに d は z と独立でない • z は無作為(P(z=1) が個体によらない) • 単調性 : 𝑑1 ≥ 𝑑0 – defiers (𝑑1 = 0, 𝑑0 = 1) はいない • この仮定のもとで 𝐿𝐴𝑇𝐸 = 𝐸 𝑦 𝑧 = 1 −𝐸 𝑦 𝑧 = 0 𝐸 𝑑 𝑧 = 1 −𝐸 𝑑 𝑧 = 0 くじが当たったら私立行かない はずれたら行く
  • 54.
  • 55.
    3.9 差分の差 • 経済・政治・教育における「介入」の効果 –処置群(介入対象)と対照群は質的に大きく異なる ことが多い • 対象の観測値は介入後も比較的低く、対照群と単純比 較できない(例:成績悪いから補習) • 処置前後での変化量に注目したい
  • 56.
    DID (Difference InDifferences) • 差分の差=介入後の差-介入前の差 =処置群での介入前後の差-対照群での差 • 𝐷𝐼𝐷 = 𝐸 𝑦1𝑏 − 𝑦0𝑏 − 𝐸 𝑦1𝑎 − 𝑦0𝑎 = 𝐸 𝑦1𝑏 − 𝑦1𝑎 − 𝐸 𝑦0𝑏 − 𝑦0𝑎 = 𝐸 𝑦1𝑏 − 𝑦1𝑎|𝑧 = 1 − 𝐸 𝑦0𝑏 − 𝑦0𝑎|𝑧 = 0 = 1 𝑁1 𝑖:𝑧 𝑖=1(𝑦𝑏 (𝑖) − 𝑦𝑎 𝑖 ) − 1 𝑁0 𝑖:𝑧 𝑖=0(𝑦𝑏 (𝑖) − 𝑦𝑎 𝑖 ) 本来 𝑦0𝑎, 𝑦1𝑎 を区別せず 𝑦𝑎 とするが、説明の容易さの ため、今だけ分けている 𝑦0𝑎𝑦1𝑎 𝑦1⋅, 𝑦0⋅ : 介入があった場合(z=1), 介入が なかった場合(z=0) 𝑦⋅𝑎, 𝑦⋅𝑏 : 介入前(時刻 a)、介入後(時刻 b) かんたんに 求められる
  • 57.
    DID と TETの差 • 𝐷𝐼𝐷 = 𝐸 𝑦1𝑏 − 𝑦𝑎 𝑧 = 1 − 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 0 • 𝑇𝐸𝑇 = 𝐸 𝑦1𝑏 − 𝑦0𝑏 𝑧 = 1 ∴ 𝐷𝐼𝐷 − 𝑇𝐸𝑇 = 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 1 − 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 0 • DID と TET が等しい ⇔ 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 1 − 𝐸 𝑦0𝑏 − 𝑦𝑎 𝑧 = 0 = 0 – つまり「介入対象とならなかったときの2群の経 時変化が等しい」と仮定すれば、 TET=DID 本では謎い式変形をしているが 単純に引けばいい
  • 58.
    セミパラメトリックな「差分の差」推定 • p106 のTET などの数式展開が間違ってい る – × 𝐸 ⋅ 𝑧 = 1 = 𝐸 𝑥 𝐸 ⋅ 𝑧 = 1, 𝑥 – ○ 𝐸 ⋅ 𝑧 = 1 = 𝐸 𝑥|𝑧=1 𝐸 ⋅ 𝑧 = 1, 𝑥 • 正しい計算は元論文読まないと多分わか らない(まだ読んでない)