Successfully reported this slideshow.
Your SlideShare is downloading. ×

chapter2.pdf

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 17 Ad

More Related Content

Recently uploaded (20)

Advertisement

chapter2.pdf

  1. 1. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 統計的因果推論の 理論と実装 Chapter2 潜在的結果変数の枠組み
  2. 2. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 目次 1. 因果推論は欠損データの問題 2. 潜在的結果変数の導入 3. 固体因果効果と平均処置効果 4. 欠損メカニズムの話 5. 交絡因子 6. 無作為抽出と無作為割り付け
  3. 3. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 • 入試 < 80点なら補習あり1 • 入試 80点なら補習なし0 1. 因果推論は欠損データの問題 入試 補習 期末 0 74 1 76 1 82 0 75 2 72 1 75 3 96 0 84 4 83 0 75 5 72 1 74 6 85 0 76 7 87 0 77 8 86 0 77 9 77 1 80 10 95 0 87 11 84 0 75 12 74 1 77 13 58 1 61 14 91 0 81 15 80 0 72 16 80 0 72 17 89 0 80 18 88 0 80 19 86 0 78 補習に効果はあったか? 補習あり1の期末平均 = 73.83 補習なし0の期末平均 = 77.78 補習すると点数が下がる?
  4. 4. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 入試 補習 期末 0 74 1 76 1 82 0 75 2 72 1 75 3 96 0 84 4 83 0 75 5 72 1 74 6 85 0 76 7 87 0 77 8 86 0 77 9 77 1 80 10 95 0 87 11 84 0 75 12 74 1 77 13 58 1 61 14 91 0 81 15 80 0 72 16 80 0 72 17 89 0 80 18 88 0 80 19 86 0 78 期末 50 60 70 80 90 100 入試 50 60 70 80 90 100 73.83 平均(補習あり1) 77.78 平均(補習なし0) 80 補習あり 補習なし 1. 因果推論は欠損データの問題 期末(y軸)の値は、入試(x軸)に依存していないか?
  5. 5. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 入試 補習 期末 0 74 1 76 1 82 0 75 2 72 1 75 3 96 0 84 4 83 0 75 5 72 1 74 6 85 0 76 7 87 0 77 8 86 0 77 9 77 1 80 10 95 0 87 11 84 0 75 12 74 1 77 13 58 1 61 14 91 0 81 15 80 0 72 16 80 0 72 17 89 0 80 18 88 0 80 19 86 0 78 各カテゴリー平均 補習あり1 補習なし0 入試 < 80 73.83 ? 入試 >= 80 ? 77.78 合計 全員補習あり平均 全員補習なし平均 因果推論=欠損データの問題 1. 因果推論は欠損データの問題
  6. 6. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 2.潜在的結果変数の導入 もし全員が補習を受けていたら? もし全員が補習を受けていなかったら? 潜在的結果変数 入試 期末 補習 期末試験0 期末試験1 潜在的結 果0 潜在的結 果1 潜在的結 果の差 0 74 76 1 NaN 76.0 68 76 -8 1 82 75 0 75.0 NaN 75 84 -9 2 72 75 1 NaN 75.0 65 75 -10 3 96 84 0 84.0 NaN 84 97 -13 4 83 75 0 75.0 NaN 75 84 -9 5 72 74 1 NaN 74.0 65 74 -9 6 85 76 0 76.0 NaN 76 87 -11 7 87 77 0 77.0 NaN 77 89 -12 8 86 77 0 77.0 NaN 77 87 -10 9 77 80 1 NaN 80.0 70 80 -10 10 95 87 0 87.0 NaN 87 96 -9 11 84 75 0 75.0 NaN 75 85 -10 12 74 77 1 NaN 77.0 67 77 -10 13 58 61 1 NaN 61.0 52 61 -9 14 91 81 0 81.0 NaN 81 93 -12 15 80 72 0 72.0 NaN 72 84 -12 16 80 72 0 72.0 NaN 72 82 -10 17 89 80 0 80.0 NaN 80 89 -9 18 88 80 0 80.0 NaN 80 90 -10 19 86 78 0 78.0 NaN 78 87 -9 (潜)補習あり1の期末平均 = 83.85 (潜)補習なし0の期末平均 = 73.80
  7. 7. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 2.潜在的結果変数の導入 入試 期末 補習 期末試験 0 期末試験 1 潜在的結 果0 潜在的結 果1 潜在的結 果の差 0 74 76 1 NaN 76.0 68 76 -8 1 82 75 0 75.0 NaN 75 84 -9 2 72 75 1 NaN 75.0 65 75 -10 3 96 84 0 84.0 NaN 84 97 -13 4 83 75 0 75.0 NaN 75 84 -9 5 72 74 1 NaN 74.0 65 74 -9 6 85 76 0 76.0 NaN 76 87 -11 7 87 77 0 77.0 NaN 77 89 -12 8 86 77 0 77.0 NaN 77 87 -10 9 77 80 1 NaN 80.0 70 80 -10 10 95 87 0 87.0 NaN 87 96 -9 11 84 75 0 75.0 NaN 75 85 -10 12 74 77 1 NaN 77.0 67 77 -10 13 58 61 1 NaN 61.0 52 61 -9 14 91 81 0 81.0 NaN 81 93 -12 15 80 72 0 72.0 NaN 72 84 -12 16 80 72 0 72.0 NaN 72 82 -10 17 89 80 0 80.0 NaN 80 89 -9 18 88 80 0 80.0 NaN 80 90 -10 19 86 78 0 78.0 NaN 78 87 -9 期末 50 60 70 80 90 100 入試 50 60 70 80 90 100 補習あり1 (潜在)補習あり1 補習なし0 (潜在)補習なし0
  8. 8. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 2.潜在的結果変数の導入 入試 期末 補習 期末試験 0 期末試験 1 潜在的結 果0 潜在的結 果1 潜在的結 果の差 0 74 76 1 NaN 76.0 68 76 -8 1 82 75 0 75.0 NaN 75 84 -9 2 72 75 1 NaN 75.0 65 75 -10 3 96 84 0 84.0 NaN 84 97 -13 4 83 75 0 75.0 NaN 75 84 -9 5 72 74 1 NaN 74.0 65 74 -9 6 85 76 0 76.0 NaN 76 87 -11 7 87 77 0 77.0 NaN 77 89 -12 8 86 77 0 77.0 NaN 77 87 -10 9 77 80 1 NaN 80.0 70 80 -10 10 95 87 0 87.0 NaN 87 96 -9 11 84 75 0 75.0 NaN 75 85 -10 12 74 77 1 NaN 77.0 67 77 -10 13 58 61 1 NaN 61.0 52 61 -9 14 91 81 0 81.0 NaN 81 93 -12 15 80 72 0 72.0 NaN 72 84 -12 16 80 72 0 72.0 NaN 72 82 -10 17 89 80 0 80.0 NaN 80 89 -9 18 88 80 0 80.0 NaN 80 90 -10 19 86 78 0 78.0 NaN 78 87 -9 各カテゴリー平均 補習あり1 補習なし0 入試 < 80 73.83 64.50 入試 >= 80 88.14 77.78 合計 83.85 73.80
  9. 9. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 3. 固体因果効果と平均処置効果 固体因果効果(ICE) τi = Yi(1) - Yi(0) 因果推論の根本問題 そもそも・・・ 潜在的結果変数は観測できない = 期末 50 60 70 80 90 100 入試 50 60 70 80 90 100 補習あり1 補習なし0 (潜在)補習なし0 (潜在)補習あり1
  10. 10. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 期末 50 60 70 80 90 100 入試 50 60 70 80 90 100 y = 0.954x - 3.3958 y = 0.8434x + 4.7727 y = 0.91x + 9.3636 y = 0.9837x + 3.8273 補習あり1 (潜在)補習あり1 補習なし0 (潜在)補習なし0 3. 固体因果効果と平均処置効果 平均処置効果(ATE) E[τi] = E[Yi(1)] - E[Yi(0)] =固体因果効果(ICE)の期待値 観測データから潜在的結果変数を予測 Yi(1)の回帰式 - Yi(0)の回帰式
  11. 11. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 期末 50 60 70 80 90 100 入試 50 60 70 80 90 100 y = 0.954x - 3.3958 y = 0.9837x + 3.8273 補習あり1 (潜在)補習なし0 3. 固体因果効果と平均処置効果 処置群の平均処置効果(ATT) τATT = E[Yi(1)|T=1] - E[Yi(0)|T=1] =処置群のみのICE期待値
  12. 12. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 4. 欠損メカニズムの話 欠損メカニズム (1)MCAR ・欠損がランダムに生じる (2)MAR ・欠損は観測データに依存して生じる(今回の例) (3)MNAR ・欠損は欠損データそのものの値に依存 <特徴> (1)MCARと(2)MARは回帰直線のパラメー タが完全データとほとんど変わらない。 期末 50 62.5 75 87.5 100 入試 50 63 75 88 100 y = 0.954x - 3.3958 y = 0.8434x + 4.7727 y = 0.91x + 9.3636 y = 0.9837x + 3.8273 補習あり1 (潜在)補習あり1 補習なし0 (潜在)補習なし0
  13. 13. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 5. 交絡因子 入試 補習 期末テスト 補習あり1の期末テストが下がる 交絡因子 = = 方向付き非巡回グラフ (DAG)
  14. 14. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 5. 交絡因子 インフルエンザ患者(100人) 新薬Xを飲む(50人) ⋯ 飲まない(50人) ⋯ ⋯ 新薬に効果を知りたい!! 新薬X飲む (処置群) 飲まない (統制群) 計 翌日回復 80% 20% 100% 翌日罹患 20% 80% 100% 計 100% 100% 100% 実験の結果 新薬に効果があったといえるか?
  15. 15. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 5. 交絡因子 年齢、運動、年収の有無 新薬X 翌日に回復 インフルエンザ患者(100人) 新薬Xを飲む(50人) ⋯ 飲まない(50人) ⋯ ⋯ 処置群の統計量 年齢 運動習慣 年収 Min 10 1 0 Max 30 1 800 Mean 20 0.9 360 Median 22 … 300 統制群の統計量 年齢 運動習慣 年収 Min 30 0 200 Max 99 1 2000 Mean 60 0.1 700 Median 70 … 600 交絡因子 処理群と統制群の統計量が異なる場合、 交絡を否定できない。
  16. 16. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 6. 無作為抽出と無作為割付け 母集団 標本 処置群 統制群 無作為抽出 無作為割付け 似ているの で推定可能 似ているの で比較可能 年齢、運動、年収の有無 新薬X 翌日に回復 インフルエンザに対する新薬Xの効果DAG 無作為割付け→ATE=ATT
  17. 17. @2022 Yasuto Terasawa @2022/9/10 統計的因果推論輪読会 Ch2 6. 無作為抽出と無作為割付け 伊藤公一朗, 2017, 光文社「データ分析の力 因果関係に迫る思考法」 より抜粋 [無作為割り付けの具体例] 比較グループ(統制群)と介入グ ループ(処置群)の平均が近い

×