IR集中講習会 20180130

教学IRデータを用いた
因果効果の推定方法
横浜商科大学IR室
田尻慎太郎
tajiri@shodai.ac.jp
IR集中講習会
2018/01/30

SA（Student Assistant）
 学部生による授業アシスタント
 「半学半教」学びあいを実現する仕組み
 他の学生のロールモデル（波及効果）
 ワークショップのある演習・実習授業のみを対象とする
 社会力基礎演習、キャリア形成：1科目2名
 「先生の補助」ではなく「学生の補助」
 学生によるFD（Faculty Development）
2

SA
教員学生
横浜商科大学のSA制度
授業を作る大事なチーム
教員に対して、学生のために
指摘をすることができる
学生による運営、採用活動
SAによるイベント
SA教育プログラム
立命館大学：オリター
関西大学：LA
明星大学：SA
嘉悦大学：SA
3

リサーチ・クエスチョン
 SAをやると成長する？
 有給の学内アルバイト。そこそこ経費がかかる
 経費に見合った効果が出ているのか？→ IR
 このようなRQを持つ任意参加のプログラムは学内にたくさんある
• 留学プログラム
• 地域サービスラーニングプログラム
• 課題解決型学習（PBL)
• 資格対策講座
• 部活・サークル活動
• etc.
4

モデル
SA体験教育効果
アウトカム変数
• 成績
• コミュニケーション能力
• 問題解決能力
• リーダーシップ
SAダミー変数
• SA学生：1
• 非SA学生：0
結果原因
5

分析
 対象：2016年度の2年生
 1年生クラスのSAをした：38名, それ以外：242名
 2年次終了時点のGPA
6

分析
 対象：2016年度の2年生
 1年生クラスのSAをした：38名, それ以外：242名
 2年次終了時点のGPA
7

8
SA達の目は
輝いています！

交絡
SA体験
2年次
GPA
結果原因
 学力
 やる気
 性別
交絡
9

因果関係？
体力学力
結果原因
学力
体力
10

見せかけの相関
体力学力
親の教育
熱心さ
交絡因子
（中室・津川 2017）
子供にスポーツを
習わせる
子供が勉強するよ
うに仕向ける
11

公平な選抜のため、全員に同じ
試験を受けてもらいます：それ
ではその木に登ってください
12

選択バイアス
 任意参加の学生調査で大学への満足度を聞いた
 5点満点で4.8だった！
 信じて良いのか？
 そもそも大学に満足している学生が多く学生調査アン
ケートに答えていた
 本来対象とする集団から一部の対象者が選択（or
除外）されている状況で、単純な解析を行うこと
によって生じる結果の歪み（星野 2009）
13

因果推論
 どうしたら因果関係（Causation）にあると証明できるの
か？
 2つの事象（変数）が「原因」と「結果」の関係にあると言えるかどう
か
 相関関係（Correlation）
 2つの変数が、原因と結果とは言えないが、一方が変化すればそれにあわせ
てもう一方も変化するような線形の関係
Ｔ Y 結果原因
処置変数
Treatment
Outcome
14

因果推論
 交絡因子（Cofounder）
 原因と結果の双方に影響を与える変数
 交絡の影響を適切に取り除かないと、誤った因果関係を導く
Ｔ Y 結果原因
処置変数
Treatment
Outcome
C
交絡因子
15

Rubinの因果モデル
補習を受けた自分
補習を受けなかっ
た自分
100点
50点
補習テストの点
処置アウトカム
16

た自分
100点
50点
反事実（Counterfactual）
17

た自分
100点
50点
どちらも自分で、時期も同じ
違いは補習を受けたか受けないかだけ
→すべての交絡因子を調整済み！
補習という処置の効果はプラス50点
18

た自分
100点
50点
全学生についてこの差を求め、平均す
れば補習プログラムの効果と言える！
平均処置効果
Average Treatment Effect
19

因果推論の根本問題
た自分
100点
50点
補習テストの点
処置アウトカム
20
ど
ち
ら
か
片
方
し
か
存
在
し
な
い

個人ID 補習
補習を受
けた場合
のアウト
カム
補習を受
けなかっ
た場合の
アウトカ
ム
2つのアウト
カムの差
1 1 90 70 90-70=20
2 0 100 80 100-80=20
3 0 70 50 70-50=20
4 1 80 60 80-60=20
5 1 100 80 100-80=20
平均 88 68 88-68=20
表1. 各人の両方のアウトカムが観察できた場合
個人ID 補習
補習を受
けた場合
のアウト
カム
補習を受
けなかっ
た場合の
アウトカ
ム
2つのアウト
カムの差
1 1 90 ？ 90-？=？
2 0 ？ 80 ？-80=？
3 0 ？ 50 ？-50=？
4 1 80 ？ 80-？=？
5 1 100 ？ 100-？=？
平均？ ? ?
表2. 実際に観察できるアウトカム
統計学における因果推論（ルービンの因果モデル） – 医療政策学×医療経済学 :
https://healthpolicyhealthecon.com/2014/11/30/rubin_causal_model/ を改変
21

 もし補習を受けた群と補習
を受けなかった群の交絡因
子がすべて調整されていた
ら
 唯一の違いは補習の有無
 2群の平均の差を求めるこ
とで処置効果を求めること
ができる
個人ID 補習
補習を受
けた場合
のアウト
カム
補習を受
けなかっ
た場合の
アウトカ
ム
2つのアウト
カムの差
1 1 90 ？ 90-？=？
2 0 ？ 80 ？-80=？
3 0 ？ 50 ？-50=？
4 1 80 ？ 80-？=？
5 1 100 ？ 100-？=？
平均？ ? ?
表2. 実際に観察できるアウトカム
統計学における因果推論（ルービンの因果モデル） – 医療政策学×医療経済学 :
https://healthpolicyhealthecon.com/2014/11/30/rubin_causal_model/ を改変
22

少人数学級の効果
 1クラス40人
 不登校、学級崩壊、小1プロブレム etc.
 少人数学級にした方が教員の目が行き届くはず
 2011年
 小1だけ35人学級にする
 教員4000人、約86億円の費用がかかる
 財務省としては止めたい？（実際は小2も35人学級になった）
 帰無仮説：35人学級の成績と40人学級の成績は等
しい
23

前後比較法
2011年:40人学級 2012年：35人学級
40人学級にいた生徒の
学力が、クラス人数が
35人になったら上昇し
た
その間に景気が良くなり、塾に行く児童が増えた
交絡因子の影響
24

35人学級にした
A校
A校は学力が上がった
のに対し、B校では変
化なかった
そもそもA校は私立で、B校は公立だった
40人学級のままの
B校
25

ランダム化比較試験（RCT）
新入生をランダムに35人クラ
スと40人クラスに振り分ける
40人学級
（対象群）
35人学級
（処置群） • 有無比較法
• 同期間の実験
• クラスサイズ以外の
他の全ての要因をコ
ントロール可能
• これで35人学級の学
力の平均と40人学級
の平均を統計的に比
較可能
26

ランダム化比較試験
（Randomized Controlled Trial）
 すべての交絡因子のバランスがとれていて、唯一違うのが
処置を受けたかどうかだけ
 因果推論を行う最良の方法
 実験
 デメリット
 実験を準備するための費用がかかる
 処置群と対照群への割り付けに際して、倫理的問題が生じる可能性
がある
 日本では医療分野を除き忌避されてきた
 Evidence Based Policy Making
27

疑似実験（自然実験手法）
 これまで観察されたデータを用いてあたかも実験を行った
かのような状況を擬似的に作り出す
 IR向けの方法
 差の差の分析（DID）
 回帰不連続デザイン（RDD)
 操作変数法（IV）
 傾向スコア・マッチング（PS）
28

マッチング
 2年次にSAをする学生は1年次のGPAが高い
 1年次GPAが、SA体験という処置と2年次GPAというアウトカム双方
の交絡因子
 SAをやった学生と同じ1年次GPAの学生を対照群から抜き
出してきたら
 処置群：2年次にSAをやった学生38名
 対照群：SAはやってないが、上記対照群の学生とそれぞれ同じ1年
次GPAの学生38名
 →1年次GPAという交絡因子を調整することができた！違いはSAと
いう処置の有無だけ
29

30
SA学生非SA学生
 1年次平均GPA2.47  1年次平均GPA：2.04
マッチング
30
3.3
2.9
1.2
3.3
2.9
1.2
3.8
1.5
1.0
0.5

31
SA学生非SA学生
マッチング
31
3.3
2.9
1.2
3.3
2.9
1.2
3.8
1.5
1.0
0.5
マッチング
マッチング
マッチング

32
SA学生非SA学生
マッチング
32
3.3
2.9
1.2
3.3
2.9
1.2
対象群処置群
1年次GPAが同じ2.47の処置群と対照群ができあがり、この2群は比較可能
ここで1年次GPAは共変量（Covariate）

傾向スコア・マッチング
 共変量が1つなら、マッチング作業は簡単
 しかし共変量が増えるにつれて作業は指数的に複雑になる
 「次元の呪い」
 複数の共変量をまとめて「傾向スコア（Propensity
Score）」という1つの得点にする
 そうすればまたマッチングは簡単になる！
（Rosenbaum&Rubin 1983）

傾向スコア
 傾向スコア（Propensity Score）
 処置群に割り付けられる確率のこと
 PS=0.8ならSAになりやすい
 でも実際は、PS=0.8でもSAになった学生と、ならない学生がいる
 同じPSをもつ学生を2群から集めて、新しく2グループを作ると
 すべての共変量において2グループ間の平均が同じような値になる
 → バランスがとれた状態になる
 共変量の中には交絡因子も含まれている
 → 唯一の違いは処置を受けたか受けなかっただけになる
34

データ
 2016年度の2年生
 処置群：1年生クラスのSAをやった学生 38名
 対照群：やらなかった学生 233名
35
Pr(T < t) = 0.0067 Pr(|T| > |t|) = 0.0134 Pr(T > t) = 0.9933
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 269
diff = mean(0) - mean(1) t = -2.4906
diff -.3867592 .1552897 -.6924969 -.0810215
combined 271 2.155052 .0544362 .8961326 2.047878 2.262225
1 38 2.487579 .1398904 .8623426 2.204134 2.771024
0 233 2.10082 .0584098 .8915864 1.985738 2.215901
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with equal variances
対照群と処置群
の平均は有意に
異なる
SAの方が2年次
GPAが0.39高い
SA
nonSA

2年次GPAの確率密度分布
36
.1.2.3.4.5
kdensitygpa2
0 1 2 3 4
x
SA nonSA

分析
 RQの定式化：2年生でSAをすると2年次GPA（gpa2）はどう変わるか
 従来はこの(1)式を直接、重回帰分析で推計、交絡をコントロール
 傾向スコアの算出：SAかどうかのダミー変数を目的変数として、その他の共変
量を独立変数としたロジスティック回帰を行うことで求められる
 共変量（Xi）
 1年次GPA、1年次に受験したPROGのコンピテンシースコア、所属学科ダミー
 分析ソフト：Stata 15 & Stata 13 with “Psmatch2.ado”
𝑔𝑝𝑎2𝑖 = 𝛽0 + 𝛽1 𝑠𝑎𝑖 + 𝜷𝑿𝑖 + 𝑢𝑖 (1)
෣𝑃𝑆(𝑠𝑎)𝑖 = 𝜷𝑿𝑖 + 𝜐𝑖 (2)
37

傾向スコア・マッチングの条件
1. 処置群と対照群が存在すること
2. (2)のPSモデルに含めることができる共変量は、処置の割
り付けタイミングよりも前に測定された変数に限定
 RCTのランダム割り付けと同じ
3. 強く無視できる割り当て条件
 「観測された共変量」によって割付を説明できなくてはならない
 観測されていない共変量・交絡要因が割付に影響を与えていない
 アウトカムに影響を与える共変量をすべて入れる
 ロジスティック回帰の場合、共変量は処置群、対照群の少ない方の
数を4か5で割った数まで入れて構わない
（星野・岡田 2006、新谷2017）
38

平均処置効果（ATE）
39
Note: S.E. does not take into account that the propensity score is estimated.
ATE .225597816 . .
ATU 2.10081974 2.36519745 .264377716 . .
ATT 2.48757896 2.49976316 -.012184205 .238191399 -0.05
gpa2 Unmatched 2.48757896 2.10081974 .386759222 .155289659 2.49
Variable Sample Treated Controls Difference S.E. T-stat
_cons -6.146723 1.060345 -5.80 0.000 -8.224961 -4.068485
koudou .0189293 .1722942 0.11 0.913 -.3187612 .3566198
jisin .1652998 .1536029 1.08 0.282 -.1357564 .466356
tousotu .114218 .1565927 0.73 0.466 -.1926981 .4211341
kyoudou -.1046393 .185908 -0.56 0.574 -.4690123 .2597338
sinwa .384141 .1508524 2.55 0.011 .0884757 .6798063
kanko .7735049 .5980319 1.29 0.196 -.3986161 1.945626
shougakka -.8141292 .5961178 -1.37 0.172 -1.982499 .3542402
gpa1 .957281 .2574782 3.72 0.000 .4526331 1.461929
sa Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -87.841183 Pseudo R2 = 0.2004
Prob > chi2 = 0.0000
LR chi2(8) = 44.03
Logistic regression Number of obs = 271
. psmatch2 sa gpa1 shougakka kanko sinwa kyoudou tousotu jisin koudou , out(gpa2) logit ties ate

40
Note: S.E. does not take into account that the propensity score is estimated.
ATE .225597816 . .
ATU 2.10081974 2.36519745 .264377716 . .
ATT 2.48757896 2.49976316 -.012184205 .238191399 -0.05
gpa2 Unmatched 2.48757896 2.10081974 .386759222 .155289659 2.49
Variable Sample Treated Controls Difference S.E. T-stat
_cons -6.146723 1.060345 -5.80 0.000 -8.224961 -4.068485
koudou .0189293 .1722942 0.11 0.913 -.3187612 .3566198
jisin .1652998 .1536029 1.08 0.282 -.1357564 .466356
tousotu .114218 .1565927 0.73 0.466 -.1926981 .4211341
kyoudou -.1046393 .185908 -0.56 0.574 -.4690123 .2597338
sinwa .384141 .1508524 2.55 0.011 .0884757 .6798063
kanko .7735049 .5980319 1.29 0.196 -.3986161 1.945626
shougakka -.8141292 .5961178 -1.37 0.172 -1.982499 .3542402
gpa1 .957281 .2574782 3.72 0.000 .4526331 1.461929
sa Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -87.841183 Pseudo R2 = 0.2004
Prob > chi2 = 0.0000
LR chi2(8) = 44.03
Logistic regression Number of obs = 271
. psmatch2 sa gpa1 shougakka kanko sinwa kyoudou tousotu jisin koudou , out(gpa2) logit ties ate

41
共変量：gpa1, 商学科ダミー, 観光マネジメント学科ダミー, 親和力,
協働力, 統率力, 自信創出力, 行動持続力
※ バランスがとれない場合はその共変量の2乗項、3条項を加えてみる
マッチングした
後のデータだと
SAをやることに
よる2年次GPA
の差は0.23

バランス・チェック
42
M 4.2632 4.1842 4.8 88.2 0.23 0.822 1.39
koudou U 4.2632 3.5966 40.1 2.27 0.024 0.95
M 3.9211 3.6842 14.1 68.6 0.64 0.525 2.01*
jisin U 3.9211 3.1674 44.7 2.79 0.006 1.58
M 3.8684 3.2895 32.6 -3.5 1.36 0.179 1.14
tousotu U 3.8684 3.309 31.5 1.93 0.055 1.41
M 4.5789 4.0526 27.8 42.9 1.36 0.179 1.94*
kyoudou U 4.5789 3.6567 48.7 2.84 0.005 1.11
M 5 4.6316 19.1 73.5 0.89 0.378 1.41
sinwa U 5 3.6094 72.1 4.17 0.000 1.06
M .5 .5 0.0 100.0 0.00 1.000 .
kanko U .5 .21459 61.8 3.83 0.000 .
M .36842 .36842 0.0 100.0 0.00 1.000 .
shougakka U .36842 .6309 -54.0 -3.10 0.002 .
M 2.477 2.6379 -19.0 61.1 -0.88 0.382 0.98
gpa1 U 2.477 2.0632 48.9 2.68 0.008 0.78
Variable Matched Treated Control %bias |bias| t p>|t| V(C)
Unmatched Mean %reduct t-test V(T)/
. pstest gpa1 shougakka kanko sinwa kyoudou tousotu jisin koudou , treated(sa) both

バランス・チェック
43
統率力親和力

マッチングの構成
 One to One Matching
 処置群の1名とPSが最も近い対照群の1名でマッチング
 数が少ない方の群にあわせてサンプルサイズが小さくなる
 k Nearest Neighbor Matching（k-最近傍マッチング）
 処置群の1名とPSが最も近い対照群のk名でマッチング
 今回は処置群（SA学生）1名に対して2名の対照群
 同じPSを持つ対照群の学生を複数回使う（復元抽出有り）
44
（奥村 2015）

傾向スコア・マッチングのメリット
1. 蓄積されたデータのみで因果推論ができる
2. 傾向スコアは共変量を1変数に縮約したものなので、2つの
群において共変量の値に重なりがなくても利用できる
3. 回帰分析と異なり、共変量とアウトカム変数のモデル作成
をしなくてよい
 通常の重回帰分析での変数選択は恣意的になる誘因
45

傾向スコア・マッチングのメリット
 コモンサポート
 重回帰分析ではコモンサ
ポート外のデータも使う
 左右の斜線の領域では反
事実が仮想できない
 傾向スコア・マッチング
ではコモンサポート内の
データのみを使う→より
厳格な因果推論
46
（津川 2015）
Common Support

まとめ
 蓄積された観察データを用いた疑似実験法は、IRが行う因
果推論に適している
 従来の重回帰分析よりも厳密な推論が可能
 とはいえPSモデルの定式化、影響をあたえるすべての共変
量のデータを集めることは困難
 観測されていない交絡因子があった場合はその影響を除去できない
 測りたいアウトカムは何か？
47

参考文献
1. Guo S, Fraser MW（2014）Propensity Score Analysis: Statistical Methods and
Applications (Advanced Quantitative Techniques in the Social Sciences) 2 , SAGE
Publications, Inc.
2. 星野崇宏・岡田謙介（2006）「傾向スコアを用いた共変量調整による因果効果の推定と
臨床医学・疫学・薬学・公衆衛生分野での応用について」, 保健医療科学, 55(3), 230-
243.
3. 星野崇宏（2009）『調査観察データの統計科学―因果推論・選択バイアス・データ』,
岩波書店.
4. 中室牧子・藤原夏希・井口俊太朗（2014）「『AO入試』の再評価: 慶應義塾大学湘南藤
沢キャンパス (SFC) を事例に」, Keio SFC Journal, 14，178-197.
5. 中室牧子・津川友介（2017）『「原因と結果」の経済学―――データから真実を見抜く
思考法』, ダイヤモンド社.
6. 奥村泰之（2015）「傾向スコアの概念とその実践」第4回臨床研究実践講座ワーク
ショップ資料, https://www.slideshare.net/okumurayasuyuki/ss-43780294
48

参考文献
1. Rosenbaum PR, Rubin DB（1983）”The central role of the propensity score in
observational studies for causal effects”, Biometrika;70:41-55.
2. 新谷歩（2017）『みんなの医療統計多変量解析編 10日間で基礎理論とEZRを完全マス
ター! 』, 講談社.
3. 白鳥成彦・田尻慎太郎（2016）「在学中キャリアを意識した初年次教育」, Eco-Forum
31(2), 35-41. 統計研究会.
4. Stuart, E. A. (2010). "Matching Methods for Causal Inference: A Review and a
Look Forward." Statistical Science 25(1): 1–21.
5. 津川友介（2014）「統計学における因果推論（ルービンの因果モデル） – 医療政策学×
医療経済学」,
https://healthpolicyhealthecon.com/2014/11/30/rubin_causal_model/
6. プロペンシティスコア（Propensity score; PS）（１）－PSの正しい使い方 – 医療政策
学×医療経済学 : https://healthpolicyhealthecon.com/2015/05/04/propensity-
score-1/
49

IR集中講習会 20180130

Recommended

Recommended

More Related Content

Featured

Featured (20)

IR集中講習会 20180130