星野「調査観察データの統計科学」
第1~2章
2015/9/8
@shuyo ( Cybozu Labs )
統計あるある
3歳児神話
• 「子どもは3歳までは保育園に行かないで母
親のもとで育つほうが健全(社会性・知能の
発達が高い)」
• Hill+(2002) による調査
– 1歳から3歳まで母親のもとで育った子どもと、同
じ時期に保育園に通っていた子どもを追跡調査
– 8歳の時点での社会性得点と知能検査を比較
– 保育園に通った子供のほうがどちらも良い成績
• 3歳児神話は否定されたとしていい?
3歳児神話
• 「子どもは3歳までは保育園に行かないで母
親のもとで育つほうが健全(社会性・知能の
発達が高い)」
• Hill+(2002) による調査
– 1歳から3歳まで母親のもとで育った子どもと、同
じ時期に保育園に通っていた子どもを追跡調査
– 8歳の時点での社会性得点と知能検査を比較
– 保育園に通った子供のほうがどちらも良い成績
• 3歳児神話は否定されたとしていい?
ただし、保育園に子どもを
通わせる親の収入や学歴は
保育園に子どもを通わせない
親より平均して高かった
妊娠中の喫煙の影響
• National Longitudinal Survey のデータ(NLSY1979-2002)
– 妊娠中の母親の喫煙が子どもの知能にもたらす影響の調査
– 2群の数学と読解の成長曲線
– 2群の成長曲線に差がないという帰無仮説に対する p 値は、
数学が 0.0412、読解が 0.0073
• 妊娠中の喫煙が子どもの知能に影響あるとしていい?
妊娠中の喫煙の影響
• National Longitudinal Survey のデータ(NLSY1979-2002)
– 妊娠中の母親の喫煙が子どもの知能にもたらす影響の調査
– 2群の数学と読解の成長曲線
– 2群の成長曲線に差がないという帰無仮説に対する p 値は、
数学が 0.0412、読解が 0.0073
• 妊娠中の喫煙が子どもの知能に影響あるとしていい?
ただし、母親の学歴が高いと
(タバコの有害性を知りやすく)
妊娠中に喫煙する可能性は小さく、
また母親の学歴が高いと
子どもの知能が高くなる可能性が
大きいことがわかっている
教育費負担の実態調査(2008/10)
• 高校~大学院などに在学している子どもを持
ち、国の教育ローンを利用している世帯に対
する調査
– 世帯収入に対する教育費は平均 34.1%
– 年収200~400万円の世帯では 55.6%
– 住宅ローン年間返済額と教育費を合わせると平均
45.9%、両社が世帯収入の5割を超えた世帯は全
体の 32.5%
• 日本人は教育費の重い負担に苦しんでいる?
教育費負担の実態調査(2008/10)
• 高校~大学院などに在学している子どもを持
ち、国の教育ローンを利用している世帯に対
する調査
– 世帯収入に対する教育費は平均 34.1%
– 年収200~400万円の世帯では 55.6%
– 住宅ローン年間返済額と教育費を合わせると平均
45.9%、両社が世帯収入の5割を超えた世帯は全
体の 32.5%
• 日本人は教育費の重い負担に苦しんでいる?
ただし、調査対象である
「国の教育ローンを利用している家庭」
の多くが私学に子どもを入れるなどして、
収入の割に高い教育費を払っている
家庭であると考えられる
解約予防フォローコール
• 犀坊主(仮)は自社サービスを利用している
100件のユーザのうち、アクセスの少ない
30件について電話フォローを行った
– フォローした30件はその後 40% が解約
– しなかった70件は 30% が解約
• 電話フォローは効果なしとしていい?
解約予防フォローコール
• 犀坊主(仮)は自社サービスを利用している
100件のユーザのうち、アクセスの少ない
30件について電話フォローを行った
– フォローした30件はその後 40% が解約
– しなかった70件は 30% が解約
• 電話フォローは効果なしとしていい?
ただし、アクセスの少ないユーザは
もともと解約の可能性が
高かったことが推測される
問題の分類
• 調査観察研究
• 選択バイアス
• データ融合
調査観察研究
• 実験(無作為割り当て)ができない研究
– 対象が理論的・倫理的に操作可能ではない
– 実験という特殊性により、被験者が通常と異なる
行動を取る可能性がある
– コストが高く、サンプルが小さすぎる
– 被験者の負担が高く、少数の協力者に限定される
• 割り当ては無作為であっても、不遵守(被験者のサボ
り)が起きると、無作為データで無くなる
選択バイアス
• 「本来対象とする集団」から一部の対象者が
選択(or除外)されている状況で、単純な解析
を行うことによって生じる結果の歪み
– 作為的な選択バイアスは論外として……
– 特定の傾向を持った個人や組織を対象とした調
査・研究を行わざるをえないことは多い
• インターネット調査も「選択バイアス」(インター
ネットリテラシーの高い人、報酬に釣られた人)
• 顧客アンケートも「選択バイアス」(顧客で、かつわ
ざわざ送り返してくれた人)
データ融合
• 対象者の異なる複数のデータを統合し、
擬似的なシングルソースデータを構成し、
顧客層の理解と購買行動予測を行う
– 顧客のページ閲覧履歴、購買履歴
+市場調査、商品の属性
• 市場調査データの回答者が、購買履歴
データに含まれないなど対象者に重なり
がなく、相関が得られないことも
これらの問題を
統一的な枠組みで
モデリングする
調査観測+欠測データ
• ルービンの因果モデル
– 調査観測データを欠測のあるデータと考える
– もし介入を受けた場合の従属変数
• 英語早期教育を行わなかった群(対照群)は欠測
– もし介入を受けなかった場合の従属変数
• 英語早期教育を行った群(処置群)は欠測
– 2つの群の質的な違いを説明する共変量
• 例:親の学歴・収入・教育意欲
一般には「実験群」
とも呼ばれるが、
無作為抽出のニュア
ンスを避けて
「処置群」と呼ぶ
処置群のデータ 欠測
欠測 対照群のデータ
全対象者に共通して得られている変数
処置群 対照群
介入を受けた
場合の結果
𝑦1
介入を受けない
場合の結果
𝑦0
共変量項目
選択バイアス+欠測データ
• 欠測データとしての選択バイアスの補正
– 調査対象者≠回答者であるとき
– 関心のある従属変数は回答者において観測さ
れるが、非回答者では観測されない
回答者のデータ 非回答者のデータ
全対象者に共通して得られている変数
回答者 非回答者
従属変数
共変量項目
データ融合+欠測データ
• 共変量項目を利用したマッチング
– 欠測値を「共変量項目に関して最も近い」
データで埋める
– 因子分析や主成分分析で互いの変換行列を求
める
購買履歴調査の
データ
欠測
欠測
市場調査の
回答データ
全対象者に共通して得られている変数
購買履歴データ 市場調査データ
変数群A
(購買履歴)
変数群B
(質問紙項目)
共変量項目
本書のアプローチ
• 欠測のあるデータの枠組みで考える
• 共変量情報を積極的に集め、活用する
– 適切な選択や仮定も必要
• セミパラメトリックな手法を用い、
ロバストな結果を得る
– 共変量と従属変数の線形性を仮定しない
欠測データと因果推論
欠測の分類
1. 各変数レベルでの記入漏れや無回答
2. 打ち切りや切断
– 打ち切り=閾値を超えたことはわかるが、本来の値
がわからない
– 切断=閾値を超えた観測値の数そのものが不明
3. 経時データやパネルデータでの脱落
– パネルデータ=時系列+クロスセクション
4. 調査や測定全体への無回答や不参加、測定不能
欠測のメカニズム
1. 完全にランダムな欠測
– 欠測するかどうかはモデリングに用いている変数
には依存しない
2. ランダムな欠測
– 欠測するかどうかは欠測値には依存せず、観測値
に依存する
3. ランダムでない欠測
– 欠測するかどうかは欠測値そのものや観測してい
ない他の変数にも依存する
下に行くほど仮定が弱くなり、表現力が高くなり、解くのが難しくなる
欠測値付きモデル
• 𝒚 = 𝒚obs
𝒚mis
: 関心のある変数
– 𝒚obs:観測値、𝒚mis:欠測値
• 𝒎:欠測したか表すインディケータ変数
• 𝑝 𝒚, 𝒎 𝜽, 𝝓 = 𝑝 𝒚 𝜽 𝑝 𝒎 𝒚, 𝝓
– 𝜽:完全データ同時分布のパラメータ
– 𝝓:欠測モデルのパラメータ
• 𝑝 𝒚obs, 𝒎 𝜽, 𝝓 = ∫ 𝑝 𝒚 𝜽 𝑝 𝒎 𝒚, 𝝓 𝑑𝒚mis
– モデルを解く=この尤度関数を最大化する
欠測のメカニズム
1. 完全にランダムな欠測
– 𝑝 𝒎 𝒚, 𝝓 = 𝑝 𝒎 𝝓
2. ランダムな欠測
– 𝑝 𝒎 𝒚, 𝝓 = 𝑝 𝒎 𝒚obs, 𝝓
3. ランダムでない欠測
– 𝑝 𝒎 𝒚, 𝝓 のまま
(完全に)ランダムな欠測
• 𝑝 𝒎 𝒚, 𝝓 = 𝑝 𝒎 𝒚obs, 𝝓 より
• 尤度関数は
𝑝 𝒚obs, 𝒎 𝜽, 𝝓
= ∫ 𝑝 𝒚 𝜽 𝑝 𝒎 𝒚obs, 𝝓 𝑑𝒚mis
= 𝑝 𝒎 𝒚obs, 𝝓 ∫ 𝑝 𝒚 𝜽 𝑑𝒚mis
= 𝑝 𝒎 𝒚obs, 𝝓 𝑝(𝒚obs|𝜽)
• 一般に関心があるのは θ であり、
log 𝑝 𝒚obs, 𝒎 𝜽, 𝝓 = log 𝑝 𝒎 𝒚obs, 𝝓 + log 𝑝(𝒚obs|𝜽)
• より log 𝑝(𝒚obs|𝜽) のみを用いて推論すればいい
完全にランダム欠測
=強すぎる仮定
ランダム欠測
=解ける範囲で弱めた仮定
例 (線形)
• 𝑦1:入試得点 と 𝑦2:入学後の成績 の関係
– 入試得点で合格点 𝐶 に達しなかった学生は入学できない
ため、𝑦2 に欠測が生じる
• 𝑦1, 𝑦2 に線形回帰の関係があるとすると、
𝑦2 = 𝜃1 + 𝜃2 𝑦1 + 𝜖, 𝜖~𝑁 0, 𝜎2
𝑝 𝑦2, 𝑚 𝑦1, 𝜽, 𝐶 = 𝑝 𝑦2 𝑦1, 𝜽, 𝜎2
𝑝(𝑚|𝑦1, 𝐶)
• 𝑦2 の欠測インジケータ m は常に観測される 𝑦1 のみに
依存するので「ランダムな欠測」
• ∴ 𝜽 を欠測値を考慮せずに決めてよい
この部分だけで線形回帰をしても
切片と傾きを推定できる
欠測
例(多変量正規分布)
• 𝑦1, 𝑦2 に2変量正規分布の関係があると
𝑦1
𝑦2
~𝑁
𝜇1
𝜇2
,
𝜎1
2
𝜎12
𝜎21 𝜎2
2
• 観測されている 𝑦1, 𝑦2 だけからパラメータ推定す
ると、𝜎12 に大きいバイアスがのる
• 「ランダム欠損」であることを考慮した推定では
真の 𝜎12 に近い値を推定できる
– 計算省略
この部分だけから
多変量正規分布を単純に推定しても
全体の平均・分散は得られない
真の σ12 = 0.753, 合格者のみの相関= 0.406
ランダム欠測モデルによる相関の推定値= 0.731
この本における変数
• Y:従属変数、結果変数
– (一般には)結果となる変数
– 必ずしも観測できない(欠測値がある)
– この本では、一般の回帰問題で説明変数として扱われるような変数も Y
となる(例:入試の点数)
• Z:独立変数、説明変数、割り当て、(欠測)インディケータ
– (一般には)原因となる変数
– この本では、群への割り当てを示す変数のみが独立変数として扱われ
る。その他の変数は全て Y として扱われる
• X:共変量
– (潜在的)結果変数と割当てのいずれにも影響を与える量
• 中間変数:当面出てこないので略
処置群・対照群
• 無作為割り当てが行われている実験研究
において
– 実験群: 特別な条件を与えた群
– 対照群: 与えていない群
• 調査観察研究においては実験群ではなく
「処置群」と呼ぶ
– 「実験群」には無作為割り当てが行われてい
る印象があるため
「因果効果」の説明のための例
処置群(z) 1 1 1 0 0 0
対象者番号 1 2 … … N-1 N
𝑦1 𝑦11 𝑦21 … … 𝑦 𝑁−1,1 𝑦 𝑁1
𝑦0 𝑦10 𝑦20 … … 𝑦 𝑁−1,0 𝑦 𝑁0
早期教育する群(z=1) 早期教育しない群(z=0)
高い 低い
• 𝑧:所属群を表す独立変数
• 𝑦1:早期教育した場合の子供の中学校での成績
• 𝑦0:早期教育しない場合の子供の中学校での成績
因果効果(Rubin 1974)
• 潜在的な説明変数
– 独立変数がとりうる値の数と同じ数だけ存在
する仮想的な従属変数
– 𝑧 ∈ 0,1 にそれぞれ 𝑦0, 𝑦1 が対応
– 特に限定・明記はされていないが、
• z=1 が処置群、z=0 が対照群で基本固定っぽい
• 𝑦𝑧 が観測値、𝑦1−𝑧 が欠測値でこれまた固定
因果効果(Rubin 1974)
• 因果効果 = 𝑦1 − 𝑦0
– 処置群に割り当てられた場合の結果と、割り
当てられていなかった場合の結果の差
– 割り当て以外の対象者の要因が除外された量
– 片方は欠測値なので、直接計算はできない
• Rubin の因果効果 = 𝐸 𝑦1 − 𝐸 𝑦0
処置群が無作為抽出なら
• すなわち 𝑦𝑗 と 𝑧 が独立 𝑝 𝑦𝑗 𝑧 = 𝑝 𝑦𝑗 なら、
– 𝐸 𝑦𝑗 = ∫ 𝑦𝑗 𝑝 𝑦𝑗 𝑑𝑦𝑗
= ∫ 𝑦𝑗 𝑝 𝑦𝑗|𝑧 𝑑𝑦𝑗 = 𝐸 𝑦𝑗 𝑧
– 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝑦1 𝑧 = 1 − 𝐸 𝑦0 𝑧 = 0
• 𝐸 𝑦𝑗 𝑧 = 𝑗 は観察された各群の平均値
• ∴因果効果をバイアス無く推定できる
因果効果と介入効果の関係
• 処置群での平均介入効果(average Treatment Effect on the Treated)
– 𝑇𝐸𝑇 = 𝐸 𝑦1 − 𝑦0 𝑧 = 1
• 対照群での平均介入効果(average Treatment Effect on the Untreated)
– 𝑇𝐸U = 𝐸 𝑦1 − 𝑦0 𝑧 = 0
• このとき因果効果は
– 𝐸 𝑦1 − 𝑦0 = 𝑇𝐸𝑇 × 𝑝 𝑧 = 1 + 𝑇𝐸𝑈 × 𝑝(𝑧 = 0)
– 処置群と対照群の母集団における割合に依存
共変量調整による因果効果推定の
ための条件
共変量
• 結果変数と割り当ての両方に影響のある量
– どのような共変量を選ぶべきかについては4章
• すべての対象者について観測できる量
– 観測できない共変量がある場合については4章
共変量調整
• 因果効果=処置群の期待値-対照群の期待値
– 共変量の影響により見かけ上の関係(擬似相関)やバイ
アスが生じる可能性がある
– 早期教育の例:「中学校での英語の成績」(結果変
数)も「小学校での英語教育の有無」(割り当て)
もどちらも親の教育意欲や収入などの影響を受ける
• 共変量調整:
– 結果変数から共変量の影響を除去すること
– 影響を除去しても残る相関から因果効果を求めたい
一般には難しかったりめんどくさかったり
強く無視できる割り当て
• 「割り当ては共変量のみに依存し、結果変数には
依存しない」という仮定
– (𝑦1, 𝑦0) ⊥ 𝑧|𝒙 すなわち 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 = 𝑝 𝑧 𝒙
• このとき、
𝑝 𝑦1, 𝑦0, 𝑧, 𝒙
= 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙
= 𝑝 𝑧 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙
• 𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 も成立※
– 共変量を条件付ければ、 𝑦1, 𝑦0 の同時分布はどちら
の群に割り当てられたかに依存しない
𝑥
𝑦 𝑧
この分解の時に
𝑦 → 𝑧 が切れる
ホントは条件付き独立の記号(縦2本)
※本には「式(2.16)をベイズの定理を用いて言い換えると~」(p44)とあるが、
条件付き独立の定義のままであり、特に言い換えは不要
処置群(z) 1 1 1 0 0 0
対象者番号 1 2 … … N-1 N
… …
… …
早期教育する群(z=1) 早期教育しない群(z=0)
因果効果 on 強く無視できる割り当て
• 𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 から、平均での独
立性が得られる
– 𝐸 𝑦1 𝑧 = 1, 𝒙 = 𝐸 𝑦1 𝒙
– 𝐸 𝑦0 𝑧 = 0, 𝒙 = 𝐸 𝑦0 𝒙
• よって
𝐸 𝑦1 − 𝐸 𝑦0
= 𝐸 𝒙 𝐸 𝑦1 − 𝐸 𝑦0
= 𝐸 𝒙[𝐸 𝑦1 𝑧 = 1, 𝒙 − 𝐸 𝑦0 𝑧 = 0, 𝒙 ]
式(2.19)改※
※本の式(2.19)は不必要な変形が混じっていて混乱する。
y から始めるのをやめればスッキリする
ここが不要に!
共変量調整による因果効果の推定法
1. マッチング
– 共変量が一致する(or 近い)対象者の互いの結果変数が等しいとする
2. 恒常化・限定
– 共変量が特定の値の対象者に限定し解析。因果効果は推定できない←!
3. 層別解析
– 共変量の値を幾つかの層に分け、層ごとに2つのグループがその共変量
の値について等質になるようにし、比較した結果を統合 ←?
– (何らかの基準で5つほどの)サブクラスに分け、各クラスで 𝐸 𝑦1 −
𝐸 𝑦0 を求め、クラスのサイズで重みづけた平均を取る(3章の説明より)
4. 回帰モデルを用いる方法
– 各群ごとに回帰関数 𝐸 𝑦𝑗 𝑧 = 𝑗, 𝑥 を推定、その差の標本平均を取る
マッチング・層別解析の欠点
• 恣意性
– 「近さ」の定義が恣意的
• 次元問題
– 高次元だと実行が難しい
• サポート問題
– スパースだと「近い」対象者が存在しない
回帰モデルによる因果効果の推定
• 𝐸 𝑦𝑗 𝑧 = 𝑗, 𝑥 を推定
– (𝑥𝑖, 𝑦𝑖𝑗) を説明・目的変数とした単純な線形回帰
問題を解けばいい
• 求めた回帰間数を使って因果効果を計算
𝐸 𝑦1 − 𝐸 𝑦0
= 𝐸 𝑦1 𝑧 = 1, 𝒙 − 𝐸 𝑦0 𝑧 = 0, 𝒙 𝑝(𝒙)𝑑𝒙
=
1
𝑁
𝐸 𝑦𝑖1 𝑧 = 1, 𝒙𝑖 − 𝐸 𝑦𝑖0 𝑧 = 0, 𝒙𝑖
𝑁
𝑖=1
かどうかは厳密にはモデルによる。
本は暗黙に (ガウス)ノイズが乗った線
形回帰モデルを想定しており、よって
(x,y)に最小二乗法を用いればよい
結果変数の条件付き分布の母数推定
• 「強く無視できる割り当て」はランダム欠測を満
たす
– 観測された値で最尤推定してパラメータ決定
• 𝑝 𝑦 𝑜𝑏𝑠 𝑥 = ∫ 𝑝 𝑦1, 𝑦0 𝑥, 𝜃1, 𝜃0, 𝜓 𝑑𝑦 𝑚𝑖𝑠
= 𝑝 𝑦𝑖1 𝑥𝑖, 𝜃1
𝑖:𝑧 𝑖=1
× 𝑝 𝑦𝑖0 𝑥𝑖, 𝜃0
𝑖:𝑧 𝑖=0
• この推定量は一致性をもつ
– データが増えると漸近的に真値に一致する
回帰モデルによる因果効果推定の問題点
• 結果変数と共変量のモデリングが必要
– 「正しい」モデルでなければバイアス発生
– 「正しい」モデルでも、要求される仮定を満
たさなければバイアス発生
• 直接因果効果の推定値は得られない
– 前スライドの式を使って標本平均を推定値と
する必要がある
正しいモデルでもバイアス?
• 処置群と対照群が次のモデルに従うとする
– 𝑦𝑖1 = 𝜏1 + 𝒙𝑖
𝑡
𝜷1 + 𝜖𝑖1, 𝑦𝑖0 = 𝜏0 + 𝒙𝑖
𝑡
𝜷0 + 𝜖𝑖0
– 本では 𝜷1 − 𝜷0 = 0 とおいて計算した後、「逆に言えば~という強い仮
定を暗黙のうちにおいていることになる」となっているのだが、無理
筋なので、ここでは 𝜷1 − 𝜷0 = 0 を仮定しない
• 共変量調整によって推定される因果効果は
𝐸 𝑦1 𝒙𝑖 − 𝐸 𝑦0 𝒙𝑖 = 𝜏1 + 𝒙𝑖
𝑡
𝜷1 − 𝜏0 + 𝒙𝑖
𝑡
𝜷0
= 𝜏1 − 𝜏0 + 𝒙𝑖
𝑡
𝜷1 − 𝜷0
∴ 𝐸 𝒙 𝐸 𝑦1 𝒙 − 𝐸 𝑦0 𝒙 = 𝜏1 − 𝜏0 + 𝐸 𝒙 𝒙 𝑡 (𝜷1 − 𝜷0)
• 一方、因果効果の真値もこうなり、一致するように見える……
𝐸 𝑦1 − 𝐸 𝑦0 = 𝜏1 − 𝜏0 + 𝐸 𝒙 𝑡 (𝜷1 − 𝜷0)
• 真値が 𝜏1 − 𝜏0 だったら 𝐸 𝒙 𝒙𝑖
𝑡 (𝜷1 − 𝜷0) がバイアスで、次頁の図
と解釈が一致するのだが……
= 𝜷1 − 𝜷0
𝜷1 − 𝜷0 = 0 では共変量調整
(共分散分析)は真値を推定で
きているが、そうでない場合
は𝐸 𝒙 𝒙 𝑡
(𝜷1 − 𝜷0) だけずれ
る、と解釈できると納得度が
高いのだが
モデルが間違っていたらもちろん×
• 真のモデルが「1次の項だけではなく2次の項が存在する」場合
– 「ここでは2次の項だけ加えた結果を示しているため、2次の項を説明
変数として解析すればよいのでは思われるかもしれない。しかし、線
形以外の項を考慮するとするならば2次以外にも様々な関数を考える必
要がある。(中略)現実的ではない」
カーネル回帰で共変量調整
• ノンパラメトリックな回帰分析
– 「様々な関数を考える必要」が無い
– ノンパラ=パラメータ数が固定ではなくデータ数に
よって増える
• つまりパラメータがめっちゃ多い
• とても過適合しやすく、コントロールに職人技
• 一般にデータ数の2~3乗オーダー、次元の呪い
– 以下省略
• ノンパラまで行かなくていいから、もうちょっと
扱いやすいやつ→セミパラメトリック

星野「調査観察データの統計科学」第1&2章