Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
星野「調査観察データの統計科学」第3章
Next
Download to read offline and view in fullscreen.

38

Share

Download to read offline

星野「調査観察データの統計科学」第1&2章

Download to read offline

星野「調査観察データの統計科学」の読書スライドです。
社内勉強会で使った資料がベースです。
第1章の調査観察研究の枠組みと、第2章のルービンの因果モデルを紹介しています。

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

星野「調査観察データの統計科学」第1&2章

  1. 1. 星野「調査観察データの統計科学」 第1~2章 2015/9/8 @shuyo ( Cybozu Labs )
  2. 2. 統計あるある
  3. 3. 3歳児神話 • 「子どもは3歳までは保育園に行かないで母 親のもとで育つほうが健全(社会性・知能の 発達が高い)」 • Hill+(2002) による調査 – 1歳から3歳まで母親のもとで育った子どもと、同 じ時期に保育園に通っていた子どもを追跡調査 – 8歳の時点での社会性得点と知能検査を比較 – 保育園に通った子供のほうがどちらも良い成績 • 3歳児神話は否定されたとしていい?
  4. 4. 3歳児神話 • 「子どもは3歳までは保育園に行かないで母 親のもとで育つほうが健全(社会性・知能の 発達が高い)」 • Hill+(2002) による調査 – 1歳から3歳まで母親のもとで育った子どもと、同 じ時期に保育園に通っていた子どもを追跡調査 – 8歳の時点での社会性得点と知能検査を比較 – 保育園に通った子供のほうがどちらも良い成績 • 3歳児神話は否定されたとしていい? ただし、保育園に子どもを 通わせる親の収入や学歴は 保育園に子どもを通わせない 親より平均して高かった
  5. 5. 妊娠中の喫煙の影響 • National Longitudinal Survey のデータ(NLSY1979-2002) – 妊娠中の母親の喫煙が子どもの知能にもたらす影響の調査 – 2群の数学と読解の成長曲線 – 2群の成長曲線に差がないという帰無仮説に対する p 値は、 数学が 0.0412、読解が 0.0073 • 妊娠中の喫煙が子どもの知能に影響あるとしていい?
  6. 6. 妊娠中の喫煙の影響 • National Longitudinal Survey のデータ(NLSY1979-2002) – 妊娠中の母親の喫煙が子どもの知能にもたらす影響の調査 – 2群の数学と読解の成長曲線 – 2群の成長曲線に差がないという帰無仮説に対する p 値は、 数学が 0.0412、読解が 0.0073 • 妊娠中の喫煙が子どもの知能に影響あるとしていい? ただし、母親の学歴が高いと (タバコの有害性を知りやすく) 妊娠中に喫煙する可能性は小さく、 また母親の学歴が高いと 子どもの知能が高くなる可能性が 大きいことがわかっている
  7. 7. 教育費負担の実態調査(2008/10) • 高校~大学院などに在学している子どもを持 ち、国の教育ローンを利用している世帯に対 する調査 – 世帯収入に対する教育費は平均 34.1% – 年収200~400万円の世帯では 55.6% – 住宅ローン年間返済額と教育費を合わせると平均 45.9%、両社が世帯収入の5割を超えた世帯は全 体の 32.5% • 日本人は教育費の重い負担に苦しんでいる?
  8. 8. 教育費負担の実態調査(2008/10) • 高校~大学院などに在学している子どもを持 ち、国の教育ローンを利用している世帯に対 する調査 – 世帯収入に対する教育費は平均 34.1% – 年収200~400万円の世帯では 55.6% – 住宅ローン年間返済額と教育費を合わせると平均 45.9%、両社が世帯収入の5割を超えた世帯は全 体の 32.5% • 日本人は教育費の重い負担に苦しんでいる? ただし、調査対象である 「国の教育ローンを利用している家庭」 の多くが私学に子どもを入れるなどして、 収入の割に高い教育費を払っている 家庭であると考えられる
  9. 9. 解約予防フォローコール • 犀坊主(仮)は自社サービスを利用している 100件のユーザのうち、アクセスの少ない 30件について電話フォローを行った – フォローした30件はその後 40% が解約 – しなかった70件は 30% が解約 • 電話フォローは効果なしとしていい?
  10. 10. 解約予防フォローコール • 犀坊主(仮)は自社サービスを利用している 100件のユーザのうち、アクセスの少ない 30件について電話フォローを行った – フォローした30件はその後 40% が解約 – しなかった70件は 30% が解約 • 電話フォローは効果なしとしていい? ただし、アクセスの少ないユーザは もともと解約の可能性が 高かったことが推測される
  11. 11. 問題の分類 • 調査観察研究 • 選択バイアス • データ融合
  12. 12. 調査観察研究 • 実験(無作為割り当て)ができない研究 – 対象が理論的・倫理的に操作可能ではない – 実験という特殊性により、被験者が通常と異なる 行動を取る可能性がある – コストが高く、サンプルが小さすぎる – 被験者の負担が高く、少数の協力者に限定される • 割り当ては無作為であっても、不遵守(被験者のサボ り)が起きると、無作為データで無くなる
  13. 13. 選択バイアス • 「本来対象とする集団」から一部の対象者が 選択(or除外)されている状況で、単純な解析 を行うことによって生じる結果の歪み – 作為的な選択バイアスは論外として…… – 特定の傾向を持った個人や組織を対象とした調 査・研究を行わざるをえないことは多い • インターネット調査も「選択バイアス」(インター ネットリテラシーの高い人、報酬に釣られた人) • 顧客アンケートも「選択バイアス」(顧客で、かつわ ざわざ送り返してくれた人)
  14. 14. データ融合 • 対象者の異なる複数のデータを統合し、 擬似的なシングルソースデータを構成し、 顧客層の理解と購買行動予測を行う – 顧客のページ閲覧履歴、購買履歴 +市場調査、商品の属性 • 市場調査データの回答者が、購買履歴 データに含まれないなど対象者に重なり がなく、相関が得られないことも
  15. 15. これらの問題を 統一的な枠組みで モデリングする
  16. 16. 調査観測+欠測データ • ルービンの因果モデル – 調査観測データを欠測のあるデータと考える – もし介入を受けた場合の従属変数 • 英語早期教育を行わなかった群(対照群)は欠測 – もし介入を受けなかった場合の従属変数 • 英語早期教育を行った群(処置群)は欠測 – 2つの群の質的な違いを説明する共変量 • 例:親の学歴・収入・教育意欲 一般には「実験群」 とも呼ばれるが、 無作為抽出のニュア ンスを避けて 「処置群」と呼ぶ 処置群のデータ 欠測 欠測 対照群のデータ 全対象者に共通して得られている変数 処置群 対照群 介入を受けた 場合の結果 𝑦1 介入を受けない 場合の結果 𝑦0 共変量項目
  17. 17. 選択バイアス+欠測データ • 欠測データとしての選択バイアスの補正 – 調査対象者≠回答者であるとき – 関心のある従属変数は回答者において観測さ れるが、非回答者では観測されない 回答者のデータ 非回答者のデータ 全対象者に共通して得られている変数 回答者 非回答者 従属変数 共変量項目
  18. 18. データ融合+欠測データ • 共変量項目を利用したマッチング – 欠測値を「共変量項目に関して最も近い」 データで埋める – 因子分析や主成分分析で互いの変換行列を求 める 購買履歴調査の データ 欠測 欠測 市場調査の 回答データ 全対象者に共通して得られている変数 購買履歴データ 市場調査データ 変数群A (購買履歴) 変数群B (質問紙項目) 共変量項目
  19. 19. 本書のアプローチ • 欠測のあるデータの枠組みで考える • 共変量情報を積極的に集め、活用する – 適切な選択や仮定も必要 • セミパラメトリックな手法を用い、 ロバストな結果を得る – 共変量と従属変数の線形性を仮定しない
  20. 20. 欠測データと因果推論
  21. 21. 欠測の分類 1. 各変数レベルでの記入漏れや無回答 2. 打ち切りや切断 – 打ち切り=閾値を超えたことはわかるが、本来の値 がわからない – 切断=閾値を超えた観測値の数そのものが不明 3. 経時データやパネルデータでの脱落 – パネルデータ=時系列+クロスセクション 4. 調査や測定全体への無回答や不参加、測定不能
  22. 22. 欠測のメカニズム 1. 完全にランダムな欠測 – 欠測するかどうかはモデリングに用いている変数 には依存しない 2. ランダムな欠測 – 欠測するかどうかは欠測値には依存せず、観測値 に依存する 3. ランダムでない欠測 – 欠測するかどうかは欠測値そのものや観測してい ない他の変数にも依存する 下に行くほど仮定が弱くなり、表現力が高くなり、解くのが難しくなる
  23. 23. 欠測値付きモデル • 𝒚 = 𝒚obs 𝒚mis : 関心のある変数 – 𝒚obs:観測値、𝒚mis:欠測値 • 𝒎:欠測したか表すインディケータ変数 • 𝑝 𝒚, 𝒎 𝜽, 𝝓 = 𝑝 𝒚 𝜽 𝑝 𝒎 𝒚, 𝝓 – 𝜽:完全データ同時分布のパラメータ – 𝝓:欠測モデルのパラメータ • 𝑝 𝒚obs, 𝒎 𝜽, 𝝓 = ∫ 𝑝 𝒚 𝜽 𝑝 𝒎 𝒚, 𝝓 𝑑𝒚mis – モデルを解く=この尤度関数を最大化する
  24. 24. 欠測のメカニズム 1. 完全にランダムな欠測 – 𝑝 𝒎 𝒚, 𝝓 = 𝑝 𝒎 𝝓 2. ランダムな欠測 – 𝑝 𝒎 𝒚, 𝝓 = 𝑝 𝒎 𝒚obs, 𝝓 3. ランダムでない欠測 – 𝑝 𝒎 𝒚, 𝝓 のまま
  25. 25. (完全に)ランダムな欠測 • 𝑝 𝒎 𝒚, 𝝓 = 𝑝 𝒎 𝒚obs, 𝝓 より • 尤度関数は 𝑝 𝒚obs, 𝒎 𝜽, 𝝓 = ∫ 𝑝 𝒚 𝜽 𝑝 𝒎 𝒚obs, 𝝓 𝑑𝒚mis = 𝑝 𝒎 𝒚obs, 𝝓 ∫ 𝑝 𝒚 𝜽 𝑑𝒚mis = 𝑝 𝒎 𝒚obs, 𝝓 𝑝(𝒚obs|𝜽) • 一般に関心があるのは θ であり、 log 𝑝 𝒚obs, 𝒎 𝜽, 𝝓 = log 𝑝 𝒎 𝒚obs, 𝝓 + log 𝑝(𝒚obs|𝜽) • より log 𝑝(𝒚obs|𝜽) のみを用いて推論すればいい 完全にランダム欠測 =強すぎる仮定 ランダム欠測 =解ける範囲で弱めた仮定
  26. 26. 例 (線形) • 𝑦1:入試得点 と 𝑦2:入学後の成績 の関係 – 入試得点で合格点 𝐶 に達しなかった学生は入学できない ため、𝑦2 に欠測が生じる • 𝑦1, 𝑦2 に線形回帰の関係があるとすると、 𝑦2 = 𝜃1 + 𝜃2 𝑦1 + 𝜖, 𝜖~𝑁 0, 𝜎2 𝑝 𝑦2, 𝑚 𝑦1, 𝜽, 𝐶 = 𝑝 𝑦2 𝑦1, 𝜽, 𝜎2 𝑝(𝑚|𝑦1, 𝐶) • 𝑦2 の欠測インジケータ m は常に観測される 𝑦1 のみに 依存するので「ランダムな欠測」 • ∴ 𝜽 を欠測値を考慮せずに決めてよい
  27. 27. この部分だけで線形回帰をしても 切片と傾きを推定できる 欠測
  28. 28. 例(多変量正規分布) • 𝑦1, 𝑦2 に2変量正規分布の関係があると 𝑦1 𝑦2 ~𝑁 𝜇1 𝜇2 , 𝜎1 2 𝜎12 𝜎21 𝜎2 2 • 観測されている 𝑦1, 𝑦2 だけからパラメータ推定す ると、𝜎12 に大きいバイアスがのる • 「ランダム欠損」であることを考慮した推定では 真の 𝜎12 に近い値を推定できる – 計算省略
  29. 29. この部分だけから 多変量正規分布を単純に推定しても 全体の平均・分散は得られない 真の σ12 = 0.753, 合格者のみの相関= 0.406 ランダム欠測モデルによる相関の推定値= 0.731
  30. 30. この本における変数 • Y:従属変数、結果変数 – (一般には)結果となる変数 – 必ずしも観測できない(欠測値がある) – この本では、一般の回帰問題で説明変数として扱われるような変数も Y となる(例:入試の点数) • Z:独立変数、説明変数、割り当て、(欠測)インディケータ – (一般には)原因となる変数 – この本では、群への割り当てを示す変数のみが独立変数として扱われ る。その他の変数は全て Y として扱われる • X:共変量 – (潜在的)結果変数と割当てのいずれにも影響を与える量 • 中間変数:当面出てこないので略
  31. 31. 処置群・対照群 • 無作為割り当てが行われている実験研究 において – 実験群: 特別な条件を与えた群 – 対照群: 与えていない群 • 調査観察研究においては実験群ではなく 「処置群」と呼ぶ – 「実験群」には無作為割り当てが行われてい る印象があるため
  32. 32. 「因果効果」の説明のための例 処置群(z) 1 1 1 0 0 0 対象者番号 1 2 … … N-1 N 𝑦1 𝑦11 𝑦21 … … 𝑦 𝑁−1,1 𝑦 𝑁1 𝑦0 𝑦10 𝑦20 … … 𝑦 𝑁−1,0 𝑦 𝑁0 早期教育する群(z=1) 早期教育しない群(z=0) 高い 低い • 𝑧:所属群を表す独立変数 • 𝑦1:早期教育した場合の子供の中学校での成績 • 𝑦0:早期教育しない場合の子供の中学校での成績
  33. 33. 因果効果(Rubin 1974) • 潜在的な説明変数 – 独立変数がとりうる値の数と同じ数だけ存在 する仮想的な従属変数 – 𝑧 ∈ 0,1 にそれぞれ 𝑦0, 𝑦1 が対応 – 特に限定・明記はされていないが、 • z=1 が処置群、z=0 が対照群で基本固定っぽい • 𝑦𝑧 が観測値、𝑦1−𝑧 が欠測値でこれまた固定
  34. 34. 因果効果(Rubin 1974) • 因果効果 = 𝑦1 − 𝑦0 – 処置群に割り当てられた場合の結果と、割り 当てられていなかった場合の結果の差 – 割り当て以外の対象者の要因が除外された量 – 片方は欠測値なので、直接計算はできない • Rubin の因果効果 = 𝐸 𝑦1 − 𝐸 𝑦0
  35. 35. 処置群が無作為抽出なら • すなわち 𝑦𝑗 と 𝑧 が独立 𝑝 𝑦𝑗 𝑧 = 𝑝 𝑦𝑗 なら、 – 𝐸 𝑦𝑗 = ∫ 𝑦𝑗 𝑝 𝑦𝑗 𝑑𝑦𝑗 = ∫ 𝑦𝑗 𝑝 𝑦𝑗|𝑧 𝑑𝑦𝑗 = 𝐸 𝑦𝑗 𝑧 – 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝑦1 𝑧 = 1 − 𝐸 𝑦0 𝑧 = 0 • 𝐸 𝑦𝑗 𝑧 = 𝑗 は観察された各群の平均値 • ∴因果効果をバイアス無く推定できる
  36. 36. 因果効果と介入効果の関係 • 処置群での平均介入効果(average Treatment Effect on the Treated) – 𝑇𝐸𝑇 = 𝐸 𝑦1 − 𝑦0 𝑧 = 1 • 対照群での平均介入効果(average Treatment Effect on the Untreated) – 𝑇𝐸U = 𝐸 𝑦1 − 𝑦0 𝑧 = 0 • このとき因果効果は – 𝐸 𝑦1 − 𝑦0 = 𝑇𝐸𝑇 × 𝑝 𝑧 = 1 + 𝑇𝐸𝑈 × 𝑝(𝑧 = 0) – 処置群と対照群の母集団における割合に依存
  37. 37. 共変量調整による因果効果推定の ための条件
  38. 38. 共変量 • 結果変数と割り当ての両方に影響のある量 – どのような共変量を選ぶべきかについては4章 • すべての対象者について観測できる量 – 観測できない共変量がある場合については4章
  39. 39. 共変量調整 • 因果効果=処置群の期待値-対照群の期待値 – 共変量の影響により見かけ上の関係(擬似相関)やバイ アスが生じる可能性がある – 早期教育の例:「中学校での英語の成績」(結果変 数)も「小学校での英語教育の有無」(割り当て) もどちらも親の教育意欲や収入などの影響を受ける • 共変量調整: – 結果変数から共変量の影響を除去すること – 影響を除去しても残る相関から因果効果を求めたい 一般には難しかったりめんどくさかったり
  40. 40. 強く無視できる割り当て • 「割り当ては共変量のみに依存し、結果変数には 依存しない」という仮定 – (𝑦1, 𝑦0) ⊥ 𝑧|𝒙 すなわち 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 = 𝑝 𝑧 𝒙 • このとき、 𝑝 𝑦1, 𝑦0, 𝑧, 𝒙 = 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙 = 𝑝 𝑧 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙 • 𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 も成立※ – 共変量を条件付ければ、 𝑦1, 𝑦0 の同時分布はどちら の群に割り当てられたかに依存しない 𝑥 𝑦 𝑧 この分解の時に 𝑦 → 𝑧 が切れる ホントは条件付き独立の記号(縦2本) ※本には「式(2.16)をベイズの定理を用いて言い換えると~」(p44)とあるが、 条件付き独立の定義のままであり、特に言い換えは不要
  41. 41. 処置群(z) 1 1 1 0 0 0 対象者番号 1 2 … … N-1 N … … … … 早期教育する群(z=1) 早期教育しない群(z=0) 因果効果 on 強く無視できる割り当て • 𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 から、平均での独 立性が得られる – 𝐸 𝑦1 𝑧 = 1, 𝒙 = 𝐸 𝑦1 𝒙 – 𝐸 𝑦0 𝑧 = 0, 𝒙 = 𝐸 𝑦0 𝒙 • よって 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝒙 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝒙[𝐸 𝑦1 𝑧 = 1, 𝒙 − 𝐸 𝑦0 𝑧 = 0, 𝒙 ] 式(2.19)改※ ※本の式(2.19)は不必要な変形が混じっていて混乱する。 y から始めるのをやめればスッキリする ここが不要に!
  42. 42. 共変量調整による因果効果の推定法 1. マッチング – 共変量が一致する(or 近い)対象者の互いの結果変数が等しいとする 2. 恒常化・限定 – 共変量が特定の値の対象者に限定し解析。因果効果は推定できない←! 3. 層別解析 – 共変量の値を幾つかの層に分け、層ごとに2つのグループがその共変量 の値について等質になるようにし、比較した結果を統合 ←? – (何らかの基準で5つほどの)サブクラスに分け、各クラスで 𝐸 𝑦1 − 𝐸 𝑦0 を求め、クラスのサイズで重みづけた平均を取る(3章の説明より) 4. 回帰モデルを用いる方法 – 各群ごとに回帰関数 𝐸 𝑦𝑗 𝑧 = 𝑗, 𝑥 を推定、その差の標本平均を取る
  43. 43. マッチング・層別解析の欠点 • 恣意性 – 「近さ」の定義が恣意的 • 次元問題 – 高次元だと実行が難しい • サポート問題 – スパースだと「近い」対象者が存在しない
  44. 44. 回帰モデルによる因果効果の推定 • 𝐸 𝑦𝑗 𝑧 = 𝑗, 𝑥 を推定 – (𝑥𝑖, 𝑦𝑖𝑗) を説明・目的変数とした単純な線形回帰 問題を解けばいい • 求めた回帰間数を使って因果効果を計算 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝑦1 𝑧 = 1, 𝒙 − 𝐸 𝑦0 𝑧 = 0, 𝒙 𝑝(𝒙)𝑑𝒙 = 1 𝑁 𝐸 𝑦𝑖1 𝑧 = 1, 𝒙𝑖 − 𝐸 𝑦𝑖0 𝑧 = 0, 𝒙𝑖 𝑁 𝑖=1 かどうかは厳密にはモデルによる。 本は暗黙に (ガウス)ノイズが乗った線 形回帰モデルを想定しており、よって (x,y)に最小二乗法を用いればよい
  45. 45. 結果変数の条件付き分布の母数推定 • 「強く無視できる割り当て」はランダム欠測を満 たす – 観測された値で最尤推定してパラメータ決定 • 𝑝 𝑦 𝑜𝑏𝑠 𝑥 = ∫ 𝑝 𝑦1, 𝑦0 𝑥, 𝜃1, 𝜃0, 𝜓 𝑑𝑦 𝑚𝑖𝑠 = 𝑝 𝑦𝑖1 𝑥𝑖, 𝜃1 𝑖:𝑧 𝑖=1 × 𝑝 𝑦𝑖0 𝑥𝑖, 𝜃0 𝑖:𝑧 𝑖=0 • この推定量は一致性をもつ – データが増えると漸近的に真値に一致する
  46. 46. 回帰モデルによる因果効果推定の問題点 • 結果変数と共変量のモデリングが必要 – 「正しい」モデルでなければバイアス発生 – 「正しい」モデルでも、要求される仮定を満 たさなければバイアス発生 • 直接因果効果の推定値は得られない – 前スライドの式を使って標本平均を推定値と する必要がある
  47. 47. 正しいモデルでもバイアス? • 処置群と対照群が次のモデルに従うとする – 𝑦𝑖1 = 𝜏1 + 𝒙𝑖 𝑡 𝜷1 + 𝜖𝑖1, 𝑦𝑖0 = 𝜏0 + 𝒙𝑖 𝑡 𝜷0 + 𝜖𝑖0 – 本では 𝜷1 − 𝜷0 = 0 とおいて計算した後、「逆に言えば~という強い仮 定を暗黙のうちにおいていることになる」となっているのだが、無理 筋なので、ここでは 𝜷1 − 𝜷0 = 0 を仮定しない • 共変量調整によって推定される因果効果は 𝐸 𝑦1 𝒙𝑖 − 𝐸 𝑦0 𝒙𝑖 = 𝜏1 + 𝒙𝑖 𝑡 𝜷1 − 𝜏0 + 𝒙𝑖 𝑡 𝜷0 = 𝜏1 − 𝜏0 + 𝒙𝑖 𝑡 𝜷1 − 𝜷0 ∴ 𝐸 𝒙 𝐸 𝑦1 𝒙 − 𝐸 𝑦0 𝒙 = 𝜏1 − 𝜏0 + 𝐸 𝒙 𝒙 𝑡 (𝜷1 − 𝜷0) • 一方、因果効果の真値もこうなり、一致するように見える…… 𝐸 𝑦1 − 𝐸 𝑦0 = 𝜏1 − 𝜏0 + 𝐸 𝒙 𝑡 (𝜷1 − 𝜷0) • 真値が 𝜏1 − 𝜏0 だったら 𝐸 𝒙 𝒙𝑖 𝑡 (𝜷1 − 𝜷0) がバイアスで、次頁の図 と解釈が一致するのだが……
  48. 48. = 𝜷1 − 𝜷0 𝜷1 − 𝜷0 = 0 では共変量調整 (共分散分析)は真値を推定で きているが、そうでない場合 は𝐸 𝒙 𝒙 𝑡 (𝜷1 − 𝜷0) だけずれ る、と解釈できると納得度が 高いのだが
  49. 49. モデルが間違っていたらもちろん× • 真のモデルが「1次の項だけではなく2次の項が存在する」場合 – 「ここでは2次の項だけ加えた結果を示しているため、2次の項を説明 変数として解析すればよいのでは思われるかもしれない。しかし、線 形以外の項を考慮するとするならば2次以外にも様々な関数を考える必 要がある。(中略)現実的ではない」
  50. 50. カーネル回帰で共変量調整 • ノンパラメトリックな回帰分析 – 「様々な関数を考える必要」が無い – ノンパラ=パラメータ数が固定ではなくデータ数に よって増える • つまりパラメータがめっちゃ多い • とても過適合しやすく、コントロールに職人技 • 一般にデータ数の2~3乗オーダー、次元の呪い – 以下省略 • ノンパラまで行かなくていいから、もうちょっと 扱いやすいやつ→セミパラメトリック
  • MasahiroKobayashi12

    Jan. 14, 2021
  • ttoku3

    Dec. 19, 2020
  • HiroshiShiba3

    Sep. 11, 2020
  • hontolab

    Jun. 8, 2020
  • shimonotoshiyuki

    May. 24, 2020
  • kentarorikimaru

    Feb. 17, 2020
  • takumaokumura

    Dec. 13, 2019
  • yoshimurat1

    Aug. 26, 2018
  • KazukiHosoda1

    Aug. 13, 2018
  • ssuserd62938

    Feb. 9, 2018
  • AyakaChino

    Dec. 24, 2017
  • ssuser22d326

    Nov. 2, 2017
  • shogonishimura1011

    Sep. 28, 2017
  • yokuneko

    Aug. 3, 2017
  • YamatoTsuboi

    Aug. 3, 2017
  • osamumachida12

    Jun. 23, 2017
  • ssuser5e9289

    May. 8, 2017
  • ssuser7e4558

    Apr. 7, 2017
  • yoshinaris

    Mar. 9, 2017
  • asa9no

    Dec. 29, 2016

星野「調査観察データの統計科学」の読書スライドです。 社内勉強会で使った資料がベースです。 第1章の調査観察研究の枠組みと、第2章のルービンの因果モデルを紹介しています。

Views

Total views

25,970

On Slideshare

0

From embeds

0

Number of embeds

17,552

Actions

Downloads

154

Shares

0

Comments

0

Likes

38

×