Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

星野「調査観察データの統計科学」第1&2章

13,788 views

Published on

星野「調査観察データの統計科学」の読書スライドです。
社内勉強会で使った資料がベースです。
第1章の調査観察研究の枠組みと、第2章のルービンの因果モデルを紹介しています。

Published in: Technology
  • Be the first to comment

星野「調査観察データの統計科学」第1&2章

  1. 1. 星野「調査観察データの統計科学」 第1~2章 2015/9/8 @shuyo ( Cybozu Labs )
  2. 2. 統計あるある
  3. 3. 3歳児神話 • 「子どもは3歳までは保育園に行かないで母 親のもとで育つほうが健全(社会性・知能の 発達が高い)」 • Hill+(2002) による調査 – 1歳から3歳まで母親のもとで育った子どもと、同 じ時期に保育園に通っていた子どもを追跡調査 – 8歳の時点での社会性得点と知能検査を比較 – 保育園に通った子供のほうがどちらも良い成績 • 3歳児神話は否定されたとしていい?
  4. 4. 3歳児神話 • 「子どもは3歳までは保育園に行かないで母 親のもとで育つほうが健全(社会性・知能の 発達が高い)」 • Hill+(2002) による調査 – 1歳から3歳まで母親のもとで育った子どもと、同 じ時期に保育園に通っていた子どもを追跡調査 – 8歳の時点での社会性得点と知能検査を比較 – 保育園に通った子供のほうがどちらも良い成績 • 3歳児神話は否定されたとしていい? ただし、保育園に子どもを 通わせる親の収入や学歴は 保育園に子どもを通わせない 親より平均して高かった
  5. 5. 妊娠中の喫煙の影響 • National Longitudinal Survey のデータ(NLSY1979-2002) – 妊娠中の母親の喫煙が子どもの知能にもたらす影響の調査 – 2群の数学と読解の成長曲線 – 2群の成長曲線に差がないという帰無仮説に対する p 値は、 数学が 0.0412、読解が 0.0073 • 妊娠中の喫煙が子どもの知能に影響あるとしていい?
  6. 6. 妊娠中の喫煙の影響 • National Longitudinal Survey のデータ(NLSY1979-2002) – 妊娠中の母親の喫煙が子どもの知能にもたらす影響の調査 – 2群の数学と読解の成長曲線 – 2群の成長曲線に差がないという帰無仮説に対する p 値は、 数学が 0.0412、読解が 0.0073 • 妊娠中の喫煙が子どもの知能に影響あるとしていい? ただし、母親の学歴が高いと (タバコの有害性を知りやすく) 妊娠中に喫煙する可能性は小さく、 また母親の学歴が高いと 子どもの知能が高くなる可能性が 大きいことがわかっている
  7. 7. 教育費負担の実態調査(2008/10) • 高校~大学院などに在学している子どもを持 ち、国の教育ローンを利用している世帯に対 する調査 – 世帯収入に対する教育費は平均 34.1% – 年収200~400万円の世帯では 55.6% – 住宅ローン年間返済額と教育費を合わせると平均 45.9%、両社が世帯収入の5割を超えた世帯は全 体の 32.5% • 日本人は教育費の重い負担に苦しんでいる?
  8. 8. 教育費負担の実態調査(2008/10) • 高校~大学院などに在学している子どもを持 ち、国の教育ローンを利用している世帯に対 する調査 – 世帯収入に対する教育費は平均 34.1% – 年収200~400万円の世帯では 55.6% – 住宅ローン年間返済額と教育費を合わせると平均 45.9%、両社が世帯収入の5割を超えた世帯は全 体の 32.5% • 日本人は教育費の重い負担に苦しんでいる? ただし、調査対象である 「国の教育ローンを利用している家庭」 の多くが私学に子どもを入れるなどして、 収入の割に高い教育費を払っている 家庭であると考えられる
  9. 9. 解約予防フォローコール • 犀坊主(仮)は自社サービスを利用している 100件のユーザのうち、アクセスの少ない 30件について電話フォローを行った – フォローした30件はその後 40% が解約 – しなかった70件は 30% が解約 • 電話フォローは効果なしとしていい?
  10. 10. 解約予防フォローコール • 犀坊主(仮)は自社サービスを利用している 100件のユーザのうち、アクセスの少ない 30件について電話フォローを行った – フォローした30件はその後 40% が解約 – しなかった70件は 30% が解約 • 電話フォローは効果なしとしていい? ただし、アクセスの少ないユーザは もともと解約の可能性が 高かったことが推測される
  11. 11. 問題の分類 • 調査観察研究 • 選択バイアス • データ融合
  12. 12. 調査観察研究 • 実験(無作為割り当て)ができない研究 – 対象が理論的・倫理的に操作可能ではない – 実験という特殊性により、被験者が通常と異なる 行動を取る可能性がある – コストが高く、サンプルが小さすぎる – 被験者の負担が高く、少数の協力者に限定される • 割り当ては無作為であっても、不遵守(被験者のサボ り)が起きると、無作為データで無くなる
  13. 13. 選択バイアス • 「本来対象とする集団」から一部の対象者が 選択(or除外)されている状況で、単純な解析 を行うことによって生じる結果の歪み – 作為的な選択バイアスは論外として…… – 特定の傾向を持った個人や組織を対象とした調 査・研究を行わざるをえないことは多い • インターネット調査も「選択バイアス」(インター ネットリテラシーの高い人、報酬に釣られた人) • 顧客アンケートも「選択バイアス」(顧客で、かつわ ざわざ送り返してくれた人)
  14. 14. データ融合 • 対象者の異なる複数のデータを統合し、 擬似的なシングルソースデータを構成し、 顧客層の理解と購買行動予測を行う – 顧客のページ閲覧履歴、購買履歴 +市場調査、商品の属性 • 市場調査データの回答者が、購買履歴 データに含まれないなど対象者に重なり がなく、相関が得られないことも
  15. 15. これらの問題を 統一的な枠組みで モデリングする
  16. 16. 調査観測+欠測データ • ルービンの因果モデル – 調査観測データを欠測のあるデータと考える – もし介入を受けた場合の従属変数 • 英語早期教育を行わなかった群(対照群)は欠測 – もし介入を受けなかった場合の従属変数 • 英語早期教育を行った群(処置群)は欠測 – 2つの群の質的な違いを説明する共変量 • 例:親の学歴・収入・教育意欲 一般には「実験群」 とも呼ばれるが、 無作為抽出のニュア ンスを避けて 「処置群」と呼ぶ 処置群のデータ 欠測 欠測 対照群のデータ 全対象者に共通して得られている変数 処置群 対照群 介入を受けた 場合の結果 𝑦1 介入を受けない 場合の結果 𝑦0 共変量項目
  17. 17. 選択バイアス+欠測データ • 欠測データとしての選択バイアスの補正 – 調査対象者≠回答者であるとき – 関心のある従属変数は回答者において観測さ れるが、非回答者では観測されない 回答者のデータ 非回答者のデータ 全対象者に共通して得られている変数 回答者 非回答者 従属変数 共変量項目
  18. 18. データ融合+欠測データ • 共変量項目を利用したマッチング – 欠測値を「共変量項目に関して最も近い」 データで埋める – 因子分析や主成分分析で互いの変換行列を求 める 購買履歴調査の データ 欠測 欠測 市場調査の 回答データ 全対象者に共通して得られている変数 購買履歴データ 市場調査データ 変数群A (購買履歴) 変数群B (質問紙項目) 共変量項目
  19. 19. 本書のアプローチ • 欠測のあるデータの枠組みで考える • 共変量情報を積極的に集め、活用する – 適切な選択や仮定も必要 • セミパラメトリックな手法を用い、 ロバストな結果を得る – 共変量と従属変数の線形性を仮定しない
  20. 20. 欠測データと因果推論
  21. 21. 欠測の分類 1. 各変数レベルでの記入漏れや無回答 2. 打ち切りや切断 – 打ち切り=閾値を超えたことはわかるが、本来の値 がわからない – 切断=閾値を超えた観測値の数そのものが不明 3. 経時データやパネルデータでの脱落 – パネルデータ=時系列+クロスセクション 4. 調査や測定全体への無回答や不参加、測定不能
  22. 22. 欠測のメカニズム 1. 完全にランダムな欠測 – 欠測するかどうかはモデリングに用いている変数 には依存しない 2. ランダムな欠測 – 欠測するかどうかは欠測値には依存せず、観測値 に依存する 3. ランダムでない欠測 – 欠測するかどうかは欠測値そのものや観測してい ない他の変数にも依存する 下に行くほど仮定が弱くなり、表現力が高くなり、解くのが難しくなる
  23. 23. 欠測値付きモデル • 𝒚 = 𝒚obs 𝒚mis : 関心のある変数 – 𝒚obs:観測値、𝒚mis:欠測値 • 𝒎:欠測したか表すインディケータ変数 • 𝑝 𝒚, 𝒎 𝜽, 𝝓 = 𝑝 𝒚 𝜽 𝑝 𝒎 𝒚, 𝝓 – 𝜽:完全データ同時分布のパラメータ – 𝝓:欠測モデルのパラメータ • 𝑝 𝒚obs, 𝒎 𝜽, 𝝓 = ∫ 𝑝 𝒚 𝜽 𝑝 𝒎 𝒚, 𝝓 𝑑𝒚mis – モデルを解く=この尤度関数を最大化する
  24. 24. 欠測のメカニズム 1. 完全にランダムな欠測 – 𝑝 𝒎 𝒚, 𝝓 = 𝑝 𝒎 𝝓 2. ランダムな欠測 – 𝑝 𝒎 𝒚, 𝝓 = 𝑝 𝒎 𝒚obs, 𝝓 3. ランダムでない欠測 – 𝑝 𝒎 𝒚, 𝝓 のまま
  25. 25. (完全に)ランダムな欠測 • 𝑝 𝒎 𝒚, 𝝓 = 𝑝 𝒎 𝒚obs, 𝝓 より • 尤度関数は 𝑝 𝒚obs, 𝒎 𝜽, 𝝓 = ∫ 𝑝 𝒚 𝜽 𝑝 𝒎 𝒚obs, 𝝓 𝑑𝒚mis = 𝑝 𝒎 𝒚obs, 𝝓 ∫ 𝑝 𝒚 𝜽 𝑑𝒚mis = 𝑝 𝒎 𝒚obs, 𝝓 𝑝(𝒚obs|𝜽) • 一般に関心があるのは θ であり、 log 𝑝 𝒚obs, 𝒎 𝜽, 𝝓 = log 𝑝 𝒎 𝒚obs, 𝝓 + log 𝑝(𝒚obs|𝜽) • より log 𝑝(𝒚obs|𝜽) のみを用いて推論すればいい 完全にランダム欠測 =強すぎる仮定 ランダム欠測 =解ける範囲で弱めた仮定
  26. 26. 例 (線形) • 𝑦1:入試得点 と 𝑦2:入学後の成績 の関係 – 入試得点で合格点 𝐶 に達しなかった学生は入学できない ため、𝑦2 に欠測が生じる • 𝑦1, 𝑦2 に線形回帰の関係があるとすると、 𝑦2 = 𝜃1 + 𝜃2 𝑦1 + 𝜖, 𝜖~𝑁 0, 𝜎2 𝑝 𝑦2, 𝑚 𝑦1, 𝜽, 𝐶 = 𝑝 𝑦2 𝑦1, 𝜽, 𝜎2 𝑝(𝑚|𝑦1, 𝐶) • 𝑦2 の欠測インジケータ m は常に観測される 𝑦1 のみに 依存するので「ランダムな欠測」 • ∴ 𝜽 を欠測値を考慮せずに決めてよい
  27. 27. この部分だけで線形回帰をしても 切片と傾きを推定できる 欠測
  28. 28. 例(多変量正規分布) • 𝑦1, 𝑦2 に2変量正規分布の関係があると 𝑦1 𝑦2 ~𝑁 𝜇1 𝜇2 , 𝜎1 2 𝜎12 𝜎21 𝜎2 2 • 観測されている 𝑦1, 𝑦2 だけからパラメータ推定す ると、𝜎12 に大きいバイアスがのる • 「ランダム欠損」であることを考慮した推定では 真の 𝜎12 に近い値を推定できる – 計算省略
  29. 29. この部分だけから 多変量正規分布を単純に推定しても 全体の平均・分散は得られない 真の σ12 = 0.753, 合格者のみの相関= 0.406 ランダム欠測モデルによる相関の推定値= 0.731
  30. 30. この本における変数 • Y:従属変数、結果変数 – (一般には)結果となる変数 – 必ずしも観測できない(欠測値がある) – この本では、一般の回帰問題で説明変数として扱われるような変数も Y となる(例:入試の点数) • Z:独立変数、説明変数、割り当て、(欠測)インディケータ – (一般には)原因となる変数 – この本では、群への割り当てを示す変数のみが独立変数として扱われ る。その他の変数は全て Y として扱われる • X:共変量 – (潜在的)結果変数と割当てのいずれにも影響を与える量 • 中間変数:当面出てこないので略
  31. 31. 処置群・対照群 • 無作為割り当てが行われている実験研究 において – 実験群: 特別な条件を与えた群 – 対照群: 与えていない群 • 調査観察研究においては実験群ではなく 「処置群」と呼ぶ – 「実験群」には無作為割り当てが行われてい る印象があるため
  32. 32. 「因果効果」の説明のための例 処置群(z) 1 1 1 0 0 0 対象者番号 1 2 … … N-1 N 𝑦1 𝑦11 𝑦21 … … 𝑦 𝑁−1,1 𝑦 𝑁1 𝑦0 𝑦10 𝑦20 … … 𝑦 𝑁−1,0 𝑦 𝑁0 早期教育する群(z=1) 早期教育しない群(z=0) 高い 低い • 𝑧:所属群を表す独立変数 • 𝑦1:早期教育した場合の子供の中学校での成績 • 𝑦0:早期教育しない場合の子供の中学校での成績
  33. 33. 因果効果(Rubin 1974) • 潜在的な説明変数 – 独立変数がとりうる値の数と同じ数だけ存在 する仮想的な従属変数 – 𝑧 ∈ 0,1 にそれぞれ 𝑦0, 𝑦1 が対応 – 特に限定・明記はされていないが、 • z=1 が処置群、z=0 が対照群で基本固定っぽい • 𝑦𝑧 が観測値、𝑦1−𝑧 が欠測値でこれまた固定
  34. 34. 因果効果(Rubin 1974) • 因果効果 = 𝑦1 − 𝑦0 – 処置群に割り当てられた場合の結果と、割り 当てられていなかった場合の結果の差 – 割り当て以外の対象者の要因が除外された量 – 片方は欠測値なので、直接計算はできない • Rubin の因果効果 = 𝐸 𝑦1 − 𝐸 𝑦0
  35. 35. 処置群が無作為抽出なら • すなわち 𝑦𝑗 と 𝑧 が独立 𝑝 𝑦𝑗 𝑧 = 𝑝 𝑦𝑗 なら、 – 𝐸 𝑦𝑗 = ∫ 𝑦𝑗 𝑝 𝑦𝑗 𝑑𝑦𝑗 = ∫ 𝑦𝑗 𝑝 𝑦𝑗|𝑧 𝑑𝑦𝑗 = 𝐸 𝑦𝑗 𝑧 – 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝑦1 𝑧 = 1 − 𝐸 𝑦0 𝑧 = 0 • 𝐸 𝑦𝑗 𝑧 = 𝑗 は観察された各群の平均値 • ∴因果効果をバイアス無く推定できる
  36. 36. 因果効果と介入効果の関係 • 処置群での平均介入効果(average Treatment Effect on the Treated) – 𝑇𝐸𝑇 = 𝐸 𝑦1 − 𝑦0 𝑧 = 1 • 対照群での平均介入効果(average Treatment Effect on the Untreated) – 𝑇𝐸U = 𝐸 𝑦1 − 𝑦0 𝑧 = 0 • このとき因果効果は – 𝐸 𝑦1 − 𝑦0 = 𝑇𝐸𝑇 × 𝑝 𝑧 = 1 + 𝑇𝐸𝑈 × 𝑝(𝑧 = 0) – 処置群と対照群の母集団における割合に依存
  37. 37. 共変量調整による因果効果推定の ための条件
  38. 38. 共変量 • 結果変数と割り当ての両方に影響のある量 – どのような共変量を選ぶべきかについては4章 • すべての対象者について観測できる量 – 観測できない共変量がある場合については4章
  39. 39. 共変量調整 • 因果効果=処置群の期待値-対照群の期待値 – 共変量の影響により見かけ上の関係(擬似相関)やバイ アスが生じる可能性がある – 早期教育の例:「中学校での英語の成績」(結果変 数)も「小学校での英語教育の有無」(割り当て) もどちらも親の教育意欲や収入などの影響を受ける • 共変量調整: – 結果変数から共変量の影響を除去すること – 影響を除去しても残る相関から因果効果を求めたい 一般には難しかったりめんどくさかったり
  40. 40. 強く無視できる割り当て • 「割り当ては共変量のみに依存し、結果変数には 依存しない」という仮定 – (𝑦1, 𝑦0) ⊥ 𝑧|𝒙 すなわち 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 = 𝑝 𝑧 𝒙 • このとき、 𝑝 𝑦1, 𝑦0, 𝑧, 𝒙 = 𝑝 𝑧 𝑦1, 𝑦0, 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙 = 𝑝 𝑧 𝒙 𝑝 𝑦1, 𝑦0 𝒙 𝑝 𝒙 • 𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 も成立※ – 共変量を条件付ければ、 𝑦1, 𝑦0 の同時分布はどちら の群に割り当てられたかに依存しない 𝑥 𝑦 𝑧 この分解の時に 𝑦 → 𝑧 が切れる ホントは条件付き独立の記号(縦2本) ※本には「式(2.16)をベイズの定理を用いて言い換えると~」(p44)とあるが、 条件付き独立の定義のままであり、特に言い換えは不要
  41. 41. 処置群(z) 1 1 1 0 0 0 対象者番号 1 2 … … N-1 N … … … … 早期教育する群(z=1) 早期教育しない群(z=0) 因果効果 on 強く無視できる割り当て • 𝑝 𝑦1, 𝑦0 𝑧, 𝒙 = 𝑝 𝑦1, 𝑦0 𝒙 から、平均での独 立性が得られる – 𝐸 𝑦1 𝑧 = 1, 𝒙 = 𝐸 𝑦1 𝒙 – 𝐸 𝑦0 𝑧 = 0, 𝒙 = 𝐸 𝑦0 𝒙 • よって 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝒙 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝒙[𝐸 𝑦1 𝑧 = 1, 𝒙 − 𝐸 𝑦0 𝑧 = 0, 𝒙 ] 式(2.19)改※ ※本の式(2.19)は不必要な変形が混じっていて混乱する。 y から始めるのをやめればスッキリする ここが不要に!
  42. 42. 共変量調整による因果効果の推定法 1. マッチング – 共変量が一致する(or 近い)対象者の互いの結果変数が等しいとする 2. 恒常化・限定 – 共変量が特定の値の対象者に限定し解析。因果効果は推定できない←! 3. 層別解析 – 共変量の値を幾つかの層に分け、層ごとに2つのグループがその共変量 の値について等質になるようにし、比較した結果を統合 ←? – (何らかの基準で5つほどの)サブクラスに分け、各クラスで 𝐸 𝑦1 − 𝐸 𝑦0 を求め、クラスのサイズで重みづけた平均を取る(3章の説明より) 4. 回帰モデルを用いる方法 – 各群ごとに回帰関数 𝐸 𝑦𝑗 𝑧 = 𝑗, 𝑥 を推定、その差の標本平均を取る
  43. 43. マッチング・層別解析の欠点 • 恣意性 – 「近さ」の定義が恣意的 • 次元問題 – 高次元だと実行が難しい • サポート問題 – スパースだと「近い」対象者が存在しない
  44. 44. 回帰モデルによる因果効果の推定 • 𝐸 𝑦𝑗 𝑧 = 𝑗, 𝑥 を推定 – (𝑥𝑖, 𝑦𝑖𝑗) を説明・目的変数とした単純な線形回帰 問題を解けばいい • 求めた回帰間数を使って因果効果を計算 𝐸 𝑦1 − 𝐸 𝑦0 = 𝐸 𝑦1 𝑧 = 1, 𝒙 − 𝐸 𝑦0 𝑧 = 0, 𝒙 𝑝(𝒙)𝑑𝒙 = 1 𝑁 𝐸 𝑦𝑖1 𝑧 = 1, 𝒙𝑖 − 𝐸 𝑦𝑖0 𝑧 = 0, 𝒙𝑖 𝑁 𝑖=1 かどうかは厳密にはモデルによる。 本は暗黙に (ガウス)ノイズが乗った線 形回帰モデルを想定しており、よって (x,y)に最小二乗法を用いればよい
  45. 45. 結果変数の条件付き分布の母数推定 • 「強く無視できる割り当て」はランダム欠測を満 たす – 観測された値で最尤推定してパラメータ決定 • 𝑝 𝑦 𝑜𝑏𝑠 𝑥 = ∫ 𝑝 𝑦1, 𝑦0 𝑥, 𝜃1, 𝜃0, 𝜓 𝑑𝑦 𝑚𝑖𝑠 = 𝑝 𝑦𝑖1 𝑥𝑖, 𝜃1 𝑖:𝑧 𝑖=1 × 𝑝 𝑦𝑖0 𝑥𝑖, 𝜃0 𝑖:𝑧 𝑖=0 • この推定量は一致性をもつ – データが増えると漸近的に真値に一致する
  46. 46. 回帰モデルによる因果効果推定の問題点 • 結果変数と共変量のモデリングが必要 – 「正しい」モデルでなければバイアス発生 – 「正しい」モデルでも、要求される仮定を満 たさなければバイアス発生 • 直接因果効果の推定値は得られない – 前スライドの式を使って標本平均を推定値と する必要がある
  47. 47. 正しいモデルでもバイアス? • 処置群と対照群が次のモデルに従うとする – 𝑦𝑖1 = 𝜏1 + 𝒙𝑖 𝑡 𝜷1 + 𝜖𝑖1, 𝑦𝑖0 = 𝜏0 + 𝒙𝑖 𝑡 𝜷0 + 𝜖𝑖0 – 本では 𝜷1 − 𝜷0 = 0 とおいて計算した後、「逆に言えば~という強い仮 定を暗黙のうちにおいていることになる」となっているのだが、無理 筋なので、ここでは 𝜷1 − 𝜷0 = 0 を仮定しない • 共変量調整によって推定される因果効果は 𝐸 𝑦1 𝒙𝑖 − 𝐸 𝑦0 𝒙𝑖 = 𝜏1 + 𝒙𝑖 𝑡 𝜷1 − 𝜏0 + 𝒙𝑖 𝑡 𝜷0 = 𝜏1 − 𝜏0 + 𝒙𝑖 𝑡 𝜷1 − 𝜷0 ∴ 𝐸 𝒙 𝐸 𝑦1 𝒙 − 𝐸 𝑦0 𝒙 = 𝜏1 − 𝜏0 + 𝐸 𝒙 𝒙 𝑡 (𝜷1 − 𝜷0) • 一方、因果効果の真値もこうなり、一致するように見える…… 𝐸 𝑦1 − 𝐸 𝑦0 = 𝜏1 − 𝜏0 + 𝐸 𝒙 𝑡 (𝜷1 − 𝜷0) • 真値が 𝜏1 − 𝜏0 だったら 𝐸 𝒙 𝒙𝑖 𝑡 (𝜷1 − 𝜷0) がバイアスで、次頁の図 と解釈が一致するのだが……
  48. 48. = 𝜷1 − 𝜷0 𝜷1 − 𝜷0 = 0 では共変量調整 (共分散分析)は真値を推定で きているが、そうでない場合 は𝐸 𝒙 𝒙 𝑡 (𝜷1 − 𝜷0) だけずれ る、と解釈できると納得度が 高いのだが
  49. 49. モデルが間違っていたらもちろん× • 真のモデルが「1次の項だけではなく2次の項が存在する」場合 – 「ここでは2次の項だけ加えた結果を示しているため、2次の項を説明 変数として解析すればよいのでは思われるかもしれない。しかし、線 形以外の項を考慮するとするならば2次以外にも様々な関数を考える必 要がある。(中略)現実的ではない」
  50. 50. カーネル回帰で共変量調整 • ノンパラメトリックな回帰分析 – 「様々な関数を考える必要」が無い – ノンパラ=パラメータ数が固定ではなくデータ数に よって増える • つまりパラメータがめっちゃ多い • とても過適合しやすく、コントロールに職人技 • 一般にデータ数の2~3乗オーダー、次元の呪い – 以下省略 • ノンパラまで行かなくていいから、もうちょっと 扱いやすいやつ→セミパラメトリック

×