DARM勉強会第3回 (missing data analysis)

8,232 views

Published on

統計学の専門家ではないため、内容に責任は持ちません。内容に間違いがあれば、指摘してくださると幸いです。できる限り訂正していきます。

Published in: Education
0 Comments
10 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
8,232
On SlideShare
0
From Embeds
0
Number of Embeds
1,521
Actions
Shares
0
Downloads
124
Comments
0
Likes
10
Embeds 0
No embeds

No notes for slide

DARM勉強会第3回 (missing data analysis)

  1. 1. Missing Data AnalysisDARM勉強会#32013.04.21.広島大学教育学研究科博士課程後期1年德岡 大1
  2. 2. 2• 欠損データ処理に関する資料紹介• 欠損データのメカニズム• 伝統的な欠損データの扱い方と問題点• 完全情報最尤推定法の実態• 欠損値のベイズ推定~多重代入法の実態• Rによる完全情報最尤推定法の実践• Mplusによる完全情報最尤推定法の実践• Rによる多重代入法の実践• Mplusによる多重代入法の実践 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline発表の概要
  3. 3. 3Enders, C. K. (2010). Applied missing data analysis. NewYork, Guilford.• 欠損値の扱い方について詳しく書いてある本• 以下のサイトに,Enders(2010)で扱っているデータ,Mplusのコード,SPSSのマクロなどを紹介してくれている。• http://www.appliedmissingdata.com/村山 航(2011). 欠損値データ分析(missing data analysis)―完全情報最尤推定法多重代入法―• Enders (2010)を元に欠損値メカニズム,完全情報最尤推定法,多重代入代入法を解説している資料 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline欠損値データ分析に関する資料紹介
  4. 4. 欠損データの6パターン• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline4ξ Y3 Y4Y26. Latent Variable PatternY1 Y3 Y4Y21. Univariate PatternY1 Y3 Y4Y22. Unit Nonresponse PatternY1 Y3 Y4Y23. Monotone PatternY1 Y3 Y4Y24. General PatternY1 Y3 Y4Y25. Planned Missing Pattern• 欠損パターンは,欠損の場所に関する情報のみ(pattern option)• なぜ欠損が生じたのかに関してはわからない
  5. 5. a. MAR欠損の有無の確率 (R) は,欠損値を含む変数 (Y) の値とは関連せず,他の変数 (X, Z)の値に観測値と関連するe.g., X = 人種, Y = 英語の読解テストヒスパニック系よりも白人の方が読解テストで欠損データが増加※欠損データのメカニズムがMARであるか検定する手法はない・・・欠損データの理論的枠組み (Rubin, 1976)5XYZR欠損データのメカニズム• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline
  6. 6. b. MCAR (missing completely at random)欠損の有無の確率 (R) は,欠損値を含む変数 (Y) や他の観測した変数(X) の値とも関連しない。観測していない変数 (Z) と関連する。e.g., Y =テスト成績, X = 学習方略, Z = 風邪等の予定外の出来事欠損データが生じる確率は,テスト成績や学習方略と関係しない※欠損の有群と無群のYの比較により,MCARであるか確認可能欠損データの理論的枠組み (Rubin, 1976)ReportingGuideline(Kelly & Maxwll)6XYZR欠損データのメカニズム• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline
  7. 7. a. MNAR (missing not at random)欠損の有無の確率 (R) は,観測した他の変数 (X) の値を統制しても,欠損値を含む変数 (Y) の値と関連する。e.g., X = IQ, Y = 読解テスト読解スキルが低いとテストで解答できない項目が増加し,結果的にテスト成績も低くなる※MARと同様,MNARであることを確かめる方法は基本的にない。※測定していない第3の変数がYとRに影響している可能性もあり。※MNARに対応した欠損値処理は,Enders (2010)を参照欠損データの理論的枠組み (Rubin, 1976)ReportingGuideline(Kelly & Maxwll)7XYZR欠損データのメカニズム強い関連にある(e.g., r = .40以上)だと問題になってくる (Collins, Schafer, & Kam, 2001)• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline
  8. 8.  Rubin (1976)の欠損データ理論a. Missing At Random (MAR)b. Missing Completely At Random (MCAR)c. Missing Not At Random (MNAR)欠損データのメカニズムの比較ReportingGuideline(Kelly & Maxwll)8IQ Complete MCAR MAR MNAR78 9 - - 984 13 13 - 1384 10 - - 1085 8 8 - -87 7 7 - -91 7 7 7 -92 9 9 9 994 9 9 9 994 11 11 11 1196 7 - 7 -99 7 7 7 -105 10 10 10 10105 15 15 15 15108 10 10 10 10112 10 - 10 10113 12 12 12 12115 14 14 14 14118 16 16 16 16134 12 - 12 12Job Performance ratingsEnders (2010) のTable 1.2.XYZRXYZRXYZRMAR MCAR MNAR• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline
  9. 9. a. 平均値のポジティブバイアスを修正できるb. 欠損データの分布のパラメタではなく,本質的なパラメタを正確に推定するために必要する状況を分類したことが,Rubin (1976)の重要な点c. MARやMCARであれば,欠損データの配置は関係なく対処可能である。d. MNARは,データの欠損と関連のありそうなデータを収集することで,MARとすることが可能e. MNARにおけるSchafer & Graham (2002)の薦め• 次の測定に備えて,回答者にドロップアウトなどのデータの欠損と関連しそうなものを尋ねる調査項目を用いること• MNARの状況をMARにできるよう,研究をデザインしましょう!• E.g., 補助変数の使用なぜ,欠損データのメカニズムが重要なのか?ReportingGuideline(Kelly & Maxwll)欠損値の処理方法9• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline
  10. 10. a. 欠損メカニズムがMCARであることは少ないが,MCARでないことを確認する上で,検定に価値ありb. MCAR = 平均と共分散の等質性 (Kim & Bentler, 2002)• 欠損のあるデータとないデータを比較(t検定,Little’s MCARtest)• 有意差ありなら,MAR or MNAR• 有意差なしなら,MCAR• グループサイズが小さいため,検定力が低い• t 検定の場合,他の変数との相関を考慮できない• Little’s MCAR testは t 検定の多変量版⇒全ての変数を同時に検査,タイプⅡエラー生じやすいc. 欠損値は少ないためグループサイズが小さくなり検定力は総じて低いd. 平均値比較はMCARであることを保証しないということが重要10• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting GuidlineMCARかどうかを検定
  11. 11. a. 質問紙を何種類か作成し,意図的に,質問紙の一部に対して回答しない参加者グループをつくる。e.g., Three form designa. 完全情報最尤推定法や多重代入法なら,不完全データを捨てることなく分析可能b. MCARであり検定力が低下するだけで,推定値はバイアスを受けない11• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting GuidlineMARやMCARのデータを得るためにはPlanned Missing Data designsForm X• A尺度• B尺度• C尺度• D尺度Form A• A尺度• B尺度• C尺度Form B• A尺度• B尺度• D尺度Form C• A尺度• C尺度• D尺度
  12. 12.  変数の数で割り振ることも可能 同一変数の項目を割り振ることも可能 重回帰分析では標準誤差が小さくなる Graham (2006)では,変数ごとに割り振ることを推奨12• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting GuidlineThree Form DesignPlanned Missing Data designsX A B C変数や項目の割り振りは均等に!form 1(X, B, C)form 2(X, A, C)form 3(X, A, B)調査で用いる全調査項目調査用紙の種類
  13. 13.  検討できる交互作用には限界がある 検定力の潜在的な損失がデメリット 最尤推定法を用いると検定力はそれほど大きく低下しない(.10程度↓) に含まれる項目数を増やすことで検定力↑13• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting GuidlineThree Form Designによる検定力の低下の程度Planned Missing Data designsSet Scale Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8X Q1 -Q2 1.00 -A Q3 .99 .99 -Q4 .99 .99 .99 -B Q5 .99 .99 .90 .90 -Q6 .99 .99 .90 .90 .99 -C Q7 .99 .99 .91 .91 .90 .91 -Q8 .99 .99 .90 .91 .91 .90 .99 -three form designによる相関係数の検定力note. N = 300, ρ= .30で5000回のシミュレーションItem setX A B CXForm X A B C AB XB1 ✔ ー ✔ ✔ ー ✔2 ✔ ✔ ー ✔ ー ー3 ✔ ✔ ✔ ー ✔ ✔交互作用項Item sets
  14. 14.  three-form designを縦断調査に応用したもの 潜在曲線モデルで分析するなら問題なし 相関分析に難ありらしい(?)14• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting GuidlineCohort-Sequential Designへの応用Planned Missing Data designsGroup 1 2 3 4 5 % of N1 ✔ ✔ ✔ ✔ ✔ 16.72 ✔ ✔ ✔ ✔ ー 16.73 ✔ ✔ ✔ ー ✔ 16.74 ✔ ✔ ー ✔ ✔ 16.75 ✔ ー ✔ ✔ ✔ 16.76 ー ✔ ✔ ✔ ✔ 16.7complete dataの分析と比較して94%の検定力を持つData collection waveGroup 1 2 3 4 5 % of N1 ✔ ✔ ✔ ✔ ✔ 9.12 ✔ ✔ ✔ ー ー 10.13 ✔ ✔ ー ✔ ー 10.14 ✔ ー ✔ ✔ ー 10.15 ✔ ✔ ー ー ✔ 20.26 ✔ ー ✔ ー ✔ 20.27 ✔ ー ー ✔ ✔ 20.2complete dataの分析と比較して91%の検定力を持つData collection wave
  15. 15.  正確な検定力を推定することは難しいが,Monte Carlo シュミレーションが便利 シュミレーションのステップ1. パラメータ分布を特定すること(重回帰なら,回帰係数,説明変数間の相関,残差)2. 特定された分布モデルから多くのサンプルをつくること3. パラメータ推定したサンプリングの分布を表現すること※注意:通常の検定力分析はML推定を考慮してくれないので,検定力を過小評価する(N=100でやると検定力低くなるように見えるのでN=300必要)。でも,研究論文で事後的に報告するときは,調査した人数での検定力を報告するっぽい15• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting GuidlinePlanned missing data designの検定力推定Planned Missing Data designs
  16. 16. 16• 資料紹介 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidlineシュミレーション検定力分析のコードの紹介(Mplus)Planned Missing Data designs
  17. 17. a. リストワイズ除去b. ペアワイズ除去:相関が1を超えうる。特に多変量解析で問題 MCARを仮定,でないとデータにバイアスが生じる MCARを満たしても,検定力は低下する 社会行動科学分野では,最も一般的で簡単にできる American Psychological Association Task Force on StatisticalInference (Wilkinson & Task Force on Statistical Inference,1999)によると・・・“The two popular methods for dealing with missing data that arefound in basic statistical packages – listwise and pairwisedeletion of missing values – are among the worst methodsavailable for practical applications”17欠損データの伝統的処理方法Deletion Method• 資料紹介• 欠損データのメカニズム 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline
  18. 18. a. 平均値代入• 分散,共分散,相関を薄めてしまうb. 回帰代入• 相関やR2を過大推定してしまう• サンプルサイズを増やすと補正により真の分布に近づくc. Hot-deck代入d. Averaging the available items(person mean imputation)e. Last observation carried forward 完全データができる点で魅力的問題点 Stochastic regressionを除いてMCARでもバイアスを受ける。 誤差を過小評価し,標準誤差を小さくする18欠損データの伝統的処理方法Imputation Method• 資料紹介• 欠損データのメカニズム 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline
  19. 19. a. 確率 (stochastic)回帰代入• 回帰方程式に残差を加える。• 残差:(平均= 0, 分散= 回帰の残差分散)の正規分布からランダムな値が代入される 回帰で失われた多様性を元に戻す作用 MARならバイアスがかからない! 単一代入法ならベスト問題点 多重代入法と代入方法は同じ 単一代入では,標準誤差を薄め,タイプⅠエラーのリスクが増加 欠損値の量がデータに反映されない19• 資料紹介• 欠損データのメカニズム 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法• Reporting Guidline欠損データの伝統的処理方法Imputation Method
  20. 20. 20Ender (2010)のTable 2.5.よりパラメータ推定 分布 LD AMI RI SRIIQ平均値 100.00 99.98 99.99 9.99 99.99成績平均値 12.00 12.00 12.00 12.01 12.00IQ分散 169.00 170.29 169.64 169.64 169.64成績分散 9.00 8.99 4.47 5.62 8.99共分散 19.50 19.53 9.72 19.45 19.42相関 0.50 0.50 0.35 0.63 0.50IQ平均値 100.00 110.35 100.04 100.04 100.04成績平均値 12.00 13.21 13.21 12.00 12.01IQ分散 169.00 61.79 168.17 168.17 168.17成績分散 9.00 7.61 3.79 5.79 9.14共分散 19.50 7.22 3.60 19.64 19.60相関 0.50 0.33 0.14 0.62 0.50IQ平均値 100.00 105.15 100.02 100.02 100.02成績平均値 12.00 14.40 14.40 14.14 14.14IQ分散 169.00 141.69 168.30 168.30 168.30成績分散 9.00 3.27 1.63 1.88 3.33共分散 19.50 6.97 3.47 8.29 8.27相関 0.50 0.32 0.21 0.46 0.35MCAR シュミレーション結果欠損値処理方法MAR シュミレーション結果MNAR シュミレーション結果LD = リストワイズ, AMI = 平均値代入, RI = 回帰代入,SRI = stoastic 回帰代入
  21. 21.  ある観測されたデータの観測されやすさ(尤もらしさ)を数値化※尤度比検定とは,2つのデータの観測されやすさを比較する検定 最尤推定法:Liが最大になるようなパラメータを推定する方法 対数にしても分布の形に変化なし サンプル尤度はN個の尤度を組み合わせたもの21• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline最尤推定法って?基本事項
  22. 22.  第一導関数 対数尤度関数の傾き(平均,分散) ※図は平均の関数 分散が小さいと勾配大 勾配大の方が標準誤差小 第二導関数 第一導関数の傾きの変化率 分散が小さいと傾き大 傾きが小さい方が標準誤差小22• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline最尤推定法って?基本事項
  23. 23.  基本の手順• 平均μ,分散共分散Σを用いて各データの尤度を算出• サンプル尤度を算出※実際には,平均μ,分散共分散Σは未知なので,得られたデータセットの最も得られやすいμとΣを求める(i.e., 尤度関数を最大にする)1. 尤度関数を最大にするμとΣの推定:サンプル尤度が最大になる値を推定する(EMアルゴリズムの使用)2. 標準誤差も推定※対数変換は,値が小さくなりすぎてわかりにくいので使うもの※尤度関数は多変量正規分布を前提とする23• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline最尤推定法って?基本事項
  24. 24.  基本の手順• 平均μ,分散共分散Σを用いて各データの尤度を算出• サンプル尤度を算出※実際には,平均μ,分散共分散Σは未知なので,得られたデータセットの最も得られやすいμとΣを求める(i.e., 尤度関数を最大にする)1. 尤度関数を最大にするμとΣの推定:サンプル尤度が最大になる値を推定する(EMアルゴリズムの使用)2. 標準誤差も推定※対数変換は,値が小さくなりすぎてわかりにくいので使うもの※尤度関数は多変量正規分布を前提とする24• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline最尤推定法って?基本事項
  25. 25.  E (expectation)-step• 観測データから完全データを背後に想定する平均と分散共分散行列を使用して不完全データを予測する回帰方程式をおく M (maximization)-step• 推定された完全データの尤度を最大化する共分散や平均を再推定 平均や分散共分散を推定するアルゴリズムであり,欠損値を代入するアルゴリズムでない!25• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting GuidlineEMアルゴリズムE-Step M-Step不完全データの背後にある完全データを推定完全データの尤度を最大化するデータを推定
  26. 26.  最尤推定法による結果が有意なのかを検定する方法a. Wald検定:推定値と仮説の値(だいたい0)の比較(SEで割る),正規分布を使用b. 尤度比検定:Full modelとRestricted modelの比較(nestされているモデルを比較),分布の仮定なし• 帰無仮説が棄却できなければ,2つのモデルは等しい。• 小さいサンプルでは尤度比検定を推奨 実践的な問題として• Wald検定はパッケージに実装されていることが多く簡単,尤度比検定は手計算が必要になることもある• モデルのパラメータを固定するものによってWald検定は変化する,尤度比検定は不変• 尖度が大きすぎるなどの非正規データは,Wald検定と尤度比検定の値を歪ませうるので処置が必要26• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting GuidlineWald検定 vs. 尤度比検定
  27. 27.  基本的な分析メカニズム• 欠損値のあるデータセットの場合,欠損パターンごとに尤度を算出• それぞれの尤度を統合したサンプル尤度を最大にするため,欠損したデータを使用していないのもかかわらず推定精度が向上! 標準誤差の過小推定もしない(95%CI )ので,Stochastic回帰(60~70%CI)よりもより望ましい MARメカニズムでは,推定値がバイアスを受けない MCARでも,伝統的な欠損値分析よりも優れている27• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline完全情報最尤推定法(full information maximum likelihood: FIML )IQ PWB JP92 12 -94 3 -94 13 -96 - -99 6 7105 12 10105 14 11106 10 15108 - 10 MNARではバイアスは受けるが,伝統的なやつよりはまし 基本的に伝統的な方法よりもどんなときも優れている!
  28. 28. 28パラメータ 母集団の値 最尤法 リストワイズ除去μIQ 100.00 100.02 100.00μJP 12.00 11.99 11.99σ2IQ 169.00 168.25 166.94σ2JP 9.00 8.96 8.94σ2IQJP 19.50 19.48 19.31μIQ 100.00 100.01 110.35μJP 12.00 12.01 13.18σ2IQ 169.00 168.50 61.37σ2JP 9.00 8.96 7.49σ2IQJP 19.50 19.15 6.99μIQ 100.00 100.00 105.19μJP 12.00 14.12 14.38σ2IQ 169.00 169.11 141.41σ2JP 9.00 3.33 3.25σ2IQJP 19.50 8.55 7.14Enders (2010)のTable 4.5.よりMCAR シュミレーション結果MAR シュミレーション結果MNAR シュミレーション結果
  29. 29.  Observed information:変数同士の相関を仮定 Expected information:変数同士の独立性を仮定(共分散 0)特にMARの場合,Observed informationを用いた標準誤差の推定推奨(Mplusではデフォルトでobserved informationを使ってくれます!)29• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline標準誤差の推定における仮定(Observed information vs. Expected information)パラメータ SD 平均SE Coverage 平均SE CoverageμIQ 0.806 0.820 0.947 0.820 0.947μJP 0.394 0.395 0.953 0.249 0.804σ2IQ 15.074 15.071 0.949 15.071 0.949σ2JP 1.490 1.439 0.920 1.112 0.851σ2IQJP 5.275 5.283 0.959 3.463 0.795Enders (2010)のTable 4.7.よりMAR シュミレーション結果Observed information Expected information
  30. 30. 30• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting GuidlineFIMLを実行するためのコード例(Mplus)
  31. 31.  補助(auxiliary)変数の使用• 研究目的には関係のない変数だが,欠損の有無とは関係する可能性のある変数• 補助変数を分析に導入することで,MARやMNARであっても推定精度が向上• 補助変数とDVの関連 r ≧.40のときに,特に有効• MCAR検定(t検定)が補助変数を見つけるのに便利31• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline最尤推定法の正確性を向上させるには
  32. 32. 1. Saturated correlated model• 分析モデルに補助変数を組み込んで分析• 詳しくは後述2. Two-stage approach• 第1ステージ:補助変数を加味して平均,共分散を最尤法で推定• 第2ステージ:インプットデータとして推定結果を扱う。• 補助変数をいくつでも第1ステージで組み込める• 実装しているパッケージはないが,かなり期待できる方法 補助変数に欠損値を含む場合• 補助変数が欠損していてもモデルのバイアスは減少させることが可能• 個人内で補助変数とモデルの変数の欠損が10%以上の場合,バイアスの減少は小さくなる32• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline補助変数を分析に組み込む方法
  33. 33. 1. Manifest Variable Models• 観測変数のみを用いた構造方程式を用いたモデルに補助変数を組み込んだモデル• 説明変数と誤差に相関を仮定2. Latent Variable Models• 潜在変数を含む測定方程式と構造方程式モデルに補助変数を組み込んだモデル• 観測変数の誤差と相関を仮定する33• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting GuidlineSaturated correlated model
  34. 34.  Χ2統計量や自由度,RMSEAは補助変数で変化なし Incremental Fit Indices(CFI, TLI)は手計算の必要あり※LR = 尤度比, I = 独立モデル, M =仮説モデル Manifest modelにおける独立モデルの適合度算出方法1. 全変数の分散を推定2. 説明変数間の相関を推定3. 説明変数と目的変数の相関を0に固定4. 目的変数間の相関を0に固定5. 補助変数とその他全ての変数の相関を推定6. 補助変数間の相関を推定34• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline補助変数を用いた場合における適合度の算出方法通常のCFIでは,LRではなくCMIN(χ2値)
  35. 35.  補助変数を多くしすぎると推定の問題を引き起こし,収束に失敗することがある 欠損のある補助変数は推定と収束の問題を深刻にすることがある 残差が小さくても収束の問題は生じる Rescalingでも緩和されるが,補助変数の数を減らすのが最も良い選択 適切な結果に収束しているときに,その結果が妥当でないと警告される場合がある 推定結果が妥当(推定値がまずまず,分散が負ではない)なら,この警告は無視してよい35• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting GuidlineSaturated correlates modelの限界
  36. 36.  最尤法では,多変量正規分布が背景に仮定される 非正規データに最尤法を用いると,影響は小さいものの標準誤差にバイアスがかかり,尤度比も歪むe.g., 尖度の高い場合:標準誤差小,尤度比大;尖度低い場合:標準誤差大,尤度比小 標準誤差の修正手続き• Robust標準誤差,ブートストラップ・リサンプリング 尤度比のバイアス修正• Rescaling,ブートストラップ・リサンプリング36• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline最尤推定法の正確性を向上させるには―非正規データへの対応―
  37. 37.  ロバスト標準誤差• 第2導関数行列(Hessian行列)は集団の尖度と歪度に依存する• Robust標準誤差は,第1導関数と第2導関数の方程式を利用して,尖度を修正した誤差を算出する• 正規データにrobust標準誤差の式を利用した場合,数値に変化なし ブートストラップ標準誤差• モンテカルロシュミレーションを使うため,ロバスト標準誤差とは異なる方法• 分布に仮説をおかないため,正規性が崩れても手続きの正確性は影響をうけない• ロバスト標準誤差と結果はだいたい一致37• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline標準誤差の修正手続き
  38. 38.  各パラメータ推定のために実証的なサンプリングの分布を構成すること ブートストラップ信頼区間 正規曲線の場合,比較的少ないブートストラップサンプル数で十分 分布が非正規である場合,2000回以上推奨 正規分布なのか非正規分布なのか分布の形を決定することは難しい 分布の仮定を必要としないことがアドバンテージ 小さいサンプルでは,モデルの特定化の収束に失敗し,欠損値は問題を大きくするだけ,という限界 収束に失敗したデータは使わない38• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline標準誤差の修正手続きブートストラップについて
  39. 39. • Naïve Bootstrap:標準誤差を推定する制約が厳しい• Bolen-Stine Bootstrap:尤度比検定におけるバイアスを修正することが可能 ナイーブ・ブートストラップを使用することは不適切 Bollen-Stineブートストラップは,尤度比のサンプリング変動だけを反映する分布を生成できる 非正規データであっても正確なP値を生成可能• 手順1. 変換したデータセットからB回分のブートストラップ・サンプルを算出して置き換える2. 各ブートストラップ・サンプルに対してfull modelとrestrictedmodelを適合させる3. 各ブートストラップ・サンプルに対する尤度比統計量を算出する4. B尤度統計量の確率分布を構成する39• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline標準誤差の修正手続きNaïve bootstrap vs. Bollen-Stine Bootstrapブートストラップについて
  40. 40.  多変量正規性の仮定が満たされない場合,尤度比のサンプリング分布は適切なχ2分布に従わない そのままだと,タイプⅠエラーやタイプⅡエラーが生じやすい 適切なχ2分布に近似させるため,尤度比検定をrescale (誤差をコントロール)することで問題解決をはかる方法 Satorra-Bentler χ240• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析 完全情報最尤推定法• 多重代入法• Reporting Guidline標準誤差の修正手続きRescaled尤度比検定
  41. 41.  FIMLと並ぶ“modern”な欠損値アプローチ 概念的にはstochastic回帰アプローチと類似 背景にある数学的仕組みは,ベイズの方法論に依拠している ベイズを理解せずとも実行は可能 多重代入法を深く理解するには,ベイズ統計が必要 頻度パラダイム• 真値の推定• Confidence Interval:n回サンプリングを行ったら,~%の確率で信頼区間に真値が存在 ベイズパラダイム• 分布の推定(確率論?)• Credible Interval :~%の確率でCredible Interval(信用区間)に真値が存在41• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法におけるパラダイム
  42. 42.  手順1. パラメタに対する事前分布の特定2. 異なるパラメタの値について,データを要約するために尤度関数を使用3. 事前分布と異なるパラメタの値の確率を表現した事後分布を生成するための尤度から情報を統合・(事前分布 × 尤度)/データの分布※最尤法の場合:一様分布 × 尤度 事後分布の形を表現することがベイズ分析で重要なゴールとなる42• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidlineベイズ推定の概要
  43. 43. 43• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法の概要欠損データm = 1m = 2・・・m = 20θ1θ2・・・θ20最終的な結果代入フェイズ 分析フェイズ 統合(Pooling)フェイズ・欠損値を補完した複数のデータセットを作成・補完したデータセットの分析欠損値を補完した・各データセットの結果(パラメタ推定値,標準誤差)を一つに統合
  44. 44. • I (Imputation)-Step1. (1回目は欠損値を除く,2回目以降は4で求められた事後分布をもとに) 平均と分散共分散行列を算出2. 1を元に回帰係数,切片,残差を求める(回帰方程式をつくる)3. 誤差を加えて代入データセット作成(2,3はstochaic回帰と一緒)• P (Posterior)-Step4. 3を元に従う事後分布を求める5. 1~4を繰り返す(モンテカルロシュミレーションの使用)※1回目以外は直前のP-Stepで求められた分布を元に欠損データの代入が行われるため,毎回異なるデータセットが完成する。※多変量の場合,I-Stepの回帰方程式が増えて,複数の欠損に対しては多変量正規分布で残差を求める感じ。 44• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法における代入フェイズI-Step P-Step手順1,2,3 (I-step)手順4 (P-step)事後分布の算出事後分布に従う完全データセットの作成
  45. 45.  代入フェイズで用いる変数は,のちの分析で使う予定のものを全て使ってほうがよい でないとMCARやMARでもバイアスがかかる可能性がある 逆に変数が多くてもバイアスがかかる可能性は低い 補助変数も投入することを推奨 ただし,変数が多すぎると収束に問題をきたす場合あり,そのときだけ変数を減らす 交互作用やマルチレベルを想定する場合は特別な処置必要(後述)※収束における問題とは・・・• 代入フェイズでは,多数のデータセットをシュミレートし,その中から独立したデータセットを複数抽出する必要があるが,独立したデータセットが発生しない,独立していると判断がつかない状況45• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline代入フェイズでどの変数をいくつ用いるべきか?
  46. 46. 抽出するデータセット数について 伝統的には3~5 欠損情報の比率によっては,標準誤差の正確性が減少する(SEの増加)ので,やっぱりもっと多く10以上つくるのがよい 多くの場合,20を最低数とするデータセットをつくることを推奨抽出するデータセットのシュミレーション間隔について データのシュミレーション(データ拡張)はマルコフ連鎖モンテカルロ法でされる P-Stepで求められる事後分布は,その直前のI-Stepの結果に依存 つまり,20回目にできたデータセットと21回目にできたデータセットは相関が高く,独立でないため,不適切 実際の分析に使用するデータセットは,最低でも50回以上離れたデータセットを使用するべき(データ収束の問題) 50~100の間を推奨(Harel, 2007) データの収束の診断に関しては,視覚的に判断するのが効果的 46• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline抽出するデータセット数と抽出するデータセットのシュミレーション回数の間隔
  47. 47.  P-Stepの結果を図示して判断するのがわりとよい 傾向がよくわからない場合,すぐに収束したことを示唆(理想的) 傾向がある場合,その傾向が見えてくる回数以上,採用するデータセットを離すべき47• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline収束診断―P-Step時系列プロットの使用―
  48. 48.  Worst Linear Function:各P-Stepから収束速度に応じて各パラメータを重みづけ組み合わせる関数 単独で使用するのではなく,他の基準と組み合わせての使用を推奨48• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline収束診断―Worst Linear Function時系列プロットの使用―
  49. 49.  1回目のデータと2回目のデータの相関,1回目のデータと3回目のデータの相関,・・・,1回目のデータとN回目のデータの相関を確認(自己相関;Lag) 自己相関の標本誤差0の範囲(5%水準)で落ち着くLagがデータセットの独立性の指標となる これらの方法の使用が最終的なデータ拡大での多重代入法計画のための保守的な方略となる49• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline収束診断ー自己相関関数時系列プロットの使用ー
  50. 50.  初期値を変えて,数パターンためす 初期値の決定で最も簡単な方法はブートストラップ法を用いて少数のデータセットを作成し,平均と分散共分散行列の算出 目的は,事後分布の中心から離れた値でデータ拡張を始めることなので,ブートストラップはノイズがあって,真値から離れたほうがよい 新たな標本誤差が事後分布から推定されやすくなってしまうので,元のデータセットの半分のケースでブートストラップをすること推奨50• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline収束診断について
  51. 51. Sequential Data Augmentation (SDA) 規則的な間隔で代入データセットを保存する 間隔を決めることが難しい 間隔が離れているぶんには問題なし 最初にデータが独立するまでは初期値に依存する期間(burn-inperiod)であるため,破棄するのがよいParallel Data Augmentation chains (PDA) 一度データセットをつくるごとに,シュミレートをし直す どちらの方法でもOK,データの独立性には疑問が残るが,SDAの方が簡便 データの独立する地点(収束地点)を調べたい場合はPDAがよいかも51• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline代入データセットを作成する方法
  52. 52.  代入したデータセットそれぞれに対して分析を実行e.g., 20個のデータセットがあれば,各データセットに対して分析を行うため,合計20回の重回帰分析を繰り返し実行 補助変数を代入フェイズで組み込んでいても,分析フェイズで補助変数を考慮する必要なし52• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline分析フェイズ
  53. 53.  プールした平均 プールした標準誤差 within-inputation variance Between-inputation variance※between-inputation varianceはデータセットにおける欠損値が多いと大きくなる⇒標準誤差は,データセット数を増やすと小さくなる Fraction of Missing Informaiton (FMI)• データセットに欠損がどの程度含まれるのか53• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline統合フェイズ
  54. 54.  D1:プールされた平均,プールされた分散を用いる。多変量Wald統計量によく似ている D2:分析フェイズから求める。プールされたWald検定 D3:分析フェイズから求める。プールされた尤度比検定 D1とD3は漸近的に等価 算出はパッケージにも実装されていることが多いのでD1のが楽54• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法における有意性検定
  55. 55.  そもそもデータが欠損しているのでデータセットの情報が少ないので,シュミレーションの結果,データが収束する地点がないことはよくおこる 対応策• 問題のある変数を除外したり,減らしたり• 分散共分散行列のridge prior distributionを使用• 通常,事前分布には情報なし(一様分布)を仮定するが,分散共分散行列について付加情報を与えるsemi-informative distributionを使うこと55• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法における諸問題:収束に問題が起こったときにどうするか
  56. 56.  I-Step,P-Stepのどちらも多変量正規分布に基づくが,基本的には,正規性が満たされなくても深刻な問題は生じない N =100以下でも信頼区間は正確(2変量でN = 40の場合にデータが歪むという報告あり) 欠損率が25%を超えたら,非正規データは推定を歪める 対応策• 代入フェイズで,線形変換を行う• 分析フェイズでは,ロバスト標準誤差を用いる• 分析~統合フェイズに関してはこれからの研究次第 問題• 欠損値の尖度や歪度はわからないので,適切な変換方法を選ぶのは簡単でない• いくつかの変換を実施して,最も正規性がよくなるまで試すことを推奨 56• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法における諸問題:非正規データの場合,どうするか
  57. 57.  質問紙の項目レベルで多重代入を行った場合,自然数しかとらない場所に,小数が含まれることになる 伝統的には,端数を切り捨て,もっともらしい値にすることが推奨 最近の研究では,ラウンディングを避けることを示唆(ダミー変数やロジスティック回帰は除く)57• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法における諸問題:データをラウンディングするか,しないか
  58. 58.  Naïve rounding• 0.50を超えたら1,0.50以下なら0に。バイアスを含んでしまう Adaptive rounding• 2項分布に対して正規近似←推奨 Calibration1. Raw dataをコピーして,コピーしたデータセットの(欠損値を含む)2値変数の値を全て削除2. オリジナルデータとコピーしたデータを一つのデータに集約して結びつける3. 欠損値を代入58• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法における諸問題:2値変数のラウンディングはどうするか
  59. 59.  そのまま分析 近い値に変換 範囲を超えた変数に対しては,新しい代入を実行59• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法における諸問題:測定範囲を超えたらどうするか
  60. 60.  そのまま多重代入法を実行すると,MCARであっても交互作用は薄まるので処置が必要 交互作用項を作ってから,代入フェイズでデータセットの拡張を行う 交互作用項の作成にあたっては,センタリングを忘れずに カテゴリカル変数の場合,カテゴリごとに多重代入を実行 階層性を考慮したいときは,また特別な方法で 潜在カテゴリカル変数に対しては,多重代入法ではバイアスが生じてしまうため,最尤法の方がよい60• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法における諸問題:交互作用に関心があるときどうするか
  61. 61.  理想的には項目レベルで,しかし項目数が多いと収束しないことも 尺度レベルの代入• 項目レベルと比較して10%くらい標準誤差が上昇• 回答された項目の情報が活かされない 尺度複製• 欠損した項目を除いた平均値を算出した尺度得点を尺度レベルの代入に加えて使用する• 線形に近づきすぎてしまう可能性がある(収束しない)• 事前分布をいじって,線形依存を脱すことが可能• 項目レベルの推定にかなり近づく 3ステップアプローチ• ある特定の尺度についてだけ項目レベル,他の尺度については尺度平均(補助変数)を用いて代入し,別の尺度についても同様• 最終的に,項目レベルで代入された値をデータセットとして使用61• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法における諸問題:代入は尺度レベルですべきか,項目レベルですべきか
  62. 62. 62• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法を実行するコード例(Mplus)代入フェイズ
  63. 63. 63• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法を実行するコード例(Mplus)分析フェイズと統合フェイズ
  64. 64.  多重代入法のアドバンテージ• 補助変数を用いる時に,多重代入法の方が便利• FIMLでは補助変数の指定が大変(Mplusでなら楽)• 説明変数に欠損がある場合• 完全データセットが作れること• 項目レベルの反応を必要とする分析に強い (e.g., 因子分析,信頼性分析)• 平均値や分散が算出できる FIMLのアドバンテージ• 交互作用効果を推定したいとき• 構造方程式モデリングを使用する場合,一般的に最尤法の方が好ましい• 手続きが簡単• RMSEA,CFI,SRMRのような適合度指標が算出できる(多重代入法ではまだ開発されていない)64• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法 多重代入法• Reporting Guidline多重代入法とFIMLのどちらを使うべきか
  65. 65.  最低でも欠損値の範囲(○%~□%)は報告すべき 補助変数を投入する場合,理由が説明されること65• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法 Reporting Guidline欠損値分析の結果報告の仕方補助変数について Planned missing dataデザインの場合,• 使う理由(対象者の負担を減らす等)• 調査パターンの詳細• 検定力の範囲• MCARとなること(特に欠損値がパラメタの推定にバイアスを生じさせないことを説明すべき)
  66. 66.  欠損値のハンドリングにFIMLを使う場合• 使用したソフトウエア• 分析モデル,• 使用した標準誤差,• 補助変数の使用理由,• 補助変数間の相関は研究目的から外れるため報告しないこと,• 他の方法よりも最尤法が正確性や検定力で優れており,• 最先端であること66• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法 Reporting Guidline欠損値分析の結果報告の仕方
  67. 67.  欠損値のハンドリングに多重代入法を使う場合• 多重代入法の概要説明,• 使用したソフトウエア,• 複製した完全データセットの数と理由,• データセットを採用するまでの反復回数と理由,• 変数の数,• 補助変数の種類,• 実施した分析,• データセットの統合に用いた公式(e.g., 各データセットの結果について推定値と標準誤差をRubin (1987)の公式を用いて1つの結果に統合した)• 他の方法よりも多重代入法が正確性や検定力で優れており,最先端であること67• 資料紹介• 欠損データのメカニズム• 伝統的な欠損値分析• 完全情報最尤推定法• 多重代入法 Reporting Guidline欠損値分析の結果報告の仕方
  68. 68. 最後まで聴いていただきありがとうございます68資料の内容に関するご指摘,ご質問等はmtokuoka37@hiroshima-u.ac.jp までお願いいたします。 德岡 大

×