DARM 勉 強 会
#3.2
2013.03.02




        Multiple regression
        - The latter of half -


      広島大学教育学研究科
      博士課程後期1年
      德岡 大



                                 1
Reporting
 Guideline          8. 欠損値の扱う方法が取り上げられている
 (Kelly & Maxwll)




 欠損値のパターン
a. MCAR (missing completely at random)
    欠損は欠損値にも観測値にも依存しない
b. MAR (missing at random)
    欠損値には依存しないが,観測値には依存する可能性
c. MNAR (missing not at random)
    欠損値自体や測定していない変数にも依存することを示唆

 欠損値の扱いについて
   a. 欠損データは最小限に (e.g., 質問紙回収前に空欄がないか確認しても
      らう)
   b. 欠損値の量に関係なく,欠損パターンは調べて報告すべき
   c. 欠損値の扱い方とその選択理由の適切性について議論すべき
   d. 特定の平均値代入やペアワイズ除外は,使用する明確な説明を伴う理
      由がない限り,使用すべきでない
                                             2
Reporting
 Guideline          8. 欠損値の扱う方法が取り上げられている
 (Kelly & Maxwll)



                        欠損値の処理方法

a. ケースワイズ除外
   • 欠損モデルがMCARであるという強い仮定がある。MCARでない限り,バイ
     アスがかかる
b. 単一 or 多重代入法
   • 他のデータから欠損データ部分に“もっともらしい値”を推定して代入する。
     ケースワイズよりもbetter
c. 最尤推定法
   構造方程式モデルやマルチレベルの欠損値処理で簡単に実行できるため,もっ
   ともpopularな方法。欠損データはMCARやMARである必要
   a. Full Information Maximum Likelihood (FIML) :t分布の代わりに標準正規
      分布を用いて,自由度を考慮しないため,サンプルサイズが小さいときに
      用いるべきでない。サンプルが小さいとFIMLアプローチは,タイプⅠエ
      ラーを生じさせがち。
   b. Restricted maximum likelihood (REML):自由度を考慮し,小さいサンプ
      ルサイズに対してより適切。
 多重代入法か最尤推定法をおすすめ!
                                                                 3
Reporting          9. 調整(moderation)を検討モデルでは,解釈の問題,
 Guideline          中心化の役割,視覚化が取り上げられている
 (Kelly & Maxwll)




                    X1                   Y

                               X2
 通常の重回帰式では,交互作用の検討はできないが検討すべき
  • 重回帰式に交互作用項を加える



  • X1がYに及ぼす影響は,β1 + β3X2’と表現できる
 調整効果は論文中にもプロットすることを推奨
 条件付き(i.e., 単純)効果を解釈する
 交互作用項を作る変数は中心化 (各データ-平均値)するのが一般的。
 タイプⅠエラーの増加や検定力の低下のため,カテゴリ化は推奨しない
                                                       4
論文中に示されたプロットの例 2)




2) Darnon, C., Dompnier, B., Gílliéron, O, & Butera, F. (2010). The interplay of masatery and
performance goals in social comparison: A multiple-goal perspective. Journal of Educational
Psychology, 102, 212-222.                                                                     5
Reporting          9. 調整(moderation)を検討モデルでは,解釈の問題,
     Guideline          中心化の役割,視覚化が取り上げられている
     (Kelly & Maxwll)



                   調整効果を検討するときに気を付けること

a. 尺度の信頼性(積である交互作用項に誤差が増えるため)
b. 独立変数同士に相関がある場合,検定力が低下する
c.     独立変数間の相関が高い時,曲線効果があるならば交互作用に関する
       タイプⅠエラーが深刻に増加
       • 2次の交互作用項を投入することで解決
       • 交互作用効果を検討するための検定力は低く,ベストな解決策なし


 交互作用を検討したい場合,独立変数間の相関と理論的に曲線効果を
       除外するかしないかについて明らかにすべき
 『Interaction effects in multiple regression (1st or 2nd ed.)』参照
                                                                    6
Reporting               10. 媒介(mediation)を検討するモデルでは,横断的方
 Guideline               法のための解釈の問題や限界が取り上げられている
 (Kelly & Maxwll)




         X1                                 Y
                               β2
                                                この効果が有意でなければX1と
                    β1          X2     β3       Yは「完全な媒介関係にある」,
                                                有意であれば「部分的な媒介関
                                                係にある」といわれる

a. Barron & Kenny (1986)の媒介を検討する4つの手順
    1.     X1はYに影響を及ぼすか (総合効果の検討)
    2.     X2を加えたモデルで直接効果と媒介(間接)効果を検討
    3.     間接効果の検定
    4.     総合効果と直接効果の比較
 間接効果の検定
    a.     ブートストラップ法
    b.     β1β3の分布
 2つの方法で検定することを推奨。β1~β3の係数と信頼区
  間を報告すべき
                                                                  7
Reporting          10. 媒介(mediation)を検討するモデルでは,横断的方
Guideline          法のための解釈の問題や限界が取り上げられている
(Kelly & Maxwll)



                     媒介分析で考慮すべきこと
a. 媒介変数の測定誤差はバイアスのかかった回帰係数推定の原因となる
b. 媒介変数が誤差なしで測定されていない限り,結果の解釈においてもっ
   ともらしいバイアスを取り上げるべき
c. バイアスや測定誤差を特定するため,潜在変数を使うもの1つの手段

d. 横断的な媒介の推定は,媒介が時間経過で生じるときに深刻なバイアス
   を生じさせうる
e. 縦断デザインが奨励されるべき

f. 十分な検定力を得るのに必要なサンプルサイズを考慮すべき

g. 3変数よりも複雑な媒介に関する情報は,MacKinnon, Fairchild, & Fritz
   (2007)やMacKinnon (2008)を参照


                                                      8
媒介の程度とサンプルサイズの関係 3)




3) Fritz, M. S., & MacKinnon, D. P. (2007). Required sample size to detect the mediational effect.
Psychological Science, 18, 233-239.
                                                                                                     9
Reporting          11. モデルの適切性と仮定を査定するデータの視覚化が行
 Guideline          われている
 (Kelly & Maxwll)



                      線形の仮定を図により確認
a. 重回帰モデルの仮定は考慮し,評価されるべき
b. Conditioning plot (coplot)
   ある変数の水準ごとの2変数の散布図行列




                                                   10
Reporting          11. モデルの適切性と仮定を査定するデータの視覚化が行
 Guideline          われている
 (Kelly & Maxwll)



                      線形の仮定を図により確認
b. Residual versus predictor (RVP) plot
    残差と独立変数は無相関であるという重回帰分析の前提




                                                   11
Reporting          11. モデルの適切性と仮定を査定するデータの視覚化が行
  Guideline          われている
  (Kelly & Maxwll)



                       線形の仮定を図により確認
c. Component plus residual (CPR) plot
    各説明変数と目的変数の関係を図示




                                                    12
Reporting           11. モデルの適切性と仮定を査定するデータの視覚化が行
 Guideline           われている
 (Kelly & Maxwll)



                        線形の仮定を図により確認
 説明変数と目的変数の関係が線形でないなら,重回帰分析はすべきでない
  非線形回帰モデルについては,Nonlinear regression (Seber & Wild, 1989)を参照

 重回帰モデルでは,誤差の正規性が仮定されている
  a. QQ-プロットで視覚的に確認
  b. 正規性の検定もあるが,図視化は非常に有効




                    スライド12の重回帰分析の結果
                    R Studioではvalueに格納されている




                                                           13
Reporting          11. モデルの適切性と仮定を査定するデータの視覚化が行
 Guideline          われている
 (Kelly & Maxwll)



                      変数間の関連を図により確認
 Matrix scatterplotsの利用
   • 外れ値や異常値の特定が可能
   • 相関や回帰は外れ値の影響を受けやすいため,外れ値の特定の仕方
     によって同じデータでも異なる結果が得られることがある。
   • 外れ値による相関の変化:leveraging points

 論文として報告する上で
   • スペースは限られており,本誌に図を
     載せることはできないことが多い。
   • しかし,図示された情報はとても有益
     であるため,Webのsupplemental
     materialとするのがお勧め



                                                   14
Reporting
 Guideline          12. 説明変数と従属変数の測定誤差が取り上げられている
 (Kelly & Maxwll)




 測定誤差は2×2×2の配列で概念化される
   a.    測定誤差 (ランダム,非ランダム)
   b.    変数のタイプ (独立,基準)
   c.    係数のタイプ (非標準化,標準化)

 ランダムな測定誤差
  • 平均 = 0,測定変数,真値,誤差と無相関。
   基準変数のランダムな測定誤差
    大きくなると,非標準化回帰係数は変化しないが,標準化回帰係数
    は小さくなる。大きくなると,R^2減少し,検定力とAIPEの減少も
    示唆。
   独立変数のランダムな測定誤差
    回帰係数が全般的に減少し,正確でなくなる。信頼区間は広くなり
    がち。

 特に説明が目的である場合,測定誤差は問題になる
 説明が目的である場合,SEMの使用がおすすめ
                                                   15
Reporting          13. 重回帰分析を適用した研究文脈における重回帰分析の
 Guideline          もつ潜在的な限界が明確に述べられている
 (Kelly & Maxwll)




 実験的ではない研究デザインの場合に限界がある

 観察研究の場合,因果の主張は避ける

 重回帰モデルでは他の基準変数間の関係が“統制される”ということ

 重回帰モデルに用いる変数の妥当性について,考慮される必要がある




                                                   16
Reporting
 Guideline          14. 重回帰モデルの他の選択肢が与えられていること
 (Kelly & Maxwll)




 誤差の正規性の仮定が満たされない時,ノンパラメトリックな方法を

 基準変数が,連続的でない場合,一般線形モデルを

 線形の仮定が満たされない時,Spline回帰やlowessを

 観測値の独立性が満たされない時,マルチレベルモデルを

 測定誤差が深刻な時,潜在変数モデルが考慮されるべき
  • CFA,SEM




                                                 17

第2回DARM勉強会

  • 1.
    DARM 勉 強会 #3.2 2013.03.02 Multiple regression - The latter of half - 広島大学教育学研究科 博士課程後期1年 德岡 大 1
  • 2.
    Reporting Guideline 8. 欠損値の扱う方法が取り上げられている (Kelly & Maxwll)  欠損値のパターン a. MCAR (missing completely at random) 欠損は欠損値にも観測値にも依存しない b. MAR (missing at random) 欠損値には依存しないが,観測値には依存する可能性 c. MNAR (missing not at random) 欠損値自体や測定していない変数にも依存することを示唆  欠損値の扱いについて a. 欠損データは最小限に (e.g., 質問紙回収前に空欄がないか確認しても らう) b. 欠損値の量に関係なく,欠損パターンは調べて報告すべき c. 欠損値の扱い方とその選択理由の適切性について議論すべき d. 特定の平均値代入やペアワイズ除外は,使用する明確な説明を伴う理 由がない限り,使用すべきでない 2
  • 3.
    Reporting Guideline 8. 欠損値の扱う方法が取り上げられている (Kelly & Maxwll) 欠損値の処理方法 a. ケースワイズ除外 • 欠損モデルがMCARであるという強い仮定がある。MCARでない限り,バイ アスがかかる b. 単一 or 多重代入法 • 他のデータから欠損データ部分に“もっともらしい値”を推定して代入する。 ケースワイズよりもbetter c. 最尤推定法 構造方程式モデルやマルチレベルの欠損値処理で簡単に実行できるため,もっ ともpopularな方法。欠損データはMCARやMARである必要 a. Full Information Maximum Likelihood (FIML) :t分布の代わりに標準正規 分布を用いて,自由度を考慮しないため,サンプルサイズが小さいときに 用いるべきでない。サンプルが小さいとFIMLアプローチは,タイプⅠエ ラーを生じさせがち。 b. Restricted maximum likelihood (REML):自由度を考慮し,小さいサンプ ルサイズに対してより適切。  多重代入法か最尤推定法をおすすめ! 3
  • 4.
    Reporting 9. 調整(moderation)を検討モデルでは,解釈の問題, Guideline 中心化の役割,視覚化が取り上げられている (Kelly & Maxwll) X1 Y X2  通常の重回帰式では,交互作用の検討はできないが検討すべき • 重回帰式に交互作用項を加える • X1がYに及ぼす影響は,β1 + β3X2’と表現できる  調整効果は論文中にもプロットすることを推奨  条件付き(i.e., 単純)効果を解釈する  交互作用項を作る変数は中心化 (各データ-平均値)するのが一般的。  タイプⅠエラーの増加や検定力の低下のため,カテゴリ化は推奨しない 4
  • 5.
    論文中に示されたプロットの例 2) 2) Darnon,C., Dompnier, B., Gílliéron, O, & Butera, F. (2010). The interplay of masatery and performance goals in social comparison: A multiple-goal perspective. Journal of Educational Psychology, 102, 212-222. 5
  • 6.
    Reporting 9. 調整(moderation)を検討モデルでは,解釈の問題, Guideline 中心化の役割,視覚化が取り上げられている (Kelly & Maxwll) 調整効果を検討するときに気を付けること a. 尺度の信頼性(積である交互作用項に誤差が増えるため) b. 独立変数同士に相関がある場合,検定力が低下する c. 独立変数間の相関が高い時,曲線効果があるならば交互作用に関する タイプⅠエラーが深刻に増加 • 2次の交互作用項を投入することで解決 • 交互作用効果を検討するための検定力は低く,ベストな解決策なし  交互作用を検討したい場合,独立変数間の相関と理論的に曲線効果を 除外するかしないかについて明らかにすべき  『Interaction effects in multiple regression (1st or 2nd ed.)』参照 6
  • 7.
    Reporting 10. 媒介(mediation)を検討するモデルでは,横断的方 Guideline 法のための解釈の問題や限界が取り上げられている (Kelly & Maxwll) X1 Y β2 この効果が有意でなければX1と β1 X2 β3 Yは「完全な媒介関係にある」, 有意であれば「部分的な媒介関 係にある」といわれる a. Barron & Kenny (1986)の媒介を検討する4つの手順 1. X1はYに影響を及ぼすか (総合効果の検討) 2. X2を加えたモデルで直接効果と媒介(間接)効果を検討 3. 間接効果の検定 4. 総合効果と直接効果の比較  間接効果の検定 a. ブートストラップ法 b. β1β3の分布  2つの方法で検定することを推奨。β1~β3の係数と信頼区 間を報告すべき 7
  • 8.
    Reporting 10. 媒介(mediation)を検討するモデルでは,横断的方 Guideline 法のための解釈の問題や限界が取り上げられている (Kelly & Maxwll) 媒介分析で考慮すべきこと a. 媒介変数の測定誤差はバイアスのかかった回帰係数推定の原因となる b. 媒介変数が誤差なしで測定されていない限り,結果の解釈においてもっ ともらしいバイアスを取り上げるべき c. バイアスや測定誤差を特定するため,潜在変数を使うもの1つの手段 d. 横断的な媒介の推定は,媒介が時間経過で生じるときに深刻なバイアス を生じさせうる e. 縦断デザインが奨励されるべき f. 十分な検定力を得るのに必要なサンプルサイズを考慮すべき g. 3変数よりも複雑な媒介に関する情報は,MacKinnon, Fairchild, & Fritz (2007)やMacKinnon (2008)を参照 8
  • 9.
    媒介の程度とサンプルサイズの関係 3) 3) Fritz,M. S., & MacKinnon, D. P. (2007). Required sample size to detect the mediational effect. Psychological Science, 18, 233-239. 9
  • 10.
    Reporting 11. モデルの適切性と仮定を査定するデータの視覚化が行 Guideline われている (Kelly & Maxwll) 線形の仮定を図により確認 a. 重回帰モデルの仮定は考慮し,評価されるべき b. Conditioning plot (coplot) ある変数の水準ごとの2変数の散布図行列 10
  • 11.
    Reporting 11. モデルの適切性と仮定を査定するデータの視覚化が行 Guideline われている (Kelly & Maxwll) 線形の仮定を図により確認 b. Residual versus predictor (RVP) plot 残差と独立変数は無相関であるという重回帰分析の前提 11
  • 12.
    Reporting 11. モデルの適切性と仮定を査定するデータの視覚化が行 Guideline われている (Kelly & Maxwll) 線形の仮定を図により確認 c. Component plus residual (CPR) plot 各説明変数と目的変数の関係を図示 12
  • 13.
    Reporting 11. モデルの適切性と仮定を査定するデータの視覚化が行 Guideline われている (Kelly & Maxwll) 線形の仮定を図により確認  説明変数と目的変数の関係が線形でないなら,重回帰分析はすべきでない 非線形回帰モデルについては,Nonlinear regression (Seber & Wild, 1989)を参照  重回帰モデルでは,誤差の正規性が仮定されている a. QQ-プロットで視覚的に確認 b. 正規性の検定もあるが,図視化は非常に有効 スライド12の重回帰分析の結果 R Studioではvalueに格納されている 13
  • 14.
    Reporting 11. モデルの適切性と仮定を査定するデータの視覚化が行 Guideline われている (Kelly & Maxwll) 変数間の関連を図により確認  Matrix scatterplotsの利用 • 外れ値や異常値の特定が可能 • 相関や回帰は外れ値の影響を受けやすいため,外れ値の特定の仕方 によって同じデータでも異なる結果が得られることがある。 • 外れ値による相関の変化:leveraging points  論文として報告する上で • スペースは限られており,本誌に図を 載せることはできないことが多い。 • しかし,図示された情報はとても有益 であるため,Webのsupplemental materialとするのがお勧め 14
  • 15.
    Reporting Guideline 12. 説明変数と従属変数の測定誤差が取り上げられている (Kelly & Maxwll)  測定誤差は2×2×2の配列で概念化される a. 測定誤差 (ランダム,非ランダム) b. 変数のタイプ (独立,基準) c. 係数のタイプ (非標準化,標準化)  ランダムな測定誤差 • 平均 = 0,測定変数,真値,誤差と無相関。  基準変数のランダムな測定誤差 大きくなると,非標準化回帰係数は変化しないが,標準化回帰係数 は小さくなる。大きくなると,R^2減少し,検定力とAIPEの減少も 示唆。  独立変数のランダムな測定誤差 回帰係数が全般的に減少し,正確でなくなる。信頼区間は広くなり がち。  特に説明が目的である場合,測定誤差は問題になる  説明が目的である場合,SEMの使用がおすすめ 15
  • 16.
    Reporting 13. 重回帰分析を適用した研究文脈における重回帰分析の Guideline もつ潜在的な限界が明確に述べられている (Kelly & Maxwll)  実験的ではない研究デザインの場合に限界がある  観察研究の場合,因果の主張は避ける  重回帰モデルでは他の基準変数間の関係が“統制される”ということ  重回帰モデルに用いる変数の妥当性について,考慮される必要がある 16
  • 17.
    Reporting Guideline 14. 重回帰モデルの他の選択肢が与えられていること (Kelly & Maxwll)  誤差の正規性の仮定が満たされない時,ノンパラメトリックな方法を  基準変数が,連続的でない場合,一般線形モデルを  線形の仮定が満たされない時,Spline回帰やlowessを  観測値の独立性が満たされない時,マルチレベルモデルを  測定誤差が深刻な時,潜在変数モデルが考慮されるべき • CFA,SEM 17