Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Darm3(samplesize)

4,480 views

Published on

第3回DARM勉強会資料

Published in: Education
  • Be the first to comment

Darm3(samplesize)

  1. 1. R・RStudioの導入power and accuracyDARM勉強会#22013.01.20広島大学総合科学研究科博士課程後期2年竹林 由武
  2. 2. 本日の話題検定力分析効果量・信頼区間正確度分析例数設計に使用する解析帰無仮説検定の問題
  3. 3. 帰無仮説検定Null Hypotheses Significance Test
  4. 4. NHSTのおさらいstep1 帰無仮説と対立仮説を立てるstep2 検定統計量(T)と分布を決めるstep3 有意水準αを決定し,棄却域を決めるstep4 データを取得し検定統計量を算出step5 仮説の棄却と採択
  5. 5. 3 4 5 6 70.00.30.6T5%帰無仮説検定のおさらい帰無仮説採択帰無仮説棄却Frequency
  6. 6. 帰無仮説検定の問題1. 論理における問題2. 解釈における問題3. 手続きにおける問題
  7. 7. 確率的な議論に不適なロジックの使用論理における問題①前提が真であれば,結論も真前提が真でも, 結論が真とは限らないもしPならばQである(前提1)Qである (前提2)Pである (結論×)もしPならばQである(前提1)Qでない (前提2)Pでない (結論○)後件否定後件肯定(○雨降ったら,地面濡れる)(×地面濡れてたら,雨が降った)
  8. 8. 論理における問題②背理法を用いるので,直接仮説を確かめられない(後件肯定では,せいぜい帰無仮説が正しくないとわかるだけ)帰無仮説は常に間違っている尐なくとも小数点以下のどこかに必ず差がある本当に知りたいのは帰無仮説が正しい確率(p値の逆確率) ※p値=データが得られる確率帰無仮説検定では,母数が定数のため逆確率を算出できない①命題が成り立たないと仮定,②その時矛盾が起こることを導くことで③命題が成り立つことを証明 背理法
  9. 9. 解釈・手続きにおける問題① 有意差が重要な差であるのか分からない有意水準やp値は,効果の大小,関係性の強さについて一切情報を与えない② 極端な2分法をとる5%に「慣習」以上の意味はないp=.049とp=.051に実質的に違いはない(慣習上前者は有意,後者は有意じゃない)③ 「差がない」という仮説を検証できない
  10. 10. 帰無仮説検定の問題を克服① 有意差が重要な差であるのか分からない効果量を報告する② 極端な2分法をとる信頼区間を報告する③ 「差がない」という仮説を検証できない検定力分析
  11. 11. APA Publication manual(2009)complete reporting of all tested hypotheses andestimates of appropriate ESs and CIs are theminimum expectation for all APA journals.効果量と信頼区間による代替・補完を推奨
  12. 12. 効果量Effect Size
  13. 13. 効果量 (ES)母集団における、①独立変数の従属変数に対する影響の度合い②変数間の関係の大きさ=帰無仮説が正しくない程度を定量的に示す指標検定統計量から標本に依存する部分の影響を排除した部分)()( ESgNfT統計検定量標本サイズの関数効果量の関数
  14. 14. 効果量の種類標準化された効果量=標本の観測変数の単位に依存しない不偏性=母集団の効果量の推定量にバイアスがない (尐ない)d 族 r 族群間差 変数間の関係の大きさCohen’d Hedge’s g Glass’s Δ Pearson’ r R2 η2 ω2
  15. 15. d族: 独立な2群の差の場合母標準偏差の算出法によって3分類Cohenのd :Hedgesのg:GlassのΔ :21母効果量母平均の差母標準偏差※S2=標本分散21222211nnSnSnSppSMMd 212)1()1(21222211nnSnSnsppsMMg 21221sMMΔ s2= 統制群の標準偏差
  16. 16. d族の各指標の特徴特徴Cohen’ d記述的な効果量報告例が多い (他の研究との比較が容易)Hedges’ g推測的効果量 (不偏性が高い)g<d 標本サイズ大⇒gとdの差大推奨する研究者が多い (Kline, 2004)Glass’ Δ 1) 操作を行う実験群と統制群の比較する場合2) 2群の等分散性が満たされない場合t値やf値から算出できない(メタ分析に不向き)
  17. 17. g, Δの補正※サンプルが20以上であれば,バイアスは無視してよい(Hunter&Schmidt, 2004)標本サイズが小さいと効果量が過剰推定される補正式gnnnng adj25.232121*ΔΔ54312nadj
  18. 18. 対応のある2群の差① d, g, Δをそのまま使う※群間の相関を無視してるので不適② 差得点の効果量を使う(反復測定で推奨: Glass et al., 1981)122221 2ssssD第一群の分散 第一群の分散 共分散※①と②のうちどれを使用するか研究者によって意見が異なるDDDsMd差得点の平均差得点の標準偏差(分母がn-1)
  19. 19. r族の効果量① pearsonの積率相関 (連続変数同士の相関)② 点双列相関係数 (2値と連続変数の相関)③ 決定係数・分散説明率 :相関係数の2乗yxxysssr各変数の標準偏差両変数間の共分散2121qqSMMrpbデータ全体の標準偏差各群の比率連続変数を2値変数で分割した各群の平均112)(nSnii xx
  20. 20. r族:1way between ANOVA要因の平方和全体の平方和1要因分散分析における全分散TASSSS① η2η2= 要因の分散 誤差の分散nii xxSS12)(
  21. 21. η2は真値を過剰推定する(特にnが尐ない時)効果量の真値=.101条件につき,10000階繰り返した時の効果量の平均r族:1way between ANOVA
  22. 22. r族:1way between ANOVA要因の自由度ω2≦ε2≦η2TEAASSMSMSdf )( 誤差の平均平方要因の平均平方ETEAAMSSSMSMSdf )(② ε2③ ω2要因の自由度iidfSSMSバイアスを補正した効果量
  23. 23.  要因の分散 被験者内の分散 誤差の分散1要因分散分析における全分散η2 =η2p =r族:1way within ANOVAEsAASSSSSSSSEAASSSSSS
  24. 24. ε2ω2ω2pETEAAMSSSMSMSdf )(sTEAAMSSSMSMSdf )(sAAAEAAMSdfnMSdfMSMSdf)()(r族:1way within ANOVA
  25. 25.  要因Aの分散 要因Bの分散 要因ABの交互作用の分散 誤差の分散2要因分散分析における全分散η2 =η2p =r族:2 way between ANOVAEABBAASSSSSSSSSSEAASSSSSS
  26. 26. r族:2 way between ANOVA222222222)()()(EABBATEEEABBAABEBBBEAAAMSMSMSabndfdfMSMSabndfMSMSabndf ω2ω2p22TAB222EABAB22TA222EAA交互作用交互作用
  27. 27. 研究のデザインが異なるとη2 やη2pを比較できないη2:要因数が増えると小さな値を取りがち1つの要因で説明できる母分散の割り合いが相対的に減るη2p:被験者間より被験者内で大きな値をとる被験者効果の分散を分母から除くため一般化効果量
  28. 28. 一般化効果量因の分散+操作されていない要関心のある要因の分散関心のある要因の分散2G2要因(A, B)の片方(A)を操作要因Aの効果要因Bの効果η2と一緒 ω2と一緒EABBBGEABBAAGSSSSSSSSSSSSSSSSSS22EATEBBGETEAAGMSSSSSMSdfSSMSSSMSdfSSα22
  29. 29. 効果量の解釈基準検定 指標 小 中 大d 群 d, g, Δ .20 .50 .80r 群 r .10 .30 .50R2 .02 .13 .26η2 .01 .06 .14ω2 .01 .09 .25Cohen (1992)他
  30. 30. 効果量の解釈効果量が小さくても意味がある場合双子と双子以外の2群におけるIQの差15歳と16歳の女子身長の差WAISの情報・絵画完成課題における性差など研究分野・目的によって,効果量の持つ意味は変わる
  31. 31. 信頼区間Confidence Interval
  32. 32. 統計的推論推定値統計量標本 標本 標本無作為抽出統計量 統計量推定点推定(point estimation)区間推定(intervalestimation)母集団
  33. 33. 3 4 5 6 70.00.30.6平均信頼水準(95%)0.25%0.25%誤差範囲 誤差範囲区間推定と点推定区間推定NsSE信頼区間・推定値の正確さと範囲・観察された差がどのくらい一般的に生じうるか点推定
  34. 34. 母平均の信頼区間criticalcritical tSEMCI1標本の場合平均=8標準偏差=0.8標本サイズ=48t値=t(47)95%=2.0123.00.801.2488.00.8criticalCIM = 8.0, 95% CI [7.77 8.23]APAスタイル
  35. 35. 独立測定反復測定nMStMCI Ecriticalkcritical母平均の信頼区間※分散の等分散性が満たされている場合に限る誤差の平均平方条件kの平均値各群の平均平方NMStMCI SAcriticalkcritical被験者と要因Aの交互作用(誤差)の平均平方標本サイズrLNMStMCI SAcriticalkcriticalより複雑な反復測定デザインは,Canadian Journal of Experimental Psychology 2009, Vol. 63, No. 2, 124–138反復測定要因の水準数の積要因Aの水準数分散分析における誤差を使用(Loftus & Masson, 1994; Masson & Loftus, 2003)
  36. 36. 母平均の信頼区間繰り返しのある多要因計画nMStMCI SABcriticalkcriticalSABSBSAABSBSASABdfdfdfSSSSSSSMS※それぞれの要因や交互作用の分散が大きく異なる場合(2倍)に要因ごとに誤差の平均平方を計算した方が良い(Masson & Loftus, 2003)3水準以上の条件を含む反復測定の留意点Greenhouse-Geisserのεが0.75以下の場合⇒関心のある2対比較を行い,それぞれについて異なる信頼区間を求める=プールした誤差
  37. 37. 母平均の信頼区間混合計画繰り返しのある要因とない要因で個別に計算繰り返しのない要因繰り返しある要因※繰り返し要因が複数ある場合には,プールした誤差の平均平方を使用しても良いNMStMCI SAcriticalkcriticalnMStMCI Ecriticalkcritical
  38. 38. 母平均の信頼区間平均値差対応なし: プールした標準偏差(s)を使用対応あり1標本の場合と同様2)1()1(21222211nnsnsns2111nnsSEdiffcriticaldiffcritical tSEMCI
  39. 39. 頻度の信頼区間1標本NppSE /)1(SEZpCI criticalp=比率特定の信頼水準に対応する標準正規分布の値信頼水準 Zcritical.90 1.645.95 1.96.99 2.576
  40. 40. 頻度の信頼区間2標本対応なし222111 )1()1(nppnppSEdiffiffdcritical SEZppCI 21
  41. 41. 頻度の信頼区間2標本対応ありCIの求め方は一緒だが,SEdiffの算出法が異取りうる結果のパタンを考える例) ある特性の有無の頻度を2回測定iffdcritical SEZppCI 21NtstsnSEdiff2)(1特性あり なし第1回 r s第2回 t up1=(r+s)/Np2=(r+t)/Np1-p2=(s-t)/N←比率の差
  42. 42. 相関の信頼区間rrz e11log21ピアソン・スピアマンrをz変換zの標準誤差3/1 nZzCI critical111122zzeeCILL112222zzeeCIULrに再変換下限 上限
  43. 43. 回帰分析の信頼区間単回帰直線の信頼区間(切片)単回帰直線の信頼区間(傾き)単回帰直線の予測区間任意の信頼水準で,回帰直線が引かれる範囲新たな測定を行った時に予測される値の推定範囲
  44. 44. 回帰分析の信頼区間)(bSEtbCI critical単回帰直線の信頼区間(傾き)2))(1( 222nsbsnSxyres1)(nssbSExres1variablesNNdf残差標準偏差傾きの標準誤差自由度
  45. 45. 回帰分析の信頼区間)(aSEtbCI critical単回帰直線の信頼区間(切片)2))(1( 222nsbsnSxyres22)1(1)(xressnxnsaSE残差標準偏差切片の標準誤差認知のxの値に対応するyの値(yfit)の信頼区間22)1()(1)(xoresfitsnxxnsySE)(aSEtbCI criticalyfitの標準誤差全てのxについて繰り返すと母集団の回帰係数の信頼区間が得られる
  46. 46. 回帰分析の信頼区間)( icriticali SEtCI ββ重回帰分析標準偏回帰係数(β)の信頼区間決定係数(R2)の信頼区間22Rcritical SEtRCI)3)(1()1()1(4222222nnknRRSER1variablesNNdftの自由度R2の標準誤差
  47. 47. 効果量の信頼区間dcritical SEtdCICohenのdの信頼区間)2(2 2122121nndnnnnSEddの標準誤差
  48. 48. 効果量・信頼区間の算出に使用するRpackageRpsychihttp://blue.zero.jp/yokumura/index.htmlhttp://cran.r-project.org/web/packages/rpsychi/rpsychi.pdf作成者HP※rpsychiでは,hedge’gやη2の信頼区間が出せるMBESShttp://www3.nd.edu/~kkelley/site/Welcome.htmlhttp://cran.r-project.org/web/packages/MBESS/MBESS.pdf作成者HP
  49. 49. 実行例dat <- data.frame(y = c(9,12,13,15,16,8,12,11,10,14),x = rep(factor(c("a","b")), each=5))ind.t.test(y~x, data=dat, correct=FALSE)Rpsychi:対応のないt検定hedge’s g
  50. 50. 実行例dat <- data.frame(y = c(9,12,13,15,16,8,12,11,10,14),x = rep(factor(c("a","b")), each=5))ind.t.test(y~x, data=dat, correct=FALSE)Rpsychi:1要因の分散分析hedge’s gη2
  51. 51. 実行例dat <- data.frame(y = c(2,3,4,1,3,1,3,4,5,5,6,6,6,7),A = factor(c(rep("A1",5), rep("A2", 9))),B = factor(c(rep("B1",3), rep("B2",2), rep("B1",2), rep("B2",7))))ind.twoway(y~A*B, data=dat)Rpsychi:2要因の分散分析η2p
  52. 52. 実行例multreg(salary~ pubs + cits, data=dat)Rpsychi:重回帰R2βB
  53. 53. 検定力分析Power Analysis
  54. 54. ⇒ 検出力 .80が推奨されている (Cohen, 1992)検定力研究結果真の結果効果なし (null=true) 効果あり (null=false)効果なし (効果量=0) 正しい判断 (1-α) 第二種の過誤 (β)効果あり (効果量≠0) 第一種の過誤 (α) 正しい判断 (1-β)検定力(1-β)帰無仮説が偽の時に正しい帰無仮説を棄却する確率検出力 .80が推奨(Cohen, 1992)
  55. 55. なぜ検定力分析が必要か①研究結果の信頼性帰無仮説検定では,第2種の過誤に関する情報が得られないe.g. 結果:「有意差なし」←本当に差がない?第2種の過誤?②経済性の観点不必要に多いサンプル取ったデータの検定力が低い場合⇒ 時間,お金,人的資源を無駄にする⇒ お蔵入りになってデータが無駄に
  56. 56. なぜ検定力分析が必要か確証バイアス自分の仮説(考え)に合致する証拠を重視,反証を軽視するE K 4 7Watsonの4枚カード問題「方面が母音なら,もう方面は偶数」上の規則が成り立っているか確かめるために必ず確認しなければいけないカードはどれ?
  57. 57. 検定力分析検定力 効果量有意水準 標本サイズ検定力分析1) 一つが変化すると他の指標も変化する2) 効果量,標本サイズ,有意水準のうち,2つが一定の場合①有意水準が高くなると検定力も高くなる②効果量が大きいと検定力も高い③標本サイズが大きいと検定力も高い
  58. 58. 検定力検定力が高すぎる場合わずかな(無意味な)差でも検出されやすくなるt df p 平均値差-2.296 999998 .022 .00100万人の対応のない t 検定 (Field & Wright, 2006)検定力が低すぎる場合第2種の過誤が生じる (医学領域では倫理的に問題)効果の強い薬v.s弱い薬検定力の低いテストで比較⇒両者の差を検出できない⇒ 弱い薬が効果が強いと誤認されて使用される危険性差は0でも検定結果は「有意差あり」!?!?
  59. 59. 適切な検定力黄金の中庸 =極端は良くない,真ん中へんが一番適切な検定力の基準.80 (Cohen, 1988)第一種の過誤(α)よりも4倍は厳しくする必要があるα=.05⇒β=(.05×4)⇒β=.20⇒1-β=.80.95 (Cashen & Geiger, 2004)第一種の過誤と同程度にすべしα=.05⇒β=.05⇒1-β=.95研究の目的や仮説によって異なる※最低限.50以上 (Kline, 2004)
  60. 60. 事前vs事後検定力 効果量有意水準 標本サイズ検定力分析事前にサンプル数決定① 効果サイズ(先行研究から,理論的に予測)② 有意水準 α③ 検定力事後的に検定力を検討(観察検定力, 標本検定力)① 得られたデータの効果量② 有意水準 α③ サンプル数
  61. 61. 事後検定力分析の留意点第2種の過誤に関してほとんど情報が得られないP値が下がるほど,観察検定力は大きくなる(反比例)。P=.05となる時,観察検定力は標本サイズに関わらず.50になる。観察検定力を計算するのは時間の無駄(Ellis, 2010)※母集団の効果量に基づいて観察検定力を検討する場合は有効
  62. 62. 検定力分析に使用するRpackageRpsychihttp://blue.zero.jp/yokumura/index.htmlhttp://cran.r-project.org/web/packages/rpsychi/rpsychi.pdf作成者HPMBESShttp://www3.nd.edu/~kkelley/site/Welcome.htmlhttp://cran.r-project.org/web/packages/MBESS/MBESS.pdf作成者HP
  63. 63. 実行例samplesize.d(delta=.20, power=.80, sig.level=.05) 394samplesize.d(delta=.50, power=.80, sig.level=.05) 64samplesize.d(delta=.80, power=.80, sig.level=.05) 26Rpsychi:cohen’s dに基づく検定力samplesize.etasq(k=4, delta=.01, power=.80, sig.level=.05) 268samplesize.etasq(k=4, delta=.06, power=.80, sig.level=.05) 44samplesize.etasq(k=4, delta=.14, power=.80, sig.level=.05) 18η2に基づく検定力群の数効果小効果中効果大効果小効果中効果大samplesize.rsq(delta=.02, n.ind=5, power = .80, sig.level=.05) 635samplesize.rsq(delta=.13, n.ind=5, power = .80, sig.level=.05) 92samplesize.rsq(delta=.26, n.ind=5, power = .80, sig.level=.05) 43R2に基づく検定力説明変数の数効果小効果中効果大
  64. 64. 実行例ss.power.R2(Population.R2=.02, alpha.level=.05, desired.power=.80, p=5)MBESS:R2に基づく検定力ss.power.reg.coef(Rho2.Y_X=0.7826786, Rho2.Y_X.without.j=0.7363697,p=5, alpha.level=.05, desired.power=.80)βに基づく検定力Rho2.Y_X=全ての説明変数と基準変数の決定係数(R2)説明変数の数Rho2.Y_X.without.j=関心のある変数以外の説明変数と基準変数の決定係数
  65. 65. 正確度分析Precision Anlasysis(Accuracy In Parameter Estimation)
  66. 66. 正確度分析信頼区間の区間幅(の期待値)や信頼限界比に基づく例数設計 (豊田,2003)1) 有意だけど不正確2) 有意で正確3) 有意じゃないし不正確4) 有意じゃなくて正確結果が有意であっても,パラメタの信頼区間が広いと,母推定値が正確に推定できない目的:母集団値の正確な推定を得ること
  67. 67. 標準化平均差の正確度Kelly & Rauch. Psychological Methods 2006, Vol. 11, No. 4, 363–385AIPEは効果サイズの大きさに影響を受けない
  68. 68. 標準化回帰係数の正確度Kelly & Maxwell. Psychological Methods 2003, Vol. 8, No. 3, 305–321AIPEは効果サイズの大きさに影響を受けない
  69. 69. 実行例MBESS:平均値差の正確度ss.aipe.smd(delta=.20, conf.level=.95, width=.30) 344ss.aipe.smd(delta=.50, conf.level=.95, width=.30) 353ss.aipe.smd(delta=.80, conf.level=.95, width=.30) 369R2の正確度効果小効果中効果大ss.aipe.R2(Population.R2=.02, conf.level=.95, width=.10, which.width=“Full”, p=5)178ss.aipe.R2(Population.R2=.13, conf.level=.95, width=.10, which.width="Full", p=5)617ss.aipe.R2(Population.R2=.26, conf.level=.95, width=.10, which.width="Full", p=5)879

×