Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

統計的検定と例数設計の基礎

5,089 views

Published on

統計的検定と例数設計の基礎

Published in: Science
  • Be the first to comment

統計的検定と例数設計の基礎

  1. 1. 2変量解析における統計的検 定と例数設計の基礎 ~無駄のない研究のために~ 早稲田大学人間科学学術院 国里愛彦 1
  2. 2. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 2
  3. 3. 事例1:血液型性格診断 某血液型性格 診断研究家  1万人の大学生のデータを ランダムサンプリングで収 集して,A型はO型よりも誠 実性が有意に高いことが明 らかに! ※架空例です。A型O型ともに, 3500名とします(35%)。 24.6 24.8 25 25.2 25.4 誠実性 A型 O型 心理学者は血液型性格診断をバカにし て,けしからん。ちゃんとデータを取っ て,エビデンスを示してやろう!!! 3
  4. 4. 血液型性格診断は正しい?  今後は,心理学の教科書に血液型性格診断 が載ることになった・・・  この差を出すのに,1万人も必要かな(+質問 紙代270万円)?  いやいや,ちょっと落ち着いて差を検 討しよう。12~60点の検査で,平均値 差が0.4点,効果量(d)では0.16 →なんだあ,大した差じゃないじゃない か。診断というには,ちょっと・・・ 4
  5. 5. 事例2:新しい介入プログラムの開発  某大学では,入学時 検診で抑うつ症状の 高い学生の20%がう つ病になる。 →予防プログラムを作成 し,効果を調べたい。 抑うつ症状の高い学生 統制群 (介入なし) 介入群 (予防プログラム) 無作為割付 うつ病発症 (20%) うつ病発症 (10%)  先行研究を参考に,発症率が半分になるくら いの効果(10%)を検出したい。何名の参加者 が必要か?各群30名くらいかな? 5
  6. 6. 事例3:摂食障害とコーピング  摂食障害傾向のある女子学生は,ストレスへ の対処が下手な傾向があることを調べた。  60名の女子大学生を対象に調査を行って、ス トレス対処と摂食障害傾向に有意な負の相関 が認められた(r =-.28)。  なんだかサンプルサイズが小さいような気もす るけど、大丈夫なのかなあ? 6
  7. 7. 例数設計の悩み  3つの事例に共通する悩みは,「結果が信用に 足るサンプルサイズから得られたかどうか」。  極端にサンプルサイズが小さいとわかりやすい が,本当にサンプルサイズは足りているか?  逆に,不安に駆られて,不必要にサンプルサイ ズを大きくしてないか? →検定力分析による研究前の検討が必要! 7
  8. 8. 統計的検定について  統計的検定では,得られたデータ(標本)から, 母集団についての仮説が正しいかどうかを確 率的に判断するのを助ける。 →検定は真実を見つけるのではなく,あくまで研 究者の意志決定の支援 母集団の値 (平均や分散など) = 標本の値 (平均や分散など) + 標本 誤差 8
  9. 9. 統計的検定の手順 NHST(NULL HYPOTHESIS SIGNIFICANCE TESTING) ① 母集団の値について帰無仮説(Null Hypothesis, Ho)をたてる(例:男と女で差はない) ② 対立仮説(H1)をたてる(例:男と女で差がある) ③ 有意水準(α)を設定する(例:p=0.05) ④ 標本データを用いて検定統計量を算出し,帰無 仮説を採択するか棄却するか判断する(例: p=0.01なので,p<αであり,帰無仮説を棄却し, 男女で差があると判断する) 9
  10. 10. 統計的検定の結果 (治療効果を例にして) 母集団における真実 帰無仮説 (効果無し) 対立仮説 (効果あり) 統計的 検定の 判断 帰無仮説採択 (効果無し) 正しい選択 (p=1-α) Type II error (p=β) 対立仮説採択 (効果あり) Type I error (p=α) 正しい選択 (p=1-β)  右下の対立仮説(H1)が正しい時に対立仮説を 採択できる確率であり,1-βを検定力(power)と 呼ぶ。 10
  11. 11. 検定力(POWER)  対立仮説が正しい時に,帰無仮説を棄却して 対立仮説を採択できる確率のこと。  有意水準(α)+検定力(1-β)≠1 →それぞれ,帰無仮説と対立仮説に基づく確率で あり,別々の測度になる。 →しかし,αとβは拮抗する性質があるので,有意 水準を厳しくすると検定力は小さくなる。  Type I errorに比べて,Type II errorへの関 心はこれまで薄かった。 11
  12. 12. 検定力をあげるには?  検定力は,サンプルサイズ,効果量,有意水準 によって決定できる。  検定力を増やすには・・・ ① 標本誤差を小さくできるように,サンプルサイ ズを増やす ② 効果量を大きくする ③ 有意水準をゆるくする サンプル サイズ 有意 水準 検定 力 効果 量 12
  13. 13. シミュレーションから検定力を理解する サンプルサイズが20だったら 相関係数(r)が0.4で, 有意水準が5%の時,以下のサンプルサイズで5000回 検定を行った。 サンプルサイズが62だったら 0 1000 2000 3000 4000 5000 0.00.20.40.60.81.0 Index pv62 0 1000 2000 3000 4000 5000 0.00.20.40.60.81.0 Index pv20P 値 0.05 有意水準5%以下であった確率: 0.4538(2269/5000) 有意水準5%以下であった確率: 0.9142(4571/5000) 13
  14. 14. 検定力分析  効果量,サンプルサイズ,検定力,有意水準の 4つは,他の3つが決まれば,残りが分かる。  検定力やデータ収集する際の必要なサンプル 数を調べる分析 サンプ ルサ イズ 有意 水準 検定 力 効果 量  有意水準は一般的に使用す る基準(5%,1%など),検定力 は0.8以上が望ましい(Cohen, 1992)。  母集団効果量の設定が難し い 14
  15. 15. 検定力分析における効果量の設定  母集団効果量の設定がもっとも難しく,検定力 分析の肝になる。 ① 先行研究やメタ分析から効果量を設定する ② 実践的・理論的な観点から,必要とされる効果 量を設定する ③ パイロットスタディから効果量を設定する ④ Cohenの効果量の大きさの基準(小・中・大) から効果量を設定する ※①〜③が推奨されている。 Murphy, K.R. et al. (2009). Statistical power analysis;Aberson, C.L. (2010). Applied power analysis for the behavioral sciences. 15
  16. 16. 検定力分析はしなきゃだめですか? YES!!!  CONSORT声明(RCT) Item7a How sample size was determined.  STROBE声明(観察研究) Item10 Explain how the study size was arrived at.  日本のうつ研究は5本に1本しか適切な検定力 を有してない!(Okumura & Sakamoto, 2011) 16
  17. 17. 検定力分析で使用するRパッケージ <検定力分析> pwr:2変量解析(比,2群の平均値,相関,1要因 分散分分析)の検定力分析を行う。 *重回帰分析だと,rpsychiのsamplesize.rsq <効果量> MBESS,compute.es, rpsychiなどを利用する。 17
  18. 18. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 18
  19. 19. 事例2:新しい介入プログラムの開発  プログラムの効果を検 討するには何名の参加 者が必要か? ※power.prop.test(n , p1, p2, sig.level, power, alternative)を使う。 ※(n=サンプル数,p1=グループ1の割 合,p2=グループ2の割合,sig.level= 有意水準,power=検定力,alternative =片側・両側検定) 抑うつ症状の高い学生 統制群 (介入なし) 介入群 (予防プログラム) 無作為割付 うつ病発症 (20%) うつ病発症 (10%) power.prop.test(n=NULL,p1=0.20,p2=0.10,sig.level=0.05, power=0.80) →n = 198.9634  各群199名必要。30名では全く足りない。 19
  20. 20. 解析事例:青年期うつ病に対する,フルオ キセチン,認知行動療法,その併用の効果 (JAMA, 292, 807-820, 2004)  青年期うつ病は,重症度や自殺の高さから効果 的な介入法が必要とされている。  青年期うつ病に対して,フルオキセチンなどの抗 うつ薬や認知行動療法(CBT)が効果があるとさ れているが,併用の効果は明らかにでない。  本研究では,無作為化比較試験(薬物単独* CBT単独*併用*プラセボ)を行った(TADS)。 20
  21. 21. 例数設計  論文記載例 Using χ2 statistic, power estimates for detecting differences in treatment response in the 4 groups・・・(検定力分析での仮定) (1) Ha:P(fluoxetine)=.60, P(CBT)=.60, P(fluoxetine+CBT)=.80, and P(placebo)=.40; (2)no adjustment for loss to follow up; (3)no adjustment for multiple comparisons; and (4)α level of .05 for a 2-tailed test. Under these assumptions, 108 patients per treatment group (N=432) were needed to achieve 80% or greater power to detect a difference of .20 in response rates between any 2 treatment groups.  検定力分析 想定を元に,効果量を出すとw=0.2886751だった。 pwr.chisq.test(w = 0.2886751, N = NULL, df = 3, sig.level = 0.05, power = 0.8) →N = 130.8308 あれ?432名もいらないぞ。 しかし,下線を考慮すると97名以上欲しい。 power.prop.test(n=NULL,p1=0.60,p2=0.40,sig.level=0.05, power=0.80) →n = 96.92364 21
  22. 22.  うつ病と診断され,症状が異なる文脈(家,学校な ど)で6週続いている患者が参加した。  薬物療法,CBTともに12週の治療であった。CBT は1回1時間で行われ,患者に合わせて実施され た。 青年期のうつ病患者(439名) フルオキセチン +CBT(107名) 青年期のうつ病患者(2804名) スクリーニング+除外 方法 フルオキセチン (109名) CBT (111名) プラセボ (112名) 無作為割付 22
  23. 23. 結果と考察  ロジスティック回帰 で,治療反応率に対 する治療の効果が 有意だった。  併用と抗うつ薬はプ ラセボやCBT単独よ りも優れる  詳細は省略するが,症状の重症度に関して, 併用が他の介入より優れていた。  青年期うつ病には,抗うつ薬治療とCBTの併 用が推奨される。 0 20 40 60 80 治療反応率 23
  24. 24. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 24
  25. 25. 事例1:血液型性格診断  今回の差は,効果量で0.16。  この差を,有意水準=0.05,検 定力=0.8で検出するには何 名必要か? 24.6 24.8 25 25.2 25.4 誠実性 A型 O型 pwr.t.test(n, d,sig.level,power, type)を使う。*pwrパッケージ ※n=サンプル数,d=効果量,sig.level=有意水準,power=検定力,type=片側・両側検定 pwr.t.test(n=NULL,d=0.16,sig.level=0.05,power=0.8) →n = 614.1541  両群615名必要,つまり全ての血液型で1758名(AとOは 35%,615/0.35=1757.14)あれば良い(質問紙代:270万 →48万)。 25
  26. 26. 解析事例:青年期うつ病の薬物療法に心 理療法を追加する効果について (BMJ, 335(7611), 2007)  TADSの結果からNational Institute for Health and Clinical Excellence (NICE)では,青年期 うつ病には認知行動療法(CBT)が選択肢の 1つになっている。  抗うつ薬単独より,認知行動療法併用が良 いようだけど,結果が一貫してない。  今回は、青年期のうつ病に対する認知行動 療法の併用効果について無作為化比較試 験(薬物単独vsCBT併用)を行った。 26
  27. 27. 例数設計  論文記載例 We used the outcome score to determine sample size. Data from the development study and overdose study suggested that 3 points on the total score scale was clinically important difference(先行研究より3点差に臨床的な意味がある). With a sample size of 100 in each arm we would have 94% power to detect a difference of this magnitude with a two tailed 0.05 significant level, assuming a common SD of 6.0 points(d=3/6=0.5 になる).  検定力分析 pwr.t.test(n=100,d=0.5,sig.level=0.05,power=NULL) →power = 0.9404272 確かに、サンプルサイズが100あれば、検定力は0.94になる。 27
  28. 28.  自傷など中程度から 重度の青年期うつ病 患者が参加  最初に短期的な介入 を行って、改善しな かった患者が対象 青年期のうつ病患者(208名) 抗うつ薬治療群 (103名) 抗うつ薬+CBT群 (105名) 無作為割付 青年期のうつ病患者(510名) 除外+初回治療(249 名) 方法  抗うつ薬治療群は、抗うつ薬治療と日常的な専 門的治療(心理教育、家族療法など)を実施し た。  抗うつ薬+CBT群は、上記にプラスして12週の 28
  29. 29. 結果と考察  5名に1名は、最初 の治療でよくなっ た。  抗うつ薬群とプラス CBT群では、治療 効果に差はなかっ た。  今回の臨床試験では、最初の治療に反応しな い重症度の高い患者を対象にしたので、CBT が効きにくかったと考えられる。 29
  30. 30. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 30
  31. 31. 事例3:摂食障害とコーピング  60名の女子大学生のデータから、ストレス 対処と摂食障害傾向に有意な負の相関が 認められた(r =-.28)。  なんだかサンプル数が少ないような気もす るけど、大丈夫なのかなあ? pwr.r.test(n=60,r=0.28,sig.level=0.05,power=NULL) →power = 0.5837208  う〜ん。検定力が6割弱かあ。10回調査し て半分ちょっとは有意と判断される程度 31
  32. 32. 解析事例:お魚とうつ病  少々古いネタですが, 魚を消費している国ほ どうつ病患者数が少な い(Lancet, 351, 1213, 1998)。  r = -0.84 (p<.005)  日本は期待の星と思い きや,データが変。魚の消費量 う つ 病 年 間 有 病 率 (%)  当時,日本の正確な年間有病率が無かった様 子。 32
  33. 33. 解析事例:食べ物とうつ病,統合失調症 (BJ PSYCH, 184, 404-408, 2004)  統合失調症も含めた,もう少し詳細な検討  魚と芋を食べるほど,うつ病の有病率が下がる (r=-.85, r=-.75)。一方,砂糖や乳製品を食べるほ ど,うつ病の有病率が上がる(r=.74, r=.71)。  サンプルサイズが8カ国なので,魚とうつ病との 関連以外は検定力が0.8を下回った。 pwr.r.test(n=8,r=0.85,sig.level=0.05,power=NULL)→power = 0.8058  因果が不明だし,文化的な影響も考えられるが, 魚のω3脂肪酸を使った研究などが行われている 33
  34. 34. 2変量解析における検定と例数設計  はじめに(14min)  独立な2群における比率差(7min)  独立な2群における平均値差(7min)  相関係数(3min)  おわりに(5min) 34
  35. 35. 解析事例:頭部外傷後のコルチステロン投与 (LANCET, 364,1321-1328,2004)  頭部外傷後のコルチコ ステロンは,死亡率を 1~2%下げるとされる。  よく使用されているが、 その効果は明確でない (95%CI=-6%~2%)。  49カ国が参加する大規 模な無作為化比較試験 を実施(CRASH trial)。 頭部外傷を受けた成人 (重症度の除外基準をみたし、 外傷後8時間以内の患者) 介入群 (コルチステロン) 統制群 (プラセボ) 死亡率 (2week) 死亡率 (2week) 無作為割付 死亡率&障害 (6month) 死亡率&障害 (6month) 35
  36. 36. 例数設計  論文記載例 (前提として、頭部外傷による死亡は15%)Because even a 2% survival difference would be clinical important(効果量の決定 根拠),・・・・A trial of 20000 patients would have a good chance of showing a 2% survival difference at covincing levels of significance - ie, more than 90% power to achieve p<0.01(検 定力分析により2万人が必要).  検定力分析 power.prop.test(n=NULL,p1=0.15,p2=0.13,sig.level=0.01, power=0.90) →n = 8954.919 各群8955名必要で、全体で17910必要。特に記載してないけど、2万 名だと全体の10%ほど脱落しても、17910名おり、上記の検定力が保 証される。 36
  37. 37. 結果  試験継続の評価の分 析において,コルチス テロン投与群の死亡率 が高かったため,約1 万名で中止となった。  コルチステロン投与に よる死亡の相対リスク は1.18(95%CI=1.09 - 1.27) 頭部外傷を受けた成人: 10008名 介入群:4985名 (コルチステロン) 統制群:4979名 (プラセボ) 2週後の死亡率 21%(1052名) 2週後の死亡率 18%(893名) 無作為割付 +各群22名ずつデータロスト 37
  38. 38. 考察  コルチステロン投与に よる死亡の理由は本 研究からわからない。  しかし、過去の結果に よるメタ分析結果を塗 り替えた →治療選択が変わる! gure4:Effectsof corticosteroidallocationonearlymanagement andcomplicationsinhospital within2 weeks enominatorsvarybecauseof different levelsof datacompletenessforeveryevent. Corticosteroid Adjusted control Relativerisk(95%CI) CorticosteroidworseCorticosteroidbetter 20·5 1 Alexander1972 Ransohoff1972 Faupel1976 Cooper1979 Hernesniemi1979 Pitts1980 Saul 1981 Braakman1983 Giannotta1984 Dearden1986 Zagara1987 Gaab1994 Grumme1995 22/55 13/18 36/83 9/50 47/80 21/62 4/12 21/136 49/195 16/55 26/49 35/81 114/201 8/50 44/81 34/72 33/68 4/12 19/133 38/175 16/28) 2 13/27) 2 (38/74) 3 (7/16) 4 Overall (95%CI) Heterogeneity 2 26·46, p=0·03 Chacon1987 Stubbs1989 MRCCRASHtrial 0/5 893/4979 (17·9%) 1/5 13/98 1052/4985 (21·1%) Zarate1995 0/300/30 (5/54) 2 0·96(0·85–1·08)Subtotal Heterogeneity 2 18·11, p=0·2 410/1194 (34·3%) 432/1230 (35·1%) 1·12(1·05–1·20)1325/6209 (21·3%) 1462/6179 (23·7%) 1·18(1·09–1·27) 9/17 16/67 過去の結果によるメタ分析結果 今回の結果を含めたメタ分析結果 38
  39. 39. 検定力の高い研究と倫理  この臨床試験によって、良いどころか死亡 率を高める治療を選択肢から除くことができ た。  しかし、臨床試験のために有害な治療を受 ける可能性を考えると、検定力を高めること のみに集中するのは危険になる。  不必要にサンプルをとってないか慎重に検 討し、この臨床試験のように、中間評価など を行う必要性がある(もちろん、検定力の低 い研究も倫理的に問題がある)。 39
  40. 40. 参考文献 書籍 ① Cohen, J. (1988). Statistical power analysis for the behavioral sciences, Psychology Press. ② Murphy, K.R. et al. (2009). Statistical power analysis, Routledge. ③ Aberson, C.L. (2010). Applied power analysis for the behavioral sciences, Routledge. ④ 永田靖 (2003). サンプルサイズの決め方, 朝倉書店. *①が読みにくかったので,②と③を結構参考にしました。そして安いです。 論文  Cohen,J.(1992). A power primer, Psychological Bulletin, 112 (1), 155-159.  Okumura, Y. & Sakamoto, S. (2011). Statistical power and effect sizes of depression research in Japan. Psychiatry and Clinical Neurosciences, 65 (4), 356-364. 40

×