Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20150827_simplesize

617 views

Published on

サンプルサイズ設計の考え方

Published in: Education
  • Be the first to comment

20150827_simplesize

  1. 1. (α版トライアル@北里大学) サンプルサイズ設計の考え方 2015年8月27日 京都大学大学院医学研究科 医療統計学分野 / 医学教育推進センター 廣江 貴則 E-mail: t-hiroe@umin.ac.jp 15/08/27 2015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health 1
  2. 2. Outline 1. はじめに 2. 信頼区間と信頼度 3. αエラーとβエラー,検出力 4. なぜサンプルサイズ設計が必要なのか 5. その計算に意味はありますか? 6. サンプルサイズ計算に必要なもの 7. 感度解析をしよう 8. 最後は臨床的感覚 15/08/27 22015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  3. 3. Outline 1. はじめに 2. 信頼区間の意味 3. αエラーとβエラー,検出力 4. なぜサンプルサイズ設計が必要なのか 5. その計算に意味はありますか? 6. サンプルサイズ計算に必要なもの 7. 感度解析をしよう 8. 最後は臨床的感覚 15/08/27 32015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  4. 4. はじめに(1/2) • 試行版として実施するもの • 医学教育学の界隈の人たち向けの話 • 公衆衛生の専門家向けに話した経験はあるが, 不慣れな人には初めて • 解析ソフトを使わずにどこまでいけるか • 考え方を知ってもらうことが目標 • なるべく数式を使わないアプローチをとる • 計算は面倒なのでソフトウェアで – 手計算ができる必要はない(専門家の仕事) 15/08/27 42015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  5. 5. はじめに(2/2) • サンプルサイズ設計は簡単ではない – 計算結果を出すまでの条件設定 – 計算結果を出してから実際の数を決めるまで • 計算はソフトに投げればよいといったが… – 計算結果 ≠ サンプルサイズ – 曖昧なところを考慮して最終的な数字に – 読み手をどれだけ納得させられるか • 統計家も狙いをはずすことがある – 専門家同士のコミュニケーションが重要 – 外れた場合のリスク管理 15/08/27 52015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  6. 6. Outline 1. はじめに 2. 信頼区間の意味 3. αエラーとβエラー,検出力 4. なぜサンプルサイズ設計が必要なのか 5. その計算に意味はありますか? 6. サンプルサイズ計算に必要なもの 7. 感度解析をしよう 8. 最後は臨床的感覚 15/08/27 62015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  7. 7. 信頼区間 • 統計的仮説検定で必ず出てくる話 – 幅をもたせて母集団を推定する方法 • 実は誤解が多い • 点推定値+区間推定値を示すことが推奨 • 95%もしくは99%を用いるのが一般的 【問題】 • 95%信頼区間の意味を説明してください – 「真の値が含まれる確率が95%」ではない 15/08/27 72015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  8. 8. Outline 1. はじめに 2. 信頼区間と信頼度 3. αエラーとβエラー,検出力 4. なぜサンプルサイズ設計が必要なのか 5. その計算に意味はありますか? 6. サンプルサイズ計算に必要なもの 7. 感度解析をしよう 8. 最後は臨床的感覚 15/08/27 82015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  9. 9. αエラーとβエラー • αエラー:Type Ⅰ errorとも – 実際には差がないのに検定で差があると判定 – 一般には研究実施側に有利 – 検証側もしくは規制側はこちらを小さくしたい • βエラー:Type Ⅱ errorとも – 実際には差があるのに検定で差がないと判定 – 一般には研究実施側に不利 – 研究者はこちらを小さくしたい 15/08/27 92015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  10. 10. 表で示すとこうなる 15/08/27 102015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health • αエラーの確率は有意水準を設定して制御 – 一般的には5%がよく使われる – 違う数字を使う場合はそれなりの根拠が必要 • 1−βを検出力と呼ぶ – 差があるときに正しく差があると検出できる – (厳密にはこの定義は正しくはないが…) 検定の結果 差がない 差がある 実際の状態 差がない OK αエラー 差がある βエラー OK
  11. 11. α → 0,1−β → 1 は可能か • α:実際は差がないのに差があると言う • 1−β:差があるときに差があると言う • αを0にして,1−βを1にできれば理想 – そんなことは可能か – 少なくとも近づけることはできないか • 有意水準と検出力の関係を知る 15/08/27 112015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  12. 12. 有意水準αを0にする • αを0にすることそのものは可能 • 差がないのに差があるという確率を0に すればよい – 差があろうがなかろうが,差がないと言う • 差があっても差がないと言ってしまう – βの値が1になるので,検出力(1−β)は0にな る – αを0にすると検出力がなくなる 15/08/27 122015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  13. 13. 検出力1−βを1にする • 1−βを1にすることそのものは可能 • つまり,βを0にすればよい – 差があろうがなかろうが,差があると言う • 差がなくても差があると言ってしまう – 有意水準αの値が1になる – 差がないときにも全部差があると言う 15/08/27 132015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  14. 14. 有意水準と検出力の関係 • 有意水準を0にすると,検出力が下がる • 検出力を上げると,有意水準が1となる – 有意水準は小さい方がよい – 検出力は大きい方がよい • トレードオフの関係 – どちらかをとれば,どちらかが失われる – 一般にはαは5%でコンセンサスがとれている – 決まった有意水準で検出力を上げる 15/08/27 142015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  15. 15. 図でみる検出力 15/08/27 152015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health 出所:統計的仮説検定, 産業技術総合研究所ウェブサイト, https://staff.aist.go.jp/t.ihara/confidence.html, 2015年8月27日閲覧
  16. 16. Outline 1. はじめに 2. 信頼区間の意味 3. αエラーとβエラー,検出力 4. なぜサンプルサイズ設計が必要なのか 5. その計算に意味はありますか? 6. サンプルサイズ計算に必要なもの 7. 感度解析をしよう 8. 最後は臨床的感覚 15/08/27 162015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  17. 17. なにをしているのか • なにをしているか知らないと辛い – 夜も眠れないくらい辛い(たぶん) – あとからいろいろ言われて辛い • サンプルサイズ設計の意味を考える前に… • 適正なサンプルサイズ(例数)より – 少なかった場合 – 多かった場合 それぞれどんな問題が生じるか 15/08/27 172015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  18. 18. 少なかった場合 15/08/27 182015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  19. 19. 多かった場合 15/08/27 192015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  20. 20. 結局なにをしているの? • 多すぎても少なすぎてもだめだった • 本当に差があるときに設定した検出力で 差があることを検出できる最小のサイズ – もう少し厳密にいえば,ただ差があるだけ ではなく,臨床的に意味がある差を考慮 • 「最小のサイズ」がキーワード – これより小さいとまずいかもということ 15/08/27 202015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  21. 21. 書かないとあれこれ言われる • 倫理審査の申請時に必要になる – つまり,研究開始時点で計算が終わっている • 多すぎても,少なすぎてもいけない – 少ない→結果出ない→協力者に申し訳ない • 妥協して納得させられればそれでいい – 自分,共同研究者,倫理審査委員,読者 15/08/27 212015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  22. 22. Outline 1. はじめに 2. 信頼区間の意味 3. αエラーとβエラー,検出力 4. なぜサンプルサイズ設計が必要なのか 5. その計算に意味はありますか? 6. サンプルサイズ計算に必要なもの 7. 感度解析をしよう 8. 最後は臨床的感覚 15/08/27 222015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  23. 23. 比較をしないのに計算する? • 比較しないものは計算できない • 1群の場合,予め設定した値と差があるかを 確かめる場合には計算できる • 横断調査でいつのまにか2群比較を前提に サンプルサイズの設計をしていることも – これはやってはいけません – アンケートなどは基本的にはこの方法では無理 – どの程度の誤差を持つかはわかる – あとはそれを許容できるかどうか 15/08/27 232015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  24. 24. ではどうするのさ • どの程度の誤差があるかは分かる – サンプルサイズが小さいと相当の誤差をもつ 15/08/27 242015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health n=10 n=50 n=100 n=300 n=600 5%/95% ±13.5% ±6.0% ±4.3% ±2.5% ±1.8% 10%/90% ±18.6% ±8.3% ±5.9% ±3.4% ±2.4% 20%/80% ±24.8% ±11.1% ±7.8% ±4.5% ±3.2% 30%/70% ±28.4% ±12.7% ±9.0% ±5.2% ±3.7% 40%/60% ±30.4% ±13.6% ±9.6% ±5.5% ±3.9% 50% ±31.0% ±13.9% ±9.8% ±5.7% ±4.0%
  25. 25. Outline 1. はじめに 2. 信頼区間の意味 3. αエラーとβエラー,検出力 4. なぜサンプルサイズ設計が必要なのか 5. その計算に意味はありますか? 6. サンプルサイズ計算に必要なもの 7. 感度解析をしよう 8. 最後は臨床的感覚 15/08/27 252015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  26. 26. 計算に必要な情報 • 有意水準 α:0.05が一般的 • 検出力 1−β:0.8または0.9が一般的 • 用いる検定の方法 • それぞれの集団で予測される平均値/割合など 【平均の比較の場合】 – 検出したい差 δ:内容による – 標準偏差 σ 【割合の比較の場合】 – 推定される各群の割合 – 症例数の比 m 15/08/27 262015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  27. 27. 検出したい差 δ • 臨床的に意味を見出せる差ともいえる • 降圧薬の効果を確かめたい • 1mmHgの低下に意味がある? • たぶん20mmHgくらいないと意味がない • 開発した教材の効果を確かめたい • 平均点で何点上昇すればいい? • 10点,15点,20点… • その教材で何点くらい変化すれば意味があると いえるのかを基準に自分で設定 • 情報の受け手が納得できる数字であること 15/08/27 272015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  28. 28. 推定される各群の割合 • どんな値をとるか予想する • 先行研究などを参考にして検討 • どのくらいになっていたたらよいか, でもよいが,どのくらいになるかが重要 – 研究するなら見積もりくらいはありますよね 15/08/27 282015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  29. 29. わずかな差の検出 • 小さな差はたくさんのサンプルが必要 • 単なる有意差ではなくて,臨床的に意味ある 差を狙うべきなのはこれが理由 – 意味が見出せない小さな差を見つけても… • 逆に比較的大きな差を大きなサンプルで検証 したら大半のものが有意になる – ビッグデータ解析 – ゲノムデータ解析 – (昔の臨床研究) 15/08/27 292015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  30. 30. 数式は載っているけれど… • 実際の計算はかなり面倒 – ソフトウェアに任せるのが吉 – 統計解析ソフトのほかに,専用のものもある – 特殊なサンプルサイズ設計以外は手計算や プログラムを書いての計算はおすすめしない – 分からなければ専門家に訊く • 計算結果の読み方に注意 – 2群でその数字か,1群当たりの数字か – 2群で154.3人という計算結果が得られた場合,端 数の処理はどうする? 15/08/27 302015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  31. 31. Outline 1. はじめに 2. 信頼区間の意味 3. αエラーとβエラー,検出力 4. なぜサンプルサイズ設計が必要なのか 5. その計算に意味はありますか? 6. サンプルサイズ計算に必要なもの 7. 感度解析をしよう 8. 最後は臨床的感覚 15/08/27 312015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  32. 32. 感度解析とは • 感度分析とも呼ぶ – 統計解析の様々な場面で利用される – 欠測データの取り扱いの検討などでも有用 • 完全な予測は優秀な統計家でも無理 – でも被害は最小限に抑えたい • 条件が変化したときに最適解がどの程度変化 するのかを求めること – 標準偏差や割合の差,検出力が変化した場合に 必要なサンプルサイズがどの程度変化するか 15/08/27 322015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  33. 33. 決めうちはリスクが大きい • パラメータの予測は予測でしかない – 正確に予測するのは困難(無理!) – 数字が動いたらどのくらい影響を受けるか (if〜thenの考え方) • 予測を外した場合の影響の評価をする – 影響が大きい場合は慎重に検討 – 現実的な数(妥協できる数)との比較検討 – 無理なら試験中止,デザインの見直しなども 15/08/27 332015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  34. 34. 感度解析の例 • 複数のパターンで計算して,実現可能な 数や検出力と折り合いをつける 15/08/27 342015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health 割合 検出力 60% 70% 80% 20% 250 314 398 25% 126 158 200 30% 78 98 124 35% 54 68 86 40% 40 50 64 45% 32 38 48 例:2群の割合の比較,片方は10%固定で,1:1
  35. 35. 感度解析の別の使い方 • これまで標準偏差や割合の差,検出力を 変化させて必要なサンプルサイズの変化 を検証してきた • サンプルサイズの上限が初めからほぼ 決まっている場合も少なくない – この場合に計算からつじつまを合わせるのは かなり難しい(こじつけ感が否めない) – 検出力がどのように変化するかを感度解析で 検証することで,妥協できるか検討 15/08/27 352015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  36. 36. やってみた方が早い? • ここまでの話をやってみせた方がわかる – とりあえず例を使って実演してみる • いくつかのソフトウェアが利用可能 – Excelでもやろうと思えばできるが面倒 – PS(Vanderbilt University)を使ってみる • だいたい使い方は同じ – とはいえ,説明文書はちゃんと読むこと – ソフトによって計算方法が微妙に違う 15/08/27 362015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  37. 37. Outline 1. はじめに 2. 信頼区間の意味 3. αエラーとβエラー,検出力 4. なぜサンプルサイズ設計が必要なのか 5. その計算に意味はありますか? 6. サンプルサイズ計算に必要なもの 7. 感度解析をしよう 8. 最後は臨床的感覚 15/08/27 372015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  38. 38. 計算して終わりではない • 各種パラメータの設定 • 臨床的に意味のある差や割合の予測 • 感度解析 が終わって,妥協できるサンプルサイズを 決定することができた …で終わりにしてはいけない なぜでしょうか? 15/08/27 382015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  39. 39. 抜け落ちが生じる • 脱落が生じることは不可避 • 最後まで到達できない,結果が得られない – 過去の事例から,どのくらい脱落があるか推測 • どの程度の脱落があるか見込んで計算結果に 上乗せしたものをサンプルサイズとする – 見積もりが少ないと検出力不足に – 見積もりより多すぎるとあれこれ言われる • 読み手が納得できる根拠が必要 15/08/27 392015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  40. 40. たとえば • 質問紙を配布して,その回収率が30%と 見込まれるのなら脱落は70% – 計算された値の3.33倍する? – 正解はなく,納得できるかどうかが問題 • 過去の経験や先行研究を参考に判断 – 教育などの社会科学分野ではかなり難しい – 先行研究は根拠にはなるが,自らの研究でも そうなる保証はどこにもない 15/08/27 402015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  41. 41. そうはいっても • 設計したサンプルサイズを下回ることが ないわけではない(見積もりがいつも 正しいという保証はない) – つまり,検出力不足の状態 • 設計したサンプルサイズより小さくて – 統計的に有意な結果が得られたとき – 有意でなかったとき それぞれどう解釈すればよいのか 15/08/27 412015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  42. 42. 有意な結果が得られた • 検出力が不足していると想定される • ということは? 15/08/27 422015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  43. 43. 有意でなかった • こちらも検出力が不足している状態 • 「有意でない」ということの意味 – 信頼区間を示したらどうなる? 15/08/27 432015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  44. 44. まとめ • 差をぎりぎり検出できる最小のサイズ • サンプルサイズ設計はソフトウェアを使えば すぐにできるが,考え方を知ることが重要 • 人が決めなければいけない要素が多い – 臨床的に意味のある差とは? • 推定は当たらないこともある • 決めうちは避けて感度解析で判断 – 計算は万能ではない(if〜thenの考え方) • 臨床(実践)感覚を大切に 15/08/27 442015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
  45. 45. 最後に • 特別な理由がない限りは両側検定を仮定 してサンプルサイズを設計すること – 「たぶん大きくなる(小さくなる)」程度で 片側検定を用いてはいけない – 基本的には非劣勢試験の場合のみ • 勝っているのは構わない • 一定以上劣っている場合のみ問題にする • 一般に使われるのは優越性試験 15/08/27 452015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health

×