統計的検定と例数設計の基礎

２変量解析における統計的検
定と例数設計の基礎
~無駄のない研究のために~
早稲田大学人間科学学術院
国里愛彦
1

２変量解析における検定と例数設計
 はじめに(14min)
 独立な２群における比率差(7min)
 独立な２群における平均値差(7min)
 相関係数(3min)
 おわりに(5min)
2

事例１：血液型性格診断
某血液型性格
診断研究家
 1万人の大学生のデータを
ランダムサンプリングで収
集して，A型はO型よりも誠
実性が有意に高いことが明
らかに！
※架空例です。A型O型ともに，
3500名とします(35%)。
24.6
24.8
25
25.2
25.4
誠実性
A型
O型
心理学者は血液型性格診断をバカにし
て，けしからん。ちゃんとデータを取っ
て，エビデンスを示してやろう!!!
3

血液型性格診断は正しい？
 今後は，心理学の教科書に血液型性格診断
が載ることになった・・・
 この差を出すのに，1万人も必要かな（＋質問
紙代270万円）？
 いやいや，ちょっと落ち着いて差を検
討しよう。12~60点の検査で，平均値
差が0.4点，効果量(d)では0.16
→なんだあ，大した差じゃないじゃない
か。診断というには，ちょっと・・・
4

事例２：新しい介入プログラムの開発
 某大学では，入学時
検診で抑うつ症状の
高い学生の20％がう
つ病になる。
→予防プログラムを作成
し，効果を調べたい。
抑うつ症状の高い学生
統制群
（介入なし）
介入群
（予防プログラム）
無作為割付
うつ病発症
(20%)
うつ病発症
（10%）
 先行研究を参考に，発症率が半分になるくら
いの効果(10%)を検出したい。何名の参加者
が必要か？各群30名くらいかな？
5

事例３：摂食障害とコーピング
 摂食障害傾向のある女子学生は，ストレスへ
の対処が下手な傾向があることを調べた。
 60名の女子大学生を対象に調査を行って、ス
トレス対処と摂食障害傾向に有意な負の相関
が認められた(r =-.28)。
 なんだかサンプルサイズが小さいような気もす
るけど、大丈夫なのかなあ？
6

例数設計の悩み
 ３つの事例に共通する悩みは，「結果が信用に
足るサンプルサイズから得られたかどうか」。
 極端にサンプルサイズが小さいとわかりやすい
が，本当にサンプルサイズは足りているか？
 逆に，不安に駆られて，不必要にサンプルサイ
ズを大きくしてないか？
→検定力分析による研究前の検討が必要！
7

統計的検定について
 統計的検定では，得られたデータ(標本)から，
母集団についての仮説が正しいかどうかを確
率的に判断するのを助ける。
→検定は真実を見つけるのではなく，あくまで研
究者の意志決定の支援
母集団の値
（平均や分散など）
＝標本の値
（平均や分散など）
＋標本
誤差
8

統計的検定の手順
NHST（NULL HYPOTHESIS SIGNIFICANCE TESTING）
① 母集団の値について帰無仮説(Null Hypothesis,
Ho)をたてる（例：男と女で差はない）
② 対立仮説(H1)をたてる（例：男と女で差がある）
③ 有意水準（α）を設定する（例:p=0.05）
④ 標本データを用いて検定統計量を算出し，帰無
仮説を採択するか棄却するか判断する（例：
p=0.01なので，p<αであり，帰無仮説を棄却し，
男女で差があると判断する）
9

統計的検定の結果
（治療効果を例にして）
母集団における真実
帰無仮説
（効果無し）
対立仮説
（効果あり）
統計的
検定の
判断
帰無仮説採択
（効果無し）
正しい選択
(p=1-α)
Type II error
(p=β）
対立仮説採択
（効果あり）
Type I error
(p=α)
正しい選択
(p=1-β）
 右下の対立仮説（H1）が正しい時に対立仮説を
採択できる確率であり，1-βを検定力(power)と
呼ぶ。
10

検定力(POWER)
 対立仮説が正しい時に，帰無仮説を棄却して
対立仮説を採択できる確率のこと。
 有意水準（α）＋検定力（1-β）≠１
→それぞれ，帰無仮説と対立仮説に基づく確率で
あり，別々の測度になる。
→しかし，αとβは拮抗する性質があるので，有意
水準を厳しくすると検定力は小さくなる。
 Type I errorに比べて，Type II errorへの関
心はこれまで薄かった。
11

検定力をあげるには？
 検定力は，サンプルサイズ，効果量，有意水準
によって決定できる。
 検定力を増やすには・・・
① 標本誤差を小さくできるように，サンプルサイ
ズを増やす
② 効果量を大きくする
③ 有意水準をゆるくする
サンプル
サイズ
有意
水準
検定
力
効果
量
12

シミュレーションから検定力を理解する
サンプルサイズが20だったら
相関係数（ｒ）が0.4で, 有意水準が5%の時，以下のサンプルサイズで５０００回
検定を行った。
サンプルサイズが62だったら
0 1000 2000 3000 4000 5000
0.00.20.40.60.81.0
Index
pv62
0 1000 2000 3000 4000 5000
0.00.20.40.60.81.0
Index
pv20P
値
0.05
有意水準5%以下であった確率：
0.4538（2269/5000）
有意水準5%以下であった確率：
0.9142（4571/5000）
13

検定力分析
 効果量，サンプルサイズ，検定力，有意水準の
４つは，他の３つが決まれば，残りが分かる。
 検定力やデータ収集する際の必要なサンプル
数を調べる分析
サンプ
ルサ
イズ
有意
水準
検定
力
効果
量
 有意水準は一般的に使用す
る基準（5%,1%など），検定力
は0.8以上が望ましい(Cohen,
1992)。
 母集団効果量の設定が難し
い
14

検定力分析における効果量の設定
 母集団効果量の設定がもっとも難しく，検定力
分析の肝になる。
① 先行研究やメタ分析から効果量を設定する
② 実践的・理論的な観点から，必要とされる効果
量を設定する
③ パイロットスタディから効果量を設定する
④ Cohenの効果量の大きさの基準（小・中・大）
から効果量を設定する
※①〜③が推奨されている。
Murphy, K.R. et al. (2009). Statistical power analysis；Aberson, C.L. (2010).
Applied power analysis for the behavioral sciences.
15

検定力分析はしなきゃだめですか？
YES!!!
 CONSORT声明（RCT）
Item7a How sample size was determined.
 STROBE声明(観察研究)
Item10 Explain how the study size was
arrived at.
 日本のうつ研究は5本に１本しか適切な検定力
を有してない！（Okumura & Sakamoto,
2011）
16

検定力分析で使用するRパッケージ
＜検定力分析＞
pwr：2変量解析（比，2群の平均値，相関，1要因
分散分分析）の検定力分析を行う。
＊重回帰分析だと，rpsychiのsamplesize.rsq
＜効果量＞
MBESS，compute.es, rpsychiなどを利用する。
17

18

事例２：新しい介入プログラムの開発
 プログラムの効果を検
討するには何名の参加
者が必要か？
※power.prop.test(n , p1, p2,
sig.level, power, alternative)を使う。
※(n=サンプル数，p1=グループ１の割
合，p2=グループ２の割合，sig.level=
有意水準，power=検定力，alternative
=片側・両側検定)
抑うつ症状の高い学生
統制群
（介入なし）
介入群
（予防プログラム）
無作為割付
うつ病発症
(20%)
うつ病発症
（10%）
power.prop.test(n=NULL,p1=0.20,p2=0.10,sig.level=0.05,
power=0.80) →n = 198.9634
 各群199名必要。30名では全く足りない。
19

解析事例：青年期うつ病に対する，フルオ
キセチン，認知行動療法，その併用の効果
(JAMA, 292, 807-820, 2004)
 青年期うつ病は，重症度や自殺の高さから効果
的な介入法が必要とされている。
 青年期うつ病に対して，フルオキセチンなどの抗
うつ薬や認知行動療法(CBT)が効果があるとさ
れているが，併用の効果は明らかにでない。
 本研究では，無作為化比較試験（薬物単独＊
CBT単独＊併用＊プラセボ）を行った(TADS)。
20

例数設計
 論文記載例
Using χ2 statistic, power estimates for detecting differences in
treatment response in the 4 groups・・・(検定力分析での仮定) (1)
Ha:P(fluoxetine)=.60, P(CBT)=.60, P(fluoxetine+CBT)=.80, and P(placebo)=.40; (2)no
adjustment for loss to follow up; (3)no adjustment for multiple
comparisons; and (4)α level of .05 for a 2-tailed test. Under these
assumptions, 108 patients per treatment group (N=432) were needed to
achieve 80% or greater power to detect a difference of .20 in response
rates between any 2 treatment groups.
 検定力分析
想定を元に，効果量を出すとw=0.2886751だった。
pwr.chisq.test(w = 0.2886751, N = NULL, df = 3, sig.level = 0.05, power =
0.8) →N = 130.8308 あれ？432名もいらないぞ。
しかし，下線を考慮すると97名以上欲しい。
power.prop.test(n=NULL,p1=0.60,p2=0.40,sig.level=0.05, power=0.80)
→n = 96.92364
21

 うつ病と診断され，症状が異なる文脈（家，学校な
ど）で６週続いている患者が参加した。
 薬物療法，CBTともに12週の治療であった。CBT
は１回1時間で行われ，患者に合わせて実施され
た。
青年期のうつ病患者(439名)
フルオキセチン
+CBT（107名）
スクリーニング＋除外
方法
フルオキセチン
（109名）
CBT
（111名）
プラセボ
（112名）
無作為割付
22

結果と考察
 ロジスティック回帰
で，治療反応率に対
する治療の効果が
有意だった。
 併用と抗うつ薬はプ
ラセボやCBT単独よ
りも優れる
 詳細は省略するが，症状の重症度に関して，
併用が他の介入より優れていた。
 青年期うつ病には，抗うつ薬治療とCBTの併
用が推奨される。
0
20
40
60
80
治療反応率
23

24

事例１：血液型性格診断
 今回の差は，効果量で0.16。
 この差を，有意水準=0.05,検
定力=0.8で検出するには何
名必要か？ 24.6
24.8
25
25.2
25.4
誠実性
A型
O型
pwr.t.test(n, d,sig.level,power, type)を使う。*pwrパッケージ
※n=サンプル数，d=効果量，sig.level=有意水準，power=検定力，type=片側・両側検定
pwr.t.test(n=NULL,d=0.16,sig.level=0.05,power=0.8)
→n = 614.1541
 両群615名必要，つまり全ての血液型で1758名(AとOは
35%,615/0.35=1757.14)あれば良い（質問紙代：270万
→48万）。
25

解析事例：青年期うつ病の薬物療法に心
理療法を追加する効果について
(BMJ, 335(7611), 2007)
 TADSの結果からNational Institute for Health
and Clinical Excellence (NICE)では，青年期
うつ病には認知行動療法(CBT)が選択肢の
1つになっている。
 抗うつ薬単独より，認知行動療法併用が良
いようだけど，結果が一貫してない。
 今回は、青年期のうつ病に対する認知行動
療法の併用効果について無作為化比較試
験（薬物単独vsCBT併用）を行った。
26

例数設計
 論文記載例
We used the outcome score to determine sample size. Data from
the development study and overdose study suggested that 3
points on the total score scale was clinically important
difference（先行研究より３点差に臨床的な意味がある）. With a
sample size of 100 in each arm we would have 94% power to
detect a difference of this magnitude with a two tailed 0.05
significant level, assuming a common SD of 6.0 points（d=3/6=0.5
になる）.
 検定力分析
pwr.t.test(n=100,d=0.5,sig.level=0.05,power=NULL)
→power = 0.9404272
確かに、サンプルサイズが100あれば、検定力は0.94になる。
27

 自傷など中程度から
重度の青年期うつ病
患者が参加
 最初に短期的な介入
を行って、改善しな
かった患者が対象
抗うつ薬治療群
（103名）
抗うつ薬＋CBT群
（105名）
無作為割付
除外＋初回治療(249
名)
方法
 抗うつ薬治療群は、抗うつ薬治療と日常的な専
門的治療（心理教育、家族療法など）を実施し
た。
 抗うつ薬＋CBT群は、上記にプラスして12週の
28

結果と考察
 5名に１名は、最初
の治療でよくなっ
た。
 抗うつ薬群とプラス
CBT群では、治療
効果に差はなかっ
た。
 今回の臨床試験では、最初の治療に反応しな
い重症度の高い患者を対象にしたので、CBT
が効きにくかったと考えられる。
29

30

事例３：摂食障害とコーピング
 60名の女子大学生のデータから、ストレス
対処と摂食障害傾向に有意な負の相関が
認められた(r =-.28)。
 なんだかサンプル数が少ないような気もす
るけど、大丈夫なのかなあ？
pwr.r.test(n=60,r=0.28,sig.level=0.05,power=NULL)
→power = 0.5837208
 う〜ん。検定力が6割弱かあ。10回調査し
て半分ちょっとは有意と判断される程度
31

解析事例：お魚とうつ病
 少々古いネタですが，
魚を消費している国ほ
どうつ病患者数が少な
い(Lancet, 351, 1213,
1998)。
 r = -0.84 (p<.005)
 日本は期待の星と思い
きや，データが変。魚の消費量
う
つ
病
年
間
有
病
率
(%)
 当時，日本の正確な年間有病率が無かった様
子。
32

解析事例：食べ物とうつ病，統合失調症
(BJ PSYCH, 184, 404-408, 2004)
 統合失調症も含めた，もう少し詳細な検討
 魚と芋を食べるほど，うつ病の有病率が下がる
(r=-.85, r=-.75)。一方，砂糖や乳製品を食べるほ
ど，うつ病の有病率が上がる(r=.74, r=.71)。
 サンプルサイズが８カ国なので，魚とうつ病との
関連以外は検定力が0.8を下回った。
pwr.r.test(n=8,r=0.85,sig.level=0.05,power=NULL)→power = 0.8058
 因果が不明だし，文化的な影響も考えられるが，
魚のω３脂肪酸を使った研究などが行われている
33

34

解析事例：頭部外傷後のコルチステロン投与
（LANCET, 364,1321-1328,2004）
 頭部外傷後のコルチコ
ステロンは，死亡率を
1~2%下げるとされる。
 よく使用されているが、
その効果は明確でない
（95%CI=-6%~2%）。
 49カ国が参加する大規
模な無作為化比較試験
を実施(CRASH trial)。
頭部外傷を受けた成人
（重症度の除外基準をみたし、
外傷後８時間以内の患者）
介入群
（コルチステロン）
統制群
（プラセボ）
死亡率
（2week）
死亡率
（2week）
無作為割付
死亡率&障害
（6month）
死亡率&障害
（6month）
35

例数設計
 論文記載例
(前提として、頭部外傷による死亡は15%)Because even a 2%
survival difference would be clinical important(効果量の決定
根拠),・・・・A trial of 20000 patients would have a good chance
of showing a 2% survival difference at covincing levels of
significance - ie, more than 90% power to achieve p<0.01(検
定力分析により２万人が必要).
 検定力分析
power.prop.test(n=NULL,p1=0.15,p2=0.13,sig.level=0.01,
power=0.90) →n = 8954.919
各群8955名必要で、全体で17910必要。特に記載してないけど、２万
名だと全体の10%ほど脱落しても、17910名おり、上記の検定力が保
証される。
36

結果
 試験継続の評価の分
析において，コルチス
テロン投与群の死亡率
が高かったため，約１
万名で中止となった。
 コルチステロン投与に
よる死亡の相対リスク
は1.18(95%CI=1.09 -
1.27)
頭部外傷を受けた成人：
10008名
介入群：4985名
（コルチステロン）
統制群：4979名
（プラセボ）
２週後の死亡率
21%(1052名)
２週後の死亡率
18%（893名）
無作為割付
＋各群22名ずつデータロスト
37

考察
 コルチステロン投与に
よる死亡の理由は本
研究からわからない。
 しかし、過去の結果に
よるメタ分析結果を塗
り替えた
→治療選択が変わる！
gure4:Effectsof corticosteroidallocationonearlymanagement andcomplicationsinhospital within2 weeks
enominatorsvarybecauseof different levelsof datacompletenessforeveryevent.
Corticosteroid Adjusted
control
Relativerisk(95%CI)
CorticosteroidworseCorticosteroidbetter
20·5 1
Alexander1972
Ransohoff1972
Faupel1976
Cooper1979
Hernesniemi1979
Pitts1980
Saul 1981
Braakman1983
Giannotta1984
Dearden1986
Zagara1987
Gaab1994
Grumme1995
22/55
13/18
36/83
9/50
47/80
21/62
4/12
21/136
49/195
16/55
26/49
35/81
114/201
8/50
44/81
34/72
33/68
4/12
19/133
38/175
16/28) 2
13/27) 2
(38/74) 3
(7/16) 4
Overall (95%CI)
Heterogeneity 2 26·46,
p=0·03
Chacon1987
Stubbs1989
MRCCRASHtrial
0/5
893/4979
(17·9%)
1/5
13/98
1052/4985
(21·1%)
Zarate1995 0/300/30
(5/54) 2
0·96(0·85–1·08)Subtotal
Heterogeneity 2 18·11,
p=0·2
410/1194
(34·3%)
432/1230
(35·1%)
1·12(1·05–1·20)1325/6209
(21·3%)
1462/6179
(23·7%)
1·18(1·09–1·27)
9/17
16/67
過去の結果によるメタ分析結果
今回の結果を含めたメタ分析結果
38

検定力の高い研究と倫理
 この臨床試験によって、良いどころか死亡
率を高める治療を選択肢から除くことができ
た。
 しかし、臨床試験のために有害な治療を受
ける可能性を考えると、検定力を高めること
のみに集中するのは危険になる。
 不必要にサンプルをとってないか慎重に検
討し、この臨床試験のように、中間評価など
を行う必要性がある（もちろん、検定力の低
い研究も倫理的に問題がある）。
39

参考文献
書籍
① Cohen, J. (1988). Statistical power analysis for the behavioral
sciences, Psychology Press.
② Murphy, K.R. et al. (2009). Statistical power analysis, Routledge.
③ Aberson, C.L. (2010). Applied power analysis for the behavioral
sciences, Routledge.
④ 永田靖 (2003). サンプルサイズの決め方，朝倉書店.
*①が読みにくかったので，②と③を結構参考にしました。そして安いです。
論文
 Cohen,J.(1992). A power primer, Psychological Bulletin, 112 (1),
155-159.
 Okumura, Y. & Sakamoto, S. (2011). Statistical power and effect
sizes of depression research in Japan. Psychiatry and Clinical
Neurosciences, 65 (4), 356-364.
40

統計的検定と例数設計の基礎

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

Similar to 統計的検定と例数設計の基礎

Similar to 統計的検定と例数設計の基礎 (20)

統計的検定と例数設計の基礎

Editor's Notes