臨床心理学研究におけ
るサンプルサイズ設計
専修大学人間科学部心理学科
国里 愛彦
2016/9/16
日本パーソナリティ心理学会
アフター・カンファレンス企画
(共催:日本社会心理学会)
サンプルサイズ設計の現状
• サンプルサイズ設計を求める国際誌が増加。
以下のような報告ガイドラインに従うことが求
められるように。
• APAのReporting Standards for Research in
Psychology
• Consolidated Standards of Reporting
Trials(CONSORT)声明
→両ガイドラインでも,どのようにサンプルサイ
ズ設計を行ったか報告を求められる
国内の現状
• 日本心理学諸学会連合への加盟学会の投
稿規定を確認
→サンプルサイズ設計の言及なし
• 老年精神医学雑誌(2007~2008年,38編)
→事前のサンプルサイズ設計した研究はゼロ
(奥村・伊藤, 2010)
• 日本の抑うつ論文(1990~2006年,18誌,974編)
→臨床群を対象とした研究の44%は,検定力
が5割を下回る(Okumura & Sakamoto, 2011)
サンプルサイズ設計がなぜ必要?
• データはとれるだけたくさん収集すれば良い
が,臨床研究では倫理的な配慮が必要
CRASH trialの例
• 頭部外傷直後にコルチコステロンを投与する
と,死亡率が1~2%下げられるとされる
→2%の効果を1%有意水準,検定力0.9で検出
できる無作為化比較試験を計画(サンプルサイ
ズは2万人で,49カ国が参加)
Roberts et al. (2004). LANCET, 364,1321-1328.
サンプルサイズ設計がなぜ必要?
• 中間評価で(10008名が参加),2週後の死
亡率が,プラセボ群(18%)より,コルチコステ
ロン群(21%)において高くなった。
→過去のメタ分析(コルチコステロンが死亡率
下げる)に今回のデータを加えると,結論が
逆に(コルチコステロンが死亡率上げる)
• 臨床試験は,害をおよぼす可能性がある
→結論を得るのに必要なサンプルサイズを決
める必要がある Roberts et al. (2004). LANCET, 364,1321-1328.
優越性試験
• どちらの介入が優れているか検証するRCT
→信頼区間が差のないゼロをまたぐかどうか
を検討する。
介入群が優勢 統制群が優勢
統制群が優越
どちらとも言えない
介入群が優越
0
非劣性試験
• ある介入が他の介入より劣らないことを検証す
るRCT
• 信頼区間が,非劣性マージン(ある介入が他の
介入よりも明らかに劣ると判断できる差)内に
おさまるか検討
介入群が優勢 統制群が優勢
劣性
非劣性
0
非劣性
目標となる群間差の決定方法(Hislop et al, 2014)
重要な差 • アンカー(最小限の臨床的に重要な
変化)
• 分布(分布に基づいた検出可能な重
要な差)
• 医療経済学(治療のコストとメリット)
• 標準化効果量(Cohenの基準)
現実的な差 • パイロット研究(エビデンスがない場
合に,パイロット研究を実施)
重要な差&
現実的な差
• 意見聴取(専門家と患者の意見)
• エビデンスの展望
優越性試験のプロトコルや論文で報
告する項目の抜粋(Cook et al, 2015)
• 統計的なパラメータ(有意水準や検定力)を記
載(No.4)
• 目標とする差を決定した基準を記載(No.5)
• 目標とする差の選択について説明:用いた方
法や関連する先行研究を引用(No.7)
• 必要なサンプルサイズを変えるような要因
(フォローアップでの欠測による割引)を組み込
むなら,それらを明確(No.8)
[プロトコル論文]うつ病に対する反
すう焦点化認知行動療法の効果
• うつ病には認知行動療法が有効だが・・・
→再発にかかわる残遺症状の反すうに注目
した反すう焦点化認知行動療法が開発され
た
• 認知行動療法と反すう焦点化認知行動療
法の比較をした研究はない
→反すう焦点化認知行動療法に関する優越
性試験を計画
(Hvenegaard et al.,2015, Trials)
参加者,介入法,効果評価
• 参加者: 18歳から65歳の大うつ病性障害患
者(ハミルトンうつ病評価尺度で13点以上)
• 介入法:集団療法(6〜10名),1時間の個
人セッションを1回実施した後に,3時間の
集団セッションを11回実施
• 主要アウトカム:ハミルトンうつ病評価尺度
(Hvenegaard et al.,2015, Trials)
目標となる群間差の決定
“介入前から介入後にかけてのハミルトンうつ病評
価尺度得点の変化の平均値は,Watkins et
al.(2011)の反すう焦点化認知行動療法において
7.81点であり,Paykel et al.(1999)の認知行動療法に
おいて3.52点であった。ハミルトンうつ病評価尺度の
変化得点の標準偏差としては,保守的な推定値とし
て6.0を用いた。これらをふまえて,群間の効果量の
Cohenのdは,0.7と見積もった。”
→エビデンスの展望から「現実的な差&重要
な差」に基づいて決定
(Hvenegaard et al.,2015, Trials)
サンプルサイズ設計
“両側検定の有意水準5%で,90%の検定力をもって,両
介入間の効果量の差(Cohenのdで0.7)を検出するには,
それぞれの介入に44名の患者が必要であった。”
→目標となる群間差を元に,検定力分析を実施
“20%の脱落を想定して,それぞれの介入について55名
の患者をリクルートした・・・”
→参加者の脱落を踏まえたサンプルサイズ設計
• ClinicalTrials.govからは,本試験のデータ収集は終わっ
たとされるが,論文はまだ報告されていない。
(Hvenegaard et al.,2015, Trials)
[プロトコル論文]うつ病に対する行動活性
化と認知行動療法の効果とコストの比較
• うつ病には認知行動療法が有効だが・・・
→実施するセラピストの訓練コストが高い
• 行動活性化は,行動の変化に焦点をあてるこ
とで抑うつ症状の改善をおこなう
→原理がシンプルで,認知行動療法を専門とし
ない精神医療従事者も実施しやすい。
• 認知行動療法と行動化活性化を比較するRCT
も多いが,行動活性化の実施法が古かったり,
質が低いので,非劣性試験を計画
Rhodes et al.,2014, Trials
参加者,介入法,効果評価
• 参加者:18歳以上の大うつ病性障害患者
• 介入法:両群とも1回1時間の対面式のセッ
ションを,16週間で最大20セッション実施(最
初の8週間は,オプションで4回分追加できる)
• 主要アウトカム:12ヶ月後のPatient Health
Questionnaire(PHQ-9)
Rhodes et al.,2014, Trials
非劣性マージンの決定(2種類)
“1つ目は,対照群と行動活性化群の比較をした過去の
試験の効果量を用いる方法”
→対照群と比較した時の効果量の半分(1.9) or
95%信頼区間の下限(2.1)を非劣性マージンに
(エビデンスの展望に基づく「現実的な差&重要
な差」)。
“2つ目は,主要アウトカム(PHQ-9)に関して既に報告さ
れている最小限の臨床的に重要な差(PHQ-9で2.59から
5.00)を用いる方法(Löwe et al., 2004)。”
→最小限の臨床的に重要な差の下限(2.59)を非
劣性マージンに(アンカーに基づく「重要な差」)
Rhodes et al.,2014, Trials
サンプルサイズ設計
“私たちは,保守的な1.9の非劣性マージンと検定力
90%を選択した。脱落やプロトコルからの逸脱による
20%の減少を許容した上で,片側2.5%の有意水準
において,PHQ-9で1.90の群間の非劣性マージンを
検出できるには,合計440名の参加が必要となっ
た。”
→設定した非劣性マージンをもとにして,必要
なサンプルサイズを設定。さらに脱落や逸脱
を20%許容でできるサンプルサイズに設定。
Rhodes et al.,2014, Trials
プロトコル論文のその後
• Rhodes et al.(2014)のプロトコル論文は,非
常に丁寧な記載がなされており,サンプル
サイズ設計も再現が可能。
• 本試験の結果は,2016年の7月にLancet誌
に掲載(プロトコル論文どおりに,両群に約
220名の参加者を割り付け,効果評価)
• 試験結果から,認知行動療法と行動活性化
によるうつ症状低減効果には差がなく,行
動活性化の非劣性を確認
Richards, et al., 2016, Lancet
Take Home message
• 臨床心理学領域においては,サンプルサイ
ズ設計は必須事項になりつつある(特に無
作為化比較試験)
• サンプルサイズ設計においては,目標とな
る群間差の設定が重要になり,臨床的な意
義も含めて丁寧な検討が必要である。
• サンプルサイズ設計を再現できるように記
載する必要がある。
宣伝
• 村井潤一郎・橋本貴充(編著)「心理学のた
めのサンプルサイズ設計入門」 講談社サ
イエンティフィック 2017年2月刊行予定
• 第5章「臨床心理学におけるサンプルサイ
ズ設計」で,本スライドのより詳細の説明を
しております。

臨床心理学における例数設計