5. 標準化効果量の大きさの基準
• Cohen (1988)の基準
5
小 中 大
差の効果量 (d) .20 .50 .80
関連の効果量 (r) .10 .30 .50
分散分析の効果量 (η2) .01 .06 .14
Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Routledge.
These proposed convention were set forth throughout with much diffidence, qualifications, and invitation
not to employ them if possible. The values chosen had no more reliable a basis than my own intuition.
これらの基準は、僕の直感以上のものではないので、なるべく使わないでほちぃ
by Cohen, J (1988)
6. Cohenの基準は今でも使われてる1
• 心理療法のトップジャーナル (IF =13.74!!)の最新の掲載論
文でもCohenの基準を、例数設計、結果の解釈に利用
6
Salzer, S., Stefini, A., Kronmüller, K. T., Leibing, E., Leichsenring, F., Henningsen, P., ... & Schopf, Y. (2018). Cognitive-Behavioral
and Psychodynamic Therapy in Adolescents with Social Anxiety Disorder: A Multicenter Randomized Controlled Trial. Psychotherapy
and psychosomatics, 87(4), 223-233.
例数設計:
We hypothesized both CBT and PDT to be superior to WL by a
large effect size of d = 0.80 [32]. In order to detect
significant group differences versus WL with a power of 0.90
at α = 0.05 by two-sided test, 34 patients per group are
required [32]
結果の解釈:
The difference between PDT and CBT was small in terms
of between-group effect sizes (d = 0.13)
待機治療群と比較したCBTの標準化平均値差 d = 0.80って本当に大きいの?
2群の差の標準化平均値差 d = 0.13って本当に小さいといえるの?
8. 補足:全体的にはそこまで外れてない 8
Schäfer, T., & Schwarz, M. (2019). The meaningfulness of effect sizes in psychological research: Differences
between sub-disciplines and the impact of potential biases. Frontiers in Psychology, 10, 813.
※ プレレジ研究は非プレレジ研究より効果量が小さくなりがち
※ 領域ごとにプレレジ研究を分けると数が少ないので分布がみれないが、お
そらく、個別の領域でもプレレジだと効果量は小さくなる
9. Cohenの基準は今でも使われてる2
• 2004年、イギリスの医療技術評価機構(NICE)では、臨床的
に意味のある抗うつ効果の程度を SMD (d or g) = .50以上
に採用
• d = .50とした根拠は、Cohen (1988)の基準を参考にしただ
け。先行研究等に基づかない非科学的な基準。
• 軽度から中程度の抑うつ患者に対して抗うつ薬の効果量が d
≦ .50 という結果から、それらの対象に対して抗うつ薬は臨
床的に有意味な効果ないと判断された。
• 2009年にこの基準はしれっと撤廃 (周知されてない)したの
で、論文やメディアでは今だに.50のカットオフが使われてる
9
Cuijpers, P., Turner, E. H., Koole, S. L., Van Dijke, A., & Smit, F. (2014). What is the threshold for a clinically
relevant effect? The case of major depressive disorders. Depression and anxiety, 31(5), 374-378.
メンタルヘルス政策の意思決定に関わる超重要基準、非科学的でいいのか
10. d = .50への反論
• Moncrieff & Kirsch (2015)
– ”臨床的に重要な差”を基準として推計すると、最
小限の有意味な標準化効果量(SMD)は、抑うつの
重症度で異なる。
• 重症:1.00, 中等症:0.875, 軽症: 0.750
• Cuijpers et al. (2014)
– ”臨床的に重要な差“を基準として推計すると、最
小限の有意味な標準化効果量 (SMD)は0.24が妥当
10
Moncrieff, J., & Kirsch, I. (2015). Empirically derived criteria cast doubt on the clinical significance of
antidepressant-placebo differences. Contemporary Clinical Trials, 43, 60-62.
Cuijpers, P., Turner, E. H., Koole, S. L., Van Dijke, A., & Smit, F. (2014). What is the threshold for a clinically relevant
effect? The case of major depressive disorders. Depression and anxiety, 31(5), 374-378.
臨床的に重要な差をどのような外的基準で求めるかで値が大きく変わる
11. 標準化効果量を解釈しやすくする工夫
• SMDを他の指標に変換する
元の尺度のスケールに直す
ROM (ratio of mean: 平均の割合)
2値の絶対、相対指標 (オッズ比、リスク差など)
MID (minimal important difference)
11
Murad, M. H., Wang, Z., Chu, H., & Lin, L. (2019). When continuous outcomes are measured
using different scales: guide for meta-analysis and interpretation. bmj, 364, k4817.
12. 解釈しやすくする工夫:指標の変換
• 元のスケールの値に戻す
MD = SMD * 元尺度のSD
• 平均の比 (ratio of mean: ROM)
介入群の平均 / 統制群の平均
※ 簡便式:ln(ROM) = SMD * 0.392
• SMDからオッズ比
ln(OR) = SMD * (π / √3)
• オッズ比からリスク差
RD = CER – ( OR * CER / 1-CER + OR*CER)
12
Murad, M. H., Wang, Z., Chu, H., & Lin, L. (2019). When continuous outcomes are measured
using different scales: guide for meta-analysis and interpretation. bmj, 364, k4817.
OR = odds ratio, SMD = standardized mean difference
MD= mean difference, SMD = standardized mean difference, SD = standard deviation
ROM= ratio of mean, SMD = standardized mean difference
RD = Risk difference, CER = Control event rate, OR = Odds ratio
13. 解釈しやすくする工夫:指標の変換 13
Murad, M. H., Wang, Z., Chu, H., & Lin, L. (2019). When continuous outcomes are measured
using different scales: guide for meta-analysis and interpretation. bmj, 364, k4817.
SSRI群 (N=100) プラセボ群 (N=100)
治療後不安症スコア 平均 8 (4) 12 (3)
SD 4 3
効果量 値 解釈
標準化平均
値差 (d)
-1.13 プラセボ群と比較して、SSRI群は不安症状が、
不安症状尺度の1.13標準偏差減少した。
元スケール 3.95 ※ SDを3.5で計算 プラセボ群と比較して、SSRI群は3.95点不安
尺度の得点が減少した。
平均比
(ROM)
0.67 SSRI群の患者の不安症状尺度の平均スコア
は、プラセボ群の患者の平均スコアの67%
だった
オッズ比
(OR)
0.12 SSRI群の不安症状の改善オッズはプラセボ群
よりも7.7倍高い
リスク差
(RD)
0.24 ※ CERを0.33で計算 プラセボ群100名中33名改善したのに対して、
SSRI群では100名中57名改善した(SSRI治療に
よって24名分の差)
14. 解釈しやすくする工夫:MID 14
臨床的有意性 (Clinical Significance/Minimally Important Difference)
臨床的(実践的)に意味がある得点の群間差や個人内の変化
≠ 統計的有意性 (Statistical Significance) 群間差
臨床試験において,ある治療が有
効である と解釈できる,患者報告
式アウトカム尺度により観察された,
治療群間の差や変化量
個人の変化
標的集団において,事前に定めら
れた期間 に,重要な治療の有効
性が得られたと判断 できる,あ
る患者個人のある尺度の得点の
変化
U.S. Department of Health and Human Services: Guidance for Industry: Patient-Reported Outcome Measures:
Use in Medical Product Development to Support Labeling Claims. 2009
(http://www.ispor.org/workpaper/FDA%20PRO%20Guidance.pdf)
17. MICの定め方 17
• 介入前後の2時点で指標を測定
• 同時に2時点目にはアンカー項目を同時に測定
• アンカー項目の回答ごとに変化量の平均を算出
Angst, F., Aeschlimann, A., & Angst, J. (2017). The minimal clinically important difference raised the significance of outcome
effects above the statistical level, with methodological implications for future studies. Journal of clinical epidemiology, 82,
128-136.
大抵の場合、
尺度のSD 0.30-0.50の範囲の
値になる
18. MICの定め方 18
1. 軽度改善の平均がMIC
MIC = 13.51
2. 変化群と不変群の平均値
差がMIC
MIC = 13.51 – 4.77 = 8.74
3. 変化群と不変群を指標の
変化量で予測し、ROC曲線
で、
最適な (感度,特異度が最
大)となるカットオフがMIC
MIC = 15.00
Angst, F., Aeschlimann, A., & Angst, J. (2017). The minimal clinically important difference raised the significance of outcome
effects above the statistical level, with methodological implications for future studies. Journal of clinical epidemiology, 82,
128-136.
19. MICを使って試験の結果を解釈
• 個別の試験を解釈
– MICを使ってリスク比を算出(個別)
- 解釈例) A群で有意味な変化があった人はB群の何倍
だった。
– 1MICあたりの群間差( MD / MIC )を算出
- 解釈例) B群と比較したA群介入に伴う不安症状の減少
は、臨床的に有意味な差があったと患者感じるスコアの
98%分に相当する
- こちらは、メタ分析的に複数の結果を統合するのに有用
19
Murad, M. H., Wang, Z., Chu, H., & Lin, L. (2019). When continuous outcomes are measured
using different scales: guide for meta-analysis and interpretation. bmj, 364, k4817.
20. MICを使って試験の結果を解釈
• MICを標準化(メタ分析的に使用可能)
– MICを全体のベースラインの標準偏差で割る (as ES)
– 全体の変化量の標準偏差で割る (as SRM)
– 軽度変化群と不変群の標準化平均値差を算出 (as SMD)
20
Angst, F., Aeschlimann, A., & Angst, J. (2017). The minimal clinically important difference raised the significance of outcome
effects above the statistical level, with methodological implications for future studies. Journal of clinical epidemiology, 82,
128-136.
SMDの基準値作りとなるメタ分析の解釈でも有用
22. • 慢性痛のMICのレビュー: ベースラインの重症
度, 臨床状況, 痛み改善の定義の仕方によって
異なる
• 重要性な群間差の程度は,「疾患」「利用で
きる 治療法」「治療のリスクベネフィット
比」など,広いコンテクストを基にしなけれ
ば,決定できない。
系統レビューとエキスパートパネル等での専門家での
コンセンサス形成が重要
MICを領域別、領域内で細やかに設定 22
Olsen, M. F., Bjerre, E., Hansen, M. D., Tendal, B., Hilden, J., & Hróbjartsson, A. (2018). Minimum clinically important differences in chronic pain vary
considerably by baseline pain and methodological factors: systematic review of empirical studies. Journal of clinical epidemiology, 101, 87-106.
Dworkin, R. H., Turk, D. C., Wyrwich, K. W., Beaton, D., Cleeland, C. S., Farrar, J. T., ... & Brandenburg, N. (2008). Interpreting the
clinical importance of treatment outcomes in chronic pain clinical trials: IMMPACT recommendations. The journal of pain, 9(2), 105-121.