JPA2019 Symposium 3

臨床疫学研究における臨床的有意性
福島県立医科大学医学部
健康リスクコミュニケーション学講座
臨床心理士/公認心理師
竹林由武

伝えるための心理統計
• メインメッセージ
– 帰無仮説検定の限界を指摘
– 効果量と信頼区間に基づいて
結果を解釈・報告
2
研究結果を伝えるために、効果量と信頼区間が有用

伝えるための心理統計の伝わりにくさ
• 効果量の解釈可能性
– 効果量で示されても効果の大きさが直感的に
理解できない
– 効果量の大きさを解釈するための外的基準が
不明確
19/09/01 認知・行動療法学会第45回大会自主企画シンポジウム＠中京大
学名古屋キャンパス
3

提案
臨床的(実践的)有意性に基づく結果の解釈を促進するように
研究者コミュニティで活性化していきましょう。
投稿者と査読者
– 統計的有意性に関して、効果量と信頼区間に基づいて判断する
– MIDなどに基づいて結果の臨床的(実践的)有意性を解釈
査読者や研究コミュニティへの提案
– 効果の臨床的(実践的)な意味が解釈可能となるように指標を整備
– 細かく研究対象、アウトカムごとにMIDを整備
– 学会の部会レベルのエキスパートパネルでコンセンサスを形成する
4

標準化効果量の大きさの基準
• Cohen (1988)の基準
5
小中大
差の効果量 (d) .20 .50 .80
関連の効果量 (r) .10 .30 .50
分散分析の効果量 (η2) .01 .06 .14
Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Routledge.
These proposed convention were set forth throughout with much diffidence, qualifications, and invitation
not to employ them if possible. The values chosen had no more reliable a basis than my own intuition.
これらの基準は、僕の直感以上のものではないので、なるべく使わないでほちぃ
by Cohen, J (1988)

Cohenの基準は今でも使われてる1
• 心理療法のトップジャーナル (IF =13.74!!)の最新の掲載論
文でもCohenの基準を、例数設計、結果の解釈に利用
6
Salzer, S., Stefini, A., Kronmüller, K. T., Leibing, E., Leichsenring, F., Henningsen, P., ... & Schopf, Y. (2018). Cognitive-Behavioral
and Psychodynamic Therapy in Adolescents with Social Anxiety Disorder: A Multicenter Randomized Controlled Trial. Psychotherapy
and psychosomatics, 87(4), 223-233.
例数設計：
We hypothesized both CBT and PDT to be superior to WL by a
large effect size of d = 0.80 [32]. In order to detect
significant group differences versus WL with a power of 0.90
at α = 0.05 by two-sided test, 34 patients per group are
required [32]
結果の解釈：
The difference between PDT and CBT was small in terms
of between-group effect sizes (d = 0.13)
待機治療群と比較したCBTの標準化平均値差 d = 0.80って本当に大きいの？
２群の差の標準化平均値差 d = 0.13って本当に小さいといえるの？

Cohen基準の実証的検証
心理学研究の効果量の中央値は領域ごとにばらつく
7
各領域100編の論文をランダムに選出し、効果量を系統的に抽出
Schäfer, T., & Schwarz, M. (2019). The meaningfulness of effect sizes in psychological research: Differences
between sub-disciplines and the impact of potential biases. Frontiers in Psychology, 10, 813.

補足：全体的にはそこまで外れてない 8
Schäfer, T., & Schwarz, M. (2019). The meaningfulness of effect sizes in psychological research: Differences
between sub-disciplines and the impact of potential biases. Frontiers in Psychology, 10, 813.
※ プレレジ研究は非プレレジ研究より効果量が小さくなりがち
※ 領域ごとにプレレジ研究を分けると数が少ないので分布がみれないが、お
そらく、個別の領域でもプレレジだと効果量は小さくなる

Cohenの基準は今でも使われてる2
• 2004年、イギリスの医療技術評価機構(NICE)では、臨床的
に意味のある抗うつ効果の程度を SMD (d or g) = .50以上
に採用
• d = .50とした根拠は、Cohen (1988)の基準を参考にしただ
け。先行研究等に基づかない非科学的な基準。
• 軽度から中程度の抑うつ患者に対して抗うつ薬の効果量が d
≦ .50 という結果から、それらの対象に対して抗うつ薬は臨
床的に有意味な効果ないと判断された。
• 2009年にこの基準はしれっと撤廃 (周知されてない)したの
で、論文やメディアでは今だに.50のカットオフが使われてる
9
Cuijpers, P., Turner, E. H., Koole, S. L., Van Dijke, A., & Smit, F. (2014). What is the threshold for a clinically
relevant effect? The case of major depressive disorders. Depression and anxiety, 31(5), 374-378.
メンタルヘルス政策の意思決定に関わる超重要基準、非科学的でいいのか

d = .50への反論
• Moncrieff & Kirsch (2015)
– ”臨床的に重要な差”を基準として推計すると、最
小限の有意味な標準化効果量(SMD)は、抑うつの
重症度で異なる。
• 重症:1.00, 中等症:0.875, 軽症: 0.750
• Cuijpers et al. (2014)
– ”臨床的に重要な差“を基準として推計すると、最
小限の有意味な標準化効果量 (SMD)は0.24が妥当
10
Moncrieff, J., & Kirsch, I. (2015). Empirically derived criteria cast doubt on the clinical significance of
antidepressant-placebo differences. Contemporary Clinical Trials, 43, 60-62.
Cuijpers, P., Turner, E. H., Koole, S. L., Van Dijke, A., & Smit, F. (2014). What is the threshold for a clinically relevant
effect? The case of major depressive disorders. Depression and anxiety, 31(5), 374-378.
臨床的に重要な差をどのような外的基準で求めるかで値が大きく変わる

標準化効果量を解釈しやすくする工夫
• SMDを他の指標に変換する
元の尺度のスケールに直す
ROM (ratio of mean: 平均の割合)
2値の絶対、相対指標 (オッズ比、リスク差など)
MID (minimal important difference)
11
Murad, M. H., Wang, Z., Chu, H., & Lin, L. (2019). When continuous outcomes are measured
using different scales: guide for meta-analysis and interpretation. bmj, 364, k4817.

解釈しやすくする工夫：指標の変換
• 元のスケールの値に戻す
MD = SMD ＊元尺度のSD
• 平均の比 (ratio of mean: ROM)
介入群の平均 / 統制群の平均
※ 簡便式：ln(ROM) = SMD * 0.392
• SMDからオッズ比
ln(OR) = SMD * (π / √3)
• オッズ比からリスク差
RD = CER – ( OR * CER / 1-CER + OR*CER)
12
OR = odds ratio, SMD = standardized mean difference
MD= mean difference, SMD = standardized mean difference, SD = standard deviation
ROM= ratio of mean, SMD = standardized mean difference
RD = Risk difference, CER = Control event rate, OR = Odds ratio

解釈しやすくする工夫：指標の変換 13
SSRI群 (N=100) プラセボ群 (N=100)
治療後不安症スコア平均 8 (4) 12 (3)
SD 4 3
効果量値解釈
標準化平均
値差 (d)
-1.13 プラセボ群と比較して、SSRI群は不安症状が、
不安症状尺度の1.13標準偏差減少した。
元スケール 3.95 ※ SDを3.5で計算プラセボ群と比較して、SSRI群は3.95点不安
尺度の得点が減少した。
平均比
(ROM)
0.67 SSRI群の患者の不安症状尺度の平均スコア
は、プラセボ群の患者の平均スコアの67%
だった
オッズ比
(OR)
0.12 SSRI群の不安症状の改善オッズはプラセボ群
よりも7.7倍高い
リスク差
(RD)
0.24 ※ CERを0.33で計算プラセボ群100名中33名改善したのに対して、
SSRI群では100名中57名改善した（SSRI治療に
よって24名分の差)

解釈しやすくする工夫：MID 14
臨床的有意性 (Clinical Significance/Minimally Important Difference)
臨床的(実践的)に意味がある得点の群間差や個人内の変化
≠ 統計的有意性 (Statistical Significance) 群間差
臨床試験において，ある治療が有
効であると解釈できる，患者報告
式アウトカム尺度により観察された，
治療群間の差や変化量
個人の変化
標的集団において，事前に定めら
れた期間に，重要な治療の有効
性が得られたと判断できる，あ
る患者個人のある尺度の得点の
変化
U.S. Department of Health and Human Services: Guidance for Industry: Patient-Reported Outcome Measures:
Use in Medical Product Development to Support Labeling Claims. 2009
(http://www.ispor.org/workpaper/FDA%20PRO%20Guidance.pdf)

臨床的有意性 (Clinical Significance) 15
奥村 (2014) 臨床的有意性の書き方
https://www.slideshare.net/okumurayasuyuki/ss-37610985
MICMDC
誤差を越える重要な変化
(臨床的にも統計的にも有意)
重要ではなく
誤差の範囲の変化
(統計的に有意じゃない)
誤差を越えるが重要ではない変化
(統計的に有意だけど臨床的に有意じゃない)
最小限の重要な変化の基準点を越える反応を
臨床的な意味での有意性とする
MDC: minimally detectable change; MIC: minimally important change
MDC: 安定した状態での
2時点の得点から算出される
測定誤差 * 1.96 *√2

臨床的有意性 (Clinical Significance) 16
奥村 (2014) 臨床的有意性の書き方
https://www.slideshare.net/okumurayasuyuki/ss-37610985
MDCMIC
誤差を越える重要な変化
(臨床的にも統計的にも有意)
重要ではなく
誤差の範囲の変化
(統計的に有意じゃない)
重要だけど誤差の範囲と区別できない変化
(臨床的に有意だけど統計的に有意かわからない)
最小限の重要な変化の基準点を越える反応を
臨床的な意味での有意性とする
MDC: minimally detectable change (測定誤差の範囲); MIC: minimally important change
MDC: 安定した状態での
2時点の得点から算出される
測定誤差 * 1.96 *√2

MICの定め方 17
• 介入前後の2時点で指標を測定
• 同時に2時点目にはアンカー項目を同時に測定
• アンカー項目の回答ごとに変化量の平均を算出
Angst, F., Aeschlimann, A., & Angst, J. (2017). The minimal clinically important difference raised the significance of outcome
effects above the statistical level, with methodological implications for future studies. Journal of clinical epidemiology, 82,
128-136.
大抵の場合、
尺度のSD 0.30-0.50の範囲の
値になる

MICの定め方 18
1. 軽度改善の平均がMIC
MIC = 13.51
2. 変化群と不変群の平均値
差がMIC
MIC = 13.51 – 4.77 = 8.74
3. 変化群と不変群を指標の
変化量で予測し、ROC曲線
で、
最適な (感度,特異度が最
大)となるカットオフがMIC
MIC = 15.00
128-136.

MICを使って試験の結果を解釈
• 個別の試験を解釈
– MICを使ってリスク比を算出(個別)
- 解釈例) A群で有意味な変化があった人はB群の何倍
だった。
– 1MICあたりの群間差（ MD / MIC ）を算出
- 解釈例) B群と比較したA群介入に伴う不安症状の減少
は、臨床的に有意味な差があったと患者感じるスコアの
98%分に相当する
- こちらは、メタ分析的に複数の結果を統合するのに有用
19

MICを使って試験の結果を解釈
• MICを標準化（メタ分析的に使用可能）
– MICを全体のベースラインの標準偏差で割る (as ES)
– 全体の変化量の標準偏差で割る (as SRM)
– 軽度変化群と不変群の標準化平均値差を算出 (as SMD)
20
128-136.
SMDの基準値作りとなるメタ分析の解釈でも有用

d = .50への反論 (再掲)
• Moncrieff & Kirsch (2015)
– ”臨床的に重要な差”を基準として推計すると、最
小限の有意味な標準化効果量(SMD)は、抑うつの
重症度で異なる。
• 重症:1.00, 中等症:0.875, 軽症: 0.750
– レビューからMIDはHAM-D = 7 (重症は8, 軽症は6)
– HAM-Dの変化量のSD = 8.0
– 最小のSMD: 7/8.0 = 0.875
21
Moncrieff, J., & Kirsch, I. (2015). Empirically derived criteria cast doubt on the clinical
significance of antidepressant-placebo differences. Contemporary Clinical Trials, 43, 60-62.

• 慢性痛のMICのレビュー: ベースラインの重症
度, 臨床状況, 痛み改善の定義の仕方によって
異なる
• 重要性な群間差の程度は，「疾患」「利用で
きる治療法」「治療のリスクベネフィット
比」など，広いコンテクストを基にしなけれ
ば，決定できない。
系統レビューとエキスパートパネル等での専門家での
コンセンサス形成が重要
MICを領域別、領域内で細やかに設定 22
Olsen, M. F., Bjerre, E., Hansen, M. D., Tendal, B., Hilden, J., & Hróbjartsson, A. (2018). Minimum clinically important differences in chronic pain vary
considerably by baseline pain and methodological factors: systematic review of empirical studies. Journal of clinical epidemiology, 101, 87-106.
Dworkin, R. H., Turk, D. C., Wyrwich, K. W., Beaton, D., Cleeland, C. S., Farrar, J. T., ... & Brandenburg, N. (2008). Interpreting the
clinical importance of treatment outcomes in chronic pain clinical trials: IMMPACT recommendations. The journal of pain, 9(2), 105-121.

提案
臨床的(実践的)有意性に基づく結果の解釈を促進するように
研究者コミュニティで活性化していきましょう。
投稿者と査読者
– 統計的有意性に関して、効果量と信頼区間に基づいて判断する
– MIDなどに基づいて結果の臨床的(実践的)有意性を解釈
査読者や研究コミュニティへの提案
– 効果の臨床的(実践的)な意味が解釈可能となるように指標を整備
– 細かく研究対象、アウトカムごとにMIDを整備
– できれば学会の部会レベルのエキスパートパネルでコンセンサスを形
成する
23

24
動き始めた竹林(2019)
認知・行動療法学会で、
学会運営人にSIGの形成を働きかけ

JPA2019 Symposium 3

Recommended

Recommended

More Related Content

What's hot

What's hot (17)

Similar to JPA2019 Symposium 3

Similar to JPA2019 Symposium 3 (20)

More from Jun Kashihara

More from Jun Kashihara (20)

JPA2019 Symposium 3