反応性と解釈可能性の評価

反応性と解釈可能性の評
価
専修大学人間科学部心理学科
国里愛彦
1
2013/05/18 公益社団法人日本心理学会心理・医学系研究者のためのデータ解析環境R
による統計学の研究会第10回研究集会「患者報告式アウトカム尺度の評価法: 信頼性と
妥当性の新しい国際基準COSMINチェックリストの使い方」

2
信頼性
内的一貫性
測定誤差
信頼性
反応性
反応性
妥当性
内容的妥当性
基準関連
妥当性
構成概念妥当性
表面的
妥当性構造的
妥当性
異文化間
妥当性
仮説検定
解釈
可能性
・反応性・解釈可能性は，信頼性・妥当性とは独立
・反応性と解釈可能性も独立だが，混同されているこ
とが多い

内容 Time
→ 反応性について 0:00-3:00
共通項目 3:00-7:00
ゴールドスタンダードがある場合 7:00-13:00
ゴールドスタンダードがない場合 13:00-19:00
反応性ではないもの 19:00-22:00
解釈可能性について 22:00-25:00
尺度得点分布と得点の解釈（１時点） 25:00-31:00
変化得点の解釈 31:00-40:00
Rによる反応性と解釈可能性の検討 -
参考文献 -
3

医療場面で「反応する」とは？
• 「あのうつ病患者さんは，リチウム入れ
たら，反応したよね」
→反応する＝なんらかの症状変化
（リチウムの投薬前後の変化を検討）
• 医療場面での患者報告式アウトカムに
は，患者の変化を検討できることが求め
られることが多い
4

COSMINにおける
反応性(Responsiveness)とは？
“反応性とは，測定された構成概念における時間によ
る変化を検出する検査の能力”
• 反応性は妥当性と以下のように分けられる
妥当性：１時点の得点における妥当性
反応性：変化得点における妥当性
→基本的に妥当性と同じ検討方法が使える
5

ゴールドスタンダードの有無
• 患者の変化に関するゴールドスタンダードの有無に
より，アプローチや検討事項が異なる
Box I 項目1~7
ゴールドスタンダードの有無に
かかわらない共通項目
Box I 項目8~14
構成概念アプローチ
Box I 項目15-18
基準アプローチ
ゴールドスタン
ダードがある
ゴールドスタン
ダードがない
6

内容 Time
✔ 反応性について 0:00-3:00
→ 共通項目 3:00-7:00
ゴールドスタンダードがある場合 7:00-13:00
変化得点の解釈 31:00-40:00
参考文献 -
7

反応性の共通項目
デザイン要件
1 欠損項目のパーセントを示しているか？
2 どのように欠損項目を処理したのかについての記載はある
か？
3 解析に含めたサンプルサイズは適切か？
4 少なくとも２回測定した縦断的デザインを用いているか？
5 時間間隔について記載しているか？
6 その間に何かが起こったとしたら（例えば，介入，その他の関
連した出来事），それが適切に記載されているか？
7 患者の割合は変化したか（すなわち，改善もしくは悪化）？
8

反応性研究のサンプルサイズ
項目３「解析に含めたサンプルサイズは適切か？」
• COSMINでは以下の基準が用意されている
Excellent:適切なサンプルサイズ(>=100)
Good:良いサンプルサイズ（50-99）
Fair:中程度なサンプルサイズ（30-49）
Poor:小さなサンプルサイズ（<30）
9

反応性の検討には患者の変化が必要
項目７：患者の割合は変化したか（すなわち，改善もしくは悪
化）？
• 患者の変化を検出する能力の検討には，何割かの
患者が変化（改善・悪化）している必要性がある
→尺度に変化がない場合に，患者が変化してないの
か，反応性が低いのか判断できない
10

反応性は縦断的デザイン
項目４「少なくとも２回測定した縦断的デザインを用いている
か？」
• 尺度の得点変化を検討するので，少なくとも２時点
測定が必要
項目５「時間間隔について記載しているか？」
項目６「その間に何かが起こったとしたら（例えば，介入，その
他の関連した出来事），それが適切に記載されているか？」
• 測定間隔は，患者の変化の程度を考慮して決定す
る。変化に関連したイベントを記載しておかないと解
釈を誤る可能性がある。
11

記載例:手首の問題の症状重症度尺度に関する反
応性の検討（Spies-Dorgelo et al. ，2006, Health and quality of life
outcomes）
12
＜Methods＞
対象者は手や手首に問題を抱えた84名（→良いサンプルサイズ）“The
baseline and 3-month follow-up data were used to assess
responsiveness”(→３ヶ月の縦断的デザインの使用)
<Results>
“Very few patients reported a deterioration in daily functioning, and we
therefor clustered the scores of patients reporting little, much or very
much deterioration. ”（→患者変化あり，関連するイベントは記載なし）

内容 Time
✔ 反応性について 0:00-3:00
✔ 共通項目 3:00-7:00
→ ゴールドスタンダードがある場合 7:00-13:00
変化得点の解釈 31:00-40:00
参考文献 -
13

ゴールドスタンダードがある場合：
基準アプローチの方法
1) 適切な基準（ゴールドスタンダード）と測定方法の特定
2) 尺度が最終的に使用される対象母集団の適切なサン
プルを特定
3) 尺度の変化と基準の変化間の一致に関して，求めら
れるレベルを事前に定義
4) 尺度とゴールドスタンダードの得点変化を取得（独立に
測定するが，時期は同じ）
5) 尺度の得点変化と基準の得点変化間の関係の強さ
を算出
14

ゴールドスタンダードがある場合：
基準アプローチ（COSMIN）
ゴールドスタンダードとの比較におけるデザイン要件
15 変化の基準は，合理的な根拠のあるゴールドスタンダー
ドとして考えられるか？
16 研究のデザインや方法において，なにか重要な欠点は
あるか？
統計手法
17 連続変数の場合：変化得点間の相関，もしくはROC曲線
下面積が計算されているか？
18 二値変数の場合：（変化なしに対する変化ありに関する）
感度と特異度が出されているか？
15

ゴールドスタンダードについて
項目15「変化の基準は，合理的な根拠のあるゴールドスタン
ダードとして考えられるか？」
• 患者報告式アウトカムで，ゴールドスタンダードがあ
ることは稀（COSMINでは，“患者報告式アウトカムでゴール
ドスタンダードはない”）
• 変化や改善に関するGlobal Rating Scale(GRS)の使
用が多い（精神科領域では，Clinical Global Impressions
の変化得点）
• 短縮版の反応性を検討する上で，オリジナル版を
ゴールドスタンダードにするのはGood
16

ゴールドスタンダードとしてのCGI
Clinical Global Impressions(CGI)の変化得点
「治療開始前の患者の状態と比較して，この患者の状態は：1=
著明改善，2=中等度改善，3=軽度改善,4=変化なし，5=軽度悪
化，6=中等度悪化，7=著明悪化」
• GRSは表面的妥当性は高いが，回想による回答の
信頼性・妥当性の問題がある(Norman et al., 1997)
※COSMINでは，GRSを構成概念アプローチで使うことを推奨
• 測定している構成概念が同一ならゴールドスタン
ダードとして用い，異なるなら構成概念アプローチと
いう立場もある (Henrica et al., 2011)
17

事前に反応性のレベルを設定する
• 尺度の変化がゴールドスタンダードの変化とどのく
らい一致すれば反応性ありとするか事前に設定
※一致は高いことが望ましいが，測定誤差により，相関が低く
なることも考慮しておく。
18
Tamber et al. (2009) , Health and quality of life outcomes
めまいハンディキャップ尺度(DHI-N)の反応性
ゴールドスタンダード：障害度尺度（めまいに関連した障害度のGRS）
＜method＞
The Disability Scale seemed appropriate to use as an external anchor to examine
discriminate ability and responsiveness to important change of DHI-N <中略>
Responsiveness of the DHI-N was also examined by using an anchor-based method.
Scores on the Disability Scale were used as an external criterion for important
change in the construct being measured, and its applicability was considered
adequate, if changes in scores in the DHI-N and the Disability Scale correlated with r
≧0.50.

統計解析：連続変数の場合
項目17「連続変数の場合：変化得点間の相関，もしくはROC曲
線下面積が計算されているか？」
→尺度もゴールドスタンダードも連続変数＝相関
→尺度が連続変数で，ゴールドスタンダードが二値変
数＝ROC曲線下面積（Area under the ROC curve=AUC）
※AUCは0.7以上が望ましい
19
統計解析：二値変数の場合
項目18「二値変数の場合：（変化なしに対する変化ありに関す
る）感度と特異度が出されているか？」
→尺度もゴールドスタンダードも二値変数＝感度
(Sensitivity)と特異度(Specificity)を算出

記載例：めまいハンディキャップ尺度(DHI-N)の反応性
（Tamber et al., 2009 , Health and quality of life outcomes）
20
検討する尺度：めまいハンディキャップ尺度(DHI-N)
ゴールドスタンダード：障害度尺度（めまいに関連した障害度のGRS）
事前に設定した相関の強さは前述の通り。ROCは以下に記載。
＜Methods＞
Change scores of the DHI-N were explored in ROC curve analyses using this
dichotomized scale of ‘improved’ and ‘unchanged’ participants as dependent
variable. The AUC was used as measure of responsiveness, and AUC > 0.70 is
considered adequate.
<Results>
The Disability scale was found suitable as an external criterion of change in
construct being measured, r being 0.51. The Scale demonstrated excellent ability to
discriminate between ‘improved’ and ‘unchanged’ participants according to the
area under the ROC curve: AUC being 0.83 (95% CI: 0.71-0.94).

内容 Time
✔ 反応性について 0:00-3:00
✔ 共通項目 3:00-7:00
✔ ゴールドスタンダードがある場合 7:00-13:00
→ ゴールドスタンダードがない場合 13:00-19:00
変化得点の解釈 31:00-40:00
参考文献 -
21

ゴールドスタンダードがない場合：
構成概念アプローチ(C0SMIN)
22
仮説検定のデザイン要件
（ゴールドスタンダードが得られない構成概念の場合）
8 事前に(すなわち，データ収集前に)得点変化についての仮説を立ててい
るか？
9 これらの仮説に含まれる健康関連患者報告式アウトカム尺度の変化得
点の相関もしくは平均値差の方向性を予想していたか？
10 これらの仮説に含まれる健康関連患者報告式アウトカム尺度の変化得
点の相関や平均値差の絶対的もしくは相対的な大きさは予想している
か？
11 比較尺度(comparator instrument)についての十分な記述がなされてい
るか？
12 比較尺度の測定特性について十分な記述がなされている。
13 研究のデザインか方法においてなにか重要な欠点はあるか？
統計手法
14 検定される仮説におけるデザインや統計手法は適切か？

構成概念アプローチと仮説検定
項目8:「事前に得点変化についての仮説を立てているか？」
• ゴールドスタンダードがない場合，構成概念妥当性
のように仮説検定によって反応性を確認
反応性での仮説：
①異なる集団における尺度の変化得点の平均値差
②当該尺度の得点変化と反応性が十分に確認されて
いる尺度の得点変化との相関
※相対的相関関係の仮説：（A尺度を検討する時，B尺度はC尺
度よりもAと構成概念が近い場合）尺度Aの得点変化と尺度Bの
得点変化との相関は，尺度Cの得点変化との相関より強い
23

相関や平均値差の方向性と大きさ
項目9・１０「これらの仮説に含まれる尺度の変化得点の相関も
しくは平均値差の方向性（正・負）と（相対的・絶対的）大きさを
予想していたか？」
• P値に基づいた仮説の検討は避ける。方向性と大き
さを含めた事前に立てた仮説と一致したかどうかで
検討する。
• 反応性の高低は，立てた仮説の内，何%が棄却され
たかで判断できる（棄却率25%より下=高い反応性，棄却率
25~50%＝中程度の反応性，棄却率50%より上＝低い反応性）
• 事前の仮説生成をしないと，後づけで仮説生成する
可能性があり，バイアスのリスクが高くなる。
24

記載例：視覚関連QOL尺度（VCM1）の反応性の
検討(De Boer et al. (2006). Quality of life research)
＜Hypothesis＞
We used to assess responsiveness was
to postulate specific hypotheses about
the relations we expected between the
VCM1 and other measures and to test
these. The hypotheses (Table2) will be
discussed in more detail below.
<Results>
Table2 gives the results of the
evaluation of hypotheses we
postulated to test the responsiveness.
<中略>The percentage of correlations
that were refuted were 50%
(moderate) for VMC1.
25
VMC1の得点変化に関する仮説相関係数確
認
①白内障用視覚機能尺度の変
化得点との相関は，②視覚に関
する知覚された変化得点間の相
関よりも0.1高い
①0.39
②0.19
Yes
・
・
・
①遠見視力(5m以上の距離測
定)の変化得点との相関は，②
Euroqol (健康関連QOL尺度)の変
化得点との相関より0.1高い
①-0.02
②0.26
No
棄却された仮説のパーセント 3/6 = 50%
対象：視覚に障害のある老人329名
測定：ベースラインと５ヶ月後にデータ取得

比較尺度自体と測定特性
項目11・１２「比較尺度自体とその測定特性に関して，十分な記
述がなされているか？」
• 比較尺度が測定する構成概念の適切な記載（構成概
念がどういうものか明確でないと仮説も立てることが難しい。患者の生活
全体の変化か？特定の症状の変化か？）
• 比較尺度の測定特性（信頼性，妥当性，反応性）を
適切に記載し，検討した論文を引用（測定特性が明確でな
いと，ネガティブな結果の時に，尺度の反応性が低いからか，比較尺度
がまずいからか分からない）。
※比較尺度の測定特定は，研究と同じ言語，同じ患者母集団
で検討されたものが良い。
26

記載例：視覚関連QOL尺度（VCM1）の反応性の
検討(De Boer et al. (2006). Quality of life research)
仮説検定に用いた比較尺度の記載例
The Euroqol.
It is an extensively validated generic HRQOL questionnaire that was
developed in the Netherlands and several other European countries at the
same time[17]. It consists of the respondent’s classification of health state on
five broad dimensions and a rating of his/her health by means of a
thermometer. Construct validity and reproducibility appeared to be
good[17,18]. In our sample, the ICCagreement for the thermometer was 0.75
(N=164), the kappa’s for the five health state dimentions ranged from 0.47 to
0.69 (N=150-152)(0.63 for mobility).
27

内容 Time
✔ 反応性について 0:00-3:00
✔ 共通項目 3:00-7:00
✔ ゴールドスタンダードがない場合 13:00-19:00
→ 反応性ではないもの 19:00-22:00
変化得点の解釈 31:00-40:00
参考文献 -
28

反応性ではないもの
• これまで提案されている反応性の指標の中で，
COSMINで不適切とされているものがある
①効果量を使用したもの
・平均変化得点/ベースライン得点のSD(or 変化得点のSD)
→変化の大きさの指標であり，介入効果が小さければ小さく，
大きければ大きくなる。時系列変化の妥当性は検討できてない。
②２時点の得点間でPaired T testを行って，統計的に
有意なら反応性ありとするもの
→変化が統計的に有意かどうかを示しているだけで，効果量と
同じく反応性の指標としては不適切
29

反応性ではないもの
③Guyattの反応率
最小限の重要な変化(MIC)/安定した患者の変化得点のSD
→MICは変化の解釈可能性の指標であり，変化の指標ではな
い（解釈可能性を参照）。
※構成概念アプローチで，効果量を仮説に用いた反
応性の検討は可能（どの患者群では効果量が大きくなるとか，どの
尺度では効果量が大きくなるといった仮説を立てる）
30

内容 Time
✔ 反応性について 0:00-3:00
✔ 共通項目 3:00-7:00
✔ 反応性ではないもの 19:00-22:00
→ 解釈可能性について 22:00-25:00
変化得点の解釈 31:00-40:00
参考文献 -
31

解釈可能性とは?
「あのうつ病患者さん，ベック抑うつ質問
票で16点から10点に下がってたね。今の
治療効いているね。もう軽症かな？」
→６点は治療効果あり？
→１０点は，軽症？
• 解釈可能性とは，尺度得点が，臨床で
の解釈に使えるものか問う
32

COSMINにおける
解釈可能性（Interpretability）とは？
“量的な尺度得点もしくは変化得点を質的な意味（臨
床的もしくは一般的に理解できる意味）に割り当てるこ
とができる程度”
→尺度得点や変化得点が臨床的にどんな意味を持つ
のか明確か？
※解釈可能性は，測定特性ではない（尺度の質を検討するも
のではない）。
※あまり解釈可能性は重視されてこなかったが，臨床場面での
使用を考えた時に非常に重要な概念である。
33

解釈可能性の検討における構成要素
①研究標本における得点分布はどんなものか？
②床と天井効果はあるか？
③関連した集団における得点と変化得点が利用可
能か？（規準集団，患者の下位グループ，一般母集
団など）
④最小限の重要な変化（MIC）もしくは最小限の重要
な差（MID）があるか？
34

COSMINにおける
解釈可能性（Interpretability）
35
1 欠損項目の割合
2 どのように欠損項目が扱われたのかについての記載
3 解析に含めたサンプルサイズは適切か？
4 （合計）得点の分布は記載されているか？
5 最も低い（合計）得点の回答者の割合が記載されているか？
6 最も高い（合計）得点の回答者の割合が記載されているか？
7 関連した（下位）集団(例えば，標準群，患者群もしくは一般母集団)に
おける得点と得点変化（すなわち平均とSD）が示されているか？
8 最小限の重要な変化（MIC）もしくは最小限の重要な差（MID）が決
まっているか？
9 研究のデザインや方法に重大が欠陥があるか？
①得点分布：項目４，②天井・床効果：項目５と項目６，③特定の集団における得
点と変化得点：項目７，④MICとMID：項目８

内容 Time
✔ 反応性について 0:00-3:00
✔ 共通項目 3:00-7:00
✔ 反応性ではないもの 19:00-22:00
✔ 解釈可能性について 22:00-25:00
→ 尺度得点分布と得点の解釈（１時点） 25:00-31:00
変化得点の解釈 31:00-40:00
参考文献 -
36

尺度の得点分布の検討
項目4「（合計）得点の分布は記載されているか？」
測定尺度の得点の適切な解釈のため分布を検討する
→研究対象の得点は高いか低いか？尺度の全ての範囲に分
布しているか？患者が尺度のある場所にかたまっているか？
• 古典的テスト理論
→平均，標準偏差，中央値，四分位範囲，ヒストグラム
• 項目反応理論（尺度特性と研究サンプル特性を分離可能）
→潜在特性値（θ）上に，研究サンプルと項目を配置して検討す
る（患者群はどこに位置するか？難しすぎる項目はないか？項目が配置さ
れてない特性値はないか？など）。
37

記載例:首の痛み障害尺度のラッシュ分析（Van
der Velde et al., 2009, Arthritis and rheumatism）
38
尺度：首の痛み障害尺度（Neck Disability Index）
対象者：首の痛みをもった患者512名
<Results>
The targeting of the NDI-8 item thresholds for subjects in our sample is shown
in Figure 2. There is good coverage of thresholds over the breadth of neck
pain-related disability.・・・our sample is centered over the lower end of the
neck pain disability scale・・・
この辺の項目はこ
のサンプルでは意
味を持たない。
全体的に低い特性
値に分布している。
しかし，低特性値
には項目が少ない。

天井・床効果の検討
項目5・６「最も低いor高い（合計）得点の回答者の割合が
記載されているか？」
• 天井・床効果は，縦断データの分析で問題に
→ベースラインの段階で患者群が床効果を示している場合，そ
れ以上の改善は測定できない。
• 天井・床効果を問題視するかは，患者を他のグルー
プと区別したいか,変化の方向性に依存
→多くの者において困難度の低い尺度でも，それによって患者
かどうか区別できるなら有用（≠天井効果）
→患者の得点が低い方に偏っていても，治療による変化の方
向性が増加方向の場合は，問題ない（≠床効果） 39

記載例:（Spies-Dorgelo et al., 2006, Health and quality of
life outcomes）
40
対象：プライマリケアで手と手首に問題のある患者におけ
る症状重症度尺度と身体機能尺度（AIMS2の手指の機能）
＜Method＞We assessed the presence of floor and ceiling effects, by
examining the frequency of the highest and lowest possible scores at
baseline. Floor effects were considered to be present if more than 15%
of the patients had a minimal score at baseline・・・（天井効果も同様）
＜Results＞We found a floor effect for the Dutch-AIMS2-HF; 30% of
the patients had a minimum score of 0 at baseline.

特定集団における得点解釈（１時点）
項目７「関連した集団における得点と得点変化（すなわち
平均とSD）が示されているか？」
①一般母集団の尺度得点を基準得点として解釈
→一般母集団（健康な者）と比較して，今回のサンプルや個人
の得点を解釈する。
②項目反応理論に基づいた尺度得点の解釈
→合計得点よりも項目反応理論に基づいた特性値（θ）を使う方
が正確な解釈が可能（特に，項目の困難度がばらついていたり
する場合）
③正常の基準によって解釈
→(1)一般母集団の分布に基づき，上位or下位数％（例えば
5%）以外を正常とする，(2)疾病リスクに基づき，ある得点以下
はリスクが少ないので正常とする 41

内容 Time
✔ 反応性について 0:00-3:00
✔ 共通項目 3:00-7:00
✔ 反応性ではないもの 19:00-22:00
✔ 解釈可能性について 22:00-25:00
✔ 尺度得点分布と得点の解釈（１時点） 25:00-31:00
→ 変化得点の解釈 31:00-40:00
参考文献 -
42

変化得点の解釈
項目８「最小限の重要な変化（MIC）もしくは最小限の重要な差
（MID）が決まっているか？」
尺度で最低何点変化したら変化したと言えるのか？
• Change（変化）とDifference(差)は違う
Change(変化)：継時的に測定される個人内変化
Difference(差)：患者グループ間のクロスセクショナルな比較
→議論はあるが，MIDは「重要と思われる患者間の構
成概念の最小の差」であり，変化得点の解釈には使
いにくい。以下では“変化”について解説
43
FDAのPROに関する指針「Patient-Reported Outcome Measures: Use in Medical
Product Development to Support Labeling Claims」，2009年

変化得点の解釈
①最小限の重要な変化（Minimal important change:
MIC）※de Vet et al(2011)はこちらを推奨
→患者や臨床家が重要と感じるような最小限の変化
→重要な変化の外的基準（アンカー）に基づくアプロー
チ
②検出可能な最小限の変化(Minimal Detectable
Change: MDC)
→測定誤差を超えるような最小限の変化
→尺度の変化得点の分布に基づくアプローチ
44Crosby et al., 2003, J. Clin Epidemiol

最小限の重要な変化（MIC）
-アンカーに基づくアプローチ-
１）重要な変化に関する外的基準（アンカー）に基づい
て，最小限の重要な変化をした患者と不変の患者に
操作的に分ける
例）CGIで不変群と軽度・中等度改善群に分ける
２−１）平均値を用いた方法：最小限の重要な変化群
の変化量の平均値をMICとする
例）CGIによる軽度・中等度改善群の尺度変化得点の平均値
２−２） ROCを用いた方法：変化した患者の割合（感度）
と変化のない患者の割合（特異度）を用いたROC分析
を実施。カットオフをMICとする。
45

検出可能な最小限の変化(MDC)
-分布に基づくアプローチ-
• 小さな変化は単に測定誤差の可能性がある
→測定誤差を超えるような変化を「最小限の検出可能
な変化」とする。
• 検出可能な最小限の変化の計算方法
Sdは１時点目の標準偏差，αは信頼性係数（再検査，クロンバックのαなど）
• ある尺度が，SD＝5，再検査信頼性＝0.8の場合
46
MDC =1.96´ 2 ´SEM
SEM = sd 1-a
MDC =1.96´ 2 ´5´ 1-0.8 = 6.20

アンカーに基づく方法と
分布に基づく方法の関係
MIC:最小限の重要な変化
MDC:検出可能な最小限の変化
47
不変
最大の変化
←MDC
←MIC
重要な変化かつ誤差を超えている変化
重要でなく誤差の範囲の変化
重要な変化ではないが
誤差を超える変化
不変
最大の変化
←MIC
←MDC
重要な変化であるが
誤差の範囲の変化
MIC>MDC
の場合
MDC>MIC
の場合

アンカーに基づく方法と分布に
基づく方法の欠点と両者の統合
• アンカーに基づく方法は，アンカーによって最小限
の重要な変化を解釈できるので分かりやすいが，測
定誤差などを考慮していない。
→分布に基づく方法とアンカーに基づく方法と組み合
わせることで，より良くなるのでは？
→Visual anchor-based MIC distribution(De Vet et al.,
2007)が提案
※Jacobsonの方法（Reliable Change Index，Clinical Significance)も両者
を組み合わせたアプローチ（奥村さんの情報公開「明日から使える臨
床的有意性の指標：行動療法研究に求められる統計学」参照）。
48

最小限の重要な変化
Visual anchor-based MIC distribution
①アンカーに基づいて対象者を分割
→重要な変化をした患者群，重要な変化をし
てない患者群，重要な悪化を示した患者群
②変化得点の分布をプロットする
→重要な変化のあった群の分布を左，変化の
群の分布を右にプロット
＊群のサンプルサイズの違いが影響しないよ
うに，絶対頻度でなく比率度数を使う
③カットオフポイントを決定する
ROC分析:感度と特異度を最大にする
カットオフポイントを決定＝MIC
95%上限:重要な改善なし群の95%上
限（変化得点平均+1.645*SD）=MIC
49
De Vet et al., Quality of Life Res, 2007
アンカー
重要な改善重要な改善
なし
重要な悪化
重要な改
善の分布
重要な悪
化の分布
←95%上限
←ROC
←95%下限
←ROC

最小限の重要な変化
Visual anchor-based MIC distribution
• Visual anchor-based MIC
distributionでは分布を確
認することが大切。
• 左図も右図もMICは一緒だ
が，分布はかなり異なる。
• 場合によっては，変化して
ないとう偽陰性を問題にす
る時もある（例えば，変化
が認められない時は侵襲
的治療を行う場合），その
時は，重み付けもできる。 50
De Vet et al., J Clinical Epidemiology, 2010

記載例：緊張性尿失禁の女性患者における
PRAFAB質問票の最小限の重要な変化
（Hendriks et al., 2008, Neurourology and Urodynamics）
51
対象患者：緊張性尿失禁をもつ女性患者279名
PRAFAB質問票：失禁対策・量・頻度・活動支障度・自己イメージの５
項目４件法，高いほど重症，ベースラインと12週後に測定
アンカー：12週後にベースラインからの全体的な変化を問うGRS
<Method>
・MIC distribution法の記載例
To estimate the MIC we used the ROC method and the 95% limit cut-off point,
visualized by the ‘anchor based MIC distribution’ as described by De Vet et al. To
analyze the results, we produced separate graphs for the total and stratified
analysis to show the distribution (expressed in percentage) of patients who were
‘importantly improved’ and those who were ’not importantly improved’.
・GRSで ’moderately better’・’much better’・’very much better’は，’importantly
improved’とする。’slightly better’・’about the same’・’slightly worse’
は， ’unchaged’とする。

記載例：緊張性尿失禁の女性患者における
PRAFAB質問票の最小限の重要な変化
（Hendriks et al., 2008, Neurourology and Urodynamics）
52
<Results>
The MIC defined by the ROC method and
95% limit cut-off point corresponds to a
change score of 2.5 points and 3.2 points,
respectively.
<重症度による層別解析>
MICはベースラインの高さによって変化す
るので，ベースラインの重症度で２群に
わけてMICを算出。（重症度群MICROC=4.0，
軽症群MICROC=2.0）

内容 Time
✔ 反応性について 0:00-3:00
✔ 共通項目 3:00-7:00
✔ 反応性ではないもの 19:00-22:00
✔ 解釈可能性について 22:00-25:00
✔ 尺度得点分布と得点の解釈（１時点） 25:00-31:00
✔ 変化得点の解釈 31:00-40:00
参考文献 -
53

Rによる反応性と解釈可能性の検討
• データ：PRAFAB.csv（“Measurment in Medicine”のデータを改変）
• 対象者：534名
• 変数：
PRAFABt1:Time1のPRAFAB得点
PRAFABt1:Time2のPRAFAB得点
GRS:ベースラインからの全体的な変化を問うGRS
PRAFABch:Time2からTime1を引いたPRAFABの変化得点
• 使用パッケージ：
• データの読み込み
> dat<-read.csv(“PRAFAB.csv”)
54

Rによる反応性の検討
アンカーとPRAFABの変化得点
との相関による反応性の検討
> plot(PRAFABch~GRS,dat)
> cor.test(dat$PRAFABch,dat$GRS)
→相関係数は0.87
ROC分析によるAUCを用いた反
応性の検討
Epiパッケージを読み込んで，GRSからno
change とimportantly improvedに分けてROC
> ROC(dat2$PRAFABch, dat2$anchor,
plot=“ROC”)
→AUCは0.96
55
2 4 6 8
-10-505
GRS
PRAFABch

Rによる解釈可能性の検討
• 変化得点も平均値を出すとともに，アンカーごとの
平均値を算出。
• 平均値のMIC=最小限の変化をした群の変化得点
の平均値
→ -3.569767
95%limitのMIC=変化なし群の平均値+1.645*変化得
点のSD
→ 0.9911894+1.645*1.330351=3.179617
→つまり-3.179617
• ROC分析のカットオフ（変化なし群と重要な変化をし
た群）
→-2.00 56

参考・引用文献
• De Vet, Terwee, Mokkink, & Knol
(2011) “Measurment in Medicine”,
Cambridge University Press.
• COSMIN Checklist
• 尺度特性を検討した研究は探すの
が難しい。サーチフィルターによって
記載例を探す。
Terwee et al. (2009).Development of a
methodological PubMed search filter
for finding studies on measurement
properties of measurement
instruments. Quality of life research,
18(8), 1115–23.
57

De Boer et al. (2006). Evaluation of cross-sectional and longitudinal construct
validity of two vision-related quality of life questionnaires: the LVQOL and VCM1.
Quality of life research, 15(2), 233–48.
Spies-Dorgelo et al.(2006). Reproducibility and responsiveness of the Symptom
Severity Scale and the hand and finger function subscale of the Dutch arthritis
impact measurement scales (Dutch-AIMS2-HFF) in primary care patients with
wrist or hand problems. Health and quality of life outcomes, 4, 87.
Hendriks, E. J. M., Bernards, A. T. M., De Bie, R. A., & De Vet, H. C. W. (2008). The
minimal important change of the PRAFAB questionnaire in women with stress
urinary incontinence: results from a prospective cohort study. Neurourology and
urodynamics, 27(5), 379–87.
Tamber et al. (2009). Measurement properties of the Dizziness Handicap Inventory
by cross-sectional and longitudinal designs. Health and quality of life outcomes,
7, 101.
Van der Velde, G., Beaton, D., Hogg-Johnston, S., Hurwitz, E., & Tennant, A. (2009).
Rasch analysis provides new insights into the measurement properties of the
neck disability index. Arthritis and rheumatism, 61(4), 544–51.
De Vet et al. (2007). Minimally important change determined by a visual method
integrating an anchor-based and a distribution-based approach. Quality of life
research : an international journal of quality of life aspects of treatment, care
and rehabilitation, 16(1), 131–42. 58
参考・引用文献

反応性と解釈可能性の評価

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to 反応性と解釈可能性の評価

Similar to 反応性と解釈可能性の評価 (13)

反応性と解釈可能性の評価

Editor's Notes