1
Diagnostic Test Accuracyの
Meta-analysisをやってみる。
(・・・やってみたい。)
2014/7/26初稿 → 2016/10/29改定
藤原 崇志
倉敷中央病院 耳鼻咽喉科/臨床研究センター
そもそも検査、診断とは・・・
 診断:

医者が患者を診察して、健康状態、病気の種類や
病状などを判断すること。
「インフルエンザと―する」(goo辞書)
 検査:
ある基準をもとに、異状の有無、適不適などを
調べること。
「所持品を―する」「適性―」(goo辞書)
 病気の有無を患者さんが言ってくれるわけではない。
 “病気の有無” を “検査の正常・異常” で判断する。
検査正常 ≒ 病気なし
検査異常 ≒ 病気あり
そもそも検査、診断とは・・・
胃n.p.
検査・診断の言葉の定義
感度 = × 100(%)
特異度 = × 100(%)
病気あり 病気なし 計
検査異常(陽性) a b a + b
検査正常(陰性) c d c + d
計 a + c b + d a+b+c+d
検査異常の人
病気のある人
検査正常の人
病気のない人
 感度100%、特異度100%なら完璧な検査
例)インフルエンザの検査
本当はこう分けられるけど
神様しか知りえない
インフルエンザ以外 インフルエンザ
50人 50人
 病院に100人が受診。その内訳は(仮に)・・・
インフルエンザ 50人
インフルエンザではない 50人
 適当に「あなたインフルエンザです」と言えば当
たる可能性は50%。」
 来院患者全員に、感度70%、特異度90%の検査を
してみると・・・
 検査陽性の人に「あなたインフルエンザです」と
言えば当たる可能性は87.5%(40人中35人)」
例)インフルエンザの検査
7
Diagnostic Test Accuracyの
Meta-analysisの一般的な話
① 研究をもれなく集める。
② 集めた研究の質を評価する。
③ まとめる
9
網羅的検索と出版バイアスの評価
網羅的な検索の方法
 調べたい検査(Index test)と病気(target condition)を
キーワードにして探す。
Index test and target condition will generally be the focus of the
search, although...(以下略).
 RCTの検索の時のような“研究デザインのフィル
ター”は十分に確立してないので検索に使用しない。
Routine use of methodology search filters to identify diagnostic
test accuracy studies should be avoided as...(以下略)
Handbook for DTA Reviews, chapter 7 (Searching for studies)
介入研究(RCT)と診断研究(DTA)の検索の比較
DTAの場合
病気に関する
網羅的検索
検査に関する
網羅的検索
研究デザインに
関する網羅的検索
病気に関する
網羅的検索
検査に関する
網羅的検索
網羅的な検索の方法
RCTの場合
出版バイアスの評価
 RCTのSR/MAにおける出版バイアスの評価
 Funnel plot
横軸は効果
縦軸は効果推定の精度
左右対称かどうか?
 Eggerの回帰検定
Trial size
Relative risk(efficiency)
0.1 0.5 1 2.0 5.0
0
100
200
300
Favor controlFavor intervention
出版バイアスの評価
 まだ評価方法が確立してないのでCochrane DTA
groupではオプション
Review authors often elect not to investigate reporting bias
due to the lack of sensitive and appropriate statistical methods.
 SR/MAは過去の研究だけどProtocolは多少大事
Similar arguments exist for systematic reviews,
but they are less strong because systematic reviews are
retrospective rather than prospective pieces of research.
 参考:BMJグループの投稿規定
We strongly encourage you to register your study.
We recommend Prospero for registration of systematic reviews.
Handbook for DTA Reviews, chapter 4 (Guide to the contents of DTA protocol)
出版バイアスの評価
 分布が左右対称になる指標dを使用する場合もある。
診断法を評価する -臨床家のための臨床研究デザイン塾テキスト- p130より
d(数字が高いほど診断特性が高い)
Trialsize
100
200
300
-1 0 1 2 3
15
どんな研究を集めるか?
Selection Study
Type of Studies(RCTとDTA)
ランダム化比較試験と診断研究における研究の種類
RCTの種類
単純ランダム化
(Simple-randomized)
(層別、ブロック別etc.)
クラスターランダム化
(Cluster-randomized)
準ランダム化
(Quasi-randomized)
クロスオーバー
(Cross-over)
DTAの種類
Single-gate
いわゆるcohort type,
cross-sectional study.
Two-gate
いわゆるcase-control.
診断研究における2つのStudy Type
 Single-gate(≒ cohort type)
1個の組入基準を使用
例)造影CTによる虫垂炎の診断で、
「救急外来で腹痛を訴えた人」を対象にする場合
 Two-gate(≒ case-control type)
病気の人と健康な人、2個の組み入れ基準
例)造影CTによる虫垂炎の診断で、
「虫垂炎と診断された人」と「健康な人」を対象
Handbook for DTA Reviews, chapter 4 (Guide to the contents of DTA protocol)
診断研究におけるStudy Type
 Two-Gateは診断精度を過剰評価しがちなので注意。
例)造影CTによる虫垂炎の診断で、
「虫垂炎と診断された人」と「健康な人」を対象
「腹痛の有無」という検査が、感度 & 特異度100%!?
・・・そもそも腹痛の患者さんから虫垂炎を
いかに見つけるかが臨床上の課題です(涙)
診断研究におけるStudy Type
 Two-Gateは診断精度を過剰評価しがち。
集めた研究の性質で診断精度はどのくらい異なるか?

 研究の性質 DORの比(95%CI)
* DOR = LR+/LR-,
数字が大きいほど診断精度がよい。
Bias in studies of diagnostic tests. JAMA 1999;282:1061-1066
参考(DORと感度・特異度)
1.0 0.8 0.6 0.4 0.2 0.0
Specificity
0.00.20.40.60.81.0
Sensitivity
DOR = 1
DOR = 2
DOR = 5
DOR = 16
DOR = 81
DOR = 361
DOR =
DOR = ÷
陽性尤度比
陰性尤度比
感度
(1 – 特異度)
(1 − 感度)
特異度
Diagnostic odds ratio(DOR)
① 研究をもれなく集める。
② 集めた研究の質を評価する。
③ まとめる
個々の研究の質評価
Assessment of methodological quality
研究の質の評価
 CochraneのRCTのメタアナリシスでは7つの
ドメインに分けて研究の質を評価。
Sequence generation, allocation concealment, blinding of
participants and personnel, blinding of outcome assessment,
incomplete outcome data, selective outcome reporting and ‘other
issues’.
 Cochraneの診断研究のメタアナリシスでは
QUADASを使用して個々の研究の質を評価。
We recommend assessing 11 of 14 original quality items of the
QUADAS tool, and adding items important for each particular
context and topics.
We recommend against using scales that yield a summary score.
Cochrane handbook for systematic review of intervention 8.5.1 “Overview”.
Handbook for DTA Reviews, chapter 9 “Assessing methodological quality”.
Handbook for DTA Reviews, chapter 9 “Assessing methodological quality”.
Table 9.1 Recommended quality items derived from QUADAS tool (Whiting 2003)
1. Was the spectrum of patients representative of the patients who will receive the test in practice?
(representative spectrum)
2. Is the reference standard likely to classify the target condition correctly? (acceptable reference
standard)
3. Is the time period between reference standard and index test short enough to be reasonably sure that
the target condition did not change between the two tests? (acceptable delay between tests)
4. Did the whole sample or a random selection of the sample, receive verification using the intended
reference standard? (partial verification avoided)
5. Did patients receive the same reference standard irrespective of the index test result? (differential
verification avoided)
6. Was the reference standard independent of the index test (i.e. the index test did not form part of the
reference standard)? (incorporation avoided)
7. Were the reference standard results interpreted without knowledge of the results of the index test?
(index test results blinded)
8. Were the index test results interpreted without knowledge of the results of the reference standard?
(reference standard results blinded)
9. Were the same clinical data available when test results were interpreted as would be available when
the test is used in practice? (relevant clinical information)
10. Were uninterpretable/ intermediate test results reported? (uninterpretable results reported)
11. Were withdrawals from the study explained? (withdrawals explained)
患者(patients) 検査を受けるべき人を対象にしているか?
ランダムまたは連続的に症例を選んでいるか?
脱落者はどう扱われたか?
Handbook for DTA Reviews, chapter 9 “Assessing methodological quality”.
検査(Index test) 検査の解釈は、最終診断の結果を知らずになされたか?
診断(Reference standard) 診断は適切な方法(Gold standard)で行われたか?
最終診断は、検査の結果を知らずに行われたか?
検査と最終診断はそれぞれ独立して行われたか?
検査と最終診断は同じタイミングで行われたか?
検査の解釈が難しい症例はどう扱われたか?
外的妥当性 研究の結果はほかの患者にも外挿できるか?
Table 9.1 Recommended quality items derived from QUADAS tool (Whiting 2003)
研究の質の評価
* 誤訳してたらすみません。
QUADASからQUADAS-2へ
 QUADAS-2は4つのドメインに分け質を評価。
Reference Standard (診断)
・ 診断基準として妥当か
・ Index testの結果を知らずに
診断を行ったか
Index Test (検査)
・ 検査の解釈は診断結果を
知らずに行われたか
・検査のカットオフ値は事前に
決められていたか
Flow and Timing (検査)
・ 検査と診断のタイムラグは?
・ 全例で解析しているか?
・ 全例同じ診断法を行ったか
http://minds4.jcqhc.or.jp/minds/guideline/pdf/QUADAS-2_JPN.pdf
Patient Selection (患者)
・ 連続/ランダム症例か
・ Two-Gateの研究を除外したか
・ 不適切な患者除外はないか
① 研究をもれなく集める。
② 集めた研究の質を評価する。
③ まとめる
異質性の評価と統合
Data synthesis & Analyzing data
診断研究における異質性
 RCTのメタアナリシス、概念的異質性の問題
 果物の摂取量は寿命の延長に影響という論文
(そういう研究がどのくらいあるかは調べてません、すみません)
“りんご” の研究 と “みかん” の研究、
一緒にしちゃっていいのか、まずいのか?
診断研究における異質性
 診断研究のメタアナリシスでも概念的異質性は大事
 診断研究ではRCTの時以上に統合する上で注意する
点がいくつか存在
診断研究における異質性
 同じ “病気”、同じ “検査” だからといって
検査の精度が一定とは限らない。
例)体重によってマンモグラフィーの精度は異なる
Elmore et al. Arch Intern Med 2004;164:1140-1147.
診断研究における異質性
 同じ病気、同じ検査でも、“検査の使い方”で精度が
異なることがある。(全員に検査 or 診察で患者を絞ってから検査 etc
例)虫垂炎診断におけるCRPの精度(メタ解析)
Hallan S, Asberg A. Scand J Clin Lab Invest 1997;57:373-380.
Fig4. Plot of sensitivity v.s. (1 – specificity) and
corresponding Summary-ROC curves for studies
including all patients with suspected appendicitis
and for those including only patients undergoing
appendectomy.
● all suspected(全例対象),
○ only operated(手術症例のみ)
診断研究における統合の方法
 RCTのメタアナリシスを行うと時
異質性が少ないと判断 ➡ Fixed effect model
異質性があると判断 ➡ Random effect model
 DTAのメタアナリシスを行う時
基本的に異質性があると考える。
➡ Random effect modelを使用。
個々の研究の統合と提示
Data synthesis & Analyzing data
 RCTのメタではフォレスとプロットで提示
 診断特性のメタの場合は・・・?
メタアナリシスの結果の提示
 診断研究のメタアナリシスではSROCカーブで提示
(SROC: Summary of receiver operating characteristic curve)
メタアナリシスの結果の提示
・・・さて。
・・・DTAのメタアナリシスやってみたい。
急性喉頭蓋炎はレントゲンで
除外できるか?
 症状は風邪っぽい(咽頭痛、嚥下時痛)
 でも見逃すと時に窒息&致死的
 よく使うレントゲンは
どのくらい正確なのか!?
急性喉頭蓋炎(声門上炎)
過去の研究結果
 喉頭蓋の腫脹(Thumb sign)は感度100%、
特異度89.2%
Rothrock et al. Ann Emerg Med 1990;19:978-982あ
 喉頭蓋谷の消失(Vallecula sign)は感度98.2%、
特異度99.5%
Ducic et al. Ann Emerg Med 1997;30:1-6あ
過去の研究結果
 喉頭蓋の腫脹(Thumb sign)は感度100%、
特異度89.2%
Rothrock et al. Ann Emerg Med 1990;19:978-982あ
 喉頭蓋谷の消失(Vallecula sign)は感度98.2%、
特異度99.5%
Ducic et al. Ann Emerg Med 1997;30:1-6あ
・・・高い感度、特異度報告してるけど、
よく読んでみると Two-gate の研究じゃね?
もしかして過剰に感度・特異度を算出してない!?
43
Protocolの作製と事前登録
SR/MAは事前登録すべきか?
 前向き臨床試験におけるProtocolの事前登録
 バイアスをなるべく避けるために大事
Pre-specification of methods provides protection against some
aspects of bias and demonstrates scientific rigour.
 SR/MAは過去の研究だけどProtocolは多少大事
Similar arguments exist for systematic reviews,
but they are less strong because systematic reviews are retrospecti
rather than prospective pieces of research.
 参考:BMJグループの投稿規定
We strongly encourage you to register your study.
We recommend Prospero for registration of systematic reviews.
Handbook for DTA Reviews, chapter 4 (Guide to the contents of DTA protocol)
http://www.crd.york.ac.uk/prospero/
プロとコールを登録してみた。
“Diagnostic Test Accuracy” と検索かけると、
登録されたのがいくつもあって参考になります。
網羅的な検索のおさらい
 調べたい検査(Index test)と病気(target condition)を
キーワードにして探す。
Index test and target condition will generally be the focus of the
search, although...(以下略).
 RCTの検索の時のような“研究デザインのフィル
ター”は十分に確立してないので検索に使用しない。
Routine use of methodology search filters to identify diagnostic
test accuracy studies should be avoided as...(以下略)
Handbook for DTA Reviews, chapter 7 (Searching for studies)
検索式を作ってみる。
#1 “epiglot* ”
#2 “supraglot* ”
#3 ”laryngit* ”
#4 “laryngotracheit* ”
#5 “supraglottitis” [mesh]
#6 “laryngitis” [mesh]
#7 #1 OR #2 OR #3 OR #4 OR #5 OR #6
#8 “roentgen”
#9 “x-ray”
#10 “xp”
#11 “radiograph* ”
#12 “diagnostic imaging” [mesh]
#13 #8 OR #9 OR #10 OR #11 OR #12
#14 #7 and #13
キーワード検索
シソーラス検索
キーワード検索
シソーラス検索
調べたい病気
(Targetcondition)
調べたい検査
(Indextest)
集まった論文をPICOにあうか評価する。
今回は検索の結果、
2088論文がhit!!!
独立した2人で
論文をチェック
まずはタイトルとアブストラクトみて大雑把にチェック
2人ともまだ元気。
今度は全文をしっかり読んできっちりチェック
ちょっと荒んだ2人・・・
最終的に8論文みつかった!
参考:スクリーニングを楽にするツール
スクリーニング作業を楽にするツールもいくつか。
Rayyan SR toolなど
https://rayyan.qcri.org/users/sign_in
検索結果をインポートして論文が該当するかどう
かチェック。チェックの際にキーワードをハイライ
トしてチェックしやすくしてくれたりするみたい。
集まった8論文の質をQUADAS2で評価
やっぱりここでも独立した2人で
論文の質をチェックする
・・・・
2人のチェックを刷り合わせる。
意見が合わなければもう1人追加し合議
最近の話題: /
論文のPDFファイルをドラッグアンドドロップすると
自動的にRisk of biasを評価してくれる。
SROCカーブを作ってみる。
1.0
0.8
0.6
0.4
0.2
0.0
1.0 0.8 0.6 0.4 0.2 0.0
Specificity
Sensitivity
まず個々の研究をプロットしてみる。
Single-gate (cohort type) study
Two-gate (case-control type) study
やっぱりTwo-gate (case-control) studyは
感度・特異度がめちゃ高い気がする・・・・。
SROCカーブを作ってみる。
1.0
0.8
0.6
0.4
0.2
0.0
1.0 0.8 0.6 0.4 0.2 0.0
Specificity
Sensitivity
ほかの統合値も記載してみる。
Single-gate (cohort type) study
Two-gate (case-control type) study
HSORC curve
95% confidence region
Summary point
個々の研究を統合する時に悩んだこと
 一つの研究中に複数のカットオフがある
急性喉頭蓋炎のレントゲン診断でもThumb signみてるものもあれば、
Valleculal signみてるものも。どうやって一緒にやるの??
→Specificityを固定して統合したり、まだきまってない。
今回はレントゲンがそもそもrule outに使うので、複数のカットオフ
で測定した研究は、感度が高いカットオフを採用し統合した。
 結果は本当に統合した方がよいのか?
Two-gate studyとsingle-gate studyで診断精度が全然違う。
ただSingle-gate studyだけ統合するには研究の数少ないし・・・
→統合した方がいいかは雑誌のReviewerによって異なった。
(Statistics のプロはだいたい反対してた気がする)
今回は統合して、Diagnostic odds ratio算出して異質性検討した
終わり。
http://onlinelibrary.wiley.com/doi/10.1002/ams2.256/full

診断研究のメタアナリシスをやってみる(みたい)。