初心者による初心者のための
「質的データの二変量解析」
奥村泰之
国立精神・神経医療研究センター国立精神 神経医療研究センタ
精神保健研究所 社会精神保健研究部
公益社団法人日本心理学会公益社団法人日本心理学会
心理・医学系研究者のためのデータ解析環境Rによる統計学の研究会
第3回研究集会究
2011/11/5 16:30~19:10
東京医科歯科大学
話題
Rによる質的データの二変量解析 (7 min)Rによる質的データの二変量解析 (7 min)
質的データの二変量解析の基礎 (8 min)
質的データの二変量解析の留意事項 (14 min)質的データの二変量解析の留意事項 (14 min)
一流誌での報告事例 (0 min)
初心者向けの推薦文献 (1 min)初心者向けの推薦文献 (1 min)
2
Rによる質的データの二変量解析
説明用データセット
Aspirin Data (aspirin csv)Aspirin Data (aspirin.csv)
• アスピリンによる心筋梗塞の予防効果
(N Engl J Med 1988; 318:262-264)( g ; )
– 研究法 = 無作為化比較試験 (二重盲検法)
– 追跡期間 = 5年間
– 調査対象 = 健康な男性の内科医
– 独立変数 = アスピリン投与/プラセボ投与
従属変数 = 心筋梗塞の発症の有無– 従属変数 = 心筋梗塞の発症の有無
変数名 説明 コード 役割
trt 治療法 0 = プラセボ,1 = アスピリン 独立変数
mi 心筋梗塞の状況 0 = 未発症,1 = 発症 従属変数
3Agresti A: An introduction to categorical data analysis (2nd ed.). Wiley, 2007
Rによる質的データの二変量解析
説明用データセット
二元分割表 治療法 心筋梗塞 心筋梗塞二元分割表 治療法 心筋梗塞
未発症
心筋梗塞
発症
プラセボ 10845 (98.3%) 189 (1.7%)
4つの解釈例
プ ボ投与群と 較 基準 ピ 投与群 心筋
プラセボ 08 5 (98 3%) 89 ( %)
アスピリン 10933 (99.1%) 104 (0.9%)
• プラセボ投与群と比較し (基準),アスピリン投与群の心筋
梗塞の発症率 (基準外) は低い (1.7% vs 0.9%)
アスピリン投与群と比較し (基準) プラセボ投与群の心筋• アスピリン投与群と比較し (基準),プラセボ投与群の心筋
梗塞の発症率 (基準外) は高い (0.9% vs 1.7%)
• プラセボ投与群と比較し (基準) アスピリン投与群の心筋• プラセボ投与群と比較し (基準),アスピリン投与群の心筋
梗塞の未発症率 (基準外) は高い (98.3% vs 99.1%)
• アスピリン投与群と比較し (基準) プラセボ投与群の心筋• アスピリン投与群と比較し (基準),プラセボ投与群の心筋
梗塞の未発症率 (基準外) は低い (99.1% vs 98.3%)
4
Rによる質的データの二変量解析
分析の流れ
①データの読み込み①デ タの読み込み
②従属変数と独立変数の基準の設定
③二元分割表の作成③二元分割表の作成
④リスク差,リスク比,オッズ比の算出
5
Rによる質的データの二変量解析
①データの読み込み
6
Rによる質的データの二変量解析
②従属変数と独立変数の基準の設定
4つの解釈例のうち どれを採用するか?4つの解釈例のうち,どれを採用するか?
• プラセボ投与群と比較し (基準),アスピリン投与群の心筋
梗塞の発症率 (基準外) は低い (1.7% vs 0.9%)梗塞の発症率 (基準外) は低い ( % s 0 9%)
因子型ベクトルに変換
7
Rによる質的データの二変量解析
②従属変数と独立変数の基準の設定
 levels(因子型ベクトル)( )
• 因子型ベクトルの水準を確認する関数
– 水準の1番目が「基準」となる
 relevel(因子型ベクトル, ref=“基準となる水準名”)
• 因子型ベクトルの基準を変更する関数
8
Rによる質的データの二変量解析
③二元分割表の作成
 xtabs(formula, data)( , )
• 分割表を作成する関数
– formula = ~ 独立変数 + 従属変数
– data = データフレーム
9
Rによる質的データの二変量解析
③二元分割表の作成
 prop.table(x, margin=NULL)p p ( , g )
• 分割表の比率を求める関数
– x = xtabs()の結果を保存したオブジェクト名
– margin
» NULL = 要素を総数で割る
1 各行の要素を行和で割る» 1 = 各行の要素を行和で割る
» 2 = 各列の要素を列和で割る
10
Rによる質的データの二変量解析
④リスク差,リスク比,オッズ比の算出
 ind.prop(formula, data, lev.count=2, ref.ind=1)p p( , , , )
• 質的データの二変量解析の関数
– formula = 従属変数~独立変数
» チルダ[~]の左側に1つの従属変数の変数名
» チルダ[~]の右側に1つの独立変数の変数名
d t デ タ レ ム– data = データフレーム
11
Rによる質的データの二変量解析
④リスク差,リスク比,オッズ比の算出
 ind.prop(formula, data, lev.count=2, ref.ind=1)p p( , , , )
• 質的データの二変量解析の関数
– lev.count
» 1 = 従属変数の1番目の水準を基準外とする (数える)
» 2 = 従属変数の2番目の水準を基準外とする (数える)
f i d– ref.ind
» 1 = 独立変数の1番目の水準を基準とする
» 2 = 独立変数の2番目の水準を基準とする» 2 独立変数の2番目の水準を基準とする
12
Rによる質的データの二変量解析
④リスク差,リスク比,オッズ比の算出
 $risk.difference$
• リスク差
 $risk.ratio$
• リスク比
 $odds.ratio$odds.ratio
• オッズ比
13
話題
Rによる質的データの二変量解析 (7 min)Rによる質的データの二変量解析 (7 min)
質的データの二変量解析の基礎 (8 min)
質的データの二変量解析の留意事項 (14 min)質的データの二変量解析の留意事項 (14 min)
一流誌での報告事例 (0 min)
初心者向けの推薦文献 (1 min)初心者向けの推薦文献 (1 min)
14
質的データの二変量解析の基礎
独立変数と従属変数の尺度水準
1つの従属変数1つの従属変数
• 質的変数 (2水準)
– 死亡/生存,成功/失敗死亡/生存,成功/失敗
1つの独立変数
• 質的変数 (2水準以上)• 質的変数 (2水準以上)
– 治療群/プラセボ対照群,曝露群/非曝露群
15
質的データの二変量解析の基礎
主要な指標
リスク差リスク差
• Risk Difference (RD), Absolute Risk Reduction (ARR)
リスク比リスク比
• Risk Ratio (RR), Relative Risk (RR)
オ ズ比オッズ比
• Odds Ratio (OR)
必要治療数
• Number Needed to Treat (NNT)
などなど
16
質的データの二変量解析の基礎
リスク差の計算と記載
計算式計算式
• 基準外の比率 (アスピリン投与群の発症率) –
基準の比率 (プラセボ投与群の発症率)基準の比率 (プラセボ投与群の発症率)
– RD = 0.009 – 0.017 = –0.008
得点可能範囲得点可能範囲
• –1 to +1
(各群の比率に依存)( )
治療法 心筋梗塞
未発症
心筋梗塞
発症未発症 発症
プラセボ 10845 (98.3%) 189 (1.7%)
アスピリン 10933 (99 1%) 104 (0 9%)
17
アスピリン 10933 (99.1%) 104 (0.9%)
質的データの二変量解析の基礎
リスク差の計算と記載
解釈解釈
• +1≒基準よりも,基準外の方が比率が高い
• 0 = 両群で差がない• 0 = 両群で差がない
• –1≒基準よりも,基準外の方が比率が低い
記載例記載例
• 心筋梗塞の発症率は,アスピリン投与群の方が,プラセボ投与
群よりも低かった (0 9% vs 1 7%; RD 0 8% [95% CI 1 1% to 0 5%])群よりも低かった (0.9% vs 1.7%; RD, –0.8% [95% CI, –1.1% to –0.5%])。
• 心筋梗塞の発症率は,アスピリン投与群は0.9%,プラセボ投与
群は1 7%であった (RD –0 8% [95% CI –1 1% to –0 5%])群は1.7%であった (RD, –0.8% [95% CI, –1.1% to –0.5%])。
18
質的データの二変量解析の基礎
リスク比の計算と記載
計算式計算式
• 基準外の比率 (アスピリン投与群の発症率) /
基準の比率 (プラセボ投与群の発症率)基準の比率 (プラセボ投与群の発症率)
– RR = 0.009/0.017 = 0.550
得点可能範囲得点可能範囲
• 0 to +∞
治療法 心筋梗塞
未発症
心筋梗塞
発症未発症 発症
プラセボ 10845 (98.3%) 189 (1.7%)
アスピリン 10933 (99 1%) 104 (0 9%)
19
アスピリン 10933 (99.1%) 104 (0.9%)
質的データの二変量解析の基礎
リスク比の計算と記載
解釈解釈
• +∞≒基準より,基準外の方がリスク (比率) が高い
• 1 = 両群で差がない• 1 = 両群で差がない
• 0 ≒ 基準より,基準外の方がリスク (比率) が低い
解釈の補助解釈の補助
• 相対リスク減少率 (Relative Risk Reduction, RRR)
RRR 100%× (RR 1)• RRR = 100%× (RR – 1)
– RR = 0.55; RRR = 100%×(0.53 – 1) = – 45%
» 基準よりも45%リスクが減少» 基準よりも45%リスクが減少
20
質的データの二変量解析の基礎
リスク比の計算と記載
記載例記載例
• 心筋梗塞の発症リスクは,アスピリン投与群の方が,プラセボ
投与群よりも低かった (0.9% vs 1.7%; RR, 0.55 [95% CI, 0.43 to投与群よりも低かった (0.9% vs 1.7%; RR, 0.55 [95% CI, 0.43 to
0.70])。
• 心筋梗塞の発症リスクは,アスピリン投与群の方が45%低かっ
た (RR, 0.55 [95% CI, 0.43 to 0.70])。
21
質的データの二変量解析の基礎
オッズ比の計算と記載
計算式計算式
• [基準外の比率 (アスピリン投与群の発症率) / (1 – 基準外の比
率)]/[基準の比率 (プラセボ投与群の発症率) / (1 – 基準の比率)]/[基準の比率 (プラセボ投与群の発症率) / ( 基準の比
率)]
– (0.009/(1-0.009)) /(0.017/(1-0.017)) = 0.546
得点可能範囲
• 0 to +∞
治療法 心筋梗塞
未発症
心筋梗塞
発症未発症 発症
プラセボ 10845 (98.3%) 189 (1.7%)
アスピリン 10933 (99 1%) 104 (0 9%)
22
アスピリン 10933 (99.1%) 104 (0.9%)
質的データの二変量解析の基礎
オッズ比の計算と記載
解釈解釈
• +∞≒基準より,基準外の方がオッズ (比率) が高い
• 1 = 両群で差がない• 1 = 両群で差がない
• 0 ≒ 基準より,基準外の方がオッズ (比率) が低い
23
質的データの二変量解析の基礎
オッズ比の計算と記載
記載例記載例
• 心筋梗塞の発症オッズは,アスピリン投与群の方が,プラセボ
投与群よりも低かった (0.9% vs 1.7%; OR, 0.55 [95% CI, 0.43 to投与群よりも低かった (0.9% vs 1.7%; OR, 0.55 [95% CI, 0.43 to
0.70])。
• 心筋梗塞の発症オッズは,アスピリン投与群の方が45%低かっ
た (OR, 0.55 [95% CI, 0.43 to 0.69])。
24
話題
Rによる質的データの二変量解析 (7 min)Rによる質的データの二変量解析 (7 min)
質的データの二変量解析の基礎 (8 min)
質的データの二変量解析の留意事項 (14 min)質的データの二変量解析の留意事項 (14 min)
一流誌での報告事例 (0 min)
初心者向けの推薦文献 (1 min)初心者向けの推薦文献 (1 min)
25
質的データの二変量解析の留意事項
留意事項
①リスク差 リスク比 オッズ比の相違①リスク差,リスク比,オッズ比の相違
②「有意」 (p<.05) に特別の意味はない
③「意味のある差」の解釈はRDとNNT③「意味のある差」の解釈はRDとNNT
④「統計的」 に「意味のある差」は定義不能
26
質的データの二変量解析の留意事項
①リスク差,リスク比,オッズ比の相違
指標 研究法 指標の 研究間の指標 研究法 指標の
意味
研究間の
比較
リ ク差 前向き研究/ 易 難リスク差 前向き研究/
無作為抽出
易 難
リスク比 前向き研究/
無作為抽出
易 難
オッズ比 全部 難 易
27Fleiss et al: The handbook of research synthesis and meta-analysis: pp.237-253, 2009.
質的データの二変量解析の留意事項
②「有意」 (p < .05) に特別の意味はない
リスク差の検定結果リスク差の検定結果
• 心筋梗塞の発症率は,アスピリン投与群の方が,プラセボ
投与群よりも有意に低かった (0.9% vs 1.7%; RD, –0.8%投与群よりも有意に低かった (0 9% s %; , 0 8%
[95% CI, –1.1% to –0.5%], p < .05)。
28
質的データの二変量解析の留意事項
②「有意」 (p < .05) に特別の意味はない
リスク差の検定 (有意とは)リスク差の検定 (有意とは)
• 帰無仮説 (H0) : RD = 0% (母集団)
• 対立仮説 (H ) : RD ≠ 0% (母集団)• 対立仮説 (H1) : RD ≠ 0% (母集団)
• 有意水準 (α): 5%
(H0 が真であるときに誤ってH0を棄却する確率)(H0 が真であるときに誤ってH0を棄却する確率)
• 検定結果: H0 vs H1 (2値的な判断)0 1 ( )
• 有意: H0を棄却 (H1を採択)
29
質的データの二変量解析の留意事項
②「有意」 (p < .05) に特別の意味はない
検定の問題検定の問題
• 帰無仮説 (H0) は厳密には常に誤り
– 母集団においてRDが「正確にゼロ」になることは,ありえない母集団においてRDが 正確にゼ 」になることは,ありえない
• 標本サイズが大きいと必ず有意になる
(標本サイズが小さいと必ず有意にならない)( )
– 検定結果=効果量×標本サイズ
30
質的データの二変量解析の留意事項
③「意味のある差」の解釈はRDとNNT
必要治療数 (Number Needed to Treat NNT)必要治療数 (Number Needed to Treat, NNT)
• 計算式: NNT = 1 / |RD|
– RD = –0.0077; NNT = 1/|–0.0077| = 129.9RD 0.0077; NNT 1/| 0.0077| 129.9
• 得点可能範囲: 1 to +∞
• 解釈解釈
– +∞ = 両群で差がない
– 1 ≒ 2群間の差が大きい
31
質的データの二変量解析の留意事項
③「意味のある差」の解釈はRDとNNT
必要治療数 (Number Needed to Treat NNT)必要治療数 (Number Needed to Treat, NNT)
• NNT = 130の解釈
– プラセボよりも,1人余分に心筋梗塞の発症を予防するには,アスピリプラセボよりも,1人余分に心筋梗塞の発症を予防するには,アスピリ
ンにより130人を5年間治療する必要がある
– プラセボではなくアスピリンにより130人を5年間治療するごとに,心筋
梗塞の発症を1人予防できる梗塞の発症を1人予防できる
• 1人の心筋梗塞を予防するための費用
– 計算式: NNT×費用– 計算式: NNT×費用
– アスピリンの薬価: Bufferin (ライオン-エーザイ) = 6.10円/錠
– 薬剤費/5年: 6.10円/錠×365日×5年 = 11132.5円
– 予防費用 = (130人×11132.5円) = 1,447,225円 (5年間)
32
質的データの二変量解析の留意事項
④「統計的」 に「意味のある差」は定義不能
NNTと臨床的意味の大きさは必ずしも関連しないNNTと臨床的意味の大きさは必ずしも関連しない
独立変数 従属変数 RD NNT 臨床的意味
の大きさの大きさ
アスピリン vs
プラセボ
心筋梗塞の発症 0.8% 130 通常診療の
一環にプラセボ 環に
シクロスポリン
(抗生物質) vs
臓器移植の拒絶反応 15.9% 6.3 画期的な打
開策と認知(抗生物質) vs
通常診療
開策と認知
心理療法 vs 心理・社会的状態 32.3% 3.1 ほどほど心理療法 vs
通常診療
心理 社会的状態 32.3% 3.1 ほどほど
33
Kraemer et al: Biolo Psychiatry 59: 990-996, 2006.
Rosentahl et al: Contrasts and effect sizes in behavioral research. Cambridge, 2006.
質的データの二変量解析の留意事項
④「統計的」 に「意味のある差」は定義不能
従属・独立変数の性質が臨床的意味の大きさと関連従属 独立変数の性質が臨床的意味の大きさと関連
• 生命/生活への影響が大きい従属変数
– 小さな差異 (大きなNNT) でも臨床的意味が大きい小さな差異 (大きなNNT) でも臨床的意味が大きい
• 安価/安全な独立変数
– 小さな差異 (大きなNNT) でも臨床的意味が大きい( )
• 生命/生活への影響が小さい従属変数
– 大きな差異 (小さなNNT) でも臨床的意味が小さい
• 高価/危険な独立変数
– 大きな差異 (小さなNNT) でも臨床的意味が小さい
「意味のある差」の定義は領域固有の主観が不可欠
34
Kraemer et al: Biolo Psychiatry 59: 990-996, 2006.
Rosentahl et al: Contrasts and effect sizes in behavioral research. Cambridge, 2006.
話題
Rによる質的データの二変量解析 (7 min)Rによる質的データの二変量解析 (7 min)
質的データの二変量解析の基礎 (8 min)
質的データの二変量解析の留意事項 (14 min)質的データの二変量解析の留意事項 (14 min)
一流誌での報告事例 (0 min)
初心者向けの推薦文献 (1 min)初心者向けの推薦文献 (1 min)
35
一流誌での報告事例
コルヒチンによる心膜炎の再発予防
概要概要
• 研究法 = 無作為化比較試験 (二重盲検法)
• 追跡期間 = 5年間• 追跡期間 = 5年間
• 調査対象 = 心膜炎を初めて再発した120名
• 独立変数 = コルヒチン投与/プラセボ投与• 独立変数 = コルヒチン投与/プラセボ投与
• 従属変数 = 心膜炎の再発の有無 (18か月後)
36Imazio et al: Ann Intern Med 155: 409-414, 2011
一流誌での報告事例
コルヒチンによる心膜炎の再発予防
方法の節方法の節
– 統計解析の項
» We needed 120 patients, 60 in each treatment group, to
detect a 50% relative reduction in the risk for recurrence
(50% in the placebo group vs. 25% in the colchicine group)
with a power of 80%, using a 2-sided α value of 0.05. Thep , g
estimated 50.0% rate of recurrent pericarditis in the
placebo group was based on the preliminary findings of the
CORE trial (4) Analyses were performed by intention toCORE trial (4). Analyses were performed by intention to
treat.
37Imazio et al: Ann Intern Med 155: 409-414, 2011
一流誌での報告事例
コルヒチンによる心膜炎の再発予防
結果の節結果の節
» At 18 months, the recurrence rate was 24% in the
colchicine group and 55% in the placebo group (absolute
i k d ti 0 31 [95% CI 0 13 t 0 46] l ti i krisk reduction, 0.31 [95% CI, 0.13 to 0.46]; relative risk
reduction, 0.56 [CI, 0.27 to 0.73]; number needed to treat,
3 [CI, 2 to 7]).
38Imazio et al: Ann Intern Med 155: 409-414, 2011
一流誌での報告事例
コルヒチンによる心膜炎の再発予防
考察の節考察の節
– Table 4 (先行研究との比較)
39Imazio et al: Ann Intern Med 155: 409-414, 2011
一流誌での報告事例
コルヒチンによる心膜炎の再発予防
考察の節考察の節
– 結論
» In summary, adding colchicine to empirical anti-
inflammatory therapy seems to be an inexpensive and safe
means to hasten symptom resolution, improve remission
rates by 1 week, and reduce recurrence after an initialy ,
recurrence of pericarditis.
40Imazio et al: Ann Intern Med 155: 409-414, 2011
一流誌での報告事例
コルヒチンによる心膜炎の再発予防
要旨の節要旨の節
– 結果の項
» At 18 months, the recurrence rate was 24% in the
colchicine group and 55% in the placebo group (absolute
risk reduction, 0.31 [95% CI, 0.13 to 0.46]; relative risk
reduction, 0.56 [CI, 0.27 to 0.73]; number needed to treat,, [ , ]; ,
3 [CI, 2 to 7]).
– 結論の項
C l hi i i f d ff ti f d ti f» Colchicine is safe and effective for secondary prevention of
recurrent pericarditis.
41Imazio et al: Ann Intern Med 155: 409-414, 2011
話題
Rによる質的データの二変量解析 (7 min)Rによる質的データの二変量解析 (7 min)
質的データの二変量解析の基礎 (8 min)
質的データの二変量解析の留意事項 (14 min)質的データの二変量解析の留意事項 (14 min)
一流誌での報告事例 (0 min)
初心者向けの推薦文献 (1 min)初心者向けの推薦文献 (1 min)
42
初心者向けの推薦文献
教科書
• Beyond significance testingy g g
– http://www.amazon.co.jp/dp/1591471184
– 効果量の代表的な成書
– 基礎的な統計学の教科書を読了していれば読める数学レベル
統計学のセンス• 統計学のセンス
– http://www.amazon.co.jp/dp/4254127510
– 統計学的な素養を養える生物統計学の読み物統計学的な素養を養える生物統計学の読み物
– 誰でも読める数学レベル
43

初心者による初心者のための「質的データの二変量解析」

Editor's Notes

  • #2 循環器疾患とうつ病(スライド)
  • #3 循環器疾患とうつ病(スライド)
  • #4 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #5 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #6 循環器疾患とうつ病(スライド)
  • #7 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #8 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #9 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #10 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #11 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #12 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #13 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #14 Clustered and longitudinal data by Dobson and barnett 循環器疾患とうつ病(スライド)
  • #15 循環器疾患とうつ病(スライド)
  • #16 循環器疾患とうつ病(スライド)
  • #17 循環器疾患とうつ病(スライド)
  • #18 循環器疾患とうつ病(スライド)
  • #19 循環器疾患とうつ病(スライド)
  • #20 循環器疾患とうつ病(スライド)
  • #21 循環器疾患とうつ病(スライド)
  • #22 循環器疾患とうつ病(スライド)
  • #23 循環器疾患とうつ病(スライド)
  • #24 循環器疾患とうつ病(スライド)
  • #25 循環器疾患とうつ病(スライド)
  • #26 循環器疾患とうつ病(スライド)
  • #27 循環器疾患とうつ病(スライド)
  • #28 循環器疾患とうつ病(スライド)
  • #29 循環器疾患とうつ病(スライド)
  • #30 循環器疾患とうつ病(スライド)
  • #31 循環器疾患とうつ病(スライド)
  • #32 循環器疾患とうつ病(スライド)
  • #33 循環器疾患とうつ病(スライド)
  • #34 循環器疾患とうつ病(スライド)
  • #35 循環器疾患とうつ病(スライド)
  • #36 循環器疾患とうつ病(スライド)
  • #37 循環器疾患とうつ病(スライド)
  • #38 循環器疾患とうつ病(スライド)
  • #39 循環器疾患とうつ病(スライド)
  • #40 循環器疾患とうつ病(スライド)
  • #41 循環器疾患とうつ病(スライド)
  • #42 循環器疾患とうつ病(スライド)
  • #43 循環器疾患とうつ病(スライド)
  • #44 循環器疾患とうつ病(スライド)