Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Analysis of clinical trials using sas 勉強用 isseing333

9,155 views

Published on

  • Be the first to comment

Analysis of clinical trials using sas 勉強用 isseing333

  1. 1. 東京大学医学系研究科・疫学教室 倉橋一成 東京大学 医学系研究科 倉橋 一成 1
  2. 2.  SAS社のHP ◦ http://support.sas.com/companionsites サンプルコード、マクロ ◦ http://ftp.sas.com/samples/A59390 東京大学 医学系研究科 倉橋 一成 2
  3. 3.  1.1 Introduction 1.2 Continuous Endpoints 1.3 Categorical Endpoints 1.4 Time-to-Event Endpoints 1.5 Tests for Qualitative Interactions 東京大学 医学系研究科 倉橋 一成 3
  4. 4. 東京大学 医学系研究科 倉橋 一成 4
  5. 5. 東京大学 医学系研究科 倉橋 一成 5
  6. 6. 東京大学 医学系研究科 倉橋 一成 6
  7. 7. 東京大学 医学系研究科 倉橋 一成 7
  8. 8. 東京大学 医学系研究科 倉橋 一成 8
  9. 9. 東京大学 医学系研究科 倉橋 一成 9
  10. 10. 東京大学 医学系研究科 倉橋 一成 10
  11. 11. 東京大学 医学系研究科 倉橋 一成 11
  12. 12.  Large-strata asymptotics:層が大きい(ロジット補正、 Breslow-Dayなど) Sparse-data asymptotics:層が多い(CMH) ◦ 2つの基準値が5を超えているとCMH検定量はχ2分布で近似 できる(Mantel, 1980, AJE) Proc multtestで層別CA並べ替え検定も可能 ◦ Fisher正確検定の簡易版で傾向性も考慮 ◦ 並べ替えは多変量超幾何分布を利用 東京大学 医学系研究科 倉橋 一成 12
  13. 13.  CMH ◦ Proc freq  table / cmh 層別CA並べ替え検定 ◦ Proc multtest  class explanatory  strata stratum  test ca(outcome / permutation=)  Permutationオプションより小さい層で並べ替え  オプションが無いと連続補正した正規近似  観測値が数千あっても並べ替え検定できる  lowertailedオプションで片側検定 東京大学 医学系研究科 倉橋 一成 13
  14. 14.  CMHの重みは層間のオッズ比が均一のとき最適 (Radhakrishna, 1965, Biometrics) ◦ どの指標が均一かはデータを入手するまで不明 ◦ 最悪の状況で検出力の損失が最小になる方法 Minimum risk tests(Mehrotra, 2000, Stat Med) ◦ MSEを最小にする重み ◦ 重みをpとnから計算 ◦ 点推定値、検定統計量を計算  オッズ比が均一でない:MRはSSIZEより有効  SSIZEは漸近的にCMHに等しい  リスク比が均一でない:MRはINVARより有効 ◦ Nj>10のとき正規近似できる ◦ 均一性に関してa prioriな情報しかない際に有用 ◦ マクロ内でIMLを利用して計算 ◦ %MinRisk 東京大学 医学系研究科 倉橋 一成 14
  15. 15.  共変量は連続変数でも良い ◦ Randomization-Basedはカテゴリ変数のみ ロジスティックモデルに基づく漸近最尤推定 ◦ Proc logistic  主効果のワルド検定、パラメタの最尤推定、オッズ比  層を調整したワルド検定はCMH(1.3.1)と近い値  SparseでなければCMHはロジスティックモデルでのスコア検定に近似し、スコア検定はワルド 検定に近似する(Day, 1979, Biometrics)  class / param=glm:ダミー変数のパラメタをGLM流にする  model / clodds=pl:プロファイル尤度での信頼区間  オッズ比が1に近くない場合でも安定している(Agresti, 2002, Wily) ◦ Proc genmod  model / type3:Type3流の尤度比検定統計量  ワルド検定統計量よりも検出力、安定性の面で有用(Agresti, 2002, Wily)  Proc logisticでも計算できる  尤度比が出るから、共変量を入れたり消したりしたときの尤度比を引けば良い 東京大学 医学系研究科 倉橋 一成 15
  16. 16.  十分統計量での条件付最尤推定 ◦ 正確な推定、検定、信頼区間が可能(Agresti, 2002, Wily) ◦ Proc logistic  class / param=reference  exact / estimate=odds  正確なオッズ比、信頼区間を計算  スコア、確率法共にCA並べ替え正確検定と同じP値  オッズ比の点推定はCMHとロジット補正の中間  オッズ比の信頼区間はCMHとロジット補正より広い  SAS V9からは層別条件付推定ができる 東京大学 医学系研究科 倉橋 一成 16
  17. 17.  層別カテゴリカル結果変数の解析 ◦ 今回は2値のみだったが多値でも解析可能 Randomization-based ◦ リスク差、リスク比、オッズ比 ◦ Proc freqでリスク比とオッズ比のCMH、ロジット補正推定が 可能 ◦ %MinRiskマクロ(Appendix) Model-based ◦ Proc losisticでワルド検定、オッズ比の点推定、ワルドとプ ロファイル尤度信頼区間、尤度比検定(手計算) Sparseな場合は注意 ◦ リスク比、オッズ比のCMH推定はかなり頑健 東京大学 医学系研究科 倉橋 一成 17
  18. 18.  イベントデータの層別解析 Randomization-based ◦ 層別ウィルコクソン、層別ログランク(Proc lifetest) Model-based ◦ Cox回帰(Proc phreg) 変量効果はAnderson, 1999, Stat MedかYamaguchi, 1999, Stat Med シミュレーションデータ ◦ ワイブル分布から生存時間を発生(rand関数) ◦ Proc lifetest:KM曲線を描くためのデータセット作成 ◦ Proc gplot anno=:図中に文字を入れる 東京大学 医学系研究科 倉橋 一成 18
  19. 19.  Proc lifetest ◦ ノンパラメトリック  ログランク検定  2群:Mantel, 1966, Cancer Chemo Reports  多群:Peto, 1972, JRSS A  比例ハザード性が成立しているとき最強力  ウィルコクソン検定  2群:Gehan, 1965, Biometrika  多群:Breslow, 1970, Biometrika  比例ハザード性が不成立のときログランク検定より強力  早い時点で多くのイベントが発生したときは注意(Prentice, 1979, Biometrics)  Tarone-Ware検定(Tarone, 1977, Biometrika)、Harrington-Fleming検定(Harrington, 1982, Biometrika)  重みが異なる  ログランク検定やウィルコクソン検定より頑健 ◦ パラメトリック  尤度比検定  一般化linear rank test(Hajek, 1967, Academic press) 東京大学 医学系研究科 倉橋 一成 19
  20. 20.  治療群、非治療群の分布間の距離を規定する重みが異なる ◦ ログランク:dL=Σk(d1k-e1k)  d:k時点のイベント数(治療群)  e:帰無仮説の下での期待イベント数(治療群)  時点に関して均等な重み ◦ ウィルコクソン:dW=Σknk(d1k-e1k)  n:リスクセット(両群)  初めのイベントほど重みが大きい  対象者が少なくなると精度が落ちるため ◦ Tarone-Ware:dTW=Σknk1/2(d1k-e1k)  ログランク(n0)とウィルコクソン(n1)の中間 ◦ Harrington-Fleming:dHF=ΣkSkρ(d1k-e1k)  S:併合KM推定  ρ:重みが個人のイベント時間にどの程度寄与するか  0:ログランク検定と同値、1:ウィルコクソンタイプ 東京大学 医学系研究科 倉橋 一成 20
  21. 21.  Proc lifetest ◦ サブグループ解析  strata explanatory  ログランク、ウィルコクソン、尤度比検定を行う  尤度比検定は指数分布を仮定しているため注意  Randomization-based  test explanatory  ログランク、ウィルコクソン検定を行う  タイデータがある場合はstrataとtestの結果は異なる  Model-basedに近い  Cox回帰の結果と同等  strata / test=(tarone fleming(ρ)):SAS V9で可能 ◦ 層別解析  ログランク、ウィルコクソン共に以下の式で検定  u=(Σjdj)2/Σjsj2~χ12分布  d:層毎の距離、s2:層毎の層内分散  test explanatory  strata stratum  ベースラインリスクを調整した検定  %LinRankでTarone-Ware、 Harrington-Flemingの層別解析も可能(Cantor, 1997, SAS) 東京大学 医学系研究科 倉橋 一成 21
  22. 22.  Proc lifereg ◦ パラメトリックモデル(Allison,1995, SAS) Proc phreg ◦ セミパラメトリックモデル  Cox回帰(Cox, 1972, JRSS B, 187-)  比例ハザードモデル  hik(t)=h0(t)exp{XikTβi}  i:治療群、k:対象者、h0:ベースラインハザード  パラメタ(β)を部分尤度を最大化することで推定  部分尤度にはh0が含まれない  後に部分尤度推定量の一致性、漸近正規性が示される(Tsiatis, 1981, Annals of Stat) ◦ 層別解析、discrete-timeモデル、時間依存性共変量など可能  時間依存性共変量の例(Allison, 1995, SAS) 東京大学 医学系研究科 倉橋 一成 22
  23. 23. ◦ 層別解析  strata stratum  class  SAS V8には無いためダミー変数が必要  SAS V9のtphregにはある  3種の検定の結果が表示  スコア検定  タイデータが無ければログランク検定と等しい  あった場合もデフォルトの修正方法であれば等しい(Collet, 1994, Chapman and Hall)  比例ハザード性が不成立でも頑健  ハザード関数が交わっていると効率はかなり落ちる  model / risklimits  ハザード比の最大部分尤度推定値、信頼区間  Proc lifetestでは効果の推定は不可能  baseline out=  生存曲線のアウトプット  形は群毎で異なるがハザード比は全群で等しい  比例ハザード性の確認  図によって確認する(Allison, 1995, SAS; proc lifetest) 東京大学 医学系研究科 倉橋 一成 23
  24. 24. ◦ タイデータの解析  時間が離散である場合に起こる  打ち切りは同時に起きてもタイにはならない  部分尤度の導出や推論が困難  正確な部分尤度ではなく近似部分尤度を利用する  可能性のある全順序の平均を尤度関数とする(Breslow, 1974, Biometrics)  Proc phregのデフォルトはBreslow法  タイの数が多いとパラメタに0の方向へバイアスが入る  修正版  model / ties=efron(Efron, 1977, JASA)  model / ties=exact(Kalbfleisch, 1973, Biometrika) 東京大学 医学系研究科 倉橋 一成 24
  25. 25.  Randomization-based ◦ Proc lifetest  治療群での生存関数の比較など単純な推測のみ  ログランク検定:比例ハザード性が成立しているとき最強力  ウィルコクソン検定:生存者が少ない場合の試験終了間際のイベントには感度が低い  Tarone-Ware、Harrington-Fleming法:多くの仮説に対して頑健  time-to-eventデータは複雑な性質であるため、シミュレーションで検出力を推定する のも良い Model-based ◦ Proc phreg  Cox比例ハザードモデルのような回帰モデルを利用  部分尤度による推測  ベースラインハザードは除去され、これを指定をしなくても推定可能  パラメタの推定はイベントの順位でノンパラメトリックに行うので頑健  層別、時間依存性共変量、タイデータの補正などが可能  連続変数、カテゴリカル変数の効果を確認可能  比例ハザード性が崩れていても頑健だが検出力の低下は起こる  strataステートメントで層別を行い層毎の比例ハザード性を適用する 東京大学 医学系研究科 倉橋 一成 25
  26. 26.  治療効果の不均一性は多くの出版物やガイドラインで強調されている ◦ ICH E9 3.2  図示したり交互作用の検定を行うなどして施設間の不均一性を確認するべき いくつかの層で逆の効果が観察されても、それが真の治療効果であると は限らない ◦ 層が多くあれば偶然逆の効果が観察される可能性が高くなる(Senn, 1997, Wiley)  10個層があれば80%を超える 交互作用の定義 ◦ 量的交互作用  治療効果の程度は変わるが方向は変わらない  自然なばらつきによって起こるものであり極端な場合は質的に変わることも ◦ 質的交互作用  真の治療効果の方向が変わる  crossover交互作用とも呼ばれる?  Gail-Simon検定(Gail, 19985, Biometrics)、Pushuback検定(Ciminera, 1993, Stat Med) 東京大学 医学系研究科 倉橋 一成 26
  27. 27.  多変量仮説の象限(orthant)を考える ◦ 正の象限:真の治療効果が全て正 ◦ 負の象限:真の治療効果が全て負 P=Σi=1m-1(1-Fi(Q))Bini,m-1(0.5) ◦ Fi():χi2の累積確率 ◦ Q=min(Q+,Q-)  Q+=Σi=1m(di2/si2)I(di>0)  di:真の治療効果δiの推定値、si:標準誤差  推定値が正の集合と負の集合の小さい方 ◦ Bini,m-1(0.5)  自由度がiになる確率  真の治療効果が正または負である個数の確率 ◦ 自由度がiになる確率にそのときのP値をかけて合計する  質的交互作用がないという帰無仮説での尤度比P値 %GailSimon ◦ 片側帰無仮説:「全て正」、「全て負」 ◦ 両側帰無仮説:「全て正または全て負」、「交互作用はない」  確率の交互作用の場合はBreslow-Day検定よりも保守的になる  帰無仮説:オッズ比は均一 東京大学 医学系研究科 倉橋 一成 27
  28. 28.  pushback検定の手順 ◦ τi=(di-m)/si  メディアン標準化を行う ◦ ρi=τ(i)-ti  τiを並べ替えた値からpushback標準化を行った値を引く  正規分布を利用:最も検出力が高い  t分布を利用:最も検出力が低い  ρiの符号がτ(i)と異なる場合はρi =0とする ◦ di*=siρi+m  メディアン標準化を戻す  di*が質的交互作用の度合いを示す  符号が異なる群があれば帰無仮説を棄却することと同値 %Pushback ◦ 層の数が多くなると正規分布とt分布を利用した場合の違いが大きい Gail-Simon検定との比較 ◦ 検出力は低いが感度は高い?(Ciminera, 1993, Stat Med) ◦ hamd17の例  Geil-Simon検定:-4.09まで検出  pushback:-1.85(正規分布)、-3.7(t分布)まで検出 東京大学 医学系研究科 倉橋 一成 28
  29. 29.  Gail-Simon検定 ◦ 確定的な場合に有用 pushback検定 ◦ 探索的な場合に有用 交互作用の見つかった施設を除いた解析を正当化す ることは難しいが、感度解析を行う際の設定や結果の 解釈には役に立つ 東京大学 医学系研究科 倉橋 一成 29
  30. 30.  2.1 Introduction 2.2 Single-Step Tests 2.3 Closed Testing Methods 2.4 Fixed-Sequence Testing Methods 2.5 Resampling-Based Testing Methods 2.6 Testing Procedures for Multiple Endpoints 2.7 Gatekeeping Strategies 東京大学 医学系研究科 倉橋 一成 30
  31. 31.  全体のType I errorを制御する必要 ◦ 審査側が効果の無い薬剤を承認してしまう  European Committee for Proprietary Medicinal Products(CPMP)  単一のプライマリエンドポイントを用いた調整無しのType I errorが必要  プライマリエンドポイントについてあらかじめ定められた帰無仮説に対して適切な解析ストラテジーが 必要であり、暫定的な解析は不必要  ICH E9  多重性についてはプロトコルで特定しておくべきであり、調整方法も詳しく記載するべきである 臨床試験での多重性 1. 治療群の多重性  Phase IIの多くではいくつかの用量での有効性と安全性を確認 2. プライマリエンドポイントの多重性  有効性と安全性についていくつかの側面から評価する  例:心血管薬(全因性死亡、非致死性心筋梗塞、難治性狭心症の緊急血管再生術) 3. セカンダリ解析の多重性  セカンダリ解析やサブグループ解析で調整することはまれであった  近年はプライマリ解析を含めて階層化し、調整することが強調されてきている 東京大学 医学系研究科 倉橋 一成 31
  32. 32.  weak and strong control ◦ 統計家が何十億という仮説に答えなくてはならない中でどのように帰無仮説 族を構成すれば良いのか?  帰無仮説族は試験レベルで考えれば良い  trialwise error rate ◦ 帰無仮説:μP=μL= μM= μH(global null hypothesis)  F検定  weak control  全帰無仮説が真であるときに誤って棄却する確率のみ制御  Dunnettの方法(1955, JASA)  strong control  どの帰無仮説が真であっても制御している  false discovery rate(Benjamini, 1995, JRSS B)  strong controlよりも甘い  帰無仮説が多い場合に有用  安全性の試験での利用が提案されている(Mehrotra, 2004, Statistical Methods in Medical Research)  ベイズ流の調整(Gonen, 2003, Biometrics, 76-) marginal p-value?(Chi, 1998, Drug Information Journal) 東京大学 医学系研究科 倉橋 一成 32
  33. 33.  Single-step ◦ 個々の仮説を独立に検定する ◦ 仮説の順序があまり重要でない場合 Stepwise ◦ 検定を逐次的に行う ◦ familywise error rate(FWER)を増加することなく、多くの帰無仮説を 棄却することができる点が利点 表記 ◦ global null hypothesis(包括的帰無仮説):{}、HG ◦ 順序p値:p() 調整p値が有意水準以下であれば帰無仮説を棄却する ◦ Westfall(1993, Wily)の定義に従う 東京大学 医学系研究科 倉橋 一成 33
  34. 34.  Bonferroni and Sidak ◦ Proc multtest(bonferroni、sidakオプション)  Bonferroni  p=mp  strong control  Sidak  p=1-(1-p)m  FWERを保てるのは検定統計量が次のような状況  互いに独立又は多変量正規分布(Sidak, 1967, JASA)  t分布や他の分布(Holland, 1987, Biometrics) ◦ 帰無仮説が一つでも棄却されればHGも棄却  HGに関しては閉手順の方が性能は良い ◦ 検定統計量に相関がある場合はかなり保守的になる ◦ Bonferroni法よりも一様に有効なsingle-step検定は無い(Hommel, 1983, Biometrical Journal) 東京大学 医学系研究科 倉橋 一成 34
  35. 35.  Sims法 ◦ HGの検定のみに利用可能  個別の帰無仮説に対する推論にも拡張可能(2.3) ◦ Ruger法に近い(Ruger, 1978, Metrika(ドイツ))  strong controlされているが検定に一つのp値しか利用していないのが問題 ◦ pSIM=m*min(p(1)/1,p(2)/2,…,p(m)/m)  PB=mp(1)であるから一様にBonferroni法より強力 ◦ Simes法は有意水準を保っていない(Hommel, 1983, Biometrical Journal)  (1+1/2+…+1/m)*α  m=2のとき1.5α、m=4のとき2.08α ◦ p値が独立な場合はαエラーの増加量が最大  検定統計量が多変量正規分布に従う場合、相関係数が大きくなるとαエラーが減少 する(Simes, 1986, Biometrika)  負の相関の正規分布である場合は名目上の値に近い(Hochberg, 1995, Journals of Statistical Planning and Inference)  同時分布が正の関係である場合はαエラーを保つ(Sarkar, 1997, JASA)  正規分布の仮定の下でいくつかの治療群を比較する場合など 東京大学 医学系研究科 倉橋 一成 35
  36. 36.  Single-step法は帰無仮説を個別に検定し、順序はあまり 重要でない ◦ Bonferroni  如何なる状況でもstrong controlしているが保守的である  Bonferroniよりも一様に強力なsingle-step法はない  p値の同時分布に仮定を加えればより強力な補正は可能 ◦ Sidak  Bonferroniよりも一様に強力?  検定統計量が独立であるか多変量正規分布に従う場合にFWERを制御 する ◦ Sims  HGの検定のみに利用可能  HGの検定に限りBonferroniよりも強力  検定統計量が独立であるか正に相関している場合に名義水準を保つ Proc glm, Proc mixedでも可能 東京大学 医学系研究科 倉橋 一成 36
  37. 37.  閉検定はMarcus(1976, Biometrika)によって定式化された ◦ 全ての多重性の調整方法は閉検定を利用したものであるか、又は これを再構築したもの(Liu, 1996, JRSS B) 様々な状況での検定を構築可能 ◦ 多変量エンドポイントや検定を繰り返す状況(Bauer, 1991, Stat Med) ◦ 容量反応性などの状況(Rom, 1994, Stat Med) ◦ 多群比較や多サブグループの比較(Koch, 1996, Drug Information Journal; Chi, 1998, Drug Information Journal) 不可能ではないが同時信頼区間の構成が困難 交差仮説(intersection仮説)のimplication関係を図で表現 することが多い FWERをstrong controlしている 東京大学 医学系研究科 倉橋 一成 37
  38. 38.  implication relationships HLMH HLM HLH HMH HL HM HH {HL, HM, HH} implies {HL, HM} implies {HL} 東京大学 医学系研究科 倉橋 一成 38
  39. 39.  閉検定手順 ◦ 適切なα水準で閉仮説族を検定する  水準さえ守っていればどのような検定でも良い  検定統計量が独立な場合の包括的F検定や、そうでない場合の包括 的Bonferroni検定など ◦ ある仮説を棄却するには、その仮説をimplyする仮説を全て 棄却しなくてはならない  ある交差仮説が採択された場合は、その仮説がimplyしている仮 説は全て採択される 東京大学 医学系研究科 倉橋 一成 39
  40. 40.  Holm法(1979, Scandinavian J of Stat) ◦ pHolm=max(p1*,…,pi*)  pi*=(m-i+1)pi  包括的Bonferroni法による閉検定手順と同値  PB=mpであるからBonferroni法より強力  Bonferroni法以上の帰無仮説が棄却される  P値の小さい仮説から順番に行う  step-down法 ◦ 閉仮説族の各仮説に対してα水準の検定が可能  全体のType I errorをstrong controlできる ◦ proc multtest stepbon 東京大学 医学系研究科 倉橋 一成 40
  41. 41.  多くの仮説を検定する場合はstepwise法のプログラム を行う余裕が無いことがある decision matrix algorithmが有効(Dmitrienko, 2003, Stat Med, 2387-) ◦ Decision matrixの対応する列の最大p値が、その帰無仮説の 調整p値 ◦ imlで計算  指示行列を作成  数学のテクニックを使ってる?  floor関数:底関数  調整p値を作成  loc関数:0でない値が格納されている場所を与える 東京大学 医学系研究科 倉橋 一成 41
  42. 42.  Shaffer(1986, JASA) ◦ 帰無仮説が互いに関連していることを仮定  ある帰無仮説が棄却されると他の帰無仮説も棄却される  多くの対比較を行う場合に有用  用量発見試験など Hommel(1986, Metrika; 1988, Biometrika) ◦ Sims法に基づいた閉検定手順  Holm法以上の帰無仮説を棄却する  Sims法と同様の性質を持つ  検定統計量が独立であるか正に相関している場合にFWERを保つ(Sarkar, 1997, JASA)  生のp値が全て有意な場合は全ての帰無仮説が棄却される ◦ Proc multtest hommel  Decision matrix法と同じ結果になる 東京大学 医学系研究科 倉橋 一成 42
  43. 43.  Hochberg(1988, Biometrika) ◦ p値の大きい仮説からHolm法と同じ検定を行う  step-up法 ◦ Holm法で棄却された仮説は棄却される ◦ Hommel法よりは一様に強力でない(Hommel, 1989, Biometrika) ◦ 個別のp値が独立な場合はFWERを保つ ◦ Proc multtest hochberg 検出力の比較 ◦ Hommel, Hochberg, Holm & Sidak, Bonferroniの順  Sims法に基づくHommelと、Sims法に関係するHochbergはFWERに注意 ◦ 正規分布の仮定の下で多群比較を行った場合のHommel法とHolm法の比較 (Dunnett, 1992, JASA) ◦ FWERの観点からは修正Hocgberg法(Hochberg, 1990, Stat Med)が良い (Brown, 1997, Stat Med) ◦ Hocherg法とHommel法はエンドポイントが多く相関係数が高くなると、FWERが 小さくなる(Sankoh, 1997, Stat Med)  3次元だと0.04、10次元だと0.03(相関係数は0.9) 東京大学 医学系研究科 倉橋 一成 43
  44. 44.  Holm法 ◦ Bonferroni法を利用しているので如何なる場合でもFWERを保つ ◦ Bonferroni法よりも一様に強力 ◦ step-down法 Hochberg法 ◦ step-up法 ◦ Holm法より強力だがFWERはSims法と同じ性質 Hommel法 ◦ Sims法を利用している ◦ Holm法、Hochberg法より一様に強力 ◦ FWERはSims法と同じ性質 ◦ Hochberg法より如何なる場合でも性質が良い 東京大学 医学系研究科 倉橋 一成 44
  45. 45.  得られたp値の順番で検定するのではなく、あらかじ め仮説の順番を決めておく ◦ 間違った帰無仮説が後の方になってしまい、誤って採択して しまう危険性もある 閉検定手順の性質から、以前の検定が棄却されてい れば次の検定のFWERは調整しなくても良い ◦ 順序は上(前)からか下(後)からの2通り 東京大学 医学系研究科 倉橋 一成 45
  46. 46.  治療効果発現の時期や期間を確認するための経時データの解析などは順番が 固定 アレルギー物質による喘息データ(allergen-induced asthma trial) ◦ 気管支拡張剤の試験 ◦ 10人試験薬、10人プラセボ ◦ allergen-induced asthmaモデル(Taylor, 1991, Lancet)  アレルギー物質を吸入したか調査 ◦ スパイロメトリーを使ってFEV1を測定  1時間までは毎15分、その後1時間おきに3時間まで測定 ◦ FEV1曲線に臨床的、統計的な差がつく最初の時点が重要  順序を固定して検定をするべき  閉検定手順の考え方から、個々の検定は調整する必要ない  step-down法:0時点が有意でないのでストップ  step-up法:3、2、1時点が有意  1時間後から有意な差がついていると解釈可能 単調性の仮定が成立している場合に性能が良い ◦ 時間に関して単調に変化 最小有効用量(MED)を求める場合も適している(Hsu, 1999, JASA) 経時データの解析も参考(Littell, 1996, SAS) 東京大学 医学系研究科 倉橋 一成 46
  47. 47.  順序を固定している場合はstepwise法を用いて簡単 に同時信頼区間を計算できる(Hsu, 1999, JASA) ◦ step-down方式で行い、最初に採択された仮説より後の下側 信頼限界をδ(臨床的な最小値)とする ◦ 最初に採択された仮説はその時点の下側信頼限界値 ◦ 全ての仮説が棄却された場合は全時点の下側限界値で最 小の値が、全時点の下側限界値となる H1 H2 …… HL …… Hn 検定の順序 下側信頼区間は無い 最初に採択 下側信頼区間の計算 東京大学 医学系研究科 倉橋 一成 47
  48. 48.  順序固定検定は帰無仮説が自然な順番になっている 場合に有用 多重性の補正をすることなく検定できる 以前の仮説が全て棄却されている場合のみ次の仮説 を検定する エンドポイントの変化が検定の順序に対して単調な場 合に有用 同時信頼区間の構成もHsu-Berger法によって可能 東京大学 医学系研究科 倉橋 一成 48
  49. 49.  p*=Prob{min(P1,…,Pm)<=p} ◦ Westfall(1989, JASA)の定義 ◦ P:m帰無仮説が同時に正しい場合のp値の分布からの観測 値 ◦ m観測値の最小値がp以下になる確率を補正p値(p*)とする subset pivotality conditionの下でstrong controlする Bonferroni法やSidak法より強力 ◦ 経験相関を考慮しているため p*を利用したHolm流のstep-down法も提案(Westfall, 1993, Wily) 東京大学 医学系研究科 倉橋 一成 49
  50. 50.  Bootstrap Resampling ◦ ブートストラップ(Efron, 1979, Annals of Stat)を利用してp値の同時 分布を推定する  分布の推定自体は行わずブートストラップサンプルから得られたp値を 利用する  ブートストラップによって得られた補正p値をideal bootstrap estimateと呼 ぶ  観測数nに関して指数的に計算時間が増大するためモンテカルロ法で 近似することもある 潰瘍性大腸炎の試験(ulcerative colitis trial) ◦ 用量発見試験(プラセボvs3群) ◦ 各群12人 ◦ プライマリエンドポイント:15ヵ所の内視鏡スコアの減少  正規分布には従わないがproc multtesstのlocation shiftモデルで解析  t検定で良い 東京大学 医学系研究科 倉橋 一成 50
  51. 51.  t検定による3つのp値をモンテカルロ法の近似で補正 ◦ εmn=ymn-Σny  m:治療群(0~3)、n:対象者(1~12) ◦ ブートストラップサンプルを治療群にランダムに割り付ける  帰無仮説は治療群に差が無いことを仮定 ◦ t検定で3つのp値を算出 ◦ 以上を繰り返しmin(p1*,p2*,p3*)がp1以下になる割合を求める  真の補正p値のモンテカルロ近似 proc multtest bootstrap stepboot seed= n= (single-step法とstepwise法) ◦ class explanatory ◦ test mean(outcome) ◦ contrast “name” hypothesis  contrastステートメントの仮説を調整する ◦ stepwise法の方が強力 ◦ FWERをstrong controlする 東京大学 医学系研究科 倉橋 一成 51
  52. 52.  proc multtest permutation stepperm ◦ リサンプリング法の結果はモンテカルロ近似に依存する ◦ 並べ替え検定の方が正確でブートストラップ法より保守的(Westfall, 1993, Wily) ◦ 結果変数が連続値の場合は結果が近いが2値の場合は異なる Subset Pivotality Condition ◦ リサンプリング法の推論を行う際の概念(Westfall, 1993, Wily)  帰無仮説(H1,…,Hm)を2つの集合に分ける  どのような分け方をしても集合1と集合2が独立なとき成立  集合2の仮説が真であっても偽であっても集合1には影響しない ◦ 2値データの場合は成立しない  正規変数では平均値が異なり分散が均一な状況はある  2値変数では確率が等しい場合のみ分散が均一(heteroscedastic nature)  2値変数に対するFisher正確検定による並べ替え検定が正しくない結果となった (Westfall, 1999, SAS) 東京大学 医学系研究科 倉橋 一成 52
  53. 53. ◦ heteroscedasticを解消するために分散安定化変換を行う  test ft(outcome/lower)  arcsine変換を行うFreeman-Tukey検定  Fisher正確検定よりFWERを保守する  test fisher(outcome/lower)  例:補正p値の方が小さくなっている ◦ Westfall(2000, SAS)に詳しい記述 2.5.1 Summary ◦ リサンプリングによる多重性の調整(Westfall, 1989, JASA) ◦ stepwise法のように単純で強力なため臨床試験で多用される  stepwise法:p値を直接補正  リサンプリング法:生データをリサンプリングしてp値を再計算 東京大学 医学系研究科 倉橋 一成 53
  54. 54.  有効性や安全性のための多重コプライマリエンドポイ ント ◦ 疾病の病因が複雑な場合は単一のエンドポイントで有効性を 示すことは難しい(Huque, 1997, J of Biopharmaceutical Stat)  潰瘍性大腸炎  全身性エリテマトーデス、SLE(Seigel, 1999, Lupus) パラメトリック、リサンプリング法を利用した検定 東京大学 医学系研究科 倉橋 一成 54
  55. 55.  表記 ◦ i:治療群(1,…,g)、j:対象者(1,…,ni)、k:エンドポイント (1,…,m) ◦ Xijk~N(μik、σk2)、R:分散共分散行列  分散共分散は治療群を通して等しく平均値のみ異なる 個々のエンドポイントを結合して有効性を示す ◦ 改善方向への片側検定  ホテリングのT2検定は方向が無い(両側)検定なので臨床試験に は適さない  臨床的に重要な方向へのホテリング型の検定が必要 東京大学 医学系研究科 倉橋 一成 55
  56. 56.  Tests Based on Marginal p-Values ◦ 周辺p値を利用した検定は仮説間の関連を考慮してない  Bonferroni法やHolm法など  かなり保守的  多重エンドポイントは生物学的に関連性があり相関も高い  1つのエンドポイントのみ効果がある場合、Bonferroni法が最も強力だった (Pocock, 1987, Biometrics)  このようは状況は臨床試験では考えにくい  これ以外の状況では検出力が低い リウマチ性関節炎の試験(Rheumatoid Arthritis Trial) ◦ ACR基準  米リウマチ協会(American College of Rheumatology)の評価方法  連続値を離散値に区切っているので検出力が低下するため、 プライマリエンドポイントは連続値を用いる  7つの尺度のいくつかが20%以上の改善  疾患活動性(関節数など)、患者評価、医師評価、炎症バイオマーカー 東京大学 医学系研究科 倉橋 一成 56
  57. 57. ◦ 新薬vsプラセボ、対象者24人◦ プライマリエンドポイント  関節28箇所  number of swollen joints (SJC):関節腫脹  number of tender joints (TJC):圧痛関節  100mm visual analog scale (VAS)  physician global assessment (PHA):医師評価  patient global assessment (PTA):患者評価◦ 等分散性のt検定では全て有意だがBonfferoni法による 補正を行うと有意にはならない 57
  58. 58.  Likelihood-Based Tests ◦ 正規性の仮定の下で多重エンドポイントを行う場合は尤度比 検定を行うが自然(Wassmer, 1999, J of Statistical Planning and Inference; Perlman, 1969, Annals of Mathematical Statistics)  式が複雑で特に相関行列が分からないときはさらに複雑  近似式が提案されている(Tang, 1989, Biometrika)  データを直行変換する  この近似式でも計算は大変  検定統計量の帰無分布はChi-bar-squared分布となる  P値の基準値を求めるために数値積分が必要 58
  59. 59.  Ordinary Least Squares Test (O’Brien, 1984, Biometrics) ◦ 個々の検定統計量の重み付き和を利用して包括的帰無仮説を検定する一般的な方法 ◦ 仮定:各エンドポイントでの効果の大きさが治療群内では等しい  仮定が成立していない場合は検出力が低下する  μi1/σ1=…= μiK/σK  Yijk=(Xijk-mk)/sk  i:治療、j:個人、k:エンドポイント  治療群をつぶした平均と標準偏差を用いて、測定値を標準化する  ΣkYijkを用いて分散分析を行う  個人毎にエンドポイントの和をとる  検定統計量はFg-1,n-mgに従う  二群比較でt検定流に検定する場合  tOLS=1/√(J’RJ)Σktk  tk:各エンドポイントのt検定統計量(観測値は標準化前)  J:1ベクトル、R:相関行列(J’RJは相関行列の全値の合計)  単純に各エンドポイントのt検定統計量を等しい重みで足したもの %GlobTest ◦ OLS, GLS, MGLS, RS(後述)を実行可能 59
  60. 60.  Generalized Least Squares Test (O’Brien, 1984, Biometrics) ◦ ΣtΣurtuYijuを用いて分散分析を行う  t、u:エンドポイント、r:相関行列の逆行列の成分  多重エンドポイントの相関行列の逆行列による重み付け  不均一分散の状況でOLSよりも効率が良い  他のエンドポイントと相関が低いエンドポイントの重みが大きい  検定統計量はFg-1,n-mgに従う ◦ OLSより検出力は高いが解釈が難しい  重みが負になる場合がある(Pocock, 19987, Biometrics; Follmann, 1995, Stat Med)  相関行列の列の合計が負の場合  修正OLS(Tang, 1993, Biometrics)  Σt√(rtt)Yijt  最小の検出力を最大化する OLS、GLSの拡張 ◦ ノンパラ(次項)、二項&生存時間(Pocock, 1987, Biometrics, 487-)、他の拡張 (Follmann, 1996, JASA; Lauter, 1996, Biometrics) 60
  61. 61.  Rank-Sum Test (O’Brien, 1984, Biometrics) ◦ エンドポイントが正規分布に従ってない場合のノンパラ検定  エンドポイントの次元を減らすという意味でOLSやGLSと同じ  ΣtRijtを用いて分散分析を行う  R:エンドポイント内の順位(治療群をプール)  Kruskal-Wallis検定に似ている Resampling-Based Tests (Westfall, 1999, SAS, 11.3) ◦ 2.5節のWestfall-Young法の拡張  proc multtest stepboot ◦ 相関を考慮できている(?) ◦ リウマチデータではOLSに比べてp値が大きくなっている  効果の大きさが大きいのでOLSの性質が良い  resampling法の検出力が特別低いわけではない 61
  62. 62.  包括的検定の目的は全体の効果の確認 ◦ 個々のエンドポイントの効果はわからない ◦ 包括的検定が有意であればスポンサーや審査側はどのエンドポイ ントに効果があったのかを知りたい 初めから2.2、2.3節の方法(Troendle, 1998, Stat Med)や resampling法を行えば個々の結果が分かる 包括的検定から初めて個々の検定に降りることもできる( Lehmacher, 1991, Biometrics; Westfall, 2000, SAS, 8) 例:リウマチデータで閉検定を行う ◦ 4つの帰無仮説で15の閉検定族 ◦ OLS検定を利用  たまたま調整p値と生のp値と等しい  効果の大きさが各エンドポイントで同等であったためOLSの性能が良かった  OLSのP値が生のp値よりも全て小さかった 62
  63. 63.  多重エンドポイントでの多重性の調整 ◦ Bonfferoniのように周辺p値を用いる方法はエンドポイントの相関を 考慮していないので保守的 ◦ ordinary least squares (OLS)は個々のエンドポイントを等しい重みで 計算し、効果の大きさが等しいときに検出力が高い ◦ generalized least squares (GLS)は相関を考慮した重みで計算し検出 力もOLSよりも高いが、相関関係によっては重みが負になり解釈が 難しい場合もある ◦ modified GLSは負にならない重みで計算 ◦ rank-sum testはOLSのノンパラ流の拡張 ◦ resampling法は確率的な関係を考慮し、包括的検定と個々の検定 の両方に利用できる ◦ 個々の検定の推論を行う場合はdecision matrixを用いた閉検定を 利用 63
  64. 64.  階層仮説である臨床試験の仮説族の検定手順 ◦ エンドポイントに順序がある場合  これまでの議論はエンドポイントは同等であった ◦ 用量発見研究 仮説族の順序に沿って順番に検定を行う ◦ 前の仮説族を“gatekeeper(門番)”と呼ぶ ◦ gatekeeperが開いた(棄却された)場合は次の仮説族に進む Serial gatekeeping (Bauer, 1998, Stat Med; Westfall, 2001, J of Statistical Planning and Inference) ◦ gatekeeperが全て棄却されないと次の仮説族に進めない  閉検定手順に近い ◦ 棄却できない仮説があればその時点で検定手順が終了する Parallel gatekeeping (Dmitrienko, 2003, Stat Med) ◦ gatekeeperのどれか1つでも棄却されると次の仮説族に進める ◦ 下位の仮説族の検出力が高い 64
  65. 65.  Trials with Hierarchically Ordered Endpoints ◦ 臨床試験ではエンドポイントをプライマリとセカンダリに分ける  プライマリ:試験全体の効果を決め、審査する際の基盤となる  セカンダリ:全体の効果への寄与が大きい場合もあるかもしれないが、 治療利益への十分なエビデンスとはならない(O’Neill, 1997, Controlled Clinical Trials) ◦ CPMPのセカンダリエンドポイントの定義  “Points to consider on multiplicity issues in clinical trials” (2002)  Committee for Proprietary Medical Products: 欧州医薬品委員会  新しい審査要求の基盤を生み出し得る変数  追加要求の基盤になり得る変数  エビデンスを支持する変数 ◦ セカンダリエンドポイントが新たな要求を生み出した例
  66. 66.  うつの試験(Depression Trial: Hamilton, 1967, British J of Clinical Psychology; Faries, 2000, J of Psychiatric Research) ◦ プライマリ:HAMD17のベースラインからの平均的な改善  17-item Hamilton Depression Scale  審査側の要求 ◦ セカンダリ:HAMD17の反応や減少率  追加の審査要求へのエビデンス ◦ FWERをstrong controlするように、プライマリがgatekeeperとなる手順を行う 急性呼吸促進症候群の試験(Acute Respiratory Distress Syndrome (ARDS) Trial) ◦ 審査要求(プライマリ)  生存日数  28日間の試験期間のうち人工呼吸器を付けていない日数 ◦ 追加審査要求(セカンダリ)  ICU(intensive care unit)に入っていない日数  QOL ◦ プライマリのうちどれかが有意になっていればセカンダリに進めるような手順を考える  プライマリ族も多重仮説になっているため、うつの例よりも複雑である
  67. 67.  Multiple Comparisons in Dose-Finding Trials ◦ 用量発見試験でのgatekeeping手順  Serial gatekeeping:Westfall (2001, J of Statistical Planning and Inference)  Parallel gatekeeping:Denne (2002, Pharmaceutical Statistics) ◦ 高血圧症の用量発見試験(Dose-Finding Hypertension Trial)  降圧薬の4つの用量(D1~D4)をプラセボに対して評価  用量の高いD3、D4が最も効果のあると考えられる  D3、D4のうちどちらかが有意になればD1、D2の検定に進む  用量反応性を確認したい  2つの仮説族のうちどちらかが有意になれば用量の組み合わせの検定に進む (D4 vs D1, D4 vs D2, D3 vs D1, D3 vs D2)  3つの仮説族が存在する  高用量、低用量、組み合わせ  前の2つの仮説族がparallelに行われることに注意して、全体のType I errorが 増加しないように検定手順を設定する
  68. 68.  n個の帰無仮説をm個の仮説族に分類する ◦ 仮説族F1,…,Fmはそれぞれni個の帰無仮説を持つ  仮説族Fiに属する帰無仮説はHi1,…,Hini  n1+…+nm=n  P値:P、多重性調整P値:P’ ◦ 仮説族内と仮説族間に重みを付ける  仮説族内:仮説族内で棄却されやすさが変わる  仮説族間:仮説族全体の棄却されやすさが変わる ◦ F1から順に検定し、passすれば次の仮説族に進む  passする基準  serial:max(p’i1,…,p’ini)≤α  parallel: min(p’i1,…,p’ini)≤α 2種の推量がある? ◦ 条件A:仮説族Fiは以下に続く仮説族に依存している ◦ 条件B:仮説族Fiは以下に続く仮説族に依存していない  臨床試験の文脈ではBの状況の方が理想的  しかしBの状況の方が検出力は低い
  69. 69. うつの試験 H21:HAMD17の反応率 H11:HAMD17の平均改善 H22:HAMD17の減少率ARDS試験 H11:人工呼吸器を 付けていない日数 H21:ICUに入っていない日数 H22:QOL H12:28日死亡率降圧薬用量発見試験 H11:D4 vs P H21:D2 vs P H32,H32,H33,H34: 用量の組み合わせ H12:D3 vs P H22:D1 vs P
  70. 70.  3種の方法 1. ボンフェローニ・ゲートキーピング法(B-G法)  条件Bを満たす 2. 補正ボンフェローニ・ゲートキーピング法(MB-G法)  一様にボンフェーローニ・ゲートキーピング法より強力  常に条件Bを満たすわけではない  条件Aは満たす  ある仮説族は下位の仮説族が棄却されるかどうかに依存する 3. シムズ・ゲートキーピング法(S-G法)  補正ボンフェローニ・ゲートキーピング法と似た特徴 %GateKeeper ◦ データセットに必要な変数  FAMILY 仮説族の順番  SERIAL 仮説族をserial(1)、parallel(0)に行うか  WEIGHT 仮説族の中での仮説の重み 0~1の値で、仮説族内の合計は1  RELIMP 仮説族の重み 0だとserial、0~1だとparallelになる?(0は含む、1は含まない) 大きいと以下の仮説族が棄却されにくくなる分、その仮説族は棄却されやすくなる  RAW_P 個々の仮説の生のp値 ◦ アウトプットデータはADJP(補正p値)を追加したデータセットになる
  71. 71.  ボンフェローニ・ゲートキーピング法(B-G法) ◦ うつの試験  帰無仮説  H11:HAMD17の平均値の改善に治療効果が無い(p11)  H21:HAMD17の反応率に治療効果が無い(p21)  H22:HAMD17の減少率に治療効果が無い(p22)  交差仮説を分かりやすくするため帰無仮説を以下のように書き直す  H11→H*100  H21→H*010  H22→H*001  条件Bを仮定しているので交差仮説に対応するp値は上位の仮説のみに影響さ れる  p*110=p11(H*110=H11 and H21)  p*011=2min(p21, p22)(H*011=H21 and H22)  Decision Matrix(決定行列)を作り、補正p値を計算する  p’11=max(p*111, p*110, p*101, p*100)=p11  下位の帰無仮説のp値に依存していない  プライマリの検定はセカンダリの検定に依存していない
  72. 72. ◦ ARDS試験(急性呼吸促進症候群)  プライマリ仮説族内に重みを付ける  H11:0.9 人工呼吸器を付けていない日数(VFD)  H21:0.1 28日全因死亡  プライマリ仮説族はparallelに検定  決定行列の作り方を確認  例1:VFD、28日死亡の両方で有意  例2:VFDは有意、28日死亡はmarginal-P値のみ有意  結果:どちらの例でもプライマリ仮説族は棄却されるためセカンダリ 仮説も棄却できる
  73. 73. ◦ 高血圧症の用量発見試験(Dose-Finding Hypertension Trial)  F1: D4 vs P, D3 vs P  F2: D2 vs P, D1 vs P  F3: D4 vs D1, D4 vs D2, D3 vs D1, D3 vs D2  D3 vs D4, D1 vs D2はない  8個の帰無仮説があるので決定行列の行数は28-1=255となる  手計算より%GateKeeperを使った方が楽  B-G法とHommel閉検定を比較  Hommel閉検定:Sims法を利用した閉検定手順  Sims法:棄却水準をp値の順位で割っていく  結果  F1:両方有意  F2:D2 vs Pが有意  F3:D4 vs D1とD3 vs D1が有意  Hommel閉検定はD4 vs P、 D4 vs D1、D3 vs D1の3仮説のみが有意  Hommel閉検定はボンフェローニ法よりも検出力の高いSims法を利用しているが 、ゲートキーピング法によって階層構造を考慮することでB-G法はHommel閉検 定よりも効率が高くなっている
  74. 74.  補正ボンフェローニ・ゲートキーピング法 ◦ 条件Aを仮定している  P値が小さくなる  重みの補正をしないため  検出力が高くなる  プライマリエンドポイントに対する推量はセカンダリエンドポイントに依存 し得る? ◦ ARDS試験(急性呼吸促進症候群)  例2の場合でも28日死亡が有意になる  下記の2箇所以外はボンフェローニ・ゲートキーピング法と全く同じ  ボンフェローニ・ゲートキーピング法:P*1000=P11/0.9、P*0100=P12/0.1  補正ボンフェローニ・ゲートキーピング法:P*1000=P11、P*0100=P12  セカンダリエンドポイントのp値が大きいとプライマリエンドポイントが有 意にならなくなる  (でもこれはボンフェローニ・ゲートキーピング法でも同じでは?)
  75. 75.  ボンフェローニ・ゲートキーピング法での仮説族の重み ◦ プライマリ仮説族とセカンダリ仮説族の重みを変える  ボンフェローニ・ゲートキーピング法でも検出力が大きくなる  セカンダリ仮説族の検出力と引き換えにしてプライマリ仮設族の検出力 を大きくする  パラメータ(RELIMP)を1に近づける  プライマリ仮説族の検出力:増加  セカンダリ仮説族の検出力:減少  条件Bを仮定している  プライマリ仮説族の推量はセカンダリ仮説族に依存しない ◦ ARDS試験(急性呼吸促進症候群)  以前の設定:RELIMP=0  RELIMP=0.9などにするとプライマリ仮説族の検出力が大きくなる  (P21を0.05にしてみるとH21(セカンダリ)の検出力も若干上がった)
  76. 76. ◦ シムズ・ゲートキーピング法(S-G法)  シムズ法はボンフェローニ法よりも一様に検出力が大きいので、 S-G法もB-G法より多くの帰無仮説を棄却する  一般的に仮説族の数が多くなると、検出力の利益が減ってしまう  (仮説族の数が多いとB-G法の検出力が大きくなると思われる)  条件Aを仮定している  前の帰無仮説族が全て棄却できていなくても、ある仮説を棄却してし まうことがある  生のp値が全て有意である場合は、B-G法とS-G法の結果が異な ることが多い  S-G法:補正p値も全て有意  B-G法:生p値が特に小さいものだけ有意になりやすい◦ 高血圧症の用量発見試験(Dose-Finding Hypertension Trial)  B-G法とほとんど同じ結果
  77. 77.  これまでのゲートキーピング法は検定統計量間の相関を考慮していない ◦ 効率を上げるためにも相関を考慮するべき  多重エンドポイント試験や用量発見試験では検定統計量の相関が大きいことが 多い Westfall-Young流の方法を紹介 ◦ 個々のp値の同時分布を考慮する ◦ %ResamGate  RESP:生(多重性の補正前)のブートストラップp値のデータセット  RESPデータセットi番目の変数がi番目の仮説に対応する  ブートストラップサンプルはproc multtestを利用すると早く発生できる  (proc surveyselectより早いかな?) 高血圧症の用量発見試験(Dose-Finding Hypertension Trial) ◦ 結果:リサンプリングをしない場合とほとんど変わらない  (少しだけ小さくなっている)  閾値に近い場合を除いて、リサンプリングによる改善は小さい(Dmitrienko, 2003, StatMed)
  78. 78.  n帰無仮説をm仮説族に分ける ◦ 各仮説族にはni個の帰無仮説 生のp値:p、仮説族内の帰無仮説の重み:wi 各仮説族はparallelかserial ◦ 最後の仮説族(Fm)は常にserialになる ◦ parallelの仮説族ではriがその仮説族の重要度を示す これまでの方法を式で表現
  79. 79.  serial ◦ 仮説族の帰無仮説が全て棄却されないと次の仮説族に進めない ◦ 仮説族の帰無仮説が1つずつであれば2.4節の順序を固定した検定と同等 parallel ◦ 仮説族の帰無仮説がどれか1つでも棄却されると次の仮説族に進める B-G法とMB-G法(ボンフェローニ) ◦ MB-G法はB-G法よりも検出力が大きいが下位の仮説族の影響を受ける可能 性がある ◦ B-G法で仮説族の重みを利用すれば、下位の仮説族の影響を受けずに上位 の仮説の検出力を増大できる S-G法(シムズ) ◦ 下位の仮説族の力を借りているためB-G法、MB-G法の検出力よりも大きい リサンプリング法 ◦ Westfall-Youngの方法を利用 ◦ 検定統計量間の相関を考慮しているためB-G法やS-G法より検出力が大きい
  80. 80. 基本概念 単純な調整 閉検定手順 包括的検定 Gatekeeping Resampling Westfall-Resampling Westfall-Resampling Westfall-Resampling Permutation Sims Hommel※ Sims Sims-Gatekeeping Hochberg※ Bonferoni Holm※ Bonferoni Bonferoni-Gatekeeping Bonferoni Modified-Bonferoni Shaffer※ Sidak Dunnet OLS GLS Likelihood MGLS Rank-Sum test ※閉検定手順のHommelからShafferは上から検出力の高い順に並んでいる Sims流の検定はBonferoni流の検定より検出力が高いが、Type I errorを保っていないかも Gatekeepingでは仮説族間の重みを利用したB-G法がお勧めだが、重みの決定が恣意的
  81. 81.  4.1 Introduction 4.2 Repeated Significance Tests 4.3 Stochastic Curtailment Tests ◦ 中間データモニタリングのレビュー  群逐次検定  Futility (無効性) test  頻度論(conditional power, 条件付検出力)  頻度論とベイジアンの混合(predictive power, 予測検出力)  ベイジアン(predictive probability, 予測確率)
  82. 82.  安全性・有効性試験のモニタリングは今日の臨床試験で重要になっている 数理的には連続したモニタリングを考えることはできるが、現実には群逐次モニタリン グが適している 新薬の性質についての十分な情報が得られると臨床試験を中止する ◦ 新薬が対照薬に比べて優れているか劣っているか 中間解析は次のような理由で行われる(Jennison, 1990, JRSS等) ◦ 倫理的要求  患者が害のある治療を受けないようにする責務があるため、試験薬に重大な副作用があれば即座に中 止しなくてはならない  死亡のような不可逆なイベントに対して安全性の中間評価を行う ◦ 財政的判断  研究や資金を最適に利用するために、特に大きな第II相・第III相試験で、有効性を早期に証明するため の中間解析を行う  計画した結果に届きそうに無い場合も試験は中止される ◦ 行政上(経営上)の問題  全体の結果の見通しを付け、経営・取引の問題決定をするために中間解析を行う  有効性が早期に示されれば薬品の工場生産を増加できるかもしれない  安全性・有効性に関する薬品のさらなる性質を掴むために試験は続行される 逐次中間解析はサンプル固定デザイン(fixed-sample design)と同等の性質を持ちながら、 中間解析の平均的なサンプルサイズは大きく減少する
  83. 83.  例:群逐次デザインとサンプル固定デザインの比較 ◦ 検出力80%、両側αエラー5%、標準偏差0.2の状況(Pocock, 1977, Biometrika, 191-; O’Brien, 1979, Biometrics, 549-) ◦ 効果の差が0.2で中間解析を半分の時点で1回行う場合、O’Brien法では10%、 Pocock法では15%平均サンプル数が減少 ◦ 効果の差が0の場合は中間解析を行うと平均サンプル数が増加 ◦ 中間解析の回数を増やすとこの性質が顕著になる ◦ 中間解析の方法が多数提案されている中で、主要な方法は検定を繰り返す 方法と区間を繰り返す方法  群逐次的に検定を繰り返す(Pocock, O’Brien)  柔軟な逐次モニタリングに拡張できる  区間法は逐次手順を連続に拡張したもの(Wald’s sequential probability test; triangular test; Whitehead, 1983, Biometrics, 227-)  群逐次解析に修正可能 ◦ 繰り返し検定が現在多く利用されている ◦ 正規・二項エンドポイントの紹介  生存時間への拡張も可能(Jennison, 2000, Chapman and Hall, Chap13)  同一人物が何度も解析される点が大きく異なる
  84. 84.  うつの試験(Depression Trial) ◦ 試験開始時と8週時点のHAMD17総得点の平均減少への有効性を 評価  差が3で標準偏差が8の場合:検出力90%で各群150必要(サンプル固 定デザイン) ◦ 対象者が約50%、75%集まった時点で中間解析を行う ◦ HAMD17の改善結果は表のようになった 重症敗血症の試験(Severe Sepsis Trial) ◦ 28日全因性死亡のプラセボ対照試験  死亡割合:プラセボ30%、試験薬24%と仮定  差が6%の場合:検出力が80%で各群859必要(サンプル固定デザイン) ◦ 対象者が約20%、66%集まった時点で中間解析を行う  初回の中間解析は主に無益性(futility)の確認  試験は有効性が確認されたときのみ早期中止される  2回目の中間解析は有効性と無益性の確認 ◦ 死亡率は表のような結果となった
  85. 85.  overview ◦ 4.2節  O’Brien法、Pocock法、Wan-Tsiatis法などを紹介  有効性・無益性を評価するためのサンプルサイズ設計や中止境界についての説明  柔軟な逐次戦略も紹介(Lan, 1983, Biometrika, 659-)  繰り返し信頼区間  バイアス補正した点推定値  最終解析の信頼区間 ◦ 4.3節  stochastic curtailment approachの紹介  条件付検出力(conditional power; 頻度論)  予測検出力(predictive power; ベイズ流と頻度論の混合)  予測確率(predictive probability; ベイズ流) ◦ ここで紹介しているのは“統計的な”確認方法だけ  中止を決定するためにはその他も要因も重要  安全性への注意、セカンダリの発見、部分集団への一致性、他の似た試験から得られる結果( Ellenberg, 2002, Wily, Chap8)  “良い推量というものは、p値を計算するだけではなくて、試験中止の意思決定も行う”(DeMets, 1984, Communications in Statistics Part A)
  86. 86.  notation ◦ m:中間解析の総回数  k:中間解析の回数 ◦ N:各群の最大サンプルサイズ  n:各群で集積されたサンプル数 ◦ i:治療群 ◦ X:測定変数(Xは1から最大Nまで、連続値か2値) ◦ δ:平均値か割合の差 ◦ s:併合分散 ◦ Z:検定統計量  Z=√(kn/2s2){(Σj=1knX1j)/kn-(Σj=1knX2j)/kn} 両側検定の場合は片側検定の境界を対称にする ◦ 有効性と無益性の両方を両側検定する場合は、対象な境界線が2 セットできる
  87. 87.  Group sequential plan for detecting superior efficacy ◦ αエラーを制御するように上側境界を定める ◦ 中間解析で計算した検定統計量が境界を上回れば、有効性 が証明され試験中止 Group sequential plan for detecting futility ◦ βエラーを制御するように下側境界を定める ◦ 境界を下回れば、対立仮説が偽であると示唆され試験中止 Group sequential plan for simultaneous efficacy and futility testing ◦ 上側、下側境界のどちらかをまたげば中止 ◦ α・βエラーの両方を制御している
  88. 88.  Popular group sequential designs 1. Pocock法:どの中間解析でも同じ境界値 2. O’Brien法:初めは保守的に、後のほうでは有意水準を名義値に近づける 3. Wan-Tsiatis族:境界の形を決めるパラメータρを導入(0~0.5)  ρ=0.5:Pocock法  ρ=0:O’Brien法 ◦ 逐次デザインは中止確率(stopping probabilities; P(δ))によって定義される  真の効果がδであった場合にk回目の中間解析で中止される確率  帰無仮説のもとでの中止確率を確認すると、中間解析がどれくらいαエラーを 消費しているか分かる  Pocock:試験終了前に中止する可能性が高い  O’Brien:αエラーの消費がとても少ない ◦ 期待サンプルサイズは中止確率の関数で、次のように計算できる  nΣk=1m-1kPk(δ)+nm(1-Σk=1m-1Pk(δ))  中間解析の回数とタイミング、中止境界に依存している ◦ 群の大きさが均一な場合しか紹介しないが、不均一な場合にも拡張可能
  89. 89.  Design and data monitoring stages ◦ Design stage 1. 片側対立仮説の検定(4.2.1; 有効性)か帰無または対立仮説の検定( 4.2.2; 有効性または無益性)を選択  帰無仮説の検定(無益性)は4.3節で説明 2. 中止境界の設定方法を選択(O’Brien, Pocock, Wang-Tsiatis) 3. 中止境界、最大サンプル数、期待サンプル数、検出力を計算 ◦ Monitoring stage 1. Lan-DeMetsの手順(Lan-DeMets error spending approach)が柔軟な方 法(4.2.3)  エラー消費関数を選び、各中間解析で限界値・p値を補正する(4.2.4, 4.2.5)  計画された中間解析と異なるタイミング・回数を行っても良い 2. 繰り返し信頼区間の構成(4.2.6)とバイアス補正点推定値・最終解析 での信頼区間(4.2.7)
  90. 90.  %EffDesign ◦ 早期に有効性を示すための中間解析をデザイン  RHO:デザインの種類を指定する(0:OF、0.5:P)  FRACTION:中間解析をするタイミングのデータ  BOUNDARY:中止限界・中止確率のデータ  SIZEPOWER:検出力・期待サンプルサイズのデータ ◦ SEQ、SEQSCALE関数を使って効率的に計算している  SEQ:中止確率・全体のαエラーを計算(recursive integration algorithm; Armitage, 1969, JRSS, 235-)  SEQSCALE:全体のαエラーが名義水準を保っているか確認 ◦ コード間違い:“&boundary[,2]=ceil(cusum(fraction)*max);”のcusumはいらない O’Brien-Fleming group sequential design in the depression trial ◦ うつの試験(Depression Trial)  50%、75%時点で中間解析を行うようにFRACTIONデータを作成  HAMDの群間差が3、SDが8とするとEFFSIZE=3/8=0.375  固定サンプルサイズ:150  H0が真の場合の期待サンプルサイズ:153  H1が真の場合の期待サンプルサイズ:115  %EffDesingの結果に沿って中間解析を行う  この場合は約77例、115例、153例そろった時点で行う
  91. 91.  Pocock group sequential design in the depression trial ◦ O’Brian-Fleming法はWang-Tsiatis族の極端な例であり、もう1つの 極端な例がPocock法(マクロはRHOで指定する) ◦ 効果が0.375の場合のO’Brian-Fleming法(OF)とPocock法(P)の比 較  期待サンプル数  H0が真:OFの方が少ない  H1が真:Pの方が少ない(早く終了しやすい)  効果が大いに見込める場合はPocock法が良い  検定統計量の境界値  試験早期:Pの方が小さい  試験後期:OFの方が小さい  効果が0に近いとPの期待サンプル数が大きく、効果が大きいとOFの期 待サンプル数が大きくなる
  92. 92.  Comparison of stopping boundaries ◦ どの中間解析法を選ぶかは試験の目的に大きく依存する ◦ 一般的な指針  Clinical considerations  かなり大きな効果があれば試験は早期中止されるが、その代わりに安全性やセカンダリの効果を確 認しにくい  早く終わる可能性の低いOFを利用することが多い  Sample size considerations  期待サンプルサイズや最大サンプルサイズが焦点  真の治療効果が大きい場合はPocockの期待サンプル数が小さい(Wang, 1987, Biometrics)  治療効果が無い場合はO’Brien-Flemingの期待・最大サンプル数が小さい  期待サンプル数が小さい:早期終了する可能性が高い  期待サンプル数を小さく最適化するような方法も考えられるが、そのような数学的な議論よりも先で 述べた臨床的な視点の方が重要  Data management considerations  最初の中間解析は、データマネージメント手順・コンプライアンス・データの質などを確認するために 行われることが多い  早期終了を避けるためにはO’Brian-Flemingを使う ◦ 新しいメカニズムの薬効の無効性を調べる場合は、早期終了をしないO’Brien-Flemingを 選択することが多い
  93. 93.  負の結果が避けられず、試験を続ける意味がない場合に試験を中止す る(無効性試験) ◦ 無効性の早期終了は人的・金銭的な莫大な出費を抑えることができる(Ware, 1985, American J of Med) ◦ 効果の弱い候補薬を早く脱落させれる ◦ 死に至ったり不可逆な結果を起こす、効果の無い薬に曝露される対象者の数 を最小にできる %EffFutDesign ◦ 帰無仮説と対立仮説を同時に検定するため、無効性を検証するための下側 境界も必要  上下に境界がある  上側境界を超えると帰無仮説を棄却  δ=0のもとで上側境界を超える確率:α  下側境界を超えると対立仮説を棄却  δ=δ1のもとで下側境界を超える確率:β  Wang-Tsiatis族を利用する場合は2つの乗法式を数値的に解く必要があるので SAS/IMLで最適化して求める
  94. 94.  Group sequential design for efficacy and futility testing in the severe sepsis trial ◦ 重症敗血症の試験(Severe Sepsis Trial)  かなり大きな治療効果がないと早期中止はしない  有効性にはO’Brien-Fleming、無効性にはPocockを使う  O’Brien-Fleming:早期中止の可能性が低く、最終解析での検出力が高い  Pocock:治療効果が負であるかとても小さい場合は早期中止する  20%と66%の対象者で28日の試験期間が終了した時点で中間解析する  効果はp1-p2/√(pbar-(1-pbar))で計算する  28日生存割合を0.76(試験群)、0.7(プラセボ群)とすると効果は0.1352となる  RHOEFF=0で有効性にO’Brien-Flemingを、RHOFUT=0.5で無効性にPocockを設定  帰無仮説が真であれば早期中止される可能性があるため、サンプル数が464と少ない(固定サンプ ル数は859)  有効性・無効性試験の欠点は最大サンプル数が多くなってしまう点(1078)  最初の中間解析での上側境界はz=4.1766とかなり大きい  下側境界はz=0.1335であり、帰無仮説が真であれば55.3%の確率でこれを下回り無効中止となる  重篤な患者に効果の無い治療を行うことは倫理的に問題  最終解析時のcutoff-P値は0.0309であり片側P値の0.025より大きい  無効性の早期終了を設定をしているため全体のαエラーが減っている(Chang, 2004, Pharmaceutical Statistics, 51-)
  95. 95.  Group sequential designs for efficacy and futility testing: alternative approaches ◦ 有効性・無効性試験は欠点がある(Gordon Lan)  下側境界が設定した効果によって変わる  仮定した効果を大きくすると下側境界も上がる ◦ 無効性で早期中止したとしても、真の効果の設定が妥当であ ったと言えるのか ◦ 推定された効果はもはや設定した効果とは違っており、推定 された効果を考慮するべき  古典的な群逐次法より頑健  4.3節のadaptive stochastic curtailment testと関連がある
  96. 96. 1. 事前に解析時点を決定しておく ◦ O’Brien-Fleming、Pocock2. 中間解析の時点、回数を変更する ◦ Lan-DeMetsのエラー消費(Lan, 1983, Biometrika, 659-)  方法の詳細はJennisonにある(2000, Chapman, 7章) ◦ 暦時間で解析時点を決定できる  薬理以外の試験ではこのような中間解析が多い(Van Den Berghe, 2001, NEJM)  3ヶ月、6ヶ月など  物流面(logistical)からも暦時間の方が都合が良い ◦ 時間(サンプル割合)に関して非減少なα消費関数α(t)を考える  α(0)=0、 α(1)=α ◦ 柔軟に解析できるが検出力が名目の値より小さくなりやすい  極端な例では15%減少した( Jennison, 2000, Chapman, 7.2) ◦ βエラー消費関数を導入して有効性・無効性試験を同時に行うこともできる(Pampallona, 1994, J of Statistical Planning and Inference, 19-) ◦ “将来の中間解析を行う時期は過去の観測値と独立である”という重要な条件がある  ある時点での結果を確定しようとして解析プランを変更するとαエラーが保たれない ◦ Pocockでは中止にならないのにLan-DeMetsでは中止になってしまうことは稀にあるかもしれない→ これを避けるためにはDesign-Basedな方法を使うべき(でもいつ解析するかわからないよな・・)
  97. 97.  Choice of an error spending function ◦ design-based α消費関数(Pampallona, 2001, Drug Inf J) ◦ ten-look ◦ Lan-DeMets (1983, Biometrika) ◦ Jennison-Turnbull (1990, Statistical Science) ◦ Hwang-Shih-DeCani (1990, Stat Med) Design-based error spending functions ◦ 消費関数による中止境界は群逐次法と同じ式から導かれる  以降、重症敗血症の例でten-look法などの方法と比較する ◦ 群逐次法の結果をα消費関数に変換する  有効性・無効性試験の場合はα・β消費関数に両方変換できる
  98. 98.  Ten-look ◦ 等しい間隔で10回行う中間解析の境界を使う  O’Brien-Fleming、Pocockなどの方法を利用 ◦ 消費関数  OFではDesign-basedの形と似ておりαの消費が遅い  Pではten-lookの方が早期にαを消費する  早期終了の可能性が一層高くなる Lan-DeMets ◦ α消費関数の近似式  OF: 2-2Φ(z1-α/2/√t)  P: αln(1+(e-1)t) ◦ 性質はten-lookと似ている Jennison-Turnbull ◦ 関数:αtρを利用  ρが大:αの消費が遅い(ρ=3でOFの近似)  ρが小:αの消費が早い(ρ=1でPの近似) Hwang-Shih-DeCani ◦ 関数:α(1-e-ρt)/(1-e-ρ) or αt when ρ=0 ◦ ρ=-4でOF、ρ=1でPの近似になる ◦ (Jennison-Turnbullの方が近似は良いみたい)
  99. 99.  有効な治療を早期発見するためのモニタリング 5種のα消費関数 繰り返し信頼区間とバイアス補正点推定値 ◦ 4.2.6, 4.2.7 %EffMonitor ◦ SPFUNCTION:α消費関数の指定  1: design-based (RHOを指定)  2: ten-look (RHOを指定)  3: Lan-DeMets (SPRHO=0 or 0.5)  4: Jennison-Turnbull (SPRHOを指定)  5: Hwang-Shih-DeCani (SPRHOを指定) ◦ INFERENCE:治療効果のバイアス補正推定値・信頼区間
  100. 100.  Efficacy monitoring in the depression trial using an O’Brien-Fleming plan ◦ うつの試験(Depression Trial)

×