11/24/2012
             改訂版

    生存時間分析について:
打ち切りデータのヒストグラ
            ム
         C 大学 M2
              K.A.


                  1
自己紹介

K.A.

• 経歴
  – S 県生まれ
  – C 大学(K 研究室) M2
  – T 大学 R 学部 S 学科卒



                      2
研究内容紹介:本発表の動機

• 修士論文テーマ(※今日はこの話はしません)
  『生存時間分析によるシール断面画像データの分析』
• シール断面の亀裂の長さを推定したい
• データに顕微鏡写真の視野による打ち切りがある
  – 生存時間分析手法を用いる
• 熱によってシールしているため,温度の影響を知りたい
  – 温度を説明変数にしたパラメトリックモデル
               シール断面画像データ
        打ち切
                     非溶着
        り?                   ?
                溶着
       線分の
       真の長さは                打ち切
       分からない                り
                              3
ヒストグラム
 ヒストグラムはデータの特性を見るためのイン
フォーマルなツールとして重要である.(中略)
ヒストグラムは適切なパラメトリックモデルの選
択に使える. (拙訳)
             ― Huzubazar (2004)

   今日はヒストグラムの話をします.




                              4
R: MASS パッケージ truehist の紹介

 “This plots a true histogram, a density estimate of total area 1.”
とヘルプに書かれている.

hist():ビンの数を『スタージェスの公式』によって決め
る
truehist():ビンの幅を『スコットの選択』によって決
めるこの密度関数に従う       hist(x) truehist(x)
     乱数 x を生成
                                                    #この色はデフォルト




                   ※ グラフは R-tips からのデッドコピー
                                                                      5
打ち切りデータのヒストグラム

準備
• 生存時間に対応する確率変数を T とする.
• 重複を除いた死亡時間の実現値を ti, i=1,…,r とする.
                 ~
• ヒストグラムの各階級の右端点を, j 0 ,..., w
                 tj            で表
     ~
  す(ここで
     t0 0  ).

Huzurbazar (2005) によれば,
打ち切りデータのヒストグラムは:
1. Kaplan-Meier 推定量により,生存率( t i ) を求める      ˆ
                                            S
2. Total probability S ( ~j ) S ( ~j 1 ) を求める
                     ˆ t      ˆ t

3. Total probability をビンの幅で割ったものを,ビン
   の
   高さとする

                                                6
打ち切りデータのヒストグラム
  • ビンの幅の決め方については明記されていないが,
     『スコットの選択』(truehistの方法)を採用した.
    – 『スタージェスの公式』(histの方法)では正規分
      布から離れると当てはめが悪くなるようなので.
                                                  3. ヒストグラム
1. 生存率( di : death
indicator) i
  ti     d    ˆ
             S (t )
                 i
                           2. Total Probability
      5     1   0.933333   ~
      6     1   0.866667   tj        TP
      7     0   0.866667           15 0.566667
      :     :          :           30 0.252778
     28     0   0.361111           45 0.180556
     29     1   0.180556
     43     1          0



                                                              7
コーディング:cdh




             8
検証:シミュレーション
• こうして作成した,打ち切りを考慮したヒストグラムを
  描く関数cdhと,打ち切りを考慮しない(つまり普通
  の)ヒストグラムを描くtruehistを比較する.

• シミュレーションを用いる理由:
 1. シミュレーションで仮定した真の密度と,ヒストグ
    ラムとのずれを比較できる.
 2. 都合の良い(公開されている)データがなかった.

        truehist   cdh



                              9
シミュレーションで仮定した状
況
1. 患者の到着が,レート λ の定常ポアソン過程であると
    仮定する.
   • このとき到着間隔はパラメータ λ の指数分布に従う.
   • 今回は λ =1とした.

2. 患者の生存時間はワイブル分布に従うと仮定する.

3. 観察期間を t とし,t を超えた生存時間は観測されない
   • t を超えた部分を打ち切る
   • t = 20 とした




                                  10
シミュレーションのイメージ
                到着間隔 ~ exponential
                                                              時間
  1.   0

           t1            t2
                                                      生存時間 ~ Weibull
  2.



  3.        [1,]
                      [2,]
                              [3,]
                                               [4,]
       0                                              t
                                 time   cens
                      [1,]   2.540674      1
t2-t1を                [2,]   2.828103      1
  出力                  [3,]   2.072715      1
                      [4,]   1.521291      0                     11
結果の比較(サンプルサイズ n = 59610 )

 打ち切りを考慮しない;            打ち切りを考慮し
    truehist               た;
                           cdh




          横軸:時間 縦軸:密度
    曲線はシミュレーションで仮定した真値( shape=3,
             scale=3 )
      ※truehistはやや左によっている
            (underestimate)
                                   12
結果の比較(サンプルサイズ n = 60225 )

 打ち切りを考慮しない;             打ち切りを考慮し
    truehist                た;
                            cdh




          横軸:時間 縦軸:密度
    曲線はシミュレーションで仮定した真値( shape=0.5,
              scale=3 )
      ※truehistはやや左によっている
            (underestimate)
                                     13
検証:シミュレーション 2
• もう一つ別のシミュレーションを行った
 – こちらのほうが修士論文テーマ『生存時間分析
   によるシール断面画像データの分析』の状況に
   近い




                       14
シミュレーションで仮定した状況 2
1. 患者の到着が,レート λ の定常ポアソン過程であると
    仮定する.
   • このとき到着間隔はパラメータ λ の指数分布に従う.
   • 今回は λ =1とした.
2. 患者の生存時間はワイブル分布に従うと仮定する.
3. 観察期間を t とし,t を超えた生存時間は観測されない
   • t を超えた部分を打ち切る.
4. 観測開始時点 o 以前に到着した患者の,o からの生存時
    間も観測されているとする.
   • 「十分遠い位置」にしたいので o=1000 とした.
        ( : T の平均)
                    4. の状況
              観測値
      ?


          o                  t   15
シミュレーションのイメージ
              到着間隔 ~ exponential
     0                                        時間
1.

         t1             t2

2.                                 生存時間 ~ Weibull




3.



                 o                 o+t

4.
                                         出力
                                               16
結果の比較(サンプルサイズ n = 67515 )
  打ち切りを考慮しない;           打ち切りを考慮し
    truehist               た;
                           cdh




           横軸:時間 縦軸:密度
     曲線はシミュレーションで仮定した真値( shape=3,
              scale=3 )
※truehistは左によっているが,cdhはやや右によってい
                   る
             (overestimate)   17
結果の比較(サンプルサイズ n = 78289 )
  打ち切りを考慮しない;           打ち切りを考慮し
    truehist               た;
                           cdh




          横軸:時間 縦軸:密度
    曲線はシミュレーションで仮定した真値( shape=0.5,
              scale=3 )


                                     18
結果の比較(サンプルサイズ n = 78289 )
  打ち切りを考慮しない;
    truehist



                       このような状態
                          20



                   o             o+t




     最大値20:これは t
      の長さと等しい
     (両側打ち切り)

                                       19
なぜこうなるのか?
• なぜこうなるのかは Laslett (1982) 等を参
  照.
  • ご清聴ありがとうございました.




                                 20
参考文献
• Gill, Richard D., Keiding, Niels, (2010) Product-limit estimators
  of the gap time distribution of a renewal process under
  different sampling patterns. Lifetime Data Anal, 16: pp.571-
  579
• Huzurbazar, Aparna V., (2005): A Censored Data Histogram.
  Communications in Statistics - Simulation and Computation,
  34 : pp. 113-120
• Laslett, G. M., (1982) The Survival Curve Under Monotone
  Density Constraints With Application to two-Dimensional Line
  Segment Processes. Biometrika, 69: pp. 153-160
• デュレット,R., (2005) 確率過程の基礎.今野 紀雄,中
  村 和敬,曽雌 隆洋,馬 霞訳,シュプリンガー・フェア
  ラーク東京
• 舟尾暢男,R-tips. http://cse.naro.affrc.go.jp/takezawa/r-
  tips/r/61.html                                                 21
質疑応答(11/24/2012)
Q. shape を変えても同じ結果になるか?
     A. やってみます(やってみました.このスライドには shape=0.5 の場合
         を載せてあります).
Q. EM アルゴリズムなど,欠測を扱うアルゴリズムと比較してみては?
     A. Kaplan-Meier 推定量では exact に結果が求まるので EM を使う必要はな
         いように思う.(今後,左打ち切りと右打ち切りを区別して扱えるよ
         うに拡張したいので,そのときは使うかもしれない.)
Q.その 「拡張」はプログラミング的にはむずかしいのか?
     A. (どう答えたか忘れた.実をいうと「むずかしいどうかすらよくわか
         らない」というのが正直なところ)
Q. 結論というか,この研究の目的は?
   A.  パラメトリックモデルを選択する際にヒストグラムを使おうと思った.
       ひとまずcdhは使えそうだということが分かった.グラフを描くこと
       自体が目的ではない.
Q. 定常ポアソンの仮定がどう効いてくるのか?
    A. おそらくヒストグラムの形にはあまり関係してない.修論では「原点
       o 以前に到着した場合,生存時間の分布が変化する」というような議
       論をする予定で,そのときは定常ポアソン過程でないと困る.
                                                        22

打ち切りデータのヒストグラム

  • 1.
    11/24/2012 改訂版 生存時間分析について: 打ち切りデータのヒストグラ ム C 大学 M2 K.A. 1
  • 2.
    自己紹介 K.A. • 経歴 – S 県生まれ – C 大学(K 研究室) M2 – T 大学 R 学部 S 学科卒 2
  • 3.
    研究内容紹介:本発表の動機 • 修士論文テーマ(※今日はこの話はしません) 『生存時間分析によるシール断面画像データの分析』 • シール断面の亀裂の長さを推定したい • データに顕微鏡写真の視野による打ち切りがある – 生存時間分析手法を用いる • 熱によってシールしているため,温度の影響を知りたい – 温度を説明変数にしたパラメトリックモデル シール断面画像データ 打ち切 非溶着 り? ? 溶着 線分の 真の長さは 打ち切 分からない り 3
  • 4.
  • 5.
    R: MASS パッケージtruehist の紹介 “This plots a true histogram, a density estimate of total area 1.” とヘルプに書かれている. hist():ビンの数を『スタージェスの公式』によって決め る truehist():ビンの幅を『スコットの選択』によって決 めるこの密度関数に従う hist(x) truehist(x) 乱数 x を生成 #この色はデフォルト ※ グラフは R-tips からのデッドコピー 5
  • 6.
    打ち切りデータのヒストグラム 準備 • 生存時間に対応する確率変数を Tとする. • 重複を除いた死亡時間の実現値を ti, i=1,…,r とする. ~ • ヒストグラムの各階級の右端点を, j 0 ,..., w tj で表 ~ す(ここで t0 0 ). Huzurbazar (2005) によれば, 打ち切りデータのヒストグラムは: 1. Kaplan-Meier 推定量により,生存率( t i ) を求める ˆ S 2. Total probability S ( ~j ) S ( ~j 1 ) を求める ˆ t ˆ t 3. Total probability をビンの幅で割ったものを,ビン の 高さとする 6
  • 7.
    打ち切りデータのヒストグラム •ビンの幅の決め方については明記されていないが, 『スコットの選択』(truehistの方法)を採用した. – 『スタージェスの公式』(histの方法)では正規分 布から離れると当てはめが悪くなるようなので. 3. ヒストグラム 1. 生存率( di : death indicator) i ti d ˆ S (t ) i 2. Total Probability 5 1 0.933333 ~ 6 1 0.866667 tj TP 7 0 0.866667 15 0.566667 : : : 30 0.252778 28 0 0.361111 45 0.180556 29 1 0.180556 43 1 0 7
  • 8.
  • 9.
    検証:シミュレーション • こうして作成した,打ち切りを考慮したヒストグラムを 描く関数cdhと,打ち切りを考慮しない(つまり普通 の)ヒストグラムを描くtruehistを比較する. • シミュレーションを用いる理由: 1. シミュレーションで仮定した真の密度と,ヒストグ ラムとのずれを比較できる. 2. 都合の良い(公開されている)データがなかった. truehist cdh 9
  • 10.
    シミュレーションで仮定した状 況 1. 患者の到着が,レート λの定常ポアソン過程であると 仮定する. • このとき到着間隔はパラメータ λ の指数分布に従う. • 今回は λ =1とした. 2. 患者の生存時間はワイブル分布に従うと仮定する. 3. 観察期間を t とし,t を超えた生存時間は観測されない • t を超えた部分を打ち切る • t = 20 とした 10
  • 11.
    シミュレーションのイメージ 到着間隔 ~ exponential 時間 1. 0 t1 t2 生存時間 ~ Weibull 2. 3. [1,] [2,] [3,] [4,] 0 t time cens [1,] 2.540674 1 t2-t1を [2,] 2.828103 1 出力 [3,] 2.072715 1 [4,] 1.521291 0 11
  • 12.
    結果の比較(サンプルサイズ n =59610 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 ) ※truehistはやや左によっている (underestimate) 12
  • 13.
    結果の比較(サンプルサイズ n =60225 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 ) ※truehistはやや左によっている (underestimate) 13
  • 14.
    検証:シミュレーション 2 • もう一つ別のシミュレーションを行った – こちらのほうが修士論文テーマ『生存時間分析 によるシール断面画像データの分析』の状況に 近い 14
  • 15.
    シミュレーションで仮定した状況 2 1. 患者の到着が,レートλ の定常ポアソン過程であると 仮定する. • このとき到着間隔はパラメータ λ の指数分布に従う. • 今回は λ =1とした. 2. 患者の生存時間はワイブル分布に従うと仮定する. 3. 観察期間を t とし,t を超えた生存時間は観測されない • t を超えた部分を打ち切る. 4. 観測開始時点 o 以前に到着した患者の,o からの生存時 間も観測されているとする. • 「十分遠い位置」にしたいので o=1000 とした. ( : T の平均) 4. の状況 観測値 ? o t 15
  • 16.
    シミュレーションのイメージ 到着間隔 ~ exponential 0 時間 1. t1 t2 2. 生存時間 ~ Weibull 3. o o+t 4. 出力 16
  • 17.
    結果の比較(サンプルサイズ n =67515 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 ) ※truehistは左によっているが,cdhはやや右によってい る (overestimate) 17
  • 18.
    結果の比較(サンプルサイズ n =78289 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 ) 18
  • 19.
    結果の比較(サンプルサイズ n =78289 ) 打ち切りを考慮しない; truehist このような状態 20 o o+t 最大値20:これは t の長さと等しい (両側打ち切り) 19
  • 20.
    なぜこうなるのか? • なぜこうなるのかは Laslett(1982) 等を参 照. • ご清聴ありがとうございました. 20
  • 21.
    参考文献 • Gill, RichardD., Keiding, Niels, (2010) Product-limit estimators of the gap time distribution of a renewal process under different sampling patterns. Lifetime Data Anal, 16: pp.571- 579 • Huzurbazar, Aparna V., (2005): A Censored Data Histogram. Communications in Statistics - Simulation and Computation, 34 : pp. 113-120 • Laslett, G. M., (1982) The Survival Curve Under Monotone Density Constraints With Application to two-Dimensional Line Segment Processes. Biometrika, 69: pp. 153-160 • デュレット,R., (2005) 確率過程の基礎.今野 紀雄,中 村 和敬,曽雌 隆洋,馬 霞訳,シュプリンガー・フェア ラーク東京 • 舟尾暢男,R-tips. http://cse.naro.affrc.go.jp/takezawa/r- tips/r/61.html 21
  • 22.
    質疑応答(11/24/2012) Q. shape を変えても同じ結果になるか? A. やってみます(やってみました.このスライドには shape=0.5 の場合 を載せてあります). Q. EM アルゴリズムなど,欠測を扱うアルゴリズムと比較してみては? A. Kaplan-Meier 推定量では exact に結果が求まるので EM を使う必要はな いように思う.(今後,左打ち切りと右打ち切りを区別して扱えるよ うに拡張したいので,そのときは使うかもしれない.) Q.その 「拡張」はプログラミング的にはむずかしいのか? A. (どう答えたか忘れた.実をいうと「むずかしいどうかすらよくわか らない」というのが正直なところ) Q. 結論というか,この研究の目的は? A. パラメトリックモデルを選択する際にヒストグラムを使おうと思った. ひとまずcdhは使えそうだということが分かった.グラフを描くこと 自体が目的ではない. Q. 定常ポアソンの仮定がどう効いてくるのか? A. おそらくヒストグラムの形にはあまり関係してない.修論では「原点 o 以前に到着した場合,生存時間の分布が変化する」というような議 論をする予定で,そのときは定常ポアソン過程でないと困る. 22