打ち切りデータのヒストグラム
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

打ち切りデータのヒストグラム

on

  • 1,995 views

昨日の勉強会での発表ですが、シミュレーションが思いっきり間違っていたことに気づきました。お恥ずかしい限りです。なので修正版を作ってみま...

昨日の勉強会での発表ですが、シミュレーションが思いっきり間違っていたことに気づきました。お恥ずかしい限りです。なので修正版を作ってみました。
たぶん予備知識なしでも分かるような内容です(というつもり)。

Statistics

Views

Total Views
1,995
Views on SlideShare
1,494
Embed Views
501

Actions

Likes
1
Downloads
3
Comments
3

1 Embed 501

http://abrahamcow.hatenablog.com 501

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • 本スライド「左打ち切り」という用語の使い方がまちがってました。
    お気をつけください。
    Are you sure you want to
    Your message goes here
    Processing…
  • pdf にして再アップ
    Are you sure you want to
    Your message goes here
    Processing…
  • パワーポイントだとレイアウトがずれるな……
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

打ち切りデータのヒストグラム Presentation Transcript

  • 1. 11/24/2012 改訂版 生存時間分析について:打ち切りデータのヒストグラ ム C 大学 M2 K.A. 1
  • 2. 自己紹介K.A.• 経歴 – S 県生まれ – C 大学(K 研究室) M2 – T 大学 R 学部 S 学科卒 2
  • 3. 研究内容紹介:本発表の動機• 修士論文テーマ(※今日はこの話はしません) 『生存時間分析によるシール断面画像データの分析』• シール断面の亀裂の長さを推定したい• データに顕微鏡写真の視野による打ち切りがある – 生存時間分析手法を用いる• 熱によってシールしているため,温度の影響を知りたい – 温度を説明変数にしたパラメトリックモデル シール断面画像データ 打ち切 非溶着 り? ? 溶着 線分の 真の長さは 打ち切 分からない り 3
  • 4. ヒストグラム ヒストグラムはデータの特性を見るためのインフォーマルなツールとして重要である.(中略)ヒストグラムは適切なパラメトリックモデルの選択に使える. (拙訳) ― Huzubazar (2004) 今日はヒストグラムの話をします. 4
  • 5. R: MASS パッケージ truehist の紹介 “This plots a true histogram, a density estimate of total area 1.”とヘルプに書かれている.hist():ビンの数を『スタージェスの公式』によって決めるtruehist():ビンの幅を『スコットの選択』によって決めるこの密度関数に従う hist(x) truehist(x) 乱数 x を生成 #この色はデフォルト ※ グラフは R-tips からのデッドコピー 5
  • 6. 打ち切りデータのヒストグラム準備• 生存時間に対応する確率変数を T とする.• 重複を除いた死亡時間の実現値を ti, i=1,…,r とする. ~• ヒストグラムの各階級の右端点を, j 0 ,..., w tj で表 ~ す(ここで t0 0 ).Huzurbazar (2005) によれば,打ち切りデータのヒストグラムは:1. Kaplan-Meier 推定量により,生存率( t i ) を求める ˆ S2. Total probability S ( ~j ) S ( ~j 1 ) を求める ˆ t ˆ t3. Total probability をビンの幅で割ったものを,ビン の 高さとする 6
  • 7. 打ち切りデータのヒストグラム • ビンの幅の決め方については明記されていないが, 『スコットの選択』(truehistの方法)を採用した. – 『スタージェスの公式』(histの方法)では正規分 布から離れると当てはめが悪くなるようなので. 3. ヒストグラム1. 生存率( di : deathindicator) i ti d ˆ S (t ) i 2. Total Probability 5 1 0.933333 ~ 6 1 0.866667 tj TP 7 0 0.866667 15 0.566667 : : : 30 0.252778 28 0 0.361111 45 0.180556 29 1 0.180556 43 1 0 7
  • 8. コーディング:cdh 8
  • 9. 検証:シミュレーション• こうして作成した,打ち切りを考慮したヒストグラムを 描く関数cdhと,打ち切りを考慮しない(つまり普通 の)ヒストグラムを描くtruehistを比較する.• シミュレーションを用いる理由: 1. シミュレーションで仮定した真の密度と,ヒストグ ラムとのずれを比較できる. 2. 都合の良い(公開されている)データがなかった. truehist cdh 9
  • 10. シミュレーションで仮定した状況1. 患者の到着が,レート λ の定常ポアソン過程であると 仮定する. • このとき到着間隔はパラメータ λ の指数分布に従う. • 今回は λ =1とした.2. 患者の生存時間はワイブル分布に従うと仮定する.3. 観察期間を t とし,t を超えた生存時間は観測されない • t を超えた部分を打ち切る • t = 20 とした 10
  • 11. シミュレーションのイメージ 到着間隔 ~ exponential 時間 1. 0 t1 t2 生存時間 ~ Weibull 2. 3. [1,] [2,] [3,] [4,] 0 t time cens [1,] 2.540674 1t2-t1を [2,] 2.828103 1 出力 [3,] 2.072715 1 [4,] 1.521291 0 11
  • 12. 結果の比較(サンプルサイズ n = 59610 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 ) ※truehistはやや左によっている (underestimate) 12
  • 13. 結果の比較(サンプルサイズ n = 60225 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 ) ※truehistはやや左によっている (underestimate) 13
  • 14. 検証:シミュレーション 2• もう一つ別のシミュレーションを行った – こちらのほうが修士論文テーマ『生存時間分析 によるシール断面画像データの分析』の状況に 近い 14
  • 15. シミュレーションで仮定した状況 21. 患者の到着が,レート λ の定常ポアソン過程であると 仮定する. • このとき到着間隔はパラメータ λ の指数分布に従う. • 今回は λ =1とした.2. 患者の生存時間はワイブル分布に従うと仮定する.3. 観察期間を t とし,t を超えた生存時間は観測されない • t を超えた部分を打ち切る.4. 観測開始時点 o 以前に到着した患者の,o からの生存時 間も観測されているとする. • 「十分遠い位置」にしたいので o=1000 とした. ( : T の平均) 4. の状況 観測値 ? o t 15
  • 16. シミュレーションのイメージ 到着間隔 ~ exponential 0 時間1. t1 t22. 生存時間 ~ Weibull3. o o+t4. 出力 16
  • 17. 結果の比較(サンプルサイズ n = 67515 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 )※truehistは左によっているが,cdhはやや右によってい る (overestimate) 17
  • 18. 結果の比較(サンプルサイズ n = 78289 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 ) 18
  • 19. 結果の比較(サンプルサイズ n = 78289 ) 打ち切りを考慮しない; truehist このような状態 20 o o+t 最大値20:これは t の長さと等しい (両側打ち切り) 19
  • 20. なぜこうなるのか?• なぜこうなるのかは Laslett (1982) 等を参 照. • ご清聴ありがとうございました. 20
  • 21. 参考文献• Gill, Richard D., Keiding, Niels, (2010) Product-limit estimators of the gap time distribution of a renewal process under different sampling patterns. Lifetime Data Anal, 16: pp.571- 579• Huzurbazar, Aparna V., (2005): A Censored Data Histogram. Communications in Statistics - Simulation and Computation, 34 : pp. 113-120• Laslett, G. M., (1982) The Survival Curve Under Monotone Density Constraints With Application to two-Dimensional Line Segment Processes. Biometrika, 69: pp. 153-160• デュレット,R., (2005) 確率過程の基礎.今野 紀雄,中 村 和敬,曽雌 隆洋,馬 霞訳,シュプリンガー・フェア ラーク東京• 舟尾暢男,R-tips. http://cse.naro.affrc.go.jp/takezawa/r- tips/r/61.html 21
  • 22. 質疑応答(11/24/2012)Q. shape を変えても同じ結果になるか? A. やってみます(やってみました.このスライドには shape=0.5 の場合 を載せてあります).Q. EM アルゴリズムなど,欠測を扱うアルゴリズムと比較してみては? A. Kaplan-Meier 推定量では exact に結果が求まるので EM を使う必要はな いように思う.(今後,左打ち切りと右打ち切りを区別して扱えるよ うに拡張したいので,そのときは使うかもしれない.)Q.その 「拡張」はプログラミング的にはむずかしいのか? A. (どう答えたか忘れた.実をいうと「むずかしいどうかすらよくわか らない」というのが正直なところ)Q. 結論というか,この研究の目的は? A. パラメトリックモデルを選択する際にヒストグラムを使おうと思った. ひとまずcdhは使えそうだということが分かった.グラフを描くこと 自体が目的ではない.Q. 定常ポアソンの仮定がどう効いてくるのか? A. おそらくヒストグラムの形にはあまり関係してない.修論では「原点 o 以前に到着した場合,生存時間の分布が変化する」というような議 論をする予定で,そのときは定常ポアソン過程でないと困る. 22