SlideShare a Scribd company logo
AB
               TEKNILLINEN KORKEAKOULU
                Informaatio- ja luonnontieteiden
                          tiedekunta




S-114.2240 Laskennallisen tekniikan seminaari

                  Heikkousmallit



      Teppo-Heikki Saari, 58096R, tisaari@cc.hut.fi
                 20. huhtikuuta 2009
Johdanto
T¨m¨n seminaarity¨n aiheena on elinaikadatan ja n¨ist¨ erityisesti heik-
  a a                 o                                 a a
kousmallien (frailty models) k¨ytt¨ terveystieteiss¨. Elinaikadata on perin-
                                a o                 a
teisesti ollut luotettavuustekniikan keski¨ss¨, mutta tieteenalojen rajat ovat
                                          o a
h¨m¨rtyneet ja nyky¨¨n luotettavuustekniikan metodeilla pystyt¨¨n mittaa-
  a a                  aa                                          aa
maan erilaisia sairauksien kestoja ja elinajanodotteita. Terveystieteiss¨ elin-
                                                                        a
aikadataa k¨ytet¨¨n ehk¨ eniten epidemiologian alalla.
              a    aa     a
Heikkouden k¨site tarjoaa k¨tev¨n tavan ottaa elinaikadatamalleihin mukaan
                a            a a
satunnaisvaikutuksia, olosuhteita sek¨ havaitsemattomia heterogeenisyyksi¨.
                                      a                                      a
Yksinkertaisimmassa muodossaan heikkous on havaitsematon satunnainen
suhdetekij¨, joka muuttaa yhden tai useamman yksil¨n hasardifunktiota.
            a                                             o
Heikkouden k¨sitys on perua 1920-luvulta Greenwoodin ja Yulen k¨sitteest¨
                a                                                    a        a
”onnettomuuksiin taipuvaisuus”. Itse termin heikkous (frailty) esitteliv¨t   a
Vaupel et al. vuonna 1979 yhden muuttujan elinaikamalleja k¨sitelless¨¨n.
                                                                 a        aa
[18] Mallin k¨ytt¨kelpoisuus laajeni huomattavasti kun Clayton sovellelsi sit¨
               a o                                                            a
usean muuttujan elinaikadataan seminaaripaperissaan, joka k¨sitteli kroonis-
                                                              a
ten sairauksien esiintymist¨ perheiss¨. [3]
                            a         a
Heikkousmallit ovat suhteellisten hasardimallien (proportional hazard mo-
dels) laajennuksia, joista tunnetuin on selviytymisanalyysin k¨ytetyin malli:
                                                               a
Coxin malli. [16] Heikkousmallit voidaan jakaa kahteen laajaan luokkaan:
  1. yhden muuttujan elinaikamallit
  2. monen muuttujan elinaikamallit, esim. kilpailevat riskit (competing
     risks), tapahtumien uusiutuminen samalle yksil¨lle, tautien esiintymi-
                                                   o
     nen sukulaisilla
Ensimm¨isess¨ tapauksessa k¨ytet¨¨n riippumatonta yhden muuttujan
         a     a                 a    aa
elinaikaa kuvaamaan havaitsemattomien kovariaattien vaikutuksia (hete-
rogeenisyytt¨) suhteellisessa hasardimallissa. Elinaikadatan vaihtelevuus
             a
jaetaan teoreettisesti ennustettavaan osaan, joka riippuu riskitekij¨ist¨,
                                                                         o a
ja osaan joka ei ole ennustettavissa vaikka kaikki relevantti informaatio
tunnetaan. Vaihtelevuuden erotteleminen n¨ihin kahteen osaan on edullista,
                                             a
koska heterogeenisyydell¨ voidaan selitt¨¨ ja tulkita er¨it¨ odottamattomia
                          a               aa            a a
tuloksia, esimerkiksi risteym¨vaikutus tai hasardifunktion konvergenssi kah-
                              a
teen eri haaraan. [8] Lis¨ksi heterogeenisyytt¨ on k¨ytetty selitt¨m¨an my¨s
                         a                     a    a             a a¨       o
tasausvaikutuksia sy¨p¨tutkimuksessa eli kuolleisuuden kasvun hidastumis-
                      o a
ta, joka voi johtaa x-akselin suuntaiseen hasardifunktioon suurella i¨ll¨. [11]
                                                                     a a
Toisessa tapauksessa yritet¨¨n selitt¨¨ tapahtuma-aikojen klusteroitumisen
                             aa       aa
riippuvuutta, esimerkiksi tapauksessa jossa tutkitaan potilaiden elinaikoja
tutkimuskeskuksissa useassa keskuksessa tapahtuvan kliinisen kokeen aika-
na, tapahtuma-aikojen klusteroitumisen aiheutuessa keskuksista riippuvista

                                      1
olosuhteista. [7] Luonnollinen tapa mallintaa klusteroituneita tapahtuma-
aikoja on ottaa k¨ytt¨¨n klusteririippuvainen satunnaisvaikutus - heikkous.
                  a oo
T¨m¨ satunnaisvaikutus selitt¨¨ riippuvuuden siin¨ mieless¨, ett¨ tapahtu-
  a a                          aa                  a         a    a
mat olisivat olleet riippumattomia mik¨li heikkous olisi ollut tunnettu.
                                       a



Elinaikadatan mallinnus regressiolla
Riippuvuuksien mallintaminen riippumattoman prediktorimuuttujan ja riip-
puvaisen ulostulomuuttujan v¨lill¨ regression avulla on yleisesti k¨ytetty
                                 a a                                   a
menetelm¨ l¨hes kaikilla tieteenaloilla. T¨ss¨ kappaleessa k¨yd¨¨n nopeas-
           a a                             a a                a aa
ti l¨pi elinaikadatalle suoritettava regressiomallinnus, josta voidaan siirty¨
    a                                                                        a
heikkousmalleihin.
Monesti ollaan kiinnostuneita arvioimaan mill¨ todenn¨k¨isyydell¨ uutena
                                                a         a o        a
(hetkell¨ t = 0) k¨ytt¨¨n otettu kohde toimii viel¨ hetkell¨ t > 0. To-
        a           a oo                               a        a
denn¨k¨isyys voidaan arvioida vikaantumisajan jakauman avulla:
      a o
                                                                      ∞
 P (”kohde toimii hetkell¨ t”) = P (T > t) = 1 − F (t) = S(t) =
                         a                                                f (u)du
                                                                  t
                                                                      (1)
jossa S(t) (merkit¨¨n my¨s R(t)) on yksik¨n toimintatodenn¨k¨isyys (relia-
                   aa      o                 o                 a o
bility, survivorship). Vioittuvuus- eli hasardifunktio m¨¨ritell¨¨n
                                                        aa      aa
P (”vikaantuu aikav¨lill¨(t, t + δt)” |”toimii hetkell¨ t”) = P (t < T ≤ t + δt|T > t)
                   a a                                a
                 P (t < T ≤ t + δt)      F (t + δt) − F (t)   f (t)δt
              =                        =                    =
                      P (T > t)                 S(t)           S(t)
Yll¨mainittujen v¨lill¨ on yhteys f (t) = − d(1−S(t)) = −S (t) = −h(t) ja
    a               a a                        dt
        f (t)      f (t)
h(t) = S(t) = 1−F (t) . Hasardifunktiosta saadaan tiheysjakauma yht¨l¨ll¨
                                                                    ao a
              −H(t)                         t
f (t) = h(t)e       , jossa H(t) = Λ(t) = 0 h(τ )dτ on kumulatiivinen ha-
sardifunktio.

Elinaikojen jakauma voidaan kuvata kahdella ekvivalentilla tavalla. Datal-
le voidaan m¨¨ritt¨¨ joko parametrinen tiheysjakauma tai hasardifunktio.
               aa aa
Elinaikadatan tunnetaan useimmissa tapauksissa noudattavan eksponentti-
jakaumaa tai jotain siit¨ johdettua jakaumaa. Siksi elinaikadataan mallia so-
                        a
vitettaessa eksponenttifunktion valinta on luonnollinen. Eksponentiaalisesti
jakautuneiden systemaattisen osan sek¨ virheiden kombinaation tarkastelua
                                        a
regression avulla kutsutaan eksponentiaaliseksi regressiomalliksi. Mik¨li mal-
                                                                      a
lilla elinajan T suhteen on yksi riippumaton muuttuja x, on se muotoa
                            T = exp (β0 + β1 x)                                (2)

                                      2
jossa on eksponenttijakautunut ( ∼ λe−λt ) parametrilla λ = 1. T¨ll¨in toi-
                                                                  a o
mintatodenn¨k¨isyys on S(t) = e−t .
              a o
Malli ei ole lineaarinen parametriensa suhteen, mutta se voidaan ”linearisoi-
da”ottamalla siit¨ luonnollinen logaritmi. T¨ll¨in saadaan malli
                  a                         a o

                                    Y = β0 + β1 x + θ                                 (3)

jossa Y = ln (T ) ja θ = ln . Virheiden θ jakauma ei ole normaali. Virheet nou-
dattavat jakaumaa ¨¨rimm¨iselle minimiarvolle, jota kutsutaan my¨s Gum-
                      aa      a                                       o
belin jakaumaksi:
                                            α
                         f (t) = αeβt exp (− (eβt − 1)),                    (4)
                                            β
virheiden odotusarvo on nolla ja muotoparametri on 1 jolloin saadaan ti-
heysfunktioksi G(0, 1) = f (t) = et−exp (t) ja toimintatodenn¨k¨isyydeksi
                                                                   a o
          − exp (t)
S(t) = e            . Gumbelin jakauman tai Weibullin jakauman, joka sekin on
aarimm¨isen minimiarvon jakauma, k¨ytt¨ on standardioletuksena regressio-
¨¨       a                               a o
mallissa samaan tapaan kuin normaalijakauman N (0, σ 2 ) k¨ytt¨ lineaarisessa
                                                             a o
regressiomallissa.
Nyt teht¨v¨n¨ on estimoida havainnoista muotoa (t, β, x) regressiomalli. Ha-
          a a a
vainnoissa t on toiminta- tai elinaika, β on tutkittavan kovariaatin indikaat-
torimuuttujavektori (esim. kuoliko potilas, 1=kyll¨, 0=ei) ja x on kovariaat-
                                                    a
ti, jota halutaan tutkia. Tiheysjakauma on siis muotoa f (t, β, x). Itse like-
lihoodfunktio saadaan tutkimalla tapauksia (t, 1, x) ja (t, 0, x) erikseen. Ta-
pauksessa (t, 1, x) tiedet¨an varmasti, ett¨ elinaika oli t, ja havainto kertoo
                            a¨              a
kuinka todenn¨k¨ist¨ potilaan, jolla on havaittu x, on kuolla ajanhetkell¨
                  a o a                                                       a
t. T¨m¨ saadaan tiheysfunktiosta f (t, β, x). Tapauksessa (t, 0, x) tiedet¨¨n,
      a a                                                                  aa
ett¨ elinaika on v¨hint¨¨n t. T¨ll¨in havainto kertoo kuinka todenn¨k¨ist¨
    a                  a  aa        a o                                 a o a
potilaan on selvit¨ hengiss¨ v¨hint¨¨n aika t. T¨m¨ todenn¨k¨isyys saadaan
                      a       a a     aa         a a          a o
selvi¨misfunktiosta S(t, β, x).
      a
Mik¨li oletetaan riippumattomat muuttujat, saadaan likelihoodfunktio ker-
     a
tomalla havaintojen todenn¨k¨isyydet yhteen:
                                a o
                            n
                l(β) =          {[f (ti , β, xi )]ci × [S(ti , β, xi )]1−ci },        (5)
                           i=1

jossa c = 0 tai 1. T¨st¨ saadaan log-likelihood
                    a a
                    n
           L(β) =         {ci ln [f (ti , β, xi )] + (1 − ci ) ln [S(ti , β, xi )]}   (6)
                    i=1

joka pyrit¨¨n maksimoimaan. Mallin 3 mukaan elinaikojen logaritmin jakau-
          aa
ma on muotoa β0 + β1 x + G(0, 1) = G(β0 + β1 x, 1). Malli voidaan kirjoittaa

                                               3
θ = y − (β0 + β1 x) ∼ G(0, 1) ja sijoittaa Gumbel-jakauman tiheys- ja toimin-
tatodenn¨k¨isyysfunktioihin, saadaan
         a o

                                S(y, β, x) = e− exp (y−(β0 +β1 x))                             (7)
                    f (y, β, x) = e(y−(β0 +β1 x)−exp (y−(β0 +β1 x)))                           (8)

ja n¨m¨ sijoittamalla yht¨l¨¨n 6 saadaan log-likelihoodiksi
    a a                  a oo
           n
L(β) =          ci ln e(yi −(β0 +β1 xi )−exp (yi −(β0 +β1 xi ))) + (1 − ci ) ln e− exp (yi −(β0 +β1 xi ))
          i=1
           n
      =         ci (y − (β0 + β1 xi )) − e(yi −(β0 +β1 xi )) .                                        (9)
          i=1

Ottamalla derivaatat log-likelihoodista parametrien β0 ja β1 suhteen ja aset-
tamalla nollaksi saadaan yht¨l¨iden maksimoivat parametriarvot regressiolle
                             ao
seuraavasti
                                n
                                      ci − e(yi −(β0 +β1 xi )) = 0                            (10)
                                i=1
                           n
                                xi ci − e(yi −(β0 +β1 xi )) = 0.                              (11)
                          i=1

Yht¨l¨t ovat ep¨lineaarisia ja ne t¨ytyy ratkaista iteratiivisin menetelmin.
    ao         a                   a
[6]
Yleisimmin k¨ytetty toimintatodenn¨k¨isyysfunktion estimointimenetelm¨
             a                       a o                                   a
on k¨ytt¨¨ Kaplan-Meier -estimaattoria:
    a aa

                  ˆ                 ni − di       ˆ
                  S(t) =                    , kun S(t) = 1 jos t < t(1) .                     (12)
                            t(i) ≤t    ni

Yll¨olevassa ni on niiden yksik¨iden lukum¨ar¨ aikav¨lill¨ ti , jotka ovat
   a                             o             a¨ a       a a
vaarassa vikaantua ja di on kyseisell¨ aikav¨lill¨ havaittujen vikaantumis-
                                      a       a a
ten m¨¨r¨. Estimaattori toimii tilanteessa, jossa oletetaan, ett¨ n havainnon
      aa a                                                      a
joukossa on m ≤ n vikaantumista. Toimintatodenn¨k¨isyysfunktion Kaplan-
                                                    a o
Meier -estimaattori on yksitt¨isten ehdollisten toimintatodenn¨k¨isyyksien
                               a                                  a o
                                                                       S(t(i) )
tulo. Yksitt¨inen ehdollinen toimintatodenn¨k¨isyys on muotoa αi = S(t(i−1) ) .
            a                               a o
Kaplan-Meier -estimaattorista saadaan kumulatiivisen hasardifunktion esti-
maatti:
                                                            
      ˆ           ˆ                                  ni − di                     di
      H(t) = − ln S(t) = − ln                                 =         − ln 1 −
                                           t(i) ≤t      ni       t(i) ≤t          ni


                                                     4
Heikkousmallit
Yhden muuttujan heikkousmallit
Perustilanne elinaikamallien k¨yt¨lle kliinisiss¨ tutkimusprojekteissa olettaa,
                                a o              a
ett¨ elinaikadata eri potilailta on toisistaan riippumatonta, ja ett¨ jokaisen
   a                                                                 a
potilaan yksil¨llinen elinaikajakauma on sama (riippumattomat ja samoin ja-
              o
kautuneet vikaantumisajat).
T¨m¨ perusoletus viittaa homogeeniseen populaatioon. Kuitenkin kliinisiss¨
  a a                                                                         a
kokeissa havaitaan usein k¨yt¨nn¨n tilanteissa, ett¨ potilaat eroavat toi-
                              a a o                       a
sistaan huomattavasti. L¨¨kkeen, hoidon tai erilaisten selitt¨vien muuttu-
                           aa                                     a
jien vaikutus voi olla huomattavan erilainen eri potilaiden osaryhmiss¨. Jot-
                                                                        a
ta havaitsematon heterogeenisyys voitaisiin selitt¨¨ tutkitussa populaatios-
                                                       aa
sa, Vaupel et al. ottivat k¨ytt¨¨n yhden muuttujan heikkousmallit elinaika-
                            a oo
analyysiin. Ideana on, ett¨ yksil¨ill¨ on erilaiset heikkoudet ja ett¨ kaikkein
                            a      o a                               a
heikoimmat potilaat kuolevat ennen muita. T¨m¨n seurauksena on robustien
                                                 a a
yksil¨iden (potilaiden, joilla on matala heikkous) systemaattinen valituksi tu-
     o
leminen. Estimoitaessa kuolleisuuslukuja saatetaan olla kiinnostuneita siit¨,a
kuinka n¨m¨ luvut muuttuvat ajan tai i¨n funktiona. Useasti voidaan to-
          a a                                a
deta hasardifunktion (kuolleisuuden) kasvavan alussa, sen j¨lkeen saavutta-
                                                                a
van maksimin ja t¨m¨n j¨lkeen laskevan (unimodaalinen intensiteetti) tai
                    a a a
tasoittuvan vakioarvoon. Mit¨ kauemmin potilas el¨¨ sairauden ilmenemi-
                                a                         aa
sen j¨lkeen, sit¨ suuremmat ovat h¨nen todenn¨k¨isyytens¨ selvit¨. On to-
     a          a                    a               a o        a     a
denn¨k¨ist¨, ett¨ unimodaaliset intensiteetit ovat usein seurausta valintapro-
      a o a      a
sessista heterogeenisess¨ populaatiossa ja ne eiv¨t kuvaa yksil¨n kuolleisuut-
                         a                          a             o
ta. Populaation intensiteetti saattaa alkaa laskea pelk¨st¨¨n korkeariskisten
                                                           a aa
yksil¨iden jo kuoltua pois populaatiosta. Tietyn yksil¨n riskitaso saattaa hy-
     o                                                    o
vinkin kuitenkin olla kasvussa. Jos suojaavat tekij¨t tai riskit ovat tunnet-
                                                        a
tuja, ne voidaan lis¨t¨ malliin k¨ytt¨m¨ll¨ suhteellista hasardimallia (Coxin
                    aa            a a a a
malli):
                           h(t, X) = h0 (t) exp (β T X)                    (13)
jossa h0 (t) on perustason hasardifunktio jonka oletetaan olevan eri kaikille
yksil¨ille tutkittavassa populaatiossa, X on havaittujen kovariaattien vek-
     o
tori ja β on vastaava estimoitavien regressioparametrien vektori. Mallin
matemaattinen k¨ytt¨kelpoisuus perustuu perustason hasardifunktion h0 (t)
                   a o
ik¨¨ntymisen vaikutusten ja parametrisen termin exp (β T X) kovariaattien
  aa
vaikutusten erotteluun.
On olemassa kaksi p¨¨syyt¨ sille, miksi usein on mahdotonta sis¨llytt¨¨ kaik-
                      aa    a                                    a     aa
kia t¨rkeit¨ tekij¨it¨ yksil¨tason analyysiin. Joskus mallissa on liian paljon
     a      a     o a       o
tutkittavia kovariaatteja. Joskus tutkija ei tied¨ kaikkia relevantteja kovari-
                                                 a
aatteja tai ei h¨n ei pysty niit¨ mittaamaan. Molemmissa tapauksissa elinai-
                a               a

                                      5
kadatalla on kaksi vaihtelua aiheuttavaa tekij¨¨: mitattavien riskitekij¨iden
                                                   aa                      o
selitt¨v¨ varianssi, joka on t¨ll¨in teoreettisesti ennustettavissa, ja tunte-
      a a                       a o
mattomien kovariaattien aiheuttama heterogeenisyys, joka ei ole teoreetti-
sesti ennustettavissa vaikka kaikki relevantti informaatio tunnettaisiinkin.
N¨iden kahden erottaminen tuo etuja, sill¨ heterogeenisyys voi selitt¨¨ joi-
  a                                           a                           aa
tain ”odottamattomia”tuloksia tai voi tarjota joillekin vaihtoehtoisen selityk-
sen. Tarkastellaan esimerkiksi ei-suhteellisia hasardeja tai laskevia hasardeja
kun odottamaton varianssi ilmi¨ss¨ pysyy.
                                  o a
Suhteellisessa hasardimallissa t¨rkeiden kovariaattien osajoukon poisj¨tt¨
                                   a                                         a o
mallista johtaa biasoituihin estimaatteihin sek¨ regressiokertoimissa ett¨ ris-
                                                   a                        a
kitasossa. Syy t¨m¨nkaltaisille virheille on siin¨, ett¨ aikariippuvat riskitasot
                 a a                               a   a
johtavat tutkittavan populaation rakenteen muuttumiseen kovariaattien suh-
teen ajan kuluessa.
Jos kaksi potilasryhm¨¨ on kliinisess¨ kokeessa, jossa jotkut yksil¨t kokevat
                        aa             a                             o
suuremman vikaantumisen riskin, t¨ll¨in j¨ljelle j¨¨neet potilaat muodos-
                                       a o      a      aa
tavat enemm¨n tai v¨hemm¨n valitun ryhm¨n, jolla on alhaisempi riskita-
               a        a      a                  a
so. Yksil¨llisen riskitason estimaatti (jos ei oteta huomioon havaitsematonta
          o
heikkoutta) olisi t¨ll¨in todellisen hasardifunktion aliarvio, ja aliarvioinnin
                    a o
m¨¨r¨ kasvaisi ajan kuluessa.
  aa a
Yhden muuttujan heikkousmalli laajentaa Coxin mallia siten, ett¨ yksil¨n
                                                                       a       o
hasardi riippuu lis¨ksi havaitsemattomasta satunnaismuuttujasta z, joka on
                    a
perustason hasardifunktion h kerroin:

                        h(t, z, X) = zh0 (t) exp (β T X)                    (14)

jossa muut tekij¨t ovat samat kuin ylemm¨ss¨, ja z on heikkousmuuttuja.
                  a                           a a
Heikkous z on satunnaismuuttuja, joka vaihtelee populaatiossa joko kasvat-
taen (z > 1) tai pienent¨en (z < 1) yksil¨llist¨ riski¨. Heikkous vastaa alttiu-
                         a                o     a     a
den tai haitan k¨sitett¨ eri olosuhteissa. [17] T¨rkein heikkouden ominaisuus
                 a     a                          a
on kuitenkin se, ettei se ole havaittavissa. Vastaava selviytymisfunktio S,
joka kuvaa selvi¨vien yksil¨iden osuutta tutkittavassa populaatiossa, on
                 a          o
                                                        t
                 S(t|z, X) = exp −z exp (β T X)             h0 (s)ds        (15)
                                                    0

ja se voidaan tulkita niiden yksil¨iden osuudeksi, jotka selvi¨v¨t ajan t
                                    o                             a a
seurannan aloittamisesta annettuna kovariaattivektori X ja heikkous z. Huo-
mattavaa on, ett¨ yht¨l¨t 14 ja 15 kuvaavat saman mallin eri merkinn¨ill¨.
                 a    ao                                                  o a
T¨h¨n asti mallia on kuvattu yksil¨iden tasolla. Yksil¨iden taso ei ole kuiten-
  a a                             o                   o
kaan havainnoitavissa. T¨st¨ seuraa, ett¨ on tarpeellista tarkastella mallia
                         a a             a
populaatioiden tasolla. Koko populaation selviytymisfunktio on yksitt¨isten
                                                                         a
selviytymisfunktioiden 15 keskiarvo. Se voidaan tulkita satunnaisesti valitun

                                       6
populaation j¨senen keskiarvona, ja se vastaa sit¨ mik¨ oikeasti havaitaan.
                a                                    a     a
Huomattavaa on, ett¨ havaittu hasardifunktio ei ole samankaltainen yksil¨n
                        a                                                     o
riskitason kanssa. Se, mik¨ voidaan havaita populaatiosta, on yhteistulos
                              a
usealle yksil¨lle joilla on eri heikkous z. Populaation riskitaso voi olla t¨ysin
              o                                                             a
erimuotoinen verrattuna yksil¨n riskitasoon. T¨m¨ on n¨ht¨viss¨ kuvasta 1.
                                 o                a a       a a     a
Punainen viiva kuvassa kuvaa ehdollisia (yksil¨llisi¨) riskitasoja heikkouk-
                                                   o a
silla 0.5, 1 ja 2. Sininen viiva kuvaa ehdotonta (populaation) riskitasoa.
 Er¨s t¨rke¨ heikkousmallien alan ongelma on heikkouden jakauman valinta.
    a a a




Kuva 1: Ehdolliset ja ehdottomat riskitasot simuloidussa datajoukossa ih-
misten kuolleisuudesta


Heikkousjakaumina on useiten k¨ytetty gammafunktiota [3, 18], positiivista
                                 a
tasapainojakaumaa [12], kolmiparametrista jakaumaa (PVF) [13], suljettua
Poisson-jakaumaa [9, 10] ja log-normaalista jakaumaa [1].
Yhden muuttujan heikkousmalleja sovelletaan laajalti. Aalen ja Tretli [11]
k¨yttiv¨t suljettua Poisson-jakaumaa yll¨ esiteltyyn kivessy¨p¨dataan. Mal-
  a     a                                a                   o a
lin ideana oli, ett¨ er¨s miesten osaryhm¨ on erityisen altis kivessy¨v¨lle,
                   a a                      a                          o a
joka ilmenee ajan kuluessa. Toinen esimerkki on data pahalaatuisesta mela-
noomasta, joka sis¨lsi tietoja potilaista jotka olivat saaneet leikkaushoitoa
                    a
ihosy¨v¨n hoitoon Odensen yliopistollisessa sairaalassa Tanskassa. Hougaard
      o a
vertasi tavallista Coxin regressiomallia ja PVF-heikkousmallia kesken¨¨n aa
t¨m¨n datan analyysiss¨. [14]
 a a                    a
Kolmas esimerkki k¨sitteli aikaa katetrin sy¨tt¨misest¨ sen poisottamiseen
                      a                       o a        a

                                       7
infektion takia dialyysipotilailla. McGilchrist ja Asbett julkaisivat osan
datasta vuonna 1991. [1] Hougaard k¨ytti vuonna 2000 dataan yhden
                                        a
muuttujan gammajakautunutta heikkousmallia selitt¨m¨¨n datan hetero-
                                                     a aa
geenisyytt¨. [14]
          a


Heikkousmallin estimointi EM-algoritmilla
Jatkuvan ajan gamma-heikkousmallin estimointiin k¨ytet¨an tyypillisesti jo-
                                                     a   a¨
tain likelihood-pohjaista menetelm¨¨. Menetelmi¨ ovat mm. EM-algoritmi
                                    aa            a
(expectation maximisation), penalisoitu osittainen likelihood ja Bayes-
analyysi. [4] Yksityiskohtaisen k¨sittelyn EM-algoritmin k¨yt¨st¨ elinaika-
                                  a                        a o a
datalle ovat esitt¨neet Klein ja Moeschberger. [15] EM-algoritmia k¨ytet¨¨n
                  a                                                 a   aa
estimoimaan regressioparametreja gamma-heikkousmallille, joilla on kiinni-
tetyt varianssiparametrit. Algoritmin vaiheet ovat seuraavanlaiset:

  1. Sovita suhteellinen hasardimalli, jossa on tutkittavat kovariaatit. Es-
                                o                                ˆ
     timoi jokaiselle koehenkil¨lle perustason hasardifunktio H0 (ti ). K¨yt¨
                                                                         a a
     t¨t¨ estimaattia saadaksesi jokaiselle potilaalle kumulatiivinen hasar-
      aa
     difunktio
                          ˆ     ˆ         ˆ             ˆ
                         H(ti , β, xi ) = H0 (ti ) exp (β T xi )

  2. Luo gamma-jakautuneen heikkouden mahdollisten varianssiparametrin
     arvojen θ joukko. Jokaiselle parametriarvolle θ toistetaan kohdat 3, 4
     ja 5.

  3. Estimointiaskel (E) m¨aritt¨a jokaiselle koehenkil¨lle heikkousmuuttu-
                          a¨ a¨                         o
     jan estimaatin
                                      1 + θ × ci
                           zi =
                           ˆ
                                          ˆ     ˆ
                                 1 + θ × H(ti , β, xi )

  4. Maksimointiaskeleella (M) sovitetaan suhteellinen hasardimalli samoil-
     le kovariaateille, mutta lis¨t¨¨n hasardifunktioon my¨s zi . Ensin esti-
                                 a aa                     o ˆ
     moidaan perustason hasardifunktio

                         ˆ                             cj
                         hf 0 (ti ) =                                   ,
                                        l∈R(tj ) zi
                                                 ˆ           ˆ
                                                        exp (β T xi )

     jonka j¨lkeen saadaan kumulatiivinen perustason hasardifunktio
            a
                               ˆ
                               Hf 0 (ti ) =            ˆ
                                                       hf 0 (tj ),
                                              tj ≤ti




                                        8
josta saadaan kumulatiivinen heikkouden sis¨lt¨v¨ hasardifunktio
                                                 a a a
                              ˆ        ˆ         ˆ               ˆ
                              Hf (ti , β, xi ) = Hf 0 (ti ) exp (β T xi ).

      E- ja M-askeleita toistetaan kunnes algoritmi suppenee.

  5. Laske mallin log-likelihood k¨ytt¨m¨ll¨ tietty¨ arvoa θ:lle
                                  a a a a          a
                  n                                      n
           ˆ               ˆ                                  1              ˆ        ˆ
      L(θ, β) =         ci β T xi + ln (hf 0 (ti )) −           + ci ln 1 + θHf (ti , β, xi )
                  i=1                                   i=1   θ

Kohdat 1-5 on toistettava kaikille valituille θ:n arvoille. ML-estimaatti saa-
daan sill¨ θ:n arvolla, joka maksimoi likelihood-funktion.
         a

Usean muuttujan heikkousmallit
Toinen t¨rke¨ heikkousmallien sovellus on usean muuttujan elinaikadata.
          a a
T¨llaista dataa esiintyy esim. jos tarkastellaan sukulaisten, esimerkiksi kak-
  a
sosten, elinaikoja (tai sairauksien puhkeamisaikoja) tai uusiutuvia tapah-
tumia kuten infektioita samalla henkil¨ll¨. T¨llaisissa tapauksissa kluste-
                                              o a a
roitujen elinaikojen riippumattomuutta ei voida olettaa. Monen muuttujan
mallit kykenev¨t selitt¨m¨¨n tapausten v¨lisen riippuvuuden olemassaolon.
                 a        a aa                  a
Monesti k¨ytetty ja yleinen l¨hestymistapa on m¨aritt¨a havaittujen da-
           a                       a                    a¨ a¨
tan¨ytteiden ehdollinen riippumattomuus havaitsemattomien piilomuuttu-
    a
jien suhteen. [14] Riippuvaisuusrakenne monen muuttujan tilanteessa syntyy
useasti havaittujen ehdollisten elinaikamallien piilomuuttujasta. Esimerkik-
si, olkoon S(t1 |z, X1 ) ja S(t2 |z, X2 ) kahden kesken¨¨n sukulaisia olevan hen-
                                                       aa
kil¨n ehdolliset selviytymisfunktiot eri havaituilla kovariaattivektoreilla X1
   o
ja X2 . Keskiarvoistamalla piilomuuttujien oletettujen jakaumien yli (esim.
k¨ytt¨m¨ll¨ gamma-, lognormaali- tai tasapainojakaumaa) luodaan monen
  a a a a
muuttujan malli havaitulle datalle. Parillisten havaintojen tapauksessa kak-
siulotteinen selviytymisfunktio on muotoa
                                       ∞
                  S(t1 , t2 ) =            S(t1 |z, X1 )S(t2 |z, X2 )g(z)dz             (16)
                                   0

jossa g on heikkouden z tiheysjakauma. Kaksosten tapauksessa S(t1 , t2 ) ku-
vaa suhteellista osuutta niist¨ kaksospareista, joissa ensimm¨inen kaksonen
                              a                              a
el¨¨ ajan t1 ja toinen el¨¨ ajan t2 .
  aa                     aa
Monen muuttujan heikkousmallit useampiulotteiselle datalle johdetaan
ehdollisesta riippumattomuudesta m¨¨ritt¨m¨ll¨ piilomuuttujat jotka ovat
                                       aa a a a
perustason hasardifunktion tulotekij¨it¨.
                                      o a


                                                 9
Jaetun heikkouden malli
Jaetun heikkouden malli on relevantti tutkittaessa sukulaisten tapahtuma-
aikoja, samanlaisia elimi¨ tai toistettuja mittauksia. Samassa klusterissa ole-
                              a
vien yksil¨iden oletetaan omaavan sama heikkous z. Ensimm¨isen¨ mallia
            o                                                       a    a
k¨ytti Clayton [3], ja sit¨ on paljon tutkinut Hougaard [14]. Selviytymisai-
  a                           a
kojen oletetaan olevan ehdollisesti riippumattomia yhteisen heikkouden suh-
teen. Yksinkertaisuuden vuoksi seuraavassa tarkastellaan vain kahden muut-
tujan tapausta (ni = 2), sill¨ yleist¨minen useamman muuttujan tapaukseen
                                  a    a
on suoraviivaista.
Oletetaan, ett¨ datassa on n klusteria ja ett¨ i:nness¨ klusterissa on ni yk-
                a                                a        a
sil¨¨, joihin vaikuttaa havaitsematon satunnaisvaikutus (heikkous) zi (1 ≤
   oa
i ≤ n). Elinaikojen oletetaan olevan riippumattomia ehdolla heikkoudet zi ja
niiden hasardifunktiot ovat muotoa h(t, zi ) = zi h0j (t), jossa t on aika tai ik¨
                                                                                 a
ja h0j , (j = 1, ..., ni ) on perustason hasardifunktio j:nnelle vikaantumiselle.
Heikkouksien zi oletetaan olevan riippumattomia ja samoin jakautuneita yh-
teisell¨ tiheysfunktiolla f (z, θ), jossa θ on heikkousjakauman parametri. Se-
       a
miparametrisessa jaetun heikkouden mallissa perustason hasardifunktioiden
h0j muodosta ei tarvitse tehd¨ alkuoletuksia. Havaitut kovariaatit lis¨t¨¨n
                                     a                                      a aa
malliin my¨hemmin.
             o
Mallin perusoletus on, ett¨ yksitt¨isen parin tietyn yksil¨n hasardifunktio
                                 a     a                       o
ehdolla heikkous z on yht¨l¨n 14 muotoa, jossa z on sama molemmille parin
                                ao
osapuolille, ja se synnytt¨a riippuvuuden parin elinaikojen v¨lille. Elinaiko-
                               a¨                                 a
jen riippumattomuus vastaisi heikkousjakaumaa, jolle p¨tee (z = 1, σ 2 = 0).
                                                            a
                                    2
Kaikissa tapauksissa, joissa σ > 0, riippuvuus on positiivinen johtuen mal-
lin rakenteesta.
Kahden muuttujan selviytymisfunktio ehdolla heikkous on muotoa

                S(t1 , t2 |z) = S1 (t1 )z S2 (t2 )z = e−z(Λ01 (t1 )+Λ02 (t2 )) ,   (17)

jossa Λ0j (t) = 0t h0j (s)ds, (j = 1, 2) ja S0j (t) = e−Λ0j (t) ovat kumulatii-
vinen perustason hasardifunktio sek¨ marginaalijakaumien selviytymisfunk-
                                      a
tiot. Keskiarvoistamalla funktion 17 heikkouden yli saadaan

          S(t1 , t2 ) = E[S(t1 , t2 |z)] = E[S01 (t1 )z S02 (t2 )z ]
                      = E[e−z(Λ01 (t1 )+Λ02 (t2 )) ] = L(Λ01 (t1 ) + Λ02 (t2 )),   (18)

jossa L tarkoittaa z:n Laplace-muunnosta. Kahden muuttujan elinaikafunk-
tio ilmaistaan siis heikkousjakauman Laplace-muunnoksena kumulatiivisen
perustason hasardin kohdalla arvioituna.
Monissa sovellutuksissa oletetaan, ett¨ heikkouden jakauma on gammaja-
                                      a
kautunut odotusarvolla 1 ja varianssilla σ 2 . Keskiarvoistamalla ehdollisen

                                              10
selviytymisfunktion yli tuottaa t¨ll¨ oletuksella funktion
                                 a a
                                                                                     2
    S(t1 , t2 ) = L(Λ01 (t1 ) + Λ02 (t2 )) = (1 + σ 2 (Λ01 (t1 ) + Λ02 (t2 )))−1/σ
                              2              2            2
               = (S1 (t1 )−σ + S2 (t2 )−σ − 1)−1/σ                                       (19)

Jaetun heikkouden k¨site eroaa alkuper¨isest¨ Vaupel et al. esittelem¨st¨
                      a                     a     a                          a a
yksil¨llisest¨ heikkoudesta, sill¨ kahden muuttujan jaetun heikkouden mal-
      o       a                  a
lissa heikkous on vain osa yksil¨llist¨ heikkoutta, ja se pyrkii kuvaamaan sit¨
                                 o    a                                         a
heikkoutta, joka on yhteist¨ molemmille parin osapuolille.
                            a
Jaettu heikkous selitt¨¨ koehenkil¨iden ja klustereiden v¨lisen korrelaation.
                      aa             o                        a
Sill¨ on kuitenkin omat rajoituksensa. Ensinn¨kin se pakottaa havaitsematto-
    a                                           a
mat tekij¨t samoiksi klusterin sis¨ll¨, joka ei v¨ltt¨m¨tt¨ aina vastaa todelli-
           a                        a a          a a a a
suutta. Esimerkiksi joskus voi olla ep¨soveliasta olettaa, ett¨ kaikki klusteris-
                                        a                       a
sa olevat parit jakavat samat riskitekij¨t. [19] Toiseksi klusterin sis¨isten eli-
                                          a                            a
naikojen v¨linen riippuvuus perustuu elinaikojen marginaalijakaumiin. Kun
             a
suhteellisessa hasardimallissa on gammajakautunut heikkoustekij¨ sek¨ ko-
                                                                      a     a
variaatteja, riippuvuusparametri ja populaation heterogeenisyys sekoittuvat.
[2] T¨m¨ viittaa siihen, ett¨ yhteisjakauma voidaan m¨¨ritt¨¨ marginaalija-
      a a                   a                              aa aa
kaumista. [13] Kolmanneksi, useimmissa tapauksissa yksidimensioinen heik-
kous voi aiheuttaa vain suoria verrannollisuuksia klusteriin. On kuitenkin
olemassa tilanteita joissa elinajat ovat k¨¨nt¨en verrannollisia. Esim. Stan-
                                            aa a
fordin syd¨mensiirtotutkimuksessa havaittiin, ett¨ mit¨ kauemmin henkil¨
             a                                       a      a                   o
joutui odottamaan syd¨nt¨, sit¨ v¨hemm¨n aikaa h¨nen oli todenn¨k¨ist¨
                         a a       a a        a          a                a o a
el¨¨ syd¨mensiirron j¨lkeen. Korreloidut heikkousmallit kehitettiin vastaa-
  aa      a            a
maan n¨ihin ongelmiin.
         a

Korreloidut heikkousmallit
Alunperin korreloidut heikkousmallit kehitettiin analysoimaan kahden muut-
tujan vikaantumisaikadataa, jossa k¨ytet¨¨n kahta muuttujaa kuvaamaan
                                         a    aa
heikkousvaikutusta kummallekin parille. Esimerkiksi yksi satunnaismuuttu-
ja kuvaa ensimm¨ist¨ parin osapuolta, ja toinen satunnaismuuttuja toista,
                    a a
jolloin n¨ill¨ ei en¨¨ ole yhteist¨ heikkousmuuttujaa. N¨m¨ kaksi muuttujaa
         a a        aa             a                        a a
ovat yhteisjakautuneet. Yhden muuttujan tunteminen ei tarkoita sit¨ ett¨   a    a
toinenkin tunnettaisiin. Muuttujat voivat olla my¨s k¨¨nt¨en verrannollisia,
                                                      o aa a
joka n¨kyy elinajoissa k¨¨nteisen¨ verrannollisuutena.
       a                  aa         a
Tarkastellaan kahden muuttujan havaintodataa, esimerkiksi kaksosten eli-
naikoja. Parin i, (i = 1, 2, ..., n) yksil¨n j, (j = 1, 2) hasardifunktio ehdolla
                                          o
heikkoudet on muotoa

                         h(tj , zij ) = zij h0j (t) exp (xj βj ),                        (20)


                                           11
jossa h0j (t) ovat jotkin perustason funktiot ja zij ovat havaitsemattomat sa-
tunnaisvaikutukset. Perustuen edell¨olevaan hasardifunktioon, saadaan eh-
                                      a
dollinen selviytymisfunktio tapahtuma-ajoille

                               Sj (tj |zj ) = e−Λ0j (tj )zj exp (xj βj )                      (21)

jossa
                                                         t
                                      Λ0j (t) =              h0j (t)dt                        (22)
                                                     0
on kumulatiivinen perustason hasardifunktio hetkell¨ t tyypin j yksil¨lle kai-
                                                       a                o
kissa klustereissa.
Marginaalisen likelihood-funktion johtamiseksi t¨ytyy olettaa, ett¨ elinajat
                                                     a                a
ovat ehdollisesti riippumattomia. Olkoon cij sensuuri-indikaattori parin i yk-
sil¨lle j. Indikaattori saa arvon 1, jos yksil¨ on kokenut tutkittavan tapahtu-
   o                                          o
man, ja 0 muulloin. Parin i yksil¨n j ehdollinen likelihood on
                                   o

                        L(tij , cij |zij ) = (zij h0j (tij ))cij ezij Λ0j (tij ) .            (23)

Olettaen ehdollisesti riippumattomat elinajat annettuna heikkous ja integroi-
malla pois satunnaisvaikutukset saadaan marginaalitodenn¨k¨isyys
                                                           a o
                                n
                                                                              ∗
               L(t, c) =                          (zi1 h∗ (ti1 ))ci1 ezi1 Λ01 (ti1 )
                                                        01
                              i=1       R+ ×R+
                                                              ∗
                          ∗ (zi2 h∗ (ti2 ))ci2 ezi2 Λ02 (ti2 ) fz (zi1 , zi2 )dzi1 dzi2 ,
                                  02                                                          (24)

jossa t = (t1 , ..., tn ), ti = (ti1 , ti2 ), c = (c1 , ..., cn ), ci = (ci1 , ci2 ) ja fz (·, ·) on
vastaava heikkouden tiheysfunktio. Lis¨ksi h∗ (tij ) = h0j (tij ) exp (xij βj ) ja
                                                  a          0j
  ∗
Λ0j (tij ) = Λ0j (tij ) exp (xij βj ).
Olettaen heikkouden gammajakautuneiksi Yashin ja Iachine k¨yttiv¨t korre-        a       a
loitua gamma-heikkousmallia kahden muuttujan selviytymisjakaumaan, joka
on muotoa [5]

                                            S1 (t1 )1−ρ S2 (t2 )1−ρ
                      S(t1 , t2 ) =                                     .                     (25)
                                    (S1 (t1 )−σ2 + S2 (t2 )−σ2 − 1)ρ/σ2

Kahden muuttujan heikkousmallin estimointi
Jotta yht¨l¨ (24) voitaisiin ratkaista parametrisesti, t¨ytyy heikkouksia ku-
         ao                                             a
vata kahden muuttujan yhteisjakaumalla. Kahden muuttujan lognormaalija-
kauma valitaan heikkouksien yhteisjakaumaksi seuraavista syist¨: a
    • Heikkous voidaan tulkita normaalijakautuneeksi vakiotermiksi suhteel-
      listen hasardien mallissa. Olkoon w1 = log (z1 ) ja w2 = log (z2 ).

                                                   12
2   2
                                                           a 2
     Jos nyt (z1 , z2 ) ∼ BV LOG N(0, 0, σ1 , σ2 , ρ), miss¨ σ1 = Var(z1 ) ja
      2
     σ2 = Var(z2 ) ja ρ = corr(w1 , w2 ). Yht¨l¨ (20) voidaan kirjoittaa
                                             ao

                                       h(tj |wj ) = h0j (tj )ewj +xj βj                            (26)

   • Koska w1 ja w2 ovat keskiarvon suhteen symmetrisi¨, eli (−w1 , −w2 ) ∼
                                                           a
                 2    2
     BV N(0, 0, σ1 , σ2 , ρ), yht¨l¨ (20) voidaan yleist¨¨
                                 ao                     aa

                                                        h0j (tj )exj βj
                                         h(tj |zj ) =                                              (27)
                                                              zj

   • Korrelaatio ρ on v¨lill¨ [−1, 1]. Lis¨ksi ρ ei riipu w:den keskiarvoista
                        a a               a
     tai variansseista.

Koska yht¨l¨lle (24) ei ole olemassa sujletun muodon ratkaisua kun
              ao
(z1 , z2 ) ovat log-normaalisti yhteisjakautuneet, joudutaan k¨ytt¨m¨¨n EM-
                                                              a a aa
algoritmia. Muunnettua EM-algoritmia k¨ytet¨¨n estimoimaan kertoimet
                                              a    aa
β1 ja β2 sek¨ heikkousparametrit σ1 , σ2 ja ρ. Alla on esitetty lyhyesti semi-
               a
parametrisen algoritmin kulku, joka ei oleta perustason hasardifunktioista
mit¨¨n. [19]
     aa


  1. K¨ytt¨m¨ll¨ hyv¨ksi standardia Coxin regressiomallia estimoi para-
      a a a a          a
     metreille β1 ja β2 alkuarvot profiilin likelihood-funktiosta
                                   n
                          ∗∗
                         lj    =         s(i)j βj − d(i)j ln                 zkj eβj xkj
                                                                             ˆ                     (28)
                                   i=1                         k∈R(T(i)j )


     jossa T(i)j on i:nneksi pienin tapahtuma-aika kaikille tyypin j hen-
     kil¨ille, R(t) on riskijoukko ajanhetkell¨ t, d(i)j on kuolemien m¨¨r¨
        o                                        a                       aa a
     ajanhetkell¨ T(i)j kaikkien tyypin j henkil¨iden keskuudessa ja s(i)j on
                  a                                o
     tyypin j henkil¨iden kovariaattivektorien summa tapahtumahetkell¨
                        o                                                   a
                                    2    2
     T(i)j , j = 1, 2. Parametrien σ1 , σ2 ja ρ alkuarvot ovat nollia.

  2. E-askel: K¨ytt¨m¨ll¨ t¨m¨nhetkisi¨ parametrien β1 , β2 ,
                        a a a a             a a            a
     σ1 , σ2 ja ρ arvoja laske odotusarvot estimaattoreille
                                                                                      ˆ
     E(zij |Ti1 , Ti2 , xi1 , xi2 ) = zij , E(log (zij )2 |Ti1 , Ti2 , xi1 , xi2 ) = log(zij )2 ja
                                      ˆ
     E(log (zi1 ) log (zi2 )|Ti1 , Ti2 , xi1 , xi2 ) = log (z1 )ˆlog (z2 ).
     Jos molemmat parin tapahtuma-ajat ovat sensuroituja, niin

                               zij S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )f (zi1 , zi2 )dzi1 dzi2
                 zij =
                 ˆ                                                                             ,   (29)
                                                S(ti1 , ti2 |xi1 , xi2 )

                                                  13
jossa
                                                                     ∗             ∗
                    S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 ) = e−zi1 Λi1 (ti1 )−zi2 Λi2 (ti2 )          (30)
   ja
                                                   ∗             ∗
        S(ti1 , ti2 |xi1 , xi2 ) =        e−zi1 Λi1 (ti1 )−zi2 Λi2 (ti2 ) f (zi1 , zi2 )dzi1 dzi2   (31)

   Jos jompi kumpi tapahtuma-ajoista on t¨ydellinen (olet. Ti1 ) ja toinen
                                         a
   on sensuroitu, niin

                        zij S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )zi1 f (zi1 , zi2 )dzi1 dzi2
           zij =
           ˆ                                                                                        (32)
                         S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )zi1 f (zi1 , zi2 )dzi1 dzi2

   Jos molemmat tapahtuma-ajoista ovat t¨ydellisi¨, niin
                                        a        a

                      zij S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )zi1 zi2 f (zi1 , zi2 )dzi1 dzi2
          zij =
          ˆ                                                                                         (33)
                       S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )zi1 zi2 f (zi1 , zi2 )dzi1 dzi2

   Samalla tavoin voidaan laskea my¨s log(zij )2 ja log (z1 )ˆlog (z2 )
                                   o ˆ

3. M-askel: P¨ivit¨ estimaatit σ1 :lle, σ2 :lle ja ρ:lle k¨ytt¨m¨ll¨ kaavoja
               a a                                        a a a a
    2
   σ1 = (logzˆ i1 )2 /n, σ 2 = (logzi2 )2 /n ja ρ = (log zi1ˆlog zi2 )/n.
                                 ˆ
                          2
   P¨ivit¨ lis¨ksi kertoimien β1 ja β2 estimaatteja, sek¨ ei-parametrista
     a a a                                                  a
   estimaattia Λ0j (t):lle:

                            ˆ                                d(i)j
                            Λ0j (t) =                                                               (34)
                                          T (i)j<t
                                                                   ˆ βj xkj
                                                       k∈R(T(i)j ) zkj e


4. Iteroi vaiheita 2 ja 3 kunnes suppenee.




                                                14
Kirjallisuutta

[1] McGilchrist C. A. and Aisbett C. W. Regression with frailty in survival
    analysis. Biometrics, 47:461–466, 1991.

[2] Clayton D. and Cuzick J. The semi-parametric pareto model for regres-
    sion analysis of survival times. Proceedings of the Centenary Session of
    the International Statistical Institute, Amsterdam, 1985.

[3] Clayton D.G. A model for association in bivariate life tables and its
    application in epidemiological studies of familial tendency in chronic
    disease incidence. Biometrika, 65:141–151, 1978.

[4] Masonnet G., Janssen P., and Burzykowski T. Fitting frailty models via
    linear mixed models using model transformation.

[5] Yashin A. I. and Iachine I. A. Genetic analysis of durations: Correlated
    frailty model applied to survival of danish twins. Genetic Epidemiology,
    12:529–538, 1995.

[6] Hosmer D. W. Jr. and Lemeshow S. Applied Survival Analysis: Regres-
    sion Modeling of Time to Event Data. John Wiley & Sons, 1999.

[7] Andersen P. K., Klein J. P., and Zhang M.-J. Testing for centre effects
    in multi-centre survival studies: A monte carlo comparison of fixed and
    random effects tests. Statistics in Medicine, 18:1489–1500, 1999.

[8] Manton and Stallard. Methods for evaluating the heterogeneity of aging
    processes in human populations using vital statistics data: explaining
    the black/white mortality crossover by a model of mortality selection.
    Human Biology, 53:47–67, 1981.

[9] Aalen O. O. Heterogeneity in survival analysis. Statistics in Medicine,
    7:1121–1137, 1988.




                                    15
[10] Aalen O. O. Modelling heterogeneity in survival analysis by the com-
     pound poisson distribution. Annals of Applied Probability, 4(2):951–972,
     1992.

[11] Aalen O. O. and Tretli S. Analysing incidence of testis cancer by means
     of a frailty model. Cancer Causes and Control, 10:285–292, 1999.

[12] Hougaard P. A class of multivariate failure time distributions. Biomet-
     rika, 73:671–678, 1986.

[13] Hougaard P. Survival models for heterogeneous populations derived
     from stable distributions. Biometrika, 73:671–678, 1986.

[14] Hougaard P. Analysis of multivariate survival data. Springer, New York,
     2000.

[15] Klein J. P. and Moeschberger M. L. Survival Analysis Techniques for
     Censored and Truncated Data. Springer-Verlag, 1997.

[16] Cox D. R. Regression models and life-tables. Journal of the Royal
     Statistical Society B, 34:187–220, 1972.

[17] Falconer D. S. The inheritance of liability to diseases with variable age of
     onset, with particular reference to diabetes mellitus. Annals of Human
     Genetics, 31:1–20, 1967.

[18] Vaupel J. W., Manton K. G., and Stallard E. The impact of heteroge-
     neity in individual frailty on the dynamics of mortality. Demography,
     16:439–454, 1979.

[19] Xue X. and Brookmeyer R. Bivariate frailty model for the analysis of
     multivariate survival time. Lifetime Data Analysis, 2:277–289, 1996.




                                       16

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Heikkousmallit

  • 1. AB TEKNILLINEN KORKEAKOULU Informaatio- ja luonnontieteiden tiedekunta S-114.2240 Laskennallisen tekniikan seminaari Heikkousmallit Teppo-Heikki Saari, 58096R, tisaari@cc.hut.fi 20. huhtikuuta 2009
  • 2. Johdanto T¨m¨n seminaarity¨n aiheena on elinaikadatan ja n¨ist¨ erityisesti heik- a a o a a kousmallien (frailty models) k¨ytt¨ terveystieteiss¨. Elinaikadata on perin- a o a teisesti ollut luotettavuustekniikan keski¨ss¨, mutta tieteenalojen rajat ovat o a h¨m¨rtyneet ja nyky¨¨n luotettavuustekniikan metodeilla pystyt¨¨n mittaa- a a aa aa maan erilaisia sairauksien kestoja ja elinajanodotteita. Terveystieteiss¨ elin- a aikadataa k¨ytet¨¨n ehk¨ eniten epidemiologian alalla. a aa a Heikkouden k¨site tarjoaa k¨tev¨n tavan ottaa elinaikadatamalleihin mukaan a a a satunnaisvaikutuksia, olosuhteita sek¨ havaitsemattomia heterogeenisyyksi¨. a a Yksinkertaisimmassa muodossaan heikkous on havaitsematon satunnainen suhdetekij¨, joka muuttaa yhden tai useamman yksil¨n hasardifunktiota. a o Heikkouden k¨sitys on perua 1920-luvulta Greenwoodin ja Yulen k¨sitteest¨ a a a ”onnettomuuksiin taipuvaisuus”. Itse termin heikkous (frailty) esitteliv¨t a Vaupel et al. vuonna 1979 yhden muuttujan elinaikamalleja k¨sitelless¨¨n. a aa [18] Mallin k¨ytt¨kelpoisuus laajeni huomattavasti kun Clayton sovellelsi sit¨ a o a usean muuttujan elinaikadataan seminaaripaperissaan, joka k¨sitteli kroonis- a ten sairauksien esiintymist¨ perheiss¨. [3] a a Heikkousmallit ovat suhteellisten hasardimallien (proportional hazard mo- dels) laajennuksia, joista tunnetuin on selviytymisanalyysin k¨ytetyin malli: a Coxin malli. [16] Heikkousmallit voidaan jakaa kahteen laajaan luokkaan: 1. yhden muuttujan elinaikamallit 2. monen muuttujan elinaikamallit, esim. kilpailevat riskit (competing risks), tapahtumien uusiutuminen samalle yksil¨lle, tautien esiintymi- o nen sukulaisilla Ensimm¨isess¨ tapauksessa k¨ytet¨¨n riippumatonta yhden muuttujan a a a aa elinaikaa kuvaamaan havaitsemattomien kovariaattien vaikutuksia (hete- rogeenisyytt¨) suhteellisessa hasardimallissa. Elinaikadatan vaihtelevuus a jaetaan teoreettisesti ennustettavaan osaan, joka riippuu riskitekij¨ist¨, o a ja osaan joka ei ole ennustettavissa vaikka kaikki relevantti informaatio tunnetaan. Vaihtelevuuden erotteleminen n¨ihin kahteen osaan on edullista, a koska heterogeenisyydell¨ voidaan selitt¨¨ ja tulkita er¨it¨ odottamattomia a aa a a tuloksia, esimerkiksi risteym¨vaikutus tai hasardifunktion konvergenssi kah- a teen eri haaraan. [8] Lis¨ksi heterogeenisyytt¨ on k¨ytetty selitt¨m¨an my¨s a a a a a¨ o tasausvaikutuksia sy¨p¨tutkimuksessa eli kuolleisuuden kasvun hidastumis- o a ta, joka voi johtaa x-akselin suuntaiseen hasardifunktioon suurella i¨ll¨. [11] a a Toisessa tapauksessa yritet¨¨n selitt¨¨ tapahtuma-aikojen klusteroitumisen aa aa riippuvuutta, esimerkiksi tapauksessa jossa tutkitaan potilaiden elinaikoja tutkimuskeskuksissa useassa keskuksessa tapahtuvan kliinisen kokeen aika- na, tapahtuma-aikojen klusteroitumisen aiheutuessa keskuksista riippuvista 1
  • 3. olosuhteista. [7] Luonnollinen tapa mallintaa klusteroituneita tapahtuma- aikoja on ottaa k¨ytt¨¨n klusteririippuvainen satunnaisvaikutus - heikkous. a oo T¨m¨ satunnaisvaikutus selitt¨¨ riippuvuuden siin¨ mieless¨, ett¨ tapahtu- a a aa a a a mat olisivat olleet riippumattomia mik¨li heikkous olisi ollut tunnettu. a Elinaikadatan mallinnus regressiolla Riippuvuuksien mallintaminen riippumattoman prediktorimuuttujan ja riip- puvaisen ulostulomuuttujan v¨lill¨ regression avulla on yleisesti k¨ytetty a a a menetelm¨ l¨hes kaikilla tieteenaloilla. T¨ss¨ kappaleessa k¨yd¨¨n nopeas- a a a a a aa ti l¨pi elinaikadatalle suoritettava regressiomallinnus, josta voidaan siirty¨ a a heikkousmalleihin. Monesti ollaan kiinnostuneita arvioimaan mill¨ todenn¨k¨isyydell¨ uutena a a o a (hetkell¨ t = 0) k¨ytt¨¨n otettu kohde toimii viel¨ hetkell¨ t > 0. To- a a oo a a denn¨k¨isyys voidaan arvioida vikaantumisajan jakauman avulla: a o ∞ P (”kohde toimii hetkell¨ t”) = P (T > t) = 1 − F (t) = S(t) = a f (u)du t (1) jossa S(t) (merkit¨¨n my¨s R(t)) on yksik¨n toimintatodenn¨k¨isyys (relia- aa o o a o bility, survivorship). Vioittuvuus- eli hasardifunktio m¨¨ritell¨¨n aa aa P (”vikaantuu aikav¨lill¨(t, t + δt)” |”toimii hetkell¨ t”) = P (t < T ≤ t + δt|T > t) a a a P (t < T ≤ t + δt) F (t + δt) − F (t) f (t)δt = = = P (T > t) S(t) S(t) Yll¨mainittujen v¨lill¨ on yhteys f (t) = − d(1−S(t)) = −S (t) = −h(t) ja a a a dt f (t) f (t) h(t) = S(t) = 1−F (t) . Hasardifunktiosta saadaan tiheysjakauma yht¨l¨ll¨ ao a −H(t) t f (t) = h(t)e , jossa H(t) = Λ(t) = 0 h(τ )dτ on kumulatiivinen ha- sardifunktio. Elinaikojen jakauma voidaan kuvata kahdella ekvivalentilla tavalla. Datal- le voidaan m¨¨ritt¨¨ joko parametrinen tiheysjakauma tai hasardifunktio. aa aa Elinaikadatan tunnetaan useimmissa tapauksissa noudattavan eksponentti- jakaumaa tai jotain siit¨ johdettua jakaumaa. Siksi elinaikadataan mallia so- a vitettaessa eksponenttifunktion valinta on luonnollinen. Eksponentiaalisesti jakautuneiden systemaattisen osan sek¨ virheiden kombinaation tarkastelua a regression avulla kutsutaan eksponentiaaliseksi regressiomalliksi. Mik¨li mal- a lilla elinajan T suhteen on yksi riippumaton muuttuja x, on se muotoa T = exp (β0 + β1 x) (2) 2
  • 4. jossa on eksponenttijakautunut ( ∼ λe−λt ) parametrilla λ = 1. T¨ll¨in toi- a o mintatodenn¨k¨isyys on S(t) = e−t . a o Malli ei ole lineaarinen parametriensa suhteen, mutta se voidaan ”linearisoi- da”ottamalla siit¨ luonnollinen logaritmi. T¨ll¨in saadaan malli a a o Y = β0 + β1 x + θ (3) jossa Y = ln (T ) ja θ = ln . Virheiden θ jakauma ei ole normaali. Virheet nou- dattavat jakaumaa ¨¨rimm¨iselle minimiarvolle, jota kutsutaan my¨s Gum- aa a o belin jakaumaksi: α f (t) = αeβt exp (− (eβt − 1)), (4) β virheiden odotusarvo on nolla ja muotoparametri on 1 jolloin saadaan ti- heysfunktioksi G(0, 1) = f (t) = et−exp (t) ja toimintatodenn¨k¨isyydeksi a o − exp (t) S(t) = e . Gumbelin jakauman tai Weibullin jakauman, joka sekin on aarimm¨isen minimiarvon jakauma, k¨ytt¨ on standardioletuksena regressio- ¨¨ a a o mallissa samaan tapaan kuin normaalijakauman N (0, σ 2 ) k¨ytt¨ lineaarisessa a o regressiomallissa. Nyt teht¨v¨n¨ on estimoida havainnoista muotoa (t, β, x) regressiomalli. Ha- a a a vainnoissa t on toiminta- tai elinaika, β on tutkittavan kovariaatin indikaat- torimuuttujavektori (esim. kuoliko potilas, 1=kyll¨, 0=ei) ja x on kovariaat- a ti, jota halutaan tutkia. Tiheysjakauma on siis muotoa f (t, β, x). Itse like- lihoodfunktio saadaan tutkimalla tapauksia (t, 1, x) ja (t, 0, x) erikseen. Ta- pauksessa (t, 1, x) tiedet¨an varmasti, ett¨ elinaika oli t, ja havainto kertoo a¨ a kuinka todenn¨k¨ist¨ potilaan, jolla on havaittu x, on kuolla ajanhetkell¨ a o a a t. T¨m¨ saadaan tiheysfunktiosta f (t, β, x). Tapauksessa (t, 0, x) tiedet¨¨n, a a aa ett¨ elinaika on v¨hint¨¨n t. T¨ll¨in havainto kertoo kuinka todenn¨k¨ist¨ a a aa a o a o a potilaan on selvit¨ hengiss¨ v¨hint¨¨n aika t. T¨m¨ todenn¨k¨isyys saadaan a a a aa a a a o selvi¨misfunktiosta S(t, β, x). a Mik¨li oletetaan riippumattomat muuttujat, saadaan likelihoodfunktio ker- a tomalla havaintojen todenn¨k¨isyydet yhteen: a o n l(β) = {[f (ti , β, xi )]ci × [S(ti , β, xi )]1−ci }, (5) i=1 jossa c = 0 tai 1. T¨st¨ saadaan log-likelihood a a n L(β) = {ci ln [f (ti , β, xi )] + (1 − ci ) ln [S(ti , β, xi )]} (6) i=1 joka pyrit¨¨n maksimoimaan. Mallin 3 mukaan elinaikojen logaritmin jakau- aa ma on muotoa β0 + β1 x + G(0, 1) = G(β0 + β1 x, 1). Malli voidaan kirjoittaa 3
  • 5. θ = y − (β0 + β1 x) ∼ G(0, 1) ja sijoittaa Gumbel-jakauman tiheys- ja toimin- tatodenn¨k¨isyysfunktioihin, saadaan a o S(y, β, x) = e− exp (y−(β0 +β1 x)) (7) f (y, β, x) = e(y−(β0 +β1 x)−exp (y−(β0 +β1 x))) (8) ja n¨m¨ sijoittamalla yht¨l¨¨n 6 saadaan log-likelihoodiksi a a a oo n L(β) = ci ln e(yi −(β0 +β1 xi )−exp (yi −(β0 +β1 xi ))) + (1 − ci ) ln e− exp (yi −(β0 +β1 xi )) i=1 n = ci (y − (β0 + β1 xi )) − e(yi −(β0 +β1 xi )) . (9) i=1 Ottamalla derivaatat log-likelihoodista parametrien β0 ja β1 suhteen ja aset- tamalla nollaksi saadaan yht¨l¨iden maksimoivat parametriarvot regressiolle ao seuraavasti n ci − e(yi −(β0 +β1 xi )) = 0 (10) i=1 n xi ci − e(yi −(β0 +β1 xi )) = 0. (11) i=1 Yht¨l¨t ovat ep¨lineaarisia ja ne t¨ytyy ratkaista iteratiivisin menetelmin. ao a a [6] Yleisimmin k¨ytetty toimintatodenn¨k¨isyysfunktion estimointimenetelm¨ a a o a on k¨ytt¨¨ Kaplan-Meier -estimaattoria: a aa ˆ ni − di ˆ S(t) = , kun S(t) = 1 jos t < t(1) . (12) t(i) ≤t ni Yll¨olevassa ni on niiden yksik¨iden lukum¨ar¨ aikav¨lill¨ ti , jotka ovat a o a¨ a a a vaarassa vikaantua ja di on kyseisell¨ aikav¨lill¨ havaittujen vikaantumis- a a a ten m¨¨r¨. Estimaattori toimii tilanteessa, jossa oletetaan, ett¨ n havainnon aa a a joukossa on m ≤ n vikaantumista. Toimintatodenn¨k¨isyysfunktion Kaplan- a o Meier -estimaattori on yksitt¨isten ehdollisten toimintatodenn¨k¨isyyksien a a o S(t(i) ) tulo. Yksitt¨inen ehdollinen toimintatodenn¨k¨isyys on muotoa αi = S(t(i−1) ) . a a o Kaplan-Meier -estimaattorista saadaan kumulatiivisen hasardifunktion esti- maatti:   ˆ ˆ ni − di  di H(t) = − ln S(t) = − ln  = − ln 1 − t(i) ≤t ni t(i) ≤t ni 4
  • 6. Heikkousmallit Yhden muuttujan heikkousmallit Perustilanne elinaikamallien k¨yt¨lle kliinisiss¨ tutkimusprojekteissa olettaa, a o a ett¨ elinaikadata eri potilailta on toisistaan riippumatonta, ja ett¨ jokaisen a a potilaan yksil¨llinen elinaikajakauma on sama (riippumattomat ja samoin ja- o kautuneet vikaantumisajat). T¨m¨ perusoletus viittaa homogeeniseen populaatioon. Kuitenkin kliinisiss¨ a a a kokeissa havaitaan usein k¨yt¨nn¨n tilanteissa, ett¨ potilaat eroavat toi- a a o a sistaan huomattavasti. L¨¨kkeen, hoidon tai erilaisten selitt¨vien muuttu- aa a jien vaikutus voi olla huomattavan erilainen eri potilaiden osaryhmiss¨. Jot- a ta havaitsematon heterogeenisyys voitaisiin selitt¨¨ tutkitussa populaatios- aa sa, Vaupel et al. ottivat k¨ytt¨¨n yhden muuttujan heikkousmallit elinaika- a oo analyysiin. Ideana on, ett¨ yksil¨ill¨ on erilaiset heikkoudet ja ett¨ kaikkein a o a a heikoimmat potilaat kuolevat ennen muita. T¨m¨n seurauksena on robustien a a yksil¨iden (potilaiden, joilla on matala heikkous) systemaattinen valituksi tu- o leminen. Estimoitaessa kuolleisuuslukuja saatetaan olla kiinnostuneita siit¨,a kuinka n¨m¨ luvut muuttuvat ajan tai i¨n funktiona. Useasti voidaan to- a a a deta hasardifunktion (kuolleisuuden) kasvavan alussa, sen j¨lkeen saavutta- a van maksimin ja t¨m¨n j¨lkeen laskevan (unimodaalinen intensiteetti) tai a a a tasoittuvan vakioarvoon. Mit¨ kauemmin potilas el¨¨ sairauden ilmenemi- a aa sen j¨lkeen, sit¨ suuremmat ovat h¨nen todenn¨k¨isyytens¨ selvit¨. On to- a a a a o a a denn¨k¨ist¨, ett¨ unimodaaliset intensiteetit ovat usein seurausta valintapro- a o a a sessista heterogeenisess¨ populaatiossa ja ne eiv¨t kuvaa yksil¨n kuolleisuut- a a o ta. Populaation intensiteetti saattaa alkaa laskea pelk¨st¨¨n korkeariskisten a aa yksil¨iden jo kuoltua pois populaatiosta. Tietyn yksil¨n riskitaso saattaa hy- o o vinkin kuitenkin olla kasvussa. Jos suojaavat tekij¨t tai riskit ovat tunnet- a tuja, ne voidaan lis¨t¨ malliin k¨ytt¨m¨ll¨ suhteellista hasardimallia (Coxin aa a a a a malli): h(t, X) = h0 (t) exp (β T X) (13) jossa h0 (t) on perustason hasardifunktio jonka oletetaan olevan eri kaikille yksil¨ille tutkittavassa populaatiossa, X on havaittujen kovariaattien vek- o tori ja β on vastaava estimoitavien regressioparametrien vektori. Mallin matemaattinen k¨ytt¨kelpoisuus perustuu perustason hasardifunktion h0 (t) a o ik¨¨ntymisen vaikutusten ja parametrisen termin exp (β T X) kovariaattien aa vaikutusten erotteluun. On olemassa kaksi p¨¨syyt¨ sille, miksi usein on mahdotonta sis¨llytt¨¨ kaik- aa a a aa kia t¨rkeit¨ tekij¨it¨ yksil¨tason analyysiin. Joskus mallissa on liian paljon a a o a o tutkittavia kovariaatteja. Joskus tutkija ei tied¨ kaikkia relevantteja kovari- a aatteja tai ei h¨n ei pysty niit¨ mittaamaan. Molemmissa tapauksissa elinai- a a 5
  • 7. kadatalla on kaksi vaihtelua aiheuttavaa tekij¨¨: mitattavien riskitekij¨iden aa o selitt¨v¨ varianssi, joka on t¨ll¨in teoreettisesti ennustettavissa, ja tunte- a a a o mattomien kovariaattien aiheuttama heterogeenisyys, joka ei ole teoreetti- sesti ennustettavissa vaikka kaikki relevantti informaatio tunnettaisiinkin. N¨iden kahden erottaminen tuo etuja, sill¨ heterogeenisyys voi selitt¨¨ joi- a a aa tain ”odottamattomia”tuloksia tai voi tarjota joillekin vaihtoehtoisen selityk- sen. Tarkastellaan esimerkiksi ei-suhteellisia hasardeja tai laskevia hasardeja kun odottamaton varianssi ilmi¨ss¨ pysyy. o a Suhteellisessa hasardimallissa t¨rkeiden kovariaattien osajoukon poisj¨tt¨ a a o mallista johtaa biasoituihin estimaatteihin sek¨ regressiokertoimissa ett¨ ris- a a kitasossa. Syy t¨m¨nkaltaisille virheille on siin¨, ett¨ aikariippuvat riskitasot a a a a johtavat tutkittavan populaation rakenteen muuttumiseen kovariaattien suh- teen ajan kuluessa. Jos kaksi potilasryhm¨¨ on kliinisess¨ kokeessa, jossa jotkut yksil¨t kokevat aa a o suuremman vikaantumisen riskin, t¨ll¨in j¨ljelle j¨¨neet potilaat muodos- a o a aa tavat enemm¨n tai v¨hemm¨n valitun ryhm¨n, jolla on alhaisempi riskita- a a a a so. Yksil¨llisen riskitason estimaatti (jos ei oteta huomioon havaitsematonta o heikkoutta) olisi t¨ll¨in todellisen hasardifunktion aliarvio, ja aliarvioinnin a o m¨¨r¨ kasvaisi ajan kuluessa. aa a Yhden muuttujan heikkousmalli laajentaa Coxin mallia siten, ett¨ yksil¨n a o hasardi riippuu lis¨ksi havaitsemattomasta satunnaismuuttujasta z, joka on a perustason hasardifunktion h kerroin: h(t, z, X) = zh0 (t) exp (β T X) (14) jossa muut tekij¨t ovat samat kuin ylemm¨ss¨, ja z on heikkousmuuttuja. a a a Heikkous z on satunnaismuuttuja, joka vaihtelee populaatiossa joko kasvat- taen (z > 1) tai pienent¨en (z < 1) yksil¨llist¨ riski¨. Heikkous vastaa alttiu- a o a a den tai haitan k¨sitett¨ eri olosuhteissa. [17] T¨rkein heikkouden ominaisuus a a a on kuitenkin se, ettei se ole havaittavissa. Vastaava selviytymisfunktio S, joka kuvaa selvi¨vien yksil¨iden osuutta tutkittavassa populaatiossa, on a o t S(t|z, X) = exp −z exp (β T X) h0 (s)ds (15) 0 ja se voidaan tulkita niiden yksil¨iden osuudeksi, jotka selvi¨v¨t ajan t o a a seurannan aloittamisesta annettuna kovariaattivektori X ja heikkous z. Huo- mattavaa on, ett¨ yht¨l¨t 14 ja 15 kuvaavat saman mallin eri merkinn¨ill¨. a ao o a T¨h¨n asti mallia on kuvattu yksil¨iden tasolla. Yksil¨iden taso ei ole kuiten- a a o o kaan havainnoitavissa. T¨st¨ seuraa, ett¨ on tarpeellista tarkastella mallia a a a populaatioiden tasolla. Koko populaation selviytymisfunktio on yksitt¨isten a selviytymisfunktioiden 15 keskiarvo. Se voidaan tulkita satunnaisesti valitun 6
  • 8. populaation j¨senen keskiarvona, ja se vastaa sit¨ mik¨ oikeasti havaitaan. a a a Huomattavaa on, ett¨ havaittu hasardifunktio ei ole samankaltainen yksil¨n a o riskitason kanssa. Se, mik¨ voidaan havaita populaatiosta, on yhteistulos a usealle yksil¨lle joilla on eri heikkous z. Populaation riskitaso voi olla t¨ysin o a erimuotoinen verrattuna yksil¨n riskitasoon. T¨m¨ on n¨ht¨viss¨ kuvasta 1. o a a a a a Punainen viiva kuvassa kuvaa ehdollisia (yksil¨llisi¨) riskitasoja heikkouk- o a silla 0.5, 1 ja 2. Sininen viiva kuvaa ehdotonta (populaation) riskitasoa. Er¨s t¨rke¨ heikkousmallien alan ongelma on heikkouden jakauman valinta. a a a Kuva 1: Ehdolliset ja ehdottomat riskitasot simuloidussa datajoukossa ih- misten kuolleisuudesta Heikkousjakaumina on useiten k¨ytetty gammafunktiota [3, 18], positiivista a tasapainojakaumaa [12], kolmiparametrista jakaumaa (PVF) [13], suljettua Poisson-jakaumaa [9, 10] ja log-normaalista jakaumaa [1]. Yhden muuttujan heikkousmalleja sovelletaan laajalti. Aalen ja Tretli [11] k¨yttiv¨t suljettua Poisson-jakaumaa yll¨ esiteltyyn kivessy¨p¨dataan. Mal- a a a o a lin ideana oli, ett¨ er¨s miesten osaryhm¨ on erityisen altis kivessy¨v¨lle, a a a o a joka ilmenee ajan kuluessa. Toinen esimerkki on data pahalaatuisesta mela- noomasta, joka sis¨lsi tietoja potilaista jotka olivat saaneet leikkaushoitoa a ihosy¨v¨n hoitoon Odensen yliopistollisessa sairaalassa Tanskassa. Hougaard o a vertasi tavallista Coxin regressiomallia ja PVF-heikkousmallia kesken¨¨n aa t¨m¨n datan analyysiss¨. [14] a a a Kolmas esimerkki k¨sitteli aikaa katetrin sy¨tt¨misest¨ sen poisottamiseen a o a a 7
  • 9. infektion takia dialyysipotilailla. McGilchrist ja Asbett julkaisivat osan datasta vuonna 1991. [1] Hougaard k¨ytti vuonna 2000 dataan yhden a muuttujan gammajakautunutta heikkousmallia selitt¨m¨¨n datan hetero- a aa geenisyytt¨. [14] a Heikkousmallin estimointi EM-algoritmilla Jatkuvan ajan gamma-heikkousmallin estimointiin k¨ytet¨an tyypillisesti jo- a a¨ tain likelihood-pohjaista menetelm¨¨. Menetelmi¨ ovat mm. EM-algoritmi aa a (expectation maximisation), penalisoitu osittainen likelihood ja Bayes- analyysi. [4] Yksityiskohtaisen k¨sittelyn EM-algoritmin k¨yt¨st¨ elinaika- a a o a datalle ovat esitt¨neet Klein ja Moeschberger. [15] EM-algoritmia k¨ytet¨¨n a a aa estimoimaan regressioparametreja gamma-heikkousmallille, joilla on kiinni- tetyt varianssiparametrit. Algoritmin vaiheet ovat seuraavanlaiset: 1. Sovita suhteellinen hasardimalli, jossa on tutkittavat kovariaatit. Es- o ˆ timoi jokaiselle koehenkil¨lle perustason hasardifunktio H0 (ti ). K¨yt¨ a a t¨t¨ estimaattia saadaksesi jokaiselle potilaalle kumulatiivinen hasar- aa difunktio ˆ ˆ ˆ ˆ H(ti , β, xi ) = H0 (ti ) exp (β T xi ) 2. Luo gamma-jakautuneen heikkouden mahdollisten varianssiparametrin arvojen θ joukko. Jokaiselle parametriarvolle θ toistetaan kohdat 3, 4 ja 5. 3. Estimointiaskel (E) m¨aritt¨a jokaiselle koehenkil¨lle heikkousmuuttu- a¨ a¨ o jan estimaatin 1 + θ × ci zi = ˆ ˆ ˆ 1 + θ × H(ti , β, xi ) 4. Maksimointiaskeleella (M) sovitetaan suhteellinen hasardimalli samoil- le kovariaateille, mutta lis¨t¨¨n hasardifunktioon my¨s zi . Ensin esti- a aa o ˆ moidaan perustason hasardifunktio ˆ cj hf 0 (ti ) = , l∈R(tj ) zi ˆ ˆ exp (β T xi ) jonka j¨lkeen saadaan kumulatiivinen perustason hasardifunktio a ˆ Hf 0 (ti ) = ˆ hf 0 (tj ), tj ≤ti 8
  • 10. josta saadaan kumulatiivinen heikkouden sis¨lt¨v¨ hasardifunktio a a a ˆ ˆ ˆ ˆ Hf (ti , β, xi ) = Hf 0 (ti ) exp (β T xi ). E- ja M-askeleita toistetaan kunnes algoritmi suppenee. 5. Laske mallin log-likelihood k¨ytt¨m¨ll¨ tietty¨ arvoa θ:lle a a a a a n n ˆ ˆ 1 ˆ ˆ L(θ, β) = ci β T xi + ln (hf 0 (ti )) − + ci ln 1 + θHf (ti , β, xi ) i=1 i=1 θ Kohdat 1-5 on toistettava kaikille valituille θ:n arvoille. ML-estimaatti saa- daan sill¨ θ:n arvolla, joka maksimoi likelihood-funktion. a Usean muuttujan heikkousmallit Toinen t¨rke¨ heikkousmallien sovellus on usean muuttujan elinaikadata. a a T¨llaista dataa esiintyy esim. jos tarkastellaan sukulaisten, esimerkiksi kak- a sosten, elinaikoja (tai sairauksien puhkeamisaikoja) tai uusiutuvia tapah- tumia kuten infektioita samalla henkil¨ll¨. T¨llaisissa tapauksissa kluste- o a a roitujen elinaikojen riippumattomuutta ei voida olettaa. Monen muuttujan mallit kykenev¨t selitt¨m¨¨n tapausten v¨lisen riippuvuuden olemassaolon. a a aa a Monesti k¨ytetty ja yleinen l¨hestymistapa on m¨aritt¨a havaittujen da- a a a¨ a¨ tan¨ytteiden ehdollinen riippumattomuus havaitsemattomien piilomuuttu- a jien suhteen. [14] Riippuvaisuusrakenne monen muuttujan tilanteessa syntyy useasti havaittujen ehdollisten elinaikamallien piilomuuttujasta. Esimerkik- si, olkoon S(t1 |z, X1 ) ja S(t2 |z, X2 ) kahden kesken¨¨n sukulaisia olevan hen- aa kil¨n ehdolliset selviytymisfunktiot eri havaituilla kovariaattivektoreilla X1 o ja X2 . Keskiarvoistamalla piilomuuttujien oletettujen jakaumien yli (esim. k¨ytt¨m¨ll¨ gamma-, lognormaali- tai tasapainojakaumaa) luodaan monen a a a a muuttujan malli havaitulle datalle. Parillisten havaintojen tapauksessa kak- siulotteinen selviytymisfunktio on muotoa ∞ S(t1 , t2 ) = S(t1 |z, X1 )S(t2 |z, X2 )g(z)dz (16) 0 jossa g on heikkouden z tiheysjakauma. Kaksosten tapauksessa S(t1 , t2 ) ku- vaa suhteellista osuutta niist¨ kaksospareista, joissa ensimm¨inen kaksonen a a el¨¨ ajan t1 ja toinen el¨¨ ajan t2 . aa aa Monen muuttujan heikkousmallit useampiulotteiselle datalle johdetaan ehdollisesta riippumattomuudesta m¨¨ritt¨m¨ll¨ piilomuuttujat jotka ovat aa a a a perustason hasardifunktion tulotekij¨it¨. o a 9
  • 11. Jaetun heikkouden malli Jaetun heikkouden malli on relevantti tutkittaessa sukulaisten tapahtuma- aikoja, samanlaisia elimi¨ tai toistettuja mittauksia. Samassa klusterissa ole- a vien yksil¨iden oletetaan omaavan sama heikkous z. Ensimm¨isen¨ mallia o a a k¨ytti Clayton [3], ja sit¨ on paljon tutkinut Hougaard [14]. Selviytymisai- a a kojen oletetaan olevan ehdollisesti riippumattomia yhteisen heikkouden suh- teen. Yksinkertaisuuden vuoksi seuraavassa tarkastellaan vain kahden muut- tujan tapausta (ni = 2), sill¨ yleist¨minen useamman muuttujan tapaukseen a a on suoraviivaista. Oletetaan, ett¨ datassa on n klusteria ja ett¨ i:nness¨ klusterissa on ni yk- a a a sil¨¨, joihin vaikuttaa havaitsematon satunnaisvaikutus (heikkous) zi (1 ≤ oa i ≤ n). Elinaikojen oletetaan olevan riippumattomia ehdolla heikkoudet zi ja niiden hasardifunktiot ovat muotoa h(t, zi ) = zi h0j (t), jossa t on aika tai ik¨ a ja h0j , (j = 1, ..., ni ) on perustason hasardifunktio j:nnelle vikaantumiselle. Heikkouksien zi oletetaan olevan riippumattomia ja samoin jakautuneita yh- teisell¨ tiheysfunktiolla f (z, θ), jossa θ on heikkousjakauman parametri. Se- a miparametrisessa jaetun heikkouden mallissa perustason hasardifunktioiden h0j muodosta ei tarvitse tehd¨ alkuoletuksia. Havaitut kovariaatit lis¨t¨¨n a a aa malliin my¨hemmin. o Mallin perusoletus on, ett¨ yksitt¨isen parin tietyn yksil¨n hasardifunktio a a o ehdolla heikkous z on yht¨l¨n 14 muotoa, jossa z on sama molemmille parin ao osapuolille, ja se synnytt¨a riippuvuuden parin elinaikojen v¨lille. Elinaiko- a¨ a jen riippumattomuus vastaisi heikkousjakaumaa, jolle p¨tee (z = 1, σ 2 = 0). a 2 Kaikissa tapauksissa, joissa σ > 0, riippuvuus on positiivinen johtuen mal- lin rakenteesta. Kahden muuttujan selviytymisfunktio ehdolla heikkous on muotoa S(t1 , t2 |z) = S1 (t1 )z S2 (t2 )z = e−z(Λ01 (t1 )+Λ02 (t2 )) , (17) jossa Λ0j (t) = 0t h0j (s)ds, (j = 1, 2) ja S0j (t) = e−Λ0j (t) ovat kumulatii- vinen perustason hasardifunktio sek¨ marginaalijakaumien selviytymisfunk- a tiot. Keskiarvoistamalla funktion 17 heikkouden yli saadaan S(t1 , t2 ) = E[S(t1 , t2 |z)] = E[S01 (t1 )z S02 (t2 )z ] = E[e−z(Λ01 (t1 )+Λ02 (t2 )) ] = L(Λ01 (t1 ) + Λ02 (t2 )), (18) jossa L tarkoittaa z:n Laplace-muunnosta. Kahden muuttujan elinaikafunk- tio ilmaistaan siis heikkousjakauman Laplace-muunnoksena kumulatiivisen perustason hasardin kohdalla arvioituna. Monissa sovellutuksissa oletetaan, ett¨ heikkouden jakauma on gammaja- a kautunut odotusarvolla 1 ja varianssilla σ 2 . Keskiarvoistamalla ehdollisen 10
  • 12. selviytymisfunktion yli tuottaa t¨ll¨ oletuksella funktion a a 2 S(t1 , t2 ) = L(Λ01 (t1 ) + Λ02 (t2 )) = (1 + σ 2 (Λ01 (t1 ) + Λ02 (t2 )))−1/σ 2 2 2 = (S1 (t1 )−σ + S2 (t2 )−σ − 1)−1/σ (19) Jaetun heikkouden k¨site eroaa alkuper¨isest¨ Vaupel et al. esittelem¨st¨ a a a a a yksil¨llisest¨ heikkoudesta, sill¨ kahden muuttujan jaetun heikkouden mal- o a a lissa heikkous on vain osa yksil¨llist¨ heikkoutta, ja se pyrkii kuvaamaan sit¨ o a a heikkoutta, joka on yhteist¨ molemmille parin osapuolille. a Jaettu heikkous selitt¨¨ koehenkil¨iden ja klustereiden v¨lisen korrelaation. aa o a Sill¨ on kuitenkin omat rajoituksensa. Ensinn¨kin se pakottaa havaitsematto- a a mat tekij¨t samoiksi klusterin sis¨ll¨, joka ei v¨ltt¨m¨tt¨ aina vastaa todelli- a a a a a a a suutta. Esimerkiksi joskus voi olla ep¨soveliasta olettaa, ett¨ kaikki klusteris- a a sa olevat parit jakavat samat riskitekij¨t. [19] Toiseksi klusterin sis¨isten eli- a a naikojen v¨linen riippuvuus perustuu elinaikojen marginaalijakaumiin. Kun a suhteellisessa hasardimallissa on gammajakautunut heikkoustekij¨ sek¨ ko- a a variaatteja, riippuvuusparametri ja populaation heterogeenisyys sekoittuvat. [2] T¨m¨ viittaa siihen, ett¨ yhteisjakauma voidaan m¨¨ritt¨¨ marginaalija- a a a aa aa kaumista. [13] Kolmanneksi, useimmissa tapauksissa yksidimensioinen heik- kous voi aiheuttaa vain suoria verrannollisuuksia klusteriin. On kuitenkin olemassa tilanteita joissa elinajat ovat k¨¨nt¨en verrannollisia. Esim. Stan- aa a fordin syd¨mensiirtotutkimuksessa havaittiin, ett¨ mit¨ kauemmin henkil¨ a a a o joutui odottamaan syd¨nt¨, sit¨ v¨hemm¨n aikaa h¨nen oli todenn¨k¨ist¨ a a a a a a a o a el¨¨ syd¨mensiirron j¨lkeen. Korreloidut heikkousmallit kehitettiin vastaa- aa a a maan n¨ihin ongelmiin. a Korreloidut heikkousmallit Alunperin korreloidut heikkousmallit kehitettiin analysoimaan kahden muut- tujan vikaantumisaikadataa, jossa k¨ytet¨¨n kahta muuttujaa kuvaamaan a aa heikkousvaikutusta kummallekin parille. Esimerkiksi yksi satunnaismuuttu- ja kuvaa ensimm¨ist¨ parin osapuolta, ja toinen satunnaismuuttuja toista, a a jolloin n¨ill¨ ei en¨¨ ole yhteist¨ heikkousmuuttujaa. N¨m¨ kaksi muuttujaa a a aa a a a ovat yhteisjakautuneet. Yhden muuttujan tunteminen ei tarkoita sit¨ ett¨ a a toinenkin tunnettaisiin. Muuttujat voivat olla my¨s k¨¨nt¨en verrannollisia, o aa a joka n¨kyy elinajoissa k¨¨nteisen¨ verrannollisuutena. a aa a Tarkastellaan kahden muuttujan havaintodataa, esimerkiksi kaksosten eli- naikoja. Parin i, (i = 1, 2, ..., n) yksil¨n j, (j = 1, 2) hasardifunktio ehdolla o heikkoudet on muotoa h(tj , zij ) = zij h0j (t) exp (xj βj ), (20) 11
  • 13. jossa h0j (t) ovat jotkin perustason funktiot ja zij ovat havaitsemattomat sa- tunnaisvaikutukset. Perustuen edell¨olevaan hasardifunktioon, saadaan eh- a dollinen selviytymisfunktio tapahtuma-ajoille Sj (tj |zj ) = e−Λ0j (tj )zj exp (xj βj ) (21) jossa t Λ0j (t) = h0j (t)dt (22) 0 on kumulatiivinen perustason hasardifunktio hetkell¨ t tyypin j yksil¨lle kai- a o kissa klustereissa. Marginaalisen likelihood-funktion johtamiseksi t¨ytyy olettaa, ett¨ elinajat a a ovat ehdollisesti riippumattomia. Olkoon cij sensuuri-indikaattori parin i yk- sil¨lle j. Indikaattori saa arvon 1, jos yksil¨ on kokenut tutkittavan tapahtu- o o man, ja 0 muulloin. Parin i yksil¨n j ehdollinen likelihood on o L(tij , cij |zij ) = (zij h0j (tij ))cij ezij Λ0j (tij ) . (23) Olettaen ehdollisesti riippumattomat elinajat annettuna heikkous ja integroi- malla pois satunnaisvaikutukset saadaan marginaalitodenn¨k¨isyys a o n ∗ L(t, c) = (zi1 h∗ (ti1 ))ci1 ezi1 Λ01 (ti1 ) 01 i=1 R+ ×R+ ∗ ∗ (zi2 h∗ (ti2 ))ci2 ezi2 Λ02 (ti2 ) fz (zi1 , zi2 )dzi1 dzi2 , 02 (24) jossa t = (t1 , ..., tn ), ti = (ti1 , ti2 ), c = (c1 , ..., cn ), ci = (ci1 , ci2 ) ja fz (·, ·) on vastaava heikkouden tiheysfunktio. Lis¨ksi h∗ (tij ) = h0j (tij ) exp (xij βj ) ja a 0j ∗ Λ0j (tij ) = Λ0j (tij ) exp (xij βj ). Olettaen heikkouden gammajakautuneiksi Yashin ja Iachine k¨yttiv¨t korre- a a loitua gamma-heikkousmallia kahden muuttujan selviytymisjakaumaan, joka on muotoa [5] S1 (t1 )1−ρ S2 (t2 )1−ρ S(t1 , t2 ) = . (25) (S1 (t1 )−σ2 + S2 (t2 )−σ2 − 1)ρ/σ2 Kahden muuttujan heikkousmallin estimointi Jotta yht¨l¨ (24) voitaisiin ratkaista parametrisesti, t¨ytyy heikkouksia ku- ao a vata kahden muuttujan yhteisjakaumalla. Kahden muuttujan lognormaalija- kauma valitaan heikkouksien yhteisjakaumaksi seuraavista syist¨: a • Heikkous voidaan tulkita normaalijakautuneeksi vakiotermiksi suhteel- listen hasardien mallissa. Olkoon w1 = log (z1 ) ja w2 = log (z2 ). 12
  • 14. 2 2 a 2 Jos nyt (z1 , z2 ) ∼ BV LOG N(0, 0, σ1 , σ2 , ρ), miss¨ σ1 = Var(z1 ) ja 2 σ2 = Var(z2 ) ja ρ = corr(w1 , w2 ). Yht¨l¨ (20) voidaan kirjoittaa ao h(tj |wj ) = h0j (tj )ewj +xj βj (26) • Koska w1 ja w2 ovat keskiarvon suhteen symmetrisi¨, eli (−w1 , −w2 ) ∼ a 2 2 BV N(0, 0, σ1 , σ2 , ρ), yht¨l¨ (20) voidaan yleist¨¨ ao aa h0j (tj )exj βj h(tj |zj ) = (27) zj • Korrelaatio ρ on v¨lill¨ [−1, 1]. Lis¨ksi ρ ei riipu w:den keskiarvoista a a a tai variansseista. Koska yht¨l¨lle (24) ei ole olemassa sujletun muodon ratkaisua kun ao (z1 , z2 ) ovat log-normaalisti yhteisjakautuneet, joudutaan k¨ytt¨m¨¨n EM- a a aa algoritmia. Muunnettua EM-algoritmia k¨ytet¨¨n estimoimaan kertoimet a aa β1 ja β2 sek¨ heikkousparametrit σ1 , σ2 ja ρ. Alla on esitetty lyhyesti semi- a parametrisen algoritmin kulku, joka ei oleta perustason hasardifunktioista mit¨¨n. [19] aa 1. K¨ytt¨m¨ll¨ hyv¨ksi standardia Coxin regressiomallia estimoi para- a a a a a metreille β1 ja β2 alkuarvot profiilin likelihood-funktiosta n ∗∗ lj = s(i)j βj − d(i)j ln zkj eβj xkj ˆ (28) i=1 k∈R(T(i)j ) jossa T(i)j on i:nneksi pienin tapahtuma-aika kaikille tyypin j hen- kil¨ille, R(t) on riskijoukko ajanhetkell¨ t, d(i)j on kuolemien m¨¨r¨ o a aa a ajanhetkell¨ T(i)j kaikkien tyypin j henkil¨iden keskuudessa ja s(i)j on a o tyypin j henkil¨iden kovariaattivektorien summa tapahtumahetkell¨ o a 2 2 T(i)j , j = 1, 2. Parametrien σ1 , σ2 ja ρ alkuarvot ovat nollia. 2. E-askel: K¨ytt¨m¨ll¨ t¨m¨nhetkisi¨ parametrien β1 , β2 , a a a a a a a σ1 , σ2 ja ρ arvoja laske odotusarvot estimaattoreille ˆ E(zij |Ti1 , Ti2 , xi1 , xi2 ) = zij , E(log (zij )2 |Ti1 , Ti2 , xi1 , xi2 ) = log(zij )2 ja ˆ E(log (zi1 ) log (zi2 )|Ti1 , Ti2 , xi1 , xi2 ) = log (z1 )ˆlog (z2 ). Jos molemmat parin tapahtuma-ajat ovat sensuroituja, niin zij S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )f (zi1 , zi2 )dzi1 dzi2 zij = ˆ , (29) S(ti1 , ti2 |xi1 , xi2 ) 13
  • 15. jossa ∗ ∗ S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 ) = e−zi1 Λi1 (ti1 )−zi2 Λi2 (ti2 ) (30) ja ∗ ∗ S(ti1 , ti2 |xi1 , xi2 ) = e−zi1 Λi1 (ti1 )−zi2 Λi2 (ti2 ) f (zi1 , zi2 )dzi1 dzi2 (31) Jos jompi kumpi tapahtuma-ajoista on t¨ydellinen (olet. Ti1 ) ja toinen a on sensuroitu, niin zij S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )zi1 f (zi1 , zi2 )dzi1 dzi2 zij = ˆ (32) S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )zi1 f (zi1 , zi2 )dzi1 dzi2 Jos molemmat tapahtuma-ajoista ovat t¨ydellisi¨, niin a a zij S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )zi1 zi2 f (zi1 , zi2 )dzi1 dzi2 zij = ˆ (33) S(ti1 , ti2 |zi1 , zi2 , xi1 , xi2 )zi1 zi2 f (zi1 , zi2 )dzi1 dzi2 Samalla tavoin voidaan laskea my¨s log(zij )2 ja log (z1 )ˆlog (z2 ) o ˆ 3. M-askel: P¨ivit¨ estimaatit σ1 :lle, σ2 :lle ja ρ:lle k¨ytt¨m¨ll¨ kaavoja a a a a a a 2 σ1 = (logzˆ i1 )2 /n, σ 2 = (logzi2 )2 /n ja ρ = (log zi1ˆlog zi2 )/n. ˆ 2 P¨ivit¨ lis¨ksi kertoimien β1 ja β2 estimaatteja, sek¨ ei-parametrista a a a a estimaattia Λ0j (t):lle: ˆ d(i)j Λ0j (t) = (34) T (i)j<t ˆ βj xkj k∈R(T(i)j ) zkj e 4. Iteroi vaiheita 2 ja 3 kunnes suppenee. 14
  • 16. Kirjallisuutta [1] McGilchrist C. A. and Aisbett C. W. Regression with frailty in survival analysis. Biometrics, 47:461–466, 1991. [2] Clayton D. and Cuzick J. The semi-parametric pareto model for regres- sion analysis of survival times. Proceedings of the Centenary Session of the International Statistical Institute, Amsterdam, 1985. [3] Clayton D.G. A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence. Biometrika, 65:141–151, 1978. [4] Masonnet G., Janssen P., and Burzykowski T. Fitting frailty models via linear mixed models using model transformation. [5] Yashin A. I. and Iachine I. A. Genetic analysis of durations: Correlated frailty model applied to survival of danish twins. Genetic Epidemiology, 12:529–538, 1995. [6] Hosmer D. W. Jr. and Lemeshow S. Applied Survival Analysis: Regres- sion Modeling of Time to Event Data. John Wiley & Sons, 1999. [7] Andersen P. K., Klein J. P., and Zhang M.-J. Testing for centre effects in multi-centre survival studies: A monte carlo comparison of fixed and random effects tests. Statistics in Medicine, 18:1489–1500, 1999. [8] Manton and Stallard. Methods for evaluating the heterogeneity of aging processes in human populations using vital statistics data: explaining the black/white mortality crossover by a model of mortality selection. Human Biology, 53:47–67, 1981. [9] Aalen O. O. Heterogeneity in survival analysis. Statistics in Medicine, 7:1121–1137, 1988. 15
  • 17. [10] Aalen O. O. Modelling heterogeneity in survival analysis by the com- pound poisson distribution. Annals of Applied Probability, 4(2):951–972, 1992. [11] Aalen O. O. and Tretli S. Analysing incidence of testis cancer by means of a frailty model. Cancer Causes and Control, 10:285–292, 1999. [12] Hougaard P. A class of multivariate failure time distributions. Biomet- rika, 73:671–678, 1986. [13] Hougaard P. Survival models for heterogeneous populations derived from stable distributions. Biometrika, 73:671–678, 1986. [14] Hougaard P. Analysis of multivariate survival data. Springer, New York, 2000. [15] Klein J. P. and Moeschberger M. L. Survival Analysis Techniques for Censored and Truncated Data. Springer-Verlag, 1997. [16] Cox D. R. Regression models and life-tables. Journal of the Royal Statistical Society B, 34:187–220, 1972. [17] Falconer D. S. The inheritance of liability to diseases with variable age of onset, with particular reference to diabetes mellitus. Annals of Human Genetics, 31:1–20, 1967. [18] Vaupel J. W., Manton K. G., and Stallard E. The impact of heteroge- neity in individual frailty on the dynamics of mortality. Demography, 16:439–454, 1979. [19] Xue X. and Brookmeyer R. Bivariate frailty model for the analysis of multivariate survival time. Lifetime Data Analysis, 2:277–289, 1996. 16