SlideShare a Scribd company logo
1 of 286
Download to read offline
1
Capitolo 1
Introduzione al modello di regressione logistica
1.1. Premessa
Con la regressione lineare esaminiamo modelli del tipo:
0 1 1 2 2 ... n n
Y x x x
β β β β ε
= + + + + + (1.1)
La variabile risposta Y è continua e il nostro scopo è individuare una serie di variabili esplicative che
ci aiutino a predirne il valore medio spiegando, in tal modo, la variabilità osservata dei risultati.
In molte situazioni, però, siamo interessati ad una variabile di risposta Y dicotomicaa
. Il risultato di Y
può assumere pertanto solo due possibili valori; in generale, il valore 1 rappresenta un successo e il
valore 0 un insuccesso. La media della variabile casuale dicotomica, indicata con π, è la proporzione
di volte in cui la variabile assume il valore 1.
In questo caso, vorremmo stimare la probabilità π e determinare i fattori o le variabili esplicative
che ne influenzano il valore. A tal fine, utilizzeremo una tecnica nota come regressione logistica.
Per introdurre la necessità di tale modello, consideriamo il data set Chd-Age di seguito descritto:
Tab. 1.1
Code Sheet for the Chd-Age data
Variable Name Values
1 Identification Code (ID) 1-100
2 AGE Years
3 Evidence of Coronary Heart Disease (CHD) 0 = No, 1=Yes
Il nostro interesse consiste nel provare una relazione tra l’età (AGE) e la presenza/assenza di
malattia coronarica (CHD) intesa come variabile dipendente (outcome).
Per prima cosa tracciamo uno scatter-plot con CHD sull’asse delle ordinate e AGE sulle ascisse.
In questo scatter-plot (Fig. 1.1) tutti i punti giacciono su due linee parallele rappresentanti
rispettivamente l’assenza (CHD = 0) e la presenza (CHD = 1) di malattia coronarica.
Come si può vedere c’è una certa tendenza, negli individui con CHD = 0, ad essere più giovani
rispetto ai soggetti che hanno presenza di malattia coronarica (CHD = 1).
Se da un lato questo scatter-plot ben evidenzia la natura dicotomica della variabile risposta,
dall’altro non rende certamente chiaro l’eventuale condizionamento indotto dalla variabile AGE.
Il problema è che la variabilità di CHD, ad ogni età, è molto accentuata.
Un metodo abbastanza comune utilizzato per rimuovere almeno parte detta variabilità, consiste nel
suddividere la variabile indipendente AGE in intervalli e, all’interno di questi, calcolare la media della
variabile risposta, ossia la proporzione di soggetti con presenza di malattia coronarica.
Questo secondo scatter-plot è raffigurato in Fig. 1.2.
a
In realtà il modello logistico, con alcuni aggiustamenti, si dimostra adeguato per studiare
fenomeni in cui la variabile discreta di risposta (ordinale e non) sia classificata su più di due livelli.
2
Fig. 1.1
Tab. 1.2
Frequency Table of Age Group by CHD
Group agrp count
CHD
prop
absent present
1 20-29 10 9 1 0.10
2 30-34 15 13 2 0.13
3 35-39 12 9 3 0.25
4 40-44 15 10 5 0.33
5 45-49 13 7 6 0.46
6 50-54 8 3 5 0.63
7 55-59 17 4 13 0.76
8 60-69 10 2 8 0.80
Total 100 57 43 0.43
0
.2
.4
.6
.8
1
chd
20 30 40 50 60 70
age
3
Fig. 1.2
Dalla Fig. 1.2 la relazione tra presenza di malattia coronarica (prop) ed età (agrp) si fa più evidente:
più è elevata l’anzianità nei gruppi, maggiore è la percentuale di soggetti affetti da malattia
coronarica.
1.2. Necessità del modello logistico
Può sorgere a questo punto spontanea una domanda: perché quando la variabile dipendente è di
tipo dicotomico non possiamo utilizzare il modello di regressione lineare?
Nel modello lineare la media dei valori di yi per ogni valore della X (attesa condizionata di Y) risulta
determinata da:
( ) 0 1
|
E Y x x
β β
= + (1.2)
In questo caso E(Y|x) potenzialmente varia tra meno infinito e più infinito a secondo dei valori
raggiunti da x. E' evidente che, nel caso di una variabile dicotomica, il modello non è adeguatoa
.
Possiamo tentare di superare questo intoppo adottando un modello parzialmente modificato:
( ) ( ) ( ) ( )
0 1
| 1| exp
x E Y x P Y x x
π β β
= = = = + (1.3)
a
Nel caso di una variabile dicotomica la media condizionata deve essere compresa tra zero e
uno 0≤E(Yx)≤1
0
.2
.4
.6
.8
1
prop
1 2 3 4 5 6 7 8
agrp
4
Anche questo modello non è tuttavia adeguato: sebbene non può produrre una stima negativa di π
può dar luogo a valori maggiori di 1.
Per correggere questa incongruenza, adottiamo un modello che preveda una sorta di
normalizzazione:
( )
( )
( )
( ) ( )
0 1
0 1
exp
| 1|
1 exp
x
x E Y x P Y x
x
β β
π
β β
+
= = = =
+ +
(1.4)
Per semplificare ulteriormente la modellazione introduciamo l’ODDS, definito come segue:
( )
( )
( )
0 1
exp
1
x
odds x
x
π
β β
π
= = +
−
(1.5)
Passando ai logaritmi si ottiene infine un modello lineare:
( )
( )
( ) 0 1
log
1
x
g x x
x
π
β β
π
 
= = +
 
 
−
 
(1.6)
La funzione logit, g(x) è lineare nei suoi parametri, è continua, e ha un range da più infinito a meno
infinito.
Tuttavia nel modello di regressione lineare si assume anche che la distribuzione condizionale della
variabile dipendente abbia media E(Y|x) e varianza costante. Nel caso di una variabile dicotomica, la
varianza della distribuzione condizionale della variabile dipendente assume il valore π(x)[1-π(x)], ossia
non è indipendente da x.
Nel modello di regressione si può dimostrare che, una volta assunta la normalità della distribuzione
degli errori, i parametri stimati con il metodo dei minimi quadrati sono anche stime di massima
verosimiglianza. Nel caso del modello logistico, venendo meno la normalità della distribuzione degli
errori, non potremo usare la stima dei minimi quadrati, ma dovremo stimare i parametri con il
metodo più generale della massima verosimiglianza.
1.3. Stima di massima verosimiglianza
Si estragga un campione da una popolazione avente funzione di densità di probabilità π(x;β) in cui β è
un qualunque vettore dei parametri della popolazione che occorre stimare. La densità di probabilità
congiunta dell'intero campionea
si ottiene mediante moltiplicazione:
( ) ( ) ( ) ( ) ( )
1 2 1 2
1
, ... ; ; ; ... ; ;
n
n n i
i
x x x x x x x
π π π π π
=
= = ∏
β β β β β
Facciamo ora riferimento ad una variabile dicotomica Y codificata 0/1. In questo caso l’espressione di
π(x) data dalla (1.4) fornisce, per un arbitrario vettore β, la probabilità condizionale che Y sia uguale a
1 dato x. Ne consegue che la quantità 1-π(x) esprime la probabilità che Y sia uguale a zero dato x.
a
Si fa riferimento a un campione casuale (con reintroduzione o da popolazione infinita)
5
Quindi per ciascuna coppia (xi,yi), in cui yi =1, il contributo alla funzione di verosimiglianza è π(x), per
quelle coppie in cui yi=0, il contributo alla funzione di verosimiglianza è dato da 1-π(x). Possiamo
pertanto esprimere il contributo alla funzione di verosimiglianza per ogni coppia (xi,yi) attraverso la
seguente espressione:
( ) ( ) ( )
1
; 1
yi
yi
i i i
x x x
ζ π π
−
=  − 
 
β (1.7)
Poiché si assume che le osservazioni siano indipendenti, la funzione di verosimiglianza l(β) è ottenuta
come prodotto dei contributi singoli.
( ) ( ) ( )
( )
1
1
1
n
yi
yi
i i
i
l x x
π π
−
=
= −
∏
β (1.8)
Le stime di massima verosimiglianza dei parametri saranno quelle che massimizzano la funzione l(β).
Massimizzare direttamente la (1.8) non è agevole, è molto più semplice operare sulla funzione log
trasformata. Si introduce pertanto la funzione di log verosimiglianza e si fa riferimento alla
massimizzazione di quest’ultima per stimare i parametri.
( ) ( ) ( ) ( ) ( )
{ }
1
log log 1 log 1
n
i i i i
i
L l y x y x
π π
=
=   =   + −  − 
     
∑
β β (1.9)
Per massimizzare la (1.9) dovremo annullarne le derivate parziali rispetto a β0 e β1 ottenendo le
seguenti equazioni :
( )
( )
1
1
0
0
n
i i
i
n
i i i
i
y x
x y x
π
π
=
=

 −  =
  


  −  =
 


∑
∑
(1.10)
Si ottengono, in tal modo, delle equazioni che, a differenza del caso della regressione lineare, non
saranno lineari nei parametri e necessiteranno perciò di una soluzione numerica di tipo iterativo.
Il metodo della massima verosimiglianza fornisce le stime dei parametri della popolazione che con
maggiore probabilità sono in grado di determinare i valori campionari osservati, esso fornisce, in un
certo senso, i 'valori' dei parametri della popolazione che 'meglio si adattano' al campione osservato.
Inoltre, sotto condizioni generali, la stima di massima verosimiglianza presenta le seguenti proprietà
asintotichea
:
1) efficienza, poiché ha varianza più piccola di ogni altro stimatore;
2) consistenza, cioè, non distorsione asintotica, con varianza tendente a zero;
a
Una proprietà asintotica è tale quando è verificata per grandi campioni. Nel caso di piccoli
campioni perciò, non è detto che la stima di massima verosimiglianza sia la miglior stima possibile dei
parametri dell'universo
6
3) distribuzione normale.
Una interessante conseguenza della prime delle (1.10) è che:
( )
ˆ
i i
y x
π
=
∑ ∑ (1.11)
Cioè, la somma dei valori osservati di y è uguale alla somma dei valori attesi (predicted). Ciò sarà
estremamente utile quando si discuterà dell’adeguatezza del modello.
Come esemplificazione utilizziamo ancora il data set Chd-Age e, utilizzando sw ad hoc, realizziamo un
modello di regressione logistica con CHD come variabile dipendente e con AGE come covariata
predittiva. Il modello ottenuto è presentato in Tab.1.3.
Tab. 1.3
Results of Fitting the Logistic Regression Model to the Chd-Age data set
CHD Coef. Std. Err. z P>z [95% Conf.Interval]
AGE 0.110921 0.02406 4.61 0 0.063765 0.158078
_cons -5.30945 1.133655 -4.68 0 -7.53138 -3.08753
Log likelihood = -53.67656
Le stime di massima verosimiglianza di β0 e β1 sono:
0 1
ˆ ˆ
5.309 0.111
β β
= − =
I valori fittati sono dati dall’equazione:
( )
( )
( )
exp 5.309 0.111
ˆ
1 exp 5.309 0.111
AGE
x
AGE
π
− + ⋅
=
+ − + ⋅
(1.12)
e la stima del logit, ( )
ĝ x , è dato dalla seguente equazione:
( )
ˆ 5.309 0.111
g x AGE
= − + ⋅ (1.13)
Il valore del Log likelihood fornito dalla Tab. 1.3, è ottenuto dalla (1.9) calcolata usando i valori di
0
ˆ
β e 1
ˆ
β .
1.4. Valutazione della SIGNIFICATIVITA' dei coefficienti
1.4.1.Metodo della massima verosimiglianza
La valutazione della significatività dei coefficienti si conduce sfruttando le funzioni di massima
verosimiglianza calcolate in corrispondenza del modello completo e di quello ridottoa
.
A titolo di esempio, si supponga di voler valutare se da un modello completo con 5 (p) covariate si
a
I due modelli devono essere 'nested' ossia annidati. Il modello ridotto deve, in altri termini, contenere un
subset di covariate ottenuto dal modello completo. Il modello ridotto non potrà mai prevedere una covariata
che non sia anche inserita nel modello completo
7
possano eliminare, perché poco predittive, 2 (g) covariate. L'ipotesi nulla diventa il questo caso:
( )
1
: 0,0, ...
o g p
H β β
+
=
β
Si procede nel seguente modo:
1) si calcola la funzione di massima verosimiglianza in corrispondenza del modello completo l(β0);
2) si calcola la funzione di massima verosimiglianza in corrispondenza del modello ridotto l(βr);
3) si calcola la funzione G così definita:
( )
( )
reduced model
2log
completed model
G
 
= −  
 
 
ℓ
ℓ
(1.14)
E' ragionevole pensare che se il rapporto dei massimi delle funzioni di verosimiglianza con i due
modelli tende all'unità, e quindi la differenza fra i rispettivi logaritmi tende a zero, il contributo delle
g variabili sotto analisi sia praticamente trascurabile.
In effetti la funzione G si distribuisce, sotto H0, asintoticamente come una χ2
con g gradi di libertà
(numero di covariate perse nel passaggio da modello satured a modello reduced).1
Il valore di G consente, confrontato con il valore limite corrispondente di χ2
, di rifiutare o non
rifiutare l'ipotesi nulla H0.
Applichiamo ora la (1.14) nel caso di un modello con una sola covariata. Tenute presente la (1.8) e la
prima delle (1.10) si haa
:
( )
( ) ( )( )
0
1
0
1
1
1
2
1
modello senza la variabile
2log 2log
modello con la variabile
ˆ ˆ
1
n
n
n
yi
yi
i i
i
n
n
n n
G
π π
−
=
 
 
 
 
   
     
 
= − = −
 
   
  −
 
 
 
∏
ℓ
ℓ
(1.15)
( ) ( ) ( ) ( ) ( ) ( )
1 1 0 0
1
ˆ ˆ
2 log 1 log 1 log log log
n
i i i i
i
G y y n n n n n n
π π
=
 
=  + − −  −  + − 
 
   
 
∑ (1.16)
a
Per il caso specifico di una singola variabile dipendente, è facile mostrare che, quando la variabile non è nel
modello, la stima di massima verosimiglianza di β0 è ( )
1 0
log n n dove 1 i
n y
= ∑ e ( )
0 1 i
n y
= −
∑ .
Dalla prima delle (1.10) si ha infatti:
( )
( )
( ) ( )
0
0 0
0
exp
0 exp exp
1 exp
i i i i
y np y n y y n
β
β β
β
− = → = → + ⋅ = ⋅
+
∑ ∑ ∑ ∑
e passando ai logaritmi:
( ) ( )( ) ( ) ( )
0 0
log exp log exp
i i i i
y n y y y
β β
= − → =
∑ ∑ ∑ ∑ ( )
1 i i
y y
+ − −
∑ ∑
( ) ( )
0 log
1
i
i
y
y
β
→ =
−
∑
∑
8
Particolare attenzione occorre osservare quando il modello prevede l'inserimento di una covariata
categorizzata su più di due valori. In questa situazione è possibile che le procedure automatiche
selezionino come significativo un solo livello categorico escludendo i rimanenti. Accettando questa
soluzione si commetterebbe un grave errore perché si avallerebbe un modello non ipotizzabile in
partenza.
A scopo esemplificativo consideriamo ancora il modello logistico applicato al data set Chd-Age e il cui
fitting è riportato in Tab. 1.3.
Sulla base dell’output ottenuto valutiamo se la variabile AGE è predittiva di CHD.
Dalla (1.14) otteniamo:
( )
( ) ( )
( )
2 log reduced model log completed
G  
= − −
 
ℓ ℓ
( )
( )
( )
( )
log completed 53.676546
29.31
log reduced 68.331491
G

= − 
→ =

= − 

ℓ
ℓ
(1.17)
Poiché i due modelli (nested) differiscono per una sola covariata, il valore di G dovrà essere
confrontato con una distribuzione χ2
con un grado di libertà.
2
(0.05;1 )
29.31 3.84 df
G χ
= > =
L’ipotesi nulla (AGE non predittiva) è rifiutata, pertanto la variabile AGE è da ritenersi predittiva.
Allo stesso risultato si perviene con l’uso della formula (1.16), ricordando che in questo caso n1 e n0
valgono rispettivamente 43 e 57.
( ) ( ) ( )
{ }
2 53.667 43 log 43 57 log 57 100 log 100 29.31
G = − −  ⋅ + ⋅  − ⋅ =
  (1.18)
1.4.2 Wald test
Oltre che con il test del rapporto delle verosimoglianze (LikelihoodRatioTest), le significatività dei
coefficienti del modello possono essere valutate tramite il cosiddetto Wald testa2
.
Questo test è ottenuto rapportando la stima di massima verosimiglianza del parametro con il suo
errore standard stimato:
( )
ˆ
ˆ
i
i
i
W
se
β
β
= (1.19)
Sotto l’ipotesi nulla che βi = 0, il rapporto espresso dalla (1.19) segue la distribuzione normale
a
Si ricordi che il Wald test alle volte può comportarsi in modo aberrante, fallendo spesso di rifiutare l’ipotesi
nulla quando questa è vera.
Le variabili categoriche devono sempre essere inserite o escluse in toto dal modello.
Avvertenza
9
standard (z).
Con riferimento al modello i cui fitting è riportato in Tab.1.3, il test di Wald, applicato al coefficiente
di AGE, porta al seguente risultato:
( ) 6
.1109211
4.61 4.61 2 10
.0240598
W p z −
= ≅ → > = ⋅ (1.20)
Si noti che:
2
4.61 21.25 29.31
G
= ≅ =
1.5 Intervalli di confidenza delle stime
Intervalli di confidenza dei parametri
Gli intervalli di confidenza dei parametri del modello si determinano sulla base dei loro
corrispondenti Wald test. Con riferimento ad un modello con una sola covariata
rappresentato dalla (1.6), gli intervalli di confidenza dei parametri (pendenza e intercetta),
tenuta presente la (1.19), valgono rispettivamente:
( )
1 1 2 1
ˆ ˆ
z se
α
β β
−
± ⋅ (1.21)
( )
0 1 2 0
ˆ ˆ
z se
α
β β
−
± ⋅ (1.22)
Come nel caso della regressione lineare il termine costante (β0) fornisce la stima della risposta in
corrispondenza di un valore nullo della variabile indipendente .
Sovente tale valore nullo ha una scarsa rilevanza clinica: avrebbe ad esempio senso valutare la stima
della risposta in corrispondenza di AGE = 0?
E’ questa la ragione per cui, spesso, le covariate vengono centrate rispetto al loro valore medio.
Centrando la variabile AGE rispetto al suo valore medio si ottiene il modello riportato in Tab. 1.4.
Tab. 1.4
Results of Fitting the Logistic Regression Model to the Chd-Age data set and
Covariate Age Centered at the Mean (44.38 years)
CHD Coef. Std. Err. z P>z [95% Conf.Interval]
AGEC 0.110921 0.02406 4.61 0 0.063765 0.158078
_cons -0.38677 0.239719 -1.61 0.107 -0.85661 0.083067
Il logit in corrispondenza di un’età di 44.38 anni (AGEC = 0) vale:
( )
ˆ 44.38 0.38677
g x = = −
a cui corrisponde una probabilità di evento coronarico pari a:
( )
( )
( )
exp 0.38677
44.38 0.4045
1 exp 0.38677
x
π
−
= = =
+ −
10
Intervallo di confidenza del logit
Noti gli Standar Error (se) dei parametri, l’intervallo di confidenza del logit, in corrispondenza di un
generico valore di x risulta pari a:
( ) ( )
1 2
ˆ ˆ
g x z se g x
α
−
± ⋅  
  (1.23)
Dove ( )
ˆ
se g x
 
  è la radice quadrata positiva della varianza stimata del logit che si ricava dalla (1.24).
( ) ( ) ( ) ( ) ( )
2
0 1 0 1 0 1
ˆ ˆ ˆ ˆ ˆ ˆ
ˆ ˆ
var var var 2 cov ,
g x x g x x x
β β β β β β
= + →   = + + ⋅
  (1.24)
Con riferimento al modello riportato in Tab. 1.3, stimiamo ora il logit e il relativo intervallo di
confidenza in corrispondenza di AGE = 50.
( )
ˆ 50 5.31 0.111 50 0.240
g x = = − + ⋅ =
Per calcolare l’intervallo di confidenza del logit si deve valutarne la varianza, e per far ciò
utilizzeremo la (1.24) una volta nota la matrice di covarianza delle stime dei coefficienti. Matrice che
viene di seguito riportata:
Tab. 1.5
Estimated Covariance Matrix of the
Estimated Coefficient in Tab. 1.3
AGE Constant
AGE 0.000579
Constant -0.026677 1.28517
La varianza stimata risulta:
( ) ( )
2
ˆ
var 50 1.28517 50 0.000579 2 50 0.026677 0.0650
g x
 =  = + ⋅ + ⋅ ⋅ − =
 
A cui corrisponde uno standard error pari a:
( )
ˆ 50 0.2549
se g x
 =  =
 
I limiti dell’intervallo di confidenza, al 95%, valgono pertanto:
{ }
95% 0.240 1.96 0.2550 0.260;0.740
CI = ± ⋅ = −
11
Intervalli di confidenza dei valori fittati
Gli intervalli di confidenza dei valori fittati si ricavano, tenuta presente la (1.4), direttamente dalla
(1.23):
( ) ( )
( ) ( )
( )
( )
{ }
1 2
1 2
ˆ ˆ
exp exp 0.240 1.96 0.2550
0.435; 0.677
1 exp 0.240 1.96 0.2550
ˆ ˆ
1 exp
g x z se g x
g x z se g x
α
α
−
−
 
± ⋅   ± ⋅
 
  = →
+ ± ⋅
 
+ ± ⋅  
 
 
(1.25)
Gli intervalli di confidenza espressi dalla (1.25) non si riferiscono alla osservazione individuale, bensì
rappresentano gli intervalli di confidenza delle medie dei valori predetti in corrispondenza di un
generico valore della variabile indipendente x.
Ricordiamo infine che molti software permettono facilmente di calcolare i valori predetti della
probabilità e del logit, con i rispettivi intervalli di confidenza, in corrispondenza di un generico valore
assunto dalle covariate . Tali intervalli sono riportati rispettivamente in Fig. 1.3 e in Fig. 1.4.
Fig. 1.3
0
.2
.4
.6
.8
1
Probability
20 30 40 50 60 70
age
Avvertenza
12
Fig. 1.4
-4
-2
0
2
4
Logit
20 30 40 50 60 70
age
13
Appplicazione Capitolo 1
Fig.1.1
. gen agrp=age
. recode agrp 20/29=1 30/34=2 35/39=3 40/44=4 45/49=5 50/54=6 55/59=7 60/69=8
(agrp: 100 changes made)
. list id age agrp chd
+------------------------+
| id age agrp chd |
|------------------------|
1. | 1 20 1 0 |
2. | 2 23 1 0 |
3. | 3 24 1 0 |
4. | 5 25 1 1 |
5. | 4 25 1 0 |
--------------------------------
--------------------------------
96. | 96 63 8 1 |
97. | 98 64 8 1 |
98. | 97 64 8 0 |
99. | 99 65 8 1 |
100. | 100 69 8 1 |
+------------------------+
. graph twoway scatter chd age, xlabel(20(10)70) ylabel(0(.2)1)
Tab. 1.2
. sort agrp
. collapse (count) tot=chd (sum) present=chd, by(agrp)
. gen prop = present / tot
. gen absent = tot - present
. gen count = present + absent
. list agrp count absent present prop
+--------------------------------------------+
| agrp count absent present prop |
|--------------------------------------------|
1. | 1 10 9 1 .1 |
2. | 2 15 13 2 .1333333 |
3. | 3 12 9 3 .25 |
4. | 4 15 10 5 .3333333 |
5. | 5 13 7 6 .4615385 |
|--------------------------------------------|
6. | 6 8 3 5 .625 |
7. | 7 17 4 13 .7647059 |
8. | 8 10 2 8 .8 |
+--------------------------------------------+
Fig. 1.2
. graph twoway scatter prop agrp, ylabel(0(.2)1) xlabel(1(1)8)
14
Tab. 1.3
. use "C:docbScuola2010logisticchapter1.dta", clear
. logistic chd age, coef
Logistic regression Number of obs = 100
LR chi2(1) = 29.31
Prob > chi2 = 0.0000
Log likelihood = -53.676546 Pseudo R2 = 0.2145
------------------------------------------------------------------------------
chd | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .1109211 .0240598 4.61 0.000 .0637647 .1580776
_cons | -5.309453 1.133655 -4.68 0.000 -7.531376 -3.087531
------------------------------------------------------------------------------
. logit chd age
Iteration 0: log likelihood = -68.331491
Iteration 1: log likelihood = -54.170558
Iteration 2: log likelihood = -53.681645
Iteration 3: log likelihood = -53.676547
Iteration 4: log likelihood = -53.676546
Logistic regression Number of obs = 100
LR chi2(1) = 29.31
Prob > chi2 = 0.0000
Log likelihood = -53.676546 Pseudo R2 = 0.2145
------------------------------------------------------------------------------
chd | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .1109211 .0240598 4.61 0.000 .0637647 .1580776
_cons | -5.309453 1.133655 -4.68 0.000 -7.531376 -3.087531
------------------------------------------------------------------------------
Formula (1.17)
. logit chd age
Iteration 0: log likelihood = -68.331491
Iteration 1: log likelihood = -54.170558
Iteration 2: log likelihood = -53.681645
Iteration 3: log likelihood = -53.676547
Iteration 4: log likelihood = -53.676546
Logistic regression Number of obs = 100
LR chi2(1) = 29.31
Prob > chi2 = 0.0000
Log likelihood = -53.676546 Pseudo R2 = 0.2145
------------------------------------------------------------------------------
chd | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .1109211 .0240598 4.61 0.000 .0637647 .1580776
_cons | -5.309453 1.133655 -4.68 0.000 -7.531376 -3.087531
------------------------------------------------------------------------------
Oppure con il comando lrtest
. quietly logistic chd age.
. lrtest, saving(0)
. quietly logistic chd
. lrtest
15
Formula (1.18)
. tabulate chd
chd | Freq. Percent Cum.
------------+-----------------------------------
0 | 57 57.00 57.00
1 | 43 43.00 100.00
------------+-----------------------------------
Total | 100 100.00
Formula (1.20)
( ) 6
.1109211
4.61 4.61 2 10
.0240598
W p z −
= ≅ → > = ⋅
Si noti che:
2
4.61 21.25 29.31
G
= ≅ =
Il Wald test, analogamente all’LRT, può essere eseguito direttamente da STATA.
. quietly logit chd age
. testparm age
( 1) age = 0
chi2( 1) = 21.25
Prob > chi2 = 0.0000
Tab. 1.5
. quietly: logit chd age
. matrix vc=e(V)
. matri list vc
symmetric vc[2,2]
age _cons
age .00057888
_cons -.02667702 1.2851728
Oppure sfruttando il comando estat
. estat vce
Covariance matrix of coefficients of logit model
e(V) | age _cons
-------------+------------------------
age | .00057888
_cons | -.02667702 1.2851728
16
Formula (1.25)
Listato
program ci_log
*******************************************
* CALCOLO DEGLI INTERVALLI DI CONFIDENZA *
*******************************************
quietly logistic chd age
matrix b=e(b)
matrix vc=e(V)
di as text "Variance-Covariance Matrix "
matrix list vc
local b1=b[1,1]
local b0=b[1,2]
local vb1=vc[1,1]
local vb0=vc[2,2]
local covbb=vc[2,1]
local varg50=`vb0'+50^2*`vb1'+2*50*`covbb'
local se50=sqrt(`varg50')
*****************************************
* INTERVALLI CONFIDENZA PARAMETRI *
*****************************************
local L1b1=`b1'+1.96*sqrt(`vb1')
local L0b1=`b1'-1.96*sqrt(`vb1')
local L1b0=`b0'+1.96*sqrt(`vb0')
local L0b0=`b0'-1.96*sqrt(`vb0')
di as text " "
di as txt " Parameters Confidence Intervals" ///
as text _newline _dup(60) "-" ///
as txt _newline _col(6) "intercept = " as result `b0' as txt _col(30)"C.I." as
result `L0b0' as text _col(45) " ; " as result `L1b0' ///
as txt _newline _dup(60) "-" ///
as txt _newline _col(6)"slope = " as result `b1' as txt _col(30)"C.I." as result
`L0b1' as text _col(45)" ; "as result `L1b1' ///
as txt _newline _dup(60) "-"
local g50=`b0'+50*`b1'
local p50=exp(`g50')/(1+exp(`g50'))
local L1p50=exp(`g50'+1.96*`se50')/(1+exp(`g50'+1.96*`se50'))
local L0p50=exp(`g50'-1.96*`se50')/(1+exp(`g50'-1.96*`se50'))
di as txt " "
di as txt " Fitted values Confidence Intervals" ///
as text _newline _dup(60) "-" ///
as txt _newline _col(3) "Fitted value = " as result `p50' as txt _col(30)"C.I."
as result `L0p50' as text _col(45) " ; " as result `L1p50' ///
as txt _newline _dup(60) "-" //
end
17
Output
Variance-Covariance Matrix
symmetric vc[2,2]
age _cons
age .00057888
_cons -.02667702 1.2851728
Parameters Confidence Intervals
------------------------------------------------------------
intercept = -5.3094534 C.I.-7.5314164 ; -3.0874903
------------------------------------------------------------
slope = .11092114 C.I..06376386 ; .15807842
------------------------------------------------------------
Fitted values Confidence Intervals
------------------------------------------------------------
Fitted value = .55887652 C.I..43492323 ; .67590143
------------------------------------------------------------
Fig. 1.3 e Fig. 1.4
Calcoliamo i valori predetti della probabilità e del logit, con i rispettivi intervalli di confidenza,
sfruttando la funzione predict.
File.do
logistic chd age
drop probability logit se lsp lip lsl lil
predict probability, pr
predict logit, xb
predict se, stdp
generate lsp=exp(logit+1.96*se)/(1+exp(logit+1.96*se))
generate lip=exp(logit-1.96*se)/(1+exp(logit-1.96*se))
generate lsl=logit+1.96*se
generate lil=logit-1.96*se
twoway (connected probability age) (line lsp age) (line lip age)
twoway (connected logit age) (line lsl age) (line lil age)
18
19
Capitolo 2
Regressione Logistica Multipla
2.1. Introduzione
Nel precedente capitolo ci siamo interessati al modello logistico nel contesto univariato. Nel seguito
estenderemo le nostre considerazioni al modello logistico multivariato ossia al modello che prevede
più variabili esplicative, siano esse numeriche o categoriche.
2.2. Il Modello Logistico Multiplo
Sia x un vettore costituito dalle p variabili indipendenti, la probabilità condizionata del “successo”,
con la notazione consueta, è definita da:
( ) ( )
1|
P Y π
= =
x x (2.1)
Il logit associato al modello multivariato è:
( ) 0 1 1 2 2 ... p p
g x x x
β β β β
= + + + +
x (2.2)
Pertanto la probabilità condizionata è modellata come segue:
( )
( )
( )
exp
1 exp
g
g
π
 
 
=
+  
 
x
x
x
(2.3)
Come accennato in precedenza, le variabili indipendenti (variabili esplicative) possono essere anche
di tipo categorico. In tal caso gli eventuali valori numerici utilizzati per definire i vari livelli sono
solamente degli identificatori e, come tali, non hanno un significato numerico e non possono essere
inseriti direttamente nel modello.
Pertanto le variabili categoriche (categorizzate su più di due livelli) devono essere associate a delle
variabili fittizie (dummy variables), codificate su due livelli, che nel loro insieme definiranno le
categorie oggetto di codifica.
Supponiamo che una variabile esplicativa sia la variabile razza codificata 1-bianca, 2-nera, 3-altra (tre
categorie). Alla variabile razza associamo ora due variabili dummy D1 e D2 codificate 0-1. In questo
modo, con due variabili dummy codificate 0-1, identificheremo completamente le categorie
appartenenti alla variabile razza.
20
Tab. 2.1
Dummy variables associate alla
variabile Race
Dummy variables
Race D1 D2
Bianca 0 0
Nera 1 0
Altra 0 1
In generale, se una variabile categorica comprende j livelli, ad essa dovranno essere associate j-1
variabili dummy. Nell’ipotesi che la k-esima variabile sia categorica e codificata su j livelli, il logit
associato al modello si esprime come:
( )
1
0 1 1
1
...
j
kl kl p p
l
g x D x
β β β β
−
=
= + + + +
∑
x (2.4)
2.3. Stima del Modello Logistico multiplo
2.3.1 Stima dei coefficienti
Assumiamo di avere un campione di n osservazioni indipendenti (xi,yi). Come nel caso univariato, la
definizione del modello richiede di stimare le componenti del vettore ( )
0 1
' , ,... p
β β β
=
β . Tale stima
sarà condotta con il consueto metodo della massima verosimiglianza.
La funzione di verosimiglianza è quasi identica a quella definita dalla (1.8). Tuttavia occorre tenere
presente che, nel modello logistico multiplo, la probabilità condizionata π(x) è ora espressa dalla (2.3)
Ci troveremo pertanto, in generale, di fronte a p+1 equazioni di verosimiglianza ottenute
differenziando le funzioni di log-verosimiglianza rispetto ai p+1 coefficienti. Le funzioni di
verosimiglianza possono essere espresse come segue:
( )
( )
1
1
0
0 1,2,...
n
i i
i
n
ij i i
i
y
x y j p
π
π
=
=
 
− =
 
 
− = =
 
∑
∑
x
x
(2.5)
Poniamo che β̂ sia il vettore delle soluzioni delle (2.5).
I valori predetti dal modello ( )
ˆ i
π x si ottengono dalla (2.3) utilizzando β̂e i
x .
2.3.2. Stima delle varianze/covarianze dei coefficienti
Le varianze e le covarianze dei coefficienti si ottengono dalla matrice delle derivate parziali seconde
della funzione di log-verosimiglianza.
21
( )
( )
( )
( )
2
2
2
1
2
1
1
1 , 0,1,2,...,
n
ij i i
i
j
n
ij il i i
j l i
L
x
L
x x j l p
π π
β
π π
β β
=
=
∂
= − −
∂
∂
= − − =
∂ ∂
∑
∑
β
β
(2.6)
Nel seguito la matrice delle derivate parziali seconde definita dalla (2.6) e costituita da p+1 righe e
p+1 colonne, sarà indicata con ( )
I β e chiamata matrice di informazione osservata.a
Le varianze e covarianze dei coefficienti si ottengono semplicemente per inversione della matrice di
informazione:
( ) ( )
1
Var −
=
β I β (2.7)
Gli stimatori della varianze e delle covarianze, che denoteremo con ( )
ˆ
Var β , si ottengono valutando
la (2.7) in corrispondenza di β̂.
Le stime degli errori standard dei coefficienti stimati sono espresse da:
( ) ( )
1/ 2
ˆ ˆ
j j
se Var
β β
 
=
 
(2.8)
a
Sia ( )
L β una generica funzione di verosimiglianza, la matrice ( )
I β , con elementi ij
I , si definisce
matrice di informazione osservata:
( )
2
ˆ
ij
i j
L
I
β β =
∂
= −
∂ ∂
β β
β
Si definisce invece matrice di informazione attesa o informazione di Fisher, la matrice ( )
ˆ
I β con elemento
generico ij
I pari a:
( )
2
ˆ
ij
i j
L
I E
β β
=
 
∂
= −  
 
∂ ∂
  β β
β
L’informazione osservata esprime la misura del grado di concavità della curva di verosimiglianza in
corrispondenza del suo massimo. L’informazione risulta quindi essere una misura della precisione della stima:
la stima di max verosimiglianza sarà tanto più accurata quanto più accentuata sarà la curvatura corrispondente.
Una diversa valutazione del grado di concavità si può ottenere calcolando la curvatura media (attesa) nel punto
di stima. Tale valutazione corrisponde alla informazione attesa o informazione di Fisher che misurerà pertanto
la precisione “media” che si preveda abbia la stima del parametro se l’esperimento venisse ripetuto , sotto le
stesse condizioni, per una serie di repliche (a differenza dell’informazione osservata che viene definita sul
singolo risultato sperimentale).
A volte può essere più significativa una misura di imprecisione della stima; si definisce pertanto come matrice
varianza osservata o attesa l’inversa rispettivamente della matrice di informazione osservata attesa.
( ) ( )
( ) ( ) ( )
( )
1
1
var var =
O E
I I
−
−
=
β β β β
Passando alle rispettive stime si ha:
( ) ( )
( ) ( ) ( )
( )
1 1
ˆ ˆ ˆ ˆ
ˆ
var var =
O E
I I
− −
=
β β β β
22
La stima della matrice di informazione, relativa ai coefficienti stimati, vale:
( )
( )
( )
( )
11 12 1 1 1
21 22 2 2 2
1 2
ˆ
ˆ
1 . ˆ ˆ
1 0 . 0
1 . ˆ ˆ
0 1 . 0
. . . . . . . . .
1 . ˆ ˆ
0 0 . 1
p
p
n n np n n
I
x x x
x x x
x x x
π π
π π
π π
 
  −
 
 
−
 
 
= =
 
 
 
 
−
   
   
β = X'VX
X V
(2.9)
Di seguito riportiamo gli standard error e le stime dei coefficienti di un modello logistico multiplo:
Tab. 2.2
Estimated Coefficients for a Multiple Logistic Regression Model Using the
Variables AGE, Weight at Last Menstrual Period (LWT), RACE, and Number of First
Trimester Physician Visits (FTV) from the Low Birth Weight Study
Variable Coef. Std. Err. z P>z [95% Conf.Interval]
AGE -0.02382 0.03373 -0.71 0.48 -0.0899317 0.0422857
LWT -0.01424 0.006541 -2.18 0.029 -0.0270641 -0.0014251
_IRACE_2 1.003898 0.497858 2.02 0.044 0.0281143 1.979681
_IRACE_3 0.433108 0.36224 1.2 0.232 -0.2768684 1.143085
FTV -0.04931 0.167239 -0.29 0.768 -0.3770899 0.2784733
_cons 1.295366 1.071439 1.21 0.227 -0.8046157 3.395347
Log lilkelihood = -111.286
Tab. 2.3
Codifica dummy variable
race _Irace_2 _Irace_3
1 0 0
2 1 0
3 0 1
La stima del logit è pari a:
( )
ˆ 1.295 0.024 0.014 1.004 _ _ 2 0.433 _ _3 0.049
g age lwt Irace Irace ftv
= − ⋅ − ⋅ + ⋅ + ⋅ − ⋅
x
23
2.4. Valutazione della significatività del modello
Una volta ottenute le stime dei coefficienti del modello, dobbiamo procedere alla valutazione della
sua significatività. In questa fase dobbiamo testare se abbiamo elementi per confutare l’ipotesi nulla
che tutti i parametri (esclusa l’intercetta) siano contemporaneamente nulli.
2.4.1. LRT test (Likelihood ratio test)
Il LRT si basa sulla statistica G definita dalla (1.14). Il modello completo comprenderà tutti i
parametri, il modello ridotto solo l’intercetta. Sotto l’ipotesi nulla che tutti i parametri, esclusa
l’intercetta, siano contemporaneamente nulli, la statistica G si distribuisce secondo una chi-quadro
con p gradi di libertà.a
Con riferimento al modello a cui alla Tab.2.2, la statistica G assume il seguente valore:
( ) ( ) ( ) ( )
2 2 117.336 111.286 12.099
Intercetta COMPLETO
G L Model L Model
= −  −  = −  − − −  =
   
In questo caso l’ipotesi nulla viene rifiutata: almeno uno dei coefficienti, intercetta esclusa, è diverso
da zero. Infatti:
2
5 12.099 0.034 0.05
gl
P χ
 
> = <
 
2.4.2 Wald Test Univariato
Il Wald test effettua un test univariato per valutare l’ipotesi nulla che un singolo coefficiente sia
nullo. Il risultato del test viene generalmente tabulato da ogni software.
Il test valuta la statistica W calcolata per ogni singolo coefficiente:
( )
ˆ ˆ
/
j j j
W se
β β
= (2.10)
Sotto l’ipotesi nulla che il coefficiente j-esimo sia nullo, la statistica W segue una distribuzione
normale standard. La Tab 2.2 nella quarta colonna riporta i valori della statistica W per ogni singolo
coefficiente.
Sempre con riferimento alla Tab.2.2, vediamo che la variabile lwt e forseb
la variabile race sono
significative, mentre le variabili age e ftv non risultano significative.
2.4.3. Wald Test Multivariato
Il Wald test multivariato si ottiene valutando la statistica W definita dalla seguente espressione
matriciale:
a
Il vettore β è costituito da p+1 elementi: p “slopes” e 1 “constant”
b
La variabile RACE è categorica (su tre livelli). E’ stata inserita nel modello tramite due variabili dummy:
_IRACE_2 e _IRACE_3. Di queste due variabili una risulta significativa (_IRACE_2),mentre l’altra (_IRACE_3) no.
Come già detto in precedenza, tuttavia, le dummy associate ad una variabile categorica possono venire inserite
o escluse dal modello IN TOTO. Sulla base del solo Wald test non potremo, in questo caso, trarre una
conclusione definitiva. Un modo semplice per decidere se un set di variabili dummy sia da inserire o escludere
dal modello è quello di impostare un LRT.
24
( ) ( )
1
ˆ ˆ ˆ ˆ ˆ
' '
W Var
−
 
= =
 
β β β β X'VX β (2.11)
La statistica W, sotto l’ipotesi nulla che tutti i coefficienti siano nulli, è distribuita come una
chi-quadro con p+1 gradi di libertà . Per testare se tutte le “slope” sono nulle si deve eliminare 0
ˆ
β
dal vettore β̂e le corrispondenti riga (prima o ultima) e colonna (prima o ultima) della matrice X . Si
ottiene così una statistica W che è distribuita come una chi-quadro con p gradi di libertà. L’approccio
mediante il Wald test multiplo non offre vantaggio rispetto all’uso di LRT.
Il Wald test multivariato consente tuttavia di testare un set qualsiasi di ipotesi lineari sui parametri.
Sia
'
⋅ =
R b r
il set di q ipotesi lineari da testare congiuntamente, la statistica di Wald vale:
( ) ( ) ( )
1
' ' ' '
W
−
= ⋅ − ⋅ −
R b r RVR R b r (2.12)
2
q
W χ
∼
Come esemplificazione, testiamo l’ipotesi che siano contemporaneamente nulli tutti i coefficienti del
modello riportato in Tab. 2.2.
I vari passaggi sono riporati nella parte applicativa nel paragrafo Applicazione formule (2.11) e(2.12).
2.4.4. Ottimizzazione del Modello
Il nostro scopo è ovviamente quello di ottenere un modello che spieghi convenientemente un
fenomeno con l’utilizzo del minor numero possibile di parametri. Con riferimento al modello di cui
alla Tab.2.2, tramite il Wald Test, abbiamo visto che le variabili age e ftv non risultano significative.
Possiamo pertanto ora valutare se effettivamente un modello che escluda tali parametri sia
informativo, dal punto di vista statistico, quanto il modello completoa
.
Il fitting di tale modello ridotto è riportato in Tab. 2.4.
Tab. 2.4
Estimated Coefficients for a Multiple Logistic Regression Model Using the
Variables LWT and RACE from the Low Birth Weight Study
Variable Coef. Std. Err. z P>z [95% Conf.Interval]
LWT -0.01522 0.006439 -2.36 0.018 -0.02784 -0.0026
_IRACE_2 1.081066 0.488051 2.22 0.027 0.124503 2.037629
_IRACE_3 0.480603 0.356673 1.35 0.178 -0.21846 1.17967
_cons 0.805754 0.845163 0.95 0.34 -0.85073 2.462241
Log likelihood = -111.62955
a
La decisione circa l’inserimento o meno di una variabile nel modello deve essere assunta non solo su basi
statistiche ma anche, se non soprattutto, su base clinica.
25
Allo scopo testeremo, tramite il likelihood ratio test, l’ipotesi nulla che il modello completo e il
modello ridotto, prima definito, siano “equivalenti”.a
( ) ( ) ( ) ( )
senza age ftv
2 2 111.630 111.286 0.688
Completo
G L Model L Model
 
= − − = −  − −  =
 
 
In questo caso l’ipotesi nulla non viene rifiutata, pertanto non abbiamo elementi per ritenere che il
modello ridotto sia meno informativo del modello completo. Infatti:
2
2 0.688 0.709 0.05
gl
P χ
 
> = >
 
Non c’è alcun vantaggio nell’inserimento delle covariate AGE e FTV nel modello finale.
Particolare attenzione va posta nell’eventuale esclusione di una variabile categorica.
Dalla Tab. 2.4 vediamo che il Wald test dà come significativo solamente il coefficiente relativo alla
dummy _IRACE_2, mentre risulta non significativo il coefficiente relativo alla dummy _IRACE_3.
Come già spiegato in precedenza, a meno di ricategorizzare la variabile sottostante, le dummy
devono essere inserite o escluse dal modello solamente in toto.
La variabile categorica RACE potrà essere esclusa o inserita solamente sulla base di un LR test
comparando il modello di Tab. 2.4 con quello presentato in Tab. 2.5.
Tab. 2.5
Estimated Coefficients for a Multiple Logistic Regression Model Using the
Variable LWT from the Low Birth Weight Study
Variable Coef. Std. Err. z P>z [95% Conf.Interval]
LWT -0.01406 0.00617 -2.28 0.023 -0.02615 -0.00197
_cons 0.998314 0.785289 1.27 0.204 -0.54082 2.537452
Log likelihood = -114.345
( ) ( ) 2
2
2 114.345 111.630 5.43 5.43 0.066
gl
G P χ
 
= − − −  = → > =
   
Poiché i due modelli non sono significativamente diversi la variabile RACE potrebbe, su questa base,
essere esclusa.
2.5. Intervalli di Confidenza delle Stime
2.5.1. Intervalli di Confidenza dei coefficienti
La determinazione degli intervalli di confidenza delle stime dei coefficienti del modello logistico
multivariato è sostanzialmente identica a quando visto a proposito del modello logisto univariato.
Con riferimento alla Tab. 2.2 l’intervallo di confidenza del coefficiente associato alla variabile age vale
ad esempio:
a
Avremmo potuto utilizzare anche il Wald test nella versione multivariata.
26
( )
ˆ 1.96 0.02832 1.96 0.03373 0.0899317; 0.0422857
se
β ± ⋅ → − ± ⋅ = −
2.5.2. Intervallo di Confidenza del Logit
L’espressione per lo stimatore del Logit associato ad un modello multivariato contenente p covariate
è:
( ) 0 1 1 2 2
ˆ ˆ ˆ ˆ ˆ
ˆ ... p p
g x x x
β β β β
= + + + + =
x x'β (2.13)
dove:
( ) ( ) ( )
0 1 2 0 1 2 1 2
ˆ ˆ ˆ ˆ
, , ... , , ,..., 1, , ,...,
p p p
x x x x x x x
β β β β
= = =
β' x'
Dalla (2.13) si ottiene:
( ) ( ) ( )
2
0 0 1
ˆ 2 ov ,
p p p
j j j k j k
j j k j
Var g x Var x x C
β β β
= = = +
  = +
  ∑ ∑ ∑
x (2.14)
Dalle (2.7) e (2.9) si ottiene facilmente l’espressione della varianza in forma matriciale:
( ) ( )
1
ˆ
Var
−
=
β X'VX (2.15)
Da cui:
( ) ( ) ( )
1
ˆ
ˆ
Var g Var
−
  = =
 
x x' β x x' X'VX x (2.16)
Fortunatamente tutti i software statistici offrono la possibilità di creare facilmente nuove variabili
contenenti i valori stimati dalla (2.16) per tutti i soggetti appartenenti al data set evitando,
all’operatore, calcoli matriciali laboriosi.
A scopo puramente didattico riportiamo comunque i calcoli che, in assenza di software specifici, si
dovrebbero effettuare .
Con riferimento al modello presentato in Tab. 2.4, determiniamo il logit relativo ad una donna di
razza bianca (RACE = White) e con peso, al tempo dell’ultima mestruazione, pari a 150 pound (LWT =
150)
( )
ˆ 150, 0.806 0.015 150 1.081 0 0.481 0 1.444
g LWT RACE White
= = = − ⋅ + ⋅ + ⋅ = − (2.17)
La probabilità logistica stimata vale:
( )
( )
( )
exp 1.444
ˆ 150, 0.191
1 exp 1.444
LWT RACE White
π
−
= = = =
+ −
La proporzione stimata di nascite a basso peso, tra le donne bianche con peso, all’ultima
mestruazione, di 150 pound vale 0.191.
Per determinare la varianza stimata del logit, in accordo con la (2.14) è necessario utilizzare la
matrice di covarianza riportata in Tab. 2.6
Tab. 2.6
27
Estimated Covariance Matrix of the Estimated
Coefficients in Tab. 2.4
LWT _IRACE_2 _IRACE_3 _cons
LWT 4.15E-05
_IRACE_2 -0.00065 0.238194
_IRACE_3 0.000356 0.0532 0.127216
_cons -0.00521 0.022602 -0.1035 0.7143
La varianza stimata del logit risulta:
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( )
2 2 2
0 1 2 3
0 1 0 2 0 3 1 2
1 3 2 3
ˆ ˆ ˆ ˆ
ˆ 150, 150 0 0
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ
2 150 , 2 0 , 2 0 , 2 150 0 ,
ˆ ˆ ˆ ˆ
2 150 0 , 2 0 0 , 0.0768
Var g LWT RACE White Var Var Var Var
Cov Cov Cov Cov
Cov Cov
β β β β
β β β β β β β β
β β β β
 = =  = + + +
 
+ ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ ⋅
+ ⋅ ⋅ ⋅ + ⋅ ⋅ ⋅ =
(2.18)
E il corrispondente standard error vale:
( )
ˆ 150, 0.0768 0.2771
se g LWT RACE White
 = =  = =
 
L’intervallo di confidenza, al 95%, della stima del logit vale quindi:
{ }
95% 1.444 1.96 0.2771 1.988; 0.901
CI = − ± ⋅ = − −
E l’intervallo di confidenza, al 95%, del valore fittato vale:
( )
( )
( )
( )
{ }
exp 1.988 exp 0.901
; 0.120; 0.289
1 exp 1.988 1 exp 0.901
 
− −
 
=
 
+ − + −
 
 
28
Applicazione Capitolo 2
Tab. 2.2
. use "E:logisticchapter2.dta", clear
. xi:logit low age lwt i.race ftv
i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)
Iteration 0: log likelihood = -117.336
Iteration 1: log likelihood = -111.41656
Iteration 2: log likelihood = -111.28677
Iteration 3: log likelihood = -111.28645
Logistic regression Number of obs = 189
LR chi2(5) = 12.10
Prob > chi2 = 0.0335
Log likelihood = -111.28645 Pseudo R2 = 0.0516
------------------------------------------------------------------------------
low | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | -.023823 .0337295 -0.71 0.480 -.0899317 .0422857
lwt | -.0142446 .0065407 -2.18 0.029 -.0270641 -.0014251
_Irace_2 | 1.003898 .4978579 2.02 0.044 .0281143 1.979681
_Irace_3 | .4331084 .3622397 1.20 0.232 -.2768684 1.143085
ftv | -.0493083 .1672386 -0.29 0.768 -.3770899 .2784733
_cons | 1.295366 1.071439 1.21 0.227 -.8046157 3.395347
------------------------------------------------------------------------------
Tab. 2.4
. use "E:logisticchapter2.dta", clear
. xi:logit low lwt i.race
i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)
Iteration 0: log likelihood = -117.336
Iteration 1: log likelihood = -111.7491
Iteration 2: log likelihood = -111.62983
Iteration 3: log likelihood = -111.62955
Logistic regression Number of obs = 189
LR chi2(3) = 11.41
Prob > chi2 = 0.0097
Log likelihood = -111.62955 Pseudo R2 = 0.0486
------------------------------------------------------------------------------
low | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | -.0152231 .0064393 -2.36 0.018 -.0278439 -.0026023
_Irace_2 | 1.081066 .4880512 2.22 0.027 .1245034 2.037629
_Irace_3 | .4806033 .3566733 1.35 0.178 -.2184636 1.17967
_cons | .8057535 .8451625 0.95 0.340 -.8507345 2.462241
------------------------------------------------------------------------------
29
Tab. 2.5
. use "E:logisticchapter2.dta", clear
. xi:logit low lwt
Logistic regression Number of obs = 189
LR chi2(1) = 5.98
Prob > chi2 = 0.0145
Log likelihood = -114.34533 Pseudo R2 = 0.0255
------------------------------------------------------------------------------
low | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | -.0140583 .0061696 -2.28 0.023 -.0261504 -.0019661
_cons | .9983143 .7852889 1.27 0.204 -.5408235 2.537452
------------------------------------------------------------------------------
Applicazione formule (2.11) e (2.12) “lrtest” “test”
Test della nullità di tutti i parametri (intercetta esclusa) effettuato secondo la (2.11)
Prima soluzione
. use "E:logisticchapter2.dta"
. quietly xi: logit low age lwt i.race ftv
. mat b=e(b)
. mat br=b[1,1..5]
. mat vc=e(V)
. mat vcr=vc[1..5,1..5]
. mat W=br*inv(vcr)*br'
. mat list W
symmetric W[1,1]
y1
y1 10.696725
. display " p = "chi2tail(1,W[1,1])
p = .00107331
Seconda soluzione
. use "E:logisticchapter2.dta", clear
. quietly xi: logit low age lwt i.race ftv
. generate const=1
. mkmat age lwt _Irace_2 _Irace_3 ftv const,mat(X)
. predict pr
(option pr assumed; Pr(low))
. generate vel=pr*(1-pr)
. mkmat vel,mat(D)
. mat V=diag(D)
. mat vci=X'*V*X
. mat b=e(b)
. mat br=b[1,1..5]
. mat vc=inv(vci)
. mat vcr=vc[1..5,1..5]
. mat W=br*inv(vcr)*br'
. mat list W
symmetric W[1,1]
y1
y1 10.696619
. display " p = "chi2tail(5,W[1,1])
p = .05773588
30
Test della nullità di tutti i parametri (intercetta esclusa) effettuato secondo la (2.12)
. mat r=(00000)
. mat R=1,0,0,0,0,00,1,0,0,0,00,0,1,0,0,00,0,0,1,0,00,0,0,0,1,0
. mat list R
R[5,6]
c1 c2 c3 c4 c5 c6
r1 1 0 0 0 0 0
r2 0 1 0 0 0 0
r3 0 0 1 0 0 0
r4 0 0 0 1 0 0
r5 0 0 0 0 1 0
. mat b=e(b)
. mat V=e(V)
. mat W=(R*b'-r)'*inv(R*V*R')*(R*b'-r)
. mat list W
symmetric W[1,1]
c1
c1 10.696725
. display " p = "chi2tail(5,W[1,1])
p = .05773588
lrtest Modello completo vs Modello con sola Intercetta
. use "E:logisticchapter2.dta", clear
. quietly xi: logit low age lwt i.race ftv
. estimates store full
. quietly xi: logit low
. estimates store reduced
. lrtest full reduced
Likelihood-ratio test LR chi2(5) = 12.10
(Assumption: reduced nested in full) Prob > chi2 = 0.0335
test Modello completo vs Modello con sola Intercetta (Wald test)
. use "E:logisticchapter2.dta", clear
. quietly xi: logit low age lwt i.race ftv
. testparm age lwt _Irace_2 _Irace_3 ftv
( 1) age = 0
( 2) lwt = 0
( 3) _Irace_2 = 0
( 4) _Irace_3 = 0
( 5) ftv = 0
chi2( 5) = 10.70
Prob > chi2 = 0.0577
31
Tab. 2.6
. use "E:logisticchapter2.dta", clear
. quietly xi: logit low lwt i.race
. vce
Covariance matrix of coefficients of logit model
e(V) | lwt _Irace_2 _Irace_3 _cons
-------------+------------------------------------------------
lwt | .00004146
_Irace_2 | -.00064703 .23819397
_Irace_3 | .00035585 .05320001 .12721584
_cons | -.00521365 .02260223 -.1034968 .71429959
Memorizzazione della matrice di covarianza
. use "E:logisticchapter2.dta", clear
. quietly xi: logit low lwt i.race
. mat V=e(V)
. mat list V
symmetric V[4,4]
lwt _Irace_2 _Irace_3 _cons
lwt .00004146
_Irace_2 -.00064703 .23819397
_Irace_3 .00035585 .05320001 .12721584
_cons -.00521365 .02260223 -.1034968 .71429959
Costruzione, via matriciale,della matrice di covarianza
. use "E:logisticchapter2.dta", clear
. quietly xi: logit low lwt i.race
* Costruzione matrice X
. generate const=1
. mkmat age lwt _Irace_2 _Irace_3 ftv const,mat(X)
* Costruzione matrice V
. predict pr
. generate vel=pr*(1-pr)
. mkmat vel,mat(D)
. mat V=diag(D)
. mat vc=inv(X'*V*X)
. mat list vc
symmetric vc[6,6]
age lwt _Irace_2 _Irace_3 ftv const
age .00109286
lwt -.00003623 .00004304
_Irace_2 .00337842 -.00077281 .24914731
_Irace_3 .00146083 .00028074 .05870124 .13107707
ftv -.00093123 -.00006795 .00076814 .00581983 .02694772
const -.0209561 -.00447735 -.04371696 -.1344865 .00683369 1.1207947
32
Risultato formule (2.17) e (2.18)
Intervallo di confidenza del logit
. use "E:logisticchapter2.dta", clear
. quietly xi: logit low lwt i.race
. mat Var=e(V)
. mat b=e(b)
. mat x=150,0,0,1
. mat g=x*b'
. mat list g
symmetric g[1,1]
y1
r1 -1.4777119
. mat varg=x*Var*x'
. mat list varg
symmetric varg[1,1]
r1
r1 .08316359
. display g[1,1]+1.96*(sqrt(varg[1,1]))
-.91248516
. display g[1,1]-1.96*(sqrt(varg[1,1]))
-2.0429386
33
Capitolo 3
Interpretazione del modello
3.1 Introduzione
L’interpretazione del modello logistico richiede preliminarmente che si attribuisca un significato ai
coefficienti del modello. In altri termini dobbiamo comprendere bene che cosa i coefficienti stimati ci
dicono rispetto alle argomentazioni che hanno motivato il nostro studio.
I coefficienti stimati delle variabili indipendenti rappresentano la “pendenza” (tasso di variazione) di
una funzione della variabile dipendente per unità di variazione della variabile indipendente.
Nella regressione logistica , i coefficienti delle variabili indipendenti esprimono la variazione del logit
conseguente alla variazione di una unità della associata variabile indipendente.
( ) ( )
1
i i i
g x g x
β = + − (3.1)
Pertanto possiamo interpretare correttamente un modello logistico solo se siamo in grado di
interpretare il significato della differenza tra due logit.
Nel seguito illustreremo appunto tale interpretazione con riferimento sia al modello univariato, sia al
modello multivariato.
3.2 Variabile indipendente dicotomica
Consideriamo un modello logistico semplice:
( ) 0 1
g x x
β β
= +
in cui x sia una variabile dicotomica codificata 0/1.
Ricordata la (1.5) i valori associati a questo modello logistico possono essere raggruppati come nella
tabella sotto riportata:
Tab. 3.1
Otucome (Y)
Indipendent variable (X)
x=1 x=0
y =1 ( )
( )
( )
0 1
0 1
exp
1
1 exp
β β
π
β β
+
=
+ +
( ) 0
0
exp
1
1 exp
β
π
β
=
+
y =0 ( )
( )
0 1
1
1 1
1 exp
π
β β
− =
+ +
( )
0
1
1
1 exp
π
β
=
+
Total 1 1
Il rapporto tra gli odds associati rispettivamente al valore uno e al valore zero della variabile
indipendente, prende il nome di odds ratio. Si ha quindi:
( ) ( )
( ) ( )
( )
0 1
1
0
1 / 1 1 exp
exp
exp
0 / 1 0
p
OR
p
π β β
β
β
π
 −  +
 
≡ = =
 − 
 
(3.2)
Passando alle stime si ha:
( )
1
ˆ
exp
OR β
= (3.3)
Con riferimento al modello semplice in esame, l’odds ratio può essere stimato semplicemente dal
34
prodotto crociato:
Tab. 3.2
x=1 x=0
y=1 a b
y=0 c d
a d
OR
b c
⋅
=
⋅
(3.4)
L’Odds Ratio può essere stimato tramite un altro approccio: data una tabella di risultati come la Tab.
3.2, l’Odds Ratio potrebbe essere determinato cercandone il valore che massimizzi la probabilità, a
marginali fissi, di ottenere la tabella assegnata. Si parla in questo caso di stima di max verosimiglianza
dell’Odds Ratioa
.
E’ importante sottolineare che le due stime tendono a coincidere solo per tabelle di grande
numerosità, in generale la stima dell’OR, tramite il prodotto crociato, sovrastima l’OR ottenuto
tramite il metodo di massima verosimiglianzab3
.
Con riferimenti ad OR rispettivamente maggiori e minori dell’unità di ha pertanto:
L’OR è usualmente il parametro oggetto di interesse da parte di un modello logistico, ma la sua
stima, sia ottenuta tramite il cross product, sia tramite la massima verosimiglianza ha una
distribuzione molto asimmetrica con valori compresi tra zero e infinito. E’ meglio quindi lavorare sulla
distribuzione campionari di ( )
log OR che tende ad approssimare una normale già con numerosità
non troppo elevata.
La Tab. 3.3 mostra la relazione tra presenza di malattia coronarica (chd) ed età dei soggetti (agec =1
età >=55; agec = 0 età <55) e i coefficienti del relativo modello logistico semplice. Con questi dati si
ha:
( )
( ) { }
95%
exp 2.094 8.12
exp 2.094 1.96 0.528 2.9;22.9
ML
OR
CI
= =
= ± ⋅ =
a
E’ una stima di max verosimiglianza che fa riferimento ad una distribuzione ipergeometrica. .
b
… we can conclude that studies employing logistic regression as analytical tool to study the association of
exposure variables and the outcome overestimate the effect in studies with small to moderate samples size.
35
Tab. 3.3
agec
chd 0 1 Total
0 51 6 57
1 22 21 43
Total 73 27 100
chd Coef. Std. Err. z P>z [95% Conf.Interval]
agec 2.093546 0.528534 3.96 0 1.057639 3.129453
_cons -0.84078 0.255073 -3.3 0.001 -1.34072 -0.34085
A conclusione di questo paragrafo è importante sottolineare che (3.3) è valida solo nel caso che la
variabile dicotomica sia codificata 0/1. In caso contrario, la stima dell’OR deve essere condotta
valutando la differenza tra i logit in corrispondenza dei due livelli di codifica. Supponiamo che una
variabile dicotomica X sia codificata a/b, in questo caso avremo:
( ) ( ) ( ) ( )
1
ˆ
ˆ ˆ
ln ,
OR a b g x a g x b a b
β
  = = − = = −
 
(3.5)
( ) ( )
1
ˆ
, exp
OR a b a b
β
 
= −
  (3.6)
Se ad esempio la variabile dicotomica è codificata -1/+1 la relazione tra odds ratio e il coefficiente β1
diventa:
( ) ( )
1
1; 1 exp 2
OR β
− + = (3.7)
3.3 Variabile indipendente politomica
Se una variabile indipendente è politomica (categorizzata su più di due livelli) non potrà essere
inserita direttamente nel modello, ma dovrà essere sostituta dalle relative Dummy Variables.
Ricordiamo che se una variabile politomica è categorizzata su k livelli, può essere convenientemente
sostituita da k-1 Dummy Variables.
La Tab. 3.4 riporta il rischio di CHD (coronary heart disease) in funzione della razza di appartenenza
(White, Black, Hispanic, Other). La Tab.3.5 riporta la codifica delle Dummy Variables associate alla
variabile RACE.
36
Tab. 3.4
Cross-Classification of Hypothetical Data on RACE and CHD
Status for 100 Subjects
RACE
CHD White Black Hispanic Other Total
Absent 20 10 10 10 50
Present 5 20 15 10 50
Total 25 30 25 20 100
OR 8 6 4
95% CI 2.3; 27.6 1.7; 21.3 1.1; 14.9
ln(OR) 2.08 1.79 1.39
Reference group: Race = White
Tab. 3.5
Specification of the Design Variables for RACE Using
Reference Cell Coding with White as Reference Group
Design Variables (Dummy Variables)
RACE(Code) _IRACE_2 _IRACE_3 _IRACE_4
White(1) 0 0 0
Black(2) 1 0 0
Hispanic(3) 0 1 0
Other(4) 0 0 1
Nell’ultima riga della Tab. 3.4 sono riportati i log(OR) con gruppo di riferimento White. Le stesse
stime possono ottenersi dal modello logistico con una scelta coerente della codifica delle Dummy
Variables (Tab. 3.6). Se ad esempio il gruppo di riferimento deve essere la razza White, allora occorre
imporre pari a zero i valori delle Dummy Variables che lo identifica (Tab.3.5)
Tab. 3.6
Results of Fitting the Logistic Regression Model to the Data in the Tab. 3.4
Using the Design Variables in Tab.3.5
CHD Coef. Std. Err. z P>z [95% Conf.Interval]
_IRACE_2 2.079442 0.632452 3.29 0.001 0.839858 3.319026
_IRACE_3 1.791759 0.645494 2.78 0.006 0.526614 3.056905
_IRACE_4 1.386294 0.670818 2.07 0.039 0.071516 2.701072
_cons -1.38629 0.499996 -2.77 0.006 -2.36627 -0.40632
Confrontando i risultati di Tab.3.4 e Tab.3.6 è facile riconoscere che:
37
( ) ( ) 1
ˆ
log , ) log 8 2.079
OR Black White β
  = = =
 
( ) ( ) 2
ˆ
log , ) log 6 1.792
OR Hispanic White β
  = = =
 
( ) ( ) 3
ˆ
log , ) log 4 1.386
OR Other White β
  = = =
 
Ciò significa che i coefficienti stimati dal modello logistico (Tab.3.6) sono uguali al logaritmo degli
odds ratio calcolati direttamente dalla tabella dei dati (Tab.3.4).
Con riferimento all’Odds Ratio Black vs White si ha infatti:
( ) ( ) ( ) ( ) ( )
0 1 0 1
ˆ ˆ ˆ ˆ
ˆ ˆ
log ,
OR Black White g Black g White β β β β
  = − = + − =
 
Gli standard error dei coefficienti, nel caso univariato, possono essere calcolati direttamente dalla
relativa tabella di contingenza.
( )
0.5
1
1 1 1 1
ˆ 0.635
5 20 20 10
se β
 
= + + + =
 
 
Il limiti di confidenza dei coefficienti, e degli odds ratio, si ottengono con lo stesso procedimento
usato per le variabili dicotomiche.
( ) ( )
95% 1 2
ˆ ˆ ˆ
j j j
CI z se
α
β β β
−
= ±
( ) ( )
95% 1 2
ˆ ˆ
exp j j
CI OR z se
α
β β
−
 
= ±
 
Come già accennato nella sezione 3.3 la codifica delle Dummy variables può essere effettuata
(deviation from means coding) in modo tale da impostare come valore di riferimento il valore medio
del logit.
La codifica effettuata (reference cell coding) in accordo con quanto specificato in Tab. 3.5 permette di
interpretare i coefficienti βi come log(ORi).
Seguendo la codifica (deviation from means coding) l’interpretazione dei coefficienti βi non è
immediata. Nel seguito comunque illustreremo sia la nuova codifica sia il metodo con cui
interpretare i coefficienti βi ottenuti dal nuovo modello.
La nuova codifica impone di porre a -1 i valori di tutte la variabili dummy relative ad una categoria, e
di utilizzare la consueta codifica 0/1 per le categorie restanti.
Con riferimento alla variabile RACE, una codifica, in accordo con la cosiddetta deviation from means
coding, è quella riportata in Tab. 3.7
Tab 3.7
Specification of the Design Variables for RACE Using
Deviation from Means Coding
Design Variables (Dummy Variables)
RACE(Code) _IRACE_2 _IRACE_3 _IRACE_4
White(1) -1 -1 -1
Black(2) 1 0 0
Hispanic(3) 0 1 0
Other(4) 0 0 1
38
Di seguito riportiamo il modello fittato coerente con la nuova codifica.
Tab. 3.8
Results of Fitting the Logistic Regression Model to data in Tab 3.4 Using
the Design Variables in Tab. 3.7
chd Coef. Std. Err. z P>z [95% Conf. Interval]
race_2 0.765068 0.350594 2.18 0.029 0.077915 1.45222
race_3 0.477386 0.362284 1.32 0.188 -0.23268 1.187449
race_4 0.071921 0.384599 0.19 0.852 -0.68188 0.825721
_cons -0.07192 0.218898 -0.33 0.742 -0.50095 0.357112
Per interpretare i coefficienti stimati del nuovo modello, calcoliamo, con riferimento alla Tab. 3.4 i
logit corrispondenti a ciascuna delle quattro categorie in cui è suddivisa la variabile RACE e ne
calcoliamo la media.
1
2 3 4
5/ 25 5
ˆ log log 1.386
20/ 25 20
ˆ ˆ ˆ
0.693 0.405 0
ˆ
0.072
4
i
g
g g g
g
g
   
= = = −
   
   
= = =
= = −
∑
Il coefficiente stimato della variabile race_2 è pari a:
( )
1 2
ˆ 0.693 0.072 0.765
g g
β = − = − − =
In generale, i coefficienti stimati per la generica variabile race_i esprimono la differenza tra il logit
corrispondente e il logit medio.
ˆ
_ j
race j g g
= −
L’interpretazione di tali coefficienti stimati non è, in questo caso agevole. Infatti, con riferimento al
coefficiente della variabile race_2, passando agli esponenziali, si ha:
( ) ( )
( ) ( )
( )( )( )( )
2
2 0.25
ˆ
exp 20/10
ˆ
exp 0.765 exp 2.15
ˆ 5/ 20 20/10 15/10 10/10
exp
4
i
g
g g
g
= − = = =
   
 
 
 
 
∑
Questo numero, 2.15, non rappresenta un vero odds ratio perché le quantità a numeratore e
denominatore non rappresentano gli odds riferiti a due distinte categorie. Gli esponenziali dei
coefficienti stimati, in questo caso, esprimono gli odds relativi alla media geometrica degli odds
totali.
Con alcuni passaggi, comunque, anche questi coefficienti stimati permettono di risalire agli odds ratio
di una categoria rispetto a quella di riferimento.
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
0 1 2 3
0 1 2 3
ˆ ˆ
log ,
ˆ ˆ ˆ ˆ
_ 2 1 _3 0 _ 4 0
ˆ ˆ ˆ ˆ
_ 2 1 _3 1 _ 4 1
OR Black White g Black g White
race race race
race race race
β β β β
β β β β
  = − =
 
 
= + = + = + = +
 
 
− + = − + = − + = − =
 
39
1 2 3
ˆ ˆ ˆ
2β β β
= + + (3.8)
Per ottenere l’intervallo di confidenza del log(OR) prima definito, dobbiamo stimare la varianza della
somma dei coefficienti presenti nella (3.8).
( )
{ } ( ) ( ) ( )
( ) ( ) ( )
1 2 3
1 2 1 3 2 3
ˆ ˆ ˆ
log , 4
ˆ ˆ ˆ ˆ ˆ ˆ
4 , 4 , 2 ,
Var OR Black White Var Var Var
Cov Cov Cov
β β β
β β β β β β
  = ⋅ + +
 
+ ⋅ + ⋅ + ⋅
(3.9)
E passando ai valori numerici si ha:
( )
log , 2 0.765 0.477 0.072 2.079
OR Black White
  = ⋅ + + =
 
( )
{ }
log , 0.400
Var OR Black White
  =
 
( )
{ }
log , 0.6325
se OR Black White
  =
 
Abbiamo ottenuto, pur con una nuova codifica delle Dummy Variables, gli stessi risultati trovati con
la vecchia codifica.
3.4 Variabile indipendente continua
Quando un modello di regressione logistico contiene una variabile continua, l’interpretazione del
relativo coefficiente dipende sia dalla modalità di inserimento della variabile stessa (lineare,
quadratica….logaritmica…) sia dalla unità di misura con cui è espressa.
Sotto l’assunzione che il logit sia lineare rispetto alla covariata continua x, il modello è espresso dalla
seguente equazione:
( ) 0 1
g x x
β β
= +
Segue che il coefficiente β1 esprime geometricamente una pendenza, ossia la variazione del log odds
corrispondente ad una variazione di “1” unità della covariata x. Quindi:
( ) ( )
1 1
g x g x x
β = + − ∀
Molto spesso la variazione del log odds corrispondente ad una variazione di “1” unità della covariata
è clinicamente priva di importanza. E’ pertanto meglio riferirsi ad una variazione del log odds
corrispondente ad una generica variazione di “c” unità della covariata x.
( ) ( ) ( ) ( )
1 1
, exp
g x c g x c OR x c x c
β β
+ − = ⋅ → + =
E passando alle stime si ha:
( ) ( ) ( ) ( )
1 1
ˆ ˆ
ˆ ˆ , exp
g x c g x c OR x c x c
β β
+ − = ⋅ → + =
( )
{ } ( )
95% 1 1 / 2 1
ˆ ˆ
exp
CI OR c c z se
α
β β
−
 
= ±
 
Con riferimento al data set trattato nel Capitolo 1, il modello logistico fittato risulta:
Tab. 3.9
chd Coef. Std. Err. z P>z [95% Conf.Interval]
age 0.110921 0.02406 4.61 0 0.063765 0.158078
_cons -5.30945 1.133655 -4.68 0 -7.53138 -3.08753
40
Il logit stimato è pertanto:
( )
ˆ 5.310 0.111
g age age
= − + ⋅
L’odds ratio stimato, corrispondente ad un aumento di 10 anni di età, vale quindi:
( ) ( )
10 exp 10 0.111 3.03
OR age
∆ = = ⋅ =
E il suo intervallo di confidenza:
( )
{ } ( ) { }
95% 10 exp 10 0.111 1.96 10 0.024 1.90;4.86
CI OR age
∆ = = ⋅ ± ⋅ ⋅ =
Questo indica che per ogni incremento di 10 anni di età il rischio di chd aumenta di circa 3.03 volte.
Se questa affermazione è valida dal punto di vista teorico, non è in genere altrettanto accettabile dal
punto di vista clinico. Con riferimento al nostro data set, appare piuttosto evidente che l’incremento
di rischio di chd nel passare da 30 a 40 anni (Δage = 10) è presumibilmente diverso dall’incremento di
rischio di un soggetto che passa 50 a 60 anni (Δage = 10).
Quando abbiamo buone ragioni, cliniche o biologiche, per ritenere che la relazione tra logit e
covariata non sia lineare dobbiamo impostare diversamente il modello. In particolare potremo:
1. Categorizzare la variabile e fare uso di Dummy Variables;
2. Inserire la covariata come termine di ordine superiore (x2
,x3
..)
3. Usare una funzione della covariata (logaritmica…)
3.5 Modello multivariato
Nella precedente sezione abbiamo discusso l’interpretazione dei coefficienti stimati dal modello
logistico nel caso in cui il modello preveda una singola covariata. Tuttavia, il fittare una serie di
modelli univariati ha solamente una valenza “esplorativa”: in genere solo un modello multivariato
permette di stabilire un legame “soddisfacente” tra la variabile risposta (outcome variable) e le
variabili esplicative.
Con riferimento al modello multivariato i coefficienti stimati forniscono una stima dei log odds
“aggiustata” per tutte le altre variabili incluse nel modello.
Per chiarire il concetto di “aggiustamento” ci riferiremo inizialmente a un modello di regressione
lineare per poi estendere le nostre considerazioni al modello logistico.
Supponiamo di voler confrontare il peso medio di due gruppi di ragazzi. Nell’ipotesi che il peso sia
funzione dell’età e che i due gruppi di ragazzi abbiano età diverse (un gruppo molto più giovane
dell’altro), il semplice confronto delle medie dei pesi dei due gruppi avrebbe uno scarso significato: di
fronte ad una differenza delle età dei due gruppi non sappiamo se tale differenza sia imputabile ad
una reale differenza tra i gruppi di giovani (giganti vs nani) oppure ad una differenza delle età
(bambini vs adolescenti).
Non è possibile determinare “l’effetto gruppo” senza preliminarmente eliminare la discrepanza fra le
età dei due gruppi. Questa condizione è descritta graficamente nella Fig. 3.1 dove si assume che la
relazione tra peso ed età sia di tipo lineare ed identica nei due gruppi (le due rette sono parallele).
Il modello statistico associato, indicato con w il peso e con a l’età, stabilisce una relazione lineare del
tipo:
0 1 2
w x a
β β β
= + + ⋅
Dove x = 0 per il gruppo 1 e x = 1 per il gruppo 2.
Fig. 3.1
41
Comparison of the weight of two groups of boys with different distribution of age.
In questo modello β1 rappresenta la vera differenza in peso tra i due gruppi (misura il cosiddetto
effetto gruppo) e β2 esprime la variazione del peso corrispondente all’incremento di un anno di età.
Supponiamo che le età medie del primo e secondo gruppo siano rispettivamente 1
a e 2
a .
Il confronto “crudo” del peso medio dei due gruppi è rappresentato dalla differenza tra w2 e w1.
Con riferimento al modello, tale differenza è espressa da:
( ) ( )
2 1 1 2 2 1
w w a a
β β
− = + −
Ossia il confronto “crudo” tra i pesi medi dei due gruppi non comprende solo la “vera” differenza tra i
gruppi (effetto di gruppo: misurato da β1), bensì anche una componente, ( )
2 2 1
a a
β − , che riflette la
differenza tra le età medie dei due gruppi.
Il processo di aggiustare statisticamente per l’età si effettua comparando i due gruppi in
corrispondenza di qualsiasi valore comune di età. Con riferimento all’età media comune dei due
gruppi, tale confronto è espresso dalla differenza ( )
4 3
w w
− , che in termini di modello vale:
( ) ( )
4 3 1 2 1
w w a a
β β β
− = + − =
e misura la vera differenza tra i due gruppi.
Con riferimento alla Fig.3.1, immaginiamo ora di sostituire la variabile dipendente “peso” con una
variabile dipendente dicotomica e di porre il valore della funzione logit sull’asse delle ordinate. La Fig.
3.1, in queste condizioni, rappresenta pertanto un modello del tipo:
( ) 0 1 2
.
g x a x a
β β β
= + +
42
Come esemplificazione, valuteremo la probabilità di avere un bimbo sottopeso alla nascita in due
gruppi di madri (fumatrici/non fumatrici) di cui abbiamo registrato le età.
Tab. 3.10
Età e numero di nascite sottopeso in due gruppi di donne
(87 non fumatrici e 66 fumatrici)
smoke = 0; n=87 smoke = 1; n=66
Mean Std. Dev. Mean Std. Dev.
low 0.241379 0.430401 0.409091 0.495434
age 25.47126 4.630132 21.80303 4.012364
Con i dati di Tab. 3.10, il log odds ratio univariato (crudo) delle fumatrici vs le non fumatrici vale:
( ) 0.409091 0.241379
log log log 0.77741 2.1758
1 0.409091 1 0.241379
OR OR
   
= − = → =
   
− −
   
Le fumatrici pertanto hanno una maggiore probabilità di avere un neonato di basso peso. Tuttavia le
fumatrici sono mediamente più giovani delle non fumatrici, e questa discrepanza potrebbe
sovrastimare il rischio.
In effetti applicando ai dati di Tab.3.10 un modello logistico bivariato si ottiene:
Tab. 3.11
Results of Fitting the Logistic Regression Model to the Data Summarized in Table 3.10
Variable Odds Ratio Std. Err. z P>z [95% Conf. Interval]
age 0.937164 0.041807 -1.45 0.146 0.858704 1.022792
smoke 1.743155 0.66931 1.45 0.148 0.821306 3.699706
Coefficient. Std. Err. z P>z [95% Conf.Interval]
age -0.0649 0.04461 -1.45 0.146 -0.15233 0.022537
smoke 0.555697 0.383965 1.45 0.148 -0.19686 1.308253
_cons 0.484959 1.133666 0.43 0.669 -1.73699 2.706904
Quindi, controllando per l’età (age), l’Odds Ratio stimato passa da 2.1758 a 1.743 avvalorando il
sospetto che l’Odds Ratio crudo (fumatrice vs non fumatrice) sia amplificato dalla diversa
distribuzione delle età nei due gruppi.
Con riferimento alla Fig. 3.1, esaminiamo ora più in dettaglio l’aggiustamento effettuato.
Una approssimazione dell’Odds Ratioa
non aggiustato si ottiene esponenziando la differenza
2 1
w w
− .
a
Questa stima (2.21) si basa sulla differenza dei logit valutati in corrispondenza delle età medie dei due gruppi
e differisce dall’Odds Ratio (2.1758) ottenuto dal modello univariato e calcolato sulla base delle probabilità
logistiche dei due gruppi.
43
[ ] [ ]
( )
( )
0.484959 0.555697 0.0649 21.80303 0.484959 0.0649 25.47126
0.555697 0.0649 25.47126 21.80303
exp 0.555697 0.0649 25.47126 21.80303 2.21
OR
+ − ⋅ − − ⋅ =
= + −
=  + −  =
 
L’Odds Ratio, aggiustato per l’età, è ottenuto esponenziando la differenza 4 3
w w
− che corrisponde al
coefficiente stimato per la variabile smoke.
[ ] [ ]
[ ]
0.484959 0.555697 0.0649 23.9 0.484959 0.0649 23.9
exp 0.555697 1.743
OR
+ − ⋅ − − ⋅ =
= =
Un criterio abbastanza accettato per classificare una variabile come confondente è verificare se il suo
inserimento nel modello multivariato induce una variazione di almeno il 10% dell’Odds Ratio crudo,
mentre è di scarsa utilità la eventuale significatività del coefficiente associatoa
. Nel nostro esempio ,
ritenuto valido questo criterio, age può essere considerata un confondente perché il suo inserimento
nel modello multivariato provoca una abbattimento dell’Odds Ratio crudo di circa il 20% (da 2.1758 a
1.743) anche se il coefficiente ad essa associato (-0.0649) non è affatto significativo (p = 0.146).
Infine ribadiamo un concetto essenziale: l’efficacia del processo di aggiustamento è interamente
dipendente dall’adeguatezza delle assunzioni del modello: linearità e costanza di pendenza. Se tali
assunzioni cadono, il processo di aggiustamento sarà privo di ogni utilità.
a
Come vedremo in seguito questo criterio del 10% è puramente indicativo e vale se non abbiamo criteri clinici
per confutarlo.
44
3.6 Interazione e Confondimento
Nella sezione precedente abbiamo introdotto il termine confondente, indicando con esso una
covariata che è associata sia alla variabile risposta, sia a una variabile indipendente (fattore di
rischio).
In questa sezione introdurremo il concetto di interazione e vedremo come controllarne i suoi
effetti nell’ambito del modello logistico. Infine illustreremo con un esempio come confondimento
e interazione influiscono sulle stime dei coefficienti del modello.
Consideriamo un modello contenente un fattore di rischio dicotomico (smoke) e una covariata
continua (age). Se l’associazione tra la covariata (age) e la variabile risposta (outcome) è la
medesima entro ciascun livello del fattore di rischio (smoke), allora diremo che non c’è
interazione tra la covariata e il fattore di rischio.
Graficamente l’assenza di interazione si rappresenta con un modello costituito da due linee
parallele, una per ciascun livello del fattore di rischio. In generale l’assenza di interazione è
caratterizzata da un modello che non contiene termini di ordine superiore od uguale al secondo.
Quando l’interazione è presente, l’associazione tra il fattore di rischio e la variabile risposta varia
in funzione del livello della covariata. In altri termini, diremo che la covariata modifica l’effetto del
fattore di rischio.
Fig. 3.2.
Plot of the logits under three different models showing the presence and absence of interaction
45
In Fig. 3.2 sono rappresentati i grafici di tre differenti logita
che utilizzeremo per spiegare il
significato e gli effetti dell’interazione.
Consideriamo un modello in cui la variabile risposta sia presenza o assenza di CHD, il fattore di rischio
sia sex e la covariata sia age.
Supponiamo che la linea l1 esprima l’andamento del logit in funzione di age all’interno del gruppo
female. La linea l2, infine, supponiamo rappresenti il logit riferito al gruppo male.
Le due linee sono parallele, esprimendo con ciò che la relazione tra age e CHD è la stessa sia per le
femmine sia per i maschi. In questa situazione non c’è interazione e il log odds ratio riferito al sesso
(male vs female), controllato per l’età, è dato dalla distanza verticale tra le due linee, ed è la stessa
indipendentemente dall’età.
Immaginiamo ora che il logit relativo ai maschi sia rappresentato dalla linea l3. Questa linea è più
pendente rispetto alla linea l1, esprimendo che la relazione tra CHD ed age è differente nei due
gruppi (male vs female). In una tale situazione siamo in presenza di una interazione tra age e sex.
La stima del log-odds ratio relativa al sesso (male vs female)controllato per age è ancora dato dalla
distanza verticale tra le linee l3 e l1, distanza che questa volta dipende dall’età rispetto alla quale il
confronto viene effettuato.
Pertanto non potremo stimare l’odds ratio relativo al sesso senza prima specificare a che età il
confronto viene effettuato. In altri termini, la variabile age è una modificatrice d’effetto.
Le Tab. 3.12 e 3.13 presentano una serie di modelli logistici implementati su due differenti data set
ipotetici. Le variabili di ciascun data set sono identiche: sex, age e CHD (variabile risposta).
L’interazione è stata modellata inserendo nel modello una variabile pari al prodotto di sex per age.
Tab. 3.12
Estimated Logistic Regression Coefficients, Deviances, and the Likelihood Ratio Test Statistic (G) from
an Example Showing Evidence of Confounding but no Interaction (n = 400)
Model Constant sex age sex•age Deviance G
1 0.060 1.981 419.816
2 -3.374 1.356 0.082 407.780 12.036
3 -4.216 4.239 0.013 -0.062 406.392 1.388
Tab. 3.13
Estimated Logistic Regression Coefficients, Deviances, and the Likelihood Ratio Test Statistic (G) from
an Example Showing Evidence of Confounding and Interaction (n = 400)
Model Constant sex age sex•age Deviance G
1 0.201 2.386 376.712
2 -6.672 1.274 0.166 338.688 38.024
3 -4.825 -7.838 0.121 -0.205 330.654 8.034
a
Per render e più agevole la lettura del grafico, a ciascun logit è stato aggiunto il valore 4.
46
Esaminando i risultati della Tab. 3.12 vediamo che il coefficiente stimato per la variabile sex varia da
1.981 nel modello 1 (solo variabile sex) a 1.356 nel modello 2 (variabile age e sex). Poiché
l’inserimento della variabile age ha prodotto una diminuzione del coefficiente di sex di circa il 46%,
diremo che siamo in presenza di un evidente effetto confondente dovuto ad age.
Quando il termine di interazione è aggiunto nel modello 3,vediamo che la variazione di devianza è
solo 1.388 e che, con riferimento ad una distribuzione chi quadro con un grado di libertà, porta ad un
p value di 0.24, chiaramente non significativo.
E’ da notare che il coefficiente relativo a sex cambia da 1.356 (modello 2) a 4.239 (modello 3). Questo
non deve sorprendere perché l’inclusione del termine di interazione, specialmente quando coinvolge
variabili continue, produce variazioni molto marcate nelle stime dei coefficienti delle variabili
dicotomiche interessati dall’interazione.
Ribadiamo pertanto che quando è presente il termine di interazione non possiamo valutare l’effetto
confondente tramite la variazione dei coefficienti. Con riferimenti a questo data set si darà pertanto
la preferenza al modello 2 che suggerisce age come confondente e non come modificatore d’effetto.
Con riferimento alla Tab. 3.13, confrontando il modello 1 con il modello 2 vediamo che il coefficiente
di sex varia da 2.386 a 1.274 con un diminuzione dell’87%. Quando nel modello 3 viene aggiunto il
termine di interazione sex·age, vediamo che la devianza diminuisce di 8304 con un p-value di 0.005.
Poiché la variazione della devianza è significativa il modello 3 è preferibile al modello2, pertanto la
variabile age deve essere interpretata sia come confondente sia come modificatrice d’effetto.
La stima dell’odds ratio, relativo alla variabile sex, deve essere calcolata in corrispondenza di una
specifica età.
Concludiamo questo paragrafo riassumendo i criteri utili per stabile se una variabile possa essere
trattata come confondente e/o modificatrice di effetto:
1. Qualsiasi modificazione clinicamente rilevante nella stima del coefficiente del fattore di
rischio suggerisce che la covariata è un confondente e come tale deve essere inserita nel
modello indipendentemente dalla significatività statistica del coefficiente ad essa associato.
2. Dobbiamo ritenere che una covariata sia una modificatrice di effetto solo se il termine di
interazione abbia un significato clinico e il suo coefficiente sia statisticamente significativo.
Infine ribadiamo che quando una variabile è classificata come modificatrice di effetto, stabilire se sia
anche un confondente ha uno scarso significato dato che la stima dell’effetto del fattore di rischio
dipende dallo specifico valore assunto della covariata.
47
3.7. Stima dell’Odds Ratio in presenza di interazione
Come abbiamo visto al paragrafo precedente, quando è presente un termine di interazione la stima
dell’odds ratio relativo al fattore di rischio dipende dal valore della variabile che con esso interagisce.
In tale situazione pertanto non possiamo stimare l’odds ratio semplicemente esponenziando il
coefficiente associato al fattore di rischio.
Per illustrare in dettaglio come valutare l’odds ratio in presenza di interazione ci riferiremo ad un
modello costituto da un fattore di rischio F, da una covariata X e dal termine di interazione F·X.
Il logit di questo modello, valutato per F = f ed X = x vale:
( ) ( )
0 1 2 3
,
g f x f x f x
β β β β
= + ⋅ + ⋅ + ⋅ (3.10)
Assumendo di valer calcolare l’odds ratio (F = f1 vs F = f0) in corrispondenza di X = x, si calcolano i
relativi logit:
( ) ( )
( ) ( )
1 0 1 1 2 3 1
0 0 1 0 2 3 0
,
,
g f x f x f x
g f x f x f x
β β β β
β β β β
= + ⋅ + ⋅ + ⋅
= + ⋅ + ⋅ + ⋅
Il log odds ratio si ottiene dalla differenza dei logit:
( ) ( ) ( ) ( ) ( )
1 0 1 0 1 1 0 3 1 0
log , , , ,
OR F f F f X x g f x g f x f f x f f
β β
 = = =  = − = − + ⋅ −
  (3.11)
L’odds ratio, ribadiamo calcolato per X = x, si ottene esponenziando la (3.11):
( ) ( )
1 1 0 3 1 0
exp
OR f f x f f
β β
=  − + ⋅ − 
  (3.12)
Notiamo come nelle (3.11) e (3.12) sono contenuti due coefficienti, quello relativo al fattore di
rischio e quello riferito al termine di interazione.
Ovviamente la stima del log-odds ratio si ottiene semplicemente sostituendo i parametri contenuti
nelle (3.10) e (3.11) con le relative stime.
Per calcolare i limiti dell’intervallo di confidenza dell’odds ratio, esponenzieremo i limiti
dell’intervallo di confidenza del log-odds ratio.
Calcoliamo la varianza del log-odds ratio espresso dalla (3.11)
( )
{ }
( ) ( ) ( ) ( ) ( ) ( )
1 0
2 2 2
2
1 3 1 3
1 0 1 0 1 0
var log , ,
var var 2 cov ,
OR F f F f X x
f f x f f x f f
β β β β
 
= = = =
 
 
= − + − + −
 
(3.13)
Il limiti dell’intervallo di confidenza del log-odds ratio risultano pertanto:
( ) ( ) ( ) ( )
1 3 1 3
1 0 1 0 1 2 1 0 1 0
f f x f f z se f f x f f
α
β β β β
−
   
− + ⋅ − ± − + ⋅ −
   
(3.14)
dove se, lo standard error nella (3.14), è la radice quadrata positiva della varianza stimata nella
(3.13).I limiti dell’intervallo di confidenza dell’odds ratio si ottengono infine esponenziando la (3.14).
Le stime del log-odds ratio e della sua varianza si semplificano notevolmente nel caso in cui il fattore
di rischio sia una variabile dicotomica. Se ad esempio f1 =1 e f0 =0 la stima del log-odds ratio diventa:
( ) 1 3
1 0
log , ,
OR F f F f X x x
β β
 
= = = = + ⋅
 
(3.15)
La varianza stimata vale:
48
( )
{ } ( ) ( ) ( )
2
1 3 1 3
1 0
var log , , var var 2 cov ,
OR F f F f X x x x
β β β β
 
= = = = + +
 
(3.16)
e i limiti dell’intervallo di confidenza sono:
1 3 1 3
1 2
x z se x
α
β β β β
−
   
+ ⋅ ± + ⋅
   
(3.17)
Come esemplificazione consideriamo una serie di modelli logistici associati ad un data set già
esaminato in precedenza (low birth weight data).
Tab. 3.14
Estimated Logistic Coefficients, Deviance, the Likelihood Ratio Test Statistic (G),
and p-value for the Change for Models Cointaning LWD and AGE from the Low
Birth Weight Data (n= 189)
Model Constant LWD AGE LWD•AGE ln[l(β)] G p
0 -0.790 -117.34
1 -1.054 1.054 -113.12 8.44 0.004
2 -0.027 1.010 -0.044 -112.14 1.96 0.160
3 0.774 -1.944 -0.080 0.132 -110.57 3.14 0.076
Dal modello 1 l’odds ratio di avere un neonato a basso peso (LWD =1 vs LWD =0)a
è 2.87
(exp[1.054]).
Dal confronto del modello 1 con il modello2, vediamo che l’inserimento della variabile AGE porta ad
una diminuzione di circa il 4% del coefficiente di LWD (1.054 vs 1.010): possiamo lecitamente
dedurre che AGE non sia un confondenteb
.
Dal confronto del modello 3 con il modello 2, vediamo che l’inserimento del termine di interazione
produce un significativo miglioramento del modello (p = 0.076): deduciamo che tra LWD ed AGE vi
possa essere interazione.
Quindi l’odds ratio di avere un neonato a basso peso (LWD =1 vs LWD =0) non è costante rispetto
all’età.
Un modo efficace per vedere la presenza di interazione consiste nell’esaminare, per via grafica i logit
stimati dal modello 3. La linea superiore nella Fig. 3.3 corrisponde al logit stimato per madri con LWD
=1 e la linea inferiore corrisponde al logit stimata per madri con LWD = 0.
Il log-odds ratio stimato per LWD = 1 vs LWD = 0 all’età AGE = x, dalla (3.15), è uguale alla distanza
verticale tra le due linee misurata in corrispondenza di un’ascissa AGE = x.
Dalla Fig. 3.3 vediamo che tale distanza è prossima a zero a 15 anni di età e poi progressivamente
aumenta. Poiché la distanza verticale non è costante dovremo scegliere alcune specifiche età a cui
fare riferimento per poter stimare l’effetto del basso pesso nell’ultimo periodo mestruale.
Sempre dalla Fig. 3.3 vediamo come nessuna madre LWD =1 ha più di 33 anni. Quindi pare logico
restringere le nostre stime dell’effetto del basso peso della madre in un range da 14 a 33 anni.
a
La variabile dicotomica LWD assume il valore 1 se il peso della madre in corrispondenza dell’ultima
mestruazione è inferiore a 110 pounds, altrimenti assume il valore zero.
b
A patto ovviamente che una modifica del 4% del coefficiente associato ad LWD sia clinicamente ininfluente.
49
Fig. 3.3.
Plot of the estimated logit for women with lwd = 1 and for women with lwd = 0 from Model 3 in Tab. 3.14
Dalla (3.15) e dai risultati forniti dal modello 3, il log-odds ratio stimato (LDW =1 vs LWD =0) in
corrispondenza di un’età AGE = a, vale:
( ) 1 3
log 1, 0,
OR LWD LWD AGE a a
β β
 
= = = = + ⋅
 
(3.18)
Per stimare la varianza, dobbiamo utilizzare la matrice di covarianza dei parametri stimati.
Tab. 3.15
Covariance matrix of coefficients of logistic model 3 of Tab 3.15
e(V) age lwd lwdage _cons
age .00157088
lwd 03526621 2.974949
lwdage -.00157088 -.12760349 .00573022
_cons -.03526621 -.82827277 .03526621 .82827277
La varianza stimata del log-odds ratio, si ottiene dalla (3.16):
LWD =1
LWD = 0
-3
-2
-1
0
1
Estimated
Logit
10 20 30 40 50
AGE
50
( )
{ } ( )
2
var log 1, 0, 2.975 0.0057322 2 0.12760349
OR LWD LWD AGE a a a
 
= = = = + ⋅ + ⋅ ⋅ −
 
Tab. 3.16
Estimated Odds Ratio and 95% Confidence Intervals for LWD,
Controlling for AGE
Age 15 20 25 30
OR 1.04 2.01 3.90 7.55
95% CI 0.29; 3.79 0.91; 4.44 1.71; 8.88 1.95; 29.19
Dall’esame della Tab. 3.16 si nota come l’effetto di LWD sull’odds di avere un neonato di basso peso
alla nascita cresce esponenzialmente con l’età. Inoltre l’aumento di tale rischio diviene significativo
per un’età superiore o uguale a 25 anni.
3.8 Confronto tra Regressione Logistica e Analisi Stratificata per tabelle 2x2
Molti utilizzatori del modello logistico, specialmente coloro con un background di tipo
epidemiologico, hanno effettuato, ed effettuano tuttora, delle analisi stratificate di tabelle 2x2 per
valutare l’interazione e controllare il confondente. L’obiettivo principale di tali analisi stratificate è
quello di determinare se gli odds ratio sono costanti, o meglio omogenei, tra gli strati. Se gli odds
ratio sono omogenei, e solo in questo caso, è lecito calcolare successivamente un odds ratio globale
ottenuto con il metodo di Mantel-Haenszel o tramite una media pesata dei logit.
La stessa analisi può essere effettuata più semplicemente utilizzando il modello logistico secondo le
indicazioni fornite ai paragrafi 3.6 e 3.7.
In questa sezione, utilizzando il solito data set (low birth weight data), illustreremo analogie e
differenze tra i due approcci.
Consideriamo un’analisi del fattore di rischio smoking (SMOKE =1) rispetto al basso peso alla nascita
(LOW=1). Dalla Tab. 3.17, l’odds ratio crudo (non aggiustato) risulta:
30 86
2.02
44 29
OR
⋅
= =
⋅
Tab. 3.17
Cross-Classification of Low Birth Weight
by Smoking Status
SMOKE
1 0 Total
LOW
1 30 29 59
0 44 86 130
Total 74 115 189
51
La Tab. 3.18 presenta gli stessi dati stratificati in base alla razza della madre consentendo, come
vedremo, di calcolare l’odds ratio globale sia con il metodo di Mantel-Haenszel sia con la media
pesata dei logit.
Tab. 3.18
Cross-Classification of Low Birth Weight by
Smoking Status Stratified by RACE
White
SMOKE Total
1 0
LOW
1 19 4 23
0 33 40 73
Total 52 44 96
Black
LOW
1 6 5 11
0 4 11 15
Total 10 16 26
Other
1 5 20 25
LOW
0 7 35 42
Total 12 55 67
Total 189
Lo stimatore di Mantel-Haenszel, con riferimento a dati tabulati secondo la Tab. 3.19 è la media
pesata degli odds ratio strato specifici ORi con pesi wi pari a:
i i
i
i
b c
w
N
=
Tab. 3.19
Strato i-esimo
SMOKE
LOW
ai bi
ci di
Ni
52
Si ha pertanto:
i i i i
i
i i
i i
MH
i i i i
i i
i i
b c a d
OR
N N
OR
b c b c
N N
⋅
= =
∑ ∑
∑ ∑
(3.19)
Sostituendo nella (3.19) i dati di Tab. 3.18 si ottiene:
19 40 6 11 5 35
13.067
96 26 67 3.09
4 33 4 5 7 20 4.234
96 26 67
MH
OR
⋅ ⋅ ⋅
+ +
= = =
⋅ ⋅ ⋅
+ +
Lo stimatore dell’odds ratio globale, basato sulla media dei logit, è una media pesata, strato specifica,
dei log odds ratio con pesi wi pari al reciproco della loro varianzaa
.
1
1 1 1 1
i
i i i i
w
a b c d
−
 
= + + +
 
 
( )
log
exp
i
i
i
L
i
i
w OR
OR
w
 
 
=  
 
 
∑
∑
(3.20)
La Tab.3.20 mostra le stime degli odds ratio, dei log-odds ratio, delle varianze dei log-odds ratio e dei
pesi con riferimento ai dati di Tab. 3.18.
Tab. 3.20
Tabulation of Estimated Odds Ratios, log(Estimated Odds
Ratios), Estimated Variance of the log(Estimated Odds Ratios),
and the Inverse of the Estimated Variance, w, for Smoking
Status Within Each Stratum of RACE
White Black Other
OR 5.758 3.300 1.250
( )
log OR 1.751 1.194 0.223
( )
var log OR
 
 
0.358 0.708 0.421
w 2.794 1.413 2.375
Con i dati di Tab. 3.20, lo stimatore dell’odds ratio globale, basato sulla media dei logit, vale:
a
Quando un elemento della cella è nullo, la varianza non è definita. In tal caso si può aggirare il problema
aggiungendo il valore 0.5 al contenuto di ogni cella.
53
1.751 2.794 1.194 1.413 0.223 2.375 7.109
exp exp 2.95
2.794 1.413 2.375 6.582
L
OR
⋅ + ⋅ + ⋅
   
= = =
   
+ +
   
ed è leggermente inferiore al valore ottenuto con il metodo di Mantel-Haenszel.
L’elevata fluttuazione tra gli strati suggerisce che la variabile RACE può comportarsi come
confondente e/o come modificatrice d’effetto.
E’ importante sottolineare che questi stimatori forniscono un odds ratio globale attendibile solo se gli
odds ratio sono omogenei tra gli strati. Tale assunzione può essere verificata comparando le stime
strato specifiche con la stima globale calcolata appunto sotto l’ipotesi che l’odds ratio si mantenga
costante tra gli strati.
Il modo più semplice per verificare statisticamente l’omogeneità degli odds ratio è basato sulla
somma pesata delle deviazioni al quadrato dei log-odds ratio strato specifici rispetto alla stima
globale (ottenuta o con il metodo di Mantel-Haenszel o tramite la media pesata dei logit).
Il test statistico valuterà la seguente sommatoria:
( ) ( )
2
2
1 log log
i G
H
i
X w OR OR
 
 
= −
 
 
 
∑ (3.21)
che, sotto l’ipotesi nulla che gli odds ratio siano costanti tra gli strati, si distribuisce come una chi
quadro con gradi di libertà pari al numero dgli strati meno 1.
Rifiuteremo pertanto l’assunzione di omogeneità quando 2
H
X è sufficientemente elevato.
Con i dati di Tab. 3.20 si ottiene:
2 2
2
3.017 0.221
H fd
X p
χ
= → =
∼
Quindi, nonostante la apparente differenza tra glo odds ratio nei vari strati, il test indica che tale
fluttuazione è giustificabile dal campionamento.a
La stessa analisi può essere condotta in modo senz’altro più agevole fittando tre modelli logistici.
Tab. 3.20
Estimated Logistic Regression Coefficients for the Variable SMOKE, Log-Likelihood Ratio
Test Statistic (G), and Resulting p-Value for Estimation of the Stratified Odds Ratio and
Assessment of Homogeneity of Odds Ratios Across Strata Defined by RACE
Model SMOKE Log-Likelihood G df p
1 0.704 -114.90
2 1.116 -109.99 9.83 2 0.007
3 1751 -108.41 3.16 2 0.206
Nel modello 1 è stata inclusa solo la variabile SMOKE, nel modello 2 è stata aggiunta la variabile
RACE, infine nel modello 3 è stato inserito anche due termini di interazione SMOKExRACEb
.
L’odds ratio crudo (non aggiustato) risulta:
a
Si deve notare che questo test statistico fornisce risultati attendibili solo se la numerosità campionaria nei
vari strati non è eccessivamente ridotta. Nell’esempio qui proposta tale assunzione è verificata.
b
Dato che la variabile RACE è su tre livelli, deve essere codificata con due variabili dummy. I termini di
interazione sono SMOKExRACE2 e SMOKExRACE3
54
( )
exp 0.704 2.02
NA
OR = =
Aggiustando per la variabile RACE, l’odds ratio stimato è:
( )
exp 1.116 3.05
ARACE
OR = =
Questo valore è molto simile all’odds ratio calcolato con il metodo di Mantel-Haenszel (3.086) e con il
metodo basato sulla media pesata dei logit (2.95)
La notevole differenza tra l’odds ratio crudo (2.02) e l’odds ratio aggiustato (3.05) indica che la
variabile RACE ha un elevato effetto confondente.
La verifica della omogeneità degli odds ratio tra i vari strati si conduce tramite un likelihood ratio test
del modello 2 verso il modello 3 in cui si sono aggiunti i due termini di interazione.
Il valore di questa statistica è G = 3.156. Sotto l’ipotesi nulla tale statistica si distribuisce come una chi
quadro con due gradi di libertà (i due termini di interazione aggiunti nel modello 3 e determina un
p-value di 0.206. Si conclude pertanto che l’interazione non è statisticamente significativa
giustificando l’utilizzo dell’odds ratio globale (aggiustato per RACE).
Come si vede l’utilizzo del modello logistico fornisce un mezzo rapido ed efficiente per ottenere la
stima dell’odds ratio stratificato e per valutare l’assunzione di omogeneità tra gli strati.
3.9 Interpretazione dei valori fittati
In questo paragrafo introdurremo la presentazione dei valori fittati e i relativi intervalli di confidenza.
Inoltre esamineremo come può essere predetto un outcome per un soggetto che non rientra nel
campione in esame.
Come esempio consideriamo un modello comprendente LWT e RACE, applicato al data set relativo al
Low Birh Weight Study, i cui coefficienti stimati con gli standard error associati sono riportati in
Tab.3.21.
Tab. 3.21
Estimated Coefficient for a Multiple Logistic Regression Model Using the
Variables Weight at Last Menstrual Period (LWT) and from Low Birth
Weight Study
Variable Coeff. Std.Err. z P>|z|
LWT -0.015 0.0064 -2.36 0.018
RACE_2 1.081 0.4881 2.22 0.027
RACE_3 0.481 0.3567 1.35 0.178
Constant 0.806 0.8452 0.95 0.340
Log-Likelihood = -111.630
Ad una donna di razza White con un peso di 150 pound è associato un logit pari a:
( )
150, 0.806 0.015 150 1.081 0 0.481 0 1.444
g LWT RACE White
= = = − ⋅ + ⋅ + ⋅ = − (3.22)
e la probabilità logistica stimata risulta:
55
( )
( )
( )
exp 1.444
150, 0.191
1 exp 1.444
LWT RACE White
π
−
= = = =
+ −
(3.23)
L’interpretazione del valore fittato è la proporzione stimata di neonati a basso peso tra le donne di
razza White aventi un peso di 150 pounds.
Ora vogliamo tracciare un grafico che illustri gli effetti del peso della madre, di razza White, in
corrispondenza dell’ultimo periodo mestruale sul peso del neonato. Dovremo ottenere via software i
valori fittati per tutti i soggetti del data set (in questo caso di razza White)
La Fig.3.4 e la Fig. 3.5 mostrano gli andamenti delle stime rispettivamente dei logit e delle probabilità
associate con i relativi intervalli di confidenza.
Fig. 3.4
Graph of the estimated logit of low weight birth and 95 percent confidence intervals as a function of weight at
the last menstrual period for white women
-4
-3
-2
-1
0
Estimated
Logit
100 150 200 250
LWT
56
Fig. 3.5
Graph of the estimated probability of low weight birth and 95 percent confidence intervals as a function of
weight at the last menstrual period for white women
Utilizziamo ora il modello per stimare la probabilità di aver un neonato a basso peso per madri non
rappresentate nel campione di 189 soggetti. Supponiamo ad esempio di voler determinare tale
probabilità in una madre con un peso di 150 pounds e di razza Black.
Dalle (3.22) e (3.23) si ha:
( )
150, 0.806 0.015 150 1.081 1 0.481 0 0.363
g LWT RACE Black
= = = − ⋅ + ⋅ + ⋅ = −
( )
( )
( )
exp 0.363
150, 0.41
1 exp 0.363
LWT RACE Black
π
−
= = = =
+ −
Per ottenere gli intervalli di confidenza delle stime dobbiamo risolvere la (2.16) con la matrice di
covarianza riportata in Tab. 3.22 e un vettore dati x = [150,1,0,1].
0
.1
.2
.3
.4
.5
Estimated
Probability
100 150 200 250
LWT
57
Tab. 3.22
Estimated Covariance Matrix of the Estimated Coefficients in Tab. 3.21
LWT RACE_2 RACE_3 Constant
LWT 0.000041
RACE_2 -0.000647 0.2382
RACE_3 0.000036 0.0532 0.1272
Constant -0.005210 0.0226 -0.1035 0.7143
( ) ɵ
( )
var 150, var ' 0.1724
g LWT RACE Black x x
 
= = = ⋅ ⋅ =
 
β (3.24)
L’intervallo di confidenza, al 95%, del logit vale:
( )
95%
0.451
0.363 1.96 0.363 1.96 0.415
1.176
CI Logit se

= − ± ⋅ = − ± ⋅ = 
−

( )
95%
0.611
Probability
0.235
CI

= 

Come nel caso di ogni modello di regressione, dobbiamo prestare attenzione a non estendere le
nostre inferenze al di fuori del range dei dati. Il range di LWT relativo alle 26 madri di sesso Black è
98-241 pounds. Notiamo come un peso di 150 pounds si trovi all’interno del range dei dati.
58
Applicazione Capitolo 3
Tab. 3.3
. use "C:docbScuola2010logisticchapter1.dta"
. generate agec=0
. replace agec=1 if age >=55
(27 real changes made)
. tabulate chd agec
| agec
chd | 0 1 | Total
-----------+----------------------+----------
0 | 51 6 | 57
1 | 22 21 | 43
-----------+----------------------+----------
Total | 73 27 | 100
. logit chd agec
Iteration 0: log likelihood = -68.331491
Iteration 1: log likelihood = -59.020453
Iteration 2: log likelihood = -58.979594
Iteration 3: log likelihood = -58.979565
Logistic regression Number of obs = 100
LR chi2(1) = 18.70
Prob > chi2 = 0.0000
Log likelihood = -58.979565 Pseudo R2 = 0.1369
------------------------------------------------------------------------------
chd | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
agec | 2.093546 .5285335 3.96 0.000 1.057639 3.129453
_cons | -.8407832 .2550733 -3.30 0.001 -1.340718 -.3408487
------------------------------------------------------------------------------
Tab. 3.5
. clear
. input race chd cnt
race chd cnt
1 1 5
2 1 20
3 1 15
4 1 10
1 0 20
2 0 10
3 0 10
4 0 10
. end
. expand cnt
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico
Il modello Logistico

More Related Content

Similar to Il modello Logistico

Le distribuzioni di probabilità
Le distribuzioni di probabilitàLe distribuzioni di probabilità
Le distribuzioni di probabilitàVispo Srl
 
Applicazione su “RStudio” del modello di regressione lineare
Applicazione su “RStudio” del modello di regressione lineareApplicazione su “RStudio” del modello di regressione lineare
Applicazione su “RStudio” del modello di regressione lineareLoredana Liverani
 
Appunti di Elaborazione automatica dei dati: il simplesso
Appunti di Elaborazione automatica dei dati: il simplessoAppunti di Elaborazione automatica dei dati: il simplesso
Appunti di Elaborazione automatica dei dati: il simplessoprofman
 
Intervalli di confidenza - Lezione 8
Intervalli di confidenza - Lezione 8Intervalli di confidenza - Lezione 8
Intervalli di confidenza - Lezione 8Sergio Pinna
 
Appunti statistica descrittiva 2
Appunti statistica descrittiva 2Appunti statistica descrittiva 2
Appunti statistica descrittiva 2ESmargiassi
 
Stimatori per covarianza
Stimatori per covarianzaStimatori per covarianza
Stimatori per covarianzarosettina
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilitàVispo Srl
 
Minimax regret solution to linear programming problems with an interval obje...
Minimax regret solution to linear programming problems with  an interval obje...Minimax regret solution to linear programming problems with  an interval obje...
Minimax regret solution to linear programming problems with an interval obje...NicolasTortora
 
I fenomeni bivariati
I fenomeni bivariatiI fenomeni bivariati
I fenomeni bivariatiVispo Srl
 
Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control chartsLuca Vecchiato
 
Analisi statistica spaziale
Analisi statistica spazialeAnalisi statistica spaziale
Analisi statistica spazialeMirkoLezzi
 
Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statisticaVispo Srl
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarieVispo Srl
 
Algebra lineare
Algebra lineareAlgebra lineare
Algebra lineareVoglio 10
 

Similar to Il modello Logistico (20)

Le distribuzioni di probabilità
Le distribuzioni di probabilitàLe distribuzioni di probabilità
Le distribuzioni di probabilità
 
Statistica
StatisticaStatistica
Statistica
 
Applicazione su “RStudio” del modello di regressione lineare
Applicazione su “RStudio” del modello di regressione lineareApplicazione su “RStudio” del modello di regressione lineare
Applicazione su “RStudio” del modello di regressione lineare
 
Modello di regressione lineare semplice - consigli utili
Modello di regressione lineare semplice - consigli utiliModello di regressione lineare semplice - consigli utili
Modello di regressione lineare semplice - consigli utili
 
Appunti di Elaborazione automatica dei dati: il simplesso
Appunti di Elaborazione automatica dei dati: il simplessoAppunti di Elaborazione automatica dei dati: il simplesso
Appunti di Elaborazione automatica dei dati: il simplesso
 
Intervalli di confidenza - Lezione 8
Intervalli di confidenza - Lezione 8Intervalli di confidenza - Lezione 8
Intervalli di confidenza - Lezione 8
 
Appunti statistica descrittiva 2
Appunti statistica descrittiva 2Appunti statistica descrittiva 2
Appunti statistica descrittiva 2
 
Stimatori per covarianza
Stimatori per covarianzaStimatori per covarianza
Stimatori per covarianza
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilità
 
Minimax regret solution to linear programming problems with an interval obje...
Minimax regret solution to linear programming problems with  an interval obje...Minimax regret solution to linear programming problems with  an interval obje...
Minimax regret solution to linear programming problems with an interval obje...
 
I fenomeni bivariati
I fenomeni bivariatiI fenomeni bivariati
I fenomeni bivariati
 
5 Control Charts
5 Control Charts5 Control Charts
5 Control Charts
 
Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control charts
 
Analisi statistica spaziale
Analisi statistica spazialeAnalisi statistica spaziale
Analisi statistica spaziale
 
3 c-form andshape
3 c-form andshape3 c-form andshape
3 c-form andshape
 
Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statistica
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarie
 
8 Statistica
8 Statistica8 Statistica
8 Statistica
 
canale_turbolento
canale_turbolentocanale_turbolento
canale_turbolento
 
Algebra lineare
Algebra lineareAlgebra lineare
Algebra lineare
 

Recently uploaded

Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaSalvatore Cianciabella
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoyanmeng831
 
Confronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptConfronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptcarlottagalassi
 

Recently uploaded (7)

Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Confronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptConfronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.ppt
 

Il modello Logistico

  • 1. 1 Capitolo 1 Introduzione al modello di regressione logistica 1.1. Premessa Con la regressione lineare esaminiamo modelli del tipo: 0 1 1 2 2 ... n n Y x x x β β β β ε = + + + + + (1.1) La variabile risposta Y è continua e il nostro scopo è individuare una serie di variabili esplicative che ci aiutino a predirne il valore medio spiegando, in tal modo, la variabilità osservata dei risultati. In molte situazioni, però, siamo interessati ad una variabile di risposta Y dicotomicaa . Il risultato di Y può assumere pertanto solo due possibili valori; in generale, il valore 1 rappresenta un successo e il valore 0 un insuccesso. La media della variabile casuale dicotomica, indicata con π, è la proporzione di volte in cui la variabile assume il valore 1. In questo caso, vorremmo stimare la probabilità π e determinare i fattori o le variabili esplicative che ne influenzano il valore. A tal fine, utilizzeremo una tecnica nota come regressione logistica. Per introdurre la necessità di tale modello, consideriamo il data set Chd-Age di seguito descritto: Tab. 1.1 Code Sheet for the Chd-Age data Variable Name Values 1 Identification Code (ID) 1-100 2 AGE Years 3 Evidence of Coronary Heart Disease (CHD) 0 = No, 1=Yes Il nostro interesse consiste nel provare una relazione tra l’età (AGE) e la presenza/assenza di malattia coronarica (CHD) intesa come variabile dipendente (outcome). Per prima cosa tracciamo uno scatter-plot con CHD sull’asse delle ordinate e AGE sulle ascisse. In questo scatter-plot (Fig. 1.1) tutti i punti giacciono su due linee parallele rappresentanti rispettivamente l’assenza (CHD = 0) e la presenza (CHD = 1) di malattia coronarica. Come si può vedere c’è una certa tendenza, negli individui con CHD = 0, ad essere più giovani rispetto ai soggetti che hanno presenza di malattia coronarica (CHD = 1). Se da un lato questo scatter-plot ben evidenzia la natura dicotomica della variabile risposta, dall’altro non rende certamente chiaro l’eventuale condizionamento indotto dalla variabile AGE. Il problema è che la variabilità di CHD, ad ogni età, è molto accentuata. Un metodo abbastanza comune utilizzato per rimuovere almeno parte detta variabilità, consiste nel suddividere la variabile indipendente AGE in intervalli e, all’interno di questi, calcolare la media della variabile risposta, ossia la proporzione di soggetti con presenza di malattia coronarica. Questo secondo scatter-plot è raffigurato in Fig. 1.2. a In realtà il modello logistico, con alcuni aggiustamenti, si dimostra adeguato per studiare fenomeni in cui la variabile discreta di risposta (ordinale e non) sia classificata su più di due livelli.
  • 2. 2 Fig. 1.1 Tab. 1.2 Frequency Table of Age Group by CHD Group agrp count CHD prop absent present 1 20-29 10 9 1 0.10 2 30-34 15 13 2 0.13 3 35-39 12 9 3 0.25 4 40-44 15 10 5 0.33 5 45-49 13 7 6 0.46 6 50-54 8 3 5 0.63 7 55-59 17 4 13 0.76 8 60-69 10 2 8 0.80 Total 100 57 43 0.43 0 .2 .4 .6 .8 1 chd 20 30 40 50 60 70 age
  • 3. 3 Fig. 1.2 Dalla Fig. 1.2 la relazione tra presenza di malattia coronarica (prop) ed età (agrp) si fa più evidente: più è elevata l’anzianità nei gruppi, maggiore è la percentuale di soggetti affetti da malattia coronarica. 1.2. Necessità del modello logistico Può sorgere a questo punto spontanea una domanda: perché quando la variabile dipendente è di tipo dicotomico non possiamo utilizzare il modello di regressione lineare? Nel modello lineare la media dei valori di yi per ogni valore della X (attesa condizionata di Y) risulta determinata da: ( ) 0 1 | E Y x x β β = + (1.2) In questo caso E(Y|x) potenzialmente varia tra meno infinito e più infinito a secondo dei valori raggiunti da x. E' evidente che, nel caso di una variabile dicotomica, il modello non è adeguatoa . Possiamo tentare di superare questo intoppo adottando un modello parzialmente modificato: ( ) ( ) ( ) ( ) 0 1 | 1| exp x E Y x P Y x x π β β = = = = + (1.3) a Nel caso di una variabile dicotomica la media condizionata deve essere compresa tra zero e uno 0≤E(Yx)≤1 0 .2 .4 .6 .8 1 prop 1 2 3 4 5 6 7 8 agrp
  • 4. 4 Anche questo modello non è tuttavia adeguato: sebbene non può produrre una stima negativa di π può dar luogo a valori maggiori di 1. Per correggere questa incongruenza, adottiamo un modello che preveda una sorta di normalizzazione: ( ) ( ) ( ) ( ) ( ) 0 1 0 1 exp | 1| 1 exp x x E Y x P Y x x β β π β β + = = = = + + (1.4) Per semplificare ulteriormente la modellazione introduciamo l’ODDS, definito come segue: ( ) ( ) ( ) 0 1 exp 1 x odds x x π β β π = = + − (1.5) Passando ai logaritmi si ottiene infine un modello lineare: ( ) ( ) ( ) 0 1 log 1 x g x x x π β β π   = = +     −   (1.6) La funzione logit, g(x) è lineare nei suoi parametri, è continua, e ha un range da più infinito a meno infinito. Tuttavia nel modello di regressione lineare si assume anche che la distribuzione condizionale della variabile dipendente abbia media E(Y|x) e varianza costante. Nel caso di una variabile dicotomica, la varianza della distribuzione condizionale della variabile dipendente assume il valore π(x)[1-π(x)], ossia non è indipendente da x. Nel modello di regressione si può dimostrare che, una volta assunta la normalità della distribuzione degli errori, i parametri stimati con il metodo dei minimi quadrati sono anche stime di massima verosimiglianza. Nel caso del modello logistico, venendo meno la normalità della distribuzione degli errori, non potremo usare la stima dei minimi quadrati, ma dovremo stimare i parametri con il metodo più generale della massima verosimiglianza. 1.3. Stima di massima verosimiglianza Si estragga un campione da una popolazione avente funzione di densità di probabilità π(x;β) in cui β è un qualunque vettore dei parametri della popolazione che occorre stimare. La densità di probabilità congiunta dell'intero campionea si ottiene mediante moltiplicazione: ( ) ( ) ( ) ( ) ( ) 1 2 1 2 1 , ... ; ; ; ... ; ; n n n i i x x x x x x x π π π π π = = = ∏ β β β β β Facciamo ora riferimento ad una variabile dicotomica Y codificata 0/1. In questo caso l’espressione di π(x) data dalla (1.4) fornisce, per un arbitrario vettore β, la probabilità condizionale che Y sia uguale a 1 dato x. Ne consegue che la quantità 1-π(x) esprime la probabilità che Y sia uguale a zero dato x. a Si fa riferimento a un campione casuale (con reintroduzione o da popolazione infinita)
  • 5. 5 Quindi per ciascuna coppia (xi,yi), in cui yi =1, il contributo alla funzione di verosimiglianza è π(x), per quelle coppie in cui yi=0, il contributo alla funzione di verosimiglianza è dato da 1-π(x). Possiamo pertanto esprimere il contributo alla funzione di verosimiglianza per ogni coppia (xi,yi) attraverso la seguente espressione: ( ) ( ) ( ) 1 ; 1 yi yi i i i x x x ζ π π − =  −    β (1.7) Poiché si assume che le osservazioni siano indipendenti, la funzione di verosimiglianza l(β) è ottenuta come prodotto dei contributi singoli. ( ) ( ) ( ) ( ) 1 1 1 n yi yi i i i l x x π π − = = − ∏ β (1.8) Le stime di massima verosimiglianza dei parametri saranno quelle che massimizzano la funzione l(β). Massimizzare direttamente la (1.8) non è agevole, è molto più semplice operare sulla funzione log trasformata. Si introduce pertanto la funzione di log verosimiglianza e si fa riferimento alla massimizzazione di quest’ultima per stimare i parametri. ( ) ( ) ( ) ( ) ( ) { } 1 log log 1 log 1 n i i i i i L l y x y x π π = =   =   + −  −        ∑ β β (1.9) Per massimizzare la (1.9) dovremo annullarne le derivate parziali rispetto a β0 e β1 ottenendo le seguenti equazioni : ( ) ( ) 1 1 0 0 n i i i n i i i i y x x y x π π = =   −  =        −  =     ∑ ∑ (1.10) Si ottengono, in tal modo, delle equazioni che, a differenza del caso della regressione lineare, non saranno lineari nei parametri e necessiteranno perciò di una soluzione numerica di tipo iterativo. Il metodo della massima verosimiglianza fornisce le stime dei parametri della popolazione che con maggiore probabilità sono in grado di determinare i valori campionari osservati, esso fornisce, in un certo senso, i 'valori' dei parametri della popolazione che 'meglio si adattano' al campione osservato. Inoltre, sotto condizioni generali, la stima di massima verosimiglianza presenta le seguenti proprietà asintotichea : 1) efficienza, poiché ha varianza più piccola di ogni altro stimatore; 2) consistenza, cioè, non distorsione asintotica, con varianza tendente a zero; a Una proprietà asintotica è tale quando è verificata per grandi campioni. Nel caso di piccoli campioni perciò, non è detto che la stima di massima verosimiglianza sia la miglior stima possibile dei parametri dell'universo
  • 6. 6 3) distribuzione normale. Una interessante conseguenza della prime delle (1.10) è che: ( ) ˆ i i y x π = ∑ ∑ (1.11) Cioè, la somma dei valori osservati di y è uguale alla somma dei valori attesi (predicted). Ciò sarà estremamente utile quando si discuterà dell’adeguatezza del modello. Come esemplificazione utilizziamo ancora il data set Chd-Age e, utilizzando sw ad hoc, realizziamo un modello di regressione logistica con CHD come variabile dipendente e con AGE come covariata predittiva. Il modello ottenuto è presentato in Tab.1.3. Tab. 1.3 Results of Fitting the Logistic Regression Model to the Chd-Age data set CHD Coef. Std. Err. z P>z [95% Conf.Interval] AGE 0.110921 0.02406 4.61 0 0.063765 0.158078 _cons -5.30945 1.133655 -4.68 0 -7.53138 -3.08753 Log likelihood = -53.67656 Le stime di massima verosimiglianza di β0 e β1 sono: 0 1 ˆ ˆ 5.309 0.111 β β = − = I valori fittati sono dati dall’equazione: ( ) ( ) ( ) exp 5.309 0.111 ˆ 1 exp 5.309 0.111 AGE x AGE π − + ⋅ = + − + ⋅ (1.12) e la stima del logit, ( ) ĝ x , è dato dalla seguente equazione: ( ) ˆ 5.309 0.111 g x AGE = − + ⋅ (1.13) Il valore del Log likelihood fornito dalla Tab. 1.3, è ottenuto dalla (1.9) calcolata usando i valori di 0 ˆ β e 1 ˆ β . 1.4. Valutazione della SIGNIFICATIVITA' dei coefficienti 1.4.1.Metodo della massima verosimiglianza La valutazione della significatività dei coefficienti si conduce sfruttando le funzioni di massima verosimiglianza calcolate in corrispondenza del modello completo e di quello ridottoa . A titolo di esempio, si supponga di voler valutare se da un modello completo con 5 (p) covariate si a I due modelli devono essere 'nested' ossia annidati. Il modello ridotto deve, in altri termini, contenere un subset di covariate ottenuto dal modello completo. Il modello ridotto non potrà mai prevedere una covariata che non sia anche inserita nel modello completo
  • 7. 7 possano eliminare, perché poco predittive, 2 (g) covariate. L'ipotesi nulla diventa il questo caso: ( ) 1 : 0,0, ... o g p H β β + = β Si procede nel seguente modo: 1) si calcola la funzione di massima verosimiglianza in corrispondenza del modello completo l(β0); 2) si calcola la funzione di massima verosimiglianza in corrispondenza del modello ridotto l(βr); 3) si calcola la funzione G così definita: ( ) ( ) reduced model 2log completed model G   = −       ℓ ℓ (1.14) E' ragionevole pensare che se il rapporto dei massimi delle funzioni di verosimiglianza con i due modelli tende all'unità, e quindi la differenza fra i rispettivi logaritmi tende a zero, il contributo delle g variabili sotto analisi sia praticamente trascurabile. In effetti la funzione G si distribuisce, sotto H0, asintoticamente come una χ2 con g gradi di libertà (numero di covariate perse nel passaggio da modello satured a modello reduced).1 Il valore di G consente, confrontato con il valore limite corrispondente di χ2 , di rifiutare o non rifiutare l'ipotesi nulla H0. Applichiamo ora la (1.14) nel caso di un modello con una sola covariata. Tenute presente la (1.8) e la prima delle (1.10) si haa : ( ) ( ) ( )( ) 0 1 0 1 1 1 2 1 modello senza la variabile 2log 2log modello con la variabile ˆ ˆ 1 n n n yi yi i i i n n n n G π π − =                     = − = −         −       ∏ ℓ ℓ (1.15) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 0 0 1 ˆ ˆ 2 log 1 log 1 log log log n i i i i i G y y n n n n n n π π =   =  + − −  −  + −          ∑ (1.16) a Per il caso specifico di una singola variabile dipendente, è facile mostrare che, quando la variabile non è nel modello, la stima di massima verosimiglianza di β0 è ( ) 1 0 log n n dove 1 i n y = ∑ e ( ) 0 1 i n y = − ∑ . Dalla prima delle (1.10) si ha infatti: ( ) ( ) ( ) ( ) 0 0 0 0 exp 0 exp exp 1 exp i i i i y np y n y y n β β β β − = → = → + ⋅ = ⋅ + ∑ ∑ ∑ ∑ e passando ai logaritmi: ( ) ( )( ) ( ) ( ) 0 0 log exp log exp i i i i y n y y y β β = − → = ∑ ∑ ∑ ∑ ( ) 1 i i y y + − − ∑ ∑ ( ) ( ) 0 log 1 i i y y β → = − ∑ ∑
  • 8. 8 Particolare attenzione occorre osservare quando il modello prevede l'inserimento di una covariata categorizzata su più di due valori. In questa situazione è possibile che le procedure automatiche selezionino come significativo un solo livello categorico escludendo i rimanenti. Accettando questa soluzione si commetterebbe un grave errore perché si avallerebbe un modello non ipotizzabile in partenza. A scopo esemplificativo consideriamo ancora il modello logistico applicato al data set Chd-Age e il cui fitting è riportato in Tab. 1.3. Sulla base dell’output ottenuto valutiamo se la variabile AGE è predittiva di CHD. Dalla (1.14) otteniamo: ( ) ( ) ( ) ( ) 2 log reduced model log completed G   = − −   ℓ ℓ ( ) ( ) ( ) ( ) log completed 53.676546 29.31 log reduced 68.331491 G  = −  → =  = −   ℓ ℓ (1.17) Poiché i due modelli (nested) differiscono per una sola covariata, il valore di G dovrà essere confrontato con una distribuzione χ2 con un grado di libertà. 2 (0.05;1 ) 29.31 3.84 df G χ = > = L’ipotesi nulla (AGE non predittiva) è rifiutata, pertanto la variabile AGE è da ritenersi predittiva. Allo stesso risultato si perviene con l’uso della formula (1.16), ricordando che in questo caso n1 e n0 valgono rispettivamente 43 e 57. ( ) ( ) ( ) { } 2 53.667 43 log 43 57 log 57 100 log 100 29.31 G = − −  ⋅ + ⋅  − ⋅ =   (1.18) 1.4.2 Wald test Oltre che con il test del rapporto delle verosimoglianze (LikelihoodRatioTest), le significatività dei coefficienti del modello possono essere valutate tramite il cosiddetto Wald testa2 . Questo test è ottenuto rapportando la stima di massima verosimiglianza del parametro con il suo errore standard stimato: ( ) ˆ ˆ i i i W se β β = (1.19) Sotto l’ipotesi nulla che βi = 0, il rapporto espresso dalla (1.19) segue la distribuzione normale a Si ricordi che il Wald test alle volte può comportarsi in modo aberrante, fallendo spesso di rifiutare l’ipotesi nulla quando questa è vera. Le variabili categoriche devono sempre essere inserite o escluse in toto dal modello. Avvertenza
  • 9. 9 standard (z). Con riferimento al modello i cui fitting è riportato in Tab.1.3, il test di Wald, applicato al coefficiente di AGE, porta al seguente risultato: ( ) 6 .1109211 4.61 4.61 2 10 .0240598 W p z − = ≅ → > = ⋅ (1.20) Si noti che: 2 4.61 21.25 29.31 G = ≅ = 1.5 Intervalli di confidenza delle stime Intervalli di confidenza dei parametri Gli intervalli di confidenza dei parametri del modello si determinano sulla base dei loro corrispondenti Wald test. Con riferimento ad un modello con una sola covariata rappresentato dalla (1.6), gli intervalli di confidenza dei parametri (pendenza e intercetta), tenuta presente la (1.19), valgono rispettivamente: ( ) 1 1 2 1 ˆ ˆ z se α β β − ± ⋅ (1.21) ( ) 0 1 2 0 ˆ ˆ z se α β β − ± ⋅ (1.22) Come nel caso della regressione lineare il termine costante (β0) fornisce la stima della risposta in corrispondenza di un valore nullo della variabile indipendente . Sovente tale valore nullo ha una scarsa rilevanza clinica: avrebbe ad esempio senso valutare la stima della risposta in corrispondenza di AGE = 0? E’ questa la ragione per cui, spesso, le covariate vengono centrate rispetto al loro valore medio. Centrando la variabile AGE rispetto al suo valore medio si ottiene il modello riportato in Tab. 1.4. Tab. 1.4 Results of Fitting the Logistic Regression Model to the Chd-Age data set and Covariate Age Centered at the Mean (44.38 years) CHD Coef. Std. Err. z P>z [95% Conf.Interval] AGEC 0.110921 0.02406 4.61 0 0.063765 0.158078 _cons -0.38677 0.239719 -1.61 0.107 -0.85661 0.083067 Il logit in corrispondenza di un’età di 44.38 anni (AGEC = 0) vale: ( ) ˆ 44.38 0.38677 g x = = − a cui corrisponde una probabilità di evento coronarico pari a: ( ) ( ) ( ) exp 0.38677 44.38 0.4045 1 exp 0.38677 x π − = = = + −
  • 10. 10 Intervallo di confidenza del logit Noti gli Standar Error (se) dei parametri, l’intervallo di confidenza del logit, in corrispondenza di un generico valore di x risulta pari a: ( ) ( ) 1 2 ˆ ˆ g x z se g x α − ± ⋅     (1.23) Dove ( ) ˆ se g x     è la radice quadrata positiva della varianza stimata del logit che si ricava dalla (1.24). ( ) ( ) ( ) ( ) ( ) 2 0 1 0 1 0 1 ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ var var var 2 cov , g x x g x x x β β β β β β = + →   = + + ⋅   (1.24) Con riferimento al modello riportato in Tab. 1.3, stimiamo ora il logit e il relativo intervallo di confidenza in corrispondenza di AGE = 50. ( ) ˆ 50 5.31 0.111 50 0.240 g x = = − + ⋅ = Per calcolare l’intervallo di confidenza del logit si deve valutarne la varianza, e per far ciò utilizzeremo la (1.24) una volta nota la matrice di covarianza delle stime dei coefficienti. Matrice che viene di seguito riportata: Tab. 1.5 Estimated Covariance Matrix of the Estimated Coefficient in Tab. 1.3 AGE Constant AGE 0.000579 Constant -0.026677 1.28517 La varianza stimata risulta: ( ) ( ) 2 ˆ var 50 1.28517 50 0.000579 2 50 0.026677 0.0650 g x  =  = + ⋅ + ⋅ ⋅ − =   A cui corrisponde uno standard error pari a: ( ) ˆ 50 0.2549 se g x  =  =   I limiti dell’intervallo di confidenza, al 95%, valgono pertanto: { } 95% 0.240 1.96 0.2550 0.260;0.740 CI = ± ⋅ = −
  • 11. 11 Intervalli di confidenza dei valori fittati Gli intervalli di confidenza dei valori fittati si ricavano, tenuta presente la (1.4), direttamente dalla (1.23): ( ) ( ) ( ) ( ) ( ) ( ) { } 1 2 1 2 ˆ ˆ exp exp 0.240 1.96 0.2550 0.435; 0.677 1 exp 0.240 1.96 0.2550 ˆ ˆ 1 exp g x z se g x g x z se g x α α − −   ± ⋅   ± ⋅     = → + ± ⋅   + ± ⋅       (1.25) Gli intervalli di confidenza espressi dalla (1.25) non si riferiscono alla osservazione individuale, bensì rappresentano gli intervalli di confidenza delle medie dei valori predetti in corrispondenza di un generico valore della variabile indipendente x. Ricordiamo infine che molti software permettono facilmente di calcolare i valori predetti della probabilità e del logit, con i rispettivi intervalli di confidenza, in corrispondenza di un generico valore assunto dalle covariate . Tali intervalli sono riportati rispettivamente in Fig. 1.3 e in Fig. 1.4. Fig. 1.3 0 .2 .4 .6 .8 1 Probability 20 30 40 50 60 70 age Avvertenza
  • 13. 13 Appplicazione Capitolo 1 Fig.1.1 . gen agrp=age . recode agrp 20/29=1 30/34=2 35/39=3 40/44=4 45/49=5 50/54=6 55/59=7 60/69=8 (agrp: 100 changes made) . list id age agrp chd +------------------------+ | id age agrp chd | |------------------------| 1. | 1 20 1 0 | 2. | 2 23 1 0 | 3. | 3 24 1 0 | 4. | 5 25 1 1 | 5. | 4 25 1 0 | -------------------------------- -------------------------------- 96. | 96 63 8 1 | 97. | 98 64 8 1 | 98. | 97 64 8 0 | 99. | 99 65 8 1 | 100. | 100 69 8 1 | +------------------------+ . graph twoway scatter chd age, xlabel(20(10)70) ylabel(0(.2)1) Tab. 1.2 . sort agrp . collapse (count) tot=chd (sum) present=chd, by(agrp) . gen prop = present / tot . gen absent = tot - present . gen count = present + absent . list agrp count absent present prop +--------------------------------------------+ | agrp count absent present prop | |--------------------------------------------| 1. | 1 10 9 1 .1 | 2. | 2 15 13 2 .1333333 | 3. | 3 12 9 3 .25 | 4. | 4 15 10 5 .3333333 | 5. | 5 13 7 6 .4615385 | |--------------------------------------------| 6. | 6 8 3 5 .625 | 7. | 7 17 4 13 .7647059 | 8. | 8 10 2 8 .8 | +--------------------------------------------+ Fig. 1.2 . graph twoway scatter prop agrp, ylabel(0(.2)1) xlabel(1(1)8)
  • 14. 14 Tab. 1.3 . use "C:docbScuola2010logisticchapter1.dta", clear . logistic chd age, coef Logistic regression Number of obs = 100 LR chi2(1) = 29.31 Prob > chi2 = 0.0000 Log likelihood = -53.676546 Pseudo R2 = 0.2145 ------------------------------------------------------------------------------ chd | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- age | .1109211 .0240598 4.61 0.000 .0637647 .1580776 _cons | -5.309453 1.133655 -4.68 0.000 -7.531376 -3.087531 ------------------------------------------------------------------------------ . logit chd age Iteration 0: log likelihood = -68.331491 Iteration 1: log likelihood = -54.170558 Iteration 2: log likelihood = -53.681645 Iteration 3: log likelihood = -53.676547 Iteration 4: log likelihood = -53.676546 Logistic regression Number of obs = 100 LR chi2(1) = 29.31 Prob > chi2 = 0.0000 Log likelihood = -53.676546 Pseudo R2 = 0.2145 ------------------------------------------------------------------------------ chd | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- age | .1109211 .0240598 4.61 0.000 .0637647 .1580776 _cons | -5.309453 1.133655 -4.68 0.000 -7.531376 -3.087531 ------------------------------------------------------------------------------ Formula (1.17) . logit chd age Iteration 0: log likelihood = -68.331491 Iteration 1: log likelihood = -54.170558 Iteration 2: log likelihood = -53.681645 Iteration 3: log likelihood = -53.676547 Iteration 4: log likelihood = -53.676546 Logistic regression Number of obs = 100 LR chi2(1) = 29.31 Prob > chi2 = 0.0000 Log likelihood = -53.676546 Pseudo R2 = 0.2145 ------------------------------------------------------------------------------ chd | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- age | .1109211 .0240598 4.61 0.000 .0637647 .1580776 _cons | -5.309453 1.133655 -4.68 0.000 -7.531376 -3.087531 ------------------------------------------------------------------------------ Oppure con il comando lrtest . quietly logistic chd age. . lrtest, saving(0) . quietly logistic chd . lrtest
  • 15. 15 Formula (1.18) . tabulate chd chd | Freq. Percent Cum. ------------+----------------------------------- 0 | 57 57.00 57.00 1 | 43 43.00 100.00 ------------+----------------------------------- Total | 100 100.00 Formula (1.20) ( ) 6 .1109211 4.61 4.61 2 10 .0240598 W p z − = ≅ → > = ⋅ Si noti che: 2 4.61 21.25 29.31 G = ≅ = Il Wald test, analogamente all’LRT, può essere eseguito direttamente da STATA. . quietly logit chd age . testparm age ( 1) age = 0 chi2( 1) = 21.25 Prob > chi2 = 0.0000 Tab. 1.5 . quietly: logit chd age . matrix vc=e(V) . matri list vc symmetric vc[2,2] age _cons age .00057888 _cons -.02667702 1.2851728 Oppure sfruttando il comando estat . estat vce Covariance matrix of coefficients of logit model e(V) | age _cons -------------+------------------------ age | .00057888 _cons | -.02667702 1.2851728
  • 16. 16 Formula (1.25) Listato program ci_log ******************************************* * CALCOLO DEGLI INTERVALLI DI CONFIDENZA * ******************************************* quietly logistic chd age matrix b=e(b) matrix vc=e(V) di as text "Variance-Covariance Matrix " matrix list vc local b1=b[1,1] local b0=b[1,2] local vb1=vc[1,1] local vb0=vc[2,2] local covbb=vc[2,1] local varg50=`vb0'+50^2*`vb1'+2*50*`covbb' local se50=sqrt(`varg50') ***************************************** * INTERVALLI CONFIDENZA PARAMETRI * ***************************************** local L1b1=`b1'+1.96*sqrt(`vb1') local L0b1=`b1'-1.96*sqrt(`vb1') local L1b0=`b0'+1.96*sqrt(`vb0') local L0b0=`b0'-1.96*sqrt(`vb0') di as text " " di as txt " Parameters Confidence Intervals" /// as text _newline _dup(60) "-" /// as txt _newline _col(6) "intercept = " as result `b0' as txt _col(30)"C.I." as result `L0b0' as text _col(45) " ; " as result `L1b0' /// as txt _newline _dup(60) "-" /// as txt _newline _col(6)"slope = " as result `b1' as txt _col(30)"C.I." as result `L0b1' as text _col(45)" ; "as result `L1b1' /// as txt _newline _dup(60) "-" local g50=`b0'+50*`b1' local p50=exp(`g50')/(1+exp(`g50')) local L1p50=exp(`g50'+1.96*`se50')/(1+exp(`g50'+1.96*`se50')) local L0p50=exp(`g50'-1.96*`se50')/(1+exp(`g50'-1.96*`se50')) di as txt " " di as txt " Fitted values Confidence Intervals" /// as text _newline _dup(60) "-" /// as txt _newline _col(3) "Fitted value = " as result `p50' as txt _col(30)"C.I." as result `L0p50' as text _col(45) " ; " as result `L1p50' /// as txt _newline _dup(60) "-" // end
  • 17. 17 Output Variance-Covariance Matrix symmetric vc[2,2] age _cons age .00057888 _cons -.02667702 1.2851728 Parameters Confidence Intervals ------------------------------------------------------------ intercept = -5.3094534 C.I.-7.5314164 ; -3.0874903 ------------------------------------------------------------ slope = .11092114 C.I..06376386 ; .15807842 ------------------------------------------------------------ Fitted values Confidence Intervals ------------------------------------------------------------ Fitted value = .55887652 C.I..43492323 ; .67590143 ------------------------------------------------------------ Fig. 1.3 e Fig. 1.4 Calcoliamo i valori predetti della probabilità e del logit, con i rispettivi intervalli di confidenza, sfruttando la funzione predict. File.do logistic chd age drop probability logit se lsp lip lsl lil predict probability, pr predict logit, xb predict se, stdp generate lsp=exp(logit+1.96*se)/(1+exp(logit+1.96*se)) generate lip=exp(logit-1.96*se)/(1+exp(logit-1.96*se)) generate lsl=logit+1.96*se generate lil=logit-1.96*se twoway (connected probability age) (line lsp age) (line lip age) twoway (connected logit age) (line lsl age) (line lil age)
  • 18. 18
  • 19. 19 Capitolo 2 Regressione Logistica Multipla 2.1. Introduzione Nel precedente capitolo ci siamo interessati al modello logistico nel contesto univariato. Nel seguito estenderemo le nostre considerazioni al modello logistico multivariato ossia al modello che prevede più variabili esplicative, siano esse numeriche o categoriche. 2.2. Il Modello Logistico Multiplo Sia x un vettore costituito dalle p variabili indipendenti, la probabilità condizionata del “successo”, con la notazione consueta, è definita da: ( ) ( ) 1| P Y π = = x x (2.1) Il logit associato al modello multivariato è: ( ) 0 1 1 2 2 ... p p g x x x β β β β = + + + + x (2.2) Pertanto la probabilità condizionata è modellata come segue: ( ) ( ) ( ) exp 1 exp g g π     = +     x x x (2.3) Come accennato in precedenza, le variabili indipendenti (variabili esplicative) possono essere anche di tipo categorico. In tal caso gli eventuali valori numerici utilizzati per definire i vari livelli sono solamente degli identificatori e, come tali, non hanno un significato numerico e non possono essere inseriti direttamente nel modello. Pertanto le variabili categoriche (categorizzate su più di due livelli) devono essere associate a delle variabili fittizie (dummy variables), codificate su due livelli, che nel loro insieme definiranno le categorie oggetto di codifica. Supponiamo che una variabile esplicativa sia la variabile razza codificata 1-bianca, 2-nera, 3-altra (tre categorie). Alla variabile razza associamo ora due variabili dummy D1 e D2 codificate 0-1. In questo modo, con due variabili dummy codificate 0-1, identificheremo completamente le categorie appartenenti alla variabile razza.
  • 20. 20 Tab. 2.1 Dummy variables associate alla variabile Race Dummy variables Race D1 D2 Bianca 0 0 Nera 1 0 Altra 0 1 In generale, se una variabile categorica comprende j livelli, ad essa dovranno essere associate j-1 variabili dummy. Nell’ipotesi che la k-esima variabile sia categorica e codificata su j livelli, il logit associato al modello si esprime come: ( ) 1 0 1 1 1 ... j kl kl p p l g x D x β β β β − = = + + + + ∑ x (2.4) 2.3. Stima del Modello Logistico multiplo 2.3.1 Stima dei coefficienti Assumiamo di avere un campione di n osservazioni indipendenti (xi,yi). Come nel caso univariato, la definizione del modello richiede di stimare le componenti del vettore ( ) 0 1 ' , ,... p β β β = β . Tale stima sarà condotta con il consueto metodo della massima verosimiglianza. La funzione di verosimiglianza è quasi identica a quella definita dalla (1.8). Tuttavia occorre tenere presente che, nel modello logistico multiplo, la probabilità condizionata π(x) è ora espressa dalla (2.3) Ci troveremo pertanto, in generale, di fronte a p+1 equazioni di verosimiglianza ottenute differenziando le funzioni di log-verosimiglianza rispetto ai p+1 coefficienti. Le funzioni di verosimiglianza possono essere espresse come segue: ( ) ( ) 1 1 0 0 1,2,... n i i i n ij i i i y x y j p π π = =   − =     − = =   ∑ ∑ x x (2.5) Poniamo che β̂ sia il vettore delle soluzioni delle (2.5). I valori predetti dal modello ( ) ˆ i π x si ottengono dalla (2.3) utilizzando β̂e i x . 2.3.2. Stima delle varianze/covarianze dei coefficienti Le varianze e le covarianze dei coefficienti si ottengono dalla matrice delle derivate parziali seconde della funzione di log-verosimiglianza.
  • 21. 21 ( ) ( ) ( ) ( ) 2 2 2 1 2 1 1 1 , 0,1,2,..., n ij i i i j n ij il i i j l i L x L x x j l p π π β π π β β = = ∂ = − − ∂ ∂ = − − = ∂ ∂ ∑ ∑ β β (2.6) Nel seguito la matrice delle derivate parziali seconde definita dalla (2.6) e costituita da p+1 righe e p+1 colonne, sarà indicata con ( ) I β e chiamata matrice di informazione osservata.a Le varianze e covarianze dei coefficienti si ottengono semplicemente per inversione della matrice di informazione: ( ) ( ) 1 Var − = β I β (2.7) Gli stimatori della varianze e delle covarianze, che denoteremo con ( ) ˆ Var β , si ottengono valutando la (2.7) in corrispondenza di β̂. Le stime degli errori standard dei coefficienti stimati sono espresse da: ( ) ( ) 1/ 2 ˆ ˆ j j se Var β β   =   (2.8) a Sia ( ) L β una generica funzione di verosimiglianza, la matrice ( ) I β , con elementi ij I , si definisce matrice di informazione osservata: ( ) 2 ˆ ij i j L I β β = ∂ = − ∂ ∂ β β β Si definisce invece matrice di informazione attesa o informazione di Fisher, la matrice ( ) ˆ I β con elemento generico ij I pari a: ( ) 2 ˆ ij i j L I E β β =   ∂ = −     ∂ ∂   β β β L’informazione osservata esprime la misura del grado di concavità della curva di verosimiglianza in corrispondenza del suo massimo. L’informazione risulta quindi essere una misura della precisione della stima: la stima di max verosimiglianza sarà tanto più accurata quanto più accentuata sarà la curvatura corrispondente. Una diversa valutazione del grado di concavità si può ottenere calcolando la curvatura media (attesa) nel punto di stima. Tale valutazione corrisponde alla informazione attesa o informazione di Fisher che misurerà pertanto la precisione “media” che si preveda abbia la stima del parametro se l’esperimento venisse ripetuto , sotto le stesse condizioni, per una serie di repliche (a differenza dell’informazione osservata che viene definita sul singolo risultato sperimentale). A volte può essere più significativa una misura di imprecisione della stima; si definisce pertanto come matrice varianza osservata o attesa l’inversa rispettivamente della matrice di informazione osservata attesa. ( ) ( ) ( ) ( ) ( ) ( ) 1 1 var var = O E I I − − = β β β β Passando alle rispettive stime si ha: ( ) ( ) ( ) ( ) ( ) ( ) 1 1 ˆ ˆ ˆ ˆ ˆ var var = O E I I − − = β β β β
  • 22. 22 La stima della matrice di informazione, relativa ai coefficienti stimati, vale: ( ) ( ) ( ) ( ) 11 12 1 1 1 21 22 2 2 2 1 2 ˆ ˆ 1 . ˆ ˆ 1 0 . 0 1 . ˆ ˆ 0 1 . 0 . . . . . . . . . 1 . ˆ ˆ 0 0 . 1 p p n n np n n I x x x x x x x x x π π π π π π     −     −     = =         −         β = X'VX X V (2.9) Di seguito riportiamo gli standard error e le stime dei coefficienti di un modello logistico multiplo: Tab. 2.2 Estimated Coefficients for a Multiple Logistic Regression Model Using the Variables AGE, Weight at Last Menstrual Period (LWT), RACE, and Number of First Trimester Physician Visits (FTV) from the Low Birth Weight Study Variable Coef. Std. Err. z P>z [95% Conf.Interval] AGE -0.02382 0.03373 -0.71 0.48 -0.0899317 0.0422857 LWT -0.01424 0.006541 -2.18 0.029 -0.0270641 -0.0014251 _IRACE_2 1.003898 0.497858 2.02 0.044 0.0281143 1.979681 _IRACE_3 0.433108 0.36224 1.2 0.232 -0.2768684 1.143085 FTV -0.04931 0.167239 -0.29 0.768 -0.3770899 0.2784733 _cons 1.295366 1.071439 1.21 0.227 -0.8046157 3.395347 Log lilkelihood = -111.286 Tab. 2.3 Codifica dummy variable race _Irace_2 _Irace_3 1 0 0 2 1 0 3 0 1 La stima del logit è pari a: ( ) ˆ 1.295 0.024 0.014 1.004 _ _ 2 0.433 _ _3 0.049 g age lwt Irace Irace ftv = − ⋅ − ⋅ + ⋅ + ⋅ − ⋅ x
  • 23. 23 2.4. Valutazione della significatività del modello Una volta ottenute le stime dei coefficienti del modello, dobbiamo procedere alla valutazione della sua significatività. In questa fase dobbiamo testare se abbiamo elementi per confutare l’ipotesi nulla che tutti i parametri (esclusa l’intercetta) siano contemporaneamente nulli. 2.4.1. LRT test (Likelihood ratio test) Il LRT si basa sulla statistica G definita dalla (1.14). Il modello completo comprenderà tutti i parametri, il modello ridotto solo l’intercetta. Sotto l’ipotesi nulla che tutti i parametri, esclusa l’intercetta, siano contemporaneamente nulli, la statistica G si distribuisce secondo una chi-quadro con p gradi di libertà.a Con riferimento al modello a cui alla Tab.2.2, la statistica G assume il seguente valore: ( ) ( ) ( ) ( ) 2 2 117.336 111.286 12.099 Intercetta COMPLETO G L Model L Model = −  −  = −  − − −  =     In questo caso l’ipotesi nulla viene rifiutata: almeno uno dei coefficienti, intercetta esclusa, è diverso da zero. Infatti: 2 5 12.099 0.034 0.05 gl P χ   > = <   2.4.2 Wald Test Univariato Il Wald test effettua un test univariato per valutare l’ipotesi nulla che un singolo coefficiente sia nullo. Il risultato del test viene generalmente tabulato da ogni software. Il test valuta la statistica W calcolata per ogni singolo coefficiente: ( ) ˆ ˆ / j j j W se β β = (2.10) Sotto l’ipotesi nulla che il coefficiente j-esimo sia nullo, la statistica W segue una distribuzione normale standard. La Tab 2.2 nella quarta colonna riporta i valori della statistica W per ogni singolo coefficiente. Sempre con riferimento alla Tab.2.2, vediamo che la variabile lwt e forseb la variabile race sono significative, mentre le variabili age e ftv non risultano significative. 2.4.3. Wald Test Multivariato Il Wald test multivariato si ottiene valutando la statistica W definita dalla seguente espressione matriciale: a Il vettore β è costituito da p+1 elementi: p “slopes” e 1 “constant” b La variabile RACE è categorica (su tre livelli). E’ stata inserita nel modello tramite due variabili dummy: _IRACE_2 e _IRACE_3. Di queste due variabili una risulta significativa (_IRACE_2),mentre l’altra (_IRACE_3) no. Come già detto in precedenza, tuttavia, le dummy associate ad una variabile categorica possono venire inserite o escluse dal modello IN TOTO. Sulla base del solo Wald test non potremo, in questo caso, trarre una conclusione definitiva. Un modo semplice per decidere se un set di variabili dummy sia da inserire o escludere dal modello è quello di impostare un LRT.
  • 24. 24 ( ) ( ) 1 ˆ ˆ ˆ ˆ ˆ ' ' W Var −   = =   β β β β X'VX β (2.11) La statistica W, sotto l’ipotesi nulla che tutti i coefficienti siano nulli, è distribuita come una chi-quadro con p+1 gradi di libertà . Per testare se tutte le “slope” sono nulle si deve eliminare 0 ˆ β dal vettore β̂e le corrispondenti riga (prima o ultima) e colonna (prima o ultima) della matrice X . Si ottiene così una statistica W che è distribuita come una chi-quadro con p gradi di libertà. L’approccio mediante il Wald test multiplo non offre vantaggio rispetto all’uso di LRT. Il Wald test multivariato consente tuttavia di testare un set qualsiasi di ipotesi lineari sui parametri. Sia ' ⋅ = R b r il set di q ipotesi lineari da testare congiuntamente, la statistica di Wald vale: ( ) ( ) ( ) 1 ' ' ' ' W − = ⋅ − ⋅ − R b r RVR R b r (2.12) 2 q W χ ∼ Come esemplificazione, testiamo l’ipotesi che siano contemporaneamente nulli tutti i coefficienti del modello riportato in Tab. 2.2. I vari passaggi sono riporati nella parte applicativa nel paragrafo Applicazione formule (2.11) e(2.12). 2.4.4. Ottimizzazione del Modello Il nostro scopo è ovviamente quello di ottenere un modello che spieghi convenientemente un fenomeno con l’utilizzo del minor numero possibile di parametri. Con riferimento al modello di cui alla Tab.2.2, tramite il Wald Test, abbiamo visto che le variabili age e ftv non risultano significative. Possiamo pertanto ora valutare se effettivamente un modello che escluda tali parametri sia informativo, dal punto di vista statistico, quanto il modello completoa . Il fitting di tale modello ridotto è riportato in Tab. 2.4. Tab. 2.4 Estimated Coefficients for a Multiple Logistic Regression Model Using the Variables LWT and RACE from the Low Birth Weight Study Variable Coef. Std. Err. z P>z [95% Conf.Interval] LWT -0.01522 0.006439 -2.36 0.018 -0.02784 -0.0026 _IRACE_2 1.081066 0.488051 2.22 0.027 0.124503 2.037629 _IRACE_3 0.480603 0.356673 1.35 0.178 -0.21846 1.17967 _cons 0.805754 0.845163 0.95 0.34 -0.85073 2.462241 Log likelihood = -111.62955 a La decisione circa l’inserimento o meno di una variabile nel modello deve essere assunta non solo su basi statistiche ma anche, se non soprattutto, su base clinica.
  • 25. 25 Allo scopo testeremo, tramite il likelihood ratio test, l’ipotesi nulla che il modello completo e il modello ridotto, prima definito, siano “equivalenti”.a ( ) ( ) ( ) ( ) senza age ftv 2 2 111.630 111.286 0.688 Completo G L Model L Model   = − − = −  − −  =     In questo caso l’ipotesi nulla non viene rifiutata, pertanto non abbiamo elementi per ritenere che il modello ridotto sia meno informativo del modello completo. Infatti: 2 2 0.688 0.709 0.05 gl P χ   > = >   Non c’è alcun vantaggio nell’inserimento delle covariate AGE e FTV nel modello finale. Particolare attenzione va posta nell’eventuale esclusione di una variabile categorica. Dalla Tab. 2.4 vediamo che il Wald test dà come significativo solamente il coefficiente relativo alla dummy _IRACE_2, mentre risulta non significativo il coefficiente relativo alla dummy _IRACE_3. Come già spiegato in precedenza, a meno di ricategorizzare la variabile sottostante, le dummy devono essere inserite o escluse dal modello solamente in toto. La variabile categorica RACE potrà essere esclusa o inserita solamente sulla base di un LR test comparando il modello di Tab. 2.4 con quello presentato in Tab. 2.5. Tab. 2.5 Estimated Coefficients for a Multiple Logistic Regression Model Using the Variable LWT from the Low Birth Weight Study Variable Coef. Std. Err. z P>z [95% Conf.Interval] LWT -0.01406 0.00617 -2.28 0.023 -0.02615 -0.00197 _cons 0.998314 0.785289 1.27 0.204 -0.54082 2.537452 Log likelihood = -114.345 ( ) ( ) 2 2 2 114.345 111.630 5.43 5.43 0.066 gl G P χ   = − − −  = → > =     Poiché i due modelli non sono significativamente diversi la variabile RACE potrebbe, su questa base, essere esclusa. 2.5. Intervalli di Confidenza delle Stime 2.5.1. Intervalli di Confidenza dei coefficienti La determinazione degli intervalli di confidenza delle stime dei coefficienti del modello logistico multivariato è sostanzialmente identica a quando visto a proposito del modello logisto univariato. Con riferimento alla Tab. 2.2 l’intervallo di confidenza del coefficiente associato alla variabile age vale ad esempio: a Avremmo potuto utilizzare anche il Wald test nella versione multivariata.
  • 26. 26 ( ) ˆ 1.96 0.02832 1.96 0.03373 0.0899317; 0.0422857 se β ± ⋅ → − ± ⋅ = − 2.5.2. Intervallo di Confidenza del Logit L’espressione per lo stimatore del Logit associato ad un modello multivariato contenente p covariate è: ( ) 0 1 1 2 2 ˆ ˆ ˆ ˆ ˆ ˆ ... p p g x x x β β β β = + + + + = x x'β (2.13) dove: ( ) ( ) ( ) 0 1 2 0 1 2 1 2 ˆ ˆ ˆ ˆ , , ... , , ,..., 1, , ,..., p p p x x x x x x x β β β β = = = β' x' Dalla (2.13) si ottiene: ( ) ( ) ( ) 2 0 0 1 ˆ 2 ov , p p p j j j k j k j j k j Var g x Var x x C β β β = = = +   = +   ∑ ∑ ∑ x (2.14) Dalle (2.7) e (2.9) si ottiene facilmente l’espressione della varianza in forma matriciale: ( ) ( ) 1 ˆ Var − = β X'VX (2.15) Da cui: ( ) ( ) ( ) 1 ˆ ˆ Var g Var −   = =   x x' β x x' X'VX x (2.16) Fortunatamente tutti i software statistici offrono la possibilità di creare facilmente nuove variabili contenenti i valori stimati dalla (2.16) per tutti i soggetti appartenenti al data set evitando, all’operatore, calcoli matriciali laboriosi. A scopo puramente didattico riportiamo comunque i calcoli che, in assenza di software specifici, si dovrebbero effettuare . Con riferimento al modello presentato in Tab. 2.4, determiniamo il logit relativo ad una donna di razza bianca (RACE = White) e con peso, al tempo dell’ultima mestruazione, pari a 150 pound (LWT = 150) ( ) ˆ 150, 0.806 0.015 150 1.081 0 0.481 0 1.444 g LWT RACE White = = = − ⋅ + ⋅ + ⋅ = − (2.17) La probabilità logistica stimata vale: ( ) ( ) ( ) exp 1.444 ˆ 150, 0.191 1 exp 1.444 LWT RACE White π − = = = = + − La proporzione stimata di nascite a basso peso, tra le donne bianche con peso, all’ultima mestruazione, di 150 pound vale 0.191. Per determinare la varianza stimata del logit, in accordo con la (2.14) è necessario utilizzare la matrice di covarianza riportata in Tab. 2.6 Tab. 2.6
  • 27. 27 Estimated Covariance Matrix of the Estimated Coefficients in Tab. 2.4 LWT _IRACE_2 _IRACE_3 _cons LWT 4.15E-05 _IRACE_2 -0.00065 0.238194 _IRACE_3 0.000356 0.0532 0.127216 _cons -0.00521 0.022602 -0.1035 0.7143 La varianza stimata del logit risulta: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 0 1 2 3 0 1 0 2 0 3 1 2 1 3 2 3 ˆ ˆ ˆ ˆ ˆ 150, 150 0 0 ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ 2 150 , 2 0 , 2 0 , 2 150 0 , ˆ ˆ ˆ ˆ 2 150 0 , 2 0 0 , 0.0768 Var g LWT RACE White Var Var Var Var Cov Cov Cov Cov Cov Cov β β β β β β β β β β β β β β β β  = =  = + + +   + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ ⋅ + ⋅ ⋅ ⋅ + ⋅ ⋅ ⋅ = (2.18) E il corrispondente standard error vale: ( ) ˆ 150, 0.0768 0.2771 se g LWT RACE White  = =  = =   L’intervallo di confidenza, al 95%, della stima del logit vale quindi: { } 95% 1.444 1.96 0.2771 1.988; 0.901 CI = − ± ⋅ = − − E l’intervallo di confidenza, al 95%, del valore fittato vale: ( ) ( ) ( ) ( ) { } exp 1.988 exp 0.901 ; 0.120; 0.289 1 exp 1.988 1 exp 0.901   − −   =   + − + −    
  • 28. 28 Applicazione Capitolo 2 Tab. 2.2 . use "E:logisticchapter2.dta", clear . xi:logit low age lwt i.race ftv i.race _Irace_1-3 (naturally coded; _Irace_1 omitted) Iteration 0: log likelihood = -117.336 Iteration 1: log likelihood = -111.41656 Iteration 2: log likelihood = -111.28677 Iteration 3: log likelihood = -111.28645 Logistic regression Number of obs = 189 LR chi2(5) = 12.10 Prob > chi2 = 0.0335 Log likelihood = -111.28645 Pseudo R2 = 0.0516 ------------------------------------------------------------------------------ low | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- age | -.023823 .0337295 -0.71 0.480 -.0899317 .0422857 lwt | -.0142446 .0065407 -2.18 0.029 -.0270641 -.0014251 _Irace_2 | 1.003898 .4978579 2.02 0.044 .0281143 1.979681 _Irace_3 | .4331084 .3622397 1.20 0.232 -.2768684 1.143085 ftv | -.0493083 .1672386 -0.29 0.768 -.3770899 .2784733 _cons | 1.295366 1.071439 1.21 0.227 -.8046157 3.395347 ------------------------------------------------------------------------------ Tab. 2.4 . use "E:logisticchapter2.dta", clear . xi:logit low lwt i.race i.race _Irace_1-3 (naturally coded; _Irace_1 omitted) Iteration 0: log likelihood = -117.336 Iteration 1: log likelihood = -111.7491 Iteration 2: log likelihood = -111.62983 Iteration 3: log likelihood = -111.62955 Logistic regression Number of obs = 189 LR chi2(3) = 11.41 Prob > chi2 = 0.0097 Log likelihood = -111.62955 Pseudo R2 = 0.0486 ------------------------------------------------------------------------------ low | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- lwt | -.0152231 .0064393 -2.36 0.018 -.0278439 -.0026023 _Irace_2 | 1.081066 .4880512 2.22 0.027 .1245034 2.037629 _Irace_3 | .4806033 .3566733 1.35 0.178 -.2184636 1.17967 _cons | .8057535 .8451625 0.95 0.340 -.8507345 2.462241 ------------------------------------------------------------------------------
  • 29. 29 Tab. 2.5 . use "E:logisticchapter2.dta", clear . xi:logit low lwt Logistic regression Number of obs = 189 LR chi2(1) = 5.98 Prob > chi2 = 0.0145 Log likelihood = -114.34533 Pseudo R2 = 0.0255 ------------------------------------------------------------------------------ low | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- lwt | -.0140583 .0061696 -2.28 0.023 -.0261504 -.0019661 _cons | .9983143 .7852889 1.27 0.204 -.5408235 2.537452 ------------------------------------------------------------------------------ Applicazione formule (2.11) e (2.12) “lrtest” “test” Test della nullità di tutti i parametri (intercetta esclusa) effettuato secondo la (2.11) Prima soluzione . use "E:logisticchapter2.dta" . quietly xi: logit low age lwt i.race ftv . mat b=e(b) . mat br=b[1,1..5] . mat vc=e(V) . mat vcr=vc[1..5,1..5] . mat W=br*inv(vcr)*br' . mat list W symmetric W[1,1] y1 y1 10.696725 . display " p = "chi2tail(1,W[1,1]) p = .00107331 Seconda soluzione . use "E:logisticchapter2.dta", clear . quietly xi: logit low age lwt i.race ftv . generate const=1 . mkmat age lwt _Irace_2 _Irace_3 ftv const,mat(X) . predict pr (option pr assumed; Pr(low)) . generate vel=pr*(1-pr) . mkmat vel,mat(D) . mat V=diag(D) . mat vci=X'*V*X . mat b=e(b) . mat br=b[1,1..5] . mat vc=inv(vci) . mat vcr=vc[1..5,1..5] . mat W=br*inv(vcr)*br' . mat list W symmetric W[1,1] y1 y1 10.696619 . display " p = "chi2tail(5,W[1,1]) p = .05773588
  • 30. 30 Test della nullità di tutti i parametri (intercetta esclusa) effettuato secondo la (2.12) . mat r=(00000) . mat R=1,0,0,0,0,00,1,0,0,0,00,0,1,0,0,00,0,0,1,0,00,0,0,0,1,0 . mat list R R[5,6] c1 c2 c3 c4 c5 c6 r1 1 0 0 0 0 0 r2 0 1 0 0 0 0 r3 0 0 1 0 0 0 r4 0 0 0 1 0 0 r5 0 0 0 0 1 0 . mat b=e(b) . mat V=e(V) . mat W=(R*b'-r)'*inv(R*V*R')*(R*b'-r) . mat list W symmetric W[1,1] c1 c1 10.696725 . display " p = "chi2tail(5,W[1,1]) p = .05773588 lrtest Modello completo vs Modello con sola Intercetta . use "E:logisticchapter2.dta", clear . quietly xi: logit low age lwt i.race ftv . estimates store full . quietly xi: logit low . estimates store reduced . lrtest full reduced Likelihood-ratio test LR chi2(5) = 12.10 (Assumption: reduced nested in full) Prob > chi2 = 0.0335 test Modello completo vs Modello con sola Intercetta (Wald test) . use "E:logisticchapter2.dta", clear . quietly xi: logit low age lwt i.race ftv . testparm age lwt _Irace_2 _Irace_3 ftv ( 1) age = 0 ( 2) lwt = 0 ( 3) _Irace_2 = 0 ( 4) _Irace_3 = 0 ( 5) ftv = 0 chi2( 5) = 10.70 Prob > chi2 = 0.0577
  • 31. 31 Tab. 2.6 . use "E:logisticchapter2.dta", clear . quietly xi: logit low lwt i.race . vce Covariance matrix of coefficients of logit model e(V) | lwt _Irace_2 _Irace_3 _cons -------------+------------------------------------------------ lwt | .00004146 _Irace_2 | -.00064703 .23819397 _Irace_3 | .00035585 .05320001 .12721584 _cons | -.00521365 .02260223 -.1034968 .71429959 Memorizzazione della matrice di covarianza . use "E:logisticchapter2.dta", clear . quietly xi: logit low lwt i.race . mat V=e(V) . mat list V symmetric V[4,4] lwt _Irace_2 _Irace_3 _cons lwt .00004146 _Irace_2 -.00064703 .23819397 _Irace_3 .00035585 .05320001 .12721584 _cons -.00521365 .02260223 -.1034968 .71429959 Costruzione, via matriciale,della matrice di covarianza . use "E:logisticchapter2.dta", clear . quietly xi: logit low lwt i.race * Costruzione matrice X . generate const=1 . mkmat age lwt _Irace_2 _Irace_3 ftv const,mat(X) * Costruzione matrice V . predict pr . generate vel=pr*(1-pr) . mkmat vel,mat(D) . mat V=diag(D) . mat vc=inv(X'*V*X) . mat list vc symmetric vc[6,6] age lwt _Irace_2 _Irace_3 ftv const age .00109286 lwt -.00003623 .00004304 _Irace_2 .00337842 -.00077281 .24914731 _Irace_3 .00146083 .00028074 .05870124 .13107707 ftv -.00093123 -.00006795 .00076814 .00581983 .02694772 const -.0209561 -.00447735 -.04371696 -.1344865 .00683369 1.1207947
  • 32. 32 Risultato formule (2.17) e (2.18) Intervallo di confidenza del logit . use "E:logisticchapter2.dta", clear . quietly xi: logit low lwt i.race . mat Var=e(V) . mat b=e(b) . mat x=150,0,0,1 . mat g=x*b' . mat list g symmetric g[1,1] y1 r1 -1.4777119 . mat varg=x*Var*x' . mat list varg symmetric varg[1,1] r1 r1 .08316359 . display g[1,1]+1.96*(sqrt(varg[1,1])) -.91248516 . display g[1,1]-1.96*(sqrt(varg[1,1])) -2.0429386
  • 33. 33 Capitolo 3 Interpretazione del modello 3.1 Introduzione L’interpretazione del modello logistico richiede preliminarmente che si attribuisca un significato ai coefficienti del modello. In altri termini dobbiamo comprendere bene che cosa i coefficienti stimati ci dicono rispetto alle argomentazioni che hanno motivato il nostro studio. I coefficienti stimati delle variabili indipendenti rappresentano la “pendenza” (tasso di variazione) di una funzione della variabile dipendente per unità di variazione della variabile indipendente. Nella regressione logistica , i coefficienti delle variabili indipendenti esprimono la variazione del logit conseguente alla variazione di una unità della associata variabile indipendente. ( ) ( ) 1 i i i g x g x β = + − (3.1) Pertanto possiamo interpretare correttamente un modello logistico solo se siamo in grado di interpretare il significato della differenza tra due logit. Nel seguito illustreremo appunto tale interpretazione con riferimento sia al modello univariato, sia al modello multivariato. 3.2 Variabile indipendente dicotomica Consideriamo un modello logistico semplice: ( ) 0 1 g x x β β = + in cui x sia una variabile dicotomica codificata 0/1. Ricordata la (1.5) i valori associati a questo modello logistico possono essere raggruppati come nella tabella sotto riportata: Tab. 3.1 Otucome (Y) Indipendent variable (X) x=1 x=0 y =1 ( ) ( ) ( ) 0 1 0 1 exp 1 1 exp β β π β β + = + + ( ) 0 0 exp 1 1 exp β π β = + y =0 ( ) ( ) 0 1 1 1 1 1 exp π β β − = + + ( ) 0 1 1 1 exp π β = + Total 1 1 Il rapporto tra gli odds associati rispettivamente al valore uno e al valore zero della variabile indipendente, prende il nome di odds ratio. Si ha quindi: ( ) ( ) ( ) ( ) ( ) 0 1 1 0 1 / 1 1 exp exp exp 0 / 1 0 p OR p π β β β β π  −  +   ≡ = =  −    (3.2) Passando alle stime si ha: ( ) 1 ˆ exp OR β = (3.3) Con riferimento al modello semplice in esame, l’odds ratio può essere stimato semplicemente dal
  • 34. 34 prodotto crociato: Tab. 3.2 x=1 x=0 y=1 a b y=0 c d a d OR b c ⋅ = ⋅ (3.4) L’Odds Ratio può essere stimato tramite un altro approccio: data una tabella di risultati come la Tab. 3.2, l’Odds Ratio potrebbe essere determinato cercandone il valore che massimizzi la probabilità, a marginali fissi, di ottenere la tabella assegnata. Si parla in questo caso di stima di max verosimiglianza dell’Odds Ratioa . E’ importante sottolineare che le due stime tendono a coincidere solo per tabelle di grande numerosità, in generale la stima dell’OR, tramite il prodotto crociato, sovrastima l’OR ottenuto tramite il metodo di massima verosimiglianzab3 . Con riferimenti ad OR rispettivamente maggiori e minori dell’unità di ha pertanto: L’OR è usualmente il parametro oggetto di interesse da parte di un modello logistico, ma la sua stima, sia ottenuta tramite il cross product, sia tramite la massima verosimiglianza ha una distribuzione molto asimmetrica con valori compresi tra zero e infinito. E’ meglio quindi lavorare sulla distribuzione campionari di ( ) log OR che tende ad approssimare una normale già con numerosità non troppo elevata. La Tab. 3.3 mostra la relazione tra presenza di malattia coronarica (chd) ed età dei soggetti (agec =1 età >=55; agec = 0 età <55) e i coefficienti del relativo modello logistico semplice. Con questi dati si ha: ( ) ( ) { } 95% exp 2.094 8.12 exp 2.094 1.96 0.528 2.9;22.9 ML OR CI = = = ± ⋅ = a E’ una stima di max verosimiglianza che fa riferimento ad una distribuzione ipergeometrica. . b … we can conclude that studies employing logistic regression as analytical tool to study the association of exposure variables and the outcome overestimate the effect in studies with small to moderate samples size.
  • 35. 35 Tab. 3.3 agec chd 0 1 Total 0 51 6 57 1 22 21 43 Total 73 27 100 chd Coef. Std. Err. z P>z [95% Conf.Interval] agec 2.093546 0.528534 3.96 0 1.057639 3.129453 _cons -0.84078 0.255073 -3.3 0.001 -1.34072 -0.34085 A conclusione di questo paragrafo è importante sottolineare che (3.3) è valida solo nel caso che la variabile dicotomica sia codificata 0/1. In caso contrario, la stima dell’OR deve essere condotta valutando la differenza tra i logit in corrispondenza dei due livelli di codifica. Supponiamo che una variabile dicotomica X sia codificata a/b, in questo caso avremo: ( ) ( ) ( ) ( ) 1 ˆ ˆ ˆ ln , OR a b g x a g x b a b β   = = − = = −   (3.5) ( ) ( ) 1 ˆ , exp OR a b a b β   = −   (3.6) Se ad esempio la variabile dicotomica è codificata -1/+1 la relazione tra odds ratio e il coefficiente β1 diventa: ( ) ( ) 1 1; 1 exp 2 OR β − + = (3.7) 3.3 Variabile indipendente politomica Se una variabile indipendente è politomica (categorizzata su più di due livelli) non potrà essere inserita direttamente nel modello, ma dovrà essere sostituta dalle relative Dummy Variables. Ricordiamo che se una variabile politomica è categorizzata su k livelli, può essere convenientemente sostituita da k-1 Dummy Variables. La Tab. 3.4 riporta il rischio di CHD (coronary heart disease) in funzione della razza di appartenenza (White, Black, Hispanic, Other). La Tab.3.5 riporta la codifica delle Dummy Variables associate alla variabile RACE.
  • 36. 36 Tab. 3.4 Cross-Classification of Hypothetical Data on RACE and CHD Status for 100 Subjects RACE CHD White Black Hispanic Other Total Absent 20 10 10 10 50 Present 5 20 15 10 50 Total 25 30 25 20 100 OR 8 6 4 95% CI 2.3; 27.6 1.7; 21.3 1.1; 14.9 ln(OR) 2.08 1.79 1.39 Reference group: Race = White Tab. 3.5 Specification of the Design Variables for RACE Using Reference Cell Coding with White as Reference Group Design Variables (Dummy Variables) RACE(Code) _IRACE_2 _IRACE_3 _IRACE_4 White(1) 0 0 0 Black(2) 1 0 0 Hispanic(3) 0 1 0 Other(4) 0 0 1 Nell’ultima riga della Tab. 3.4 sono riportati i log(OR) con gruppo di riferimento White. Le stesse stime possono ottenersi dal modello logistico con una scelta coerente della codifica delle Dummy Variables (Tab. 3.6). Se ad esempio il gruppo di riferimento deve essere la razza White, allora occorre imporre pari a zero i valori delle Dummy Variables che lo identifica (Tab.3.5) Tab. 3.6 Results of Fitting the Logistic Regression Model to the Data in the Tab. 3.4 Using the Design Variables in Tab.3.5 CHD Coef. Std. Err. z P>z [95% Conf.Interval] _IRACE_2 2.079442 0.632452 3.29 0.001 0.839858 3.319026 _IRACE_3 1.791759 0.645494 2.78 0.006 0.526614 3.056905 _IRACE_4 1.386294 0.670818 2.07 0.039 0.071516 2.701072 _cons -1.38629 0.499996 -2.77 0.006 -2.36627 -0.40632 Confrontando i risultati di Tab.3.4 e Tab.3.6 è facile riconoscere che:
  • 37. 37 ( ) ( ) 1 ˆ log , ) log 8 2.079 OR Black White β   = = =   ( ) ( ) 2 ˆ log , ) log 6 1.792 OR Hispanic White β   = = =   ( ) ( ) 3 ˆ log , ) log 4 1.386 OR Other White β   = = =   Ciò significa che i coefficienti stimati dal modello logistico (Tab.3.6) sono uguali al logaritmo degli odds ratio calcolati direttamente dalla tabella dei dati (Tab.3.4). Con riferimento all’Odds Ratio Black vs White si ha infatti: ( ) ( ) ( ) ( ) ( ) 0 1 0 1 ˆ ˆ ˆ ˆ ˆ ˆ log , OR Black White g Black g White β β β β   = − = + − =   Gli standard error dei coefficienti, nel caso univariato, possono essere calcolati direttamente dalla relativa tabella di contingenza. ( ) 0.5 1 1 1 1 1 ˆ 0.635 5 20 20 10 se β   = + + + =     Il limiti di confidenza dei coefficienti, e degli odds ratio, si ottengono con lo stesso procedimento usato per le variabili dicotomiche. ( ) ( ) 95% 1 2 ˆ ˆ ˆ j j j CI z se α β β β − = ± ( ) ( ) 95% 1 2 ˆ ˆ exp j j CI OR z se α β β −   = ±   Come già accennato nella sezione 3.3 la codifica delle Dummy variables può essere effettuata (deviation from means coding) in modo tale da impostare come valore di riferimento il valore medio del logit. La codifica effettuata (reference cell coding) in accordo con quanto specificato in Tab. 3.5 permette di interpretare i coefficienti βi come log(ORi). Seguendo la codifica (deviation from means coding) l’interpretazione dei coefficienti βi non è immediata. Nel seguito comunque illustreremo sia la nuova codifica sia il metodo con cui interpretare i coefficienti βi ottenuti dal nuovo modello. La nuova codifica impone di porre a -1 i valori di tutte la variabili dummy relative ad una categoria, e di utilizzare la consueta codifica 0/1 per le categorie restanti. Con riferimento alla variabile RACE, una codifica, in accordo con la cosiddetta deviation from means coding, è quella riportata in Tab. 3.7 Tab 3.7 Specification of the Design Variables for RACE Using Deviation from Means Coding Design Variables (Dummy Variables) RACE(Code) _IRACE_2 _IRACE_3 _IRACE_4 White(1) -1 -1 -1 Black(2) 1 0 0 Hispanic(3) 0 1 0 Other(4) 0 0 1
  • 38. 38 Di seguito riportiamo il modello fittato coerente con la nuova codifica. Tab. 3.8 Results of Fitting the Logistic Regression Model to data in Tab 3.4 Using the Design Variables in Tab. 3.7 chd Coef. Std. Err. z P>z [95% Conf. Interval] race_2 0.765068 0.350594 2.18 0.029 0.077915 1.45222 race_3 0.477386 0.362284 1.32 0.188 -0.23268 1.187449 race_4 0.071921 0.384599 0.19 0.852 -0.68188 0.825721 _cons -0.07192 0.218898 -0.33 0.742 -0.50095 0.357112 Per interpretare i coefficienti stimati del nuovo modello, calcoliamo, con riferimento alla Tab. 3.4 i logit corrispondenti a ciascuna delle quattro categorie in cui è suddivisa la variabile RACE e ne calcoliamo la media. 1 2 3 4 5/ 25 5 ˆ log log 1.386 20/ 25 20 ˆ ˆ ˆ 0.693 0.405 0 ˆ 0.072 4 i g g g g g g     = = = −         = = = = = − ∑ Il coefficiente stimato della variabile race_2 è pari a: ( ) 1 2 ˆ 0.693 0.072 0.765 g g β = − = − − = In generale, i coefficienti stimati per la generica variabile race_i esprimono la differenza tra il logit corrispondente e il logit medio. ˆ _ j race j g g = − L’interpretazione di tali coefficienti stimati non è, in questo caso agevole. Infatti, con riferimento al coefficiente della variabile race_2, passando agli esponenziali, si ha: ( ) ( ) ( ) ( ) ( )( )( )( ) 2 2 0.25 ˆ exp 20/10 ˆ exp 0.765 exp 2.15 ˆ 5/ 20 20/10 15/10 10/10 exp 4 i g g g g = − = = =             ∑ Questo numero, 2.15, non rappresenta un vero odds ratio perché le quantità a numeratore e denominatore non rappresentano gli odds riferiti a due distinte categorie. Gli esponenziali dei coefficienti stimati, in questo caso, esprimono gli odds relativi alla media geometrica degli odds totali. Con alcuni passaggi, comunque, anche questi coefficienti stimati permettono di risalire agli odds ratio di una categoria rispetto a quella di riferimento. ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 0 1 2 3 0 1 2 3 ˆ ˆ log , ˆ ˆ ˆ ˆ _ 2 1 _3 0 _ 4 0 ˆ ˆ ˆ ˆ _ 2 1 _3 1 _ 4 1 OR Black White g Black g White race race race race race race β β β β β β β β   = − =     = + = + = + = +     − + = − + = − + = − =  
  • 39. 39 1 2 3 ˆ ˆ ˆ 2β β β = + + (3.8) Per ottenere l’intervallo di confidenza del log(OR) prima definito, dobbiamo stimare la varianza della somma dei coefficienti presenti nella (3.8). ( ) { } ( ) ( ) ( ) ( ) ( ) ( ) 1 2 3 1 2 1 3 2 3 ˆ ˆ ˆ log , 4 ˆ ˆ ˆ ˆ ˆ ˆ 4 , 4 , 2 , Var OR Black White Var Var Var Cov Cov Cov β β β β β β β β β   = ⋅ + +   + ⋅ + ⋅ + ⋅ (3.9) E passando ai valori numerici si ha: ( ) log , 2 0.765 0.477 0.072 2.079 OR Black White   = ⋅ + + =   ( ) { } log , 0.400 Var OR Black White   =   ( ) { } log , 0.6325 se OR Black White   =   Abbiamo ottenuto, pur con una nuova codifica delle Dummy Variables, gli stessi risultati trovati con la vecchia codifica. 3.4 Variabile indipendente continua Quando un modello di regressione logistico contiene una variabile continua, l’interpretazione del relativo coefficiente dipende sia dalla modalità di inserimento della variabile stessa (lineare, quadratica….logaritmica…) sia dalla unità di misura con cui è espressa. Sotto l’assunzione che il logit sia lineare rispetto alla covariata continua x, il modello è espresso dalla seguente equazione: ( ) 0 1 g x x β β = + Segue che il coefficiente β1 esprime geometricamente una pendenza, ossia la variazione del log odds corrispondente ad una variazione di “1” unità della covariata x. Quindi: ( ) ( ) 1 1 g x g x x β = + − ∀ Molto spesso la variazione del log odds corrispondente ad una variazione di “1” unità della covariata è clinicamente priva di importanza. E’ pertanto meglio riferirsi ad una variazione del log odds corrispondente ad una generica variazione di “c” unità della covariata x. ( ) ( ) ( ) ( ) 1 1 , exp g x c g x c OR x c x c β β + − = ⋅ → + = E passando alle stime si ha: ( ) ( ) ( ) ( ) 1 1 ˆ ˆ ˆ ˆ , exp g x c g x c OR x c x c β β + − = ⋅ → + = ( ) { } ( ) 95% 1 1 / 2 1 ˆ ˆ exp CI OR c c z se α β β −   = ±   Con riferimento al data set trattato nel Capitolo 1, il modello logistico fittato risulta: Tab. 3.9 chd Coef. Std. Err. z P>z [95% Conf.Interval] age 0.110921 0.02406 4.61 0 0.063765 0.158078 _cons -5.30945 1.133655 -4.68 0 -7.53138 -3.08753
  • 40. 40 Il logit stimato è pertanto: ( ) ˆ 5.310 0.111 g age age = − + ⋅ L’odds ratio stimato, corrispondente ad un aumento di 10 anni di età, vale quindi: ( ) ( ) 10 exp 10 0.111 3.03 OR age ∆ = = ⋅ = E il suo intervallo di confidenza: ( ) { } ( ) { } 95% 10 exp 10 0.111 1.96 10 0.024 1.90;4.86 CI OR age ∆ = = ⋅ ± ⋅ ⋅ = Questo indica che per ogni incremento di 10 anni di età il rischio di chd aumenta di circa 3.03 volte. Se questa affermazione è valida dal punto di vista teorico, non è in genere altrettanto accettabile dal punto di vista clinico. Con riferimento al nostro data set, appare piuttosto evidente che l’incremento di rischio di chd nel passare da 30 a 40 anni (Δage = 10) è presumibilmente diverso dall’incremento di rischio di un soggetto che passa 50 a 60 anni (Δage = 10). Quando abbiamo buone ragioni, cliniche o biologiche, per ritenere che la relazione tra logit e covariata non sia lineare dobbiamo impostare diversamente il modello. In particolare potremo: 1. Categorizzare la variabile e fare uso di Dummy Variables; 2. Inserire la covariata come termine di ordine superiore (x2 ,x3 ..) 3. Usare una funzione della covariata (logaritmica…) 3.5 Modello multivariato Nella precedente sezione abbiamo discusso l’interpretazione dei coefficienti stimati dal modello logistico nel caso in cui il modello preveda una singola covariata. Tuttavia, il fittare una serie di modelli univariati ha solamente una valenza “esplorativa”: in genere solo un modello multivariato permette di stabilire un legame “soddisfacente” tra la variabile risposta (outcome variable) e le variabili esplicative. Con riferimento al modello multivariato i coefficienti stimati forniscono una stima dei log odds “aggiustata” per tutte le altre variabili incluse nel modello. Per chiarire il concetto di “aggiustamento” ci riferiremo inizialmente a un modello di regressione lineare per poi estendere le nostre considerazioni al modello logistico. Supponiamo di voler confrontare il peso medio di due gruppi di ragazzi. Nell’ipotesi che il peso sia funzione dell’età e che i due gruppi di ragazzi abbiano età diverse (un gruppo molto più giovane dell’altro), il semplice confronto delle medie dei pesi dei due gruppi avrebbe uno scarso significato: di fronte ad una differenza delle età dei due gruppi non sappiamo se tale differenza sia imputabile ad una reale differenza tra i gruppi di giovani (giganti vs nani) oppure ad una differenza delle età (bambini vs adolescenti). Non è possibile determinare “l’effetto gruppo” senza preliminarmente eliminare la discrepanza fra le età dei due gruppi. Questa condizione è descritta graficamente nella Fig. 3.1 dove si assume che la relazione tra peso ed età sia di tipo lineare ed identica nei due gruppi (le due rette sono parallele). Il modello statistico associato, indicato con w il peso e con a l’età, stabilisce una relazione lineare del tipo: 0 1 2 w x a β β β = + + ⋅ Dove x = 0 per il gruppo 1 e x = 1 per il gruppo 2. Fig. 3.1
  • 41. 41 Comparison of the weight of two groups of boys with different distribution of age. In questo modello β1 rappresenta la vera differenza in peso tra i due gruppi (misura il cosiddetto effetto gruppo) e β2 esprime la variazione del peso corrispondente all’incremento di un anno di età. Supponiamo che le età medie del primo e secondo gruppo siano rispettivamente 1 a e 2 a . Il confronto “crudo” del peso medio dei due gruppi è rappresentato dalla differenza tra w2 e w1. Con riferimento al modello, tale differenza è espressa da: ( ) ( ) 2 1 1 2 2 1 w w a a β β − = + − Ossia il confronto “crudo” tra i pesi medi dei due gruppi non comprende solo la “vera” differenza tra i gruppi (effetto di gruppo: misurato da β1), bensì anche una componente, ( ) 2 2 1 a a β − , che riflette la differenza tra le età medie dei due gruppi. Il processo di aggiustare statisticamente per l’età si effettua comparando i due gruppi in corrispondenza di qualsiasi valore comune di età. Con riferimento all’età media comune dei due gruppi, tale confronto è espresso dalla differenza ( ) 4 3 w w − , che in termini di modello vale: ( ) ( ) 4 3 1 2 1 w w a a β β β − = + − = e misura la vera differenza tra i due gruppi. Con riferimento alla Fig.3.1, immaginiamo ora di sostituire la variabile dipendente “peso” con una variabile dipendente dicotomica e di porre il valore della funzione logit sull’asse delle ordinate. La Fig. 3.1, in queste condizioni, rappresenta pertanto un modello del tipo: ( ) 0 1 2 . g x a x a β β β = + +
  • 42. 42 Come esemplificazione, valuteremo la probabilità di avere un bimbo sottopeso alla nascita in due gruppi di madri (fumatrici/non fumatrici) di cui abbiamo registrato le età. Tab. 3.10 Età e numero di nascite sottopeso in due gruppi di donne (87 non fumatrici e 66 fumatrici) smoke = 0; n=87 smoke = 1; n=66 Mean Std. Dev. Mean Std. Dev. low 0.241379 0.430401 0.409091 0.495434 age 25.47126 4.630132 21.80303 4.012364 Con i dati di Tab. 3.10, il log odds ratio univariato (crudo) delle fumatrici vs le non fumatrici vale: ( ) 0.409091 0.241379 log log log 0.77741 2.1758 1 0.409091 1 0.241379 OR OR     = − = → =     − −     Le fumatrici pertanto hanno una maggiore probabilità di avere un neonato di basso peso. Tuttavia le fumatrici sono mediamente più giovani delle non fumatrici, e questa discrepanza potrebbe sovrastimare il rischio. In effetti applicando ai dati di Tab.3.10 un modello logistico bivariato si ottiene: Tab. 3.11 Results of Fitting the Logistic Regression Model to the Data Summarized in Table 3.10 Variable Odds Ratio Std. Err. z P>z [95% Conf. Interval] age 0.937164 0.041807 -1.45 0.146 0.858704 1.022792 smoke 1.743155 0.66931 1.45 0.148 0.821306 3.699706 Coefficient. Std. Err. z P>z [95% Conf.Interval] age -0.0649 0.04461 -1.45 0.146 -0.15233 0.022537 smoke 0.555697 0.383965 1.45 0.148 -0.19686 1.308253 _cons 0.484959 1.133666 0.43 0.669 -1.73699 2.706904 Quindi, controllando per l’età (age), l’Odds Ratio stimato passa da 2.1758 a 1.743 avvalorando il sospetto che l’Odds Ratio crudo (fumatrice vs non fumatrice) sia amplificato dalla diversa distribuzione delle età nei due gruppi. Con riferimento alla Fig. 3.1, esaminiamo ora più in dettaglio l’aggiustamento effettuato. Una approssimazione dell’Odds Ratioa non aggiustato si ottiene esponenziando la differenza 2 1 w w − . a Questa stima (2.21) si basa sulla differenza dei logit valutati in corrispondenza delle età medie dei due gruppi e differisce dall’Odds Ratio (2.1758) ottenuto dal modello univariato e calcolato sulla base delle probabilità logistiche dei due gruppi.
  • 43. 43 [ ] [ ] ( ) ( ) 0.484959 0.555697 0.0649 21.80303 0.484959 0.0649 25.47126 0.555697 0.0649 25.47126 21.80303 exp 0.555697 0.0649 25.47126 21.80303 2.21 OR + − ⋅ − − ⋅ = = + − =  + −  =   L’Odds Ratio, aggiustato per l’età, è ottenuto esponenziando la differenza 4 3 w w − che corrisponde al coefficiente stimato per la variabile smoke. [ ] [ ] [ ] 0.484959 0.555697 0.0649 23.9 0.484959 0.0649 23.9 exp 0.555697 1.743 OR + − ⋅ − − ⋅ = = = Un criterio abbastanza accettato per classificare una variabile come confondente è verificare se il suo inserimento nel modello multivariato induce una variazione di almeno il 10% dell’Odds Ratio crudo, mentre è di scarsa utilità la eventuale significatività del coefficiente associatoa . Nel nostro esempio , ritenuto valido questo criterio, age può essere considerata un confondente perché il suo inserimento nel modello multivariato provoca una abbattimento dell’Odds Ratio crudo di circa il 20% (da 2.1758 a 1.743) anche se il coefficiente ad essa associato (-0.0649) non è affatto significativo (p = 0.146). Infine ribadiamo un concetto essenziale: l’efficacia del processo di aggiustamento è interamente dipendente dall’adeguatezza delle assunzioni del modello: linearità e costanza di pendenza. Se tali assunzioni cadono, il processo di aggiustamento sarà privo di ogni utilità. a Come vedremo in seguito questo criterio del 10% è puramente indicativo e vale se non abbiamo criteri clinici per confutarlo.
  • 44. 44 3.6 Interazione e Confondimento Nella sezione precedente abbiamo introdotto il termine confondente, indicando con esso una covariata che è associata sia alla variabile risposta, sia a una variabile indipendente (fattore di rischio). In questa sezione introdurremo il concetto di interazione e vedremo come controllarne i suoi effetti nell’ambito del modello logistico. Infine illustreremo con un esempio come confondimento e interazione influiscono sulle stime dei coefficienti del modello. Consideriamo un modello contenente un fattore di rischio dicotomico (smoke) e una covariata continua (age). Se l’associazione tra la covariata (age) e la variabile risposta (outcome) è la medesima entro ciascun livello del fattore di rischio (smoke), allora diremo che non c’è interazione tra la covariata e il fattore di rischio. Graficamente l’assenza di interazione si rappresenta con un modello costituito da due linee parallele, una per ciascun livello del fattore di rischio. In generale l’assenza di interazione è caratterizzata da un modello che non contiene termini di ordine superiore od uguale al secondo. Quando l’interazione è presente, l’associazione tra il fattore di rischio e la variabile risposta varia in funzione del livello della covariata. In altri termini, diremo che la covariata modifica l’effetto del fattore di rischio. Fig. 3.2. Plot of the logits under three different models showing the presence and absence of interaction
  • 45. 45 In Fig. 3.2 sono rappresentati i grafici di tre differenti logita che utilizzeremo per spiegare il significato e gli effetti dell’interazione. Consideriamo un modello in cui la variabile risposta sia presenza o assenza di CHD, il fattore di rischio sia sex e la covariata sia age. Supponiamo che la linea l1 esprima l’andamento del logit in funzione di age all’interno del gruppo female. La linea l2, infine, supponiamo rappresenti il logit riferito al gruppo male. Le due linee sono parallele, esprimendo con ciò che la relazione tra age e CHD è la stessa sia per le femmine sia per i maschi. In questa situazione non c’è interazione e il log odds ratio riferito al sesso (male vs female), controllato per l’età, è dato dalla distanza verticale tra le due linee, ed è la stessa indipendentemente dall’età. Immaginiamo ora che il logit relativo ai maschi sia rappresentato dalla linea l3. Questa linea è più pendente rispetto alla linea l1, esprimendo che la relazione tra CHD ed age è differente nei due gruppi (male vs female). In una tale situazione siamo in presenza di una interazione tra age e sex. La stima del log-odds ratio relativa al sesso (male vs female)controllato per age è ancora dato dalla distanza verticale tra le linee l3 e l1, distanza che questa volta dipende dall’età rispetto alla quale il confronto viene effettuato. Pertanto non potremo stimare l’odds ratio relativo al sesso senza prima specificare a che età il confronto viene effettuato. In altri termini, la variabile age è una modificatrice d’effetto. Le Tab. 3.12 e 3.13 presentano una serie di modelli logistici implementati su due differenti data set ipotetici. Le variabili di ciascun data set sono identiche: sex, age e CHD (variabile risposta). L’interazione è stata modellata inserendo nel modello una variabile pari al prodotto di sex per age. Tab. 3.12 Estimated Logistic Regression Coefficients, Deviances, and the Likelihood Ratio Test Statistic (G) from an Example Showing Evidence of Confounding but no Interaction (n = 400) Model Constant sex age sex•age Deviance G 1 0.060 1.981 419.816 2 -3.374 1.356 0.082 407.780 12.036 3 -4.216 4.239 0.013 -0.062 406.392 1.388 Tab. 3.13 Estimated Logistic Regression Coefficients, Deviances, and the Likelihood Ratio Test Statistic (G) from an Example Showing Evidence of Confounding and Interaction (n = 400) Model Constant sex age sex•age Deviance G 1 0.201 2.386 376.712 2 -6.672 1.274 0.166 338.688 38.024 3 -4.825 -7.838 0.121 -0.205 330.654 8.034 a Per render e più agevole la lettura del grafico, a ciascun logit è stato aggiunto il valore 4.
  • 46. 46 Esaminando i risultati della Tab. 3.12 vediamo che il coefficiente stimato per la variabile sex varia da 1.981 nel modello 1 (solo variabile sex) a 1.356 nel modello 2 (variabile age e sex). Poiché l’inserimento della variabile age ha prodotto una diminuzione del coefficiente di sex di circa il 46%, diremo che siamo in presenza di un evidente effetto confondente dovuto ad age. Quando il termine di interazione è aggiunto nel modello 3,vediamo che la variazione di devianza è solo 1.388 e che, con riferimento ad una distribuzione chi quadro con un grado di libertà, porta ad un p value di 0.24, chiaramente non significativo. E’ da notare che il coefficiente relativo a sex cambia da 1.356 (modello 2) a 4.239 (modello 3). Questo non deve sorprendere perché l’inclusione del termine di interazione, specialmente quando coinvolge variabili continue, produce variazioni molto marcate nelle stime dei coefficienti delle variabili dicotomiche interessati dall’interazione. Ribadiamo pertanto che quando è presente il termine di interazione non possiamo valutare l’effetto confondente tramite la variazione dei coefficienti. Con riferimenti a questo data set si darà pertanto la preferenza al modello 2 che suggerisce age come confondente e non come modificatore d’effetto. Con riferimento alla Tab. 3.13, confrontando il modello 1 con il modello 2 vediamo che il coefficiente di sex varia da 2.386 a 1.274 con un diminuzione dell’87%. Quando nel modello 3 viene aggiunto il termine di interazione sex·age, vediamo che la devianza diminuisce di 8304 con un p-value di 0.005. Poiché la variazione della devianza è significativa il modello 3 è preferibile al modello2, pertanto la variabile age deve essere interpretata sia come confondente sia come modificatrice d’effetto. La stima dell’odds ratio, relativo alla variabile sex, deve essere calcolata in corrispondenza di una specifica età. Concludiamo questo paragrafo riassumendo i criteri utili per stabile se una variabile possa essere trattata come confondente e/o modificatrice di effetto: 1. Qualsiasi modificazione clinicamente rilevante nella stima del coefficiente del fattore di rischio suggerisce che la covariata è un confondente e come tale deve essere inserita nel modello indipendentemente dalla significatività statistica del coefficiente ad essa associato. 2. Dobbiamo ritenere che una covariata sia una modificatrice di effetto solo se il termine di interazione abbia un significato clinico e il suo coefficiente sia statisticamente significativo. Infine ribadiamo che quando una variabile è classificata come modificatrice di effetto, stabilire se sia anche un confondente ha uno scarso significato dato che la stima dell’effetto del fattore di rischio dipende dallo specifico valore assunto della covariata.
  • 47. 47 3.7. Stima dell’Odds Ratio in presenza di interazione Come abbiamo visto al paragrafo precedente, quando è presente un termine di interazione la stima dell’odds ratio relativo al fattore di rischio dipende dal valore della variabile che con esso interagisce. In tale situazione pertanto non possiamo stimare l’odds ratio semplicemente esponenziando il coefficiente associato al fattore di rischio. Per illustrare in dettaglio come valutare l’odds ratio in presenza di interazione ci riferiremo ad un modello costituto da un fattore di rischio F, da una covariata X e dal termine di interazione F·X. Il logit di questo modello, valutato per F = f ed X = x vale: ( ) ( ) 0 1 2 3 , g f x f x f x β β β β = + ⋅ + ⋅ + ⋅ (3.10) Assumendo di valer calcolare l’odds ratio (F = f1 vs F = f0) in corrispondenza di X = x, si calcolano i relativi logit: ( ) ( ) ( ) ( ) 1 0 1 1 2 3 1 0 0 1 0 2 3 0 , , g f x f x f x g f x f x f x β β β β β β β β = + ⋅ + ⋅ + ⋅ = + ⋅ + ⋅ + ⋅ Il log odds ratio si ottiene dalla differenza dei logit: ( ) ( ) ( ) ( ) ( ) 1 0 1 0 1 1 0 3 1 0 log , , , , OR F f F f X x g f x g f x f f x f f β β  = = =  = − = − + ⋅ −   (3.11) L’odds ratio, ribadiamo calcolato per X = x, si ottene esponenziando la (3.11): ( ) ( ) 1 1 0 3 1 0 exp OR f f x f f β β =  − + ⋅ −    (3.12) Notiamo come nelle (3.11) e (3.12) sono contenuti due coefficienti, quello relativo al fattore di rischio e quello riferito al termine di interazione. Ovviamente la stima del log-odds ratio si ottiene semplicemente sostituendo i parametri contenuti nelle (3.10) e (3.11) con le relative stime. Per calcolare i limiti dell’intervallo di confidenza dell’odds ratio, esponenzieremo i limiti dell’intervallo di confidenza del log-odds ratio. Calcoliamo la varianza del log-odds ratio espresso dalla (3.11) ( ) { } ( ) ( ) ( ) ( ) ( ) ( ) 1 0 2 2 2 2 1 3 1 3 1 0 1 0 1 0 var log , , var var 2 cov , OR F f F f X x f f x f f x f f β β β β   = = = =     = − + − + −   (3.13) Il limiti dell’intervallo di confidenza del log-odds ratio risultano pertanto: ( ) ( ) ( ) ( ) 1 3 1 3 1 0 1 0 1 2 1 0 1 0 f f x f f z se f f x f f α β β β β −     − + ⋅ − ± − + ⋅ −     (3.14) dove se, lo standard error nella (3.14), è la radice quadrata positiva della varianza stimata nella (3.13).I limiti dell’intervallo di confidenza dell’odds ratio si ottengono infine esponenziando la (3.14). Le stime del log-odds ratio e della sua varianza si semplificano notevolmente nel caso in cui il fattore di rischio sia una variabile dicotomica. Se ad esempio f1 =1 e f0 =0 la stima del log-odds ratio diventa: ( ) 1 3 1 0 log , , OR F f F f X x x β β   = = = = + ⋅   (3.15) La varianza stimata vale:
  • 48. 48 ( ) { } ( ) ( ) ( ) 2 1 3 1 3 1 0 var log , , var var 2 cov , OR F f F f X x x x β β β β   = = = = + +   (3.16) e i limiti dell’intervallo di confidenza sono: 1 3 1 3 1 2 x z se x α β β β β −     + ⋅ ± + ⋅     (3.17) Come esemplificazione consideriamo una serie di modelli logistici associati ad un data set già esaminato in precedenza (low birth weight data). Tab. 3.14 Estimated Logistic Coefficients, Deviance, the Likelihood Ratio Test Statistic (G), and p-value for the Change for Models Cointaning LWD and AGE from the Low Birth Weight Data (n= 189) Model Constant LWD AGE LWD•AGE ln[l(β)] G p 0 -0.790 -117.34 1 -1.054 1.054 -113.12 8.44 0.004 2 -0.027 1.010 -0.044 -112.14 1.96 0.160 3 0.774 -1.944 -0.080 0.132 -110.57 3.14 0.076 Dal modello 1 l’odds ratio di avere un neonato a basso peso (LWD =1 vs LWD =0)a è 2.87 (exp[1.054]). Dal confronto del modello 1 con il modello2, vediamo che l’inserimento della variabile AGE porta ad una diminuzione di circa il 4% del coefficiente di LWD (1.054 vs 1.010): possiamo lecitamente dedurre che AGE non sia un confondenteb . Dal confronto del modello 3 con il modello 2, vediamo che l’inserimento del termine di interazione produce un significativo miglioramento del modello (p = 0.076): deduciamo che tra LWD ed AGE vi possa essere interazione. Quindi l’odds ratio di avere un neonato a basso peso (LWD =1 vs LWD =0) non è costante rispetto all’età. Un modo efficace per vedere la presenza di interazione consiste nell’esaminare, per via grafica i logit stimati dal modello 3. La linea superiore nella Fig. 3.3 corrisponde al logit stimato per madri con LWD =1 e la linea inferiore corrisponde al logit stimata per madri con LWD = 0. Il log-odds ratio stimato per LWD = 1 vs LWD = 0 all’età AGE = x, dalla (3.15), è uguale alla distanza verticale tra le due linee misurata in corrispondenza di un’ascissa AGE = x. Dalla Fig. 3.3 vediamo che tale distanza è prossima a zero a 15 anni di età e poi progressivamente aumenta. Poiché la distanza verticale non è costante dovremo scegliere alcune specifiche età a cui fare riferimento per poter stimare l’effetto del basso pesso nell’ultimo periodo mestruale. Sempre dalla Fig. 3.3 vediamo come nessuna madre LWD =1 ha più di 33 anni. Quindi pare logico restringere le nostre stime dell’effetto del basso peso della madre in un range da 14 a 33 anni. a La variabile dicotomica LWD assume il valore 1 se il peso della madre in corrispondenza dell’ultima mestruazione è inferiore a 110 pounds, altrimenti assume il valore zero. b A patto ovviamente che una modifica del 4% del coefficiente associato ad LWD sia clinicamente ininfluente.
  • 49. 49 Fig. 3.3. Plot of the estimated logit for women with lwd = 1 and for women with lwd = 0 from Model 3 in Tab. 3.14 Dalla (3.15) e dai risultati forniti dal modello 3, il log-odds ratio stimato (LDW =1 vs LWD =0) in corrispondenza di un’età AGE = a, vale: ( ) 1 3 log 1, 0, OR LWD LWD AGE a a β β   = = = = + ⋅   (3.18) Per stimare la varianza, dobbiamo utilizzare la matrice di covarianza dei parametri stimati. Tab. 3.15 Covariance matrix of coefficients of logistic model 3 of Tab 3.15 e(V) age lwd lwdage _cons age .00157088 lwd 03526621 2.974949 lwdage -.00157088 -.12760349 .00573022 _cons -.03526621 -.82827277 .03526621 .82827277 La varianza stimata del log-odds ratio, si ottiene dalla (3.16): LWD =1 LWD = 0 -3 -2 -1 0 1 Estimated Logit 10 20 30 40 50 AGE
  • 50. 50 ( ) { } ( ) 2 var log 1, 0, 2.975 0.0057322 2 0.12760349 OR LWD LWD AGE a a a   = = = = + ⋅ + ⋅ ⋅ −   Tab. 3.16 Estimated Odds Ratio and 95% Confidence Intervals for LWD, Controlling for AGE Age 15 20 25 30 OR 1.04 2.01 3.90 7.55 95% CI 0.29; 3.79 0.91; 4.44 1.71; 8.88 1.95; 29.19 Dall’esame della Tab. 3.16 si nota come l’effetto di LWD sull’odds di avere un neonato di basso peso alla nascita cresce esponenzialmente con l’età. Inoltre l’aumento di tale rischio diviene significativo per un’età superiore o uguale a 25 anni. 3.8 Confronto tra Regressione Logistica e Analisi Stratificata per tabelle 2x2 Molti utilizzatori del modello logistico, specialmente coloro con un background di tipo epidemiologico, hanno effettuato, ed effettuano tuttora, delle analisi stratificate di tabelle 2x2 per valutare l’interazione e controllare il confondente. L’obiettivo principale di tali analisi stratificate è quello di determinare se gli odds ratio sono costanti, o meglio omogenei, tra gli strati. Se gli odds ratio sono omogenei, e solo in questo caso, è lecito calcolare successivamente un odds ratio globale ottenuto con il metodo di Mantel-Haenszel o tramite una media pesata dei logit. La stessa analisi può essere effettuata più semplicemente utilizzando il modello logistico secondo le indicazioni fornite ai paragrafi 3.6 e 3.7. In questa sezione, utilizzando il solito data set (low birth weight data), illustreremo analogie e differenze tra i due approcci. Consideriamo un’analisi del fattore di rischio smoking (SMOKE =1) rispetto al basso peso alla nascita (LOW=1). Dalla Tab. 3.17, l’odds ratio crudo (non aggiustato) risulta: 30 86 2.02 44 29 OR ⋅ = = ⋅ Tab. 3.17 Cross-Classification of Low Birth Weight by Smoking Status SMOKE 1 0 Total LOW 1 30 29 59 0 44 86 130 Total 74 115 189
  • 51. 51 La Tab. 3.18 presenta gli stessi dati stratificati in base alla razza della madre consentendo, come vedremo, di calcolare l’odds ratio globale sia con il metodo di Mantel-Haenszel sia con la media pesata dei logit. Tab. 3.18 Cross-Classification of Low Birth Weight by Smoking Status Stratified by RACE White SMOKE Total 1 0 LOW 1 19 4 23 0 33 40 73 Total 52 44 96 Black LOW 1 6 5 11 0 4 11 15 Total 10 16 26 Other 1 5 20 25 LOW 0 7 35 42 Total 12 55 67 Total 189 Lo stimatore di Mantel-Haenszel, con riferimento a dati tabulati secondo la Tab. 3.19 è la media pesata degli odds ratio strato specifici ORi con pesi wi pari a: i i i i b c w N = Tab. 3.19 Strato i-esimo SMOKE LOW ai bi ci di Ni
  • 52. 52 Si ha pertanto: i i i i i i i i i MH i i i i i i i i b c a d OR N N OR b c b c N N ⋅ = = ∑ ∑ ∑ ∑ (3.19) Sostituendo nella (3.19) i dati di Tab. 3.18 si ottiene: 19 40 6 11 5 35 13.067 96 26 67 3.09 4 33 4 5 7 20 4.234 96 26 67 MH OR ⋅ ⋅ ⋅ + + = = = ⋅ ⋅ ⋅ + + Lo stimatore dell’odds ratio globale, basato sulla media dei logit, è una media pesata, strato specifica, dei log odds ratio con pesi wi pari al reciproco della loro varianzaa . 1 1 1 1 1 i i i i i w a b c d −   = + + +     ( ) log exp i i i L i i w OR OR w     =       ∑ ∑ (3.20) La Tab.3.20 mostra le stime degli odds ratio, dei log-odds ratio, delle varianze dei log-odds ratio e dei pesi con riferimento ai dati di Tab. 3.18. Tab. 3.20 Tabulation of Estimated Odds Ratios, log(Estimated Odds Ratios), Estimated Variance of the log(Estimated Odds Ratios), and the Inverse of the Estimated Variance, w, for Smoking Status Within Each Stratum of RACE White Black Other OR 5.758 3.300 1.250 ( ) log OR 1.751 1.194 0.223 ( ) var log OR     0.358 0.708 0.421 w 2.794 1.413 2.375 Con i dati di Tab. 3.20, lo stimatore dell’odds ratio globale, basato sulla media dei logit, vale: a Quando un elemento della cella è nullo, la varianza non è definita. In tal caso si può aggirare il problema aggiungendo il valore 0.5 al contenuto di ogni cella.
  • 53. 53 1.751 2.794 1.194 1.413 0.223 2.375 7.109 exp exp 2.95 2.794 1.413 2.375 6.582 L OR ⋅ + ⋅ + ⋅     = = =     + +     ed è leggermente inferiore al valore ottenuto con il metodo di Mantel-Haenszel. L’elevata fluttuazione tra gli strati suggerisce che la variabile RACE può comportarsi come confondente e/o come modificatrice d’effetto. E’ importante sottolineare che questi stimatori forniscono un odds ratio globale attendibile solo se gli odds ratio sono omogenei tra gli strati. Tale assunzione può essere verificata comparando le stime strato specifiche con la stima globale calcolata appunto sotto l’ipotesi che l’odds ratio si mantenga costante tra gli strati. Il modo più semplice per verificare statisticamente l’omogeneità degli odds ratio è basato sulla somma pesata delle deviazioni al quadrato dei log-odds ratio strato specifici rispetto alla stima globale (ottenuta o con il metodo di Mantel-Haenszel o tramite la media pesata dei logit). Il test statistico valuterà la seguente sommatoria: ( ) ( ) 2 2 1 log log i G H i X w OR OR     = −       ∑ (3.21) che, sotto l’ipotesi nulla che gli odds ratio siano costanti tra gli strati, si distribuisce come una chi quadro con gradi di libertà pari al numero dgli strati meno 1. Rifiuteremo pertanto l’assunzione di omogeneità quando 2 H X è sufficientemente elevato. Con i dati di Tab. 3.20 si ottiene: 2 2 2 3.017 0.221 H fd X p χ = → = ∼ Quindi, nonostante la apparente differenza tra glo odds ratio nei vari strati, il test indica che tale fluttuazione è giustificabile dal campionamento.a La stessa analisi può essere condotta in modo senz’altro più agevole fittando tre modelli logistici. Tab. 3.20 Estimated Logistic Regression Coefficients for the Variable SMOKE, Log-Likelihood Ratio Test Statistic (G), and Resulting p-Value for Estimation of the Stratified Odds Ratio and Assessment of Homogeneity of Odds Ratios Across Strata Defined by RACE Model SMOKE Log-Likelihood G df p 1 0.704 -114.90 2 1.116 -109.99 9.83 2 0.007 3 1751 -108.41 3.16 2 0.206 Nel modello 1 è stata inclusa solo la variabile SMOKE, nel modello 2 è stata aggiunta la variabile RACE, infine nel modello 3 è stato inserito anche due termini di interazione SMOKExRACEb . L’odds ratio crudo (non aggiustato) risulta: a Si deve notare che questo test statistico fornisce risultati attendibili solo se la numerosità campionaria nei vari strati non è eccessivamente ridotta. Nell’esempio qui proposta tale assunzione è verificata. b Dato che la variabile RACE è su tre livelli, deve essere codificata con due variabili dummy. I termini di interazione sono SMOKExRACE2 e SMOKExRACE3
  • 54. 54 ( ) exp 0.704 2.02 NA OR = = Aggiustando per la variabile RACE, l’odds ratio stimato è: ( ) exp 1.116 3.05 ARACE OR = = Questo valore è molto simile all’odds ratio calcolato con il metodo di Mantel-Haenszel (3.086) e con il metodo basato sulla media pesata dei logit (2.95) La notevole differenza tra l’odds ratio crudo (2.02) e l’odds ratio aggiustato (3.05) indica che la variabile RACE ha un elevato effetto confondente. La verifica della omogeneità degli odds ratio tra i vari strati si conduce tramite un likelihood ratio test del modello 2 verso il modello 3 in cui si sono aggiunti i due termini di interazione. Il valore di questa statistica è G = 3.156. Sotto l’ipotesi nulla tale statistica si distribuisce come una chi quadro con due gradi di libertà (i due termini di interazione aggiunti nel modello 3 e determina un p-value di 0.206. Si conclude pertanto che l’interazione non è statisticamente significativa giustificando l’utilizzo dell’odds ratio globale (aggiustato per RACE). Come si vede l’utilizzo del modello logistico fornisce un mezzo rapido ed efficiente per ottenere la stima dell’odds ratio stratificato e per valutare l’assunzione di omogeneità tra gli strati. 3.9 Interpretazione dei valori fittati In questo paragrafo introdurremo la presentazione dei valori fittati e i relativi intervalli di confidenza. Inoltre esamineremo come può essere predetto un outcome per un soggetto che non rientra nel campione in esame. Come esempio consideriamo un modello comprendente LWT e RACE, applicato al data set relativo al Low Birh Weight Study, i cui coefficienti stimati con gli standard error associati sono riportati in Tab.3.21. Tab. 3.21 Estimated Coefficient for a Multiple Logistic Regression Model Using the Variables Weight at Last Menstrual Period (LWT) and from Low Birth Weight Study Variable Coeff. Std.Err. z P>|z| LWT -0.015 0.0064 -2.36 0.018 RACE_2 1.081 0.4881 2.22 0.027 RACE_3 0.481 0.3567 1.35 0.178 Constant 0.806 0.8452 0.95 0.340 Log-Likelihood = -111.630 Ad una donna di razza White con un peso di 150 pound è associato un logit pari a: ( ) 150, 0.806 0.015 150 1.081 0 0.481 0 1.444 g LWT RACE White = = = − ⋅ + ⋅ + ⋅ = − (3.22) e la probabilità logistica stimata risulta:
  • 55. 55 ( ) ( ) ( ) exp 1.444 150, 0.191 1 exp 1.444 LWT RACE White π − = = = = + − (3.23) L’interpretazione del valore fittato è la proporzione stimata di neonati a basso peso tra le donne di razza White aventi un peso di 150 pounds. Ora vogliamo tracciare un grafico che illustri gli effetti del peso della madre, di razza White, in corrispondenza dell’ultimo periodo mestruale sul peso del neonato. Dovremo ottenere via software i valori fittati per tutti i soggetti del data set (in questo caso di razza White) La Fig.3.4 e la Fig. 3.5 mostrano gli andamenti delle stime rispettivamente dei logit e delle probabilità associate con i relativi intervalli di confidenza. Fig. 3.4 Graph of the estimated logit of low weight birth and 95 percent confidence intervals as a function of weight at the last menstrual period for white women -4 -3 -2 -1 0 Estimated Logit 100 150 200 250 LWT
  • 56. 56 Fig. 3.5 Graph of the estimated probability of low weight birth and 95 percent confidence intervals as a function of weight at the last menstrual period for white women Utilizziamo ora il modello per stimare la probabilità di aver un neonato a basso peso per madri non rappresentate nel campione di 189 soggetti. Supponiamo ad esempio di voler determinare tale probabilità in una madre con un peso di 150 pounds e di razza Black. Dalle (3.22) e (3.23) si ha: ( ) 150, 0.806 0.015 150 1.081 1 0.481 0 0.363 g LWT RACE Black = = = − ⋅ + ⋅ + ⋅ = − ( ) ( ) ( ) exp 0.363 150, 0.41 1 exp 0.363 LWT RACE Black π − = = = = + − Per ottenere gli intervalli di confidenza delle stime dobbiamo risolvere la (2.16) con la matrice di covarianza riportata in Tab. 3.22 e un vettore dati x = [150,1,0,1]. 0 .1 .2 .3 .4 .5 Estimated Probability 100 150 200 250 LWT
  • 57. 57 Tab. 3.22 Estimated Covariance Matrix of the Estimated Coefficients in Tab. 3.21 LWT RACE_2 RACE_3 Constant LWT 0.000041 RACE_2 -0.000647 0.2382 RACE_3 0.000036 0.0532 0.1272 Constant -0.005210 0.0226 -0.1035 0.7143 ( ) ɵ ( ) var 150, var ' 0.1724 g LWT RACE Black x x   = = = ⋅ ⋅ =   β (3.24) L’intervallo di confidenza, al 95%, del logit vale: ( ) 95% 0.451 0.363 1.96 0.363 1.96 0.415 1.176 CI Logit se  = − ± ⋅ = − ± ⋅ =  −  ( ) 95% 0.611 Probability 0.235 CI  =   Come nel caso di ogni modello di regressione, dobbiamo prestare attenzione a non estendere le nostre inferenze al di fuori del range dei dati. Il range di LWT relativo alle 26 madri di sesso Black è 98-241 pounds. Notiamo come un peso di 150 pounds si trovi all’interno del range dei dati.
  • 58. 58 Applicazione Capitolo 3 Tab. 3.3 . use "C:docbScuola2010logisticchapter1.dta" . generate agec=0 . replace agec=1 if age >=55 (27 real changes made) . tabulate chd agec | agec chd | 0 1 | Total -----------+----------------------+---------- 0 | 51 6 | 57 1 | 22 21 | 43 -----------+----------------------+---------- Total | 73 27 | 100 . logit chd agec Iteration 0: log likelihood = -68.331491 Iteration 1: log likelihood = -59.020453 Iteration 2: log likelihood = -58.979594 Iteration 3: log likelihood = -58.979565 Logistic regression Number of obs = 100 LR chi2(1) = 18.70 Prob > chi2 = 0.0000 Log likelihood = -58.979565 Pseudo R2 = 0.1369 ------------------------------------------------------------------------------ chd | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- agec | 2.093546 .5285335 3.96 0.000 1.057639 3.129453 _cons | -.8407832 .2550733 -3.30 0.001 -1.340718 -.3408487 ------------------------------------------------------------------------------ Tab. 3.5 . clear . input race chd cnt race chd cnt 1 1 5 2 1 20 3 1 15 4 1 10 1 0 20 2 0 10 3 0 10 4 0 10 . end . expand cnt