2. Regresia prin origine (I)
Situaţii în care am putea construi un
model de regresie prin origine:
În urma testării parametrilor modelului,
parametrul β0 are o valoare nesemnificativă
statistic, iar parametrul β1 este semnificativ
statistic;
Există suport teoretic care să impună
estimarea unui model care trece prin origine –
lipsa influenţei variabilei independente conduce
la o medie zero pentru variabila dependentă
(analiza de cost, legătura dintre lungimea şi
greutatea frunzelor unui copac).
2
3. Regresia prin origine (II)
Pentru un eşantion de 100 de sturioni, se studiază legătura
dintre numărul de ouă depuse şi lungimea peştelui.
3
4. Regresia prin origine (III)
În cazul modelului de regresie Y = β1 X + ε
aplicarea metodei celor mai mici pătrate
se simplifică.
Problema de minim care trebuie rezolvată
este de forma:
4
5. Regresia prin origine (IV)
ˆ
Estimatorul β1 este nedeplasat
Avem n-1 grade de libertate
Probleme ale utilizării în practică:
Suma erorilor nu mai este zero;
R2 poate fi negativ sau poate avea o valoare foarte
mare, prin urmare interpretarea acestuia nu mai are
sens. Se utilizează o variantă a lui R 2, şi anume:
Aceste probleme dispar dacă modelul de regresie
liniară are variabilele standardizate. În acest caz,
panta dreptei de regresie are aceeaşi valoare cu
coeficientul de corelaţie Pearson.
5
6. Modelul liniar multiplu (I)
Forma generală a modelului liniar multiplu este dată
prin relaţia:
Y = M ( Y / X ) + ε = β 0 + β 1 X 1 + β 2 X 2 + ... + β p X p + ε
unde:
Y - variabila dependentă;
X , X ,…,X ,…,X - variabile independente (predictori);
1
2
i
p
ε - variabilă reziduu de modelare (variabila aleatoare);
β - parametrii modelului de regresie
i
k - numărul de parametri din model, k=p+1.
Exemplu:
Pentru un eşantion de 50 de mărci de cereale, se
poate studia legătura dintre ratingul acordat de consumatori
unei mărci de cereale şi factorii de influenţă (nr. de calorii, de
grame de grăsimi, de zahăr, de fibre, etc.)
6
7. Modelul liniar multiplu (II)
Cei k parametri ai modelului liniar multiplu au următoarea
semnificaţie:
β – valoarea medie a variabilei dependente Y, în condiţiile
0
în care influenţa variabilelor independente ar fi nulă;
∂Y
βi =
, i = 1, p
∂X i
- variaţia absolută a variabilei
dependente la o variaţie absolută cu o unitate a variabilei
independente Xi, în condiţiile în care influenţa celorlalte
variabile independente este menţinută constantă. Arată
influenţa parţială a fiecărei variabile independente asupra
variabilei dependente.
7
8. Modelul liniar multiplu (3)
Ipotezele modelului clasic de regresie:
-variabilele
independente sunt nestochastice
-normalitatea
erorilor :
ε i ~ N (0, σ 2 )
-homoscedasticitate:
V ( ε i ) = M ( ε i2 ) = σ 2
-necorelarea
cov( ε i ,ε j ) = 0
-lipsa
erorilor:
corelaţiei dintre variabilele independente şi variabila
eroare
- lipsa coliniarităţii sau a unei legături liniare între variabilele
independente
8
9. Estimarea parametrilor modelului multiplu liniar
Se consideră modelul de regresie liniară multiplă cu două variabile
independente:
y i = β 0 + β 1 x1i + β 2 x 2 i + ε i
La nivelul unui eşantion, modelul devine:
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
y i = β 0 + β 1 x1i + β 2 x 2 i + ε i sau y i = y i + ε i
Rezultă
ˆ
ˆ
ˆ
ε i = y i − ˆ i = y i − β 0 − β 1 x1i − β 2 x 2 i
y
Estimarea parametrilor modelului prin metoda celor mai mici
pătrate presupune respectarea condiţiei:
n
2
ˆ
ˆ
ˆ2
∑ ε i = min im, adică ∑ ( y i − β 0 − β 1 x1i − β 2 x 2 i ) = min im
i =1
i
9
10. Estimarea parametrilor modelului multiplu liniar
(II)
Pentru satisfacerea condiţiei MCMMP trebuie ca
derivatele parţiale de ordin I în raport cu coeficienţii
modelului să se anuleze. Astfel se va obţine un sistem de
2+1=3 ecuaţii cu 3 necunoscute.
n
ˆ + β ∑x + β ∑x = ∑ y
ˆ n
ˆ n
nβ0
1
1i
2
2i
i
i =1
i =1
i =1
n
n
ˆ ∑x + β ∑x 2 + β ∑x x = ∑ y x
ˆ n
ˆ n
β0
1i
1
1i
2
1i 2i
i 1i
i =1
i =1
i =1
i =1
n
n
n
n
i =1
i =1
i =1
i =1
2
ˆ
ˆ
ˆ
β0 ∑ x2i + β1 ∑ x1i x2i +β2 ∑ x2i = ∑ yi x2i
10
11. Estimarea parametrilor modelului multiplu
liniar (III)
Estimarea punctuală a parametrilor modelului
La nivelul unui eşantion de date, sistemul de ecuaţii devine:
n
n
n
i =1
i =1
i =1
nb0 + b1 ∑ x1i + b2 ∑ x2i = ∑ yi
n
n
n
n
i =1
i =1
i =1
i =1
n
n
n
i =1
i =1
i =1
b0 ∑ x1i + b1 ∑ x + b2 ∑ x1i x2i = ∑ yi x1i
2
1i
n
b0 ∑ x2i + b1 ∑ x1i x2i +b2 ∑ x = ∑ yi x2i
2
2i
i =1
Prin rezolvarea sistemului, se obţin relaţiile pentru estimaţiile
parametrilor modelului de regresie.
Exemplu: Rating = 61.1 - 3.07 Grăsimi - 2.21 Zahăr
11
12. Estimarea parametrilor modelului multiplu
liniar (IV)
Estimarea
parametrilor prin interval
de încredere
Intervalele de încredere sunt de
forma:
ˆ
ˆˆ
β i ∈ [ β i ± tα / 2 ,n − k σ β i ]
La nivelul unui eşantion de date se
obţine un interval de forma:
[
β i ∈ bi − tα / 2,n − k sβˆ , bi + tα / 2,n − k sβˆ
i
i
]
12
13. Testarea parametrilor modelului liniar
multiplu (I)
Testarea parametrilor modelului multiplu liniar se face
la fel ca în cazul modelului simplu liniar:
1. Formularea ipotezelor:
H0: βi = 0
H 1: β i ≠ 0
2. Alegerea pragului de semnificaţie α
De regulă, se asumă un risc α = 0,05.
3. Alegerea statisticii test
ˆ
βi
t=
ˆˆ
σβ
i
13
14. Testarea parametrilor modelului
liniar multiplu (II)
4. Valoarea teoretică a statisticii test
Pentru pragul de semnificaţie ales şi v=n-k grade de libertate,
se citeşte valoarea teoretică din tabela Student: tα/2;n-k
5. Valoarea calculată a statisticii test
La nivelul eşantionului se determină valoarea calculată a
testului:
t calc
bi
=
sβ
ˆ
i
6. Regula de decizie
Dacă t calc > tα / 2 se respinge H0
Dacă
t calc ≤ tα / 2 se acceptă H0, pentru risc asumat de 5%.
14
15. Testarea parametrilor modelului
liniar multiplu (III)
În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):
- dacă Sig t < α , se respinge H0
-dacă Sig t ≥ α , se acceptă H0, pentru un nivel de încredere
de 95%.
7. Compararea celor două valori ale statisticii test şi
luarea deciziei
8. Interpretarea rezultatului testării
15
16. Testarea modelului de regresie (I)
Testarea modelului de regresie se realizează cu ajutorul testului F,
după următorul demers:
1. Formularea ipotezelor
H0: β0=β1=…=βp=0 (modelul nu este semnificativ)
H1: nu toţi coeficienţii sunt simultan zero
2. Alegerea pragului de semnificaţie α
3. Alegerea statisticii test
ˆ
ˆ
VE n − k
η2 n − k
F=
⋅
=
⋅
ˆ k − 1 1 − η 2 k − 1 ~F(k-1, n-k)
ˆ
VR
4. Valoarea teoretică a statisticii test: F α, k-1, n-k
5. Valoarea calculată a testului:
ESS n − k
R2 n − k
F=
⋅
=
⋅
2
RSS k − 1 1 − R k − 1
16
17. Testarea modelului de regresie (II)
6. Regula de decizie
Dacă Fcalc > Fk −1,n − k se respinge H0
Dacă
Fcalc ≤ Fk −1,n − k se acceptă H0, pentru risc asumat de 5%.
În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):
- dacă Sig F < α , se respinge H0
-dacă
95%.
Sig F ≥ α , se acceptă H , pentru un nivel de încredere de
0
7. Compararea celor două valori ale statisticii test şi luarea
deciziei
8. Interpretarea rezultatului testării
17
18. EXEMPLU
Pentru un eşantion de mărci de
cereale, se studiază legătura
dintre ratingul acordat de
consumatori unei mărci de
cereale şi nr. de grame de
grăsimi, de zahăr şi de fibre.
18
19. Model Summary
Model
1
R
R Square
a
,789
,622
Adjusted
R Square
,612
Std. Error of
the Estimate
8,75456
a. Predictors: (Constant), sugars, fat
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
9325,268
5671,533
14996,800
df
2
74
76
Mean Square
4662,634
76,642
F
60,836
Sig.
,000a
a. Predictors: (Constant), sugars, fat
b. Dependent Variable: rating
a
Coefficients
Model
1
(Constant)
fat
sugars
Unstandardized
Coefficients
B
Std. Error
61,089
1,953
-3,066
1,036
-2,213
,235
Standardized
Coefficients
Beta
-,220
-,700
t
31,284
-2,958
-9,428
Sig.
,000
,004
,000
a. Dependent Variable: rating
19
20. Model Summary
Model
1
R
,930a
R Square
,865
Adjusted
R Square
,859
Std. Error of
the Estimate
5,35086
a. Predictors: (Constant), fat, fiber, sugars
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
12503,728
1946,958
14450,686
df
Mean Square
4167,909
28,632
3
68
71
F
145,570
Sig.
,000a
a. Predictors: (Constant), fat, fiber, sugars
b. Dependent Variable: rating
a
Coefficients
Model
1
(Constant)
fiber
sugars
fat
Unstandardized
Coefficients
B
Std. Error
53,673
1,389
2,938
,261
-1,992
,150
-3,347
,656
Standardized
Coefficients
Beta
,507
-,622
-,238
t
38,637
11,265
-13,238
-5,103
Sig.
,000
,000
,000
,000
a. Dependent Variable: rating
20