• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Regresie
 

Regresie

on

  • 24,572 views

 

Statistics

Views

Total Views
24,572
Views on SlideShare
24,420
Embed Views
152

Actions

Likes
4
Downloads
314
Comments
1

2 Embeds 152

http://www.slideshare.net 151
http://webcache.googleusercontent.com 1

Accessibility

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

11 of 1 previous next

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • ...excelent pentru ce ma intereseaza!!!...
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • 7
  • 91
  • 24 This teleology is based on the number of explanatory variables & nature of relationship between X & Y.
  • 52
  • 105
  • 115
  • 118 The closer to the mean, the less variability. This is due to the variability in estimated slope parameters.
  • 121
  • 122 Note the 1 under the radical in the standard error formula. The effect of the extra Syx is to increase the width of the interval. This will be seen in the interval bands.
  • 123 The error in predicting some future value of Y is the sum of 2 errors: 1. the error of estimating the mean Y , E(Y|X) 2. the random error that is a component of the value of Y to be predicted. Even if we knew the population regression line exactly, we would still make  error.
  • 124 Note: 1. As we move farther from the mean, the bands get wider. 2. The prediction interval bands are wider. Why? (extra Syx)

Regresie Regresie Presentation Transcript

  • REGRESIE SI CORELATIE
  • Regresia – scurt istoric al termenului
    • Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei victoriene, fiind cel care a introdus termenii de regresi e şi corelaţie statistică
    • Originea regresiei ca metodă statistică se află în studiile sale de genetică aplicată în studiul plantelor- 1877
    • Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că există o legătură liniară între diametrele acestor boabe şi diametrele boabelor recoltate de la noile plante. El a numit iniţial panta acestei drepte “coefficient of reversion”, schimb îndu-i apoi numele în “ coefficient of regression ”.
    • Termenul de regresie provine de la descoperirile sale în domeniul eredităţii: în general, progeniturile indivizilor geniali au abilităţi care îi aşază mai degrabă la nivelul mediei; de asemenea, înalţimea copiilor proveniţi din taţi foarte înalţi se apropie mai mult de înălţimea medie decît înălţimea taţilor.
  • Modele
    • Un model este o reprezentare a unui anumit fenomen
    • Model matematic - o reprezentare matematică a unui fenomen
    • De cele mai multe ori un model descrie legăturile existente între două sau mai multe variabile
    • În general, sînt două clase de modele:
      • Modele deterministe
      • Modele probabiliste
    • Modele deterministe
      • Exprimă o relaţie exactă între variabile
      • Teoretic, eroarea de previziune este nulă
      • Exemplu:
      • Principiul al doilea al mecanicii newtoniene:
      • F = m.a
    • Modele probabiliste
      • Componenta deterministă
      • Componenta aleatoare
      • Eroarea de previziune este nenulă
      • Componenta aleatoare poate fi datorată factorilor obiectivi, ce nu sînt incluşi în model
      • Exemplu: Volumul vînzărilor=10 * Cheltuielile cu publicitatea + Componenta aleatoare
  • Tipuri de modele probabiliste Modele probabiliste Modele de regresie Modele de corelatie Alte modele
  • Regresia – metodă de modelare a legăturilor dintre variabile
    • În general, orice fenomen este rezultatul acţiunii unuia sau mai multor factori
    • Exprimarea matematică:
    Variabila dependentă (variabila endogenă) Variabile independente (variabile exogene /explicative) Variabila rezidual ă
  • Exemplu: Legea lui Keynes privind legătura dintre venit şi consum
    • Suma cheltuită pentru consum depinde de:
      • mărimea venitului pe de o parte
      • alte obiective în funcţie de circumstanţe (de exemplu investiţiile)
      • alte nevoi subiective
    • „ O persoană este dispusă de regulă şi în medie să îşi crească consumul pe măsura creşterii venitului dar nu în aceeaşi măsură”
    • Modelul de regresie: C=  +  V+  , unde 0 <  <1 .
  • Ipotezele modelului de regresie (Ipotezele Gauss -Markov)
    • 1. Normal itatea
      • Valorile Y sînt normal distribuite pentru orice X
      • Erorile sînt normal distribuite cu medie zero E( ε i )=0  i
    • 2. Homoscedasticit atea ( dispersie constantă )
    • 3. Necorelarea erorilor E( ε i ε k )=0 (i<> k )
    • 4. Liniaritatea
    • 5. Variab ilele sînt măsurate fără eroare
      • ( caracter nestochastic )
    • Forma funcţională
    • Ipoteza de linearitate nu este atât de restrictivă pe cât pare. Aceasta se referă la felul în care parametrii intră în ecuaţie, nu neapărat la relaţia între variabilele x şi y.
    • În general modele pot fi linearizate.
        • y=a+bx
        • y=a+bz, z=e x
        • y=a+br, r=1/x
        • y=a+bq, q=ln(x)
    • y=  x β  ln(y)=  +  ln(x)
    • Forma generală: f(yi)=  +  g(xi)+  i
    • Contra exemplu: nu poate fi transformat în model liniar.
  • Modele ce pot fi linearizate
    • Ipoteza că media erorilor este zero: E(  i)=0  i , este naturală atâta timp cât  este văzută ca suma efectelor individuale, cu semne diferite. Dacă media erorilor este diferită de zero, ea poate fi considerată ca o parte sistematică a regresiei:
    • media erorilor fiind acum nulă.
    • Ipoteza de homoscedasticitate: Var(  i)=  2 constantă  i
    • Se consideră un model care descrie consumul unor gospodării în funcţie de venitul acestora. În acest caz, consumul gospodăriilor mari pot varia mult mai mult faţă de consumul gospodăriilor cu venituri mici. Deci ipoteza de homoscedasticitate nu este respectată .
    E(  )=    +  x +  = (  +  ) +  x + (  -  )
  • Exemplu de încălcare a ipotezei de homoscedasticitate
    • Necorelarea erorilor: E(  i  j)=0  i  j
    • Această ipoteză nu implică faptul că yi şi yj sunt necorelate, ci faptul că deviaţiile observaţiilor de la valorile lor aşteptate sunt necorelate.
    • Ipoteza de normalitate a erorilor  i  N(0,  2 )
    • Este o ipoteză de lucru, tehnică, ce permite obţinerea unor estimatori “buni”.
    • Dac ă ipotezele precedente sînt respectate, vom obţine estimatori B.L.U.E. ( B est L inear U nbiased E stimators)
  • Ipotezele de normalitate şi homoscedasticitate
  • Variaţia erorilor în jurul dreptei de regresie X 1 X 2 X Y f(e) Valorile y sînt normal distribu i te în jurul dreptei de regresie . Pentru fiecare valoare x , dispersia în jurul dreptei de regresie este constantă . Dreapta de regresie
  • Clasificarea modelelor de regresie Modele de regresie Linear Non- Linear 2+ Variabile explicative Simple Multiple Linear 1 Variabilă explicativă Non- Linear
  • Tipuri de modele de regresie Legătură liniară directă Legătură liniară inversă Legătură neliniară Absenţa vreunei legături
  • Modelul de regresie liniară simplă
  • Exemplu practic
    • Există o legătură între suprafaţa unor apartamente din zona centrală şi preţul de închiriere a acestora?
    • Selectăm aleator 25 de astfel de apartamente la care urmărim valorile celor două variabile X – suprafaţa(m2) şi Y – chiria lunară(RON).
  • Regresia folosind EXCEL Accesăm meniul TOOLS >DATA ANALYSIS>REGRESSION
  • Regresia folosind EXCEL Select ăm valorile variabilelor
  •  
  • Corelograma(Scatter plot)
    • Graficul punctelor de coordonate (X i ,Y i ), i=1,n.
  • Modelul de regresie liniară simplă Y intercept ( termenul constant ) Panta dreptei de regresie Variabila de perturbaţie Variabila dependentă(răspuns) Variabila independentă (explicativă)
    • Pe ba za corelogramei este rezonabil să presupunem că media variabilei Y depinde de X printr-o relaţie liniară:
    • Atunci modelul de regresie liniară simplă este dat de relaţia următoare:
  • Dacă presupunem că media şi dispersia lui  sînt 0 şi  2 , atunci media lui Y pentru o valoare particulară a lui X este dată de relaţia: Dispersia lui Y pentru o valoare particulară a lui X este dată de relaţia: Media şi dispersia variabilei dependente
    • La nivelul populaţiei regresia se reduce la exprimarea mediei condiţionate a lui Y :
    • unde  1 are semnificaţia unui coeficient de elasticitate: arată modificarea lui Y la o modificare cu o unitate a lui x .
    • De asemenea, variabilitatea lui Y pentru o valoare particulară x este determinată de dispersia variabilei reziduale ,  2 .
    • Există o distribuţie a valorilor lui Y pentru fiecare x şi dispersia acestei distribuţii este constantă pentru orice x .
  • Distribuţia condiţionată a lui Y Y X Dreapta de regresie
  • Modelul de regresie liniară la nivelul populaţiei  i = Eroarea Y X Valoarea observată Valoarea observată    YX i X   0 1 Y X i i i       0 1 (E(Y))
  • Modelul de regresie liniară la nivelul eşantionului Y i  = Valoarea estimată a lui Y pentru observaţia i X i = Valoarea lui X pentru observaţia i = Estimatorul termenului liber  0 = Estimatorul pantei  1
  • Estimarea parametrilor modelului de regresie
    • Metoda celor mai mici pătrate(M.C.M.M.P.) –Least Squares(L.S.)
    • Presupunem că avem n perechi de observaţii ( x 1 , y 1 ), (x 2 , y 2 ), …, ( x n , y n ).
    • Ideea este să minimizăm distanţa dintre valorile estimate şi valorile reale
    • Ne reamintim că deci
  • Ilustrare grafică
    • Condiţiile de minim:
    • Simplificînd, obţinem sistemul de ecuaţii normale
  • Estimatorii modelului de regresie
  • Notaţii
    • Valoarea estimată:
    • Valoarea reziduală(reziduul):
    • Dacă notăm suma pătratelor erorilor de regresie
    • atunci un estimator al varianţei variabilei reziduale este
    Estimatorul dispersiei modelului
  • Propriet ăţile estimatorilor modelului de regresie
  • Distribuţia estimatorului pantei de regresie
    • All Possible Sample Slopes
    • Sample 1: 2.5
    • Sample 2: 1.6
    • Sample 3: 1.8
    • Sample 4: 2.1 : : Very large number of sample slopes
    Sampling Distribution  1  1 S ^ ^
  • Eroarea standard a estimatorilor Erorile standard vor fi folosite la testarea semnificaţiei parametrilor modelului de regresie
  • Testul t pentru panta dreptei de regresie(slope)
    • Valoarea critică:
    • Caz particular:
  • Exemple de acceptare a ipotezei
  • Exemple de respingere a ipotezei
  • Testul t pentru termenul liber(intercept)
    • Valoarea critică:
  • Intervale de încredere pentru parametrii modelului
    • Pentru termenul liber (intercept)
    • Pentru panta dreptei de regresie(slope)
      • unde este estimatorul dispersiei modelului.
  • Teorema Gauss-Markov
    • Estimatorii obţinuţi prin metoda celor mai mici pătrate sînt B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai mic ă decît cei obţinuţi prin MCMMP.
  • Exemplu-chiria ca func ţie de suprafaţă
    • Panta dreptei de regresie este pozitivă, deci există o legătură directă între chirie şi suprafaţa apartamentelor.
    • În plus, dacă chiria creşte cu o unitate(1 m2) ,chiria va creşte cu 10.640 lei.
    • Doar panta dreptei de regresie este semnifcativ diferită de zero.
    • P-value – probabilitatea ipotezei ca parametrul estimat să fie egal cu zero; dacă P-value este mai mic decît pragul de semnificaţie atunci respingem această ipoteză.
  • Analiza varianţei pentru modelul de regresie
    • Dacă între X şi Y nu există nici o legătură, atunci putem face predicţii privind valoarea medie a lui Y pentru orice valoare a lui X
    • Dacă există o legătură între X şi Y, în ce măsură cunoaşterea valorilor lui X poate explica abaterea variabilei dependente de la media sa?
    • Abaterea totala = abaterea explicata + Abaterea reziduala
  • Descompunerea variaţiei X i Y i = β ^ 0 + β ^ 1 X i Y X Y SST =  ( Y i - Y ) 2 SSE =  ( Y i - Y i ) 2  SSR =  ( Y i - Y ) 2   _ _ _
  • ANOVA pentru regresie S ST = SSR + SSE SST = Total Sum of Squares Măsoară variaţia valorilor observate Y i în jurul mediei Y _ SS R = Regression Sum of Squares Măsoară variaţia explicată de modelul de regresie SS E = Error Sum of Squares Măsoară variaţia ce poate fi atribuită altor factori, diferiţi de variabila explicativă X
  •  
  • Coeficientul de determinaţie R 2
    • Este o măsură a proporţiei varianţei explicate de model
    • R 2 este afectat de creşterea numărului de parametri; de aceea pentru modele cu multi parametri se calculează R 2 ajustat, care are aceeaşi interpretare.
  • Exemplu-chiria ca func ţie de suprafaţă
    • Modelul explică 72.23% din variaţia chiriei pentru apartamentele din zona centrală Standard Error :
  • Observaţii
    • R 2 este adesea folosit pentru a alege cel mai bun model din punctul de vedere al varianţei explicate.
    • Comparaţiile de acest fel trebuie făcute între modele de aceeaşi natură.
  • Foarte important!!
    • Pentru modele de regresie fără termen liber, de tipul
    • R 2 nu mai are semnificaţia de proporţie a varianţei explicate.
    • Exemplu: considerăm două astfel de modele
    • Deşi ar părea că modelul al doilea este mai performant, nu sînt argumente pentru a susţine această ipoteză
  • Coeficientul de determinaţie şi coeficientul de corelaţie liniară R 2 = 1, R 2 = 1, R 2 = .8, R 2 = 0, Y Y i = b 0 + b 1 X i X ^ Y Y i = b 0 + b 1 X i X ^ Y Y i = b 0 + b 1 X i X ^ Y Y i = b 0 + b 1 X i X ^ r = +1 r = -1 r = +0.9 r = 0
  • Tabelul ANOVA Testul este folosit la verificarea validităţii modelului. Un model este valid dacă proporţia varianţei explicate prin model este semnificativă. Ipoteza nulă pentru testul F in cazul acesta este cea de model nevalid. k-numărul de parametrii ai modelului
  • ANOVA
  • Predicţia folosind modelul de regresie
    • 1. Tipuri de predicţii
      • Estimări punctuale
      • Estimări pe intervale de încredere
    • 2. Care e obiectul predicţiei?
      • Media populaţiei E ( Y ) pentru o valoare particulară a lui X
      • Valoarea individuală ( Y i ) pentru o valoare particulară a lui X
  • Ce prezicem
  • Interval de încredere pentru media lui Y
  • Factori care afectează lungimea intervalului de încredere
    • 1. Nivelul de încredere (1 -  )
      • Creşterea nivelului de încredere duce la creşterea intervalului de încredere
    • 2. Dispersia datelor ( σ )
      • Creşterea dispersiei duce la creşterea intervalului de încredere
    • 3. Volumul eşantionului
      • Creşterea volumului eşantionului duce la micşorarea intervalului de încredere
    • 4. Distanţa lui X p faţă de media  X
      • Creşterea acestei distante duce la creşterea intervalului de încredere
  • Distanţa lui X p faţă de media  X Dispersie mai mare decît la X 1  X
  • Exemplu
    • Un analist de marketing stabileşte că volumul vînzărilor depinde liniar de cheltuielile cu reclama . Estimează un model de regresie şi obţine β 0 = -.1, β 1 = .7 & s = .60553 .
    • Cheltuieli cu reclama $ Vînzări ( bucăţi ) 1 1 2 1 3 2 4 2 5 4
    • Cît vor fi vînzările medii dacă se cheltuiesc 4 $ pentru reclamă?
    • alfa=0.05
  • Soluţie Valoarea particulară pentru X
  • Interval de predicţie pentru valori particulare
  • Predicţia
  • Hyperbolic Interval Bands
  • Predicţia pentru modelul particular de regresie dintre chirie şi suprafaţă Valoarea suprafeţei pentru un apartament Chiria prezisă de model pentru un apartament cu suprafaţa de 100 m2 Interval de încredere pentru chiria medie a unui apartament cu suprafaţa de 100 m2 Interval de încredere pentru chiria unui apartament cu suprafaţa de 100 m2
  • Verificarea ipotezelor privind variabila reziduala
    • Variabila eroare este normal distribuita
    • Folosim valorile variabilei reziduale standardizate
  • Standardized residual i = Residual i / Standard deviation
  •  
  • Normal Probability Plot
  •  
  • Variabilele reziduale sînt necorelate?
  •  
    • Variabila reziduala are varianta constanta: Homoscedasticitate/Heteroscedasticitate
      • Daca este incalcata conditia variantei constante suntem in cazul heteroscedasticitatii.
    + + + + + + + + + + + + + + + + + + + + + + + + y ^ Residual Imprastierea creste odata cu y ^ y + + + + + + + + + + + + + + + + + + + + + + +
    • Daca varianta este constanta avem homoscedasticitate
    + + + + + + + + + + + + + + + + + + + + + + + + y ^ Residual ^ y + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
  • + + + + + + + + + + + + + + + + + + + + + + + + + Time Residual Residual Time + + + Independenta erorilor in timp Tipuri de variabila reziduala care indica exixtenta autocorelatiei erorilor In timp. 0 0
  • REGRESIE MULTIPLA
  • Regresie multipla
    • y =  0 +  1 x 1 +  2 x 2 + …+  k x k + 
    Coeficienti de regresie Variabila eroare Variabila Dependenta Variabile Independente
      • La Quinta Motor Inns doreste construirea unui nou hotel.
      • Managementul doreste sa stabileasca locatia probabil cea mai profitabila.
      • Profitabilitatea unei locatii depinde de factori cum sunt:
        • Competition
        • Market awareness
        • Demand generators
        • Demographics
        • Physical quality
    Examplu Stabilirea locatiei unui hotel
  • Profitability Competition Market awareness Customers Community Margin Rooms Nearest Office space College enrollment Income Disttwn Distance to downtown. Median household income. Distance to the nearest La Quinta inn. Number of hotels/motels rooms within 3 miles from the site. Physical
      • Se folosesc date pentru un esantion de 100 hoteluri care apartin La Quinta, si se foloseste urmatorul model :
    • Margin =     Rooms   Nearest   Office   College
    • +  5 Income +  6 Disttwn +
  • MARGIN = 72.455 - 0.008 ROOMS - 1.646 NEAREST + 0.02 OFFICE +0.212 COLLEGE - 0.413 INCOME + 0.225 DISTTWN
    • Utilizarea modelului
      • Predictiepentru un hotel cu urmatoarele caracteristici:
        • 3815 rooms within 3 miles,
        • Closet competitor 3.4 miles away,
        • 476,000 sq-ft of office space,
        • 24,500 college students,
        • $39,000 median household income,
        • 3.6 miles distance to downtown center.
    MARGIN = 72.455 - 0.008 (3815) - 1.646 (3.4) + 0.02( 476) +0.212 (24.5) - 0.413( 39) + 0.225 (3.6) = 37.1%
  • Testul Durbin - Watson
  • + + + + + + + + + + Residuals Time Autocorelatie de ordinul I pozitiva Autocorelatie de ordinul I pozitiva Autocorelatie de ordinul I negativa + + + + 0 0 Residuals Time + Autocorelatie de ordinul I negativa
    • TEST UNILATERAL
      • Daca d<d L exista autocorelatie de ordinul I pozitiva
      • If d>d U nu exista autocorelatie de ordinul I pozitiva
      • Daca d este intre d L si d U indecizie.
      • Daca d>4-d L ,exista autocorelatie de ordinul I negativa
      • Daca d<4-d U , nu exista autocorelatie de ordinul I negativa
      • Daca d este intre 4-d U and 4-d L indecizie
  • d L d U 2 0 4 4-d U 4-d L Auto corelatie Auto corelatie indecizie Indecizie Indepen denta Indepen denta
  • Variabile calitative
    • In many real-life situations one or more independent variables are qualitative.
    • Including qualitative variables in a regression analysis model is done via indicator variables.
    • An indicator variable (I) can assume one out of two values, “zero” or “one”.
    1 if a first condition out of two is met 0 if a second condition out of two is met I= 1 if data were collected before 1980 0 if data were collected after 1980 1 if the temperature was below 50 o 0 if the temperature was 50 o or more 1 if a degree earned is in Finance 0 if a degree earned is not in Finance
  • Variabile calitative
    • Consideram ca pretul este determinat si de culoarea masinii.
    • Consideram trei culori :
      • White
      • Silver
      • Other colors
    I 1 = 1 if the color is white 0 if the color is not white I 2 = 1 if the color is silver 0 if the color is not silver
      • Folosim modelul y =  0 +  1 (Odometer) +  2 I 1 +  3 I 2 + 
    White car Other color Silver color
  •