SlideShare a Scribd company logo
1
Kesikli Regresyon
ve
Hecman Örneklemi
Seçim Düzeltmeleri
©
Kesikli Regresyon
Kesikli regresyon sansürlü regresondan
farklıdır:
Sansürlü regresyonlar: bağımlı değişken
sansürlü olabilir, ama regresyona
sansürlü gözlemler katıla bilir
Kesikli regresyonlar: Gözlemlerin alt
kümesi düşürülür, böylece, sadece kesikli
veriler regresyonda kullanılır.
2
Veri kesmenin sebepleri
Örnek 1 (Anket tasarımı ile kesme):
“Gary‟nin negatif gelir deneme verileri”,
ekonmi literatüründe sık sık kullanılır.
Örnekler sadece 1976 yılında gelirleri
yoksulluk sınırından 1.5 defa az olan
aileleri içerir. Bu durumda, gelirleri
yoksulluk sınırından fazla olanlar anket
tasarımı nedeni ile regresyondan atılır.
3
Örnek 2 (Rassal kesme): Evli kadınların
ücret teklifi regresyondaki, sadece ücret
bilgileri olan çalışanlar. Böyece,
çalışmayan kadınlar regresyonda yer
almaz. Bu durum, anketçinin kararı değil
insanların kararıdır, ki bu da örnek
seçimini belirler.
4
Kesikli verilere EKK uygulandığında
sapmaya neden olur
Kesikle verilerle çalışmaya başlamadan
önce, bilmek gerekir ki, kesikli verilere
EKK uygulandığında sonuçlar sapmalı
olacak.
5
Aşağıdaki regresyon modeli ile
çalışdığımızı
yi=β0+β1xi+ui
ve örneklem hacmimizin N olduğunu
varsayalım. Ayrıca tüm EKK
varsayımlarının sağlandığını
varsayılmaktadır. (En önemli varsayım
E(ui|xi)=0)
6
Tüm gözlemler yerine, sadece orjinal
gözlemlerin altkümesini (kesikli örnek)
kullandığımızı düşünerek EKK ile tahmin
yapalım.
Hangi şartlar altında EKK sapmasız hangi
şartlar altında sapmalı olacak?
7
A: Seçilmiş altküme(kesikli veri) ne zaman
samasız olur?
(A-1) Örnek seçimi rassal olduğunda.
(A-2) Örnek seçimi sadece x‟in değerlerine bağlı
olarak belirlenir. Örnek olarak, x‟in yaş olduğunu
varsayalım. Eğer 20 yaşından büyükleri seçersek
EKK sapmasız olur.
8
B: EKK kullanıldığında seçilmiş
altküme(kesikli veri) ne zaman sapmalı
olur?
(B-1) Örneklem seçimi y’nin değerlerine bağlı
olduğunda. Örnek olarak: y‟nin aile gelirlerini
gösterdiğini varsayalım. y‟nin belirli eşik
değerden büyük olduğu örneği seçersek ,EKK
sapmalı sonuçlar verir.
9
(B-2) Örnek seçimi ui ile korelasyonlu olursa .
Örnek: eğer ücret regresyonu ile çalışırsak:
wage=β0+β1(educ)+u, burada u
gözlemlenmeyen yeteneği içeriyor. Eğer
örneklem gözlemlenemeyen yeteneğe bağlı
seçilirse EKK sapmalı sonuçlar verir.
Uygulamada, bu durum seçimin anket
katılımcısının kararına bağlı olduğunda ortaya
çıkar. Örnek: ücret regresyonunda, bireyin
çalışıp çalışmaması, bireyin verilere katılıp
katılmamasını belirler. Karar muhtemelen u‟yu
içeren gözlemlenemeyen faktörlere bağlı olduğu
için, seçim muhtemelen u ile korelasyonlu
olacak.
10
Bu koşullar neden kesikli verilere EKK uygulandığında
sapmasız/sapmalı olduğunu gösteriyor
Artık, kesikli verilere EKK
uygulandığında sonuçların sapmalı veya
sapmasız olduğunun hangi koşullar
altında olduğunu biliyoruz.
Bu koşulların sapmaların nedeni
olduğunu/nedeni olmadığını açıklayalım.
(Açıklamalarda bazı tekrarlar vardır, ama onlar daha
ayrıntılı bilgiler içeriyorlar. Bunları dikkatle okuyalım.)
11
Aşağıdaki regresyonla çalıştığımızı
varsayalım.
yi=β0+β1xi+ui
Bu regresyonun EKK‟nın tüm
varsayımlarını sağladığını varsayalım.
 si seçim göstergesi olsun: Eğer si=1 ise
birey regresyona dahil edilecek, si=0 ise
birey verilerden atılacak.
12
Seçilmiş altörnek ile EKK‟nın kurulması
sadece si=1 olan gözlemlerle EKK
kurulduğu anlamına gelir.
Bu aşağıdaki regresyonun kurulmasına
denk gelir.
siyi=β0si+β1sixi+siui
Bu regresyonda, sixi açıklayıcı değişken,
siui ise hata terimidir.
EKK‟nın sapmasızlık koşulu altında
önemli koşul, sıfır koşullu ortalama
varsayımıdır: E(siui|sixi)=0. Sonuç olarak
bunun hangi koşullar altında sağlandığını
kontrol etmemiz gerekir. 13
E(siui|sixi)=0 kontrol etmek için, eğer
E(siui|xi, si)=0 ise kontrol etmek önemlidir,
E(siui|sixi)=0 . (Eğer birinci sıfırsa, sonraki
da sıfırdır.)
si, koşullu kümede olan si „nin fonksiyonu
olduğu için E(siui|xi,si)=siE(ui|xi,si) . Sonuç
olarak, E(ui|xi, si)=0‟ı sağlayan koşulu
kontrol etmek yeterlidir.
Notasyonu kolaylaştırmak için i altindisini
çıkaralım. Bölyece koşulu E(u|x, s)=0
altında kontrol edeceğiz.
14
Seçilmiş altörnekle(kesikli veri) kurulan
EKK sapmasızdır.
(A-1) Örnek seçimi rassaldır.
Bu durumda, s, x ve u‟dan bağımsızdır.
E(u|x,s)=E(u|x). Ama, orjinal regresyon
EKK koşullarını sağladığı için E(u|x)=0.
Bu nedenle, bu durumda EKK
sapmasızdır.
15
(A-2) Seçilmiş örnek sadece x’in
değerlerine bağlıdır.
Örnek, x yaşı gösteriyorsa, 20 yaşdan büyük
olan insanları seçiyorsak, x≥20 ise s=1, ve
eğer x<20 ise s=0. Bu durumda, s x‟in
deterministik fonksiyonudur.
Böylece
E(u|x, s)=E(u|x, s(x))
=E(u|x).
Ancak E(u|x)=0 orjinal regresyon
EKK‟nın tüm koşullarını sağılıyor. Bu
nedenle, bu durumda, EKK sapmasızdır. 16
Eğer s x’in
detetministik
fonksiyonu ise,
s(x)‟i koşullu
kümeden
çıkarabiliriz.
Koşul altında Seçilen altörnek (kesikli veri)
üzerinde kurulan EKK sapmalıdır.
(B-1) Örnek seçimi y değişkeninin
değerlerine bağlıdır.
Örnek: y ailenin aylık geliridir. Aylık geliri
$500‟dan küçük olan aileri seçelim. y<500
ise s=1 olacaktır.
Eğer E(u|x, s)=0 , E(u|x, s=1)=0 ve E(x|x,s=0)=0
17
E(u|x, s=1)=E(u|x, y≤500)
=E(u|x, β0+β1x+u ≤500)
=E(u|x, u ≤500-β0-β1x)
≠E(u|x)
kontrol ederiz
Sonuç olarak, E(u|x,s=1) ≠0.
Benzer olarak, E(u|x,s=0) ≠0 olduğunu
gösterebiliriz.
Böylece, E(u|x,s) ≠0. EKK sapmalıdır.
18
{u ≤500-β0-β1x}
kümesi u’ya direkt
bağlı olduuğu için,
bunu şartlı kümeden
çıkaramazsınız.
Sonuç olarak, bu
E(u|x)’e eşit değildir.
Yani sıfırdan
farklıdır.
(B-2) Örnek seçimi Sample ui ile
korelasyonludur. Bu durum, örnek seçiminin
belirleyicisinin anketçi kararının değil,
bireylerin kararı olduğundan ortaya çıkar. Bu
tür kesme „rassal kesme‟ olarak adlandırılır.
Örneklem seçiminden kaynaklanan bu tür
sapma Örneklem Seçim Sapması olarak bilinir
Konuyla ilgili popüler regresyon, evli kadınların
ücret teklifi regresyonudur: wage= β0+β1edu+ui.
Kadınlar çalışmamaya karar verdiklerinde, ücret
bilgisi mevcut olmaz. Bu nedenle, bu kadınlar
veriden çıkarılır. Bu kadınların kararı olduğu
için, bu örneklem seçimi muhtemelen ui „nin
içerdiği gözlemlenemeyen faktörlere bağlıdır.
19
Örnek: eğer teklif edilen ücret kadınların
şart koştuğu ücretten büyükse, kadınlar
çalışma kararı verecektir. Şart koşulan
ücret muhtemelen, gözlemlenemeyen
yetenek, gözlemlenemeyen aile geçmişi
gibi bazı gözlemlenemeyen faktörlerdir.
Bu faktörler u‟ya dahildir. Sonuç olarak
seçim kriterinin u ile korelasyonlu olması
muhtemeldir. Bu da s ile u‟nun
korelasyonlu olduğu anlamına gelir.
Bunu matematiksel olarak aşağıdaki gibi
gösterebiliriz.
20
Eğer s u ile korelasyonlu ise, s‟i koşul
kümesinden çıkaramayız. Böylece
E(u|x,s)≠E(u|x)
ulaşırız.
Bunun anlamı E(u|x,s) ≠0. Yani EKK
sapmalıdır.
Tekrar söylemek gerekirse bu tür sapma
Örnek Seçim Sapması olarak tanımlanır.
21
Daha karmaşık bir durum
x‟in IQ‟nu gösterdiğini varsayalım. Eğer IQ>v ise
ankete katılan kişi anketi yanıtlayacaktır.
Bu durumda örneklem seçimi x değişkenine ve
rassal hata v‟ye bağlıdır. Kesikli verileri
kullanarak EKK kurarsak, sapmaya neden
olurmu?
Cevap
Birinci durum: eğer v, u‟dan bağımsız ise sapmaya
neden olmaz.
İkinci durum: eğer v, u ile korelasyonlu ise, bu
durum (B-2) durumu ile aynı olacaktır. Yani
EKK sapmalı olacaktır. 22
Veriler kesikli olduğunda
tahmin yöntemleri.
(B-1) türünde kesmeye sahip
olduğumuzda, „kesikli regresyon
kullanırız’
(B-2) türünde kesmeye sahip
olduğumuzda (rassal kesme), Heckman
Örneklem Seçim yöntemini kullanırız.
Bu model Heckit modeli olarak bilinir.
Bu yöntemleri tek tek açıklayalım.
23
Kesikli Regresyon
Veri kesimi (B-1) türünde olduğunda,
Kesikli Regresyon modeli uygulanır..
 Tekrar açıklamak gerekirse, (B-1)
türünde kesme y değişkeninin değerine
bağlı olduğu için ortaya çıkar.
24
Aşağıdaki regresyon modelinin tüm EKK
varsayımlarını sağladığını düşünelim.
yi=β0+β1xi+ui, ui~N(0,σ2)
Ama, örneklem sadece yi<ci olduğunda
seçilir. (eğer yi≥ci ise anket tasarımcısı
tarafından gözlemlerin atılacağı anlamına
gelir.)
Bu durumda , her birey için ci ‘nin gerçek
değerini bileceğiz.
25
26
Aylık aile geliri
Hane
reisinin
eğitimi
$500
(B-1) türünde veri kesme Bu
gözleml
er
veriden
çıkarılır.
Gerçek
regresyon
Kesikli veriye EKK
uygulandığında
sapmalı regreson
Görüldüğü gibi kesikli verilerle EKK
kurmak sapmalara neden olacak.
Sapmasız tahminler EÇOB tahminine
bağlıdır.
27
Tahmin yöntemi aşağıdaki gibidir.
 Her gözlem için ui=yi-β0-β1xi yazabiliriz.
Böylece, olabilirlik katkısı yüksek
yoğunluk fonksiyonu olacaktır.
Ama, yanlız yi<ci olduğu durumda örnek
seçtiğimiz için, u‟nun yi<ci üzerindeki
koşullu yoğunluk fonksiyonunu
kullanmalıyız. Şartlı yoğunluk fonksiyonu
bir sonraki slaytda verilmiştir.
28
29
)(
1
2
2
1
2
11
)(
1
22
2
2
1
)(
1
)(
)(
)(
)(
)(
)(
)|()|()|(
10
)(
10
2
10
101010
1010






















ii
i
u
ii
ii
ii
i
iii
i
iii
i
iiiiiiiiii
xc
u
iu
e
xc
iu
e
xc
xc
uf
xcu
P
uf
xcuP
uf
xcuufcuxufcyuf
i






































  
Sonuç olarak, i. gözlem için olabilirlilik
katkısı ui=yi-β0-β1xi „nin şartlı yoğunluk
fonksiyonunda yerine konulması ile elde
edilir.
Olabilirlik fonksiyonu aşağıda verilmiştir.
The values of β0,β1,σ değerleri L‟yi
maksimize eder ve bu değerler Kesikli
Regresyonun tahmincileri olur. 30
)(
1
10
10






ii
ii
i
xc
xy
L







 



n
i
i
LL
1
10
),,( 
Kısmi etkiler
Tahmin edilmiş β1, x‟in y üzerinde olan
etkisini gösteriyor. Böylece, parametreleri
EKK parametreleri gibi yorumlayabiliriz.
31
Uygulama
Kesikli regresyon için uygun verimiz
yoktur. Bu nedenle, kesikli regresyonun
nasıl çalıştığını görmek amacı ile
kendimiz veriyi keselim.
Örnek1. Use JPSC_familyinc.dta veri
setindeki tüm gözlemler kullanılarak
kurulan model aşağıdaki gibidir.
(family income)=β0+β1(husband‟ educ)+u
Aile geliri 10,000 yendir.
32
Örnek2. Aile gelirleri 800 (familyinc<800)
den küçük olan gözlemlerle EKK kurarsak
parametreler nasıl değişir?
Örnek2. Aile gelirleri 800 den büyük olan
(familyinc≥800) veriler atılarak
oluşturulan kesikli verilerle, kesikli
regresyon kurulursa parametreleri nasıl
değiştirir? Kesikli regresyon orjinal
regresyonun parametrelerini
iyileştiriyormu?
33
34
_cons 143.895 15.09181 9.53 0.000 114.3109 173.479
huseduc 32.93413 1.083325 30.40 0.000 30.81052 35.05775
familyinc Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 357156023 7694 46420.0705 Root MSE = 203.58
Adj R-squared = 0.1071
Residual 318850122 7693 41446.7856 R-squared = 0.1073
Model 38305900.9 1 38305900.9 Prob > F = 0.0000
F( 1, 7693) = 924.22
Source SS df MS Number of obs = 7695
. reg familyinc huseduc
_cons 244.5233 11.33218 21.58 0.000 222.3084 266.7383
huseduc 20.27929 .8260432 24.55 0.000 18.65996 21.89861
familyinc Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 132238735 6273 21080.621 Root MSE = 138.69
Adj R-squared = 0.0875
Residual 120645494 6272 19235.5699 R-squared = 0.0877
Model 11593241.1 1 11593241.1 Prob > F = 0.0000
F( 1, 6272) = 602.70
Source SS df MS Number of obs = 6274
. reg familyinc huseduc if familyinc<800
Tüm gözlemler
kullanılarak kurulan
regresyon
familyinc≥800
olan gözlemler
çıkarılır.
huseduc’un
parametresi sıfıra
doğru sapmalıdır.
35
/sigma 153.1291 1.805717 84.80 0.000 149.59 156.6683
_cons 203.6856 13.75721 14.81 0.000 176.7219 230.6492
huseduc 24.50276 1.0264 23.87 0.000 22.49105 26.51446
familyinc Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -39618.629 Prob > chi2 = 0.0000
upper = 800 Wald chi2(1) = 569.90
Limit: lower = -inf Number of obs = 6274
Truncated regression
Iteration 3: log likelihood = -39618.629
Iteration 2: log likelihood = -39618.629
Iteration 1: log likelihood = -39618.757
Iteration 0: log likelihood = -39676.782
Fitting full model:
(note: 1421 obs. truncated)
. truncreg familyinc huseduc, ul(800) Kesikli regresyonda üst
limit 800’e eşittir. 800’den
büyük olan gözlemler
regresyona dahil edilmez.
Sapa doğru görünüyor, ama bu
örnekte mükemmel değildir.
Heckman Örnek Seçiminde
Sapmanın Düzeltilmesi
(Heckit Model)
Veri kesilmesi için en yaygın neden (B-2)
türüdür: rassal kesme.
Bu veri kesme şekli , genellikle örnek seçme
anketçinin kararına göre değil, insanların
kararlarına göre belirlendiği için ortaya çıkar.
Örnek olarak ücret regresyonunu gösterebiliriz.
Eğer insanlar çalışmayı tercih ederlerse, “örneğe
katılmayı kendileri seçecektir.”. İnsanlar
çalışmamayı seçerlerse, “kendileri örneğe
katılmamayı seçecektirler”.
Bu tür kesmeden kaynanklanan sapma Örnek
Seçim Sapması adlandırılır.. 36
Sapmanın düzeltilmesi için bu tür veri
kesme Heckman Örnek Seçimi Düzeltme
Yöntemi ile edilir. Bu yöntem Heckit
modeli olarak tanımlanır.
Ücret regresyonunu düşünelim. Heckit
modelinde, ücret denklemi ve örnek seçim
denklemi vardır.
Ücret denklemi: yi=xiβ+ui ve ui~N(0,σu
2)
Seçim denklemi: si*=ziδ+ei, ve ei~N(0,1)
eğer si*>0 ise si=1, ve si*≤0 ise si=0 olur.
37
Yukarıdaki denklemlerde, aşağıdaki vektör
notasyonları kullanılır. β =(β0,β1,β2,…,βk)T.
xi=(1,xi1, xi2,…,xik) ve δ=(δ0, δ1,.., δm)T ve
zi=(1, zi1, zi2,..,zim).
xi ve zi „nin dışsal olduğu varsayılmaktadır.
Yani, E(ui|xi, zi)=0.
Ayrıca, xi „in zi„nin kesin(tam) altkümesi
olduğunu varsayılmaktadır. Yani, tüm x
değişkenleri zi „nin bir parçasıdır. Örnek
olarak, xi=(1, experi, agei), ve zi=(1, experi,
agei, kidslt6i).
zi „nin en az xi ‟nin bir değişkenini içermesi
gerekir. 38
Eğer ui ve ei korelsayonlu olursa, yapısal
hata, ui, ve örnek seçimi si de korelasyona
sahip olur. Başka bir ifade ile, Sadece ui
ve ei korelasyonlu ise, örnek seçimi
sapmaya neden olur.
 ui ve ei arasındaki korelsayonu
ρ=corr(ui, ei) ile gösterelim.
39
Heckit modeli aşağıdaki gibi veri gerektirir.
1. yi helen çalışan insanları gösteren
gözlemler olduğunda kullanışlıdır.
2: Ama, xi ve zi hem çalışan insanlar, hem
de çalışmayan insanlar olduğunda
kullanılabilir.
40
Heckit modelini gösterelim.
İlk olarak, kişinin işgücüne katıldığı göz önüne
alındığında ( si=1) yi „nin beklenen değeri
aşağıdaki gibi yazılabilir.
İkideğişkenli normal dağılımın sonuçları
kulanıldığında, son terim E(ui|ei>-ziδ,zi)=
gibi gösterilebilir. ,
terimi , ters Mills oranıdır λ(ziδ). 41
),|(
),|(
),|(
),0|(
),0|(),1|( *
iiiii
iiiii
iiii
iiii
iiiiii
zzeuEx
zzeuxE
zzeyE
zezyE
zsyEzsyE









)(/)(  ii
zz  )(/)(  ii
zz 
Sonuç olarak,
Heckman, örnek seçim sapmasının
dışlanmış değişkenlerin sapması gibi
olduğunu göstermiştir. Burada dışlanmış
değişken λ(ziδ)‟dır.
42
)(
),|(
),1|(


ii
iiiii
iii
zx
zzeuEx
zsyE



λ(ziδ) kolayca tahmin edilir. Seçim
denkleminin basitçe iş gücüne katılım gösteren
probit modeli olduğunu unutmayın.
Seçim denklemi tahmin etmek için probit
modelini kullanır. Sonra hesaplanır.
Ücret regresyonuna dahil ederek sapma
düzeltilebilir, daha sonra EKK kullanılarak
model tahmin edilir.
Heckman bu yöntemin, örneklem seçim
sapmasını düzeltdiğini göstermiştir. Bu yöntem
Heckit modeldir.
Bir sonraki slayt Heckit modelnin özetidir..
43
)ˆ(  i
z
)ˆ(  i
z
ˆ
Heckman’ın İki adımlı Örnek Seçim
Düzeltme Yöntemi (Heckit model)
Ücret denklemi: yi=xiβ+ui ve ui~N(0,σu2)
Seçim denklemi: si*=ziδ+ei,ve ei~N(0,1)
Birey çalışıyorsa si*>0, çalışmıyorsa si*≤0.
Varsayım 1: E(ui|xi, zi)=0
Varsayım 2: xi , zi„nin tam altkümesidir.
Eğer ui ve ei korelsayonlu ise, ücret denkleminin
(sadece çalışanları gösteren gözlemlerin yer
aldığı denklem) EKK tahmini sapmalıdır.
44
Birinci adım: Probit modelini kullanarak
örnek seçim denkleminin parametreleri
tahmin edilir. Sonra hesaplanır.
İkinci adım: ücret denkleminde
yerine yazılır ve denklem EKK ile tahmin
edilir.Yani: aşağıdaki denklem tahmin
edilir.
Bu modelde, ρ „nun katsayısıdır. Eğer
ρ≠0 ise örnek seçimi sapmalı, ρ=0 ise
örnek seçimi sapmasızdır.
45
ˆ
)ˆ(  i
z
)ˆ(  i
z
errorzxy iii
 )ˆ( 
)ˆ(  i
z
Bu süreci titiz bir şekilde uygulayarak
gerçek katsayıları elde etsek de, gerçek
standart hatalara ulaşamayız. Gerçek
standart hata formülü için, Wooldridge
(2002)‟ye başvurmak gerekir..
 Stata gerçek standart hataları otomatik
olarak hesaplamaktadır.
46
Uygulama
Mroz.dta veri setinden yararlanmakla
Heckit modelini kullanarak ücret teklifi
modelini tahmin edelim. Ücret teklifi
denklemi için bağımsız değişkenler: educ
exper expersq. Örnek seçimi denklemi
için açıklayıcı değişkenler: educ, exper,
expersq, nwifeinc, age, kidslt6, kidsge6.
47
48_cons .2700768 .508593 0.53 0.595 -.7267473 1.266901
kidsge6 .036005 .0434768 0.83 0.408 -.049208 .1212179
kidslt6 -.8683285 .1185223 -7.33 0.000 -1.100628 -.636029
age -.0528527 .0084772 -6.23 0.000 -.0694678 -.0362376
nwifeinc -.0120237 .0048398 -2.48 0.013 -.0215096 -.0025378
expersq -.0018871 .0006 -3.15 0.002 -.003063 -.0007111
exper .1233476 .0187164 6.59 0.000 .0866641 .1600311
educ .1309047 .0252542 5.18 0.000 .0814074 .180402
s Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -401.30219 Pseudo R2 = 0.2206
Prob > chi2 = 0.0000
LR chi2(7) = 227.14
Probit regression Number of obs = 753
Iteration 4: log likelihood = -401.30219
Iteration 3: log likelihood = -401.30219
Iteration 2: log likelihood = -401.32924
Iteration 1: log likelihood = -405.78215
Iteration 0: log likelihood = -514.8732
. probit s educ exper expersq nwifeinc age kidslt6 kidsge6
. *******************************
. *selection equation *
. *Next, estimate the probit *
. *******************************
(428 real changes made)
. replace s=1 if wage~=.
(428 missing values generated)
. gen s=0 if wage==.
. ***************************
. * Variable *
. * First create selection *
. ***************************
. **********************************************
. * Estimating heckit model manually *
. **********************************************
Heckit’in elle çözümü.
(dikkat: doğru standart
hataları elde
edemeyeceksiniz
Birinci adım:
Probit seçim
denklemi
49
_cons -.5781032 .306723 -1.88 0.060 -1.180994 .024788
lambda .0322619 .1343877 0.24 0.810 -.2318889 .2964126
expersq -.0008591 .0004414 -1.95 0.052 -.0017267 8.49e-06
exper .0438873 .0163534 2.68 0.008 .0117434 .0760313
educ .1090655 .0156096 6.99 0.000 .0783835 .1397476
lwage Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 223.327441 427 .523015084 Root MSE = .66716
Adj R-squared = 0.1490
Residual 188.279492 423 .445105182 R-squared = 0.1569
Model 35.0479487 4 8.76198719 Prob > F = 0.0000
F( 4, 423) = 19.69
Source SS df MS Number of obs = 428
. reg lwage educ exper expersq lambda
. *************************************
. *Finally, estimate the Heckit model *
. *************************************
. gen lambda =normalden(xdelta)/normal(xdelta)
. predict xdelta, xb
. *******************************
. *Then create inverse lambda *
. *******************************
İkinci adım:
Standart
hataların doğru
olmadığını not
edin.
50
lambda .03226186 .1336246
sigma .66362875
rho 0.04861
lambda .0322619 .1336246 0.24 0.809 -.2296376 .2941613
mills
_cons .2700768 .508593 0.53 0.595 -.7267473 1.266901
kidsge6 .036005 .0434768 0.83 0.408 -.049208 .1212179
kidslt6 -.8683285 .1185223 -7.33 0.000 -1.100628 -.636029
age -.0528527 .0084772 -6.23 0.000 -.0694678 -.0362376
nwifeinc -.0120237 .0048398 -2.48 0.013 -.0215096 -.0025378
expersq -.0018871 .0006 -3.15 0.002 -.003063 -.0007111
exper .1233476 .0187164 6.59 0.000 .0866641 .1600311
educ .1309047 .0252542 5.18 0.000 .0814074 .180402
s
_cons -.5781032 .3050062 -1.90 0.058 -1.175904 .019698
expersq -.0008591 .0004389 -1.96 0.050 -.0017194 1.15e-06
exper .0438873 .0162611 2.70 0.007 .0120163 .0757584
educ .1090655 .015523 7.03 0.000 .0786411 .13949
lwage
Coef. Std. Err. z P>|z| [95% Conf. Interval]
Prob > chi2 = 0.0000
Wald chi2(3) = 51.53
Uncensored obs = 428
(regression model with sample selection) Censored obs = 325
Heckman selection model -- two-step estimates Number of obs = 753
. heckman lwage educ exper expersq, select(s=educ exper expersq nwifeinc age kidslt6 kidsge6) twostep
Heckit
otomatik
olarak
tahmin
edilmektedir.
H0 :ρ=0
reddedilemez.
Yani örnek
seçiminde
sapmanın olduğu
ile ilgili az kanıt
vardır.

More Related Content

What's hot

Ecuaciones diferenciales de cauchy euler
Ecuaciones diferenciales de cauchy eulerEcuaciones diferenciales de cauchy euler
Ecuaciones diferenciales de cauchy eulerPablo Fernandez
 
Límite de una función Vectorial y derivada de una función Vectorial.
Límite de una función Vectorial y derivada de una función Vectorial.Límite de una función Vectorial y derivada de una función Vectorial.
Límite de una función Vectorial y derivada de una función Vectorial.John Wagner
 
Linea infinita
Linea infinitaLinea infinita
Linea infinita
Matilde Techeira
 
Límites y continuidad en funciones de varias variables
Límites y continuidad en funciones de varias variablesLímites y continuidad en funciones de varias variables
Límites y continuidad en funciones de varias variables
kellys vz
 
4 10 criterios de convergencias para series
4 10 criterios de convergencias para series4 10 criterios de convergencias para series
4 10 criterios de convergencias para series
INSTITUTO DISTRITAL DE TURISMO
 
Wronskiano
WronskianoWronskiano
Wronskiano
josyan2
 
Apunte usm ecuaciones diferenciales de orden superior
Apunte usm   ecuaciones diferenciales de orden superiorApunte usm   ecuaciones diferenciales de orden superior
Apunte usm ecuaciones diferenciales de orden superiorCristian Cofré Sepúlveda
 
Ecuacion cauchy euler
Ecuacion cauchy eulerEcuacion cauchy euler
Ecuacion cauchy euler
Nena Sofia
 
Calculo I Aplicaciones De La Derivada
Calculo I Aplicaciones De La DerivadaCalculo I Aplicaciones De La Derivada
Calculo I Aplicaciones De La Derivada
Videoconferencias UTPL
 
Subespacios vectoriales
Subespacios vectorialesSubespacios vectoriales
Subespacios vectorialesBelen Calero
 
Limites y continuidad
Limites y continuidadLimites y continuidad
Limites y continuidad
YOLVI ADRIANA CORDOBA BUITRAGO
 
Algebra lineal de friedberg
Algebra lineal de friedbergAlgebra lineal de friedberg
Algebra lineal de friedberg
Cristian Pisco Intriago
 
Sistemas de ecuaciones lineales (II)
Sistemas de ecuaciones lineales (II)Sistemas de ecuaciones lineales (II)
Sistemas de ecuaciones lineales (II)
JIE MA ZHOU
 
Teoremas de stokes y gauss
Teoremas de stokes y gaussTeoremas de stokes y gauss
Teoremas de stokes y gauss
Andoni Vasquez
 
16 partial derivatives
16 partial derivatives16 partial derivatives
16 partial derivativesmath267
 
Integrales dobles en coordenadas polares
Integrales dobles en coordenadas polaresIntegrales dobles en coordenadas polares
Integrales dobles en coordenadas polares
felipecruzgonzalez
 
Números complejos y formula de euler
Números complejos y formula de eulerNúmeros complejos y formula de euler
Números complejos y formula de euler
Camilo Andrés Ortiz Daza
 

What's hot (20)

Ecuaciones diferenciales de cauchy euler
Ecuaciones diferenciales de cauchy eulerEcuaciones diferenciales de cauchy euler
Ecuaciones diferenciales de cauchy euler
 
Funciones varias variables completo
Funciones varias variables completoFunciones varias variables completo
Funciones varias variables completo
 
Límite de una función Vectorial y derivada de una función Vectorial.
Límite de una función Vectorial y derivada de una función Vectorial.Límite de una función Vectorial y derivada de una función Vectorial.
Límite de una función Vectorial y derivada de una función Vectorial.
 
Linea infinita
Linea infinitaLinea infinita
Linea infinita
 
Límites y continuidad en funciones de varias variables
Límites y continuidad en funciones de varias variablesLímites y continuidad en funciones de varias variables
Límites y continuidad en funciones de varias variables
 
4 10 criterios de convergencias para series
4 10 criterios de convergencias para series4 10 criterios de convergencias para series
4 10 criterios de convergencias para series
 
Teorema De Green
Teorema De GreenTeorema De Green
Teorema De Green
 
Wronskiano
WronskianoWronskiano
Wronskiano
 
Apunte usm ecuaciones diferenciales de orden superior
Apunte usm   ecuaciones diferenciales de orden superiorApunte usm   ecuaciones diferenciales de orden superior
Apunte usm ecuaciones diferenciales de orden superior
 
Ecuacion cauchy euler
Ecuacion cauchy eulerEcuacion cauchy euler
Ecuacion cauchy euler
 
Calculo I Aplicaciones De La Derivada
Calculo I Aplicaciones De La DerivadaCalculo I Aplicaciones De La Derivada
Calculo I Aplicaciones De La Derivada
 
Subespacios vectoriales
Subespacios vectorialesSubespacios vectoriales
Subespacios vectoriales
 
Limites y continuidad
Limites y continuidadLimites y continuidad
Limites y continuidad
 
Algebra lineal de friedberg
Algebra lineal de friedbergAlgebra lineal de friedberg
Algebra lineal de friedberg
 
Sistemas de ecuaciones lineales (II)
Sistemas de ecuaciones lineales (II)Sistemas de ecuaciones lineales (II)
Sistemas de ecuaciones lineales (II)
 
Teoremas de stokes y gauss
Teoremas de stokes y gaussTeoremas de stokes y gauss
Teoremas de stokes y gauss
 
16 partial derivatives
16 partial derivatives16 partial derivatives
16 partial derivatives
 
Integrales dobles en coordenadas polares
Integrales dobles en coordenadas polaresIntegrales dobles en coordenadas polares
Integrales dobles en coordenadas polares
 
1.4 limites infinitos
1.4 limites infinitos1.4 limites infinitos
1.4 limites infinitos
 
Números complejos y formula de euler
Números complejos y formula de eulerNúmeros complejos y formula de euler
Números complejos y formula de euler
 

More from Dokuz Eylül University

Sayma Modelleri Count Model
Sayma Modelleri Count ModelSayma Modelleri Count Model
Sayma Modelleri Count Model
Dokuz Eylül University
 
Bayesian regression.
Bayesian regression.Bayesian regression.
Bayesian regression.
Dokuz Eylül University
 
Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)
Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)
Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)
Dokuz Eylül University
 

More from Dokuz Eylül University (7)

Sayma Modelleri Count Model
Sayma Modelleri Count ModelSayma Modelleri Count Model
Sayma Modelleri Count Model
 
Tobit Model&Tobit Modeli
Tobit Model&Tobit ModeliTobit Model&Tobit Modeli
Tobit Model&Tobit Modeli
 
Fuzzy Regression&Bulanık Regresyon
Fuzzy Regression&Bulanık RegresyonFuzzy Regression&Bulanık Regresyon
Fuzzy Regression&Bulanık Regresyon
 
Simulation/Simülasyon
Simulation/SimülasyonSimulation/Simülasyon
Simulation/Simülasyon
 
Bayesian regression.
Bayesian regression.Bayesian regression.
Bayesian regression.
 
Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)
Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)
Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)
 
Forcasting example
Forcasting exampleForcasting example
Forcasting example
 

Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örnek Seçimi.

  • 2. Kesikli Regresyon Kesikli regresyon sansürlü regresondan farklıdır: Sansürlü regresyonlar: bağımlı değişken sansürlü olabilir, ama regresyona sansürlü gözlemler katıla bilir Kesikli regresyonlar: Gözlemlerin alt kümesi düşürülür, böylece, sadece kesikli veriler regresyonda kullanılır. 2
  • 3. Veri kesmenin sebepleri Örnek 1 (Anket tasarımı ile kesme): “Gary‟nin negatif gelir deneme verileri”, ekonmi literatüründe sık sık kullanılır. Örnekler sadece 1976 yılında gelirleri yoksulluk sınırından 1.5 defa az olan aileleri içerir. Bu durumda, gelirleri yoksulluk sınırından fazla olanlar anket tasarımı nedeni ile regresyondan atılır. 3
  • 4. Örnek 2 (Rassal kesme): Evli kadınların ücret teklifi regresyondaki, sadece ücret bilgileri olan çalışanlar. Böyece, çalışmayan kadınlar regresyonda yer almaz. Bu durum, anketçinin kararı değil insanların kararıdır, ki bu da örnek seçimini belirler. 4
  • 5. Kesikli verilere EKK uygulandığında sapmaya neden olur Kesikle verilerle çalışmaya başlamadan önce, bilmek gerekir ki, kesikli verilere EKK uygulandığında sonuçlar sapmalı olacak. 5
  • 6. Aşağıdaki regresyon modeli ile çalışdığımızı yi=β0+β1xi+ui ve örneklem hacmimizin N olduğunu varsayalım. Ayrıca tüm EKK varsayımlarının sağlandığını varsayılmaktadır. (En önemli varsayım E(ui|xi)=0) 6
  • 7. Tüm gözlemler yerine, sadece orjinal gözlemlerin altkümesini (kesikli örnek) kullandığımızı düşünerek EKK ile tahmin yapalım. Hangi şartlar altında EKK sapmasız hangi şartlar altında sapmalı olacak? 7
  • 8. A: Seçilmiş altküme(kesikli veri) ne zaman samasız olur? (A-1) Örnek seçimi rassal olduğunda. (A-2) Örnek seçimi sadece x‟in değerlerine bağlı olarak belirlenir. Örnek olarak, x‟in yaş olduğunu varsayalım. Eğer 20 yaşından büyükleri seçersek EKK sapmasız olur. 8
  • 9. B: EKK kullanıldığında seçilmiş altküme(kesikli veri) ne zaman sapmalı olur? (B-1) Örneklem seçimi y’nin değerlerine bağlı olduğunda. Örnek olarak: y‟nin aile gelirlerini gösterdiğini varsayalım. y‟nin belirli eşik değerden büyük olduğu örneği seçersek ,EKK sapmalı sonuçlar verir. 9
  • 10. (B-2) Örnek seçimi ui ile korelasyonlu olursa . Örnek: eğer ücret regresyonu ile çalışırsak: wage=β0+β1(educ)+u, burada u gözlemlenmeyen yeteneği içeriyor. Eğer örneklem gözlemlenemeyen yeteneğe bağlı seçilirse EKK sapmalı sonuçlar verir. Uygulamada, bu durum seçimin anket katılımcısının kararına bağlı olduğunda ortaya çıkar. Örnek: ücret regresyonunda, bireyin çalışıp çalışmaması, bireyin verilere katılıp katılmamasını belirler. Karar muhtemelen u‟yu içeren gözlemlenemeyen faktörlere bağlı olduğu için, seçim muhtemelen u ile korelasyonlu olacak. 10
  • 11. Bu koşullar neden kesikli verilere EKK uygulandığında sapmasız/sapmalı olduğunu gösteriyor Artık, kesikli verilere EKK uygulandığında sonuçların sapmalı veya sapmasız olduğunun hangi koşullar altında olduğunu biliyoruz. Bu koşulların sapmaların nedeni olduğunu/nedeni olmadığını açıklayalım. (Açıklamalarda bazı tekrarlar vardır, ama onlar daha ayrıntılı bilgiler içeriyorlar. Bunları dikkatle okuyalım.) 11
  • 12. Aşağıdaki regresyonla çalıştığımızı varsayalım. yi=β0+β1xi+ui Bu regresyonun EKK‟nın tüm varsayımlarını sağladığını varsayalım.  si seçim göstergesi olsun: Eğer si=1 ise birey regresyona dahil edilecek, si=0 ise birey verilerden atılacak. 12
  • 13. Seçilmiş altörnek ile EKK‟nın kurulması sadece si=1 olan gözlemlerle EKK kurulduğu anlamına gelir. Bu aşağıdaki regresyonun kurulmasına denk gelir. siyi=β0si+β1sixi+siui Bu regresyonda, sixi açıklayıcı değişken, siui ise hata terimidir. EKK‟nın sapmasızlık koşulu altında önemli koşul, sıfır koşullu ortalama varsayımıdır: E(siui|sixi)=0. Sonuç olarak bunun hangi koşullar altında sağlandığını kontrol etmemiz gerekir. 13
  • 14. E(siui|sixi)=0 kontrol etmek için, eğer E(siui|xi, si)=0 ise kontrol etmek önemlidir, E(siui|sixi)=0 . (Eğer birinci sıfırsa, sonraki da sıfırdır.) si, koşullu kümede olan si „nin fonksiyonu olduğu için E(siui|xi,si)=siE(ui|xi,si) . Sonuç olarak, E(ui|xi, si)=0‟ı sağlayan koşulu kontrol etmek yeterlidir. Notasyonu kolaylaştırmak için i altindisini çıkaralım. Bölyece koşulu E(u|x, s)=0 altında kontrol edeceğiz. 14
  • 15. Seçilmiş altörnekle(kesikli veri) kurulan EKK sapmasızdır. (A-1) Örnek seçimi rassaldır. Bu durumda, s, x ve u‟dan bağımsızdır. E(u|x,s)=E(u|x). Ama, orjinal regresyon EKK koşullarını sağladığı için E(u|x)=0. Bu nedenle, bu durumda EKK sapmasızdır. 15
  • 16. (A-2) Seçilmiş örnek sadece x’in değerlerine bağlıdır. Örnek, x yaşı gösteriyorsa, 20 yaşdan büyük olan insanları seçiyorsak, x≥20 ise s=1, ve eğer x<20 ise s=0. Bu durumda, s x‟in deterministik fonksiyonudur. Böylece E(u|x, s)=E(u|x, s(x)) =E(u|x). Ancak E(u|x)=0 orjinal regresyon EKK‟nın tüm koşullarını sağılıyor. Bu nedenle, bu durumda, EKK sapmasızdır. 16 Eğer s x’in detetministik fonksiyonu ise, s(x)‟i koşullu kümeden çıkarabiliriz.
  • 17. Koşul altında Seçilen altörnek (kesikli veri) üzerinde kurulan EKK sapmalıdır. (B-1) Örnek seçimi y değişkeninin değerlerine bağlıdır. Örnek: y ailenin aylık geliridir. Aylık geliri $500‟dan küçük olan aileri seçelim. y<500 ise s=1 olacaktır. Eğer E(u|x, s)=0 , E(u|x, s=1)=0 ve E(x|x,s=0)=0 17
  • 18. E(u|x, s=1)=E(u|x, y≤500) =E(u|x, β0+β1x+u ≤500) =E(u|x, u ≤500-β0-β1x) ≠E(u|x) kontrol ederiz Sonuç olarak, E(u|x,s=1) ≠0. Benzer olarak, E(u|x,s=0) ≠0 olduğunu gösterebiliriz. Böylece, E(u|x,s) ≠0. EKK sapmalıdır. 18 {u ≤500-β0-β1x} kümesi u’ya direkt bağlı olduuğu için, bunu şartlı kümeden çıkaramazsınız. Sonuç olarak, bu E(u|x)’e eşit değildir. Yani sıfırdan farklıdır.
  • 19. (B-2) Örnek seçimi Sample ui ile korelasyonludur. Bu durum, örnek seçiminin belirleyicisinin anketçi kararının değil, bireylerin kararı olduğundan ortaya çıkar. Bu tür kesme „rassal kesme‟ olarak adlandırılır. Örneklem seçiminden kaynaklanan bu tür sapma Örneklem Seçim Sapması olarak bilinir Konuyla ilgili popüler regresyon, evli kadınların ücret teklifi regresyonudur: wage= β0+β1edu+ui. Kadınlar çalışmamaya karar verdiklerinde, ücret bilgisi mevcut olmaz. Bu nedenle, bu kadınlar veriden çıkarılır. Bu kadınların kararı olduğu için, bu örneklem seçimi muhtemelen ui „nin içerdiği gözlemlenemeyen faktörlere bağlıdır. 19
  • 20. Örnek: eğer teklif edilen ücret kadınların şart koştuğu ücretten büyükse, kadınlar çalışma kararı verecektir. Şart koşulan ücret muhtemelen, gözlemlenemeyen yetenek, gözlemlenemeyen aile geçmişi gibi bazı gözlemlenemeyen faktörlerdir. Bu faktörler u‟ya dahildir. Sonuç olarak seçim kriterinin u ile korelasyonlu olması muhtemeldir. Bu da s ile u‟nun korelasyonlu olduğu anlamına gelir. Bunu matematiksel olarak aşağıdaki gibi gösterebiliriz. 20
  • 21. Eğer s u ile korelasyonlu ise, s‟i koşul kümesinden çıkaramayız. Böylece E(u|x,s)≠E(u|x) ulaşırız. Bunun anlamı E(u|x,s) ≠0. Yani EKK sapmalıdır. Tekrar söylemek gerekirse bu tür sapma Örnek Seçim Sapması olarak tanımlanır. 21
  • 22. Daha karmaşık bir durum x‟in IQ‟nu gösterdiğini varsayalım. Eğer IQ>v ise ankete katılan kişi anketi yanıtlayacaktır. Bu durumda örneklem seçimi x değişkenine ve rassal hata v‟ye bağlıdır. Kesikli verileri kullanarak EKK kurarsak, sapmaya neden olurmu? Cevap Birinci durum: eğer v, u‟dan bağımsız ise sapmaya neden olmaz. İkinci durum: eğer v, u ile korelasyonlu ise, bu durum (B-2) durumu ile aynı olacaktır. Yani EKK sapmalı olacaktır. 22
  • 23. Veriler kesikli olduğunda tahmin yöntemleri. (B-1) türünde kesmeye sahip olduğumuzda, „kesikli regresyon kullanırız’ (B-2) türünde kesmeye sahip olduğumuzda (rassal kesme), Heckman Örneklem Seçim yöntemini kullanırız. Bu model Heckit modeli olarak bilinir. Bu yöntemleri tek tek açıklayalım. 23
  • 24. Kesikli Regresyon Veri kesimi (B-1) türünde olduğunda, Kesikli Regresyon modeli uygulanır..  Tekrar açıklamak gerekirse, (B-1) türünde kesme y değişkeninin değerine bağlı olduğu için ortaya çıkar. 24
  • 25. Aşağıdaki regresyon modelinin tüm EKK varsayımlarını sağladığını düşünelim. yi=β0+β1xi+ui, ui~N(0,σ2) Ama, örneklem sadece yi<ci olduğunda seçilir. (eğer yi≥ci ise anket tasarımcısı tarafından gözlemlerin atılacağı anlamına gelir.) Bu durumda , her birey için ci ‘nin gerçek değerini bileceğiz. 25
  • 26. 26 Aylık aile geliri Hane reisinin eğitimi $500 (B-1) türünde veri kesme Bu gözleml er veriden çıkarılır. Gerçek regresyon Kesikli veriye EKK uygulandığında sapmalı regreson
  • 27. Görüldüğü gibi kesikli verilerle EKK kurmak sapmalara neden olacak. Sapmasız tahminler EÇOB tahminine bağlıdır. 27
  • 28. Tahmin yöntemi aşağıdaki gibidir.  Her gözlem için ui=yi-β0-β1xi yazabiliriz. Böylece, olabilirlik katkısı yüksek yoğunluk fonksiyonu olacaktır. Ama, yanlız yi<ci olduğu durumda örnek seçtiğimiz için, u‟nun yi<ci üzerindeki koşullu yoğunluk fonksiyonunu kullanmalıyız. Şartlı yoğunluk fonksiyonu bir sonraki slaytda verilmiştir. 28
  • 30. Sonuç olarak, i. gözlem için olabilirlilik katkısı ui=yi-β0-β1xi „nin şartlı yoğunluk fonksiyonunda yerine konulması ile elde edilir. Olabilirlik fonksiyonu aşağıda verilmiştir. The values of β0,β1,σ değerleri L‟yi maksimize eder ve bu değerler Kesikli Regresyonun tahmincileri olur. 30 )( 1 10 10       ii ii i xc xy L             n i i LL 1 10 ),,( 
  • 31. Kısmi etkiler Tahmin edilmiş β1, x‟in y üzerinde olan etkisini gösteriyor. Böylece, parametreleri EKK parametreleri gibi yorumlayabiliriz. 31
  • 32. Uygulama Kesikli regresyon için uygun verimiz yoktur. Bu nedenle, kesikli regresyonun nasıl çalıştığını görmek amacı ile kendimiz veriyi keselim. Örnek1. Use JPSC_familyinc.dta veri setindeki tüm gözlemler kullanılarak kurulan model aşağıdaki gibidir. (family income)=β0+β1(husband‟ educ)+u Aile geliri 10,000 yendir. 32
  • 33. Örnek2. Aile gelirleri 800 (familyinc<800) den küçük olan gözlemlerle EKK kurarsak parametreler nasıl değişir? Örnek2. Aile gelirleri 800 den büyük olan (familyinc≥800) veriler atılarak oluşturulan kesikli verilerle, kesikli regresyon kurulursa parametreleri nasıl değiştirir? Kesikli regresyon orjinal regresyonun parametrelerini iyileştiriyormu? 33
  • 34. 34 _cons 143.895 15.09181 9.53 0.000 114.3109 173.479 huseduc 32.93413 1.083325 30.40 0.000 30.81052 35.05775 familyinc Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 357156023 7694 46420.0705 Root MSE = 203.58 Adj R-squared = 0.1071 Residual 318850122 7693 41446.7856 R-squared = 0.1073 Model 38305900.9 1 38305900.9 Prob > F = 0.0000 F( 1, 7693) = 924.22 Source SS df MS Number of obs = 7695 . reg familyinc huseduc _cons 244.5233 11.33218 21.58 0.000 222.3084 266.7383 huseduc 20.27929 .8260432 24.55 0.000 18.65996 21.89861 familyinc Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 132238735 6273 21080.621 Root MSE = 138.69 Adj R-squared = 0.0875 Residual 120645494 6272 19235.5699 R-squared = 0.0877 Model 11593241.1 1 11593241.1 Prob > F = 0.0000 F( 1, 6272) = 602.70 Source SS df MS Number of obs = 6274 . reg familyinc huseduc if familyinc<800 Tüm gözlemler kullanılarak kurulan regresyon familyinc≥800 olan gözlemler çıkarılır. huseduc’un parametresi sıfıra doğru sapmalıdır.
  • 35. 35 /sigma 153.1291 1.805717 84.80 0.000 149.59 156.6683 _cons 203.6856 13.75721 14.81 0.000 176.7219 230.6492 huseduc 24.50276 1.0264 23.87 0.000 22.49105 26.51446 familyinc Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -39618.629 Prob > chi2 = 0.0000 upper = 800 Wald chi2(1) = 569.90 Limit: lower = -inf Number of obs = 6274 Truncated regression Iteration 3: log likelihood = -39618.629 Iteration 2: log likelihood = -39618.629 Iteration 1: log likelihood = -39618.757 Iteration 0: log likelihood = -39676.782 Fitting full model: (note: 1421 obs. truncated) . truncreg familyinc huseduc, ul(800) Kesikli regresyonda üst limit 800’e eşittir. 800’den büyük olan gözlemler regresyona dahil edilmez. Sapa doğru görünüyor, ama bu örnekte mükemmel değildir.
  • 36. Heckman Örnek Seçiminde Sapmanın Düzeltilmesi (Heckit Model) Veri kesilmesi için en yaygın neden (B-2) türüdür: rassal kesme. Bu veri kesme şekli , genellikle örnek seçme anketçinin kararına göre değil, insanların kararlarına göre belirlendiği için ortaya çıkar. Örnek olarak ücret regresyonunu gösterebiliriz. Eğer insanlar çalışmayı tercih ederlerse, “örneğe katılmayı kendileri seçecektir.”. İnsanlar çalışmamayı seçerlerse, “kendileri örneğe katılmamayı seçecektirler”. Bu tür kesmeden kaynanklanan sapma Örnek Seçim Sapması adlandırılır.. 36
  • 37. Sapmanın düzeltilmesi için bu tür veri kesme Heckman Örnek Seçimi Düzeltme Yöntemi ile edilir. Bu yöntem Heckit modeli olarak tanımlanır. Ücret regresyonunu düşünelim. Heckit modelinde, ücret denklemi ve örnek seçim denklemi vardır. Ücret denklemi: yi=xiβ+ui ve ui~N(0,σu 2) Seçim denklemi: si*=ziδ+ei, ve ei~N(0,1) eğer si*>0 ise si=1, ve si*≤0 ise si=0 olur. 37
  • 38. Yukarıdaki denklemlerde, aşağıdaki vektör notasyonları kullanılır. β =(β0,β1,β2,…,βk)T. xi=(1,xi1, xi2,…,xik) ve δ=(δ0, δ1,.., δm)T ve zi=(1, zi1, zi2,..,zim). xi ve zi „nin dışsal olduğu varsayılmaktadır. Yani, E(ui|xi, zi)=0. Ayrıca, xi „in zi„nin kesin(tam) altkümesi olduğunu varsayılmaktadır. Yani, tüm x değişkenleri zi „nin bir parçasıdır. Örnek olarak, xi=(1, experi, agei), ve zi=(1, experi, agei, kidslt6i). zi „nin en az xi ‟nin bir değişkenini içermesi gerekir. 38
  • 39. Eğer ui ve ei korelsayonlu olursa, yapısal hata, ui, ve örnek seçimi si de korelasyona sahip olur. Başka bir ifade ile, Sadece ui ve ei korelasyonlu ise, örnek seçimi sapmaya neden olur.  ui ve ei arasındaki korelsayonu ρ=corr(ui, ei) ile gösterelim. 39
  • 40. Heckit modeli aşağıdaki gibi veri gerektirir. 1. yi helen çalışan insanları gösteren gözlemler olduğunda kullanışlıdır. 2: Ama, xi ve zi hem çalışan insanlar, hem de çalışmayan insanlar olduğunda kullanılabilir. 40
  • 41. Heckit modelini gösterelim. İlk olarak, kişinin işgücüne katıldığı göz önüne alındığında ( si=1) yi „nin beklenen değeri aşağıdaki gibi yazılabilir. İkideğişkenli normal dağılımın sonuçları kulanıldığında, son terim E(ui|ei>-ziδ,zi)= gibi gösterilebilir. , terimi , ters Mills oranıdır λ(ziδ). 41 ),|( ),|( ),|( ),0|( ),0|(),1|( * iiiii iiiii iiii iiii iiiiii zzeuEx zzeuxE zzeyE zezyE zsyEzsyE          )(/)(  ii zz  )(/)(  ii zz 
  • 42. Sonuç olarak, Heckman, örnek seçim sapmasının dışlanmış değişkenlerin sapması gibi olduğunu göstermiştir. Burada dışlanmış değişken λ(ziδ)‟dır. 42 )( ),|( ),1|(   ii iiiii iii zx zzeuEx zsyE   
  • 43. λ(ziδ) kolayca tahmin edilir. Seçim denkleminin basitçe iş gücüne katılım gösteren probit modeli olduğunu unutmayın. Seçim denklemi tahmin etmek için probit modelini kullanır. Sonra hesaplanır. Ücret regresyonuna dahil ederek sapma düzeltilebilir, daha sonra EKK kullanılarak model tahmin edilir. Heckman bu yöntemin, örneklem seçim sapmasını düzeltdiğini göstermiştir. Bu yöntem Heckit modeldir. Bir sonraki slayt Heckit modelnin özetidir.. 43 )ˆ(  i z )ˆ(  i z ˆ
  • 44. Heckman’ın İki adımlı Örnek Seçim Düzeltme Yöntemi (Heckit model) Ücret denklemi: yi=xiβ+ui ve ui~N(0,σu2) Seçim denklemi: si*=ziδ+ei,ve ei~N(0,1) Birey çalışıyorsa si*>0, çalışmıyorsa si*≤0. Varsayım 1: E(ui|xi, zi)=0 Varsayım 2: xi , zi„nin tam altkümesidir. Eğer ui ve ei korelsayonlu ise, ücret denkleminin (sadece çalışanları gösteren gözlemlerin yer aldığı denklem) EKK tahmini sapmalıdır. 44
  • 45. Birinci adım: Probit modelini kullanarak örnek seçim denkleminin parametreleri tahmin edilir. Sonra hesaplanır. İkinci adım: ücret denkleminde yerine yazılır ve denklem EKK ile tahmin edilir.Yani: aşağıdaki denklem tahmin edilir. Bu modelde, ρ „nun katsayısıdır. Eğer ρ≠0 ise örnek seçimi sapmalı, ρ=0 ise örnek seçimi sapmasızdır. 45 ˆ )ˆ(  i z )ˆ(  i z errorzxy iii  )ˆ(  )ˆ(  i z
  • 46. Bu süreci titiz bir şekilde uygulayarak gerçek katsayıları elde etsek de, gerçek standart hatalara ulaşamayız. Gerçek standart hata formülü için, Wooldridge (2002)‟ye başvurmak gerekir..  Stata gerçek standart hataları otomatik olarak hesaplamaktadır. 46
  • 47. Uygulama Mroz.dta veri setinden yararlanmakla Heckit modelini kullanarak ücret teklifi modelini tahmin edelim. Ücret teklifi denklemi için bağımsız değişkenler: educ exper expersq. Örnek seçimi denklemi için açıklayıcı değişkenler: educ, exper, expersq, nwifeinc, age, kidslt6, kidsge6. 47
  • 48. 48_cons .2700768 .508593 0.53 0.595 -.7267473 1.266901 kidsge6 .036005 .0434768 0.83 0.408 -.049208 .1212179 kidslt6 -.8683285 .1185223 -7.33 0.000 -1.100628 -.636029 age -.0528527 .0084772 -6.23 0.000 -.0694678 -.0362376 nwifeinc -.0120237 .0048398 -2.48 0.013 -.0215096 -.0025378 expersq -.0018871 .0006 -3.15 0.002 -.003063 -.0007111 exper .1233476 .0187164 6.59 0.000 .0866641 .1600311 educ .1309047 .0252542 5.18 0.000 .0814074 .180402 s Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = -401.30219 Pseudo R2 = 0.2206 Prob > chi2 = 0.0000 LR chi2(7) = 227.14 Probit regression Number of obs = 753 Iteration 4: log likelihood = -401.30219 Iteration 3: log likelihood = -401.30219 Iteration 2: log likelihood = -401.32924 Iteration 1: log likelihood = -405.78215 Iteration 0: log likelihood = -514.8732 . probit s educ exper expersq nwifeinc age kidslt6 kidsge6 . ******************************* . *selection equation * . *Next, estimate the probit * . ******************************* (428 real changes made) . replace s=1 if wage~=. (428 missing values generated) . gen s=0 if wage==. . *************************** . * Variable * . * First create selection * . *************************** . ********************************************** . * Estimating heckit model manually * . ********************************************** Heckit’in elle çözümü. (dikkat: doğru standart hataları elde edemeyeceksiniz Birinci adım: Probit seçim denklemi
  • 49. 49 _cons -.5781032 .306723 -1.88 0.060 -1.180994 .024788 lambda .0322619 .1343877 0.24 0.810 -.2318889 .2964126 expersq -.0008591 .0004414 -1.95 0.052 -.0017267 8.49e-06 exper .0438873 .0163534 2.68 0.008 .0117434 .0760313 educ .1090655 .0156096 6.99 0.000 .0783835 .1397476 lwage Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 223.327441 427 .523015084 Root MSE = .66716 Adj R-squared = 0.1490 Residual 188.279492 423 .445105182 R-squared = 0.1569 Model 35.0479487 4 8.76198719 Prob > F = 0.0000 F( 4, 423) = 19.69 Source SS df MS Number of obs = 428 . reg lwage educ exper expersq lambda . ************************************* . *Finally, estimate the Heckit model * . ************************************* . gen lambda =normalden(xdelta)/normal(xdelta) . predict xdelta, xb . ******************************* . *Then create inverse lambda * . ******************************* İkinci adım: Standart hataların doğru olmadığını not edin.
  • 50. 50 lambda .03226186 .1336246 sigma .66362875 rho 0.04861 lambda .0322619 .1336246 0.24 0.809 -.2296376 .2941613 mills _cons .2700768 .508593 0.53 0.595 -.7267473 1.266901 kidsge6 .036005 .0434768 0.83 0.408 -.049208 .1212179 kidslt6 -.8683285 .1185223 -7.33 0.000 -1.100628 -.636029 age -.0528527 .0084772 -6.23 0.000 -.0694678 -.0362376 nwifeinc -.0120237 .0048398 -2.48 0.013 -.0215096 -.0025378 expersq -.0018871 .0006 -3.15 0.002 -.003063 -.0007111 exper .1233476 .0187164 6.59 0.000 .0866641 .1600311 educ .1309047 .0252542 5.18 0.000 .0814074 .180402 s _cons -.5781032 .3050062 -1.90 0.058 -1.175904 .019698 expersq -.0008591 .0004389 -1.96 0.050 -.0017194 1.15e-06 exper .0438873 .0162611 2.70 0.007 .0120163 .0757584 educ .1090655 .015523 7.03 0.000 .0786411 .13949 lwage Coef. Std. Err. z P>|z| [95% Conf. Interval] Prob > chi2 = 0.0000 Wald chi2(3) = 51.53 Uncensored obs = 428 (regression model with sample selection) Censored obs = 325 Heckman selection model -- two-step estimates Number of obs = 753 . heckman lwage educ exper expersq, select(s=educ exper expersq nwifeinc age kidslt6 kidsge6) twostep Heckit otomatik olarak tahmin edilmektedir. H0 :ρ=0 reddedilemez. Yani örnek seçiminde sapmanın olduğu ile ilgili az kanıt vardır.