SlideShare a Scribd company logo
1 of 22
Download to read offline
1 
T.C. DOKUZ EYLÜL ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ EKONOMETRİ ANABİLİM DALI EKONOMETRİ DOKTORA PROGRAMI Sayma Regresyon Modeli Hazırlayan: Nicat GASIM Öğretim Üyesi Prof. Dr. Şenay ÜÇDOĞRUK İzmir-2014
2 
Bu çalışmada çocuk sayısını etkileyen faktörlerin sayma modelleri aracılığı ile incelenmesi hedeflenmiştir. Model kurmaya başlamadan önce, çocuk sayısını etkilediği düşünülen faktörler ve onlara ait tanımlayıcı istatistikler Tablo 1’de verilmiştir. 
Tablo 1: Değişkenlerin tanımlayıcı istatistikleri 
. summarize cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent 
Variable | Obs Mean Std. Dev. Min Max 
cocuksayisi | 9035 2.067405 1.664989 0 16 
kadinyas | 9035 40.21638 14.68212 0 95 
erkekyas | 9035 40.44416 18.15721 0 98 
erkek_ozel | 8167 .5982613 .4902797 0 1 
erkek_devl~t | 8167 .1697074 .3753985 0 1 
kadin_ozel | 8773 .1590106 .3657068 0 1 
kadin_devl~t | 8773 .0280406 .1650982 0 1 
kent | 9035 .8469286 .3600762 0 1 
Sayma modellerinde öncelikli olarak aşırı veya eksik yayılımın olup olmadığına karar vermek gerekir. Bizim örneğimizde bağımlı değişkene ait ortalama varyansdan küçük olduğu için (2.06<1.662=2.75) aşırı yayılımın olduğunu söyleyebiliriz. Ancak aşırı yayılımı test etmeden önce Poisson Regresyon Modeli (PRM) tahmin edilmelidir.
3 
PRM-1 
. poisson cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent 
Iteration 0: log likelihood = -14197.26 
Iteration 1: log likelihood = -14197.259 
Poisson regression Number of obs = 7905 
LR chi2(7) = 317.14 
Prob > chi2 = 0.0000 
Log likelihood = -14197.259 Pseudo R2 = 0.0110 
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
kadinyas | -.0057392 .001826 -3.14 0.002 -.009318 -.0021604 
erkekyas | .0052688 .0017769 2.97 0.003 .0017862 .0087514 
erkek_ozel | .2885364 .0240408 12.00 0.000 .2414173 .3356555 
erkek_devlet_kit | .3160742 .0286015 11.05 0.000 .2600163 .372132 
kadin_ozel | .0581524 .0224478 2.59 0.010 .0141556 .1021492 
kadin_devlet_kit | -.4645722 .0588564 -7.89 0.000 -.5799286 -.3492158 
kent | .0369273 .0232888 1.59 0.113 -.008718 .0825725 
_cons | .502281 .0531456 9.45 0.000 .3981176 .6064444 
Poisson regresyon modeli tahmin sonuçları incelendiğinde, %5 anlamlılık düzeyinde kent değişkeninin katsayısı dışındaki katsayıların anlamlı olduğu görülmektedir. Modelin doğru spesifikasyonunu elde etmek için tahminlenmiş olduğumuz model sınırlandırılmış ve sadece sabit terim kullanılarak yeniden tahminlenmişdir.
4 
PRM-2 
. poisson cocuksayisi, nolog 
Poisson regression Number of obs = 9035 
LR chi2(0) = 0.00 
Prob > chi2 = . 
Log likelihood = -16489.495 Pseudo R2 = 0.0000 
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
_cons | .726294 .0073168 99.26 0.000 .7119532 .7406347 
Dikkat edilirse PRM-2’de iterasyonları görmemek amacı ile ‘nolog’ komutu kullanılmıştır. PRM-1 ve PRM-2 modellerinden hangisinin geçerli olduğunu test etmede her iki modelin Log Likelihood değerleri kullanılmaktadır. Elde edilen test istatistiği 휒2 istatistiği ile kıyaslanarak hipotez kabül yada reddedilmektedir. 
1. Adım: 
H0 :Sınırlamalar geçerlidir (β1 =β2 =0 ) 
H1 : Sınırlamalar geçersizdir. (PRM-1 modeli tercih edilmelidir) 
2. Adım: Testistatistiği=2(LPRM-1 –LPRM-2) 
Test istatistiği = 2*(-14197.259-(-16489.495))= 4584.472 
3. Adım : 
. disp chi2tail(7, 4584.472) 
0 
4. Adım: 0<p=0.05 olduğundan sıfır hipotezi reddedilmektedir. 
Yani model sınırlaması geçerli değildir. PRM-1 modeli geçerlidir.PRM-1 modelinin geçerli olduğunun tespit etdikten sonra tahminlenen ve gözlenen dağılımı karşılaştırmak için ‘prcounts’ komutu kullanılmıştır. Bu komut her gözlem için sıfırdan maksimuma kadar her saymanın tahmin oranını ve olasılıklarını hesaplamaktadır.
5 
. prcounts psn, plot max(9) 
. list psnval psnobeq psnpreq in 1/10 
+------------------------------+ 
| psnval psnobeq psnpreq | 
|------------------------------| 
1. | 0 .1685667 .1265137 | 
2. | 1 .2178196 .261555 | 
3. | 2 .2989485 .27037 | 
4. | 3 .1648035 .1863214 | 
5. | 4 .0753735 .0963004 | 
|------------------------------| 
6. | 5 .031876 .0398184 | 
7. | 6 .0220255 .0137201 | 
8. | 7 .0100719 .0040521 | 
9. | 8 .0064195 .0010472 | 
10. | 9 .0014388 .0002405 | 
+------------------------------+ 
Yukarıdaki tablo, ortalama 2.067 olduğu durumda tahminlenen ve gözlenen değerleri göstermektedir. Bu tabloda verilenlere göre Poisson dağılımı olayların %12.6’sının sıfır olacağını tahmin ederken, gözlenen değerlere göre ise olayların %16.8’i sıfırdır. Gözlenen değerler ile Poisson dağılımının grafiği aşağıdaki gibidir.
6 
Grafikten görüldügü gibi gözlenen dağılım, Poisson dağılımından daha fazla sıfıra sahiptir. 
‘fitstat’ komutu kullnarak Log Likelihood, McFadden’s R2 (or Pseudo R2), Akaike Information Criterion (AIC) ve Bayesion Information Criterion (BIC) gibi çeşitli iyi uyum istatistikleri hesaplanmaktadır. Bu komutu kullanarak elde edilen modele ilişkin uyum ölçüleri aşağıdaki sonuçta yer almaktadır. 
. fitstat 
Measures of Fit for poisson of cocuksayisi 
Log-Lik Intercept Only: -16489.495 Log-Lik Full Model: -16489.495 
D(9034): 32978.989 LR(0): 0.000 
Prob > LR: . 
McFadden's R2: 0.000 McFadden's Adj R2: -0.000 
ML (Cox-Snell) R2: 0.000 Cragg-Uhler(Nagelkerke) R2: 0.000 
AIC: 3.650 AIC*n: 32980.989 
BIC: -49310.463 BIC': 0.000 
BIC used by Stata: 32988.098 AIC used by Stata: 32980.989 
PRM’nin tahmin sonuçları ‘listcoef’ komutu kullnılarak yourmlanabilmektedir. Bu komutla standartlaştırılmamış katsayıların faktör ve yüzde değişimleri listelenmekte ve regresyon sonuçları yorumlanabilmektedir. 
0.1.2.3Probability 0123456789CountObserved Pr(y=k) from poissonPredicted Pr(y=k) from poisson
7 
. listcoef, help 
poisson (N=7905): Factor Change in Expected Count 
Observed SD: 1.6484507 
cocuksayisi | b z P>|z| e^b e^bStdX SDofX 
kadinyas | -0.00574 -3.143 0.002 0.9943 0.9321 12.2513 
erkekyas | 0.00527 2.965 0.003 1.0053 1.0696 12.7653 
erkek_ozel | 0.28854 12.002 0.000 1.3345 1.1516 0.4892 
erkek_devl~t | 0.31607 11.051 0.000 1.3717 1.1265 0.3768 
kadin_ozel | 0.05815 2.591 0.010 1.0599 1.0215 0.3659 
kadin_devl~t | -0.46457 -7.893 0.000 0.6284 0.9277 0.1616 
kent | 0.03693 1.586 0.113 1.0376 1.0134 0.3617 
b = raw coefficient 
z = z-score for test of b=0 
P>|z| = p-value for z-test 
e^b = exp(b) = factor change in expected count for unit increase in X 
e^bStdX = exp(b*SD of X) = change in expected count for SD increase in X 
SDofX = standard deviation of X 
Elde edilen bulgulara göre, diğer değişkenler sabitken kadının yaşındaki artış, çocuk sayısını 0.9943 faktörü kadar artırmaktadır. Diğer bir ifade ile kadının yaşındaki artış, çocuk sayısını %0.57 azaltmaktadır. 
(100*( 0.9943-1))= %-0.57 
‘prtab’ komutu listelenmiş kategorik değişkenlerinin bütün kombinasyonları için tahminlenen değerlerinin oranını vermektedir. Uygulamamızda bu komutu çalışırarak, aşağıdaki sonuçlara ulaşabiliriz.
8 
. prtab kadin_ozel 
poisson: Predicted rates for cocuksayisi 
kadinisst | 
atuy== | 
1.0000 | Prediction 
0 | 2.1253 
1 | 2.2525 
kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent 
x= 40.130803 44.581784 .60354206 .171284 .15926629 .02681847 .84528779 
Elde edilen sonuçlara göre, özel sektörde çalışan kadınlarda çocuk sayısı oranı 2.25’tir. Çocuk sayısı sürekli değer alamayacağından, çalışan kadınların 2 çocuk sahibi oluduğu şeklinde yorum yapmak daha doğru olacaktır. 
‘prvalue’ komutu bağımsız değişkenler için tahminlenen değerleri vermektedir. Bu komutla kadının yaşı dikkate alındığında çocuk sayısı olasılığının sayma sayısının sıfır değerleri için 0.0687 olduğu elde edilmiştir. Bu komutla elde edilen sonuçlara göre tahminlenen oran değeri, “prtab”ile tahminlenen oran değeri 2.2525”e eşittir 
. prvalue, x(kadin_ozel=1) maxcnt(6) 
poisson: Predictions for cocuksayisi 
Confidence intervals by delta method 
95% Conf. Interval 
Rate: 2.2525 [ 2.1631, 2.3419] 
Pr(y=0|x): 0.1051 [ 0.0957, 0.1145] 
Pr(y=1|x): 0.2368 [ 0.2250, 0.2486] 
Pr(y=2|x): 0.2667 [ 0.2640, 0.2694] 
Pr(y=3|x): 0.2003 [ 0.1943, 0.2062] 
Pr(y=4|x): 0.1128 [ 0.1049, 0.1206] 
Pr(y=5|x): 0.0508 [ 0.0453, 0.0563] 
Pr(y=6|x): 0.0191 [ 0.0162, 0.0219] 
kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent 
x= 40.130803 44.581784 .60354206 .171284 1 .02681847 .84528779
9 
Marjinal etkiler (değişiklikler) ‘prchange’ komutuyla hesaplanabilmektedir. Bu komutla, kentte yaşayan kadınlar için standart sapmanın bir birim artması, kadınların kentte yaşamadığı durumda (yani kent=0) çocuk sayısı olayı 0.0278 artmaktadır. 
. prchange, x(kent=0) 
poisson: Changes in Rate for cocuksayisi 
min->max 0->1 -+1/2 -+sd/2 MargEfct 
kadinyas -0.7992 -0.0150 -0.0119 -0.1462 -0.0119 
erkekyas 0.9380 0.0087 0.0110 0.1399 0.0110 
erkek_ozel 0.5843 0.5843 0.6020 0.2937 0.5999 
erkek_devl~t 0.7321 0.7321 0.6599 0.2477 0.6572 
kadin_ozel 0.1233 0.1233 0.1209 0.0442 0.1209 
kadin_devl~t -0.7823 -0.7823 -0.9746 -0.1561 -0.9659 
kent 0.0782 0.0782 0.0768 0.0278 0.0768 
exp(xb): 2.0791 
kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent 
x= 40.1308 44.5818 .603542 .171284 .159266 .026818 0 
sd_x= 12.2513 12.7653 .489193 .376781 .365947 .161563 .361653 
Negatif Binom Regresyon Modeli (NBRM) 
STATA’da NBRM kurmak için ‘nbreg’ komutu kullanılır. Bu komut üç log likelihood istatistiğini raporlamaktadır. 
. nbreg cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent 
S1. Fitting Poisson model: 
Iteration 0: log likelihood = -14197.26 
Iteration 1: log likelihood = -14197.259 
S2. Fitting constant-only model: 
Iteration 0: log likelihood = -15610.691 
Iteration 1: log likelihood = -14267.651 
Iteration 2: log likelihood = -14267.104 
Iteration 3: log likelihood = -14267.104
10 
S3. Fitting full model: 
Iteration 0: log likelihood = -14135.529 
Iteration 1: log likelihood = -14132.907 
Iteration 2: log likelihood = -14132.884 
Iteration 3: log likelihood = -14132.884 
Negative binomial regression Number of obs = 7905 
LR chi2(7) = 268.44 
Dispersion = mean Prob > chi2 = 0.0000 
Log likelihood = -14132.884 Pseudo R2 = 0.0094 
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
kadinyas | -.0057932 .0019786 -2.93 0.003 -.0096712 -.0019152 
erkekyas | .0050688 .0019216 2.64 0.008 .0013026 .0088351 
erkek_ozel | .2845887 .0257408 11.06 0.000 .2341376 .3350399 
erkek_devlet_kit | .3122562 .0308079 10.14 0.000 .2518738 .3726385 
kadin_ozel | .05946 .024519 2.43 0.015 .0114036 .1075163 
kadin_devlet_kit | -.4651256 .0623233 -7.46 0.000 -.587277 -.3429742 
kent | .036558 .0253132 1.44 0.149 -.013055 .0861711 
_cons | .51651 .0577134 8.95 0.000 .4033937 .6296262 
/lnalpha | -2.508874 .1019698 -2.708731 -2.309016 
alpha | .0813598 .0082962 .0666213 .0993589 
Likelihood-ratio test of alpha=0: chibar2(01) = 128.75 Prob>=chibar2 = 0.000 
NBRM tahmin sonuçları hesaplandığında S1,S2 ve S3 şeklinde tanımladığımız üç istatistik sonucu raporlanmaktadır. S1-PRM sonuçlarını, S2-sadece sabitle tahminlenmiş NBRM sonuçlarını, S3 ise tüm açıklayıcı değişkenlerin yer aldığı NBRM likelihood değerlerini ifade etmektedir. Öncelikle S2 ve S3 modellerinin uyum iyiliği test edilmiştir. Uyum iyiliğinin testi için aşağıdaki adımlar sırasıyla takip edilmelidir. 
1. Adım: 
H0 :Sınırlamalar geçerlidir (S2 modeli tercih edilmelidir. ) 
H1 : Sınırlamalar geçersizdir. (S3 modeli tercih edilmelidir.) 
2. Adım: Testistatistiği=2(LS3 –LS2) 
Test istatistiği = 2*(-14132.884-( -14267.104))= 268.44
11 
3. Adım : Testistatistiği p değeri 
. disp chi2tail(7, 268.44) 
3.274e-54≈0 
4. Adım: 3.274e-54<p=0.05 olduğundan sıfır hipotezi reddedilmektedir. 
Yani, model sınırlanması geçerli değildir. S3 modeli geçerlidir. 
NBRM sonuçlarını elde etdiğimize göre artık, aşırı yayılımın test edilmesine geçebiliriz. PRM ve NBRM modellerinden hangisinin tercih edileceği ile ilgili test istatistiği aşağıdaki gibidir. 
1. Adım: 
H0 : α=0 NBRM, PRM’ye yaklaşmaktadır. 
H1 : α≠0 PRM yerine NBRM seçilmelidir. 
2. Adım: Testistatistiği=2(LNBRM –LPRM) 
Test istatistiği = 2*(-14132.884-( -14.197)= 128.75 
3. Adım : Test istatistiği p değeri 
. disp chi2tail(1, 128.75) 
7.692e-30≈0 
4. Adım: 7.692e-30<0.05 olduğundan sıfır hipotezi reddedilmektedir. 
Yukarıdaki sonuçlara göre NBRM tercih edilir. Test sonuçlarına göre aşırı yayılım istatistiki olarak önemlidir. Bağımsız değişkenler açısından marjinal etkiler hesaplandığında aşağıdaki sonuçlar elde edilmektedir.
12 
. prchange 
nbreg: Changes in Rate for cocuksayisi 
min->max 0->1 -+1/2 -+sd/2 MargEfct 
kadinyas -0.8319 -0.0156 -0.0124 -0.1523 -0.0124 
erkekyas 0.9279 0.0087 0.0109 0.1388 0.0109 
erkek_ozel 0.5947 0.5947 0.6125 0.2989 0.6104 
erkek_devl~t 0.7452 0.7452 0.6725 0.2525 0.6698 
kadin_ozel 0.1302 0.1302 0.1276 0.0467 0.1275 
kadin_devl~t -0.8078 -0.8078 -1.0067 -0.1612 -0.9977 
kent 0.0774 0.0774 0.0784 0.0284 0.0784 
exp(xb): 2.1450 
kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent 
x= 40.1308 44.5818 .603542 .171284 .159266 .026818 .845288 
sd_x= 12.2513 12.7653 .489193 .376781 .365947 .161563 .361653 
Kadının yaşında bir standart sapmanın bir birim artması çocuk sayısı 0.1523 azaltırken, erkeğin yaşında bir birimlik standart sapma çocuk sayısı olayını 0.1388 artırmaktadır. 
Sıfır Değer Ağırlıklı Poisson Regresyon Modeli (ZIP) 
ZIP modellerinde tahminleme yaparken STATA programında zip komutu kullanılmaktadır. ‘Inflate’ komutu gözlemlenen saymaların sıfır olup olmadığını belirlemektedir. ‘vuong’ komutu ZIP ve PRM modellerini karşılaştıran Vuong istatistiğini hesaplamaktadır. 
. zip cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent, inflate( kadinyas erkekyas kent) vuong 
Fitting constant-only model: 
Iteration 0: log likelihood = -17439.751 
Iteration 1: log likelihood = -14266.653 
Iteration 2: log likelihood = -13936.927 
Iteration 3: log likelihood = -13854.591 
Iteration 4: log likelihood = -13848.61 
Iteration 5: log likelihood = -13848.547 
Iteration 6: log likelihood = -13848.547
13 
Fitting full model: 
Iteration 0: log likelihood = -13848.547 
Iteration 1: log likelihood = -13670.277 
Iteration 2: log likelihood = -13667.555 
Iteration 3: log likelihood = -13667.551 
Iteration 4: log likelihood = -13667.551 
Zero-inflated Poisson regression Number of obs = 7905 
Nonzero obs = 6852 
Zero obs = 1053 
Inflation model = logit LR chi2(7) = 361.99 
Log likelihood = -13667.55 Prob > chi2 = 0.0000 
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
cocuksayisi | 
kadinyas | .0024465 .0018807 1.30 0.193 -.0012397 .0061326 
erkekyas | .0096927 .0018152 5.34 0.000 .006135 .0132504 
erkek_ozel | .2846757 .0246053 11.57 0.000 .2364502 .3329011 
erkek_devlet_kit | .2741242 .0290103 9.45 0.000 .2172651 .3309833 
kadin_ozel | .0216681 .0228175 0.95 0.342 -.0230535 .0663896 
kadin_devlet_kit | -.4625541 .0590356 -7.84 0.000 -.5782617 -.3468466 
kent | -.0338247 .0238986 -1.42 0.157 -.0806651 .0130157 
_cons | .1386855 .0547979 2.53 0.011 .0312836 .2460874 
inflate | 
kadinyas | .1124803 .013006 8.65 0.000 .086989 .1379716 
erkekyas | .0749122 .0124531 6.02 0.000 .0505047 .0993198 
kent | -.5958122 .1481865 -4.02 0.000 -.8862523 -.3053721 
_cons | -11.93036 .4788086 -24.92 0.000 -12.86881 -10.99191 
Vuong test of zip vs. standard Poisson: z = 13.53 Pr>z = 0.0000 
ZIP modeli için, sınırlandırılmış modelin geçerliliği için önceki test adımları tekrarlanırsa, aşağıdaki sonuçlara ulaşılır.
14 
1. Adım: 
H0 : Sınırlamalar geçerlidir 
H1 : Sınırlamalar geçersizdir. 
2. Adım: Testistatistiği=2*(LZIPFULL –LZIPONLYCONSTANT) 
Test istatistiği = 2*(-13667.551-( -13848.547))= 361.994 
3. Adım : Testistatistiği p değeri 
. disp chi2tail(7, 361.994) 
3.335e-74 
p=3.335e-74≈0 
4. Adım: 3.335e-74<0.05 olduğundan sıfır hipotezi reddedilmektedir. 
Yukarıdaki sonuçlarla beraber LR chi2(7)=361.994 ve Prob > chi2=0.0000”dır. Yani sırnırlandırılmamış ZIPFULL modeli tercih edilmelidir. Bir sonraki aşama sınırlandırılmamış ZIP modeli ile sınırlandırılmamış PRM modelini karşılaştırmaktır. ZIP modelinde ‘inflate’ kısmı PRM’ye denk geldiğinden modeli tekrar kurmaya gerek yoktur. Yukarıda verilmiş olan model hem ZIP hem de PRM’nin sınırlandırılmamış durumdaki sonuçlarıdır. Bu nedenle hangi modelin geçerli olduğunu belirlemek için aşağıdaki hipotezler altında z testistatistiği kullanılır. 
H0 : V(ZIP/PRM)< kritikdeğer (PRM modeli tercih edilmelidir.) 
H1 :V(ZIP/PRM)> kritikdeğer (ZIP modeli tercih edilmelidir.) 
ZIP ve PRM modellerini karşılaştıran Vuong istatistiği ile, 7 serbestlik derecesi ve %5 anlamılık düzeyinde ki-kare tablo değeri ile karşılaştırılır. z =13.53<14.067 olduğundan sıfır hipotezi kabüledilir. Yani bu durumda PRM modeli tercih edilmelidir.
15 
Sıfır Değer Ağırlıklı Negatif Binom Regresyon Modeli (ZINB) 
ZINB modelini STATA’da tahmin etmek için ‘zinb’ komutu kullanılır. ZINB(SDANBRM) ile NBRM modellerini karşılaştırmak için Vuong istatistiği kullanılmaktadır. 
. zinb cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent, inflate( kadinyas erkekyas kent) vuong 
Fitting constant-only model: 
Iteration 0: log likelihood = -19587.346 
Iteration 1: log likelihood = -14543.951 
Iteration 2: log likelihood = -13971.594 
Iteration 3: log likelihood = -13848.536 
Iteration 4: log likelihood = -13836.06 
Iteration 5: log likelihood = -13835.704 
Iteration 6: log likelihood = -13835.703 
Fitting full model: 
Iteration 0: log likelihood = -13835.703 
Iteration 1: log likelihood = -13670.929 
Iteration 2: log likelihood = -13665.927 
Iteration 3: log likelihood = -13665.915 
Iteration 4: log likelihood = -13665.915
16 
Zero-inflated negative binomial regression Number of obs = 7905 
Nonzero obs = 6852 
Zero obs = 1053 
Inflation model = logit LR chi2(7) = 339.58 
Log likelihood = -13665.91 Prob > chi2 = 0.0000 
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] 
cocuksayisi | 
kadinyas | .0024276 .0019066 1.27 0.203 -.0013092 .0061645 
erkekyas | .0096377 .0018401 5.24 0.000 .0060311 .0132443 
erkek_ozel | .2849298 .0248941 11.45 0.000 .2361383 .3337212 
erkek_devlet_kit | .2747582 .0293596 9.36 0.000 .2172144 .3323019 
kadin_ozel | .0219024 .0231373 0.95 0.344 -.0234459 .0672507 
kadin_devlet_kit | -.4624387 .0595268 -7.77 0.000 -.579109 -.3457684 
kent | -.0332589 .0242428 -1.37 0.170 -.080774 .0142562 
_cons | .1400732 .0555595 2.52 0.012 .0311786 .2489678 
inflate | 
kadinyas | .1131801 .0131371 8.62 0.000 .0874319 .1389282 
erkekyas | .0753217 .0125822 5.99 0.000 .0506611 .0999824 
kent | -.6018759 .1497853 -4.02 0.000 -.8954498 -.308302 
_cons | -12.01194 .4872847 -24.65 0.000 -12.967 -11.05688 
/lnalpha | -4.479384 .568162 -7.88 0.000 -5.592961 -3.365807 
alpha | .0113404 .0064432 .003724 .0345341 
Vuong test of zinb vs. standard negative binomial: z = 13.74 Pr>z = 0.0000 
Öncelikle ZINB ve ZIP modelleri karşılaştırılarak aşırı yayılımın varlığı incelenecektir. Bu nedenle test süreci aşağıdaki adımlardan oluşmaktadır. 
1. Adım: 
H0 : α=0 (ZIP modeli tercih edilmelidir.) 
H1 : α≠0 (ZINB modeli tercih edilmelidir) 
2. Adım: Testistatistiği=2*(LZINB –LZIP) 
Test istatistiği = 2*(- 13665.91 -( -13667.551))= 3.282
17 
3. Adım : Testistatistiği p değeri 
. disp chi2tail(7, 3.282)=0.85774764 
p=0.86 
4. Adım: 0.86>0.05 olduğundan sıfır hipotezi reddedilememektedir. 
Test istatistiği sonuçlarına göre ZIP modeli tercih edilmelidir. 
ZINB ve NBRM modellerini karşılaştıran Vuong istatistiğine bakıldığında; 
H0 : V(ZINB/NBRM)<kritikdeğer (NBRM modeli tercih edilir.) 
H1 : V(ZINB/NBRM)>kritik değer (ZINB modeli tercih edilir.) 
Vuong istatistiğine göre hesaplanan z = 13.74<χ7,0.052=14.067 olduğundan H0 hipotezi reddedilemez. 
Son olarak, kurulan modellerden hangisinin verilere daha iyi uyum sağladığını belirlemek amacı ile aşağıda test istatistikleri ve grafik verilmiştir. 
. countfit cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent 
Variable | PRM NBRM ZIP ZINB 
cocuksayisi | 
kadinyas | 0.994 0.994 1.002 1.002 
| -3.14 -2.93 1.27 1.24 
erkekyas | 1.005 1.005 1.010 1.010 
| 2.97 2.64 5.35 5.25 
erkekisstatuy== ..0000 | 1.334 1.329 1.327 1.327 
| 12.00 11.06 11.30 11.18 
erkekisstatuy== ..0000 | 1.372 1.367 1.305 1.306 
| 11.05 10.14 9.03 8.94 
kadinisstatuy== ..0000 | 1.060 1.061 1.019 1.019 
| 2.59 2.43 0.81 0.81 
kadinisstatuy== ..0000 | 0.628 0.628 0.628 0.628 
| -7.89 -7.46 -7.91 -7.83 
kirkent== 1.0000 | 1.038 1.037 0.964 0.965 
| 1.59 1.44 -1.52 -1.47 
Constant | 1.652 1.676 1.157 1.159 
| 9.45 8.95 2.65 2.63
18 
lnalpha | 
Constant | 0.081 0.011 
| -24.60 -7.95 
inflate | 
kadinyas | 1.117 1.117 
| 8.51 8.48 
erkekyas | 1.074 1.075 
| 5.67 5.65 
erkekisstatuy== ..0000 | 1.038 1.042 
| 0.21 0.23 
erkekisstatuy== ..0000 | 0.319 0.298 
| -1.49 -1.47 
kadinisstatuy== ..0000 | 0.746 0.747 
| -1.37 -1.34 
kadinisstatuy== ..0000 | 0.000 0.000 
| -0.02 -0.02 
kirkent== 1.0000 | 0.488 0.486 
| -3.95 -3.93 
Constant | 0.000 0.000 
| -19.62 -19.45 
Statistics | 
alpha | 0.081 
N | 7905 7905 7905 7905 
ll | -1.42e+04 -1.41e+04 -1.37e+04 -1.37e+04 
bic | 28466.321 28346.546 27470.772 27476.401 
aic | 28410.519 28283.768 27359.168 27357.821 
legend: b/t
19 
Comparison of Mean Observed and Predicted Count 
Maximum At Mean 
Model Difference Value |Diff| 
PRM 0.055 2 0.017 
NBRM 0.073 2 0.016 
ZIP 0.079 2 0.020 
ZINB 0.081 2 0.020 
PRM: Predicted and actual probabilities 
Count Actual Predicted |Diff| Pearson 
0 0.133 0.120 0.013 11.670 
1 0.220 0.248 0.029 25.938 
2 0.318 0.264 0.055 89.785 
3 0.172 0.190 0.019 14.499 
4 0.079 0.105 0.026 52.548 
5 0.033 0.047 0.014 34.382 
6 0.024 0.018 0.006 15.342 
7 0.011 0.006 0.005 37.860 
8 0.007 0.002 0.005 116.178 
9 0.002 0.000 0.001 22.355 
Sum 0.997 1.000 0.173 420.556
20 
NBRM: Predicted and actual probabilities 
Count Actual Predicted |Diff| Pearson 
0 0.133 0.141 0.008 3.328 
1 0.220 0.251 0.031 29.710 
2 0.318 0.245 0.073 172.688 
3 0.172 0.175 0.003 0.384 
4 0.079 0.101 0.023 40.021 
5 0.033 0.051 0.018 49.954 
6 0.024 0.022 0.001 0.377 
7 0.011 0.009 0.002 2.972 
8 0.007 0.003 0.003 22.290 
9 0.002 0.001 0.000 0.548 
Sum 0.997 0.999 0.161 322.272 
ZIP: Predicted and actual probabilities 
Count Actual Predicted |Diff| Pearson 
0 0.133 0.168 0.034 55.778 
1 0.220 0.211 0.009 2.788 
2 0.318 0.240 0.079 203.897 
3 0.172 0.185 0.014 7.962 
4 0.079 0.110 0.031 70.290 
5 0.033 0.053 0.020 62.071 
6 0.024 0.022 0.002 1.110 
7 0.011 0.008 0.003 10.252 
8 0.007 0.003 0.004 52.181 
9 0.002 0.001 0.001 6.703 
Sum 0.997 1.000 0.197 473.033
21 
ZINB: Predicted and actual probabilities 
Count Actual Predicted |Diff| Pearson 
0 0.133 0.170 0.037 62.198 
1 0.220 0.212 0.007 2.024 
2 0.318 0.238 0.081 216.958 
3 0.172 0.183 0.011 5.389 
4 0.079 0.109 0.030 66.848 
5 0.033 0.053 0.021 63.908 
6 0.024 0.022 0.001 0.382 
7 0.011 0.008 0.003 6.640 
8 0.007 0.003 0.004 40.307 
9 0.002 0.001 0.001 3.987 
Sum 0.997 1.000 0.195 468.640 
Tests and Fit Statistics 
PRM BIC=-42483.036 AIC= 3.594 Prefer Over Evidence 
vs NBRM BIC=-42602.812 dif= 119.775 NBRM PRM Very strong 
AIC= 3.578 dif= 0.016 NBRM PRM 
LRX2= 128.751 prob= 0.000 NBRM PRM p=0.000 
vs ZIP BIC=-43478.585 dif= 995.549 ZIP PRM Very strong 
AIC= 3.461 dif= 0.133 ZIP PRM 
Vuong= 13.621 prob= 0.000 ZIP PRM p=0.000 
vs ZINB BIC=-43472.957 dif= 989.920 ZINB PRM Very strong 
AIC= 3.461 dif= 0.133 ZINB PRM 
NBRM BIC=-42602.812 AIC= 3.578 Prefer Over Evidence 
vs ZIP BIC=-43478.585 dif= 875.773 ZIP NBRM Very strong 
AIC= 3.461 dif= 0.117 ZIP NBRM 
vs ZINB BIC=-43472.957 dif= 870.145 ZINB NBRM Very strong 
AIC= 3.461 dif= 0.117 ZINB NBRM 
Vuong= 13.835 prob= 0.000 ZINB NBRM p=0.000
22 
ZIP BIC=-43478.585 AIC=3.461 Prefer Over Evidence 
vs ZINB BIC=-43472.957 dif= -5.628 ZIP ZINB Positive 
AIC= 3.461 dif= 0.000 ZINB ZIP 
LRX2= 3.347 prob= 0.034 ZINB ZIP p=0.000 
-------------------------------+--PRM------------NBRM--------ZİP---------ZİNB 
Statistics | 
alpha | 0.081 
N | 7905 7905 7905 7905 
ll | -1.42e+04 -1.41e+04 -1.37e+04 -1.37e+04 
bic | 28466.321 28346.546 27470.772 27476.401 
aic | 28410.519 28283.768 27359.168 27357.821 
POISSON, NBRM, ZIP VE ZINB MODELLERİNİN GRAFİKLERİ 
Yukarıda verilen test istatistiklerini incelediğimizde uyum iyiliğini ölüçütleri olan AIC ve BIC değerleri diğer modellerle kıyasla ZIP modelinde daha küçük değer almıştır. Bundan dolayı ZIP modeli verilerimize en iyi uyum sağlayan model olarak belirlenmiştir. 
-.1-.050.05.1Observed-0123456789CountPRMNBRMZIPZINBPOISSON, NBRM, ZIP VE ZINB MODELLERİNİN GRAFİKLERİ

More Related Content

More from Dokuz Eylül University

More from Dokuz Eylül University (7)

Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...
Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...
Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...
 
Tobit Model&Tobit Modeli
Tobit Model&Tobit ModeliTobit Model&Tobit Modeli
Tobit Model&Tobit Modeli
 
Fuzzy Regression&Bulanık Regresyon
Fuzzy Regression&Bulanık RegresyonFuzzy Regression&Bulanık Regresyon
Fuzzy Regression&Bulanık Regresyon
 
Simulation/Simülasyon
Simulation/SimülasyonSimulation/Simülasyon
Simulation/Simülasyon
 
Bayesian regression.
Bayesian regression.Bayesian regression.
Bayesian regression.
 
Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)
Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)
Constrained Optimization Example Kısıtlı Optimizasyon Örneği (Atama örneği)
 
Forcasting example
Forcasting exampleForcasting example
Forcasting example
 

Sayma Modelleri Count Model

  • 1. 1 T.C. DOKUZ EYLÜL ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ EKONOMETRİ ANABİLİM DALI EKONOMETRİ DOKTORA PROGRAMI Sayma Regresyon Modeli Hazırlayan: Nicat GASIM Öğretim Üyesi Prof. Dr. Şenay ÜÇDOĞRUK İzmir-2014
  • 2. 2 Bu çalışmada çocuk sayısını etkileyen faktörlerin sayma modelleri aracılığı ile incelenmesi hedeflenmiştir. Model kurmaya başlamadan önce, çocuk sayısını etkilediği düşünülen faktörler ve onlara ait tanımlayıcı istatistikler Tablo 1’de verilmiştir. Tablo 1: Değişkenlerin tanımlayıcı istatistikleri . summarize cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent Variable | Obs Mean Std. Dev. Min Max cocuksayisi | 9035 2.067405 1.664989 0 16 kadinyas | 9035 40.21638 14.68212 0 95 erkekyas | 9035 40.44416 18.15721 0 98 erkek_ozel | 8167 .5982613 .4902797 0 1 erkek_devl~t | 8167 .1697074 .3753985 0 1 kadin_ozel | 8773 .1590106 .3657068 0 1 kadin_devl~t | 8773 .0280406 .1650982 0 1 kent | 9035 .8469286 .3600762 0 1 Sayma modellerinde öncelikli olarak aşırı veya eksik yayılımın olup olmadığına karar vermek gerekir. Bizim örneğimizde bağımlı değişkene ait ortalama varyansdan küçük olduğu için (2.06<1.662=2.75) aşırı yayılımın olduğunu söyleyebiliriz. Ancak aşırı yayılımı test etmeden önce Poisson Regresyon Modeli (PRM) tahmin edilmelidir.
  • 3. 3 PRM-1 . poisson cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent Iteration 0: log likelihood = -14197.26 Iteration 1: log likelihood = -14197.259 Poisson regression Number of obs = 7905 LR chi2(7) = 317.14 Prob > chi2 = 0.0000 Log likelihood = -14197.259 Pseudo R2 = 0.0110 cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] kadinyas | -.0057392 .001826 -3.14 0.002 -.009318 -.0021604 erkekyas | .0052688 .0017769 2.97 0.003 .0017862 .0087514 erkek_ozel | .2885364 .0240408 12.00 0.000 .2414173 .3356555 erkek_devlet_kit | .3160742 .0286015 11.05 0.000 .2600163 .372132 kadin_ozel | .0581524 .0224478 2.59 0.010 .0141556 .1021492 kadin_devlet_kit | -.4645722 .0588564 -7.89 0.000 -.5799286 -.3492158 kent | .0369273 .0232888 1.59 0.113 -.008718 .0825725 _cons | .502281 .0531456 9.45 0.000 .3981176 .6064444 Poisson regresyon modeli tahmin sonuçları incelendiğinde, %5 anlamlılık düzeyinde kent değişkeninin katsayısı dışındaki katsayıların anlamlı olduğu görülmektedir. Modelin doğru spesifikasyonunu elde etmek için tahminlenmiş olduğumuz model sınırlandırılmış ve sadece sabit terim kullanılarak yeniden tahminlenmişdir.
  • 4. 4 PRM-2 . poisson cocuksayisi, nolog Poisson regression Number of obs = 9035 LR chi2(0) = 0.00 Prob > chi2 = . Log likelihood = -16489.495 Pseudo R2 = 0.0000 cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] _cons | .726294 .0073168 99.26 0.000 .7119532 .7406347 Dikkat edilirse PRM-2’de iterasyonları görmemek amacı ile ‘nolog’ komutu kullanılmıştır. PRM-1 ve PRM-2 modellerinden hangisinin geçerli olduğunu test etmede her iki modelin Log Likelihood değerleri kullanılmaktadır. Elde edilen test istatistiği 휒2 istatistiği ile kıyaslanarak hipotez kabül yada reddedilmektedir. 1. Adım: H0 :Sınırlamalar geçerlidir (β1 =β2 =0 ) H1 : Sınırlamalar geçersizdir. (PRM-1 modeli tercih edilmelidir) 2. Adım: Testistatistiği=2(LPRM-1 –LPRM-2) Test istatistiği = 2*(-14197.259-(-16489.495))= 4584.472 3. Adım : . disp chi2tail(7, 4584.472) 0 4. Adım: 0<p=0.05 olduğundan sıfır hipotezi reddedilmektedir. Yani model sınırlaması geçerli değildir. PRM-1 modeli geçerlidir.PRM-1 modelinin geçerli olduğunun tespit etdikten sonra tahminlenen ve gözlenen dağılımı karşılaştırmak için ‘prcounts’ komutu kullanılmıştır. Bu komut her gözlem için sıfırdan maksimuma kadar her saymanın tahmin oranını ve olasılıklarını hesaplamaktadır.
  • 5. 5 . prcounts psn, plot max(9) . list psnval psnobeq psnpreq in 1/10 +------------------------------+ | psnval psnobeq psnpreq | |------------------------------| 1. | 0 .1685667 .1265137 | 2. | 1 .2178196 .261555 | 3. | 2 .2989485 .27037 | 4. | 3 .1648035 .1863214 | 5. | 4 .0753735 .0963004 | |------------------------------| 6. | 5 .031876 .0398184 | 7. | 6 .0220255 .0137201 | 8. | 7 .0100719 .0040521 | 9. | 8 .0064195 .0010472 | 10. | 9 .0014388 .0002405 | +------------------------------+ Yukarıdaki tablo, ortalama 2.067 olduğu durumda tahminlenen ve gözlenen değerleri göstermektedir. Bu tabloda verilenlere göre Poisson dağılımı olayların %12.6’sının sıfır olacağını tahmin ederken, gözlenen değerlere göre ise olayların %16.8’i sıfırdır. Gözlenen değerler ile Poisson dağılımının grafiği aşağıdaki gibidir.
  • 6. 6 Grafikten görüldügü gibi gözlenen dağılım, Poisson dağılımından daha fazla sıfıra sahiptir. ‘fitstat’ komutu kullnarak Log Likelihood, McFadden’s R2 (or Pseudo R2), Akaike Information Criterion (AIC) ve Bayesion Information Criterion (BIC) gibi çeşitli iyi uyum istatistikleri hesaplanmaktadır. Bu komutu kullanarak elde edilen modele ilişkin uyum ölçüleri aşağıdaki sonuçta yer almaktadır. . fitstat Measures of Fit for poisson of cocuksayisi Log-Lik Intercept Only: -16489.495 Log-Lik Full Model: -16489.495 D(9034): 32978.989 LR(0): 0.000 Prob > LR: . McFadden's R2: 0.000 McFadden's Adj R2: -0.000 ML (Cox-Snell) R2: 0.000 Cragg-Uhler(Nagelkerke) R2: 0.000 AIC: 3.650 AIC*n: 32980.989 BIC: -49310.463 BIC': 0.000 BIC used by Stata: 32988.098 AIC used by Stata: 32980.989 PRM’nin tahmin sonuçları ‘listcoef’ komutu kullnılarak yourmlanabilmektedir. Bu komutla standartlaştırılmamış katsayıların faktör ve yüzde değişimleri listelenmekte ve regresyon sonuçları yorumlanabilmektedir. 0.1.2.3Probability 0123456789CountObserved Pr(y=k) from poissonPredicted Pr(y=k) from poisson
  • 7. 7 . listcoef, help poisson (N=7905): Factor Change in Expected Count Observed SD: 1.6484507 cocuksayisi | b z P>|z| e^b e^bStdX SDofX kadinyas | -0.00574 -3.143 0.002 0.9943 0.9321 12.2513 erkekyas | 0.00527 2.965 0.003 1.0053 1.0696 12.7653 erkek_ozel | 0.28854 12.002 0.000 1.3345 1.1516 0.4892 erkek_devl~t | 0.31607 11.051 0.000 1.3717 1.1265 0.3768 kadin_ozel | 0.05815 2.591 0.010 1.0599 1.0215 0.3659 kadin_devl~t | -0.46457 -7.893 0.000 0.6284 0.9277 0.1616 kent | 0.03693 1.586 0.113 1.0376 1.0134 0.3617 b = raw coefficient z = z-score for test of b=0 P>|z| = p-value for z-test e^b = exp(b) = factor change in expected count for unit increase in X e^bStdX = exp(b*SD of X) = change in expected count for SD increase in X SDofX = standard deviation of X Elde edilen bulgulara göre, diğer değişkenler sabitken kadının yaşındaki artış, çocuk sayısını 0.9943 faktörü kadar artırmaktadır. Diğer bir ifade ile kadının yaşındaki artış, çocuk sayısını %0.57 azaltmaktadır. (100*( 0.9943-1))= %-0.57 ‘prtab’ komutu listelenmiş kategorik değişkenlerinin bütün kombinasyonları için tahminlenen değerlerinin oranını vermektedir. Uygulamamızda bu komutu çalışırarak, aşağıdaki sonuçlara ulaşabiliriz.
  • 8. 8 . prtab kadin_ozel poisson: Predicted rates for cocuksayisi kadinisst | atuy== | 1.0000 | Prediction 0 | 2.1253 1 | 2.2525 kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent x= 40.130803 44.581784 .60354206 .171284 .15926629 .02681847 .84528779 Elde edilen sonuçlara göre, özel sektörde çalışan kadınlarda çocuk sayısı oranı 2.25’tir. Çocuk sayısı sürekli değer alamayacağından, çalışan kadınların 2 çocuk sahibi oluduğu şeklinde yorum yapmak daha doğru olacaktır. ‘prvalue’ komutu bağımsız değişkenler için tahminlenen değerleri vermektedir. Bu komutla kadının yaşı dikkate alındığında çocuk sayısı olasılığının sayma sayısının sıfır değerleri için 0.0687 olduğu elde edilmiştir. Bu komutla elde edilen sonuçlara göre tahminlenen oran değeri, “prtab”ile tahminlenen oran değeri 2.2525”e eşittir . prvalue, x(kadin_ozel=1) maxcnt(6) poisson: Predictions for cocuksayisi Confidence intervals by delta method 95% Conf. Interval Rate: 2.2525 [ 2.1631, 2.3419] Pr(y=0|x): 0.1051 [ 0.0957, 0.1145] Pr(y=1|x): 0.2368 [ 0.2250, 0.2486] Pr(y=2|x): 0.2667 [ 0.2640, 0.2694] Pr(y=3|x): 0.2003 [ 0.1943, 0.2062] Pr(y=4|x): 0.1128 [ 0.1049, 0.1206] Pr(y=5|x): 0.0508 [ 0.0453, 0.0563] Pr(y=6|x): 0.0191 [ 0.0162, 0.0219] kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent x= 40.130803 44.581784 .60354206 .171284 1 .02681847 .84528779
  • 9. 9 Marjinal etkiler (değişiklikler) ‘prchange’ komutuyla hesaplanabilmektedir. Bu komutla, kentte yaşayan kadınlar için standart sapmanın bir birim artması, kadınların kentte yaşamadığı durumda (yani kent=0) çocuk sayısı olayı 0.0278 artmaktadır. . prchange, x(kent=0) poisson: Changes in Rate for cocuksayisi min->max 0->1 -+1/2 -+sd/2 MargEfct kadinyas -0.7992 -0.0150 -0.0119 -0.1462 -0.0119 erkekyas 0.9380 0.0087 0.0110 0.1399 0.0110 erkek_ozel 0.5843 0.5843 0.6020 0.2937 0.5999 erkek_devl~t 0.7321 0.7321 0.6599 0.2477 0.6572 kadin_ozel 0.1233 0.1233 0.1209 0.0442 0.1209 kadin_devl~t -0.7823 -0.7823 -0.9746 -0.1561 -0.9659 kent 0.0782 0.0782 0.0768 0.0278 0.0768 exp(xb): 2.0791 kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent x= 40.1308 44.5818 .603542 .171284 .159266 .026818 0 sd_x= 12.2513 12.7653 .489193 .376781 .365947 .161563 .361653 Negatif Binom Regresyon Modeli (NBRM) STATA’da NBRM kurmak için ‘nbreg’ komutu kullanılır. Bu komut üç log likelihood istatistiğini raporlamaktadır. . nbreg cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent S1. Fitting Poisson model: Iteration 0: log likelihood = -14197.26 Iteration 1: log likelihood = -14197.259 S2. Fitting constant-only model: Iteration 0: log likelihood = -15610.691 Iteration 1: log likelihood = -14267.651 Iteration 2: log likelihood = -14267.104 Iteration 3: log likelihood = -14267.104
  • 10. 10 S3. Fitting full model: Iteration 0: log likelihood = -14135.529 Iteration 1: log likelihood = -14132.907 Iteration 2: log likelihood = -14132.884 Iteration 3: log likelihood = -14132.884 Negative binomial regression Number of obs = 7905 LR chi2(7) = 268.44 Dispersion = mean Prob > chi2 = 0.0000 Log likelihood = -14132.884 Pseudo R2 = 0.0094 cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] kadinyas | -.0057932 .0019786 -2.93 0.003 -.0096712 -.0019152 erkekyas | .0050688 .0019216 2.64 0.008 .0013026 .0088351 erkek_ozel | .2845887 .0257408 11.06 0.000 .2341376 .3350399 erkek_devlet_kit | .3122562 .0308079 10.14 0.000 .2518738 .3726385 kadin_ozel | .05946 .024519 2.43 0.015 .0114036 .1075163 kadin_devlet_kit | -.4651256 .0623233 -7.46 0.000 -.587277 -.3429742 kent | .036558 .0253132 1.44 0.149 -.013055 .0861711 _cons | .51651 .0577134 8.95 0.000 .4033937 .6296262 /lnalpha | -2.508874 .1019698 -2.708731 -2.309016 alpha | .0813598 .0082962 .0666213 .0993589 Likelihood-ratio test of alpha=0: chibar2(01) = 128.75 Prob>=chibar2 = 0.000 NBRM tahmin sonuçları hesaplandığında S1,S2 ve S3 şeklinde tanımladığımız üç istatistik sonucu raporlanmaktadır. S1-PRM sonuçlarını, S2-sadece sabitle tahminlenmiş NBRM sonuçlarını, S3 ise tüm açıklayıcı değişkenlerin yer aldığı NBRM likelihood değerlerini ifade etmektedir. Öncelikle S2 ve S3 modellerinin uyum iyiliği test edilmiştir. Uyum iyiliğinin testi için aşağıdaki adımlar sırasıyla takip edilmelidir. 1. Adım: H0 :Sınırlamalar geçerlidir (S2 modeli tercih edilmelidir. ) H1 : Sınırlamalar geçersizdir. (S3 modeli tercih edilmelidir.) 2. Adım: Testistatistiği=2(LS3 –LS2) Test istatistiği = 2*(-14132.884-( -14267.104))= 268.44
  • 11. 11 3. Adım : Testistatistiği p değeri . disp chi2tail(7, 268.44) 3.274e-54≈0 4. Adım: 3.274e-54<p=0.05 olduğundan sıfır hipotezi reddedilmektedir. Yani, model sınırlanması geçerli değildir. S3 modeli geçerlidir. NBRM sonuçlarını elde etdiğimize göre artık, aşırı yayılımın test edilmesine geçebiliriz. PRM ve NBRM modellerinden hangisinin tercih edileceği ile ilgili test istatistiği aşağıdaki gibidir. 1. Adım: H0 : α=0 NBRM, PRM’ye yaklaşmaktadır. H1 : α≠0 PRM yerine NBRM seçilmelidir. 2. Adım: Testistatistiği=2(LNBRM –LPRM) Test istatistiği = 2*(-14132.884-( -14.197)= 128.75 3. Adım : Test istatistiği p değeri . disp chi2tail(1, 128.75) 7.692e-30≈0 4. Adım: 7.692e-30<0.05 olduğundan sıfır hipotezi reddedilmektedir. Yukarıdaki sonuçlara göre NBRM tercih edilir. Test sonuçlarına göre aşırı yayılım istatistiki olarak önemlidir. Bağımsız değişkenler açısından marjinal etkiler hesaplandığında aşağıdaki sonuçlar elde edilmektedir.
  • 12. 12 . prchange nbreg: Changes in Rate for cocuksayisi min->max 0->1 -+1/2 -+sd/2 MargEfct kadinyas -0.8319 -0.0156 -0.0124 -0.1523 -0.0124 erkekyas 0.9279 0.0087 0.0109 0.1388 0.0109 erkek_ozel 0.5947 0.5947 0.6125 0.2989 0.6104 erkek_devl~t 0.7452 0.7452 0.6725 0.2525 0.6698 kadin_ozel 0.1302 0.1302 0.1276 0.0467 0.1275 kadin_devl~t -0.8078 -0.8078 -1.0067 -0.1612 -0.9977 kent 0.0774 0.0774 0.0784 0.0284 0.0784 exp(xb): 2.1450 kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent x= 40.1308 44.5818 .603542 .171284 .159266 .026818 .845288 sd_x= 12.2513 12.7653 .489193 .376781 .365947 .161563 .361653 Kadının yaşında bir standart sapmanın bir birim artması çocuk sayısı 0.1523 azaltırken, erkeğin yaşında bir birimlik standart sapma çocuk sayısı olayını 0.1388 artırmaktadır. Sıfır Değer Ağırlıklı Poisson Regresyon Modeli (ZIP) ZIP modellerinde tahminleme yaparken STATA programında zip komutu kullanılmaktadır. ‘Inflate’ komutu gözlemlenen saymaların sıfır olup olmadığını belirlemektedir. ‘vuong’ komutu ZIP ve PRM modellerini karşılaştıran Vuong istatistiğini hesaplamaktadır. . zip cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent, inflate( kadinyas erkekyas kent) vuong Fitting constant-only model: Iteration 0: log likelihood = -17439.751 Iteration 1: log likelihood = -14266.653 Iteration 2: log likelihood = -13936.927 Iteration 3: log likelihood = -13854.591 Iteration 4: log likelihood = -13848.61 Iteration 5: log likelihood = -13848.547 Iteration 6: log likelihood = -13848.547
  • 13. 13 Fitting full model: Iteration 0: log likelihood = -13848.547 Iteration 1: log likelihood = -13670.277 Iteration 2: log likelihood = -13667.555 Iteration 3: log likelihood = -13667.551 Iteration 4: log likelihood = -13667.551 Zero-inflated Poisson regression Number of obs = 7905 Nonzero obs = 6852 Zero obs = 1053 Inflation model = logit LR chi2(7) = 361.99 Log likelihood = -13667.55 Prob > chi2 = 0.0000 cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] cocuksayisi | kadinyas | .0024465 .0018807 1.30 0.193 -.0012397 .0061326 erkekyas | .0096927 .0018152 5.34 0.000 .006135 .0132504 erkek_ozel | .2846757 .0246053 11.57 0.000 .2364502 .3329011 erkek_devlet_kit | .2741242 .0290103 9.45 0.000 .2172651 .3309833 kadin_ozel | .0216681 .0228175 0.95 0.342 -.0230535 .0663896 kadin_devlet_kit | -.4625541 .0590356 -7.84 0.000 -.5782617 -.3468466 kent | -.0338247 .0238986 -1.42 0.157 -.0806651 .0130157 _cons | .1386855 .0547979 2.53 0.011 .0312836 .2460874 inflate | kadinyas | .1124803 .013006 8.65 0.000 .086989 .1379716 erkekyas | .0749122 .0124531 6.02 0.000 .0505047 .0993198 kent | -.5958122 .1481865 -4.02 0.000 -.8862523 -.3053721 _cons | -11.93036 .4788086 -24.92 0.000 -12.86881 -10.99191 Vuong test of zip vs. standard Poisson: z = 13.53 Pr>z = 0.0000 ZIP modeli için, sınırlandırılmış modelin geçerliliği için önceki test adımları tekrarlanırsa, aşağıdaki sonuçlara ulaşılır.
  • 14. 14 1. Adım: H0 : Sınırlamalar geçerlidir H1 : Sınırlamalar geçersizdir. 2. Adım: Testistatistiği=2*(LZIPFULL –LZIPONLYCONSTANT) Test istatistiği = 2*(-13667.551-( -13848.547))= 361.994 3. Adım : Testistatistiği p değeri . disp chi2tail(7, 361.994) 3.335e-74 p=3.335e-74≈0 4. Adım: 3.335e-74<0.05 olduğundan sıfır hipotezi reddedilmektedir. Yukarıdaki sonuçlarla beraber LR chi2(7)=361.994 ve Prob > chi2=0.0000”dır. Yani sırnırlandırılmamış ZIPFULL modeli tercih edilmelidir. Bir sonraki aşama sınırlandırılmamış ZIP modeli ile sınırlandırılmamış PRM modelini karşılaştırmaktır. ZIP modelinde ‘inflate’ kısmı PRM’ye denk geldiğinden modeli tekrar kurmaya gerek yoktur. Yukarıda verilmiş olan model hem ZIP hem de PRM’nin sınırlandırılmamış durumdaki sonuçlarıdır. Bu nedenle hangi modelin geçerli olduğunu belirlemek için aşağıdaki hipotezler altında z testistatistiği kullanılır. H0 : V(ZIP/PRM)< kritikdeğer (PRM modeli tercih edilmelidir.) H1 :V(ZIP/PRM)> kritikdeğer (ZIP modeli tercih edilmelidir.) ZIP ve PRM modellerini karşılaştıran Vuong istatistiği ile, 7 serbestlik derecesi ve %5 anlamılık düzeyinde ki-kare tablo değeri ile karşılaştırılır. z =13.53<14.067 olduğundan sıfır hipotezi kabüledilir. Yani bu durumda PRM modeli tercih edilmelidir.
  • 15. 15 Sıfır Değer Ağırlıklı Negatif Binom Regresyon Modeli (ZINB) ZINB modelini STATA’da tahmin etmek için ‘zinb’ komutu kullanılır. ZINB(SDANBRM) ile NBRM modellerini karşılaştırmak için Vuong istatistiği kullanılmaktadır. . zinb cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent, inflate( kadinyas erkekyas kent) vuong Fitting constant-only model: Iteration 0: log likelihood = -19587.346 Iteration 1: log likelihood = -14543.951 Iteration 2: log likelihood = -13971.594 Iteration 3: log likelihood = -13848.536 Iteration 4: log likelihood = -13836.06 Iteration 5: log likelihood = -13835.704 Iteration 6: log likelihood = -13835.703 Fitting full model: Iteration 0: log likelihood = -13835.703 Iteration 1: log likelihood = -13670.929 Iteration 2: log likelihood = -13665.927 Iteration 3: log likelihood = -13665.915 Iteration 4: log likelihood = -13665.915
  • 16. 16 Zero-inflated negative binomial regression Number of obs = 7905 Nonzero obs = 6852 Zero obs = 1053 Inflation model = logit LR chi2(7) = 339.58 Log likelihood = -13665.91 Prob > chi2 = 0.0000 cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval] cocuksayisi | kadinyas | .0024276 .0019066 1.27 0.203 -.0013092 .0061645 erkekyas | .0096377 .0018401 5.24 0.000 .0060311 .0132443 erkek_ozel | .2849298 .0248941 11.45 0.000 .2361383 .3337212 erkek_devlet_kit | .2747582 .0293596 9.36 0.000 .2172144 .3323019 kadin_ozel | .0219024 .0231373 0.95 0.344 -.0234459 .0672507 kadin_devlet_kit | -.4624387 .0595268 -7.77 0.000 -.579109 -.3457684 kent | -.0332589 .0242428 -1.37 0.170 -.080774 .0142562 _cons | .1400732 .0555595 2.52 0.012 .0311786 .2489678 inflate | kadinyas | .1131801 .0131371 8.62 0.000 .0874319 .1389282 erkekyas | .0753217 .0125822 5.99 0.000 .0506611 .0999824 kent | -.6018759 .1497853 -4.02 0.000 -.8954498 -.308302 _cons | -12.01194 .4872847 -24.65 0.000 -12.967 -11.05688 /lnalpha | -4.479384 .568162 -7.88 0.000 -5.592961 -3.365807 alpha | .0113404 .0064432 .003724 .0345341 Vuong test of zinb vs. standard negative binomial: z = 13.74 Pr>z = 0.0000 Öncelikle ZINB ve ZIP modelleri karşılaştırılarak aşırı yayılımın varlığı incelenecektir. Bu nedenle test süreci aşağıdaki adımlardan oluşmaktadır. 1. Adım: H0 : α=0 (ZIP modeli tercih edilmelidir.) H1 : α≠0 (ZINB modeli tercih edilmelidir) 2. Adım: Testistatistiği=2*(LZINB –LZIP) Test istatistiği = 2*(- 13665.91 -( -13667.551))= 3.282
  • 17. 17 3. Adım : Testistatistiği p değeri . disp chi2tail(7, 3.282)=0.85774764 p=0.86 4. Adım: 0.86>0.05 olduğundan sıfır hipotezi reddedilememektedir. Test istatistiği sonuçlarına göre ZIP modeli tercih edilmelidir. ZINB ve NBRM modellerini karşılaştıran Vuong istatistiğine bakıldığında; H0 : V(ZINB/NBRM)<kritikdeğer (NBRM modeli tercih edilir.) H1 : V(ZINB/NBRM)>kritik değer (ZINB modeli tercih edilir.) Vuong istatistiğine göre hesaplanan z = 13.74<χ7,0.052=14.067 olduğundan H0 hipotezi reddedilemez. Son olarak, kurulan modellerden hangisinin verilere daha iyi uyum sağladığını belirlemek amacı ile aşağıda test istatistikleri ve grafik verilmiştir. . countfit cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel kadin_devlet_kit kent Variable | PRM NBRM ZIP ZINB cocuksayisi | kadinyas | 0.994 0.994 1.002 1.002 | -3.14 -2.93 1.27 1.24 erkekyas | 1.005 1.005 1.010 1.010 | 2.97 2.64 5.35 5.25 erkekisstatuy== ..0000 | 1.334 1.329 1.327 1.327 | 12.00 11.06 11.30 11.18 erkekisstatuy== ..0000 | 1.372 1.367 1.305 1.306 | 11.05 10.14 9.03 8.94 kadinisstatuy== ..0000 | 1.060 1.061 1.019 1.019 | 2.59 2.43 0.81 0.81 kadinisstatuy== ..0000 | 0.628 0.628 0.628 0.628 | -7.89 -7.46 -7.91 -7.83 kirkent== 1.0000 | 1.038 1.037 0.964 0.965 | 1.59 1.44 -1.52 -1.47 Constant | 1.652 1.676 1.157 1.159 | 9.45 8.95 2.65 2.63
  • 18. 18 lnalpha | Constant | 0.081 0.011 | -24.60 -7.95 inflate | kadinyas | 1.117 1.117 | 8.51 8.48 erkekyas | 1.074 1.075 | 5.67 5.65 erkekisstatuy== ..0000 | 1.038 1.042 | 0.21 0.23 erkekisstatuy== ..0000 | 0.319 0.298 | -1.49 -1.47 kadinisstatuy== ..0000 | 0.746 0.747 | -1.37 -1.34 kadinisstatuy== ..0000 | 0.000 0.000 | -0.02 -0.02 kirkent== 1.0000 | 0.488 0.486 | -3.95 -3.93 Constant | 0.000 0.000 | -19.62 -19.45 Statistics | alpha | 0.081 N | 7905 7905 7905 7905 ll | -1.42e+04 -1.41e+04 -1.37e+04 -1.37e+04 bic | 28466.321 28346.546 27470.772 27476.401 aic | 28410.519 28283.768 27359.168 27357.821 legend: b/t
  • 19. 19 Comparison of Mean Observed and Predicted Count Maximum At Mean Model Difference Value |Diff| PRM 0.055 2 0.017 NBRM 0.073 2 0.016 ZIP 0.079 2 0.020 ZINB 0.081 2 0.020 PRM: Predicted and actual probabilities Count Actual Predicted |Diff| Pearson 0 0.133 0.120 0.013 11.670 1 0.220 0.248 0.029 25.938 2 0.318 0.264 0.055 89.785 3 0.172 0.190 0.019 14.499 4 0.079 0.105 0.026 52.548 5 0.033 0.047 0.014 34.382 6 0.024 0.018 0.006 15.342 7 0.011 0.006 0.005 37.860 8 0.007 0.002 0.005 116.178 9 0.002 0.000 0.001 22.355 Sum 0.997 1.000 0.173 420.556
  • 20. 20 NBRM: Predicted and actual probabilities Count Actual Predicted |Diff| Pearson 0 0.133 0.141 0.008 3.328 1 0.220 0.251 0.031 29.710 2 0.318 0.245 0.073 172.688 3 0.172 0.175 0.003 0.384 4 0.079 0.101 0.023 40.021 5 0.033 0.051 0.018 49.954 6 0.024 0.022 0.001 0.377 7 0.011 0.009 0.002 2.972 8 0.007 0.003 0.003 22.290 9 0.002 0.001 0.000 0.548 Sum 0.997 0.999 0.161 322.272 ZIP: Predicted and actual probabilities Count Actual Predicted |Diff| Pearson 0 0.133 0.168 0.034 55.778 1 0.220 0.211 0.009 2.788 2 0.318 0.240 0.079 203.897 3 0.172 0.185 0.014 7.962 4 0.079 0.110 0.031 70.290 5 0.033 0.053 0.020 62.071 6 0.024 0.022 0.002 1.110 7 0.011 0.008 0.003 10.252 8 0.007 0.003 0.004 52.181 9 0.002 0.001 0.001 6.703 Sum 0.997 1.000 0.197 473.033
  • 21. 21 ZINB: Predicted and actual probabilities Count Actual Predicted |Diff| Pearson 0 0.133 0.170 0.037 62.198 1 0.220 0.212 0.007 2.024 2 0.318 0.238 0.081 216.958 3 0.172 0.183 0.011 5.389 4 0.079 0.109 0.030 66.848 5 0.033 0.053 0.021 63.908 6 0.024 0.022 0.001 0.382 7 0.011 0.008 0.003 6.640 8 0.007 0.003 0.004 40.307 9 0.002 0.001 0.001 3.987 Sum 0.997 1.000 0.195 468.640 Tests and Fit Statistics PRM BIC=-42483.036 AIC= 3.594 Prefer Over Evidence vs NBRM BIC=-42602.812 dif= 119.775 NBRM PRM Very strong AIC= 3.578 dif= 0.016 NBRM PRM LRX2= 128.751 prob= 0.000 NBRM PRM p=0.000 vs ZIP BIC=-43478.585 dif= 995.549 ZIP PRM Very strong AIC= 3.461 dif= 0.133 ZIP PRM Vuong= 13.621 prob= 0.000 ZIP PRM p=0.000 vs ZINB BIC=-43472.957 dif= 989.920 ZINB PRM Very strong AIC= 3.461 dif= 0.133 ZINB PRM NBRM BIC=-42602.812 AIC= 3.578 Prefer Over Evidence vs ZIP BIC=-43478.585 dif= 875.773 ZIP NBRM Very strong AIC= 3.461 dif= 0.117 ZIP NBRM vs ZINB BIC=-43472.957 dif= 870.145 ZINB NBRM Very strong AIC= 3.461 dif= 0.117 ZINB NBRM Vuong= 13.835 prob= 0.000 ZINB NBRM p=0.000
  • 22. 22 ZIP BIC=-43478.585 AIC=3.461 Prefer Over Evidence vs ZINB BIC=-43472.957 dif= -5.628 ZIP ZINB Positive AIC= 3.461 dif= 0.000 ZINB ZIP LRX2= 3.347 prob= 0.034 ZINB ZIP p=0.000 -------------------------------+--PRM------------NBRM--------ZİP---------ZİNB Statistics | alpha | 0.081 N | 7905 7905 7905 7905 ll | -1.42e+04 -1.41e+04 -1.37e+04 -1.37e+04 bic | 28466.321 28346.546 27470.772 27476.401 aic | 28410.519 28283.768 27359.168 27357.821 POISSON, NBRM, ZIP VE ZINB MODELLERİNİN GRAFİKLERİ Yukarıda verilen test istatistiklerini incelediğimizde uyum iyiliğini ölüçütleri olan AIC ve BIC değerleri diğer modellerle kıyasla ZIP modelinde daha küçük değer almıştır. Bundan dolayı ZIP modeli verilerimize en iyi uyum sağlayan model olarak belirlenmiştir. -.1-.050.05.1Observed-0123456789CountPRMNBRMZIPZINBPOISSON, NBRM, ZIP VE ZINB MODELLERİNİN GRAFİKLERİ