SlideShare a Scribd company logo
ÇOKLU BAĞLANTI
Çoklu regresyon denkleminin yorumu, bağımsız değişkenlerin
kuvvetli bir şekilde ilişkili olmaması varsayımına bağlıdır. Bu varsayımın
bozulması, yani bağımsız değişkenler arasında bir ya da daha fazla
doğrusal bağıntının olması çoklu bağlantı (multicollinearity) problemini
doğurur.
Bağımsız değişkenler arasında doğrusal bir ilişki yoksa bu
değişkenlerin dik olduğu söylenir. Bağımsız değişkenler dik olduğu
zaman, çıkarsamalar nispeten kolayca yapılabilir. Ancak regresyon
uygulamalarının çoğunda, bağımsız değişkenler arasında ilişki söz
konusudur. Hatta, bazı durumlarda, bağımsız değişkenler arasındaki
doğrusal ilişki çok kuvvetli olup, regresyon modeli yardımıyla yapılacak
çıkarsamalar yanlış yönlendirmelere ve hatalara neden olabilir.
ÇOKLU BAĞLANTININ NEDENLERİ
1. Bağımsız değişken sayısı (k) gözlem sayısından (n) büyük, yani k>n olursa bu
durumda Tam Çoklu Bağlantı olur. Bu nedene dayalı çoklu bağlantı daha çok tıp
alanındaki çalışmalarda ortaya çıkar. Böyle durumlarda bağımsız değişken
sayısının azaltılması bu sorunu ortadan kaldırabilir.
2. Kullanılan model veya örnek alınan yığındaki kısıtlamalar çoklu bağlantıya
neden olabilir. Firmanın yıllık satış hasılası (y), firmada çalışan personel sayısı
(𝑥1) ve firmanın yıllık üretim harcaması (𝑥2) değişkenleri ile bir doğrusal
regresyon modeli oluşturulmak istensin. Bir firmada çalışan personel sayısı az
ise genel olarak üretim harcamasının da az, personel sayısı fazla ise üretim
harcamasının da fazla olması beklenir. Bu durum çoklu bağlantıya neden
olabilir.
3. Öngörülen modelin veri için uygun olmaması da çoklu bağlantıya neden olabilir.
4. Evreni temsil etmeyen örneklem seçimi çoklu bağlantıya neden olabilir.
ÇOKLU BAĞLANTININ ORTAYA ÇIKARILMASI
• BAĞIMSIZ DEĞİŞKENLERE İLİŞKİN KORELASYON MATRİSİNİN İNCELENMESİ
• BAĞIMSIZ DEĞİŞKENLER ARASINDAKİ ÇOKLU AÇIKLAYICILIK KATSAYISI VE
TOLERANS
• VARYANS ŞİŞME DEĞERLERİ (VARIANCE INFLATION FACTORS – VIF)
• KORELASYON MATRİSİNE İLİŞKİN ÖZDEĞERLERİN İNCELENMESİ
BAĞIMSIZ DEĞİŞKENLERE İLİŞKİN
KORELASYON MATRİSİNİN İNCELENMESİ
İki değişken arasındaki korelasyon katsayısının mutlak değeri 1’e yaklaşıyorsa, bu iki
değişkenin yakın doğrusal bağımlı olduğu söylenir. Örneğin 7 bağımsız değişkene ilişkin bir
korelasyon matrisinde, 𝑟13=-0.96 ve 𝑟45=0.99 gibi yüksek korelasyonların olması, veride
birkaç ‘’yakın’’ doğrusal bağımlılık olduğu hakkında bilgi verecektir. Bu da güçlü çoklu
bağlantı ortaya çıkaracaktır. Korelasyon katsayılarının tümü şüphe yaratmayacak kadar
küçükse, değişkenler arasında ‘’yakın’’ doğrusal bağımlılıkla ilgili bir belirtinin olmadığı
söylenebilir. Ancak korelasyon katsayılarının incelenmesi, ikili çoklu bağlantıdan çok daha
karmaşık çoklu bağlantıların incelenmesi için yeterli değildir.
BAĞIMSIZ DEĞİŞKENLER ARASINDAKİ ÇOKLU
AÇIKLAYICILIK KATSAYISI VE TOLERANS
Herhangi bir 𝑋𝑖 bağımsız değişkeni ile geriye kalan bağımsız değişkenler arasında
bulunacak çoklu açıklayıcılık (belirtme) katsayısını 𝑅𝑖
2
ile gösterirsek, 𝑅𝑖
2
’nin 1’e
yaklaşması durumunda 𝑋𝑖 bağımsız değişkeni ile diğer değişkenler arasında güçlü çoklu
bağlantı olduğu söylenir. 1 - 𝑅𝑖
2
değerine bir değişkenin toleransı denir. Eğer bir
değişkenin toleransı küçük (0’a yaklaşıyor) ise bu değişkenin diğer değişkenler ile doğrusal
bağıntılı olduğu söylenir.
VARYANS ŞİŞME DEĞERLERİ (VARIANCE
INFLATION FACTORS – VIF)
Bağımsız değişkenlere ilişkin korelasyon matrisinin tersi
C=(𝑋′ 𝑋)−1 matrisinin köşegen elemanlarına varyans şişme değerleri
denir ve 𝑉𝐼𝐹𝑗 ile gösterilir. 𝑉𝐼𝐹𝑗 değerleri tolerans değerleri ile ilgili
olarak;
𝑉𝐼𝐹𝑗 =
1
𝑡𝑜𝑙𝑒𝑟𝑎𝑛𝑠
=
1
(1−𝑅 𝑗
2)
olarak hesaplanır.
𝑉𝐼𝐹𝑗 değerlerinin 5 ya da 10’un üzerinde olması güçlü çoklu
bağlantının bir göstergesidir ve ilgili değişkenlere ilişkin regresyon
katsayılarına pek güvenilmemesi gerektiğini bildirir. 𝑉𝐼𝐹𝑗’ler iki ve daha
fazla çoklu bağıntının varlığını göstermede yararlı olabilecek en iyi
ölçülerden biridir.
KORELASYON MATRİSİNE İLİŞKİN
ÖZDEĞERLERİN İNCELENMESİ
Özdeğerlerin tersleri toplamı, çoklu bağlantı olmadığı durumda
p’ye eşit olur.
𝑖=1
𝑝 1
ƛ 𝑖
= p
Çoklu bağlantı olduğu durumlarda bu toplamın oldukça büyük
değerlere ulaştığı görülür. Örneğin 6 tane bağımsız değişkene ait
özdeğerlerin tersleri toplamının 12 olduğunu düşünelim. 12 değeri,
çoklu bağlantı olmadığı durumda elde edilecek olan p=bağımsız
değişken sayısı=6’ya oldukça yakın bir değer olduğundan veride çoklu
bağlantı olmadığı sonucuna ulaşılır. Fakat 12 yerine 800 gibi bir değer
bulunsaydı o zaman veride güçlü çoklu bağlantının varlığından söz
edilirdi.
Bu konuya ilişkin ikinci bir yaklaşım ise, korelasyon matrislerinden
elde edilen özdeğerlerden en büyüğünün en küçüğe bölünmesi şeklinde
tanımlanır ve bu büyüklük Ƙ ile gösterilir.
Ƙ =
ƛ 𝑚𝑎𝑥
ƛ 𝑚𝑖𝑛
Bu oran sonucunda bulunacak sayının 100’ün altında olması, veride
ciddi bir çoklu bağlantı sorununun olmadığının göstergesidir. Bulunacak
sayının 100 ile 1000 arasında olması orta düzeyden güçlüye doğru bir
eğilim içinde bulunan çoklu bağlantının göstergesidir. 1000’in üzerinde
olması ise çok güçlü çoklu bağlantının bir göstergesidir.
ÇOKLU BAĞLANTININ GİDERİLMESİ
• Ek Verilerin Toplanması
• Modelin Yeniden Belirlenmesi
• Ridge Regresyon
• Temel Bileşenler Regresyonu
TEMEL BİLEŞENLER REGRESYONU
Çoklu regresyon denkleminin yorumu, bağımsız değişkenlerin
kuvvetli bir şekilde ilişkili olmaması, daha genel anlamda çoklu bağlantı
olmaması varsayımına bağlıdır. Bağımsız değişkenler arasında ilişki
olmaması durumunda (bu durumda korelasyon katsayısı 0 ya da 0’a
yakın olacaktır), bu değişkenlerin dik (ortogonal) olduğu söylenir.
Regresyon uygulamalarının çoğunda, bağımsız değişkenler dik
olmamakla birlikte, dikliğin olmayışı gerekli analizi etkileyecek şiddette
değildir; ancak bazı durumlarda, bağımsız değişkenler regresyon
sonuçlarını belirsizleştirecek kadar ilişkilidir (çoklu bağlantı durumu).
Bağımsız değişkenler arasında çoklu bağlantı olduğunda
uygulanabilecek regresyon yöntemlerinde biri, Temel Bileşenler
Regresyonu’dur.
Temel Bileşenler Regresyonu; ‘’her doğrusal regresyon modelinin bir
dik açıklayıcı değişkenler kümesine dayanarak yeniden açıklanabileceği’’
gerçeği üzerine oluşturulmuştur. Bu yeni ve dik açıklayıcı değişkenler, orijinal
açıklayıcı değişkenlerin doğrusal bileşeni olarak elde edilir ve bağımsız
değişkenlerin temel bileşenleri olarak adlandırılırlar.
Temel Bileşenler Analizi sonucunda, p boyutlu (değişkenli) uzayı çok iyi
tanımlayan p tane yeni dik değişken (temel bileşen ya da özvektör) elde
edilir. P tane değişkenin taşıdığı bilginin k tane (k ≤ p) yeni değişkenle
açıklanması ise temel bileşenlerin ana amacını oluşturur. Bu amaç
doğrultusunda, p boyutlu uzaydaki toplam varyans (özdeğerler toplamı), her
biri özvektörlerle tanımlanan öyle yeni değişkenlerle ifade edilir ki, en büyük
varyans (özdeğer) birinci özvektöre, en küçük varyans sonuncu özvektöre ait
olur.
(ƛ1 > ƛ2 > … > ƛ 𝑝) Diğer bir deyişle, bağımsız değişkenler kümesindeki
toplam değişimin büyük bir bölümü birinci özvektör, ondan daha azı ikinci
özvektör,… tarafından açıklanır.
Kişi No y x1 x2 x3 zx1 zx2 zx3
1 11.9 19.5 43.1 29.1 -1.15562 -1.54166 0.4058
2 22.8 24.7 49.8 28.2 -0.12044 -0.26172 0.15903
3 18.7 30.7 51.9 37 1.074 0.13946 2.57187
4 20.1 29.8 54.3 31.1 0.89484 0.59794 0.95417
5 12.9 19.1 42.2 30.9 -1.23525 -1.71359 0.89933
6 21.7 25.6 53.9 23.7 0.05873 0.52153 -1.07481
7 27.1 31.4 58.5 27.6 1.21336 1.40029 -0.00548
8 25.4 27.9 52.1 30.6 0.5166 0.17766 0.81708
9 21.3 22.1 49.9 23.2 -0.63803 -0.24262 -1.21191
10 19.3 25.5 53.5 24.8 0.03882 0.44511 -0.77321
11 25.4 31.1 56.6 30 1.15363 1.03733 0.65256
12 27.2 30.4 56.7 28.3 1.01428 1.05643 0.18645
13 11.7 18.7 46.5 23 -1.31488 -0.89214 -1.26674
14 17.8 19.7 44.2 28.6 -1.11581 -1.33152 0.2687
15 12.8 14.6 42.7 21.3 -2.13109 -1.61808 -1.73286
16 23.9 29.5 54.4 30.1 0.83512 0.61705 0.67998
17 22.6 27.7 55.3 25.7 0.47678 0.78898 -0.52644
18 25.4 30.2 58.6 24.6 0.97447 1.4194 -0.82804
19 14.8 22.7 48.2 27.1 -0.51859 -0.56738 -0.14258
20 21.1 25.2 51 27.5 -0.0209 -0.03248 -0.0329
Bir çalışmada, elde edilmesi zor olan sporcuların vücut yağ yüzdesi (y); triceps deri kıvrımı kalınlığı (𝑥1), uyluk çevresi
(𝑥2) ve biceps orta kol çevresi (𝑥3) gibi kolay elde edilen bazı antropometrik ölçümlerle kestirilmek isteniyor. 20
sporcuya ilişkin ölçümler yapılmıştır.
Değişken 𝑏𝑗 S(𝑏𝑗) Beta VIF t p
Sabit 117.085 99.782 - - 1.173 0.258
𝑋1 4.334 3.016 4.264 670.58 1.437 0.17
𝑋2 -2.857 2.582 -2.929 533.87 -1.106 0.285
𝑋3 -2.186 1.595 -1.561 99.01 -1.37 0.19
n=20 s=2.48 𝑅2
=0.801 (F=21.516 ; p < 0.001)
y 𝑥1 𝑥2 𝑥3
Ortalama 20.195 25.305 51.17 27.62
Standart Sapma 5.106 5.023 5.235 3.647
Değişkenler 𝑥1 𝑥2 𝑥3 y
𝑥1 1
𝑥2 0.9238 1
𝑥3 0.4578 0.0847 1
y 0.8433 0.8781 0.1424 1
Görüldüğü üzere VIF değerleri çok yüksektir. Ayrıca, katsayılara ilişkin t
değerlerinden hiçbiri anlamlı değilken, F istatistiği anlamlıdır. Korelasyon
matrisinde y ile bağımsız değişkenler arasında negatif değer alan ilişki
katsayısı olmamasına rağmen, çoklu regresyon çözümlemesi sonucunda elde
edilen regresyon katsayılarından ikisinin işareti negatiftir. Ayrıca 𝑥1 ile 𝑥2
arasındaki ilişki katsayısı çok yüksektir (0.9238). Tüm bu bulgular, veride çoklu
bağlantı olduğunu göstermektedir.
Diğer taraftan, bağımsız değişkenlere ilişkin R matrisinden elde edilen
özdeğerler sırasıyla ƛ1=2.06647, ƛ2=0.9328, ƛ3=0.00073 olarak bulunur. Bu
da çoklu bağlantının bir göstergesidir; çünkü son özdeğer sıfıra çok yakın bir
değere sahiptir.
Temel Bileşenler Regresyonu’nun amaçlarından biri, verideki çoklu bağlantıyı
azaltmaktır. Bu azaltma, bağımlı değişkendeki değişimi açıklamak için, temel
bileşenlerin tüm setinden daha azını kullanarak sağlanır; çünkü tüm temel
bileşenler kullanıldığında, normal en küçük kareler çözümüne ulaşılır.
Bağımsız değişkenlere ilişkin korelasyon matrisinin standartlaştırılmış
asıl özvektörleri aşağıda verilmiştir; ancak son temel bileşene ilişkin
özdeğer çok küçük olduğundan (0.00073) sonuçlar anlamlı
olmayacaktır; çünkü bu özvektör, verideki çoklu bağlantının kaynağını
oluşturur. Bu nedenle de, bu özdeğere ilişkin özvektör tabloda
verilmemiştir.
Standartlaştırılmış Asıl Temel Bileşenler
Değişkenler 𝑡1 𝑡2
𝑥1 0.99864 0.04839
𝑥2 0.90482 0.42585
𝑥3 0.50049 -0.86571
Özdeğerler ƛ1=2.06647 ƛ2=0.9328
Standartlaştırılmış Temel Bileşenlerin Bulunması
𝑣𝑖= 𝑡𝑖 / ƛ𝑖 ile elde edilir.
Standartlaştırılmış Temel Bileşenler
Standartlaştırılmış temel bileşenler yardımıyla
𝑍1 = 0.6947(𝑍𝑋1) + 0.6294(𝑍𝑋2) + 0.3482(𝑍𝑋3)
𝑍2= 0.0501(𝑍𝑋1) + 0.4405(𝑍𝑋2) – 0.8963(𝑍𝑋3)
Değişkenler 𝑣1 𝑣2
𝑥1 0.6947 0.0501
𝑥2 0.6294 0.4405
𝑥3 0.3482 -0.8963
Bu iki doğrusal bağlantı sonucunda elde edilen iki yeni değişkene ilişkin
bulgular aşağıda verilmiştir.
Değişkenler 𝒁 𝟏 𝒁 𝟐 y
𝒁 𝟏 1
𝒁 𝟐 0.0000 1
y 0.8265 0.3121 1
z1 z2 y
-1.6318 -1.1007 11.9
-0.193 -0.2639 22.8
1.7294 -2.1899 18.7
1.3302 -0.547 20.1
-1.6235 -1.6228 12.9
-0.0052 1.196 21.7
1.7224 0.6825 27.1
0.7552 -0.6282 25.4
-1.0179 0.9474 21.3
0.0379 0.891 19.3
1.6815 -0.0702 25.4
1.4345 0.3491 27.2
-1.916 0.6765 11.7
-1.5197 -0.8833 17.8
-3.1023 0.7336 12.8
1.2053 -0.2958 23.9
0.6445 0.8433 22.6
1.282 1.4162 25.4
-0.767 -0.1481 14.8
-0.0464 0.0141 21.1
Bu yeni z değişkenlerinin ortalaması sıfır, varyansları ise sırasıyla
ƛ1=2.06647 ve ƛ2=0.9328’dir. Ayrıca bu değişkenler birbirine
diktir ve korelasyon katsayısı sıfırdır. Çok daha açık bir ifade ile,
korelasyon matrisindeki değişimin %68.883’ü (2.0665/3) birinci
özvektör, %31.093’ü (0.9328/3) ikinci özvektör, yaklaşık %0.02’si ise
üçüncü özvektör tarafından açıklanır ve bu özvektörler arasındaki
korelasyon katsayıları sıfırdır. Dolayısıyla birbiri ile ilişkili üç
değişkenden birbiri ile ilişkisiz iki değişken elde edilmiştir.
Temel bileşenler regresyonunda kullanılacak standartlaştırılmış temel
bileşen skorlarını bulabilmek için 𝑍𝑖 değişkeni kendi özdeğerinin
kareköküne bölünür (𝑍𝑖 / ƛ𝑖 ).
sz1 sz2 y
-1.13521 -1.13971 11.9
-0.13428 -0.27321 22.8
1.20298 -2.26756 18.7
0.92535 -0.5664 20.1
-1.12944 -1.6803 12.9
-0.00358 1.23842 21.7
1.19816 0.70671 27.1
0.52534 -0.65047 25.4
-0.70809 0.98098 21.3
0.02639 0.92262 19.3
1.16975 -0.07265 25.4
0.99788 0.36142 27.2
-1.33286 0.70051 11.7
-1.05716 -0.91457 17.8
-2.15804 0.75966 12.8
0.83844 -0.30631 23.9
0.44837 0.87316 22.6
0.89186 1.46643 25.4
-0.53357 -0.15336 14.8
-0.03229 0.01464 21.1
Çoklu regresyon modelini birinci temel bileşen için y = β0 + β1(𝑆𝑍1) + ε
Olarak yazarken, ilk iki temel bileşen için y = β0 + β1(𝑆𝑍1) + β2(𝑆𝑍2) + ε
Olarak yazılırsa, elde edilen temel bileşenler regresyonlarına ilişkin
bulgular aşağıdaki gibi olur.
Değişken 𝑏𝑗 S(𝑏𝑗) Beta Tolerans VIF t P
Sabit 20.195 0.660375 - - - 30.581 <0.001
Sz1 4.22022 0.677531 0.826 1 1 6.229 <0.001
n=20 s=2.95329 𝑅2=0.68309 (F=38.79829 ; p<0.001)
Değişken 𝑏𝑗 S(𝑏𝑗) Beta Tolerans VIF T p
Sabit 20.195 0.565574 - - - 35.707 <0.001
Sz1 4.22022 0.580267 0.826 1 1 7.273 <0.001
Sz2 1.59336 0.580267 0.312 1 1 2.746 0.0138
n=20 s=2.52932 𝑅2
=0.78046 (F=30.21755 ; p<0.001)
1.Temel bileşenin toplam varyansı açıklama yüzdesi %69, ilk iki temel
bileşenin toplam varyansı açıklama yüzdesi yaklaşık %100’dür.
Görüldüğü gibi her iki modelde de sabit aynı ve y bağımlı değişkenin
ortalamasına eşittir. Ayrıca VIF değerleri, bağımsız değişkenler arasında
doğrusal bağıntının olmadığındaki değer olan 1’e eşittir.
Bu denklemlerle kestirim yapmak için orijinal değişkenler doğrudan
kullanılamaz. Kestirim değeri son tablodaki katsayılar yardımıyla;
𝑦1 = 20.195 + 4.22(-1.1352) + 1.593(-1.13987) = 13.588
𝑦1 = sabit katsayı + 𝑠𝑧1 katsayısı(𝑠𝑧1 değeri) + …
Şeklinde hesaplanır.
Orijinal değerler üzerinden kestirim yapabilecek denklemler bulunması
daha anlamlıdır. Bu amaçla 3 adımlık şu yol izlenir.
1) Standartlaştırılmış y bağımlı değişkenin (zy), ilk ve ilk iki
standartlaştırılmış temel bileşen skorları ile yaptığı regresyon
denklemleri bulunur.
zy = 0.574940(𝑧1)
zy = 0.574940(𝑧1) + 0.323131(𝑧2)
2) İlk denklem için bulunan katsayı (0.57494), 1.temel bileşenle
çarpılarak 1.temel bileşen için regresyon katsayıları ( 𝑏1, 𝑏2, 𝑏3), elde
edilir. Buna göre katsayılar aşağıdaki gibi hesaplanır.
𝑏1 = 0.6947*0.574940 = 0.399410
𝑏2= 0.6294*0.574940 = 0.361867
𝑏3= 0.3482*0.574940 = 0.200194
Temel bileşen kestiricileri ile en küçük kareler kestiricileri arasında;
𝑏𝑖= 𝑏𝑖(𝑆 𝑦/ 𝑆 𝑥𝑖) ilişkisi vardır. Burada 𝑆 𝑦: y bağımlı değişkenin standart
sapmasını, 𝑆 𝑥𝑖 : i. Bağımsız değişkenin standart sapmasını gösterir.
Böylece;
𝑏1= 0.399410*(5.106/5.023) = 0.406
𝑏2= 0.361867*(5.106/5.235) = 0.35295
𝑏3= 0.200194*(5.106/3.647) = 0.28028
Ve
𝑏0= 𝑦 - (𝑏1* 𝑋1 + 𝑏2* 𝑋2 + 𝑏3* 𝑋3) = -15.88 olarak bulunur.
3) Daha sonra ikinci denklem için bulunan katsayılar (0.57494 ve
0.323131), sırasıyla 1. ve 2. temel bileşenle çarpılarak ilk iki temel
bileşen için regresyon katsayıları ( 𝑏1 , 𝑏2 ve 𝑏3) elde edilir. Buna göre
katsayılar;
𝑏1= 0.6947*0.57494 + 0.0501*0.323131 = 0.4156
𝑏2= 0.6294*0.57494 + 0.4405*0.323131 = 0.504206
𝑏3= 0.3482*0.57494 – 0.8963*0.323131 = -0.089428
Olarak elde edilir.
İlk iki temel bileşen için en küçük kareler kestiricileri;
𝑏1 = 0.4156(5.106/5.023) = 0.42246
𝑏2 = 0.504206(5.106/5.235) = 0.49184
𝑏3 = -0.089428(5.106/3.647) = -0.12520
𝑏0 = -12.2048 olarak elde edilmiştir.
Birinci ve birinci+ikinci temel bileşen için bulunan katsayılar ile en küçük
kareler kestiricileri aşağıda verilmiştir.
𝑅2 0.683 0.78
Eğer 1. ve 2. temel bileşen denklemini kullanarak 1. gözlem için kestirim
yapılırsa;
𝑦1 = -12.2048 + 0.42246*19.5 + 0.49184*43.1 - 0.12520*29.1
𝑦1 = 13.588 olarak bulunur.
1. Temel Bileşen İçin Denklem 1. Ve 2. Temel Bileşen İçin
Değişken 𝑏𝑗 𝑏𝑗 𝑏𝑗 𝑏𝑗
Sabit 0 -15.88 0 -12.2048
𝑋1 0.399410 0.406 0.4156 0.42246
𝑋2 0.361867 0.35295 0.504206 0.49184
𝑋3 0.200194 0.28028 -0.089428 -0.12520
KAYNAKÇA
• Prof. Dr. Reha ALPAR; Uygulamalı Çok Değişkenli İstatistiksel
Yöntemler; 5.Baskı
• D. C. MONTGOMERY, E. A. PECK, G. G. VINING; Doğrusal Regresyon
Analizine Giriş; 5.Baskı
• Ali Osman PEKTAŞ, SPSS ile Veri Madenciliği; 1.Baskı
• Prof. Dr. Hamza GAMGAM, Doç. Dr. Bülent ALTUNKAYNAK; SPSS
Uygulamalı Regresyon Analizi; 1.Baskı
• Prof. Dr. Şeref KALAYCI; SPSS Uygulamalı Çok Değişkenli İstatistik
Teknikleri; 8.Baskı

More Related Content

What's hot

Basic statistics 9 - hypothesis testing
Basic statistics   9 - hypothesis testingBasic statistics   9 - hypothesis testing
Basic statistics 9 - hypothesis testing
angita wahyu suprapti
 
R語言期末專題-108年至110年山域意外事故救援案件
R語言期末專題-108年至110年山域意外事故救援案件R語言期末專題-108年至110年山域意外事故救援案件
R語言期末專題-108年至110年山域意外事故救援案件
YOU SHENG CHEN
 
Logistic regression
Logistic regressionLogistic regression
Logistic regression
YashwantGahlot1
 
Introduction to Maximum Likelihood Estimator
Introduction to Maximum Likelihood EstimatorIntroduction to Maximum Likelihood Estimator
Introduction to Maximum Likelihood Estimator
Amir Al-Ansary
 
Heteroscedasticity Remedial Measures.pptx
Heteroscedasticity Remedial Measures.pptxHeteroscedasticity Remedial Measures.pptx
Heteroscedasticity Remedial Measures.pptx
PatilDevendra5
 
Logistic regression
Logistic regressionLogistic regression
Logistic regression
DrZahid Khan
 
APG Pertemuan 1-2 (1)
APG Pertemuan 1-2 (1)APG Pertemuan 1-2 (1)
APG Pertemuan 1-2 (1)
Rani Nooraeni
 
Teori estimasi (pendugaan)
Teori estimasi  (pendugaan)Teori estimasi  (pendugaan)
Teori estimasi (pendugaan)
dhio medianto
 
06 tópico 5 - heterocedasticidade
06   tópico 5 - heterocedasticidade06   tópico 5 - heterocedasticidade
06 tópico 5 - heterocedasticidade
Ricardo Bruno - Universidade Federal do Pará
 
Logistic regression
Logistic regressionLogistic regression
Logistic regression
VARUN KUMAR
 
Regressao Linear Simples - Pessupostos
Regressao Linear Simples - PessupostosRegressao Linear Simples - Pessupostos
Regressao Linear Simples - Pessupostos
Anselmo Alves de Sousa
 
Destek vektör makineleri
Destek vektör makineleriDestek vektör makineleri
Destek vektör makineleri
ozgur_dolgun
 
An Introduction to Causal Discovery, a Bayesian Network Approach
An Introduction to Causal Discovery, a Bayesian Network ApproachAn Introduction to Causal Discovery, a Bayesian Network Approach
An Introduction to Causal Discovery, a Bayesian Network ApproachCOST action BM1006
 
Ols
OlsOls
Econometria modelos de_regressao_linear
Econometria modelos de_regressao_linearEconometria modelos de_regressao_linear
Econometria modelos de_regressao_linear
Joevan Santos
 
Regresi dummy
Regresi dummyRegresi dummy
Regresi dummy
deni123456789
 
Bias and variance trade off
Bias and variance trade offBias and variance trade off
Bias and variance trade off
VARUN KUMAR
 

What's hot (20)

Basic statistics 9 - hypothesis testing
Basic statistics   9 - hypothesis testingBasic statistics   9 - hypothesis testing
Basic statistics 9 - hypothesis testing
 
R語言期末專題-108年至110年山域意外事故救援案件
R語言期末專題-108年至110年山域意外事故救援案件R語言期末專題-108年至110年山域意外事故救援案件
R語言期末專題-108年至110年山域意外事故救援案件
 
03 tópico 2 - regressão multipla
03   tópico 2 - regressão multipla03   tópico 2 - regressão multipla
03 tópico 2 - regressão multipla
 
Logistic regression
Logistic regressionLogistic regression
Logistic regression
 
Introduction to Maximum Likelihood Estimator
Introduction to Maximum Likelihood EstimatorIntroduction to Maximum Likelihood Estimator
Introduction to Maximum Likelihood Estimator
 
Heteroscedasticity Remedial Measures.pptx
Heteroscedasticity Remedial Measures.pptxHeteroscedasticity Remedial Measures.pptx
Heteroscedasticity Remedial Measures.pptx
 
Logistic regression
Logistic regressionLogistic regression
Logistic regression
 
APG Pertemuan 1-2 (1)
APG Pertemuan 1-2 (1)APG Pertemuan 1-2 (1)
APG Pertemuan 1-2 (1)
 
Teori estimasi (pendugaan)
Teori estimasi  (pendugaan)Teori estimasi  (pendugaan)
Teori estimasi (pendugaan)
 
06 tópico 5 - heterocedasticidade
06   tópico 5 - heterocedasticidade06   tópico 5 - heterocedasticidade
06 tópico 5 - heterocedasticidade
 
Law of large numbers
Law of large numbersLaw of large numbers
Law of large numbers
 
Logistic regression
Logistic regressionLogistic regression
Logistic regression
 
Regressao Linear Simples - Pessupostos
Regressao Linear Simples - PessupostosRegressao Linear Simples - Pessupostos
Regressao Linear Simples - Pessupostos
 
Destek vektör makineleri
Destek vektör makineleriDestek vektör makineleri
Destek vektör makineleri
 
An Introduction to Causal Discovery, a Bayesian Network Approach
An Introduction to Causal Discovery, a Bayesian Network ApproachAn Introduction to Causal Discovery, a Bayesian Network Approach
An Introduction to Causal Discovery, a Bayesian Network Approach
 
Ols
OlsOls
Ols
 
4 örneklem
4 örneklem4 örneklem
4 örneklem
 
Econometria modelos de_regressao_linear
Econometria modelos de_regressao_linearEconometria modelos de_regressao_linear
Econometria modelos de_regressao_linear
 
Regresi dummy
Regresi dummyRegresi dummy
Regresi dummy
 
Bias and variance trade off
Bias and variance trade offBias and variance trade off
Bias and variance trade off
 

Similar to Regresyonda Çoklu Bağlantı (Multicollinearity) Probleminin Temel Bileşenler Analizi (Principal Component Analysis) ile Giderilmesi - Örnek Uygulamalı

Basi̇t li̇neer regresyon
Basi̇t li̇neer regresyonBasi̇t li̇neer regresyon
Basi̇t li̇neer regresyon
irfcan
 
ortalamalar(fazlası için www.tipfakultesi.org)
ortalamalar(fazlası için www.tipfakultesi.org)ortalamalar(fazlası için www.tipfakultesi.org)
ortalamalar(fazlası için www.tipfakultesi.org)www.tipfakultesi. org
 
Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...
Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...
Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...Dokuz Eylül University
 
IST 211 .pptx
IST 211 .pptxIST 211 .pptx
IST 211 .pptx
Ozanmaral
 
Analiz sonuçlarının istatistiksel değerlendirilmesi
Analiz sonuçlarının istatistiksel değerlendirilmesiAnaliz sonuçlarının istatistiksel değerlendirilmesi
Analiz sonuçlarının istatistiksel değerlendirilmesiibrahim bulduk
 

Similar to Regresyonda Çoklu Bağlantı (Multicollinearity) Probleminin Temel Bileşenler Analizi (Principal Component Analysis) ile Giderilmesi - Örnek Uygulamalı (6)

Biyofizik pratik
Biyofizik pratikBiyofizik pratik
Biyofizik pratik
 
Basi̇t li̇neer regresyon
Basi̇t li̇neer regresyonBasi̇t li̇neer regresyon
Basi̇t li̇neer regresyon
 
ortalamalar(fazlası için www.tipfakultesi.org)
ortalamalar(fazlası için www.tipfakultesi.org)ortalamalar(fazlası için www.tipfakultesi.org)
ortalamalar(fazlası için www.tipfakultesi.org)
 
Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...
Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...
Truncated Regression. Heckman Sample Selection/Kesikli Regresyon. Heckman Örn...
 
IST 211 .pptx
IST 211 .pptxIST 211 .pptx
IST 211 .pptx
 
Analiz sonuçlarının istatistiksel değerlendirilmesi
Analiz sonuçlarının istatistiksel değerlendirilmesiAnaliz sonuçlarının istatistiksel değerlendirilmesi
Analiz sonuçlarının istatistiksel değerlendirilmesi
 

More from yigitcanozmeral

Örnekleme Yöntemleri
Örnekleme YöntemleriÖrnekleme Yöntemleri
Örnekleme Yöntemleri
yigitcanozmeral
 
Z Testi
Z TestiZ Testi
T Testi
T TestiT Testi
Hipotez Testleri
Hipotez TestleriHipotez Testleri
Hipotez Testleri
yigitcanozmeral
 
Başarılı Örneklemenin Gerekleri
Başarılı Örneklemenin GerekleriBaşarılı Örneklemenin Gerekleri
Başarılı Örneklemenin Gerekleri
yigitcanozmeral
 
P value
P valueP value
Parametrik Olmayan (Non-Parametric) Hipotez Testleri
Parametrik Olmayan (Non-Parametric) Hipotez TestleriParametrik Olmayan (Non-Parametric) Hipotez Testleri
Parametrik Olmayan (Non-Parametric) Hipotez Testleri
yigitcanozmeral
 

More from yigitcanozmeral (7)

Örnekleme Yöntemleri
Örnekleme YöntemleriÖrnekleme Yöntemleri
Örnekleme Yöntemleri
 
Z Testi
Z TestiZ Testi
Z Testi
 
T Testi
T TestiT Testi
T Testi
 
Hipotez Testleri
Hipotez TestleriHipotez Testleri
Hipotez Testleri
 
Başarılı Örneklemenin Gerekleri
Başarılı Örneklemenin GerekleriBaşarılı Örneklemenin Gerekleri
Başarılı Örneklemenin Gerekleri
 
P value
P valueP value
P value
 
Parametrik Olmayan (Non-Parametric) Hipotez Testleri
Parametrik Olmayan (Non-Parametric) Hipotez TestleriParametrik Olmayan (Non-Parametric) Hipotez Testleri
Parametrik Olmayan (Non-Parametric) Hipotez Testleri
 

Regresyonda Çoklu Bağlantı (Multicollinearity) Probleminin Temel Bileşenler Analizi (Principal Component Analysis) ile Giderilmesi - Örnek Uygulamalı

  • 1. ÇOKLU BAĞLANTI Çoklu regresyon denkleminin yorumu, bağımsız değişkenlerin kuvvetli bir şekilde ilişkili olmaması varsayımına bağlıdır. Bu varsayımın bozulması, yani bağımsız değişkenler arasında bir ya da daha fazla doğrusal bağıntının olması çoklu bağlantı (multicollinearity) problemini doğurur. Bağımsız değişkenler arasında doğrusal bir ilişki yoksa bu değişkenlerin dik olduğu söylenir. Bağımsız değişkenler dik olduğu zaman, çıkarsamalar nispeten kolayca yapılabilir. Ancak regresyon uygulamalarının çoğunda, bağımsız değişkenler arasında ilişki söz konusudur. Hatta, bazı durumlarda, bağımsız değişkenler arasındaki doğrusal ilişki çok kuvvetli olup, regresyon modeli yardımıyla yapılacak çıkarsamalar yanlış yönlendirmelere ve hatalara neden olabilir.
  • 2. ÇOKLU BAĞLANTININ NEDENLERİ 1. Bağımsız değişken sayısı (k) gözlem sayısından (n) büyük, yani k>n olursa bu durumda Tam Çoklu Bağlantı olur. Bu nedene dayalı çoklu bağlantı daha çok tıp alanındaki çalışmalarda ortaya çıkar. Böyle durumlarda bağımsız değişken sayısının azaltılması bu sorunu ortadan kaldırabilir. 2. Kullanılan model veya örnek alınan yığındaki kısıtlamalar çoklu bağlantıya neden olabilir. Firmanın yıllık satış hasılası (y), firmada çalışan personel sayısı (𝑥1) ve firmanın yıllık üretim harcaması (𝑥2) değişkenleri ile bir doğrusal regresyon modeli oluşturulmak istensin. Bir firmada çalışan personel sayısı az ise genel olarak üretim harcamasının da az, personel sayısı fazla ise üretim harcamasının da fazla olması beklenir. Bu durum çoklu bağlantıya neden olabilir. 3. Öngörülen modelin veri için uygun olmaması da çoklu bağlantıya neden olabilir. 4. Evreni temsil etmeyen örneklem seçimi çoklu bağlantıya neden olabilir.
  • 3. ÇOKLU BAĞLANTININ ORTAYA ÇIKARILMASI • BAĞIMSIZ DEĞİŞKENLERE İLİŞKİN KORELASYON MATRİSİNİN İNCELENMESİ • BAĞIMSIZ DEĞİŞKENLER ARASINDAKİ ÇOKLU AÇIKLAYICILIK KATSAYISI VE TOLERANS • VARYANS ŞİŞME DEĞERLERİ (VARIANCE INFLATION FACTORS – VIF) • KORELASYON MATRİSİNE İLİŞKİN ÖZDEĞERLERİN İNCELENMESİ
  • 4. BAĞIMSIZ DEĞİŞKENLERE İLİŞKİN KORELASYON MATRİSİNİN İNCELENMESİ İki değişken arasındaki korelasyon katsayısının mutlak değeri 1’e yaklaşıyorsa, bu iki değişkenin yakın doğrusal bağımlı olduğu söylenir. Örneğin 7 bağımsız değişkene ilişkin bir korelasyon matrisinde, 𝑟13=-0.96 ve 𝑟45=0.99 gibi yüksek korelasyonların olması, veride birkaç ‘’yakın’’ doğrusal bağımlılık olduğu hakkında bilgi verecektir. Bu da güçlü çoklu bağlantı ortaya çıkaracaktır. Korelasyon katsayılarının tümü şüphe yaratmayacak kadar küçükse, değişkenler arasında ‘’yakın’’ doğrusal bağımlılıkla ilgili bir belirtinin olmadığı söylenebilir. Ancak korelasyon katsayılarının incelenmesi, ikili çoklu bağlantıdan çok daha karmaşık çoklu bağlantıların incelenmesi için yeterli değildir.
  • 5. BAĞIMSIZ DEĞİŞKENLER ARASINDAKİ ÇOKLU AÇIKLAYICILIK KATSAYISI VE TOLERANS Herhangi bir 𝑋𝑖 bağımsız değişkeni ile geriye kalan bağımsız değişkenler arasında bulunacak çoklu açıklayıcılık (belirtme) katsayısını 𝑅𝑖 2 ile gösterirsek, 𝑅𝑖 2 ’nin 1’e yaklaşması durumunda 𝑋𝑖 bağımsız değişkeni ile diğer değişkenler arasında güçlü çoklu bağlantı olduğu söylenir. 1 - 𝑅𝑖 2 değerine bir değişkenin toleransı denir. Eğer bir değişkenin toleransı küçük (0’a yaklaşıyor) ise bu değişkenin diğer değişkenler ile doğrusal bağıntılı olduğu söylenir.
  • 6. VARYANS ŞİŞME DEĞERLERİ (VARIANCE INFLATION FACTORS – VIF) Bağımsız değişkenlere ilişkin korelasyon matrisinin tersi C=(𝑋′ 𝑋)−1 matrisinin köşegen elemanlarına varyans şişme değerleri denir ve 𝑉𝐼𝐹𝑗 ile gösterilir. 𝑉𝐼𝐹𝑗 değerleri tolerans değerleri ile ilgili olarak; 𝑉𝐼𝐹𝑗 = 1 𝑡𝑜𝑙𝑒𝑟𝑎𝑛𝑠 = 1 (1−𝑅 𝑗 2) olarak hesaplanır. 𝑉𝐼𝐹𝑗 değerlerinin 5 ya da 10’un üzerinde olması güçlü çoklu bağlantının bir göstergesidir ve ilgili değişkenlere ilişkin regresyon katsayılarına pek güvenilmemesi gerektiğini bildirir. 𝑉𝐼𝐹𝑗’ler iki ve daha fazla çoklu bağıntının varlığını göstermede yararlı olabilecek en iyi ölçülerden biridir.
  • 7. KORELASYON MATRİSİNE İLİŞKİN ÖZDEĞERLERİN İNCELENMESİ Özdeğerlerin tersleri toplamı, çoklu bağlantı olmadığı durumda p’ye eşit olur. 𝑖=1 𝑝 1 ƛ 𝑖 = p Çoklu bağlantı olduğu durumlarda bu toplamın oldukça büyük değerlere ulaştığı görülür. Örneğin 6 tane bağımsız değişkene ait özdeğerlerin tersleri toplamının 12 olduğunu düşünelim. 12 değeri, çoklu bağlantı olmadığı durumda elde edilecek olan p=bağımsız değişken sayısı=6’ya oldukça yakın bir değer olduğundan veride çoklu bağlantı olmadığı sonucuna ulaşılır. Fakat 12 yerine 800 gibi bir değer bulunsaydı o zaman veride güçlü çoklu bağlantının varlığından söz edilirdi.
  • 8. Bu konuya ilişkin ikinci bir yaklaşım ise, korelasyon matrislerinden elde edilen özdeğerlerden en büyüğünün en küçüğe bölünmesi şeklinde tanımlanır ve bu büyüklük Ƙ ile gösterilir. Ƙ = ƛ 𝑚𝑎𝑥 ƛ 𝑚𝑖𝑛 Bu oran sonucunda bulunacak sayının 100’ün altında olması, veride ciddi bir çoklu bağlantı sorununun olmadığının göstergesidir. Bulunacak sayının 100 ile 1000 arasında olması orta düzeyden güçlüye doğru bir eğilim içinde bulunan çoklu bağlantının göstergesidir. 1000’in üzerinde olması ise çok güçlü çoklu bağlantının bir göstergesidir.
  • 9. ÇOKLU BAĞLANTININ GİDERİLMESİ • Ek Verilerin Toplanması • Modelin Yeniden Belirlenmesi • Ridge Regresyon • Temel Bileşenler Regresyonu
  • 10. TEMEL BİLEŞENLER REGRESYONU Çoklu regresyon denkleminin yorumu, bağımsız değişkenlerin kuvvetli bir şekilde ilişkili olmaması, daha genel anlamda çoklu bağlantı olmaması varsayımına bağlıdır. Bağımsız değişkenler arasında ilişki olmaması durumunda (bu durumda korelasyon katsayısı 0 ya da 0’a yakın olacaktır), bu değişkenlerin dik (ortogonal) olduğu söylenir. Regresyon uygulamalarının çoğunda, bağımsız değişkenler dik olmamakla birlikte, dikliğin olmayışı gerekli analizi etkileyecek şiddette değildir; ancak bazı durumlarda, bağımsız değişkenler regresyon sonuçlarını belirsizleştirecek kadar ilişkilidir (çoklu bağlantı durumu). Bağımsız değişkenler arasında çoklu bağlantı olduğunda uygulanabilecek regresyon yöntemlerinde biri, Temel Bileşenler Regresyonu’dur.
  • 11. Temel Bileşenler Regresyonu; ‘’her doğrusal regresyon modelinin bir dik açıklayıcı değişkenler kümesine dayanarak yeniden açıklanabileceği’’ gerçeği üzerine oluşturulmuştur. Bu yeni ve dik açıklayıcı değişkenler, orijinal açıklayıcı değişkenlerin doğrusal bileşeni olarak elde edilir ve bağımsız değişkenlerin temel bileşenleri olarak adlandırılırlar. Temel Bileşenler Analizi sonucunda, p boyutlu (değişkenli) uzayı çok iyi tanımlayan p tane yeni dik değişken (temel bileşen ya da özvektör) elde edilir. P tane değişkenin taşıdığı bilginin k tane (k ≤ p) yeni değişkenle açıklanması ise temel bileşenlerin ana amacını oluşturur. Bu amaç doğrultusunda, p boyutlu uzaydaki toplam varyans (özdeğerler toplamı), her biri özvektörlerle tanımlanan öyle yeni değişkenlerle ifade edilir ki, en büyük varyans (özdeğer) birinci özvektöre, en küçük varyans sonuncu özvektöre ait olur. (ƛ1 > ƛ2 > … > ƛ 𝑝) Diğer bir deyişle, bağımsız değişkenler kümesindeki toplam değişimin büyük bir bölümü birinci özvektör, ondan daha azı ikinci özvektör,… tarafından açıklanır.
  • 12. Kişi No y x1 x2 x3 zx1 zx2 zx3 1 11.9 19.5 43.1 29.1 -1.15562 -1.54166 0.4058 2 22.8 24.7 49.8 28.2 -0.12044 -0.26172 0.15903 3 18.7 30.7 51.9 37 1.074 0.13946 2.57187 4 20.1 29.8 54.3 31.1 0.89484 0.59794 0.95417 5 12.9 19.1 42.2 30.9 -1.23525 -1.71359 0.89933 6 21.7 25.6 53.9 23.7 0.05873 0.52153 -1.07481 7 27.1 31.4 58.5 27.6 1.21336 1.40029 -0.00548 8 25.4 27.9 52.1 30.6 0.5166 0.17766 0.81708 9 21.3 22.1 49.9 23.2 -0.63803 -0.24262 -1.21191 10 19.3 25.5 53.5 24.8 0.03882 0.44511 -0.77321 11 25.4 31.1 56.6 30 1.15363 1.03733 0.65256 12 27.2 30.4 56.7 28.3 1.01428 1.05643 0.18645 13 11.7 18.7 46.5 23 -1.31488 -0.89214 -1.26674 14 17.8 19.7 44.2 28.6 -1.11581 -1.33152 0.2687 15 12.8 14.6 42.7 21.3 -2.13109 -1.61808 -1.73286 16 23.9 29.5 54.4 30.1 0.83512 0.61705 0.67998 17 22.6 27.7 55.3 25.7 0.47678 0.78898 -0.52644 18 25.4 30.2 58.6 24.6 0.97447 1.4194 -0.82804 19 14.8 22.7 48.2 27.1 -0.51859 -0.56738 -0.14258 20 21.1 25.2 51 27.5 -0.0209 -0.03248 -0.0329 Bir çalışmada, elde edilmesi zor olan sporcuların vücut yağ yüzdesi (y); triceps deri kıvrımı kalınlığı (𝑥1), uyluk çevresi (𝑥2) ve biceps orta kol çevresi (𝑥3) gibi kolay elde edilen bazı antropometrik ölçümlerle kestirilmek isteniyor. 20 sporcuya ilişkin ölçümler yapılmıştır.
  • 13. Değişken 𝑏𝑗 S(𝑏𝑗) Beta VIF t p Sabit 117.085 99.782 - - 1.173 0.258 𝑋1 4.334 3.016 4.264 670.58 1.437 0.17 𝑋2 -2.857 2.582 -2.929 533.87 -1.106 0.285 𝑋3 -2.186 1.595 -1.561 99.01 -1.37 0.19 n=20 s=2.48 𝑅2 =0.801 (F=21.516 ; p < 0.001) y 𝑥1 𝑥2 𝑥3 Ortalama 20.195 25.305 51.17 27.62 Standart Sapma 5.106 5.023 5.235 3.647 Değişkenler 𝑥1 𝑥2 𝑥3 y 𝑥1 1 𝑥2 0.9238 1 𝑥3 0.4578 0.0847 1 y 0.8433 0.8781 0.1424 1
  • 14. Görüldüğü üzere VIF değerleri çok yüksektir. Ayrıca, katsayılara ilişkin t değerlerinden hiçbiri anlamlı değilken, F istatistiği anlamlıdır. Korelasyon matrisinde y ile bağımsız değişkenler arasında negatif değer alan ilişki katsayısı olmamasına rağmen, çoklu regresyon çözümlemesi sonucunda elde edilen regresyon katsayılarından ikisinin işareti negatiftir. Ayrıca 𝑥1 ile 𝑥2 arasındaki ilişki katsayısı çok yüksektir (0.9238). Tüm bu bulgular, veride çoklu bağlantı olduğunu göstermektedir. Diğer taraftan, bağımsız değişkenlere ilişkin R matrisinden elde edilen özdeğerler sırasıyla ƛ1=2.06647, ƛ2=0.9328, ƛ3=0.00073 olarak bulunur. Bu da çoklu bağlantının bir göstergesidir; çünkü son özdeğer sıfıra çok yakın bir değere sahiptir. Temel Bileşenler Regresyonu’nun amaçlarından biri, verideki çoklu bağlantıyı azaltmaktır. Bu azaltma, bağımlı değişkendeki değişimi açıklamak için, temel bileşenlerin tüm setinden daha azını kullanarak sağlanır; çünkü tüm temel bileşenler kullanıldığında, normal en küçük kareler çözümüne ulaşılır.
  • 15. Bağımsız değişkenlere ilişkin korelasyon matrisinin standartlaştırılmış asıl özvektörleri aşağıda verilmiştir; ancak son temel bileşene ilişkin özdeğer çok küçük olduğundan (0.00073) sonuçlar anlamlı olmayacaktır; çünkü bu özvektör, verideki çoklu bağlantının kaynağını oluşturur. Bu nedenle de, bu özdeğere ilişkin özvektör tabloda verilmemiştir. Standartlaştırılmış Asıl Temel Bileşenler Değişkenler 𝑡1 𝑡2 𝑥1 0.99864 0.04839 𝑥2 0.90482 0.42585 𝑥3 0.50049 -0.86571 Özdeğerler ƛ1=2.06647 ƛ2=0.9328
  • 16. Standartlaştırılmış Temel Bileşenlerin Bulunması 𝑣𝑖= 𝑡𝑖 / ƛ𝑖 ile elde edilir. Standartlaştırılmış Temel Bileşenler Standartlaştırılmış temel bileşenler yardımıyla 𝑍1 = 0.6947(𝑍𝑋1) + 0.6294(𝑍𝑋2) + 0.3482(𝑍𝑋3) 𝑍2= 0.0501(𝑍𝑋1) + 0.4405(𝑍𝑋2) – 0.8963(𝑍𝑋3) Değişkenler 𝑣1 𝑣2 𝑥1 0.6947 0.0501 𝑥2 0.6294 0.4405 𝑥3 0.3482 -0.8963
  • 17. Bu iki doğrusal bağlantı sonucunda elde edilen iki yeni değişkene ilişkin bulgular aşağıda verilmiştir. Değişkenler 𝒁 𝟏 𝒁 𝟐 y 𝒁 𝟏 1 𝒁 𝟐 0.0000 1 y 0.8265 0.3121 1 z1 z2 y -1.6318 -1.1007 11.9 -0.193 -0.2639 22.8 1.7294 -2.1899 18.7 1.3302 -0.547 20.1 -1.6235 -1.6228 12.9 -0.0052 1.196 21.7 1.7224 0.6825 27.1 0.7552 -0.6282 25.4 -1.0179 0.9474 21.3 0.0379 0.891 19.3 1.6815 -0.0702 25.4 1.4345 0.3491 27.2 -1.916 0.6765 11.7 -1.5197 -0.8833 17.8 -3.1023 0.7336 12.8 1.2053 -0.2958 23.9 0.6445 0.8433 22.6 1.282 1.4162 25.4 -0.767 -0.1481 14.8 -0.0464 0.0141 21.1
  • 18. Bu yeni z değişkenlerinin ortalaması sıfır, varyansları ise sırasıyla ƛ1=2.06647 ve ƛ2=0.9328’dir. Ayrıca bu değişkenler birbirine diktir ve korelasyon katsayısı sıfırdır. Çok daha açık bir ifade ile, korelasyon matrisindeki değişimin %68.883’ü (2.0665/3) birinci özvektör, %31.093’ü (0.9328/3) ikinci özvektör, yaklaşık %0.02’si ise üçüncü özvektör tarafından açıklanır ve bu özvektörler arasındaki korelasyon katsayıları sıfırdır. Dolayısıyla birbiri ile ilişkili üç değişkenden birbiri ile ilişkisiz iki değişken elde edilmiştir.
  • 19. Temel bileşenler regresyonunda kullanılacak standartlaştırılmış temel bileşen skorlarını bulabilmek için 𝑍𝑖 değişkeni kendi özdeğerinin kareköküne bölünür (𝑍𝑖 / ƛ𝑖 ). sz1 sz2 y -1.13521 -1.13971 11.9 -0.13428 -0.27321 22.8 1.20298 -2.26756 18.7 0.92535 -0.5664 20.1 -1.12944 -1.6803 12.9 -0.00358 1.23842 21.7 1.19816 0.70671 27.1 0.52534 -0.65047 25.4 -0.70809 0.98098 21.3 0.02639 0.92262 19.3 1.16975 -0.07265 25.4 0.99788 0.36142 27.2 -1.33286 0.70051 11.7 -1.05716 -0.91457 17.8 -2.15804 0.75966 12.8 0.83844 -0.30631 23.9 0.44837 0.87316 22.6 0.89186 1.46643 25.4 -0.53357 -0.15336 14.8 -0.03229 0.01464 21.1
  • 20. Çoklu regresyon modelini birinci temel bileşen için y = β0 + β1(𝑆𝑍1) + ε Olarak yazarken, ilk iki temel bileşen için y = β0 + β1(𝑆𝑍1) + β2(𝑆𝑍2) + ε Olarak yazılırsa, elde edilen temel bileşenler regresyonlarına ilişkin bulgular aşağıdaki gibi olur. Değişken 𝑏𝑗 S(𝑏𝑗) Beta Tolerans VIF t P Sabit 20.195 0.660375 - - - 30.581 <0.001 Sz1 4.22022 0.677531 0.826 1 1 6.229 <0.001 n=20 s=2.95329 𝑅2=0.68309 (F=38.79829 ; p<0.001) Değişken 𝑏𝑗 S(𝑏𝑗) Beta Tolerans VIF T p Sabit 20.195 0.565574 - - - 35.707 <0.001 Sz1 4.22022 0.580267 0.826 1 1 7.273 <0.001 Sz2 1.59336 0.580267 0.312 1 1 2.746 0.0138 n=20 s=2.52932 𝑅2 =0.78046 (F=30.21755 ; p<0.001)
  • 21. 1.Temel bileşenin toplam varyansı açıklama yüzdesi %69, ilk iki temel bileşenin toplam varyansı açıklama yüzdesi yaklaşık %100’dür. Görüldüğü gibi her iki modelde de sabit aynı ve y bağımlı değişkenin ortalamasına eşittir. Ayrıca VIF değerleri, bağımsız değişkenler arasında doğrusal bağıntının olmadığındaki değer olan 1’e eşittir. Bu denklemlerle kestirim yapmak için orijinal değişkenler doğrudan kullanılamaz. Kestirim değeri son tablodaki katsayılar yardımıyla; 𝑦1 = 20.195 + 4.22(-1.1352) + 1.593(-1.13987) = 13.588 𝑦1 = sabit katsayı + 𝑠𝑧1 katsayısı(𝑠𝑧1 değeri) + … Şeklinde hesaplanır.
  • 22. Orijinal değerler üzerinden kestirim yapabilecek denklemler bulunması daha anlamlıdır. Bu amaçla 3 adımlık şu yol izlenir. 1) Standartlaştırılmış y bağımlı değişkenin (zy), ilk ve ilk iki standartlaştırılmış temel bileşen skorları ile yaptığı regresyon denklemleri bulunur. zy = 0.574940(𝑧1) zy = 0.574940(𝑧1) + 0.323131(𝑧2) 2) İlk denklem için bulunan katsayı (0.57494), 1.temel bileşenle çarpılarak 1.temel bileşen için regresyon katsayıları ( 𝑏1, 𝑏2, 𝑏3), elde edilir. Buna göre katsayılar aşağıdaki gibi hesaplanır. 𝑏1 = 0.6947*0.574940 = 0.399410 𝑏2= 0.6294*0.574940 = 0.361867 𝑏3= 0.3482*0.574940 = 0.200194
  • 23. Temel bileşen kestiricileri ile en küçük kareler kestiricileri arasında; 𝑏𝑖= 𝑏𝑖(𝑆 𝑦/ 𝑆 𝑥𝑖) ilişkisi vardır. Burada 𝑆 𝑦: y bağımlı değişkenin standart sapmasını, 𝑆 𝑥𝑖 : i. Bağımsız değişkenin standart sapmasını gösterir. Böylece; 𝑏1= 0.399410*(5.106/5.023) = 0.406 𝑏2= 0.361867*(5.106/5.235) = 0.35295 𝑏3= 0.200194*(5.106/3.647) = 0.28028 Ve 𝑏0= 𝑦 - (𝑏1* 𝑋1 + 𝑏2* 𝑋2 + 𝑏3* 𝑋3) = -15.88 olarak bulunur.
  • 24. 3) Daha sonra ikinci denklem için bulunan katsayılar (0.57494 ve 0.323131), sırasıyla 1. ve 2. temel bileşenle çarpılarak ilk iki temel bileşen için regresyon katsayıları ( 𝑏1 , 𝑏2 ve 𝑏3) elde edilir. Buna göre katsayılar; 𝑏1= 0.6947*0.57494 + 0.0501*0.323131 = 0.4156 𝑏2= 0.6294*0.57494 + 0.4405*0.323131 = 0.504206 𝑏3= 0.3482*0.57494 – 0.8963*0.323131 = -0.089428 Olarak elde edilir. İlk iki temel bileşen için en küçük kareler kestiricileri; 𝑏1 = 0.4156(5.106/5.023) = 0.42246 𝑏2 = 0.504206(5.106/5.235) = 0.49184 𝑏3 = -0.089428(5.106/3.647) = -0.12520 𝑏0 = -12.2048 olarak elde edilmiştir.
  • 25. Birinci ve birinci+ikinci temel bileşen için bulunan katsayılar ile en küçük kareler kestiricileri aşağıda verilmiştir. 𝑅2 0.683 0.78 Eğer 1. ve 2. temel bileşen denklemini kullanarak 1. gözlem için kestirim yapılırsa; 𝑦1 = -12.2048 + 0.42246*19.5 + 0.49184*43.1 - 0.12520*29.1 𝑦1 = 13.588 olarak bulunur. 1. Temel Bileşen İçin Denklem 1. Ve 2. Temel Bileşen İçin Değişken 𝑏𝑗 𝑏𝑗 𝑏𝑗 𝑏𝑗 Sabit 0 -15.88 0 -12.2048 𝑋1 0.399410 0.406 0.4156 0.42246 𝑋2 0.361867 0.35295 0.504206 0.49184 𝑋3 0.200194 0.28028 -0.089428 -0.12520
  • 26. KAYNAKÇA • Prof. Dr. Reha ALPAR; Uygulamalı Çok Değişkenli İstatistiksel Yöntemler; 5.Baskı • D. C. MONTGOMERY, E. A. PECK, G. G. VINING; Doğrusal Regresyon Analizine Giriş; 5.Baskı • Ali Osman PEKTAŞ, SPSS ile Veri Madenciliği; 1.Baskı • Prof. Dr. Hamza GAMGAM, Doç. Dr. Bülent ALTUNKAYNAK; SPSS Uygulamalı Regresyon Analizi; 1.Baskı • Prof. Dr. Şeref KALAYCI; SPSS Uygulamalı Çok Değişkenli İstatistik Teknikleri; 8.Baskı