Model regresi linier umum digunakan untuk memprediksi kemungkinan pengajuan klaim asuransi kendaraan bermotor. Variabel prediktor utama adalah jenis kendaraan, nilai kendaraan, kategori usia pengemudi, dan wilayah tempat tinggal. Model terakhir juga mempertimbangkan faktor eksposur untuk memperbaiki akurasi perkiraan.
2. DATA
Data asuransi kendaraan bermotor dengan jangka
waktu 1 tahun. Berisi 67856 polis, 4624(6.8%) diantaranya
memiliki setidaknya 1 claim
(Generalized Linear Models for Insurance Data, Piet de Jong dan Gillian
Z. Heller )
Variables:
1. Veh_value: Vehicle value (harga kendaraan)
2. Clm: occurence of claim (mengajukan klaim/tidak)
3. Veh_body: vehicle body (tipe kendaraan)
4. Area: Area tempat tinggal pengemudi
5. Agecat: Kategori usia pengemudi
Diketahui data Exposure dari masing-masing polis
3. PEMILIHAN VARIABEL RESPON
Clm (occurence of claim) sebagai variabel respon
(termasuk variabel kategorikal)
Binary outcome ( can take only one of two value 0=No 1=Yes)
Sifat distribusi bernoulli: hanya memiliki 2 kemungkinan
(2 mutually exclusive and exhaustive ways)
Clm berdistribusi B(1,π)
Jumlah observasi = jumlah polis= 67856
Tujuan: Mengetahui probabilitas seseorang yang memiliki
karakteristik tertentu untuk mengajukan claim
4. REGRESI MENGGUNAKAN GLM
• Distribusi Respon (clm) berasal dari distribusi
keluarga eksponensial
• Transformasi dari mean respon (clm) linear
terhadap variabel-variabel prediktornya.
5. DISTRIBUSI BERNOULI SEBAGAI ANGGOTA
KELUARGA DISTRIBUSI EKSPONENSIAL
Bentuk distribusi keluarga eksponensial
Misal y=clm (occurrence of claim), y~B(1,π)
6. Note slide sebelumnya
• Choice a(theta) determine the actual probability
function----habis menetapkan distribu, taksir
parameter miu dan variansi dari sampel.
(metode momen) atau pake mle, kan y i nya iid.
• Fungsi Variansi (relationship between
variance and mean). Mean kan bervariasi
sesuai eksplanatori variables, karena mean nya
bervariasi, begitu juga variansinya. Mereka
dihubungkan melalui fungsi variansi.
7. Pemilihan Fungsi Link
• Link kanonik untuk distribusi binomial
Sehingga untuk bernoulli:
Nilai π yang dipilih:
Probability bahwa clm bernilai 1 (Yes)
8. Note slide sebelumnya
• Link kanonik g(miu)=theta-- parameter
kanonik tujuan buat menyimpelkan estimasi
• Link logit memastikan bahwa pi berada di
interval 0,1 untuk semua x dan beta
12. Penjelasan gambar slide
sebelumnya
• Scatter plot smoother menunjukkan hubungan
yang tidak linier. Terlihat bahwa mngkn
hubungannya kuadratik atau kubik
• Ini buat memenuhi asumsi kelinearan antara
fungsi dr respon dengan prediktor
• Model kuadratik punya kelemahan di oddnya.
• Nilai AIC paling kecil g menjamin model paling
oke harus di fit
16. Predictor
4. Area (Area tinggal pengemudi)
Jenis variabel: Kategorikal
A B C D E F
clm
Area
1 2 3 4 5 6
0 0,224402 0,182386 0,281891 0,113137 0,081437 0,048603
1 0,01599 0,014221 0,020809 0,00731 0,005689 0,004126
17. Pemilihan Base Level
12 var
5 var
5 var
5 varagecat
1 2 3 4 5 6
5742 12875 15767 16189 10736 6547
area
A B C D E F
16312 13341 20540 8173 5912 3578
veh_body
BUS CONVT COPUE HBACK HDTOP MCARA MIBUS
48 81 780 18915 1579 127 717
PANVN RDSTR SEDAN STNWG TRUCK UTE
752 27 22233 16261 1750 4586
valuecat
1 2 3 4 5 6
54971 11439 1265 104 44 33
Full model
20. Penjelasan slide sebelumnya
• Chi square: Ngetes 1 variabel dengan asumsi
variabel lainnya di step tersebut ada di dlm
model. Distribusi chi square karena variansi
heteroskedastik. Kalo p value sama2 kecil, lihat
nilai score chi square. Significantly different
from 0.
• Yang diuji beta j-0/ variansi beta j. H0: C.Beta
=0 H1: C.Beta tdk=0
• AIC k=jumlah level prediktor s=jumlah prediktor
• Score Chi-Square Test : at least one of the
predictors' regression coefficient is not equal to
zero in the model
24. STEPWISE REGRESSION
SELECTED MODEL-WITHOUT
EXPOSURE
STEP Effect Entered AIC
0 intercept 33.768.789
1 agecat 33.707.668
2 veh_body 33.691.346
3 valuecat 33.684.214
4 area 33.680.356
Sensitivity: Frekuensi relatif dari memprediksi sebuah kejadian
(claim) ketika kejadian tersebut terjadi
Specificity:Frekuensi relatif dari memprediksi tidak terjadinya
sebuah kejadian ketika kejadian (claim)
tersebut memang tidak terjadi
27. Considering the exposure
Exposure (t) : proporsi yang menunjukkan perbandingan
jangka waktu polis yang terekspose terhadap jangka waktu
polis yang seharusnya.
Clm berdistribusi B(1,π)
Clm berdistribusi B(1,tπ)
E
K
S
P
O
S
U
R
E
Definisikan
Sehingga fungsi inversnya:
28. note
• Nilai pi bintang akan tetap berada di interval 0 1
karena t kan proporsii..