SlideShare a Scribd company logo
1 of 35
Download to read offline
PEMODELAN DATA CAR MENGGUNAKAN LOGISTIC
REGRESSION
LAPORAN TUGAS AKHIR SEMESTER
MATA KULIAH GENERALIZED LINEAR MODEL
MA 3283
Oleh:
Indah Nurina Fitri Hapsari
10110094
PROGRAM STUDI MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI BANDUNG
2014
DAFTAR ISI
BAB I PENDAHULUAN……………………………………….…………………….....................................................1
1.1 Latar Belakang………………….........……………………………………………………………….……..... 1
1.2 Tujuan………………………….……..….…………………………..……………………….….........………....1
1.3 Sumber Data……………………...…….………………………………………………………………........... 1
1.4 Sistematika Penulisan...... ...…….………………….……………………………………….……………..1
BAB II LANDASAN TEORI…….………………………………...………………………………………………......…..………... 2
2.1 Jenis Variabel.………………………………………………………………………………………..….…….....2
2.1.1 Variabel Kategorikal..................................................................................2
2.1.2 Variabel Kontinu....................................................................................... 2
2.2 Generalized Linier Model (GLM)......………………………..………………………….….…………...2
2.2.1 Variabel.....................................................................................................3
2.2.2 Eksplorasi Data..........................................................................................3
2.2.3 Distribusi Keluarga Eksponensial.............................................................. 4
2.2.3.1 Distribusi Bernoulli sebagai Anggota Distribusi
Keluarga Eksponensial.............................................................5
2.2.3.2 Penaksiran Parameter Distribusi Keluarga Eksponensial........ 5
2.2.4 Base level Variabel Kategorikal................................................................ 6
2.2.5 Link dan Canonical Link.............................................................................6
2.2.6 Pemodelan Menggunakan Logistic Regression.........................................7
2.2.6.1 Membangun Model Menggunakan Stepwise Regression....... 7
2.2.6.2 Membangun Model dengan Mempertimbangkan Faktor
Eksposure............................................................................... 8
2.2.7 Tabel Klasifikasi dan ROC(Receiver Operating Characteristic).................. 8
2.2.8 Pemilihan Model.......................................................................................9
BAB III ANALISIS DAN HASIL PENELITIAN…………….……………………………....…………………………….…….... 10
3.1 Pemilihan Variabel Respon dan Prediktor Potensial………....................................... 10
3.2 Eksplorasi Data........................................................……………………...............….........11
3.3 Pemilihan Base level................................................................................................ 15
3.4 Pemodelan Menggunakan Logistic Regression........................................................16
3.4.1 Estimasi Parameter Distribusi Bernoulli....................................................17
3.4.2 Membangun Model Menggunakan Stepwise Regression.........................17
3.4.3 Membangun Model dengan Mempertimbangkan Faktor Exposure.........25
3.5 Pemilihan Model......................................................................................................26
BAB V KESIMPULAN DAN SARAN…......................................................................……………….............28
4.1 Kesimpulan................................................................................................ ............28
4.2 Saran........................................................................................................................ 28
LAMPIRAN
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Dari data yang penulis peroleh, penulis tertarik dengan fakta bahwa dengan mengetahui
karakteristik calon pemegang polis saja, kita dapat mengetahui apakah calon pemegang polis
tersebut nantinya akan mengajukan claim atau tidak. Data karakteristik yang diperlukan juga
tergolong mudah untuk didapatkan.
1.2 Tujuan
Menentukan model regresi terbaik untuk mengestimasi probabilitas seseorang
dengan karakteristik tertentu untuk mengajukan claim.
1.3 Sumber Data
Data yang digunakan adalah data dari buku Generalized linear model for Insurance
Data, Piet de Jong and Gllian Z. Heller. Data yang diolah merupakan data asuransi
kendaraan bermotor dengan jangka waktu satu tahun yang direkap pada tahun 2004
hingga 2005. Data asuransi terdiri dari 67856 polis, 4624 (6,8%) diantaranya memiliki
setidaknya 1 claim.
1.4 Sistematika Penulisan
Laporan ini terdiri dari empat bab. Bab pertama adalah bab pendahuluan yang
terdiri dari latar belakang, tujuan penelitian, sumber data, dan sistematika penulisan.
Bab kedua adalah bab landasan teori yang berisi teori-teori dasar yang dibutuhkan
dalam proses pemodelan. Bab ketiga adalah bab analisis dan hasil penelitian yang
berisi analisis dari proses pemodelan serta pemilihan model terbaik. Bab keempat
berisi kesimpulan dan saran.
2
BAB II
LANDASAN TEORI
2.1 Jenis Variabel
2.1.1 Variabel Kategorikal
Variabel kategorikal merupakan variabel hitung yang tidak memenuhi
sifat operasi aritmatik. Variabel kategorikal sering disebut sebagai variabel
kualitatif.
1. Nominal
Variabel nominal ialah variabel kategorikal yang nilainya tidak
merepresentasikan urutan. Contoh dari variabel nominal ialah variabel
yang memiliki 2 nilai, yaitu 0 dan 1, dimana 0 merepresentasikan laki-laki
dan 1 merepresentasikan perempuan.
2. Ordinal
Variabel ordinal ialan variabel kategorikal yang nilainya
merepresentasikan urutan. Urutan pada variabel ordinal terjadi secara
alamiah. Contoh dari variabel ordinal ialah tingkat luka yang dialami
dalam kecelakaan (1: ringan, 2: sedang, dan 3: Berat).
2.1.2 Variabel Kontinu
Variabel Kontinu merupakan variabel yang memiliki nilai-nilai yang
terdapat dalam suatu selang/interval bilangan real. Contoh variabel kontinu
adalah harga kendaran.
2.2 Generalized Linear Model (GLM)
Generalized linear model(GLM) merupakan sebuah metode untuk
menguantifikasi hubungan antara variabel respon (bebas) dengan variabel prediktor
(terikat). Dengan menggunakan GLM, kita dapat menjelaskan bagaimana perubahan
nilai dari variabel respon apabila terdapat perubahan dari variabel-variabel
prediktornya. Dua hal yang harus diperhatikan dalam penggunaan GLM ialah:
1. Distribusi dari variabel respon merupakan anggota dari distribusi keluarga
eksponensial.
2. Transformasi terhadap nilai mean dari variabel respon memiliki hubungan
linear dengan variabel-variabel prediktornya.
𝑔 𝜇 = 𝑥′
𝛽
3
2.2.1 Variabel
Dalam melakukan regresi, terdapat 2 tipe variabel yang harus kita
ketahui, yaitu:
1. Variabel Respon/Bebas
Variabel respon ialah variabel yang kita pilih sebagai variabel yang
akan diamati pergerakannya sebagai akibat dari pergerakan variabel-
variabel lain.
2. Variabel Prediktor/Terikat
Variabel prediktor ialah variabel-variabel yang perubahannya dapat
memengaruhi nilai dari variabel respon. Variabel-variabel yang termasuk
variabel prediktor umumnya diasumsikan menurut logika dari fakta yang
terjadi (disebut juga variabel potensial), kemudian keberpengaruhan
variabel-variabel tersebut terhadap variabel respon akan di cek pada
proses seleksi variabel untuk mendapatkan model terbaik.
2.2.2 Eksplorasi Data
Eksplorasi data merupakan sebuah metode untuk melihat hubungan
antar variabel. Dengan menggunakan eksplorasi data, kita dapat melihat:
1. Hubungan antara variabel respon dengan variabel-variabel prediktor yang
kita anggap potensial (perubahannya kemungkinan memiliki pengaruh
terhadap nilai variabel respon).
2. Hubungan antara variabel-variabel prediktor yang kita anggap potensial.
Eksplorasi data yang ditampilkan dapat berupa tabulasi maupun
gambar grafik. Bentuk tampilan dari eksplorasi data bergantung pada jenis
variabel (kontinu/kategorikal).
1. Kontinu dengan kontinu
Hubungan antara 2 variabel kontinu dapat dilihat melalui gambar
scatterplot kedua variabel. Sumbu Y umumnya memuat nilai-nilai dari
variabel yang dipengaruhi, sedangkan sumbu X memuat nilai-nilai dari
variabel yang memengaruhi. Scatterplot dapat juga memuat variabel
ketiga yang berjenis kategorikal dengan cara memberikan warna-warna
pada tiap tiap titik yang ada pada hasil scatterplot antara X dan Y.
Scatterplot smoother seringkali digunakan untuk melihat hubungan
antara variabel X dengan Y dimana hubungan tersebut mungkin tidak
linier.
4
2. Kategorikal dengan kategorikal
Untuk mengetahui hubungan antara variabel kategorikal dengan
kategorikal, kedua variabel tersebut dimuat di dalam sebuah tabel
frekuensi. Tabel frekuensi tersebut dapat diolah untuk mendapatkan
peluang bersyarat serta mengetahui kebergantungan kedua variabel.
Kebergantungan kedua variabel dapat diuji menggunakan uji Chi-squared
dengan membandingkan nilai frekuensi serta expected frekuensi yang
diperoleh dibawah asumsi independen.
3. Kontinu dengan kategorikal
Untuk melihat hubungan antara variabel kontinu dengan variabel
kategorikal, dapat digunakan boxplot. Selain itu, ketika variabel
kategorikal bersifat binary, maka gambar scatterplot antara variabel
kategorikal tersebut dengan suatu variabel kontinu dapat dilengkapi
dengan scatterplot smoother untuk membantu memperlihatkan
hubungan antar keduanya.
2.2.3 Distribusi Keluarga Eksponensial
Distribusi yang termasuk ke dalam distribusi keluarga exponensial
ialah distribusi yang memiliki fungsi peluang yang dapat dituliskan ke dalam
bentuk
𝑓 𝑦 = 𝑐 𝑦, 𝜙 exp
𝑦𝜃 − 𝑎(𝜃)
𝜙
dimana 𝜃 disebut parameter kanonik, dan 𝜙 disebut parameter dispersi.
Pemilihan 𝜃 dan fungsi 𝑎(𝜃) menentukan bentuk distribusi. Nilai mean dan
variansi dari anggota distribusi eksponensial dapat dituliskan sebagai:
𝐸 𝑌 = 𝑎(𝜃) 𝑉𝑎𝑟 𝑌 = 𝜙𝑎(𝜃)
dimana 𝑎(𝜃) ialah turunan pertama dari 𝑎(𝜃) terhadap 𝜃, dan 𝑎(𝜃) adalah
turunan kedua dari 𝑎(𝜃) terhadap 𝜃. Untuk variabel respon berdistribusi
keluarga eksponen,
𝑎 𝜃 =
𝛿𝑎(𝜃)
𝛿𝜃
=
𝛿𝜇
𝛿𝜃
= 𝑉 𝜇 ,
sehingga 𝑉𝑎𝑟 𝑦 = 𝜙𝑉(𝜇), dimana 𝑉(𝜇) disebut fungsi variansi yang
memperlihatkan hubungan mean dengan variansi. Pada generalized linear
model, nilai 𝜇 behubungan erat dengan variabel prediktor, sehingga nilai 𝜇
bervariasi sesuai dengan nilai variabel prediktor. Karena nilai 𝜇 bervariasi,
maka variansi juga bervariasi melalui fungsi 𝑉(𝜇).
5
2.2.3.1 Distribusi Bernoulli Sebagai Anggota Distribusi Keluarga
Eksponesial
Misalkan Y berdistribusi B(1,π). Fungsi peluang dari Y ialah:
𝑃 𝑌 = 𝑦 = 𝜋 𝑦
(1 − 𝜋)1−𝑦
𝑦 = 0,1
𝜋 𝑦
1 − 𝜋 1−𝑦
=
𝜋
(1 − 𝜋)
𝑦
(1 − 𝜋)
= 𝑒
𝑦 log
𝜋
(1−𝜋)
+log (1−𝜋)
sehingga,
𝑐 𝑦, 𝜙 = 1 𝜙 = 1 𝜃 = log
𝜋
1 − 𝜋
log
1
1 − 𝜋
= log
1 − 𝜋 + 𝜋
1 − 𝜋
= log 1 +
𝜋
1 − 𝜋
= log 1 +
𝜋
1 − 𝜋
= log 1 + 𝑒 𝜃
= 𝑎 𝜃
𝐸 𝑌 = 𝑎 𝜃 = 𝜋 𝑉 𝜇 =
𝑉𝑎𝑟(𝑌)
𝜙
= 𝜋(1 − 𝜋)
2.2.3.2 Penaksiran parameter distribusi keluarga eksponensial
Misalkan 𝑌 merupakan variabel berdistribusi anggota keluarga
eksponensial. Penaksiran parameter 𝜃 dan 𝜙 dari distribusi keluarga
eksponensial didasarkan pada data. Penaksiran parameter dapat
dilakukan melalui metode momen maupun metode maximum
likelihood estimation.
1. Metode momen
Ide dari metode momen ialah menaksir 𝜃 dan 𝜙
sedemikian sehingga nilai dari rata-rata dan variansi populasi
sama dengan nilai rata-rata dan variansi sampel. 𝑎 𝜃 = 𝑦
dan 𝜙𝑎 𝜃 = 𝜎2
, dimana 𝑦 dan 𝜎2
adalah rata-rata dan
variansi sampel.
6
2. Metode maximum likelihood estimation(MLE)
Misalkan 𝑓(𝑦𝑖; 𝜃, 𝜙) merupakan fungsi peluang dari
sebuah distribusi keluarga eksponensial, maka
ℓ 𝜙, 𝜃 = ln 𝑐 𝑦𝑖, 𝜙 +
𝑦𝑖 𝜃 − 𝑎 𝜃
𝜙
𝑛
𝑖=1
=
𝑛 𝑦 𝜃 − 𝑎(𝜃)
𝜙
+ ln 𝑐 𝑦𝑖, 𝜙
𝑛
𝑖=1
Untuk mencari MLE dari 𝜃, maka dicari nilai 𝜃 yang dapat
memaksimumkan fungsi log likelihood.
𝛿ℓ 𝜙, 𝜃
𝛿𝜃
=
𝑛 𝑦 − 𝑎(𝜃)
𝜙
= 0
Sehingga diperoleh 𝑎 𝜃 = 𝑦. Maka MLE dari 𝜃 didapatkan
dengan cara mencari nilai 𝜃, sedemikian sehingga 𝑎 𝜃 ≡ 𝜇
sama dengan 𝑦. Dapat dilihat bahwa dengan MLE, 𝜇 = 𝑦.
Dapat disimpulkan bahwa taksiran 𝜇 menggunakan metode
MLE sama dengan taksiran pada metode momen.
2.2.4 Base level Variabel Kategorikal
Jika variabel prediktor yang digunakan merupakan variabel kategorikal,
maka perlu dipilih suatu base level sebelum melakukan regresi. Base level
merupakan dasar pengukuran yang digunakan untuk membandingkan level
(kategori) lain yang termuat pada variabel kategorikal yang sama. Base level
yang dipilih merupakan level(kategori) yang memiliki jumlah frekuensi
terbanyak sehingga algoritma yang digunakan untuk menaksir parameter 𝛽
konvergen.
2.2.5 Link dan Canonical Link
Telah dijelaskan sebelumnya, bahwa transformasi terhadap nilai mean dari
variabel respon memiliki hubungan linear dengan variabel-variabel
prediktornya.
𝑔 𝜇 = 𝑥′
𝛽
Fungsi transformasi 𝑔 disebut dengan fungsi link. Fungsi ini menentukan
bagaimana nilai mean berhubungan dengan variabel-variabel prediktor.
Fungsi 𝑔 bersifat monoton dan differentiable. Apabila 𝑔 𝜇 = 𝜃, maka 𝑔
disebut canonical link. Pada kasus ini 𝜃 = 𝑥′
𝛽. Pemilihan fungsi link
bergantung kepada distribusi variabel respon. Berikut disajikan tabel yang
memuat fungsi-fungsi link yang umum digunakan.
7
2.2.6 Pemodelan Menggunakan Logistic Regression
Logistic Regression merupakan pemodelan regresi dimana variabel respon
memiliki 2 kemungkinan kejadian (binary outcome). Fungsi link yang
digunakan ialah fungsi logit
𝜇
1−𝜇
, sehingga:
𝑔 𝜇 =
𝜇
1 − 𝜇
= 𝑥′
𝛽
𝜇 =
𝑒 𝑥′ 𝛽
1 + 𝑥′ 𝛽
2.2.6.1 Membangun Model Menggunakan Stepwise regression
Dua proses paling penting yang dilakukan pada Stepwise
regression ialah pemilihan variabel prediktor yang dimasukkan ke
dalam model dan pemilihan variabel prediktor untuk dikeluarkan
dari model. Untuk melakukan kedua proses tersebut, dibutuhkan uji
signifikansi variabel prediktor. Untuk menguji signifikansi suatu
variabel prediktor (kategorikal maupun kontinu), maka dilakukan uji
hipotesis:
𝐻0: 𝐶𝛽 = 0
𝐻1: 𝐶𝛽 ≠ 0
Matriks 𝐶 merupakan matriks berukuran 𝑞 × 𝑝, dimana p
merupakan jumlah parameter pada model apabila variabel yang
ingin diuji telah dimasukkan ke dalam model dan q adalah jumlah
parameter yang akan diuji. Matriks 𝛽 ialah matriks berukuran px1.
Wald test merupakan salah satu uji yang dapat digunakan untuk
menguji hipotesis diatas. Dibawah asumsi 𝐻0 ,
𝛽~𝑁(𝛽, 𝜙(𝑋′
𝑊𝑋)−1
8
dengan W ialah matriks diagonal dengan diagonal-diagonalnya berisi
nilai [ 𝑔 𝜇𝑖
2
𝑉 𝜇𝑖 ]−1
.
Sehingga,
𝐶𝛽 − 𝑟~𝑁(0, 𝜙𝐶 𝑋′
𝑊𝑋 −1
𝐶′
Statistik wald yang digunakan untuk menguji 𝐶𝛽 = 0 ialah:
(𝐶𝛽 − 𝑟)′
𝜙𝐶(𝑋′
𝑊𝑋)−1
𝐶′ 𝐶𝛽 − 𝑟 ~𝜒 𝑞
2
𝑞 merupakan jumlah parameter yang akan diuji signifikansinya.
𝐻0: 𝐶𝛽 = 0 akan ditolak apabilai nilai 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼.
2.2.6.2 Membangun Model dengan Mempertimbangkan Faktor Exposure
Exposure(t) merupakan proporsi yang menunjukkan perbandingan
jangka waktu polis yang terekspos terhadap jangka waktu polis yang
seharusnya. Misalkan claim adalah variabel yang menunjukkan
apakah seseorang mengajukan claim atau tidak. Misalkan seseorang
memiliki peluang untuk mengajukan claim sebesar 𝜋. Apabila nilai
eksposure kurang dari 1, peluang orang tersebut untuk mengajukan
claim akan menjadi lebih kecil. Dengan mempertimbangkan nilai
exposure, maka claim yang semula berdistribusi 𝐵(1, 𝜋) akan
berdistribusi 𝐵(1, 𝑡𝜋), dengan 0 < 𝑡 ≤ 1.
Kita definisikan 𝜋∗
= 𝑡𝜋, karena 𝜇 = 𝜋 maka model regres logistik
menjadi:
𝑙𝑛
𝜋∗
/𝑡
1 − 𝜋∗/𝑡
= 𝑥′
𝛽 𝜋∗
= 𝑡
𝑒 𝑥′ 𝛽
1 + 𝑥′ 𝛽
2.2.7 Tabel Klasifikasi dan ROC (Receiver Operating Characteristic)
Tabel klasifikasi ialah salah satu metode untuk melihat performa suatu
model dari regresi logistik. Nilai taksiran probabilitas 𝜋𝑖 untuk setiap kasus i
diklasifikasikan dalam “event” dan “non-event” berdasarkan nilai threshold
yang kita pilih. Hasil dari tabel klasifikasi yang berukuran 2x2 mampu
membandingkan antara kejadian yang memang terjadi dengan hasil prediksi.
Kemampuan suatu model untuk memprediksi dapat diklasifikasikan ke dalam
2 ukuran:
1. Sensitivity, yaitu nilai yang merupakan frekuensi relatif dari
memprediksi suatu kejadian yang terjadi ketika kejadian tersebut
memang terjadi.
9
2. Specifycity, yaitu nilai yang merupakan frekuensi relatif dari
memprediksi suatu kejadian yang tidak terjadi ketika kejadian
tersebut memang tidak terjadi.
Jika nilai threshold yang dipilih ialah 0, maka nilai sensitivity=0 dan nilai
specificity=1. Kedua ukuran tersebut dapat digambarkan dalam suatu grafik
(ROC curve), dimana sumbu x merupakan (1-specificity) dan sumbu y
merupakan ukuran sensitivity. Karena merupakan frekuensi relatif, nilai
maksimum dari Sensitivity dan Specifycity ialah 1. Grafik ROC selalu bermula
dari titik (0,0) dan berakhir pada titik (1,1). Semakin cepat grafik menuju 1
maka semakin baik kemampuan model dalam memprediksi. Kemampuan
suatu model dalam memprediksi juga dapat kita lihat melalui luas dibawah
kurva ROC(Area Under Curve). Semakin luas kurva, semakin baik kemampuan
model dalam memprediksi.
2.2.8 Pemilihan Model
Pemilihan model untuk regresi logistik dapat dilakukan dengan melihat
nilai AIC yang didefinisikan sebagai:
𝐴𝐼𝐶 = −2ℓ + 2𝑝
Suatu taksiran yang baik tentunya akan memiliki nilai log likelihood yang
besar, sehingga nilai −2ℓ kecil. Model yang baik ialah model yang tidak
mengandung terlalu banyak parameter. Sehingga dapat disimpulkan bahwa
semakin baik model, nilai AIC akan semakin kecil. Jika nilai pengurangan AIC
tidak begitu besar, kemungkinan terdapat parameter yang tidak signifikan,
sehingga dibutuhkan uji untuk tiap-tiap parameter yang ada.
Selain melihat dari nilai AIC, kita juga melihat dari nilai AUC(Area Under
Curve) dari grafik ROC. Semakin besar area, semakin baik kemampuan model
dalam memprediksi.
10
BAB III
ANALISIS DAN HASIL PENELITIAN
3.1 Pemilihan Variabel Respon dan Prediktor Potensial
Sesuai dengan tujuan yang telah penulis paparkan, yaitu untuk menentukan
model regresi terbaik yang dapat mengestimasi probabilitas seseorang dengan
karakteristik tertentu untuk mengajukan claim, maka variabel respon yang dipilih
ialah variabel clm yang menyatakan apakah seseorang mengajukan claim atau tidak
(Data asuransi yang diperoleh bukan merupakan data asuransi yang bersifat group
pada masing-masing polisnya). Variabel clm termasuk ke dalam variabel kategorikal.
Variabel claim memiliki binary outcome dengan
0: tidak mengajukan claim
1: mengajukan claim
Variabel prediktor yang penulis anggap memiliki pengaruh terhadap variabel
respon yang telah dipilih ialah:
1. Veh_value : Vehicle value (harga kendaraan)
Merupakan variabel kontinu yang menyatakan harga
kendaraan dalam satuan 10,000 dolar.
2. Veh_body : Vehicle body (tipe badan kendaraan)
Merupakan variabel kategorikal dengan 13 kategori, yaitu
 BUS
 CONVT = convertible
 COUPE
 HBACK = hatchback
 HDTOP = hardtop
 MCARA = motorized caravan
 MIBUS = minibus
 PANVN = panel van
 RDSTR = roadster
 SEDAN
 STNWG = station wagon
 TRUCK
 UTE - utility
11
3. Area : Area tempat tinggal pengemudi
Merupakan variabel kategorikal yang terdiri dari 6 kategori
area yaitu A, B, C, D, E, dan F.
4. Agecat : Kategori usia pengemudi
Merupakan variabel kategorikal yang terdiri dari 6 kategori
usia yaitu 1, 2, 3, 4, 5, dan 6
3.2 Eksplorasi Data
1. Veh_value (vehicle value/harga kendaraan)
Dapat dilihat bahwa nilai mean lebih besar dibanding nilai median. Nilai mean
bersifat tidak robust sehingga mudah mengalami pergeseran apabila terdapat
nilai yang besar. Dapat disimpulkan bahwa terdapat beberapa kendaraan dalam
data suransi yang memiliki harga tinggi. Hal ini juga dapat dilihat dari histogram
harga kendaraan yang memiliki ekor di bagian kanan.
Boxplot dari occurence of claim dengan vehicle value (harga kendaraan)
memperlihatkan bahwa pemegang polis yang tidak mengajukan claim memiliki
harga kendaraan yang variansinya lebih besar. Pemegang polis dengan harga
kendaraannya tergolong mahal terletak pada boxplot claim kategori 0, yang
mengindikasikan bahwa mobil yang mahal kemungkinan lebih jarang rusak.
12
Dari gambar scatterplot yang dilengkapi dengan hasil scatterplot smoother
diatas, dapat dilihat bahwa harga kendaraan tidak berhubungan secara linear
dengan variabel clm. Hubungan keduanya kemungkinan bersifat kuadratik atau
kibik. Namun, setelah dilakukan regresi polinomial derajat 2 dan derajat 3 dengan
variabel respon clm dan variabel prediktor veh_value, keduanya kurang cocok.
Regresi polinomial derajat 2 menunjukkan bahwa regresi tidak cocok untuk data
nilai kendaraan yang besar, sehingga perlu dilakukan banding. Banding ialah
mengategorikan variabel kontinu. Kita definisikan variabel baru yaitu valuecat,
dimana valuecat merupakan hasil banding dari variabel veh_value. Selang yang
dipilih dapat dilihat pada tabel berikut.
Hasil dari banding pada grafik scatterplot diatas menunjukkan bahwa variabel
valuecat lebih cocok dibanding dengan hasil regresi polinomial yang telah
dipaparkan sebelumnya, sehingga variabel valuecat akan digunakan sebagai
variabel prediktor menggantikan variabel veh_value.
Clm
valuecat(valuecategory)
1 2 3 4 5 6
0 0,756529 0,155476 0,017287 0,001474 0,000619 0,000472
1 0,053584 0,013101 0,001356 5,89E-05 2,95E-05 1,47E-05
13
Tabel kontingensi diatas menunjukkan bahwa peluang pemegang polis yang
memiliki kendaraan dengan harga kurang dari $25,000 untuk tidak mengajukan
claim paling besar.
Dapat dilihat pada diagram batang di atas bahwa sebagian besar pemegang
polis memiliki harga kendaraan dibawah $25,000.
2. Veh_body (Tipe badan kendaraan)
Diagram batang diatas menunjukkan bahwa sebagian besar pemegang polis
memiliki kendaraan sedan.
14
3. Agecat (Age category/kategori usia)
d
Diagram batang di atas menunjukkan bahwa pemegang polis sebagian besar
berada pada kategori usia ke 4.
Clm
Age category
1 2 3 4 5 6
0 0,077311 0,176005 0,215957 0,222309 0,149169 0,091105
1 0,00731 0,013735 0,016402 0,01627 0,009049 0,005379
Tabel kontingensi diatas menunjukkan bahwa peluang pemegang polis dengan
kategori usia 4 yang tidak mengajukan claim cukup besar.
15
4. Area (Area tempat tinggal pengemudi)
Diagram batang diatas menunjukkan bahwa pemegang polis paling banyak
berdomisili di area C.
Clm
Area
A B C D E F
0 0,224402 0,182386 0,281891 0,113137 0,081437 0,048603
1 0,01599 0,014221 0,020809 0,00731 0,005689 0,004126
Tabel kontingensi diatas menunjukkan bahwa peluang pemegang polis dengan
kategori area C yang tidak mengajukan claim cukup besar.
3.3 Pemilihan Base level
Keempat variabel prediktor yang akan digunakan merupakan variabel kategorikal,
sehingga perlu dilakukan pemilihan base level serta pembuatan variabel dummy.
Pemilihan base level didasarkan pada level yang memiliki jumlah frekuensi terbesar,
sehingga algoritma untuk mencari 𝛽 konvergen.
Agecat
1 2 3 4 5 6
5742 12875 15767 16189 10736 6547
Area
A B C D E F
16312 13341 20540 8173 5912 3578
veh_body
BUS CONVT COPUE HBACK HDTOP MCARA MIBUS
48 81 780 18915 1579 127 717
PANVN RDSTR SEDAN STNWG TRUCK UTE
752 27 22233 16261 1750 4586
Valuecat 1 2 3 4 5 6
16
54971 11439 1265 104 44 33
Dari tabel frekuensi diatas, maka dipilih agecat kategori 4 sebagai base level dari
variabel agecat, area C sebagai base level dari variabel area, Tipe badan mobil sedan
sebagai base level dari variabel veh_body, dan valuecat kategori 1 sebagai base level
dari variabel valuecat.
Misalkan sebuah variabel kategorikal memiliki r level, maka dibutuhkan variabel
dummy sebanyak r-1 variabel. Variabel dummy dibentuk dari level-level yang bukan
merupakan base level. Contohnya, untuk variabel agecat, terdapat r = 6 level. Base
level yang telah dipilih ialah variabel agecat kategori 4, sehingga variabel dummy
yang terbentuk ialah:
𝑎𝑔𝑒𝑐𝑎𝑡1
1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 1
0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
𝑎𝑔𝑒𝑐𝑎𝑡2
1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 2
0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
𝑎𝑔𝑒𝑐𝑎𝑡3
1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 3
0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
𝑎𝑔𝑒𝑐𝑎𝑡5
1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 5
0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
𝑎𝑔𝑒𝑐𝑎𝑡6
1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 6
0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
Apabila pemegang polis memiliki usia pada kategori 4, maka nilai dari masing-
masing variabel dummy diatas ialah 0. Untuk variabel kategorikal lainnya,
pembuatan variabel dummy dilakukan dengan cara yang serupa, sehingga jumlah
variabel dummy untuk seluruh variabel prediktor yang ada ialah 27 variabel.
3.4 Pemodelan Menggunakan Logistic Regression
Variabel respon yang telah dipilih, yaitu clm memiliki binary outcome sehingga
sangat cocok dengan sifat dari distribusi bernoulli, yaitu hanya memiliki 2
kemungkinan kejadian yang saling lepas. Dapat disimpulkan bahwa variabel clm
berdistribusi 𝐵(1, 𝜋), dengan nilai 𝜋 dipilih sebagai probabilitas seseorang untuk
mengajukan claim.
Variabel respon yang dipilih berdistribusi bernoulli, sehingga dipilih link logit
𝑙𝑛
𝜇
1−𝜇
sebagai link kanonik. Untuk distribusi bernoulli, nilai 𝜇 = 𝜋, sehingga dengan
variabel-variabel dummy yang telah didefinisikan, model regresi dengan prediktor
potensial menjadi:
𝑙𝑛
𝜋
1−𝜋
= 𝛽0 + 𝛽1 𝑎𝑔𝑒𝑐𝑎𝑡1 + 𝛽2 𝑎𝑔𝑒𝑐𝑎𝑡2 + 𝛽3 𝑎𝑔𝑒𝑐𝑎𝑡3 + 𝛽4 𝑎𝑔𝑒𝑐𝑎𝑡5 … + 𝛽27 𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6
17
Link logit diatas menjamin bahwa nilai 𝜋 akan berada pada interval [0,1]. Hal ini dapat
dilihat pada penjelasan berikut:
Misal
𝑙𝑛
𝜋
1 − 𝜋
= 𝑥′
𝛽
maka
𝜋 =
𝑒 𝑥′ 𝛽
1 + 𝑒 𝑥′ 𝛽
sehingga nilai 𝜋 akan berada pada interval [0,1] untuk semua 𝑥 dan 𝛽.
3.4.1 Estimasi Parameter Distribusi Bernoulli
Sesuai dengan metode estimasi parameter yang telah
dijelaskan pada bab landasan teori, maka:
𝜇 = 𝜋 = 𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑑𝑎𝑟𝑖 𝑐𝑙𝑚
=
𝑗𝑢𝑚𝑙𝑎𝑕 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑔𝑎𝑗𝑢𝑘𝑎𝑛 𝑐𝑙𝑎𝑖𝑚
𝑗𝑢𝑚𝑙𝑎𝑕 𝑡𝑜𝑡𝑎𝑙 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠
=
4624
67856
= 0.068
Berbeda dengan 𝜋 yang didapatkan dari hasil regresi, nilai estimasi disini tidak
mempertimbangkan hubungan dengan prediktor.
3.4.2 Membangun Model Menggunakan Stepwise regression
Regresi dengan menggunakan metode stepwise regression diperoleh
menggunakan software SAS. Regresi dengan metode ini algoritma software
SAS dapat dilihat di bagian lampiran. Untuk mempersingkat penjelasan,
penulis hanya akan memuat hasil regresi pada step 0, 1, dan kesimpulan dari
proses regresi.
18
Maksud dari Probability modeled is clm=’1’ ialah bahwa kita memilih
parameter 𝜋 sebagai peluang bahwa clm bernilai 1 (peluang pemegang polis
mengajukan claim).
19
Tabel diatas menunjukkan informasi base level yang telah kita pilih. base
level yang kita pilih memuat nilai 0 pada setiap cell-nya.
STEP 0-intercept entered
Tabel diatas mengindikasikan bahwa algoritma estimasi parameter 𝛽
konvergen, sehingga nilai 𝛽 dapat diperoleh.
Tabel diatas menunjukkan proses pemilihan variabel untuk dimasukkan ke
dalam model. Program SAS menggunakan uji score chi-square atau sering
disebut Lagrange Multiplier untuk menguji apakah suatu variabel signifikansi
untuk dimasukkan ke dalam model. Sebagai contoh, untuk mengetahui
apakah variabel agecat signifikan untuk dimasukkan ke dalam model yang
telah didapat (hanya memuat parameter intercept yaitu 𝛽0 ), maka dilakukan
uji hipotesis:
𝐻0: 𝐶𝛽 = 0 𝐻1: 𝐶𝛽 ≠ 0
Dengan
𝐶 =
0 1 0
0 0 1
0 0 0
0 0 0
0 0 0
1 0 0
0 0 0
0 0 0
0 1 0
0 0 1
𝛽 =
𝛽0
𝛽1
𝛽2
𝛽3
𝛽4
𝛽5
20
Ingat bahwa variabel agecat merupakan variabel kategorikal. Variabel agecat
terdiri dari 6 level, sehingga menguji apakah variabel agecat signifikan sama
saja dengan menguji apakah 𝛽1, 𝛽2, 𝛽3, 𝛽4, dan 𝛽5 signifikan.
Matriks C merupakan matriks berukuran qxp dimana p merupakan jumlah
parameter pada model regresi apabila variabel yang ingin diuji telah
dimasukkan ke dalam model, dan q adalah jumplah parameter yang akan
diuji. Matriks 𝛽 berukuran px1.
𝐻0 ditolak apabila nilai 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼. Nilai 𝛼 yang penulis pilih ialah 0.05.
𝐻0 ditolak mengindikasikan bahwa variabel tersebut signifikan untuk
dimasukkan ke dalam model. Karena nilai p-value dari masing-masing variabel
kurang dari 𝛼, kita pilih nilai p-value yang paling kecil. Dapat dilihat bahwa
nilai p-value untuk variabel agecat dan veh_body hampir sama. Oleh karena
itu, kita pilih variabel yang memiliki score chi-square yang terbesar, sehingga
variabel agecat dimasukkan ke dalam model.
STEP 1-Agecat entered
Nilai AIC yang semakin kecil menunjukkan bahwa model semakin baik. Dapat
dilihat bahwa nilai AIC model yang memuat variabel agecat sebagai
prediktor/kovariat lebih kecil dariapada apabila model hanya memuat 𝛽0
(intercept), sehingga model yang memuat agecat sebagai prediktor lebih baik.
Ketiga tes diatas dilakukan untuk menguji:
𝐻0: 𝐶𝛽 = 0 𝐻1: 𝐶𝛽 ≠ 0
Dengan
21
𝐶 =
0 1 0
0 0 1
0 0 0
0 0 0
0 0 0
1 0 0
0 0 0
0 0 0
0 1 0
0 0 1
𝛽 =
𝛽0
𝛽1
𝛽2
𝛽3
𝛽4
𝛽5
Dengan kata lain, uji Global Null hipotesis menguji apakah model yang hanya
memuat intercept (𝛽0) lebih baik atau tidak.
Tes diatas digunakan untuk menguji signifikansi masing-masing variabel yang
telah termuat di dalam model terbaru.
Nilai estimasi parameter untuk 𝛽0, 𝛽1, 𝛽2, 𝛽3, 𝛽4, dan 𝛽5 termuat pada
kolom estimate pada tabel diatas. Hasil regresi pada step 1 yang diperoleh
ialah:
𝑙𝑛
𝜋
1 − 𝜋
= −2.6148 + 0.2565 𝑎𝑔𝑒𝑐𝑎𝑡1 +
0.0642 𝑎𝑔𝑒𝑐𝑎𝑡2 + 0.0371 𝑎𝑔𝑒𝑐𝑎𝑡3 − 0.1876 𝑎𝑔𝑒𝑐𝑎𝑡5 − 0.2146 𝑎𝑔𝑒𝑐𝑎𝑡6
Wald Chi-square digunakan untuk menguji signifikansi masing-masing
parameter didalam model. Terdapat nilai p-value yang cukup besar, namun
parameter yang memiliki p-value yang cukup besar ialah parameter yang
merupakan parameter dari variabel-variabel dummy. Tes terhadap variabel-
variabel dummy yang termuat dalam satu variabel kategorikal harus
dilakukan secara bersamaan, bukan secara individual.
22
Odd ratio estimate didefinikan sebagai:
𝜋
(1 − 𝜋)
Nilai ini menunjukkan proporsi dari peluang kejadian dibanding peluang tidak
terjadinya sebuah kejadian (event). Misal untuk baris agecat 1vs4, ketika
seseorang termasuk pada kategori usia pertama, maka:
𝑙𝑛
𝜋
1 − 𝜋
= −2.6148 + 0.2565 ∗ 1 +
0.0642 ∗ 0 + 0.0371 ∗ 0 − 0.1876 ∗ 0 − 0.2146 ∗ 0
𝑙𝑛
𝜋
1 − 𝜋
= −2.6148 + 0.2565
𝜋
1 − 𝜋
= 𝑒−2.6148
𝑒0.2565
= 1.292 𝑒−2.6148
Apabila seseorang berada pada kategori usia 4(base level), maka:
𝑙𝑛
𝜋
1 − 𝜋
= −2.6148
𝜋
1 − 𝜋
= 𝑒−2.6148
Dapat disimpulkan bahwa untuk model yang diperoleh pada step 1, apabila
seseorang termasuk kategori usia pertama, maka nilai dari odd ratio nya
merupakan 1.292 kali lipat dari odd ratio apabila seseorang termasuk
kategori usia 4(base level).
23
Tes diatas digunakan untuk mengetes signifikansi masing-masing variabel
apabila model terbaru sudah didapatkan. Apabila suatu variabel yang
sebelumnya signifikan, dan setelah variabel lain masuk menjadi tidak
signifikan, maka variabel yang tidak signifikan akan dikeluarkan dari model.
Tabel diatas menunjukkan uji signifikansi masing-masing variabel apabila
variabel tersebut dianggap telah masuk ke dalam model terbaru. Uji ini
dilakukan untuk memilih variabel mana yang signifikan untuk dimasukkan ke
dalam model. Nilai p-value terkecil dimiliki oleh variabel veh_body, sehingga
veh_body merupakan variabel yang cukup signifikan untuk dimasukkan ke
dalam model yang telah diperoleh sebelumnya.
Proses akan berlangsung hingga tidak ada variabel yang signifikan untuk
dimasukkan ke dalam model. Berikut rangkuman dari proses stepwise
regression.
Kolom Pr>ChiSq menunjukkan nilai p-value saat variabel dimasukkan ke
dalam model.
24
Tes diatas digunakan untuk menguji masing-masing variabel pada model
regresi terakhir yang telah didapat, yaitu model yang memuat keempat
variabel. Misalkan akan diuji signifikansi variabel valuecat.
Ingat bahwa variabel valuecat merupakan variabel kategorikal. Variabel
valuecat terdiri dari 5 level, sehingga menguji apakah variabel agecat
signifikan sama saja dengan menguji apakah 𝛽23, 𝛽24, 𝛽25, 𝛽26, dan 𝛽27
signifikan (Perhatikan urutan parameter).
Dilakukan uji hipotesis:
𝐻0: 𝐶𝛽 = 0 𝐻1: 𝐶𝛽 ≠ 0
dengan C merupakan matriks berukuran 5x28, yaitu
𝐶 =
0 0 0
: : :
: : :
… 1 0
… 0 1
… 0 0
0 0 0
0 0 0
1 0 0
: : :
0 0 0
… 0 0
… 0 0
0 1 0
0 0 1
dan 𝛽 matriks berukuran 28x1.
Model yang diperoleh dari hasil stepwise regression ialah:
𝑙𝑛
𝜋
1 − 𝜋
= −2.6199 + 0.2614𝑎𝑔𝑒𝑐𝑎𝑡1 + ⋯ − 0.7779 𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6
25
Terlihat bahwa nilai AUC(Area Under Curve) naik untuk setiap step dalam
regresi, hal ini mengindikasikan bahwa kemampuan model pada setiap step
untuk memprediksi terus membaik. Artinya nilai specificity dan sensitivity
terus meningkat. Berikut tabel klasifikasi dengan nilai threshold 0.08.
Nilai sensitivity dan specificity diperoleh dari:
𝑠𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 =
𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡
𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡 + 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡
𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 =
𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡
𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡 + 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡
3.4.3 Membangun Model dengan Mempertimbangkan Faktor Exposure
Didefiniskan fungsi link dan fungsi inverse link
𝑙𝑛
𝜋∗
/𝑡
1 − 𝜋∗/𝑡
𝑡
𝑒 𝑥′ 𝛽
1 + 𝑥′ 𝛽
dengan t menotasikan nilai eksposure. Berikut hasil regresi yang diperoleh
dari program SAS. Penjelasan dari proses regresi yang serupa tidak dibahas
kembali.
26
LR statistik for type 3 analysis merupakan alat untuk menguji signifikansi
masing-masing variabel pada model regresi yang telah didapatkan. Model
regresi yang didapatkan ialah:
𝑙𝑛
𝜋
1 − 𝜋
= −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2
+ ⋯ − 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6
3.5 Pemilihan Model
Pemilihan model didasarkan pada nilai AIC terkecil serta nilai AUC terbesar. Nilai
AIC untuk hasil stepwise regression tanpa mempertimbangkan nilai exposure ialah
33680, 356. Sedangkan dengan mempertimbangkan nilai exposure, model yang
didapatkan memiliki nilai AIC 32549,5279. Artinya model dengan
mempertimbangkan faktor exposure dapat dibilang lebih baik.
27
Dapat dilihat dari kurva ROC diatas, kurva ROC dari model yang memuat faktor
exposure lebih condong ke bagian kiri atas dari grafik. Hal ini mengindikasikan bahwa
model lebih baik.
Dapat dilihat pada tabel klasifikasi bahwa nilai specificity dari model yang memuat
faktor exposure lebih kecil. Namun perbedaan ini tidak begitu signifikan dibanding
dengan perbedaan nilai dari sensitivity, dimana nilai sensitivity untuk model yang
memuat faktor exposure lebih tinggi.
Sensitivity didefinisikan sebagai frekuensi relatif dari memprediksi sebuah
kejadian (claim) ketika kejadian tersebut terjadi. Sedangkan specificity didefinisikan
sebagai frekuensi relatif dari memprediksi tidak terjadinya sebuah kejadian ketika
kejadian (claim)tersebut memang tidak terjadi. Pihak asuransi tentunya lebih
menginginkan nilai sensitivity yang tinggi dibanding nilai dari specificity. Oleh karena
itu model yang dipilih ialah model yang memuat faktor exposure, yaitu:
𝑙𝑛
𝜋
1 − 𝜋
= −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2
+ ⋯ − 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6
Tanpa Exposure Dengan Exposure
28
BAB IV
KESIMPULAN DAN SARAN
4.1 Kesimpulan
Regresi terbaik yang diperoleh ialah regresi yang mempertimbangkan faktor
eksposure dengan prediktor valuecat (kategoriharga kendaraan), agecat(kategori
usia), area(area tempat tinggal pengemudi), dan veh_body (Tipe badan mobil).
Model regresi yang diperoleh ialah
𝑙𝑛
𝜋
1−𝜋
= −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2 + ⋯ − 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6
4.2 Saran
Penulis belum memasukkan semua variabel potensial yang terdapat pada data,
sehingga regresi yang lebih baik mungkin akan didapatkan apabila variabel prediktor
lain dimasukkan pada proses seleksi variabel dengan mempertimbangkan faktor
exposure.
29
LAMPIRAN
*/import dataa;
PROC IMPORT DATAFILE="D:JEScar.csv"
OUT =car REPLACE;
getnames=yes;
RUN;
*_______________________________statistika deskriptif;
*/histogram dari value_cat;
PROC UNIVARIATE data=car2;
histogram veh_value;
run;
*/boxplot veh_value dengan claim;
title "Box Plots";
proc sgplot data=car;
vbox veh_value / category=clm;
label clm="occurence of claim 0=No 1=Yes";
label veh_value="Vehicle value in $10,000s";
run;
*/scatterplot veh_value dengan claim
title "scatterplot";
proc sgplot data=car;
scatter x=veh_value y=clm;
label clm="occurence of claim 0=No 1=Yes";
label veh_value="Vehicle value in $10,000s";
run;
ods graphics on;
proc loess data=car;
model clm = veh_value;
run;
ods graphics off;
*/Banding variable untuk variabel veh_value;
DATA car2;
SET car;
areas=area;
drop numclaims claimcst0 veh_age gender _OBSTAT_ area;
valuecat = .;
IF (veh_value<=2.5) THEN valuecat = 1;
IF (2.5<veh_value<=5) THEN valuecat = 2;
IF (5<veh_value<=7.5) THEN valuecat = 3;
IF (7.5<veh_value<=10) THEN valuecat = 4;
IF (10<veh_value<=12.5) THEN valuecat = 5;
IF (veh_value>12.5) THEN valuecat = 6;
RUN;
*/valuecat;
PROC GCHART DATA=car2;
VBAR valuecat/NAME="Value Category" TYPE=FREQ
MAXIS=AXIS1 MIDPOINTS= 1 to 6 by 1;
label valuecat="valuecat(value category)";
run;
*/valuecat;
PROC GCHART DATA=car;
VBAR agecat/NAME="Age Category" TYPE=FREQ
MAXIS=AXIS1 MIDPOINTS= 1 to 6 by 1;
label agecat="age category";
run;
PROC GCHART DATA=car;
VBAR area/NAME="Area" TYPE=FREQ
MAXIS=AXIS1;
label area="Area";
run;
PROC GCHART DATA=car;
VBAR veh_body/NAME="veh_body" TYPE=FREQ
MAXIS=AXIS1;
label veh_body="veh_body(vehicle body)";
run;
*/________________________________________without exposure;
%include "D:JESroc.sas";
ods graphics on;
proc logistic data=work.car2 plots(only)=roc(id=obs);
class agecat(ref="4") areas(ref="C") veh_body(ref="SEDAN")
valuecat(ref="1") / param=ref;
model clm (event="1")= agecat areas veh_body valuecat /
selection=stepwise scale=none
clparm=wald
clodds=pl
rsquare
details
lackfit
ctable pprob=0.08 outroc=work.outcar2 ;
output out=pred p=phat lower=lcl upper=ucl
predprob=(individual crossvalidate);
run;
ods graphics off;
%roc(data=pred, var=phat,response=clm)
*/___________________________________________with exposure;
%include "D:JESroc.sas";
proc genmod data=work.car2 descending;
class agecat(ref="4") areas(ref="C") veh_body(ref="SEDAN")
valuecat(ref="1") / param=ref;
model clm = agecat areas veh_body valuecat /
dist=bin type3 ;
*/link;
fwdlink
link=log((_MEAN_/exposure)/(1-(_MEAN_/exposure)));
invlink
ilink=exposure*exp(_XBETA_)/(1+exp(_XBETA_));
output out=work.car2 p=fit;
run;
%roc(data=work.car2, var=fit2,response=clm)
ods graphics on;
proc logistic data=work.car2 plots(only)=roc(id=obs);
model clm(event="1")=fit/ scale=none
clparm=wald
clodds=pl
rsquare
ctable pprob=0.08 outroc=work.outcar2 ;
run;
ods graphics off;

More Related Content

What's hot

Pendugaan parameter
Pendugaan parameterPendugaan parameter
Pendugaan parametersiti Julaeha
 
Korespondensi Analisis
Korespondensi AnalisisKorespondensi Analisis
Korespondensi Analisisdessybudiyanti
 
Korelasi dan regresi ppt
Korelasi dan regresi pptKorelasi dan regresi ppt
Korelasi dan regresi pptMana Khansa
 
Statistika non-parametrik dengan metode Uji Tanda
Statistika non-parametrik dengan metode Uji Tanda Statistika non-parametrik dengan metode Uji Tanda
Statistika non-parametrik dengan metode Uji Tanda RindyArini
 
PPT Regresi Berganda
PPT Regresi BergandaPPT Regresi Berganda
PPT Regresi BergandaLusi Kurnia
 
Analisis varian dua arah
Analisis varian dua arahAnalisis varian dua arah
Analisis varian dua arahTri Supadmi
 
Analisis Korelasi Kanonik (1)
Analisis Korelasi Kanonik (1)Analisis Korelasi Kanonik (1)
Analisis Korelasi Kanonik (1)Rani Nooraeni
 
Pengujian hipotesis 05
Pengujian hipotesis 05Pengujian hipotesis 05
Pengujian hipotesis 05robin2dompas
 
Analisis Diskriminan (1)
Analisis Diskriminan (1)Analisis Diskriminan (1)
Analisis Diskriminan (1)Rani Nooraeni
 
Statistika Uji Homogenitas (Uji Fmax, Uji Barlett, dan Uji Runs)
Statistika Uji Homogenitas (Uji Fmax, Uji Barlett, dan Uji Runs)Statistika Uji Homogenitas (Uji Fmax, Uji Barlett, dan Uji Runs)
Statistika Uji Homogenitas (Uji Fmax, Uji Barlett, dan Uji Runs)Awal Akbar Jamaluddin
 
MODUL 6 Regresi Linier Sederhana
MODUL 6 Regresi Linier SederhanaMODUL 6 Regresi Linier Sederhana
MODUL 6 Regresi Linier Sederhananur cendana sari
 
STATISTIK- UJI NORMALITAS
STATISTIK- UJI NORMALITASSTATISTIK- UJI NORMALITAS
STATISTIK- UJI NORMALITASZUKI SUDIANA
 
Penanganan Mutikolonieritas
Penanganan MutikolonieritasPenanganan Mutikolonieritas
Penanganan MutikolonieritasEka Siskawati
 
Regresi Linear Berganda
Regresi Linear BergandaRegresi Linear Berganda
Regresi Linear BergandaDian Arisona
 

What's hot (20)

Pendugaan parameter
Pendugaan parameterPendugaan parameter
Pendugaan parameter
 
Korespondensi Analisis
Korespondensi AnalisisKorespondensi Analisis
Korespondensi Analisis
 
Materi p15 nonpar_korelasi
Materi p15 nonpar_korelasiMateri p15 nonpar_korelasi
Materi p15 nonpar_korelasi
 
Korelasi dan regresi ppt
Korelasi dan regresi pptKorelasi dan regresi ppt
Korelasi dan regresi ppt
 
Statistika non-parametrik dengan metode Uji Tanda
Statistika non-parametrik dengan metode Uji Tanda Statistika non-parametrik dengan metode Uji Tanda
Statistika non-parametrik dengan metode Uji Tanda
 
Distribusi Sampling
Distribusi SamplingDistribusi Sampling
Distribusi Sampling
 
04 regresi linier-sederhana
04 regresi linier-sederhana04 regresi linier-sederhana
04 regresi linier-sederhana
 
PPT Regresi Berganda
PPT Regresi BergandaPPT Regresi Berganda
PPT Regresi Berganda
 
Analisis Regresi Liniear Sederhana
Analisis Regresi Liniear SederhanaAnalisis Regresi Liniear Sederhana
Analisis Regresi Liniear Sederhana
 
Analisis varian dua arah
Analisis varian dua arahAnalisis varian dua arah
Analisis varian dua arah
 
Analisis Korelasi Kanonik (1)
Analisis Korelasi Kanonik (1)Analisis Korelasi Kanonik (1)
Analisis Korelasi Kanonik (1)
 
Pengujian hipotesis 05
Pengujian hipotesis 05Pengujian hipotesis 05
Pengujian hipotesis 05
 
Analisis Diskriminan (1)
Analisis Diskriminan (1)Analisis Diskriminan (1)
Analisis Diskriminan (1)
 
Poisson distribution
Poisson distributionPoisson distribution
Poisson distribution
 
Statistika Uji Homogenitas (Uji Fmax, Uji Barlett, dan Uji Runs)
Statistika Uji Homogenitas (Uji Fmax, Uji Barlett, dan Uji Runs)Statistika Uji Homogenitas (Uji Fmax, Uji Barlett, dan Uji Runs)
Statistika Uji Homogenitas (Uji Fmax, Uji Barlett, dan Uji Runs)
 
MODUL 6 Regresi Linier Sederhana
MODUL 6 Regresi Linier SederhanaMODUL 6 Regresi Linier Sederhana
MODUL 6 Regresi Linier Sederhana
 
STATISTIK- UJI NORMALITAS
STATISTIK- UJI NORMALITASSTATISTIK- UJI NORMALITAS
STATISTIK- UJI NORMALITAS
 
Penanganan Mutikolonieritas
Penanganan MutikolonieritasPenanganan Mutikolonieritas
Penanganan Mutikolonieritas
 
VARIABEL RANDOM & DISTRIBUSI PELUANG
VARIABEL RANDOM & DISTRIBUSI PELUANGVARIABEL RANDOM & DISTRIBUSI PELUANG
VARIABEL RANDOM & DISTRIBUSI PELUANG
 
Regresi Linear Berganda
Regresi Linear BergandaRegresi Linear Berganda
Regresi Linear Berganda
 

Viewers also liked

Generalized linear models (logistic regression)
Generalized linear models (logistic regression)Generalized linear models (logistic regression)
Generalized linear models (logistic regression)Indah Fitri Hapsari
 
Time series analysis in Stata
Time series analysis in StataTime series analysis in Stata
Time series analysis in Statashahisec1
 
Data mining with R- regression models
Data mining with R- regression modelsData mining with R- regression models
Data mining with R- regression modelsHamideh Iraj
 
Makalah manajemen logistik
Makalah manajemen logistikMakalah manajemen logistik
Makalah manajemen logistikAgung Widarman
 
Perencanaan dan pengendalian kegiatan logistik
Perencanaan dan pengendalian kegiatan logistikPerencanaan dan pengendalian kegiatan logistik
Perencanaan dan pengendalian kegiatan logistikTogar Simatupang
 
STATA - Time Series Analysis
STATA - Time Series AnalysisSTATA - Time Series Analysis
STATA - Time Series Analysisstata_org_uk
 
Data mining tools (R , WEKA, RAPID MINER, ORANGE)
Data mining tools (R , WEKA, RAPID MINER, ORANGE)Data mining tools (R , WEKA, RAPID MINER, ORANGE)
Data mining tools (R , WEKA, RAPID MINER, ORANGE)Krishna Petrochemicals
 
Time Series
Time SeriesTime Series
Time Seriesyush313
 
Time series-mining-slides
Time series-mining-slidesTime series-mining-slides
Time series-mining-slidesYanchang Zhao
 

Viewers also liked (9)

Generalized linear models (logistic regression)
Generalized linear models (logistic regression)Generalized linear models (logistic regression)
Generalized linear models (logistic regression)
 
Time series analysis in Stata
Time series analysis in StataTime series analysis in Stata
Time series analysis in Stata
 
Data mining with R- regression models
Data mining with R- regression modelsData mining with R- regression models
Data mining with R- regression models
 
Makalah manajemen logistik
Makalah manajemen logistikMakalah manajemen logistik
Makalah manajemen logistik
 
Perencanaan dan pengendalian kegiatan logistik
Perencanaan dan pengendalian kegiatan logistikPerencanaan dan pengendalian kegiatan logistik
Perencanaan dan pengendalian kegiatan logistik
 
STATA - Time Series Analysis
STATA - Time Series AnalysisSTATA - Time Series Analysis
STATA - Time Series Analysis
 
Data mining tools (R , WEKA, RAPID MINER, ORANGE)
Data mining tools (R , WEKA, RAPID MINER, ORANGE)Data mining tools (R , WEKA, RAPID MINER, ORANGE)
Data mining tools (R , WEKA, RAPID MINER, ORANGE)
 
Time Series
Time SeriesTime Series
Time Series
 
Time series-mining-slides
Time series-mining-slidesTime series-mining-slides
Time series-mining-slides
 

Similar to PEMODELAN DATA CAR

Laporan Pratikum analisis regresi linier sederhana
Laporan Pratikum analisis regresi linier sederhanaLaporan Pratikum analisis regresi linier sederhana
Laporan Pratikum analisis regresi linier sederhanagita Ta
 
18611088_LintangPuspita_Laporan1.pdf
18611088_LintangPuspita_Laporan1.pdf18611088_LintangPuspita_Laporan1.pdf
18611088_LintangPuspita_Laporan1.pdflintang994913
 
Hakikat dan Ruang Lingkup Ekonometrika
Hakikat dan Ruang Lingkup EkonometrikaHakikat dan Ruang Lingkup Ekonometrika
Hakikat dan Ruang Lingkup EkonometrikaYuca Siahaan
 
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...pmgdscunsri
 
Analisis Faktor (2.2)
Analisis Faktor (2.2)Analisis Faktor (2.2)
Analisis Faktor (2.2)Rani Nooraeni
 
Makalah regresi dan korelasi new
Makalah regresi dan korelasi newMakalah regresi dan korelasi new
Makalah regresi dan korelasi newSilihk
 
Makalah5 skala lkert ordinal, interval
Makalah5 skala lkert ordinal, intervalMakalah5 skala lkert ordinal, interval
Makalah5 skala lkert ordinal, intervalSutikno Java
 
Teori dan konsep fungsi dalam ekonomi
Teori dan konsep fungsi dalam ekonomiTeori dan konsep fungsi dalam ekonomi
Teori dan konsep fungsi dalam ekonomiTrianingrum
 
Penelitian dan Statistik
Penelitian dan StatistikPenelitian dan Statistik
Penelitian dan StatistikOphyeDjamiManu
 
Metode statistik multivariat
Metode statistik multivariatMetode statistik multivariat
Metode statistik multivariatkartiko edhi
 
Regresi linear
Regresi linearRegresi linear
Regresi linearmery gita
 
Makalah model regresi dengan variabel terikat dummy
Makalah model regresi dengan variabel terikat dummyMakalah model regresi dengan variabel terikat dummy
Makalah model regresi dengan variabel terikat dummyAgung Handoko
 
19611180_Lathifah AP_Laporan 1.pdf
19611180_Lathifah AP_Laporan 1.pdf19611180_Lathifah AP_Laporan 1.pdf
19611180_Lathifah AP_Laporan 1.pdfLathifahAliyaPratiwi
 

Similar to PEMODELAN DATA CAR (20)

Laporan Pratikum analisis regresi linier sederhana
Laporan Pratikum analisis regresi linier sederhanaLaporan Pratikum analisis regresi linier sederhana
Laporan Pratikum analisis regresi linier sederhana
 
ANALISIS FAKTOR
ANALISIS FAKTORANALISIS FAKTOR
ANALISIS FAKTOR
 
18611088_LintangPuspita_Laporan1.pdf
18611088_LintangPuspita_Laporan1.pdf18611088_LintangPuspita_Laporan1.pdf
18611088_LintangPuspita_Laporan1.pdf
 
06 analisis faktor
06 analisis faktor06 analisis faktor
06 analisis faktor
 
11. BAB III(1).docx
11. BAB III(1).docx11. BAB III(1).docx
11. BAB III(1).docx
 
Hakikat dan Ruang Lingkup Ekonometrika
Hakikat dan Ruang Lingkup EkonometrikaHakikat dan Ruang Lingkup Ekonometrika
Hakikat dan Ruang Lingkup Ekonometrika
 
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
 
Analisis Faktor (2.2)
Analisis Faktor (2.2)Analisis Faktor (2.2)
Analisis Faktor (2.2)
 
Makalah regresi dan korelasi new
Makalah regresi dan korelasi newMakalah regresi dan korelasi new
Makalah regresi dan korelasi new
 
analisis-faktor
analisis-faktoranalisis-faktor
analisis-faktor
 
Makalah5 skala lkert ordinal, interval
Makalah5 skala lkert ordinal, intervalMakalah5 skala lkert ordinal, interval
Makalah5 skala lkert ordinal, interval
 
Teori dan konsep fungsi dalam ekonomi
Teori dan konsep fungsi dalam ekonomiTeori dan konsep fungsi dalam ekonomi
Teori dan konsep fungsi dalam ekonomi
 
Penelitian dan Statistik
Penelitian dan StatistikPenelitian dan Statistik
Penelitian dan Statistik
 
#1 ekomet
#1 ekomet#1 ekomet
#1 ekomet
 
Bab i
Bab iBab i
Bab i
 
Metode statistik multivariat
Metode statistik multivariatMetode statistik multivariat
Metode statistik multivariat
 
Regresi linear
Regresi linearRegresi linear
Regresi linear
 
Makalah model regresi dengan variabel terikat dummy
Makalah model regresi dengan variabel terikat dummyMakalah model regresi dengan variabel terikat dummy
Makalah model regresi dengan variabel terikat dummy
 
19611180_Lathifah AP_Laporan 1.pdf
19611180_Lathifah AP_Laporan 1.pdf19611180_Lathifah AP_Laporan 1.pdf
19611180_Lathifah AP_Laporan 1.pdf
 
STATISTIK MU7LTIFARIAT
STATISTIK MU7LTIFARIATSTATISTIK MU7LTIFARIAT
STATISTIK MU7LTIFARIAT
 

More from Indah Fitri Hapsari

Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based ...
Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based ...Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based ...
Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based ...Indah Fitri Hapsari
 
Analisis komponen utama (Principal Component Analysis)
Analisis komponen utama (Principal Component Analysis)Analisis komponen utama (Principal Component Analysis)
Analisis komponen utama (Principal Component Analysis)Indah Fitri Hapsari
 
Laporan kimia dasar ia termokimia
Laporan kimia dasar ia termokimiaLaporan kimia dasar ia termokimia
Laporan kimia dasar ia termokimiaIndah Fitri Hapsari
 

More from Indah Fitri Hapsari (6)

Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based ...
Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based ...Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based ...
Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based ...
 
Tugas regresi sas
Tugas regresi sasTugas regresi sas
Tugas regresi sas
 
Press dan satistik cp (regresi)
Press dan satistik cp (regresi)Press dan satistik cp (regresi)
Press dan satistik cp (regresi)
 
Analisis komponen utama (Principal Component Analysis)
Analisis komponen utama (Principal Component Analysis)Analisis komponen utama (Principal Component Analysis)
Analisis komponen utama (Principal Component Analysis)
 
Laporan kimia dasar ia termokimia
Laporan kimia dasar ia termokimiaLaporan kimia dasar ia termokimia
Laporan kimia dasar ia termokimia
 
Catatan Regresi linier
Catatan Regresi linierCatatan Regresi linier
Catatan Regresi linier
 

Recently uploaded

UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxzidanlbs25
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Shary Armonitha
 
Contoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningContoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningSamFChaerul
 
Instrumen Penelitian dalam pengukuran fenomena .pptx
Instrumen Penelitian dalam pengukuran fenomena .pptxInstrumen Penelitian dalam pengukuran fenomena .pptx
Instrumen Penelitian dalam pengukuran fenomena .pptxZhardestiny
 
PPT ANEMIA pada remaja maupun dewasapptx
PPT ANEMIA pada remaja maupun dewasapptxPPT ANEMIA pada remaja maupun dewasapptx
PPT ANEMIA pada remaja maupun dewasapptxsitifaiza3
 
Geologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdfGeologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdfAuliaAulia63
 
Menggunakan Data matematika kelas 7.pptx
Menggunakan Data matematika kelas 7.pptxMenggunakan Data matematika kelas 7.pptx
Menggunakan Data matematika kelas 7.pptxImahMagwa
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksdanzztzy405
 
393479010-POWER-POINT-MODUL-6-ppt.pdf. tugas
393479010-POWER-POINT-MODUL-6-ppt.pdf. tugas393479010-POWER-POINT-MODUL-6-ppt.pdf. tugas
393479010-POWER-POINT-MODUL-6-ppt.pdf. tugaslisapalena
 

Recently uploaded (9)

UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
 
Contoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningContoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data mining
 
Instrumen Penelitian dalam pengukuran fenomena .pptx
Instrumen Penelitian dalam pengukuran fenomena .pptxInstrumen Penelitian dalam pengukuran fenomena .pptx
Instrumen Penelitian dalam pengukuran fenomena .pptx
 
PPT ANEMIA pada remaja maupun dewasapptx
PPT ANEMIA pada remaja maupun dewasapptxPPT ANEMIA pada remaja maupun dewasapptx
PPT ANEMIA pada remaja maupun dewasapptx
 
Geologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdfGeologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdf
 
Menggunakan Data matematika kelas 7.pptx
Menggunakan Data matematika kelas 7.pptxMenggunakan Data matematika kelas 7.pptx
Menggunakan Data matematika kelas 7.pptx
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
 
393479010-POWER-POINT-MODUL-6-ppt.pdf. tugas
393479010-POWER-POINT-MODUL-6-ppt.pdf. tugas393479010-POWER-POINT-MODUL-6-ppt.pdf. tugas
393479010-POWER-POINT-MODUL-6-ppt.pdf. tugas
 

PEMODELAN DATA CAR

  • 1. PEMODELAN DATA CAR MENGGUNAKAN LOGISTIC REGRESSION LAPORAN TUGAS AKHIR SEMESTER MATA KULIAH GENERALIZED LINEAR MODEL MA 3283 Oleh: Indah Nurina Fitri Hapsari 10110094 PROGRAM STUDI MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI BANDUNG 2014
  • 2. DAFTAR ISI BAB I PENDAHULUAN……………………………………….…………………….....................................................1 1.1 Latar Belakang………………….........……………………………………………………………….……..... 1 1.2 Tujuan………………………….……..….…………………………..……………………….….........………....1 1.3 Sumber Data……………………...…….………………………………………………………………........... 1 1.4 Sistematika Penulisan...... ...…….………………….……………………………………….……………..1 BAB II LANDASAN TEORI…….………………………………...………………………………………………......…..………... 2 2.1 Jenis Variabel.………………………………………………………………………………………..….…….....2 2.1.1 Variabel Kategorikal..................................................................................2 2.1.2 Variabel Kontinu....................................................................................... 2 2.2 Generalized Linier Model (GLM)......………………………..………………………….….…………...2 2.2.1 Variabel.....................................................................................................3 2.2.2 Eksplorasi Data..........................................................................................3 2.2.3 Distribusi Keluarga Eksponensial.............................................................. 4 2.2.3.1 Distribusi Bernoulli sebagai Anggota Distribusi Keluarga Eksponensial.............................................................5 2.2.3.2 Penaksiran Parameter Distribusi Keluarga Eksponensial........ 5 2.2.4 Base level Variabel Kategorikal................................................................ 6 2.2.5 Link dan Canonical Link.............................................................................6 2.2.6 Pemodelan Menggunakan Logistic Regression.........................................7 2.2.6.1 Membangun Model Menggunakan Stepwise Regression....... 7 2.2.6.2 Membangun Model dengan Mempertimbangkan Faktor Eksposure............................................................................... 8 2.2.7 Tabel Klasifikasi dan ROC(Receiver Operating Characteristic).................. 8
  • 3. 2.2.8 Pemilihan Model.......................................................................................9 BAB III ANALISIS DAN HASIL PENELITIAN…………….……………………………....…………………………….…….... 10 3.1 Pemilihan Variabel Respon dan Prediktor Potensial………....................................... 10 3.2 Eksplorasi Data........................................................……………………...............….........11 3.3 Pemilihan Base level................................................................................................ 15 3.4 Pemodelan Menggunakan Logistic Regression........................................................16 3.4.1 Estimasi Parameter Distribusi Bernoulli....................................................17 3.4.2 Membangun Model Menggunakan Stepwise Regression.........................17 3.4.3 Membangun Model dengan Mempertimbangkan Faktor Exposure.........25 3.5 Pemilihan Model......................................................................................................26 BAB V KESIMPULAN DAN SARAN…......................................................................……………….............28 4.1 Kesimpulan................................................................................................ ............28 4.2 Saran........................................................................................................................ 28 LAMPIRAN
  • 4. 1 BAB I PENDAHULUAN 1.1 Latar Belakang Dari data yang penulis peroleh, penulis tertarik dengan fakta bahwa dengan mengetahui karakteristik calon pemegang polis saja, kita dapat mengetahui apakah calon pemegang polis tersebut nantinya akan mengajukan claim atau tidak. Data karakteristik yang diperlukan juga tergolong mudah untuk didapatkan. 1.2 Tujuan Menentukan model regresi terbaik untuk mengestimasi probabilitas seseorang dengan karakteristik tertentu untuk mengajukan claim. 1.3 Sumber Data Data yang digunakan adalah data dari buku Generalized linear model for Insurance Data, Piet de Jong and Gllian Z. Heller. Data yang diolah merupakan data asuransi kendaraan bermotor dengan jangka waktu satu tahun yang direkap pada tahun 2004 hingga 2005. Data asuransi terdiri dari 67856 polis, 4624 (6,8%) diantaranya memiliki setidaknya 1 claim. 1.4 Sistematika Penulisan Laporan ini terdiri dari empat bab. Bab pertama adalah bab pendahuluan yang terdiri dari latar belakang, tujuan penelitian, sumber data, dan sistematika penulisan. Bab kedua adalah bab landasan teori yang berisi teori-teori dasar yang dibutuhkan dalam proses pemodelan. Bab ketiga adalah bab analisis dan hasil penelitian yang berisi analisis dari proses pemodelan serta pemilihan model terbaik. Bab keempat berisi kesimpulan dan saran.
  • 5. 2 BAB II LANDASAN TEORI 2.1 Jenis Variabel 2.1.1 Variabel Kategorikal Variabel kategorikal merupakan variabel hitung yang tidak memenuhi sifat operasi aritmatik. Variabel kategorikal sering disebut sebagai variabel kualitatif. 1. Nominal Variabel nominal ialah variabel kategorikal yang nilainya tidak merepresentasikan urutan. Contoh dari variabel nominal ialah variabel yang memiliki 2 nilai, yaitu 0 dan 1, dimana 0 merepresentasikan laki-laki dan 1 merepresentasikan perempuan. 2. Ordinal Variabel ordinal ialan variabel kategorikal yang nilainya merepresentasikan urutan. Urutan pada variabel ordinal terjadi secara alamiah. Contoh dari variabel ordinal ialah tingkat luka yang dialami dalam kecelakaan (1: ringan, 2: sedang, dan 3: Berat). 2.1.2 Variabel Kontinu Variabel Kontinu merupakan variabel yang memiliki nilai-nilai yang terdapat dalam suatu selang/interval bilangan real. Contoh variabel kontinu adalah harga kendaran. 2.2 Generalized Linear Model (GLM) Generalized linear model(GLM) merupakan sebuah metode untuk menguantifikasi hubungan antara variabel respon (bebas) dengan variabel prediktor (terikat). Dengan menggunakan GLM, kita dapat menjelaskan bagaimana perubahan nilai dari variabel respon apabila terdapat perubahan dari variabel-variabel prediktornya. Dua hal yang harus diperhatikan dalam penggunaan GLM ialah: 1. Distribusi dari variabel respon merupakan anggota dari distribusi keluarga eksponensial. 2. Transformasi terhadap nilai mean dari variabel respon memiliki hubungan linear dengan variabel-variabel prediktornya. 𝑔 𝜇 = 𝑥′ 𝛽
  • 6. 3 2.2.1 Variabel Dalam melakukan regresi, terdapat 2 tipe variabel yang harus kita ketahui, yaitu: 1. Variabel Respon/Bebas Variabel respon ialah variabel yang kita pilih sebagai variabel yang akan diamati pergerakannya sebagai akibat dari pergerakan variabel- variabel lain. 2. Variabel Prediktor/Terikat Variabel prediktor ialah variabel-variabel yang perubahannya dapat memengaruhi nilai dari variabel respon. Variabel-variabel yang termasuk variabel prediktor umumnya diasumsikan menurut logika dari fakta yang terjadi (disebut juga variabel potensial), kemudian keberpengaruhan variabel-variabel tersebut terhadap variabel respon akan di cek pada proses seleksi variabel untuk mendapatkan model terbaik. 2.2.2 Eksplorasi Data Eksplorasi data merupakan sebuah metode untuk melihat hubungan antar variabel. Dengan menggunakan eksplorasi data, kita dapat melihat: 1. Hubungan antara variabel respon dengan variabel-variabel prediktor yang kita anggap potensial (perubahannya kemungkinan memiliki pengaruh terhadap nilai variabel respon). 2. Hubungan antara variabel-variabel prediktor yang kita anggap potensial. Eksplorasi data yang ditampilkan dapat berupa tabulasi maupun gambar grafik. Bentuk tampilan dari eksplorasi data bergantung pada jenis variabel (kontinu/kategorikal). 1. Kontinu dengan kontinu Hubungan antara 2 variabel kontinu dapat dilihat melalui gambar scatterplot kedua variabel. Sumbu Y umumnya memuat nilai-nilai dari variabel yang dipengaruhi, sedangkan sumbu X memuat nilai-nilai dari variabel yang memengaruhi. Scatterplot dapat juga memuat variabel ketiga yang berjenis kategorikal dengan cara memberikan warna-warna pada tiap tiap titik yang ada pada hasil scatterplot antara X dan Y. Scatterplot smoother seringkali digunakan untuk melihat hubungan antara variabel X dengan Y dimana hubungan tersebut mungkin tidak linier.
  • 7. 4 2. Kategorikal dengan kategorikal Untuk mengetahui hubungan antara variabel kategorikal dengan kategorikal, kedua variabel tersebut dimuat di dalam sebuah tabel frekuensi. Tabel frekuensi tersebut dapat diolah untuk mendapatkan peluang bersyarat serta mengetahui kebergantungan kedua variabel. Kebergantungan kedua variabel dapat diuji menggunakan uji Chi-squared dengan membandingkan nilai frekuensi serta expected frekuensi yang diperoleh dibawah asumsi independen. 3. Kontinu dengan kategorikal Untuk melihat hubungan antara variabel kontinu dengan variabel kategorikal, dapat digunakan boxplot. Selain itu, ketika variabel kategorikal bersifat binary, maka gambar scatterplot antara variabel kategorikal tersebut dengan suatu variabel kontinu dapat dilengkapi dengan scatterplot smoother untuk membantu memperlihatkan hubungan antar keduanya. 2.2.3 Distribusi Keluarga Eksponensial Distribusi yang termasuk ke dalam distribusi keluarga exponensial ialah distribusi yang memiliki fungsi peluang yang dapat dituliskan ke dalam bentuk 𝑓 𝑦 = 𝑐 𝑦, 𝜙 exp 𝑦𝜃 − 𝑎(𝜃) 𝜙 dimana 𝜃 disebut parameter kanonik, dan 𝜙 disebut parameter dispersi. Pemilihan 𝜃 dan fungsi 𝑎(𝜃) menentukan bentuk distribusi. Nilai mean dan variansi dari anggota distribusi eksponensial dapat dituliskan sebagai: 𝐸 𝑌 = 𝑎(𝜃) 𝑉𝑎𝑟 𝑌 = 𝜙𝑎(𝜃) dimana 𝑎(𝜃) ialah turunan pertama dari 𝑎(𝜃) terhadap 𝜃, dan 𝑎(𝜃) adalah turunan kedua dari 𝑎(𝜃) terhadap 𝜃. Untuk variabel respon berdistribusi keluarga eksponen, 𝑎 𝜃 = 𝛿𝑎(𝜃) 𝛿𝜃 = 𝛿𝜇 𝛿𝜃 = 𝑉 𝜇 , sehingga 𝑉𝑎𝑟 𝑦 = 𝜙𝑉(𝜇), dimana 𝑉(𝜇) disebut fungsi variansi yang memperlihatkan hubungan mean dengan variansi. Pada generalized linear model, nilai 𝜇 behubungan erat dengan variabel prediktor, sehingga nilai 𝜇 bervariasi sesuai dengan nilai variabel prediktor. Karena nilai 𝜇 bervariasi, maka variansi juga bervariasi melalui fungsi 𝑉(𝜇).
  • 8. 5 2.2.3.1 Distribusi Bernoulli Sebagai Anggota Distribusi Keluarga Eksponesial Misalkan Y berdistribusi B(1,π). Fungsi peluang dari Y ialah: 𝑃 𝑌 = 𝑦 = 𝜋 𝑦 (1 − 𝜋)1−𝑦 𝑦 = 0,1 𝜋 𝑦 1 − 𝜋 1−𝑦 = 𝜋 (1 − 𝜋) 𝑦 (1 − 𝜋) = 𝑒 𝑦 log 𝜋 (1−𝜋) +log (1−𝜋) sehingga, 𝑐 𝑦, 𝜙 = 1 𝜙 = 1 𝜃 = log 𝜋 1 − 𝜋 log 1 1 − 𝜋 = log 1 − 𝜋 + 𝜋 1 − 𝜋 = log 1 + 𝜋 1 − 𝜋 = log 1 + 𝜋 1 − 𝜋 = log 1 + 𝑒 𝜃 = 𝑎 𝜃 𝐸 𝑌 = 𝑎 𝜃 = 𝜋 𝑉 𝜇 = 𝑉𝑎𝑟(𝑌) 𝜙 = 𝜋(1 − 𝜋) 2.2.3.2 Penaksiran parameter distribusi keluarga eksponensial Misalkan 𝑌 merupakan variabel berdistribusi anggota keluarga eksponensial. Penaksiran parameter 𝜃 dan 𝜙 dari distribusi keluarga eksponensial didasarkan pada data. Penaksiran parameter dapat dilakukan melalui metode momen maupun metode maximum likelihood estimation. 1. Metode momen Ide dari metode momen ialah menaksir 𝜃 dan 𝜙 sedemikian sehingga nilai dari rata-rata dan variansi populasi sama dengan nilai rata-rata dan variansi sampel. 𝑎 𝜃 = 𝑦 dan 𝜙𝑎 𝜃 = 𝜎2 , dimana 𝑦 dan 𝜎2 adalah rata-rata dan variansi sampel.
  • 9. 6 2. Metode maximum likelihood estimation(MLE) Misalkan 𝑓(𝑦𝑖; 𝜃, 𝜙) merupakan fungsi peluang dari sebuah distribusi keluarga eksponensial, maka ℓ 𝜙, 𝜃 = ln 𝑐 𝑦𝑖, 𝜙 + 𝑦𝑖 𝜃 − 𝑎 𝜃 𝜙 𝑛 𝑖=1 = 𝑛 𝑦 𝜃 − 𝑎(𝜃) 𝜙 + ln 𝑐 𝑦𝑖, 𝜙 𝑛 𝑖=1 Untuk mencari MLE dari 𝜃, maka dicari nilai 𝜃 yang dapat memaksimumkan fungsi log likelihood. 𝛿ℓ 𝜙, 𝜃 𝛿𝜃 = 𝑛 𝑦 − 𝑎(𝜃) 𝜙 = 0 Sehingga diperoleh 𝑎 𝜃 = 𝑦. Maka MLE dari 𝜃 didapatkan dengan cara mencari nilai 𝜃, sedemikian sehingga 𝑎 𝜃 ≡ 𝜇 sama dengan 𝑦. Dapat dilihat bahwa dengan MLE, 𝜇 = 𝑦. Dapat disimpulkan bahwa taksiran 𝜇 menggunakan metode MLE sama dengan taksiran pada metode momen. 2.2.4 Base level Variabel Kategorikal Jika variabel prediktor yang digunakan merupakan variabel kategorikal, maka perlu dipilih suatu base level sebelum melakukan regresi. Base level merupakan dasar pengukuran yang digunakan untuk membandingkan level (kategori) lain yang termuat pada variabel kategorikal yang sama. Base level yang dipilih merupakan level(kategori) yang memiliki jumlah frekuensi terbanyak sehingga algoritma yang digunakan untuk menaksir parameter 𝛽 konvergen. 2.2.5 Link dan Canonical Link Telah dijelaskan sebelumnya, bahwa transformasi terhadap nilai mean dari variabel respon memiliki hubungan linear dengan variabel-variabel prediktornya. 𝑔 𝜇 = 𝑥′ 𝛽 Fungsi transformasi 𝑔 disebut dengan fungsi link. Fungsi ini menentukan bagaimana nilai mean berhubungan dengan variabel-variabel prediktor. Fungsi 𝑔 bersifat monoton dan differentiable. Apabila 𝑔 𝜇 = 𝜃, maka 𝑔 disebut canonical link. Pada kasus ini 𝜃 = 𝑥′ 𝛽. Pemilihan fungsi link bergantung kepada distribusi variabel respon. Berikut disajikan tabel yang memuat fungsi-fungsi link yang umum digunakan.
  • 10. 7 2.2.6 Pemodelan Menggunakan Logistic Regression Logistic Regression merupakan pemodelan regresi dimana variabel respon memiliki 2 kemungkinan kejadian (binary outcome). Fungsi link yang digunakan ialah fungsi logit 𝜇 1−𝜇 , sehingga: 𝑔 𝜇 = 𝜇 1 − 𝜇 = 𝑥′ 𝛽 𝜇 = 𝑒 𝑥′ 𝛽 1 + 𝑥′ 𝛽 2.2.6.1 Membangun Model Menggunakan Stepwise regression Dua proses paling penting yang dilakukan pada Stepwise regression ialah pemilihan variabel prediktor yang dimasukkan ke dalam model dan pemilihan variabel prediktor untuk dikeluarkan dari model. Untuk melakukan kedua proses tersebut, dibutuhkan uji signifikansi variabel prediktor. Untuk menguji signifikansi suatu variabel prediktor (kategorikal maupun kontinu), maka dilakukan uji hipotesis: 𝐻0: 𝐶𝛽 = 0 𝐻1: 𝐶𝛽 ≠ 0 Matriks 𝐶 merupakan matriks berukuran 𝑞 × 𝑝, dimana p merupakan jumlah parameter pada model apabila variabel yang ingin diuji telah dimasukkan ke dalam model dan q adalah jumlah parameter yang akan diuji. Matriks 𝛽 ialah matriks berukuran px1. Wald test merupakan salah satu uji yang dapat digunakan untuk menguji hipotesis diatas. Dibawah asumsi 𝐻0 , 𝛽~𝑁(𝛽, 𝜙(𝑋′ 𝑊𝑋)−1
  • 11. 8 dengan W ialah matriks diagonal dengan diagonal-diagonalnya berisi nilai [ 𝑔 𝜇𝑖 2 𝑉 𝜇𝑖 ]−1 . Sehingga, 𝐶𝛽 − 𝑟~𝑁(0, 𝜙𝐶 𝑋′ 𝑊𝑋 −1 𝐶′ Statistik wald yang digunakan untuk menguji 𝐶𝛽 = 0 ialah: (𝐶𝛽 − 𝑟)′ 𝜙𝐶(𝑋′ 𝑊𝑋)−1 𝐶′ 𝐶𝛽 − 𝑟 ~𝜒 𝑞 2 𝑞 merupakan jumlah parameter yang akan diuji signifikansinya. 𝐻0: 𝐶𝛽 = 0 akan ditolak apabilai nilai 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼. 2.2.6.2 Membangun Model dengan Mempertimbangkan Faktor Exposure Exposure(t) merupakan proporsi yang menunjukkan perbandingan jangka waktu polis yang terekspos terhadap jangka waktu polis yang seharusnya. Misalkan claim adalah variabel yang menunjukkan apakah seseorang mengajukan claim atau tidak. Misalkan seseorang memiliki peluang untuk mengajukan claim sebesar 𝜋. Apabila nilai eksposure kurang dari 1, peluang orang tersebut untuk mengajukan claim akan menjadi lebih kecil. Dengan mempertimbangkan nilai exposure, maka claim yang semula berdistribusi 𝐵(1, 𝜋) akan berdistribusi 𝐵(1, 𝑡𝜋), dengan 0 < 𝑡 ≤ 1. Kita definisikan 𝜋∗ = 𝑡𝜋, karena 𝜇 = 𝜋 maka model regres logistik menjadi: 𝑙𝑛 𝜋∗ /𝑡 1 − 𝜋∗/𝑡 = 𝑥′ 𝛽 𝜋∗ = 𝑡 𝑒 𝑥′ 𝛽 1 + 𝑥′ 𝛽 2.2.7 Tabel Klasifikasi dan ROC (Receiver Operating Characteristic) Tabel klasifikasi ialah salah satu metode untuk melihat performa suatu model dari regresi logistik. Nilai taksiran probabilitas 𝜋𝑖 untuk setiap kasus i diklasifikasikan dalam “event” dan “non-event” berdasarkan nilai threshold yang kita pilih. Hasil dari tabel klasifikasi yang berukuran 2x2 mampu membandingkan antara kejadian yang memang terjadi dengan hasil prediksi. Kemampuan suatu model untuk memprediksi dapat diklasifikasikan ke dalam 2 ukuran: 1. Sensitivity, yaitu nilai yang merupakan frekuensi relatif dari memprediksi suatu kejadian yang terjadi ketika kejadian tersebut memang terjadi.
  • 12. 9 2. Specifycity, yaitu nilai yang merupakan frekuensi relatif dari memprediksi suatu kejadian yang tidak terjadi ketika kejadian tersebut memang tidak terjadi. Jika nilai threshold yang dipilih ialah 0, maka nilai sensitivity=0 dan nilai specificity=1. Kedua ukuran tersebut dapat digambarkan dalam suatu grafik (ROC curve), dimana sumbu x merupakan (1-specificity) dan sumbu y merupakan ukuran sensitivity. Karena merupakan frekuensi relatif, nilai maksimum dari Sensitivity dan Specifycity ialah 1. Grafik ROC selalu bermula dari titik (0,0) dan berakhir pada titik (1,1). Semakin cepat grafik menuju 1 maka semakin baik kemampuan model dalam memprediksi. Kemampuan suatu model dalam memprediksi juga dapat kita lihat melalui luas dibawah kurva ROC(Area Under Curve). Semakin luas kurva, semakin baik kemampuan model dalam memprediksi. 2.2.8 Pemilihan Model Pemilihan model untuk regresi logistik dapat dilakukan dengan melihat nilai AIC yang didefinisikan sebagai: 𝐴𝐼𝐶 = −2ℓ + 2𝑝 Suatu taksiran yang baik tentunya akan memiliki nilai log likelihood yang besar, sehingga nilai −2ℓ kecil. Model yang baik ialah model yang tidak mengandung terlalu banyak parameter. Sehingga dapat disimpulkan bahwa semakin baik model, nilai AIC akan semakin kecil. Jika nilai pengurangan AIC tidak begitu besar, kemungkinan terdapat parameter yang tidak signifikan, sehingga dibutuhkan uji untuk tiap-tiap parameter yang ada. Selain melihat dari nilai AIC, kita juga melihat dari nilai AUC(Area Under Curve) dari grafik ROC. Semakin besar area, semakin baik kemampuan model dalam memprediksi.
  • 13. 10 BAB III ANALISIS DAN HASIL PENELITIAN 3.1 Pemilihan Variabel Respon dan Prediktor Potensial Sesuai dengan tujuan yang telah penulis paparkan, yaitu untuk menentukan model regresi terbaik yang dapat mengestimasi probabilitas seseorang dengan karakteristik tertentu untuk mengajukan claim, maka variabel respon yang dipilih ialah variabel clm yang menyatakan apakah seseorang mengajukan claim atau tidak (Data asuransi yang diperoleh bukan merupakan data asuransi yang bersifat group pada masing-masing polisnya). Variabel clm termasuk ke dalam variabel kategorikal. Variabel claim memiliki binary outcome dengan 0: tidak mengajukan claim 1: mengajukan claim Variabel prediktor yang penulis anggap memiliki pengaruh terhadap variabel respon yang telah dipilih ialah: 1. Veh_value : Vehicle value (harga kendaraan) Merupakan variabel kontinu yang menyatakan harga kendaraan dalam satuan 10,000 dolar. 2. Veh_body : Vehicle body (tipe badan kendaraan) Merupakan variabel kategorikal dengan 13 kategori, yaitu  BUS  CONVT = convertible  COUPE  HBACK = hatchback  HDTOP = hardtop  MCARA = motorized caravan  MIBUS = minibus  PANVN = panel van  RDSTR = roadster  SEDAN  STNWG = station wagon  TRUCK  UTE - utility
  • 14. 11 3. Area : Area tempat tinggal pengemudi Merupakan variabel kategorikal yang terdiri dari 6 kategori area yaitu A, B, C, D, E, dan F. 4. Agecat : Kategori usia pengemudi Merupakan variabel kategorikal yang terdiri dari 6 kategori usia yaitu 1, 2, 3, 4, 5, dan 6 3.2 Eksplorasi Data 1. Veh_value (vehicle value/harga kendaraan) Dapat dilihat bahwa nilai mean lebih besar dibanding nilai median. Nilai mean bersifat tidak robust sehingga mudah mengalami pergeseran apabila terdapat nilai yang besar. Dapat disimpulkan bahwa terdapat beberapa kendaraan dalam data suransi yang memiliki harga tinggi. Hal ini juga dapat dilihat dari histogram harga kendaraan yang memiliki ekor di bagian kanan. Boxplot dari occurence of claim dengan vehicle value (harga kendaraan) memperlihatkan bahwa pemegang polis yang tidak mengajukan claim memiliki harga kendaraan yang variansinya lebih besar. Pemegang polis dengan harga kendaraannya tergolong mahal terletak pada boxplot claim kategori 0, yang mengindikasikan bahwa mobil yang mahal kemungkinan lebih jarang rusak.
  • 15. 12 Dari gambar scatterplot yang dilengkapi dengan hasil scatterplot smoother diatas, dapat dilihat bahwa harga kendaraan tidak berhubungan secara linear dengan variabel clm. Hubungan keduanya kemungkinan bersifat kuadratik atau kibik. Namun, setelah dilakukan regresi polinomial derajat 2 dan derajat 3 dengan variabel respon clm dan variabel prediktor veh_value, keduanya kurang cocok. Regresi polinomial derajat 2 menunjukkan bahwa regresi tidak cocok untuk data nilai kendaraan yang besar, sehingga perlu dilakukan banding. Banding ialah mengategorikan variabel kontinu. Kita definisikan variabel baru yaitu valuecat, dimana valuecat merupakan hasil banding dari variabel veh_value. Selang yang dipilih dapat dilihat pada tabel berikut. Hasil dari banding pada grafik scatterplot diatas menunjukkan bahwa variabel valuecat lebih cocok dibanding dengan hasil regresi polinomial yang telah dipaparkan sebelumnya, sehingga variabel valuecat akan digunakan sebagai variabel prediktor menggantikan variabel veh_value. Clm valuecat(valuecategory) 1 2 3 4 5 6 0 0,756529 0,155476 0,017287 0,001474 0,000619 0,000472 1 0,053584 0,013101 0,001356 5,89E-05 2,95E-05 1,47E-05
  • 16. 13 Tabel kontingensi diatas menunjukkan bahwa peluang pemegang polis yang memiliki kendaraan dengan harga kurang dari $25,000 untuk tidak mengajukan claim paling besar. Dapat dilihat pada diagram batang di atas bahwa sebagian besar pemegang polis memiliki harga kendaraan dibawah $25,000. 2. Veh_body (Tipe badan kendaraan) Diagram batang diatas menunjukkan bahwa sebagian besar pemegang polis memiliki kendaraan sedan.
  • 17. 14 3. Agecat (Age category/kategori usia) d Diagram batang di atas menunjukkan bahwa pemegang polis sebagian besar berada pada kategori usia ke 4. Clm Age category 1 2 3 4 5 6 0 0,077311 0,176005 0,215957 0,222309 0,149169 0,091105 1 0,00731 0,013735 0,016402 0,01627 0,009049 0,005379 Tabel kontingensi diatas menunjukkan bahwa peluang pemegang polis dengan kategori usia 4 yang tidak mengajukan claim cukup besar.
  • 18. 15 4. Area (Area tempat tinggal pengemudi) Diagram batang diatas menunjukkan bahwa pemegang polis paling banyak berdomisili di area C. Clm Area A B C D E F 0 0,224402 0,182386 0,281891 0,113137 0,081437 0,048603 1 0,01599 0,014221 0,020809 0,00731 0,005689 0,004126 Tabel kontingensi diatas menunjukkan bahwa peluang pemegang polis dengan kategori area C yang tidak mengajukan claim cukup besar. 3.3 Pemilihan Base level Keempat variabel prediktor yang akan digunakan merupakan variabel kategorikal, sehingga perlu dilakukan pemilihan base level serta pembuatan variabel dummy. Pemilihan base level didasarkan pada level yang memiliki jumlah frekuensi terbesar, sehingga algoritma untuk mencari 𝛽 konvergen. Agecat 1 2 3 4 5 6 5742 12875 15767 16189 10736 6547 Area A B C D E F 16312 13341 20540 8173 5912 3578 veh_body BUS CONVT COPUE HBACK HDTOP MCARA MIBUS 48 81 780 18915 1579 127 717 PANVN RDSTR SEDAN STNWG TRUCK UTE 752 27 22233 16261 1750 4586 Valuecat 1 2 3 4 5 6
  • 19. 16 54971 11439 1265 104 44 33 Dari tabel frekuensi diatas, maka dipilih agecat kategori 4 sebagai base level dari variabel agecat, area C sebagai base level dari variabel area, Tipe badan mobil sedan sebagai base level dari variabel veh_body, dan valuecat kategori 1 sebagai base level dari variabel valuecat. Misalkan sebuah variabel kategorikal memiliki r level, maka dibutuhkan variabel dummy sebanyak r-1 variabel. Variabel dummy dibentuk dari level-level yang bukan merupakan base level. Contohnya, untuk variabel agecat, terdapat r = 6 level. Base level yang telah dipilih ialah variabel agecat kategori 4, sehingga variabel dummy yang terbentuk ialah: 𝑎𝑔𝑒𝑐𝑎𝑡1 1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 1 0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎 𝑎𝑔𝑒𝑐𝑎𝑡2 1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 2 0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎 𝑎𝑔𝑒𝑐𝑎𝑡3 1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 3 0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎 𝑎𝑔𝑒𝑐𝑎𝑡5 1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 5 0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎 𝑎𝑔𝑒𝑐𝑎𝑡6 1, 𝑘𝑒𝑡𝑖𝑘𝑎 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑡𝑒𝑟𝑚𝑎𝑠𝑢𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 𝑢𝑠𝑖𝑎 6 0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎 Apabila pemegang polis memiliki usia pada kategori 4, maka nilai dari masing- masing variabel dummy diatas ialah 0. Untuk variabel kategorikal lainnya, pembuatan variabel dummy dilakukan dengan cara yang serupa, sehingga jumlah variabel dummy untuk seluruh variabel prediktor yang ada ialah 27 variabel. 3.4 Pemodelan Menggunakan Logistic Regression Variabel respon yang telah dipilih, yaitu clm memiliki binary outcome sehingga sangat cocok dengan sifat dari distribusi bernoulli, yaitu hanya memiliki 2 kemungkinan kejadian yang saling lepas. Dapat disimpulkan bahwa variabel clm berdistribusi 𝐵(1, 𝜋), dengan nilai 𝜋 dipilih sebagai probabilitas seseorang untuk mengajukan claim. Variabel respon yang dipilih berdistribusi bernoulli, sehingga dipilih link logit 𝑙𝑛 𝜇 1−𝜇 sebagai link kanonik. Untuk distribusi bernoulli, nilai 𝜇 = 𝜋, sehingga dengan variabel-variabel dummy yang telah didefinisikan, model regresi dengan prediktor potensial menjadi: 𝑙𝑛 𝜋 1−𝜋 = 𝛽0 + 𝛽1 𝑎𝑔𝑒𝑐𝑎𝑡1 + 𝛽2 𝑎𝑔𝑒𝑐𝑎𝑡2 + 𝛽3 𝑎𝑔𝑒𝑐𝑎𝑡3 + 𝛽4 𝑎𝑔𝑒𝑐𝑎𝑡5 … + 𝛽27 𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6
  • 20. 17 Link logit diatas menjamin bahwa nilai 𝜋 akan berada pada interval [0,1]. Hal ini dapat dilihat pada penjelasan berikut: Misal 𝑙𝑛 𝜋 1 − 𝜋 = 𝑥′ 𝛽 maka 𝜋 = 𝑒 𝑥′ 𝛽 1 + 𝑒 𝑥′ 𝛽 sehingga nilai 𝜋 akan berada pada interval [0,1] untuk semua 𝑥 dan 𝛽. 3.4.1 Estimasi Parameter Distribusi Bernoulli Sesuai dengan metode estimasi parameter yang telah dijelaskan pada bab landasan teori, maka: 𝜇 = 𝜋 = 𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑑𝑎𝑟𝑖 𝑐𝑙𝑚 = 𝑗𝑢𝑚𝑙𝑎𝑕 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑔𝑎𝑗𝑢𝑘𝑎𝑛 𝑐𝑙𝑎𝑖𝑚 𝑗𝑢𝑚𝑙𝑎𝑕 𝑡𝑜𝑡𝑎𝑙 𝑝𝑒𝑚𝑒𝑔𝑎𝑛𝑔 𝑝𝑜𝑙𝑖𝑠 = 4624 67856 = 0.068 Berbeda dengan 𝜋 yang didapatkan dari hasil regresi, nilai estimasi disini tidak mempertimbangkan hubungan dengan prediktor. 3.4.2 Membangun Model Menggunakan Stepwise regression Regresi dengan menggunakan metode stepwise regression diperoleh menggunakan software SAS. Regresi dengan metode ini algoritma software SAS dapat dilihat di bagian lampiran. Untuk mempersingkat penjelasan, penulis hanya akan memuat hasil regresi pada step 0, 1, dan kesimpulan dari proses regresi.
  • 21. 18 Maksud dari Probability modeled is clm=’1’ ialah bahwa kita memilih parameter 𝜋 sebagai peluang bahwa clm bernilai 1 (peluang pemegang polis mengajukan claim).
  • 22. 19 Tabel diatas menunjukkan informasi base level yang telah kita pilih. base level yang kita pilih memuat nilai 0 pada setiap cell-nya. STEP 0-intercept entered Tabel diatas mengindikasikan bahwa algoritma estimasi parameter 𝛽 konvergen, sehingga nilai 𝛽 dapat diperoleh. Tabel diatas menunjukkan proses pemilihan variabel untuk dimasukkan ke dalam model. Program SAS menggunakan uji score chi-square atau sering disebut Lagrange Multiplier untuk menguji apakah suatu variabel signifikansi untuk dimasukkan ke dalam model. Sebagai contoh, untuk mengetahui apakah variabel agecat signifikan untuk dimasukkan ke dalam model yang telah didapat (hanya memuat parameter intercept yaitu 𝛽0 ), maka dilakukan uji hipotesis: 𝐻0: 𝐶𝛽 = 0 𝐻1: 𝐶𝛽 ≠ 0 Dengan 𝐶 = 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 𝛽 = 𝛽0 𝛽1 𝛽2 𝛽3 𝛽4 𝛽5
  • 23. 20 Ingat bahwa variabel agecat merupakan variabel kategorikal. Variabel agecat terdiri dari 6 level, sehingga menguji apakah variabel agecat signifikan sama saja dengan menguji apakah 𝛽1, 𝛽2, 𝛽3, 𝛽4, dan 𝛽5 signifikan. Matriks C merupakan matriks berukuran qxp dimana p merupakan jumlah parameter pada model regresi apabila variabel yang ingin diuji telah dimasukkan ke dalam model, dan q adalah jumplah parameter yang akan diuji. Matriks 𝛽 berukuran px1. 𝐻0 ditolak apabila nilai 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼. Nilai 𝛼 yang penulis pilih ialah 0.05. 𝐻0 ditolak mengindikasikan bahwa variabel tersebut signifikan untuk dimasukkan ke dalam model. Karena nilai p-value dari masing-masing variabel kurang dari 𝛼, kita pilih nilai p-value yang paling kecil. Dapat dilihat bahwa nilai p-value untuk variabel agecat dan veh_body hampir sama. Oleh karena itu, kita pilih variabel yang memiliki score chi-square yang terbesar, sehingga variabel agecat dimasukkan ke dalam model. STEP 1-Agecat entered Nilai AIC yang semakin kecil menunjukkan bahwa model semakin baik. Dapat dilihat bahwa nilai AIC model yang memuat variabel agecat sebagai prediktor/kovariat lebih kecil dariapada apabila model hanya memuat 𝛽0 (intercept), sehingga model yang memuat agecat sebagai prediktor lebih baik. Ketiga tes diatas dilakukan untuk menguji: 𝐻0: 𝐶𝛽 = 0 𝐻1: 𝐶𝛽 ≠ 0 Dengan
  • 24. 21 𝐶 = 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 𝛽 = 𝛽0 𝛽1 𝛽2 𝛽3 𝛽4 𝛽5 Dengan kata lain, uji Global Null hipotesis menguji apakah model yang hanya memuat intercept (𝛽0) lebih baik atau tidak. Tes diatas digunakan untuk menguji signifikansi masing-masing variabel yang telah termuat di dalam model terbaru. Nilai estimasi parameter untuk 𝛽0, 𝛽1, 𝛽2, 𝛽3, 𝛽4, dan 𝛽5 termuat pada kolom estimate pada tabel diatas. Hasil regresi pada step 1 yang diperoleh ialah: 𝑙𝑛 𝜋 1 − 𝜋 = −2.6148 + 0.2565 𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.0642 𝑎𝑔𝑒𝑐𝑎𝑡2 + 0.0371 𝑎𝑔𝑒𝑐𝑎𝑡3 − 0.1876 𝑎𝑔𝑒𝑐𝑎𝑡5 − 0.2146 𝑎𝑔𝑒𝑐𝑎𝑡6 Wald Chi-square digunakan untuk menguji signifikansi masing-masing parameter didalam model. Terdapat nilai p-value yang cukup besar, namun parameter yang memiliki p-value yang cukup besar ialah parameter yang merupakan parameter dari variabel-variabel dummy. Tes terhadap variabel- variabel dummy yang termuat dalam satu variabel kategorikal harus dilakukan secara bersamaan, bukan secara individual.
  • 25. 22 Odd ratio estimate didefinikan sebagai: 𝜋 (1 − 𝜋) Nilai ini menunjukkan proporsi dari peluang kejadian dibanding peluang tidak terjadinya sebuah kejadian (event). Misal untuk baris agecat 1vs4, ketika seseorang termasuk pada kategori usia pertama, maka: 𝑙𝑛 𝜋 1 − 𝜋 = −2.6148 + 0.2565 ∗ 1 + 0.0642 ∗ 0 + 0.0371 ∗ 0 − 0.1876 ∗ 0 − 0.2146 ∗ 0 𝑙𝑛 𝜋 1 − 𝜋 = −2.6148 + 0.2565 𝜋 1 − 𝜋 = 𝑒−2.6148 𝑒0.2565 = 1.292 𝑒−2.6148 Apabila seseorang berada pada kategori usia 4(base level), maka: 𝑙𝑛 𝜋 1 − 𝜋 = −2.6148 𝜋 1 − 𝜋 = 𝑒−2.6148 Dapat disimpulkan bahwa untuk model yang diperoleh pada step 1, apabila seseorang termasuk kategori usia pertama, maka nilai dari odd ratio nya merupakan 1.292 kali lipat dari odd ratio apabila seseorang termasuk kategori usia 4(base level).
  • 26. 23 Tes diatas digunakan untuk mengetes signifikansi masing-masing variabel apabila model terbaru sudah didapatkan. Apabila suatu variabel yang sebelumnya signifikan, dan setelah variabel lain masuk menjadi tidak signifikan, maka variabel yang tidak signifikan akan dikeluarkan dari model. Tabel diatas menunjukkan uji signifikansi masing-masing variabel apabila variabel tersebut dianggap telah masuk ke dalam model terbaru. Uji ini dilakukan untuk memilih variabel mana yang signifikan untuk dimasukkan ke dalam model. Nilai p-value terkecil dimiliki oleh variabel veh_body, sehingga veh_body merupakan variabel yang cukup signifikan untuk dimasukkan ke dalam model yang telah diperoleh sebelumnya. Proses akan berlangsung hingga tidak ada variabel yang signifikan untuk dimasukkan ke dalam model. Berikut rangkuman dari proses stepwise regression. Kolom Pr>ChiSq menunjukkan nilai p-value saat variabel dimasukkan ke dalam model.
  • 27. 24 Tes diatas digunakan untuk menguji masing-masing variabel pada model regresi terakhir yang telah didapat, yaitu model yang memuat keempat variabel. Misalkan akan diuji signifikansi variabel valuecat. Ingat bahwa variabel valuecat merupakan variabel kategorikal. Variabel valuecat terdiri dari 5 level, sehingga menguji apakah variabel agecat signifikan sama saja dengan menguji apakah 𝛽23, 𝛽24, 𝛽25, 𝛽26, dan 𝛽27 signifikan (Perhatikan urutan parameter). Dilakukan uji hipotesis: 𝐻0: 𝐶𝛽 = 0 𝐻1: 𝐶𝛽 ≠ 0 dengan C merupakan matriks berukuran 5x28, yaitu 𝐶 = 0 0 0 : : : : : : … 1 0 … 0 1 … 0 0 0 0 0 0 0 0 1 0 0 : : : 0 0 0 … 0 0 … 0 0 0 1 0 0 0 1 dan 𝛽 matriks berukuran 28x1. Model yang diperoleh dari hasil stepwise regression ialah: 𝑙𝑛 𝜋 1 − 𝜋 = −2.6199 + 0.2614𝑎𝑔𝑒𝑐𝑎𝑡1 + ⋯ − 0.7779 𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6
  • 28. 25 Terlihat bahwa nilai AUC(Area Under Curve) naik untuk setiap step dalam regresi, hal ini mengindikasikan bahwa kemampuan model pada setiap step untuk memprediksi terus membaik. Artinya nilai specificity dan sensitivity terus meningkat. Berikut tabel klasifikasi dengan nilai threshold 0.08. Nilai sensitivity dan specificity diperoleh dari: 𝑠𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡 + 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑒𝑣𝑒𝑛𝑡 + 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑛𝑜𝑛 𝑒𝑣𝑒𝑛𝑡 3.4.3 Membangun Model dengan Mempertimbangkan Faktor Exposure Didefiniskan fungsi link dan fungsi inverse link 𝑙𝑛 𝜋∗ /𝑡 1 − 𝜋∗/𝑡 𝑡 𝑒 𝑥′ 𝛽 1 + 𝑥′ 𝛽 dengan t menotasikan nilai eksposure. Berikut hasil regresi yang diperoleh dari program SAS. Penjelasan dari proses regresi yang serupa tidak dibahas kembali.
  • 29. 26 LR statistik for type 3 analysis merupakan alat untuk menguji signifikansi masing-masing variabel pada model regresi yang telah didapatkan. Model regresi yang didapatkan ialah: 𝑙𝑛 𝜋 1 − 𝜋 = −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2 + ⋯ − 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6 3.5 Pemilihan Model Pemilihan model didasarkan pada nilai AIC terkecil serta nilai AUC terbesar. Nilai AIC untuk hasil stepwise regression tanpa mempertimbangkan nilai exposure ialah 33680, 356. Sedangkan dengan mempertimbangkan nilai exposure, model yang didapatkan memiliki nilai AIC 32549,5279. Artinya model dengan mempertimbangkan faktor exposure dapat dibilang lebih baik.
  • 30. 27 Dapat dilihat dari kurva ROC diatas, kurva ROC dari model yang memuat faktor exposure lebih condong ke bagian kiri atas dari grafik. Hal ini mengindikasikan bahwa model lebih baik. Dapat dilihat pada tabel klasifikasi bahwa nilai specificity dari model yang memuat faktor exposure lebih kecil. Namun perbedaan ini tidak begitu signifikan dibanding dengan perbedaan nilai dari sensitivity, dimana nilai sensitivity untuk model yang memuat faktor exposure lebih tinggi. Sensitivity didefinisikan sebagai frekuensi relatif dari memprediksi sebuah kejadian (claim) ketika kejadian tersebut terjadi. Sedangkan specificity didefinisikan sebagai frekuensi relatif dari memprediksi tidak terjadinya sebuah kejadian ketika kejadian (claim)tersebut memang tidak terjadi. Pihak asuransi tentunya lebih menginginkan nilai sensitivity yang tinggi dibanding nilai dari specificity. Oleh karena itu model yang dipilih ialah model yang memuat faktor exposure, yaitu: 𝑙𝑛 𝜋 1 − 𝜋 = −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2 + ⋯ − 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6 Tanpa Exposure Dengan Exposure
  • 31. 28 BAB IV KESIMPULAN DAN SARAN 4.1 Kesimpulan Regresi terbaik yang diperoleh ialah regresi yang mempertimbangkan faktor eksposure dengan prediktor valuecat (kategoriharga kendaraan), agecat(kategori usia), area(area tempat tinggal pengemudi), dan veh_body (Tipe badan mobil). Model regresi yang diperoleh ialah 𝑙𝑛 𝜋 1−𝜋 = −1.7856 + 0.3236𝑎𝑔𝑒𝑐𝑎𝑡1 + 0.1003𝑎𝑔𝑒𝑐𝑎𝑡2 + ⋯ − 0.7972𝑣𝑎𝑙𝑢𝑒𝑐𝑎𝑡6 4.2 Saran Penulis belum memasukkan semua variabel potensial yang terdapat pada data, sehingga regresi yang lebih baik mungkin akan didapatkan apabila variabel prediktor lain dimasukkan pada proses seleksi variabel dengan mempertimbangkan faktor exposure.
  • 32. 29
  • 33. LAMPIRAN */import dataa; PROC IMPORT DATAFILE="D:JEScar.csv" OUT =car REPLACE; getnames=yes; RUN; *_______________________________statistika deskriptif; */histogram dari value_cat; PROC UNIVARIATE data=car2; histogram veh_value; run; */boxplot veh_value dengan claim; title "Box Plots"; proc sgplot data=car; vbox veh_value / category=clm; label clm="occurence of claim 0=No 1=Yes"; label veh_value="Vehicle value in $10,000s"; run; */scatterplot veh_value dengan claim title "scatterplot"; proc sgplot data=car; scatter x=veh_value y=clm; label clm="occurence of claim 0=No 1=Yes"; label veh_value="Vehicle value in $10,000s"; run; ods graphics on; proc loess data=car; model clm = veh_value; run; ods graphics off; */Banding variable untuk variabel veh_value; DATA car2; SET car; areas=area; drop numclaims claimcst0 veh_age gender _OBSTAT_ area; valuecat = .; IF (veh_value<=2.5) THEN valuecat = 1; IF (2.5<veh_value<=5) THEN valuecat = 2; IF (5<veh_value<=7.5) THEN valuecat = 3; IF (7.5<veh_value<=10) THEN valuecat = 4; IF (10<veh_value<=12.5) THEN valuecat = 5; IF (veh_value>12.5) THEN valuecat = 6; RUN; */valuecat; PROC GCHART DATA=car2; VBAR valuecat/NAME="Value Category" TYPE=FREQ MAXIS=AXIS1 MIDPOINTS= 1 to 6 by 1; label valuecat="valuecat(value category)"; run; */valuecat; PROC GCHART DATA=car; VBAR agecat/NAME="Age Category" TYPE=FREQ MAXIS=AXIS1 MIDPOINTS= 1 to 6 by 1;
  • 34. label agecat="age category"; run; PROC GCHART DATA=car; VBAR area/NAME="Area" TYPE=FREQ MAXIS=AXIS1; label area="Area"; run; PROC GCHART DATA=car; VBAR veh_body/NAME="veh_body" TYPE=FREQ MAXIS=AXIS1; label veh_body="veh_body(vehicle body)"; run; */________________________________________without exposure; %include "D:JESroc.sas"; ods graphics on; proc logistic data=work.car2 plots(only)=roc(id=obs); class agecat(ref="4") areas(ref="C") veh_body(ref="SEDAN") valuecat(ref="1") / param=ref; model clm (event="1")= agecat areas veh_body valuecat / selection=stepwise scale=none clparm=wald clodds=pl rsquare details lackfit ctable pprob=0.08 outroc=work.outcar2 ; output out=pred p=phat lower=lcl upper=ucl predprob=(individual crossvalidate); run; ods graphics off; %roc(data=pred, var=phat,response=clm) */___________________________________________with exposure; %include "D:JESroc.sas"; proc genmod data=work.car2 descending; class agecat(ref="4") areas(ref="C") veh_body(ref="SEDAN") valuecat(ref="1") / param=ref; model clm = agecat areas veh_body valuecat / dist=bin type3 ; */link; fwdlink link=log((_MEAN_/exposure)/(1-(_MEAN_/exposure))); invlink ilink=exposure*exp(_XBETA_)/(1+exp(_XBETA_)); output out=work.car2 p=fit; run; %roc(data=work.car2, var=fit2,response=clm) ods graphics on; proc logistic data=work.car2 plots(only)=roc(id=obs); model clm(event="1")=fit/ scale=none clparm=wald clodds=pl rsquare
  • 35. ctable pprob=0.08 outroc=work.outcar2 ; run; ods graphics off;