Dokumen ini menjelaskan tentang kompetisi penggalian data Gemastik 2011 yang berfokus pada persetujuan kredit. Peserta diminta membangun model klasifikasi untuk memprediksi apakah nasabah akan disetujui atau ditolak berdasarkan 15 atribut yang terdiri dari tipe data kontinu, nominal dengan nilai sedikit dan banyak, serta nilai missing, menggunakan data latih sebanyak 416 baris dan data uji 274 baris.
1. Soal Babak Penyisihan Kompetisi Penggalian Data – Gemastik 4 Tahun 2011
Persetujuan Kredit
Dataset ini berisi data aplikasi persetujuan kredit dari Bank ‘X’. Untuk menentukan persetujuan
pengeluaran kredit, pihak bank mempertimbangkan beberapa faktor yang berkaitan dengan oleh
seorang nasabah. Dalam dataset ini terdapat beberapa macam tipe data atribut berupa kontinu,
nominal dengan nilai sedikit, dan juga nominal dengan nilai banyak. Dalam data set ini juga ada
beberapa nilai yang hilang (missing value). Buatlah sebuah model klasifikasi dengan menggunakan
dataset ini.
Jumlah data :
Training : 416 data.
Testing : 274 data.
Jumlah atribut :
15 atribut.
1 kelas atribut.
Informasi atribut :
X1 : 1, 2. Tipe data nominal.
X2 : Tipe data kontinu.
X3 : Tipe data kontinu.
X4 : 1, 2, 3, 4. Tipe data nominal.
X5 : 1, 2, 3. Tipe data nominal
X6 : 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14. Tipe data nominal.
X7 : 1, 2, 3, 4, 5, 6, 7, 8, 9. Tipe data nominal.
X8 : Tipe data kontinu.
X9 : 1, 2. Tipe data nominal.
X10 : 1, 2. Tipe data nominal.
X11 : Tipe data kontinu.
2. X12 : 1, 2. Tipe data nominal.
X13 : 1, 2, 3. Tipe data nominal.
X14 : Tipe data kontinu.
X15 : Tipe data kontinu.
X16 : SETUJU, TOLAK (kelas atribut)
Pihak Bank 'X' membutuhkan bantuan anda untuk memutuskan apakah nasabah-nasabah yang datanya
digunakan sebagai data testing tersebut bisa disetujui pengajuan kreditnya atau ditolak.
Pada babak penyisihan, para peserta lomba diminta memprediksi keputusan pengajuan kredit pada data
testing. Selanjutnya di babak final, para finalis diminta menjelaskan bagaimana cara memprediksi
(pemodelan) dan juga menjelaskan pola yang ada pada data. Data yang digunakan pada babak
penyisihan dan final adalah data yang sama.
Jawaban pada babak penyisihan maupun final ditulis dalam bentuk Makalah dengan format sesuai TOR
yang ada pada website Gemastik 2011 dilengkapi dengan hasil prediksi dari data testing.