1. KNIT-2 Nusa Mandiri ISBN: 978-602-72850-1-9
97
PENERAPAN PARTICLE SWARM OPTIMIZATION UNTUK SELEKSI
ATIRBUT PADA METODE DECISION TREE C 4.5 UNTUK PERSETUJUAN
Andika Dwi Hadiri
Teknik Informatika, STMIK ERESHA
Jl. H Samali No 51, Kalibata Jakarta Selatan
dwihadiriandika@gmail.com
ABSTRACT:
The credit freeze is one of the credit risk faced by the financial and banking industry. Improved
accuracy of credit ratings can be done by doing the selection of attributes, because the selection of
attributes reduce the dimensionality of the data so that operation of the data mining algorithms can
be run more effectively and more quickly. In this study will be used method Decision Tree
algorithm C4.5 and will be selected attributes using particle swarm optimization to determine
credit ratings. With this decision method, Credit Approval process is expected to be more accurate,
so that errors caused in decision making is minimized.
Keywords: Credit Assessment, Selection Attributes, algoritma Decision Tree C 4.5, particle swarm
optimization
PENDAHULUAN
Latar Belakang Masalah
Penilaian kredit merupakan topik yang penting
dalam pengelolaan resiko keuangan. Krisis
keuangan global baru-baru ini memaksa pelaku
industri keuangan dan perbankan untuk lebih
berhati-hati dalam menetapkan kebijakan.
Laporan bank Indonesia menunjukkan bahwa
pada akhir tahun 2011 tercatat kredit macet senilai
Rp. 33.401.000.000.000 naik hingga 17,64%
dibandingkan dengan th 2010 sebesar Rp.
28.396.000.000.000 (Indonesia, Bank;, 2012). Hal
tersebut menunjukkan bahwa tingkat kredit macet
mengalami kenaikan yang tajam.
Kredit macet merupakan salah satu resiko
kredit yang dihadapi oleh pelaku industri
keuangan dan perbankan. Kredit macet dapat
dihindari dengan cara melakukan analisa kredit
yang akurat terhadap calon debitur.
Keakuratan penilaian kredit sangat penting
untuk profitabilitas lembaga keuangan.
Proses pengevaluasian permintaan kredit
(misalnya kredit untuk sebuah perorangan),
seorang analisis kredit harus meneliti dan
melakukan penilaian melalui suatu prosedur
terhadap kondisi calon debitur yang diperkirakan
dapat mempengaruhi kemampuan mereka dalam
memenuhi kewajiban kepada lembaga
keuangan.Salah satu tahapan dalam
pengevaluasian dan penilaian tersebut adalah
dengan melakukan pengklasifikasian nasabah
berdasarkan kriteria-kriteria tertentu yang telah
menjadi standar di setiap Bank. Salah satu metoda
yang dapat digunakan untuk melakukan
pengklasifikasian nasabah tersebut adalah dengan
melakukan analisis Data Mining.
Perumusan Masalah
Berdasarkan latar belakang di atas, dapat
dirumuskan menjadi masalah-masalah sebagai
berikut :
1. Seberapa besar peningkatan akurasi Decision
Tree apabila Particle swarm optimization
diterapkan untuk seleksi atribut yang tepat
dalam penentuan penilaian kredit?
Tujuan Penelitian
Tujuan dari penelitian ini adalah :
1. Mengetahui faktor-faktor yang diperlukan
dalam melakukan pengklasifikasian nasabah
sebagai dasar pemberian kredit.
2. Tujuan dari penelitian ini adalah menerapkan
Particle Swarm Optimization (PSO) untuk
melakukan seleksi atribut pada Decision Tree
C 4.5 untuk meningkatkan akurasi penentuan
penilaian kredit.
BAHAN DAN METODE
Data Mining
Data mining atau Knowledge Discovery in
Databases (KDD) adalah pengambilan informasi
yang tersembunyi, dimana informasi tersebut
sebelumnya tidak dikenal dan berpotensi
bermanfaat. Proses ini meliputi sejumlah
pendekatan teknis yang berbeda, seperti
clustering, data summarization, learning
classification rules. Salah satu tuntutan dari data
mining ketika diterapkan pada data berskala besar
adalah diperlukan metodologi sistematis tidak
hanya ketika melakukan analisa saja tetapi juga
ketika mempersiapkan data dan juga melakukan
interpretasi dari hasilnya sehingga dapat menjadi
aksi ataupun keputusan yang bermanfaat. Proses
atau tahapan dalam data mining dapat dibagi
menjadi beberapa tahap, yaitu pembersihan data,
intergrasi data, transformasi data, aplikasi teknik
data mining, evaluasi pola yang ditemukan,
presentasi pengetahuan .
Credit Scoring
Credit scoring ini merupakan kumpulan data
nasabah yang diambil dari data aplikasi pinjaman
nasabah. credit scoring mengelompokkan para
2. 98
calon debitur menjadi dua jenis yaitu debitur baik
dan debitur buruk.
Metode Filter untuk Seleksi Atribut
Seleksi atribut (juga dikenal sebagai subset
seleksi) adalah suatu proses yang digunakan
dalam machine learning, dimana atribut dari
subset yang tersedia dari data yang dipilih untuk
penerapan algoritma learning.
Algoritma C 4.5 (Decision Tree)
Algoritma C4.5 merupakan salah satu
algoritma yang telah secara luas digunakan,
khususnya di area machine learning yang
memiliki beberapa perbaikan dari algoritma
sebelumnya yaitu ID3. Algoritma C4.5 dan ID3
model yang tak terpisahkan, karena membangun
sebuah pohon keputusan, dibutuhkan algoritma
C4.5 Diakhir tahun 1980- an, J. Ross Quinlan
seorang peneliti di bidang mesin pembelajaran
mengembangkan sebuah model pohon keputusan
yang dinamakan ID3. Walaupun sebenarnya
proyek ini telah dibuat sebelumnya oleh E.B.
Hunt, J. Marin, dan P.T. Stone. Kemudian
Quinlan membuat algoritma dari pengembangan
ID3 yang dinamakan C4.5 yang berbasis
supervised learning.
Tabel 1 Learning Dataset
No Cuaca Suhu Kelemba
ban
Berang
in
Main
1 Cerah Panas Tinggi Salah Tidak
2 Cerah Panas Tinggi Benar Tidak
3 Berawan Panas Tinggi Salah Ya
4 Hujan Sejuk Tinggi Salah Ya
5 Hujan Dingin Normal Salah Ya
6 Hujan Dingin Normal Benar Ya
7 Berawan Dingin Normal Benar Ya
8 Cerah Sejuk Tinggi Salah Tidak
9 Cerah Dingin Normal Salah Ya
10 Hujan Sejuk Normal Salah Ya
11 Cerah Sejuk Normal Benar Ya
12 Berawan Sejuk Tinggi Benar Ya
13 Berawan Panas Normal Salah Ya
14 Hujan Sejuk Tinggi Benar Tidak
Sumber: Hasil Penelitian (2016)
Kemudian hitung entropi dengan rumus sebagai
berikut :
Di mana :
S : ruang (data) sampel yang digunakan
untuk pelatihan
: jumlah yang bersolusi positif
atau mendukung pada data sampel untuk
kriteria tertentu .
: jumlah yang bersolusi negatif
atau tidak mendukung pada data sampel
untuk kriteria tertentu.
Select Atrributes
Select attributes adalah operator untuk
memilih atribut dari dataset yang akan digunakan
atau atribut yang tidak digunakan, ketika semua
atribut pada dataset tidak akan digunakan semua.
Particle Swarm Optimization
Particle Swarm Optimization merupakan
teknik komputasi evolusioner yang mampu
menghasilkan solusi secara global optimal dalam
ruang pencarian melalui interaksi individu dalam
segerombolan partikel. Setiap partikel
menyampaikan informasi berupa posisi
terbaiknya kepada partikel yang lain dan
menyesuaikan posisi dan kecepatan masing-
masing berdasarkan informasi yang diterima
mengenai posisi yang terbaik tersebut.
Klasisfikasi
Klasifikasi adalah proses menempatkan
obyek atau konsep tertentu kedalam satu set
kategori, berdasarkan sifat obyek atau konsep
yang bersangkutan (Gorunescu, 2011). Metode
klasifikasi ditujukan untuk pembelajaran
fungsi- fungsi berbeda yang memetakan masing-
masing data terpilih kedalam salah satu dari
kelompok kelas yang telah ditetapkan
sebelumnya. Dari pembelajaran tersebut, metode
klasifikasi dapat secara otomatis dapat
memprediksi kelas dari data lain yang belum
diklasifikasikan (Olson & Shi, 2008).
Pengujian K-Fold Cross Validation
Cross Validation salah satu metode yang
digunakan menemukan parameter terbaik dengan
cara menguji besarnya error pada data testing.
Cross Validation membagi data secara acak
kedalam k bagian dengan ukuran yang sama dan
masing-masing bagian akan dilakukan proses
klasifikasi.
Evaluasi dan Validasi
Confusion Matrix
Confusion matrix memberikan keputusan yang
diperoleh dalam traning dan testing, confusion
matrix memberikan penilaian performance
klasifikasi berdasarkan objek dengan benar atau
salah [26]. Confusion matrix berisi informasi
aktual (actual) dan prediksi (predicted) pada
sistem klasifikasi.
Kurva ROC
Kurva ROC (Receiver Operating
Characteristic) adalah alat visual yang berguna
untuk membandingkandua model klasifikasi.
ROC mengekspresikan confusion matrix. ROC
adalah grafik dua dimensi dengan false positives
3. KNIT-2 Nusa Mandiri ISBN: 978-602-72850-1-9
99
sebagai garis horisontal dan true positives sebagai
garis vertikal [26]. Dengan kurva ROC, kita dapat
melihat trade off antara tingkat dimana suatu
model dapat mengenali tuple positif secara akurat
dan tingkat dimana model tersebut salah
mengenali tuple negatif sebagai tuple positif.
HASIL DAN PEMBAHASAN
Pengumpulan Data
Pengumpulan data yang digunakan dalam
penelitian ini menggunakan data sekunder yang
diperoleh dari database dalam UCI machine
learning responsitory . Data tersebut berupa
Credit Approval.data memuat 690 nasabah terdiri
dari 15 atribut.
Sumber: Hasil Penelitian (2016)
Gambar 1 Data Credit Approval (UCI Repository)
Metode yang Diusulkan
Menggambarkan alur metode yang di usulkan
serta menjelaskan cara kerja model yang di
usulkan. Metode ini akan digambarkan secara
skematik dan disertai dengan formula
perhitungan. Model akan dibentuk dari data yang
sudah diolah dan hasil pengolahan model akan
diukur dengan model yang ada saat ini.
Sumber: Hasil Penelitian (2016)
Gambar 2 Model yang diusulkan
HASIL DAN PEMBAHASAN
Data Yang Akan Diolah Dengan Rapid Miner
a. Jika data yang disiapkan dalam bentuk Excel
maka tidak boleh lebih dari satu sheet.
b. Lalu simpan dengan format CSV (comma
separated value).
Dalam penyimpanan tulis nama file
dilanjutkan titik CSV. Contohnya : data
akhir.CSV.
Analisa Decision Tree Dengan Particle Swarm
Optimization Menggunakan Rapid Miner
1. Untuk mengambil Sample Data Repository,
buka hirarki Samples, masuk ke folder Data.
2. Lakukan Drag dan Drop salah satu Example
Repository. Tarik dan lepaskan repository ke
dalam Main Process.
3. Hubungkan output pada Database ke Result,
lalu klik run yang terdapat pada menu
dashboard.
4. Cara Import Repository, ada beberapa
ekstensi file yang dapat kita masukkan
kedalam repository kita. CSV File, Excel
Sheen File, Access Database Table File,
Database Table, Binary File. Namun pada
Dasarnya cara melakukan import pada semua
file ini sama. Sebagai contoh, pilih Import
Excel Sheet.
Pembahasan Hasil Pengujian
Selanjutnya dilakukan observasi population
dari Decission Tree C 4.5dan particle swarm
optimization. Hasilnya ditunjukkan oleh Tabel 4.1
dibawah ini.
Tabel 2. Observasi population
4. 100
Population Accuracy AUC
5 85.51% 0.862
10 85.51% 0.862
20 85.80% 0.885
30 85.80 % 0.887
40 85.51% 0.862
100 85.94% 0.862
200 86.09% 0.889
Sumber: Hasil Penelitian (2016)
Hasil observasi menunjukkan bahwa nilai
tertinggi dari akurasi yaitu 86.09% dan AUC
yaitu 0.889 diperoleh dengan nilai population
200. Maka nilai-nilai tersebut digunakan dalam
penelitian ini.
Langkah selanjutnya adalah menyeleksi
atribut yang digunakan yaitu A1, A2, A3, A4,
A5, A6, A7, A8, A9, A10, A11, A12, A13, A14,
A15 dan 1 atribut sebagai label yaitu A16. Dari
hasil eksperiment dengan menggunakan algoritma
Decission Tree C 4.5 berbasis particle swarm
optimization diperoleh hasil seperti dalam Tabel
4.2 dibawah ini.
Tabel 3. Hasil Seleksi Atribut
Atribute Weight
A1 0.002
A2 0.164
A3 1
A4 1
A5 0.913
A6 1
A7 0.814
A8 0.697
A9 1
A10 1
A11 0.685
A12 0
A13 0
A14 0.485
A15 0.174
Sumber: Hasil Penelitian (2016)
Dari 16 variabel prediktor dilakukan seleksi
atribut sehingga menghasikan terpilihnya 14
atribut yang digunakan yaitu A1, A2, A3, A4,
A5, A6, A7, A8, A9, A10, A11, A14, A15.
Sedangkan atribut lainnya A12 dan A13 tidak
berpengaruh terhadap bobot atribut.
Pembahasan Hasil Pengujian
Hasil pengujian model adalah untuk mengukur
tingkat akurasi dan AUC (Area Under Curve) dari
penentuan penilaian kredit dengan metode cross
validation.
Hasil Pengujian Metode Decission Tree C 4.5
1. Confusion Matrix
Tabel 4.3 menunjukkan hasil dari confusion
matrix metode Decission Tree C 4.5.
Tabel 4. Nilai accuracy, sensitivity, specificity,
ppv dan npv metode Decission Tree
Nilai (%)
Accuracy 0.8420
Sensitivity 0.8133
Specificity 0.8663
PPV 0.8371
NPV 0.8460
Sumber: Hasil Penelitian (2016)
Hasil perhitungan divisualisasikan dengan
kurva ROC. Perbandingan kedua class bisa
dilihat pada Gambar 4.1 yang merupakan kurva
ROC untuk algoritma Decission Tree C 4.5.
Kurva ROC pada gambar 4.1 mengekspresikan
confusion matrix dari tabel 4.3 Garis horizontal
adalah false positives dan garis vertikal true
positives. Menghasilkan nilai AUC (Area Under
Curve) sebesar 0.880 dengan nilai akurasi
klasifikasi cukup (fair classification).
Sumber: Hasil Penelitian (2016)
Gambar 3. Kurva ROC dengan Metode Decission
Tree C 4.5
Hasil Pengujian Metode Decission Tree
berbasis PSO
1. Confusion Matrix
Tabel 4.5. menunjukkan hasil dari confusion
matrix metode Decission Tree C 4.5 berbasis
5. KNIT-2 Nusa Mandiri ISBN: 978-602-72850-1-9
101
PSO
Tabel 5. Nilai accuracy, sensitivity,
specificity, ppv dan npv metode Decission Tree C
4.5Tree berbasis PSO
Nilai
Accuracy 0.8609
Sensitivity 0.8266
Specificity 0.8910
PPV 0.8697
NPV 0.8538
Sumber: Hasil Penelitian (2016)
Kurva ROC
Hasil perhitungan divisualisasikan dengan
kurva ROC. Perbandingan kedua class bisa
dilihat pada Gambar 4.2 yang merupakan kurva
ROC untuk algoritma Decission Tree C 4.5
berbasi PSO. Kurva ROC pada gambar 4.2
mengekspresikan confusion matrix dari tabel 4.4.
Garis horizontal adalah false positives dan garis
vertikal true positives. Menghasilkan nilai AUC
(Area Under Curve) sebesar 0.889 dengan nilai
akurasi klasifikasi cukup (fair classification).
Sumber: Hasil Penelitian (2016)
Gambar 4. Kurva ROC dengan Metode Decission
Tree berbasis PSO
Tingkat kenaikan kredit macet yang tajam
menunjukkan adanya masalah serius dalam
analisa penilaian kredit. Untuk menghasilkan
penilaian kredit yang akurat diperlukan sebuah
metode yang paling tepat. Pada penelitian ini
Decission Tree C 4.5 digunakan karena diketahui
dari hasil penelitian sebelumnya bahwa Decission
Tree (C4.5) memiliki kemampuan generalisasi
yang sangat baik untuk memecahkan masalah
walaupun dengan sampel yang terbatas.
Eksperiment menggunakan metode Decission
Tree (C4.5) menghasilkan tingkat akurasi sebesar
84.20 % dan mempunyai nilai AUC sebesar
0.880. Dari hasil tersebut diketahui bahwa
keberhasilan dari Decission Tree (C4.5) sangat
dipengaruhi oleh pemilihan atribut yang tepat.
Semakin banyak atribut dan informasi yang
digunakan akan mengakibatkan banyaknya
waktu dan biaya yang dikorbankan bahkan akan
mengurangi tingkat akurasi dan kompleksitas
yang lebih tinggi.
Mengingat pentingnya seleksi atribut
Decission Tree (C4.5) maka diterapkan Particle
swarm optimization (PSO) untuk melakukan
tugas tersebut. Particle swarm optimization
(PSO) diketahui dapat digunakan sebagai teknik
optimasi untuk mengoptimalkan subset fitur.
Algoritma PSO sederhana dan memiliki
kompleksitas yang lebih rendah. sehingga dapat
memastikan solusi optimal dengan
menyesuaikan pencarian global dan lokal,
sehingga kinerja klasifikasi Decission Tree (C4.5)
dapat ditingkatkan. Eksperiment dilakukan
kembali dengan menerapkan Particle swarm
optimization (PSO) untuk seleksi atribut dalam
Decission Tree (C4.5) dan dilakukan penyesuaian
pada parameter population. Dari 16 variabel
prediktor dilakukan seleksi atribut sehingga
menghasikan terpilihnya 14 atribut yang
digunakan. Hasil eksperiment menunjukkan
akurasi sebesar 86.09% dan nilai AUC sebesar
0.889.
Hasil dari eksperiment tersebut
menunjukkan pengujian data kredit Credit
Approval UCI data set menggunakan Decission
Tree (C4.5) dan penerapan Particle Swarm
Optimization dalam pemilihan atribut
menunjukkan hasil yang lebih akurat dalam
penentuan penilaian kredit ditandai dengan
peningkatan nilai akurasi sebesar 1.89% dan nilai
AUC sebesar 0.009.
KESIMPULAN
Dari uraian pada bab-bab yang sudah dibahas
sebelumnya dapat ditarik kesimpulan :
Metode pohon keputusan (decision tree)
berbasis PSO yang diproses dengan software
Rapid Miner dapat mengidentifikasi kelayakan
kredit dengan baik.
Dengan dilakukannya seleksi atribut dan
penyesuaian pada population dapat menghasilkan
variabel prediktor yang mempengaruhi nilai bobot
pada atribut class.
Sistem yang dibangun dapat membantu dalam
mengklasifikasikan kriteria anggota nasabah yang
pengajuan.
UCAPAN TERIMA KASIH
Penulis sungguh sangat menyadari, bahwa
penulisan Makalah ini tidak akan terwujud tanpa
6. 102
adanya dukungan dan bantuan dari berbagai
pihak. Maka, dalam kesempatan ini penulis
menghaturkan penghargaan dan ucapan terima
kasih yang sebesar-besarnya kepada yang
terhormat:
1. Bapak Dr.Rasmadi, selaku Ketua STMIK
Eresha, yang telah menyediakan wadah untuk
dapat menimba ilmu dalam program Pasca
Sarjana di kampus tercinta ini.
2. Bapak Dr. Makhsun Toha, M.Si, selaku
Ketua Program Studi Teknik Informatika
STMIK Eresha, yang telah menyediakan
wadah untuk dapat menimba ilmu dalam
program Pasca Sarjana di kampus tercinta ini.
3. Bapak Dr. M. Syamsun, sebagai Pembimbing
Utama, yang telah banyak mengarahkan,
membimbing dan memberikan materi-materi
pengajaran dalam menyelesaikan tesis ini.
4. Bapak Atang Susila, Ir, Meng, selaku Dosen
Pembimbing Kedua Tesis, yang telah banyak
mengarahkan dan membimbing dalam
penulisan tesis ini.
5. Segenap dosen STMIK Eresha yang telah
mendidik dan memberikan ilmunya kepada
penulis, serta seluruh staff dan karyawan
yang membantu kelancaran kuliah penulis.
6. Kedua orang tua dan keluarga penulis yang
dengan sabar dan tulus telah memberikan
motivasi, dukungan, nasehat dan doa yang
tak ternilai harganya.
7. Rekan – rekan STMIK Eresha Angkatan 45
yang telah banyak memberikan motivasi
belajar serta dukungan moril dalam
menyelesaikan tesis ini.
8. Dan semua pihak yang tidak dapat disebutkan
satu persatu.
DAFTAR PUSTAKA
Alrijadjis, & Astrowulan, K. (n.d.). Optimasi
Kontroler PID berbais Particle Swarm
Optimization (PSO) untuk Sistem dengan
Waktu Tunda.
Bastos, J. A. (2008). Credit Scoring with Boosted
Decision Trees. MPRA.
Gorunescu, F. (2011). Data Mining Concepts,
Model and Techniques. Berlin: Springer.
Han, J., & Kamber, M. (2006). Data Mining
Concepts and Techniques. San Francisco:
Diane Cerra.
X. Hu, R. Eberhart, and Y. Shi. Particle swarm
with extended memory for multiobjective
optimization, IEEE Swarm Intelligence
Symposium 2003, Indianapolis, IN, USA
X. Hu, R. Eberhart, and Y. Shi. Recent advances
in particle swarm, , IEEE Congress on
Evolutionary Computation 2004, Portland,
Oregon, USA
Jiang, Y. (2009). Credit Scoring Model Based on
Decision Tree and the Simulated Annealing
Algorithm. 2009 World Congress on
Computer Science and Information
Engineering (hal. 18 - 22). Los Angeles: IEEE
Computer Society.
Lai, K. K., Yu, L., Zhou, L., & Wang, S. (2006).
Credit Risk Evaluation With Least Square
Support Vector Machine.
Larose, D. T. (2005). Discovering Knowledge In
Data. Canada: Wiley- Interscience.
Moertini, V. S. (2003). Towards the Use of C4.5
Algorithm for Classifying Banking Dataset.
INTEGRAL , 105-116.
Rapid-I. (2010). Rapid Miner User Manual .
Rapid-I.
Yu, L., Chen, G., Koronios, a., Zhu, S., & Guo,
X. (2007). Application and Comparison of
Classification Techniques in Controlling
Credit Risk. World Scientific , 111.
Zurada, J. (2010). Could decision trees improve
the classification accuracy and interpretability
of loan granting decision? 43rd Hawaii
International Conference on System Sciences
(pp. 1-9).
Dawson, C. W. (2009). Projects in Computing
and Information System A Student's Guide.
England: Addison-Wesley.
Feng-Chia, L. (2009). Comparison of the
Primitive Classifiers without
Features Selection in Credit Scoring.
Management and Service Science.
Gang, W., Jinxing, H., Jian, M., & Hongbing, J.
(2011). A comparative assessment of
ensemble learning for credit scoring. Expert
Systems with Applications: An International
Journal. 38, 223-230.
Gorunescu, Florin (2011). Data Mining:
Concepts, Models, and Techniques.
Verlag Berlin Heidelberg: Springer.
Han, J., & Kamber, M. (2006). Data Mining
Concepts and technique. San
Francisco: Diane Cerra
Heiat, A. (2011). Modeling Consumer Credit
Scoring Through Bayes Network.
World Journal of Social Sciences. 3, 132-141.
Hian, C.K., Wei, C.T., & Chwee, P.G (2006). A
Two-step Method to Construct Credit Scoring
Models with Data Mining Techniques.
International Journal of Business and
Information, 1, 96-118.
Jianguo, Z., & Tao, B. (2008). Credit Risk
Assessment using Rough Set Theory and GA-
based SVM. The 3rd International Conference
on Grid and Pervasive Computing, 320-