Dokumen tersebut merangkum hasil analisis data pemasaran bank untuk memprediksi responden yang akan berlangganan. Metode analisis yang digunakan adalah feature selection, korelasi, dan beberapa model klasifikasi seperti random forest. Hasilnya menunjukkan random forest memberikan skor terbaik sebesar 86% untuk memprediksi responden yang berlangganan. Saran untuk penelitian selanjutnya adalah menggunakan komputer dengan spesifikasi lebih baik
3. 3
L A T A R B E L A K A N G
Pemasaran merupakan salah satu
kegiatan yang utama yang harus dilakukan
oleh para produsen dalam upaya
mempertahankan kelangsungan hidup
perusahaan agar lebih berkembang dan
mendapatkan laba yang diinginkan
Bank sebagai lembaga keuangan yang
menghasilkan jasa keuangan juga
membutuhkan strategi pemasaran
untuk memasarkan produknya
termasuk juga dengan Bank yang
bernama Banco de Portugal
Penelitian ini bertujuan untuk menganalisis dan memprediksi responden yang memiliki
kriteria seperti apa yang akan berlangganan, serta memberikan masukan terhadap
Banco de Portugal untuk meningkatkan jumlah nasabah yang akan berlangganan.
5. SUMBER
DATA
Data yang digunakan dalam penelitian ini
adalah data sekunder yang diperoleh dari
Banco de Portugal yang dipublikasikan
ke UCI Machine Learning dengan judul
Bank Marketing.
6. 6
VARIABEL PENELITIAN
Variabel Deskripsi Skala
Y Klasifikasi 0= Berlangganan
1= Tidak
Berlangganan
X1 Age Usia Responden Rasio
X2 Job
0= Admin 6= Self-employed
Nominal
1= Blue-collar 7= Services
2= Entrepreneur 8= Student
3= Housemaid 9= Technician
4= Management 10= Unemployed
5= Retired 11= Unknown
X3 Marital
0= Divorced 2= Single
Nominal
1= Married 3= Unknown
X4 Education
0= Basic
3= Professional
Course
Nominal
1= High school
4= University
Degree
2= Illiterate 5= Unknow
X5 Default 0= No 1= Yes Nominal
Variabel Deskripsi Skala
X6 Housing
0= No 2= Yes
Nominal
1= Unknown
X7 Loan
0= No 2= Yes
Nominal
1= Unknown
X8 Contact 0= Cellular 1= Telephone Nominal
X9 Month
0= Apr 5= Mar
Nominal
1= Aug 6= May
2= Dec 7= Nov
Nominal
3= Jul 8= Oct
4= Jun 9= Sep Nominal
X10 Day of
Week
0= Fri 3= Tue
Nominal1= Mon 4= Wed
2= Thu
X11 Duration Lama Panggilan Telepon Pemasaran Rasio
X12 Campaign Jumlah Panggilan Promosi Rasio
7. 7
LANGKAH ANALISIS
1. Melakukan pre-processing data dengan mengatasi missing value dan melakukan feature
engineering.
2. Mendeskripsikan data Bank Marketing.
3. Melakukan uji korelasi antar variabel respon dengan masing-masing variabel prediktor untuk
mengetahui variabel signifikan atau tidak.
4. Melakukan feature selection dengan menggunakan metode PCA.
5. Menguji data training dan data testing untuk mendapatkan scores setiap metode yang digunakan.
6. Melakukan cross validation untuk mendapatkan nilai AUC setiap metode.
7. Menguji data dengan menggunakan model tuning untuk memperoleh best scores setiap metode.
9. 9
PRE-PROCESSING
A. Mengatasi Missing Value
Variabel loan, contact, dan duration memiliki jumlah data masing-masing adalah 12, 11, dan 34. data
missing diatasi dengan melakukan inputasi yaitu pada variabel loan akan diinputasi dengan kategori
no, contact diinputasi dengan kategori cellular, dan duration diinputasi dengan nilai rata-rata duration.
B. Feature Engineering
Pada variabel education dengan kategorik basic.9y, basic6.y, dan basic.4y dijadikan satu menjadi
kategorik basic. Selanjutnya data dibagi 2 yaitu data tanpa variabel dummy dan data yang
menggunakan variabel dummy. Data tanpa variabel dummy digunakan untuk melakukan eksplorasi
data. Sebelum melakukan eksplorasi data, data kualitatif diubah terlebih dahulu menjadi data
kuantitatif untuk mempermudah analisis data. Sedangkan data dengan variabel dummy digunakan
untuk mempermudah melakukan klasifikasi.
10. 10
STATISTIKA DESKRIPTIF
A. Deskriptif Data Klasifikasi (Y)
Nilai Y diklasifikasikan menjadi dua yaitu 1 (yes) dan 0 (no). Jumlah responden yes
sebanyak 4640 sedangkan no sebanyak 4036
11. 11
STATISTIKA DESKRIPTIF
B. Deskriptif Data Job (Pekerjaan)
Jenis pekerjaan yang respondennya berlangganan
lebih banyak dibandingkan tidak berlangganan yaitu
pada jenis pekerjaan 0 (admin), 1(blue-collar), 2
(entrepreneur), 4 (management), 5 (retired), 6 (self-
employed), 7 (services), 8 (student), 9 (technician).
Jenis pekerjaan terbanyak yaitu admin dengan
jumlah 10422. Terendah adalah enterperneur
dengan jumlah 3875. Jumlah responden yang
pekerjaannya tidak diketahui (unknown) yaitu
sebanyak 330 responden.
12. 12
STATISTIKA DESKRIPTIF
C. Deskriptif Data Marital (Status Hubungan)
Jenis status hubungan terbanyak yaitu yang sudah
menikah (merried) dengan jumlah 4872. Terendah adalah
cerai (divorced) dengan jumlah 866. Jumlah responden
yang status hubungannya tidak diketahui (unknown) yaitu
sebanyak 20 responden.
Responden yang berlangganan lebih banyak
dibandingkan tidak berlangganan yaitu pada semua
jenis status hubungan dengan status hubungan
terbanyak yaitu yang sudah menikah
13. 13
STATISTIKA DESKRIPTIF
D. Deskriptif Data Education (Pendidikan)
Jenis pendidikan terbanyak yaitu sarjana (university
degree) dengan jumlah 3084. Terendah adalah terpelajar
(illiterate) dengan jumlah 5 responden. Sedangkan jumlah
responden yang pendidikannya tidak diketahui (unknown)
yaitu sebanyak 531.
Responden yang berlangganan lebih banyak
dibandingkan tidak berlangganan yaitu pada semua
jenis pendidikan dengan jenis pendidikan terbanyak
yaitu yang pendidikan sarjana.
14. 14
STATISTIKA DESKRIPTIF
E. Deskriptif Data Lama Panggilan Telepon Pemasaran (Duration)
Sebaran data seluruh jenis pekerjaan dan pendidikan
berada pada range 0-500 detik dengan nilai maksimum
masing-masing berada pada pekerjaan 1 (blue-collar)
pendidikan 0 (basic). Pendidikan 2 (illiterate) menunjukkan
responden kebanyakan berada pada klasifikasi 1 (tidak
berlangganan)
Sebaran data tertinggi pada data pendidikan,
pekerjaan, dan status hubungan berdasarkan lama
panggilan berada pada range 0-500 dengan lama
panggilan yaitu pada data marital sebanyak 30-35
15. 15
UJI KORELASI
variabel yang memiliki korelasi tertinggi yaitu, variable y terhadap variabel duration sebesar 0,45 artinya
terdapat hubungan antar variabel akan tetapi hubungannya rendah
17. 17
HOLD OF METHOD
Nilai training yang memiliki nilai akurasi tertinggi yaitu
dengan menggunakan metode SVM yaitu sebesar
0,782.
Metode Scores (Mean) Scores (Std)
KNN 0.684 0.012
Naive Bayes 0.622 0.011
Random Forest 0.726 0.015
Decision Tree 0.685 0.021
Bagging 0.733 0.015
Gradient Boosting 0.770 0.016
Adapative Boosting 0.746 0.006
SVM 0.782 0.017
A. Data Training
Masing-masing metode dan dapat diketahui bahwa setiap
metode memiliki mean yang jauh berbeda. Dapat juga
diketahui bahwa terdapat outlier yaitu pada metode KNN
18. 18
HOLD OF METHOD
Nilai training yang memiliki nilai akurasi tertinggi yaitu
dengan menggunakan metode Gradient Boosting
yaitu sebesar 0,800
Metode Scores (Mean) Scores (Std)
KNN 0.720 0.022
Naive Bayes 0.679 0.020
Random Forest 0.774 0.039
Decision Tree 0.723 0.025
Bagging 0.761 0.031
Gradient Boosting 0.800 0.027
Adapative Boosting 0.778 0.030
SVM 0.727 0.030
A. Data Testing
Masing-masing metode dan dapat diketahui bahwa setiap
metode memiliki mean yang jauh berbeda. Dapat juga
diketahui bahwa terdapat outlier yaitu pada metode bagging.
19. 19
CROSS VALIDATION
Metode Scores Akurasi AUC
KNN 0,68 0,50 0,51
Naive Bayes 0,62 0,53 0,56
Random Forest 0,73 0,51 0,53
Decision Tree 0,68 0,99 0,52
Bagging 0,73 0,99 0,54
Gradient Boosting 0,77 0,55 0,55
Adapative
Boosting
0,75 0,52 0,54
SVM 0,78 0,51
Metode yang terbaik adalah metode Naive Bayes dikarenakan memiliki nilai AUC tertinggi
20. 20
MODEL TUNING
Metode yang terbaik adalah metode Random Forest dikarenakan memiliki nilai best score tertinggi
Metode Best Scores
KNN 0,73
Random Forest 0,86
Decision Tree 0,81
Gradient Boosting 0,83
Adapative Boosting 0,80
SVM 0,73
22. 22
KESIMPULAN
A. Nilai rata-rata umur (age), lama panggilan telepon pemasaran (duration), dan jumlah panggilan
(campaign) masing-masing adalah 41,5 tahun, 398,6 detik, dan 2 kali panggilan. Sedangkan nilai
standar deviasi masing-masing adalah 13,8, 363,6, dan 1,5. Nilai jumlah responden yes yaitu
53,5% atau 4640 sedangkan no sebanyak 46,5% atau 4036 responden.
B. Jumlah responden dengan jenis pekerjaan terbanyak yaitu admin dengan jumlah 10422, status
hubungan yaitu menikah (merried) sebanyak 4872, pendidikan yaitu sarjana (university degree)
sebanyak 3084, dan sebaran data lama panggilan masing-masing berada pada range 0-500 detik
C. Uji korelasi tertinggi yaitu berada pada lama panggilan (duration) yaitu sebesar 0,45 yang artinya
hubungan antar variabel respon rendah.
D. Hasil metode PCA menunjukkan terdapat 39 variabel pertama yang menjelaskan hampir 100%
variabilitas data aktual.
E. Best Score tertinggi diperoleh dengan menggunakan metode klasifikasi Random Forest sebesar
0,86 dengan akurasi 51%.
23. 23
SARAN
Saran pada penelitian ini yaitu dikarenakan keterbatasan laptop dalam melakukan run yang
menyebabkan membutuhkan waktu yang lama untuk mendapatkan output yang diinginkan, maka
beberapa metode klasifikasi tidak dimasukkan kedalam penelitian ini sehingga harapkan untuk
penelitian selanjutnya dapat menggunakan laptop yang memiliki spesifikasi yang lebih baik sehingga
dapat menggunakan metode klasifikasi yang lebih banyak.