SlideShare a Scribd company logo
1 of 24
Download to read offline
BANK MARKETING
CLASSIFICATION
Oleh :
Nisar (06211540007002)
2
BAB I
P E N D A H U L U A N
3
L A T A R B E L A K A N G
Pemasaran merupakan salah satu
kegiatan yang utama yang harus dilakukan
oleh para produsen dalam upaya
mempertahankan kelangsungan hidup
perusahaan agar lebih berkembang dan
mendapatkan laba yang diinginkan
Bank sebagai lembaga keuangan yang
menghasilkan jasa keuangan juga
membutuhkan strategi pemasaran
untuk memasarkan produknya
termasuk juga dengan Bank yang
bernama Banco de Portugal
Penelitian ini bertujuan untuk menganalisis dan memprediksi responden yang memiliki
kriteria seperti apa yang akan berlangganan, serta memberikan masukan terhadap
Banco de Portugal untuk meningkatkan jumlah nasabah yang akan berlangganan.
4
BAB II
M E T O D O L O G I P E N E L I T I A N
SUMBER
DATA
Data yang digunakan dalam penelitian ini
adalah data sekunder yang diperoleh dari
Banco de Portugal yang dipublikasikan
ke UCI Machine Learning dengan judul
Bank Marketing.
6
VARIABEL PENELITIAN
Variabel Deskripsi Skala
Y Klasifikasi 0= Berlangganan
1= Tidak
Berlangganan
X1 Age Usia Responden Rasio
X2 Job
0= Admin 6= Self-employed
Nominal
1= Blue-collar 7= Services
2= Entrepreneur 8= Student
3= Housemaid 9= Technician
4= Management 10= Unemployed
5= Retired 11= Unknown
X3 Marital
0= Divorced 2= Single
Nominal
1= Married 3= Unknown
X4 Education
0= Basic
3= Professional
Course
Nominal
1= High school
4= University
Degree
2= Illiterate 5= Unknow
X5 Default 0= No 1= Yes Nominal
Variabel Deskripsi Skala
X6 Housing
0= No 2= Yes
Nominal
1= Unknown
X7 Loan
0= No 2= Yes
Nominal
1= Unknown
X8 Contact 0= Cellular 1= Telephone Nominal
X9 Month
0= Apr 5= Mar
Nominal
1= Aug 6= May
2= Dec 7= Nov
Nominal
3= Jul 8= Oct
4= Jun 9= Sep Nominal
X10 Day of
Week
0= Fri 3= Tue
Nominal1= Mon 4= Wed
2= Thu
X11 Duration Lama Panggilan Telepon Pemasaran Rasio
X12 Campaign Jumlah Panggilan Promosi Rasio
7
LANGKAH ANALISIS
1. Melakukan pre-processing data dengan mengatasi missing value dan melakukan feature
engineering.
2. Mendeskripsikan data Bank Marketing.
3. Melakukan uji korelasi antar variabel respon dengan masing-masing variabel prediktor untuk
mengetahui variabel signifikan atau tidak.
4. Melakukan feature selection dengan menggunakan metode PCA.
5. Menguji data training dan data testing untuk mendapatkan scores setiap metode yang digunakan.
6. Melakukan cross validation untuk mendapatkan nilai AUC setiap metode.
7. Menguji data dengan menggunakan model tuning untuk memperoleh best scores setiap metode.
8
BAB III
A N A L I S I S D A N P E M B A H A S A N
9
PRE-PROCESSING
A. Mengatasi Missing Value
Variabel loan, contact, dan duration memiliki jumlah data masing-masing adalah 12, 11, dan 34. data
missing diatasi dengan melakukan inputasi yaitu pada variabel loan akan diinputasi dengan kategori
no, contact diinputasi dengan kategori cellular, dan duration diinputasi dengan nilai rata-rata duration.
B. Feature Engineering
Pada variabel education dengan kategorik basic.9y, basic6.y, dan basic.4y dijadikan satu menjadi
kategorik basic. Selanjutnya data dibagi 2 yaitu data tanpa variabel dummy dan data yang
menggunakan variabel dummy. Data tanpa variabel dummy digunakan untuk melakukan eksplorasi
data. Sebelum melakukan eksplorasi data, data kualitatif diubah terlebih dahulu menjadi data
kuantitatif untuk mempermudah analisis data. Sedangkan data dengan variabel dummy digunakan
untuk mempermudah melakukan klasifikasi.
10
STATISTIKA DESKRIPTIF
A. Deskriptif Data Klasifikasi (Y)
Nilai Y diklasifikasikan menjadi dua yaitu 1 (yes) dan 0 (no). Jumlah responden yes
sebanyak 4640 sedangkan no sebanyak 4036
11
STATISTIKA DESKRIPTIF
B. Deskriptif Data Job (Pekerjaan)
Jenis pekerjaan yang respondennya berlangganan
lebih banyak dibandingkan tidak berlangganan yaitu
pada jenis pekerjaan 0 (admin), 1(blue-collar), 2
(entrepreneur), 4 (management), 5 (retired), 6 (self-
employed), 7 (services), 8 (student), 9 (technician).
Jenis pekerjaan terbanyak yaitu admin dengan
jumlah 10422. Terendah adalah enterperneur
dengan jumlah 3875. Jumlah responden yang
pekerjaannya tidak diketahui (unknown) yaitu
sebanyak 330 responden.
12
STATISTIKA DESKRIPTIF
C. Deskriptif Data Marital (Status Hubungan)
Jenis status hubungan terbanyak yaitu yang sudah
menikah (merried) dengan jumlah 4872. Terendah adalah
cerai (divorced) dengan jumlah 866. Jumlah responden
yang status hubungannya tidak diketahui (unknown) yaitu
sebanyak 20 responden.
Responden yang berlangganan lebih banyak
dibandingkan tidak berlangganan yaitu pada semua
jenis status hubungan dengan status hubungan
terbanyak yaitu yang sudah menikah
13
STATISTIKA DESKRIPTIF
D. Deskriptif Data Education (Pendidikan)
Jenis pendidikan terbanyak yaitu sarjana (university
degree) dengan jumlah 3084. Terendah adalah terpelajar
(illiterate) dengan jumlah 5 responden. Sedangkan jumlah
responden yang pendidikannya tidak diketahui (unknown)
yaitu sebanyak 531.
Responden yang berlangganan lebih banyak
dibandingkan tidak berlangganan yaitu pada semua
jenis pendidikan dengan jenis pendidikan terbanyak
yaitu yang pendidikan sarjana.
14
STATISTIKA DESKRIPTIF
E. Deskriptif Data Lama Panggilan Telepon Pemasaran (Duration)
Sebaran data seluruh jenis pekerjaan dan pendidikan
berada pada range 0-500 detik dengan nilai maksimum
masing-masing berada pada pekerjaan 1 (blue-collar)
pendidikan 0 (basic). Pendidikan 2 (illiterate) menunjukkan
responden kebanyakan berada pada klasifikasi 1 (tidak
berlangganan)
Sebaran data tertinggi pada data pendidikan,
pekerjaan, dan status hubungan berdasarkan lama
panggilan berada pada range 0-500 dengan lama
panggilan yaitu pada data marital sebanyak 30-35
15
UJI KORELASI
variabel yang memiliki korelasi tertinggi yaitu, variable y terhadap variabel duration sebesar 0,45 artinya
terdapat hubungan antar variabel akan tetapi hubungannya rendah
16
Feature Selection
Dengan PCA
Terdapat 39 variabel pertama yang menjelaskan hampir 100% variabilitas data aktual
17
HOLD OF METHOD
Nilai training yang memiliki nilai akurasi tertinggi yaitu
dengan menggunakan metode SVM yaitu sebesar
0,782.
Metode Scores (Mean) Scores (Std)
KNN 0.684 0.012
Naive Bayes 0.622 0.011
Random Forest 0.726 0.015
Decision Tree 0.685 0.021
Bagging 0.733 0.015
Gradient Boosting 0.770 0.016
Adapative Boosting 0.746 0.006
SVM 0.782 0.017
A. Data Training
Masing-masing metode dan dapat diketahui bahwa setiap
metode memiliki mean yang jauh berbeda. Dapat juga
diketahui bahwa terdapat outlier yaitu pada metode KNN
18
HOLD OF METHOD
Nilai training yang memiliki nilai akurasi tertinggi yaitu
dengan menggunakan metode Gradient Boosting
yaitu sebesar 0,800
Metode Scores (Mean) Scores (Std)
KNN 0.720 0.022
Naive Bayes 0.679 0.020
Random Forest 0.774 0.039
Decision Tree 0.723 0.025
Bagging 0.761 0.031
Gradient Boosting 0.800 0.027
Adapative Boosting 0.778 0.030
SVM 0.727 0.030
A. Data Testing
Masing-masing metode dan dapat diketahui bahwa setiap
metode memiliki mean yang jauh berbeda. Dapat juga
diketahui bahwa terdapat outlier yaitu pada metode bagging.
19
CROSS VALIDATION
Metode Scores Akurasi AUC
KNN 0,68 0,50 0,51
Naive Bayes 0,62 0,53 0,56
Random Forest 0,73 0,51 0,53
Decision Tree 0,68 0,99 0,52
Bagging 0,73 0,99 0,54
Gradient Boosting 0,77 0,55 0,55
Adapative
Boosting
0,75 0,52 0,54
SVM 0,78 0,51
Metode yang terbaik adalah metode Naive Bayes dikarenakan memiliki nilai AUC tertinggi
20
MODEL TUNING
Metode yang terbaik adalah metode Random Forest dikarenakan memiliki nilai best score tertinggi
Metode Best Scores
KNN 0,73
Random Forest 0,86
Decision Tree 0,81
Gradient Boosting 0,83
Adapative Boosting 0,80
SVM 0,73
21
BAB IV
K E S I M P U L A N D A N S A R A N
22
KESIMPULAN
A. Nilai rata-rata umur (age), lama panggilan telepon pemasaran (duration), dan jumlah panggilan
(campaign) masing-masing adalah 41,5 tahun, 398,6 detik, dan 2 kali panggilan. Sedangkan nilai
standar deviasi masing-masing adalah 13,8, 363,6, dan 1,5. Nilai jumlah responden yes yaitu
53,5% atau 4640 sedangkan no sebanyak 46,5% atau 4036 responden.
B. Jumlah responden dengan jenis pekerjaan terbanyak yaitu admin dengan jumlah 10422, status
hubungan yaitu menikah (merried) sebanyak 4872, pendidikan yaitu sarjana (university degree)
sebanyak 3084, dan sebaran data lama panggilan masing-masing berada pada range 0-500 detik
C. Uji korelasi tertinggi yaitu berada pada lama panggilan (duration) yaitu sebesar 0,45 yang artinya
hubungan antar variabel respon rendah.
D. Hasil metode PCA menunjukkan terdapat 39 variabel pertama yang menjelaskan hampir 100%
variabilitas data aktual.
E. Best Score tertinggi diperoleh dengan menggunakan metode klasifikasi Random Forest sebesar
0,86 dengan akurasi 51%.
23
SARAN
Saran pada penelitian ini yaitu dikarenakan keterbatasan laptop dalam melakukan run yang
menyebabkan membutuhkan waktu yang lama untuk mendapatkan output yang diinginkan, maka
beberapa metode klasifikasi tidak dimasukkan kedalam penelitian ini sehingga harapkan untuk
penelitian selanjutnya dapat menggunakan laptop yang memiliki spesifikasi yang lebih baik sehingga
dapat menggunakan metode klasifikasi yang lebih banyak.
Nisar 06211540007002 eas datmin_ppt

More Related Content

Similar to Nisar 06211540007002 eas datmin_ppt

PPT - Tesis (Lispi) - Indonesia.pptx
PPT - Tesis (Lispi) - Indonesia.pptxPPT - Tesis (Lispi) - Indonesia.pptx
PPT - Tesis (Lispi) - Indonesia.pptx
Ismail585880
 

Similar to Nisar 06211540007002 eas datmin_ppt (20)

Utama proposal tesis
Utama proposal tesisUtama proposal tesis
Utama proposal tesis
 
Aev.pend6
Aev.pend6Aev.pend6
Aev.pend6
 
PPT - Tesis (Lispi) - Indonesia.pptx
PPT - Tesis (Lispi) - Indonesia.pptxPPT - Tesis (Lispi) - Indonesia.pptx
PPT - Tesis (Lispi) - Indonesia.pptx
 
PPT CIKA SEMPRO.pptx
PPT CIKA SEMPRO.pptxPPT CIKA SEMPRO.pptx
PPT CIKA SEMPRO.pptx
 
Organizational Culture
Organizational CultureOrganizational Culture
Organizational Culture
 
pengumpulan-dan-pengolahan-hasil-belajar.pptx
pengumpulan-dan-pengolahan-hasil-belajar.pptxpengumpulan-dan-pengolahan-hasil-belajar.pptx
pengumpulan-dan-pengolahan-hasil-belajar.pptx
 
KISI-KISI SEMPRO SIDANG KESEHATAN.pptx
KISI-KISI SEMPRO SIDANG KESEHATAN.pptxKISI-KISI SEMPRO SIDANG KESEHATAN.pptx
KISI-KISI SEMPRO SIDANG KESEHATAN.pptx
 
Slide Tesis sidang- Stiami
Slide Tesis sidang- StiamiSlide Tesis sidang- Stiami
Slide Tesis sidang- Stiami
 
Presentation Diana.ppt
Presentation Diana.pptPresentation Diana.ppt
Presentation Diana.ppt
 
PPT SIDANG.pptx
PPT SIDANG.pptxPPT SIDANG.pptx
PPT SIDANG.pptx
 
presentasi rekam medis rsia pku muhammadiah cipondoh
presentasi rekam medis rsia pku muhammadiah cipondohpresentasi rekam medis rsia pku muhammadiah cipondoh
presentasi rekam medis rsia pku muhammadiah cipondoh
 
ppt sidang kiki.pptx
ppt sidang kiki.pptxppt sidang kiki.pptx
ppt sidang kiki.pptx
 
Skripsi Manajemen Sumber Daya Manusia
Skripsi Manajemen Sumber Daya Manusia Skripsi Manajemen Sumber Daya Manusia
Skripsi Manajemen Sumber Daya Manusia
 
Analisa data & uji statistik
Analisa data & uji statistikAnalisa data & uji statistik
Analisa data & uji statistik
 
Bab 03 statistika
Bab 03   statistikaBab 03   statistika
Bab 03 statistika
 
IKM-Triwulan-3.pptx
IKM-Triwulan-3.pptxIKM-Triwulan-3.pptx
IKM-Triwulan-3.pptx
 
Penerimaan Seleksi beasiswa
Penerimaan Seleksi beasiswaPenerimaan Seleksi beasiswa
Penerimaan Seleksi beasiswa
 
Ppt video
Ppt videoPpt video
Ppt video
 
KELOMPOK 4 EVALUASI PEMBELAJARAN.pdf
KELOMPOK 4 EVALUASI PEMBELAJARAN.pdfKELOMPOK 4 EVALUASI PEMBELAJARAN.pdf
KELOMPOK 4 EVALUASI PEMBELAJARAN.pdf
 
1 pengantar statistik
1 pengantar statistik1 pengantar statistik
1 pengantar statistik
 

Recently uploaded

Materi Bid PPM Bappeda Sos Pemutakhiran IDM 2024 di kec Plumbon.pptx
Materi Bid PPM Bappeda Sos Pemutakhiran  IDM 2024 di kec Plumbon.pptxMateri Bid PPM Bappeda Sos Pemutakhiran  IDM 2024 di kec Plumbon.pptx
Materi Bid PPM Bappeda Sos Pemutakhiran IDM 2024 di kec Plumbon.pptx
AvivThea
 
AKSI NYATA Menyelenggarakan Pelaporan Belajar Oleh Murid.pdf
AKSI NYATA Menyelenggarakan Pelaporan Belajar Oleh Murid.pdfAKSI NYATA Menyelenggarakan Pelaporan Belajar Oleh Murid.pdf
AKSI NYATA Menyelenggarakan Pelaporan Belajar Oleh Murid.pdf
yulizar29
 
Presentasi-ruang-kolaborasi-modul-1.4.doc
Presentasi-ruang-kolaborasi-modul-1.4.docPresentasi-ruang-kolaborasi-modul-1.4.doc
Presentasi-ruang-kolaborasi-modul-1.4.doc
LeoRahmanBoyanese
 

Recently uploaded (20)

Analisis Regresi Analisis Regresi dan Korelasi.ppt
Analisis Regresi Analisis Regresi dan Korelasi.pptAnalisis Regresi Analisis Regresi dan Korelasi.ppt
Analisis Regresi Analisis Regresi dan Korelasi.ppt
 
PWS KIA (Pemantauan Wilayah Setempat) Kesehatan Ibu dan Anak
PWS KIA (Pemantauan Wilayah Setempat) Kesehatan Ibu dan AnakPWS KIA (Pemantauan Wilayah Setempat) Kesehatan Ibu dan Anak
PWS KIA (Pemantauan Wilayah Setempat) Kesehatan Ibu dan Anak
 
AKUNTANSI INVESTASI PD SEKURITAS UTANG.pptx
AKUNTANSI INVESTASI PD SEKURITAS UTANG.pptxAKUNTANSI INVESTASI PD SEKURITAS UTANG.pptx
AKUNTANSI INVESTASI PD SEKURITAS UTANG.pptx
 
Materi Bid PPM Bappeda Sos Pemutakhiran IDM 2024 di kec Plumbon.pptx
Materi Bid PPM Bappeda Sos Pemutakhiran  IDM 2024 di kec Plumbon.pptxMateri Bid PPM Bappeda Sos Pemutakhiran  IDM 2024 di kec Plumbon.pptx
Materi Bid PPM Bappeda Sos Pemutakhiran IDM 2024 di kec Plumbon.pptx
 
Materi Kimfar Asam,Basa,Buffer dan Garam
Materi Kimfar Asam,Basa,Buffer dan GaramMateri Kimfar Asam,Basa,Buffer dan Garam
Materi Kimfar Asam,Basa,Buffer dan Garam
 
MODUL AJAR PENDIDIKAN PANCASILA KELAS 4 KURIKULUM MERDEKA.pdf
MODUL AJAR PENDIDIKAN PANCASILA KELAS 4 KURIKULUM MERDEKA.pdfMODUL AJAR PENDIDIKAN PANCASILA KELAS 4 KURIKULUM MERDEKA.pdf
MODUL AJAR PENDIDIKAN PANCASILA KELAS 4 KURIKULUM MERDEKA.pdf
 
Mekanisme Mendengar Pada Manusia dan Hewan.pptx
Mekanisme Mendengar Pada Manusia dan Hewan.pptxMekanisme Mendengar Pada Manusia dan Hewan.pptx
Mekanisme Mendengar Pada Manusia dan Hewan.pptx
 
Materi Penggolongan Obat Undang-Undang Kesehatan
Materi Penggolongan Obat Undang-Undang KesehatanMateri Penggolongan Obat Undang-Undang Kesehatan
Materi Penggolongan Obat Undang-Undang Kesehatan
 
METODE PENGEMBANGAN MORAL DAN NILAI-NILAI AGAMA.pptx
METODE PENGEMBANGAN MORAL DAN NILAI-NILAI AGAMA.pptxMETODE PENGEMBANGAN MORAL DAN NILAI-NILAI AGAMA.pptx
METODE PENGEMBANGAN MORAL DAN NILAI-NILAI AGAMA.pptx
 
MODUL AJAR SENI MUSIK KELAS 4 KURIKULUM MERDEKA.pdf
MODUL AJAR SENI MUSIK KELAS 4 KURIKULUM MERDEKA.pdfMODUL AJAR SENI MUSIK KELAS 4 KURIKULUM MERDEKA.pdf
MODUL AJAR SENI MUSIK KELAS 4 KURIKULUM MERDEKA.pdf
 
UAS Matematika kelas IX 2024 HK_2024.pdf
UAS Matematika kelas IX 2024 HK_2024.pdfUAS Matematika kelas IX 2024 HK_2024.pdf
UAS Matematika kelas IX 2024 HK_2024.pdf
 
Materi: Mengapa tidak memanfaatkan Media ?
Materi: Mengapa tidak memanfaatkan Media ?Materi: Mengapa tidak memanfaatkan Media ?
Materi: Mengapa tidak memanfaatkan Media ?
 
Informatika Latihan Soal Kelas Tujuh.pptx
Informatika Latihan Soal Kelas Tujuh.pptxInformatika Latihan Soal Kelas Tujuh.pptx
Informatika Latihan Soal Kelas Tujuh.pptx
 
AKSI NYATA Menyelenggarakan Pelaporan Belajar Oleh Murid.pdf
AKSI NYATA Menyelenggarakan Pelaporan Belajar Oleh Murid.pdfAKSI NYATA Menyelenggarakan Pelaporan Belajar Oleh Murid.pdf
AKSI NYATA Menyelenggarakan Pelaporan Belajar Oleh Murid.pdf
 
MODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 2.pdf
MODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 2.pdfMODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 2.pdf
MODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 2.pdf
 
MODUL AJAR MATEMATIKA KELAS 4 KURIKULUM MERDEKA.pdf
MODUL AJAR MATEMATIKA KELAS 4 KURIKULUM MERDEKA.pdfMODUL AJAR MATEMATIKA KELAS 4 KURIKULUM MERDEKA.pdf
MODUL AJAR MATEMATIKA KELAS 4 KURIKULUM MERDEKA.pdf
 
#05 SOSIALISASI JUKNIS BOK 2024 Canva_124438.pptx
#05 SOSIALISASI JUKNIS BOK 2024 Canva_124438.pptx#05 SOSIALISASI JUKNIS BOK 2024 Canva_124438.pptx
#05 SOSIALISASI JUKNIS BOK 2024 Canva_124438.pptx
 
MODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 5.pdf
MODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 5.pdfMODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 5.pdf
MODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 5.pdf
 
MODUL AJAR SENI MUSIK KELAS 5 KURIKULUM MERDEKA.pdf
MODUL AJAR SENI MUSIK KELAS 5 KURIKULUM MERDEKA.pdfMODUL AJAR SENI MUSIK KELAS 5 KURIKULUM MERDEKA.pdf
MODUL AJAR SENI MUSIK KELAS 5 KURIKULUM MERDEKA.pdf
 
Presentasi-ruang-kolaborasi-modul-1.4.doc
Presentasi-ruang-kolaborasi-modul-1.4.docPresentasi-ruang-kolaborasi-modul-1.4.doc
Presentasi-ruang-kolaborasi-modul-1.4.doc
 

Nisar 06211540007002 eas datmin_ppt

  • 2. 2 BAB I P E N D A H U L U A N
  • 3. 3 L A T A R B E L A K A N G Pemasaran merupakan salah satu kegiatan yang utama yang harus dilakukan oleh para produsen dalam upaya mempertahankan kelangsungan hidup perusahaan agar lebih berkembang dan mendapatkan laba yang diinginkan Bank sebagai lembaga keuangan yang menghasilkan jasa keuangan juga membutuhkan strategi pemasaran untuk memasarkan produknya termasuk juga dengan Bank yang bernama Banco de Portugal Penelitian ini bertujuan untuk menganalisis dan memprediksi responden yang memiliki kriteria seperti apa yang akan berlangganan, serta memberikan masukan terhadap Banco de Portugal untuk meningkatkan jumlah nasabah yang akan berlangganan.
  • 4. 4 BAB II M E T O D O L O G I P E N E L I T I A N
  • 5. SUMBER DATA Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari Banco de Portugal yang dipublikasikan ke UCI Machine Learning dengan judul Bank Marketing.
  • 6. 6 VARIABEL PENELITIAN Variabel Deskripsi Skala Y Klasifikasi 0= Berlangganan 1= Tidak Berlangganan X1 Age Usia Responden Rasio X2 Job 0= Admin 6= Self-employed Nominal 1= Blue-collar 7= Services 2= Entrepreneur 8= Student 3= Housemaid 9= Technician 4= Management 10= Unemployed 5= Retired 11= Unknown X3 Marital 0= Divorced 2= Single Nominal 1= Married 3= Unknown X4 Education 0= Basic 3= Professional Course Nominal 1= High school 4= University Degree 2= Illiterate 5= Unknow X5 Default 0= No 1= Yes Nominal Variabel Deskripsi Skala X6 Housing 0= No 2= Yes Nominal 1= Unknown X7 Loan 0= No 2= Yes Nominal 1= Unknown X8 Contact 0= Cellular 1= Telephone Nominal X9 Month 0= Apr 5= Mar Nominal 1= Aug 6= May 2= Dec 7= Nov Nominal 3= Jul 8= Oct 4= Jun 9= Sep Nominal X10 Day of Week 0= Fri 3= Tue Nominal1= Mon 4= Wed 2= Thu X11 Duration Lama Panggilan Telepon Pemasaran Rasio X12 Campaign Jumlah Panggilan Promosi Rasio
  • 7. 7 LANGKAH ANALISIS 1. Melakukan pre-processing data dengan mengatasi missing value dan melakukan feature engineering. 2. Mendeskripsikan data Bank Marketing. 3. Melakukan uji korelasi antar variabel respon dengan masing-masing variabel prediktor untuk mengetahui variabel signifikan atau tidak. 4. Melakukan feature selection dengan menggunakan metode PCA. 5. Menguji data training dan data testing untuk mendapatkan scores setiap metode yang digunakan. 6. Melakukan cross validation untuk mendapatkan nilai AUC setiap metode. 7. Menguji data dengan menggunakan model tuning untuk memperoleh best scores setiap metode.
  • 8. 8 BAB III A N A L I S I S D A N P E M B A H A S A N
  • 9. 9 PRE-PROCESSING A. Mengatasi Missing Value Variabel loan, contact, dan duration memiliki jumlah data masing-masing adalah 12, 11, dan 34. data missing diatasi dengan melakukan inputasi yaitu pada variabel loan akan diinputasi dengan kategori no, contact diinputasi dengan kategori cellular, dan duration diinputasi dengan nilai rata-rata duration. B. Feature Engineering Pada variabel education dengan kategorik basic.9y, basic6.y, dan basic.4y dijadikan satu menjadi kategorik basic. Selanjutnya data dibagi 2 yaitu data tanpa variabel dummy dan data yang menggunakan variabel dummy. Data tanpa variabel dummy digunakan untuk melakukan eksplorasi data. Sebelum melakukan eksplorasi data, data kualitatif diubah terlebih dahulu menjadi data kuantitatif untuk mempermudah analisis data. Sedangkan data dengan variabel dummy digunakan untuk mempermudah melakukan klasifikasi.
  • 10. 10 STATISTIKA DESKRIPTIF A. Deskriptif Data Klasifikasi (Y) Nilai Y diklasifikasikan menjadi dua yaitu 1 (yes) dan 0 (no). Jumlah responden yes sebanyak 4640 sedangkan no sebanyak 4036
  • 11. 11 STATISTIKA DESKRIPTIF B. Deskriptif Data Job (Pekerjaan) Jenis pekerjaan yang respondennya berlangganan lebih banyak dibandingkan tidak berlangganan yaitu pada jenis pekerjaan 0 (admin), 1(blue-collar), 2 (entrepreneur), 4 (management), 5 (retired), 6 (self- employed), 7 (services), 8 (student), 9 (technician). Jenis pekerjaan terbanyak yaitu admin dengan jumlah 10422. Terendah adalah enterperneur dengan jumlah 3875. Jumlah responden yang pekerjaannya tidak diketahui (unknown) yaitu sebanyak 330 responden.
  • 12. 12 STATISTIKA DESKRIPTIF C. Deskriptif Data Marital (Status Hubungan) Jenis status hubungan terbanyak yaitu yang sudah menikah (merried) dengan jumlah 4872. Terendah adalah cerai (divorced) dengan jumlah 866. Jumlah responden yang status hubungannya tidak diketahui (unknown) yaitu sebanyak 20 responden. Responden yang berlangganan lebih banyak dibandingkan tidak berlangganan yaitu pada semua jenis status hubungan dengan status hubungan terbanyak yaitu yang sudah menikah
  • 13. 13 STATISTIKA DESKRIPTIF D. Deskriptif Data Education (Pendidikan) Jenis pendidikan terbanyak yaitu sarjana (university degree) dengan jumlah 3084. Terendah adalah terpelajar (illiterate) dengan jumlah 5 responden. Sedangkan jumlah responden yang pendidikannya tidak diketahui (unknown) yaitu sebanyak 531. Responden yang berlangganan lebih banyak dibandingkan tidak berlangganan yaitu pada semua jenis pendidikan dengan jenis pendidikan terbanyak yaitu yang pendidikan sarjana.
  • 14. 14 STATISTIKA DESKRIPTIF E. Deskriptif Data Lama Panggilan Telepon Pemasaran (Duration) Sebaran data seluruh jenis pekerjaan dan pendidikan berada pada range 0-500 detik dengan nilai maksimum masing-masing berada pada pekerjaan 1 (blue-collar) pendidikan 0 (basic). Pendidikan 2 (illiterate) menunjukkan responden kebanyakan berada pada klasifikasi 1 (tidak berlangganan) Sebaran data tertinggi pada data pendidikan, pekerjaan, dan status hubungan berdasarkan lama panggilan berada pada range 0-500 dengan lama panggilan yaitu pada data marital sebanyak 30-35
  • 15. 15 UJI KORELASI variabel yang memiliki korelasi tertinggi yaitu, variable y terhadap variabel duration sebesar 0,45 artinya terdapat hubungan antar variabel akan tetapi hubungannya rendah
  • 16. 16 Feature Selection Dengan PCA Terdapat 39 variabel pertama yang menjelaskan hampir 100% variabilitas data aktual
  • 17. 17 HOLD OF METHOD Nilai training yang memiliki nilai akurasi tertinggi yaitu dengan menggunakan metode SVM yaitu sebesar 0,782. Metode Scores (Mean) Scores (Std) KNN 0.684 0.012 Naive Bayes 0.622 0.011 Random Forest 0.726 0.015 Decision Tree 0.685 0.021 Bagging 0.733 0.015 Gradient Boosting 0.770 0.016 Adapative Boosting 0.746 0.006 SVM 0.782 0.017 A. Data Training Masing-masing metode dan dapat diketahui bahwa setiap metode memiliki mean yang jauh berbeda. Dapat juga diketahui bahwa terdapat outlier yaitu pada metode KNN
  • 18. 18 HOLD OF METHOD Nilai training yang memiliki nilai akurasi tertinggi yaitu dengan menggunakan metode Gradient Boosting yaitu sebesar 0,800 Metode Scores (Mean) Scores (Std) KNN 0.720 0.022 Naive Bayes 0.679 0.020 Random Forest 0.774 0.039 Decision Tree 0.723 0.025 Bagging 0.761 0.031 Gradient Boosting 0.800 0.027 Adapative Boosting 0.778 0.030 SVM 0.727 0.030 A. Data Testing Masing-masing metode dan dapat diketahui bahwa setiap metode memiliki mean yang jauh berbeda. Dapat juga diketahui bahwa terdapat outlier yaitu pada metode bagging.
  • 19. 19 CROSS VALIDATION Metode Scores Akurasi AUC KNN 0,68 0,50 0,51 Naive Bayes 0,62 0,53 0,56 Random Forest 0,73 0,51 0,53 Decision Tree 0,68 0,99 0,52 Bagging 0,73 0,99 0,54 Gradient Boosting 0,77 0,55 0,55 Adapative Boosting 0,75 0,52 0,54 SVM 0,78 0,51 Metode yang terbaik adalah metode Naive Bayes dikarenakan memiliki nilai AUC tertinggi
  • 20. 20 MODEL TUNING Metode yang terbaik adalah metode Random Forest dikarenakan memiliki nilai best score tertinggi Metode Best Scores KNN 0,73 Random Forest 0,86 Decision Tree 0,81 Gradient Boosting 0,83 Adapative Boosting 0,80 SVM 0,73
  • 21. 21 BAB IV K E S I M P U L A N D A N S A R A N
  • 22. 22 KESIMPULAN A. Nilai rata-rata umur (age), lama panggilan telepon pemasaran (duration), dan jumlah panggilan (campaign) masing-masing adalah 41,5 tahun, 398,6 detik, dan 2 kali panggilan. Sedangkan nilai standar deviasi masing-masing adalah 13,8, 363,6, dan 1,5. Nilai jumlah responden yes yaitu 53,5% atau 4640 sedangkan no sebanyak 46,5% atau 4036 responden. B. Jumlah responden dengan jenis pekerjaan terbanyak yaitu admin dengan jumlah 10422, status hubungan yaitu menikah (merried) sebanyak 4872, pendidikan yaitu sarjana (university degree) sebanyak 3084, dan sebaran data lama panggilan masing-masing berada pada range 0-500 detik C. Uji korelasi tertinggi yaitu berada pada lama panggilan (duration) yaitu sebesar 0,45 yang artinya hubungan antar variabel respon rendah. D. Hasil metode PCA menunjukkan terdapat 39 variabel pertama yang menjelaskan hampir 100% variabilitas data aktual. E. Best Score tertinggi diperoleh dengan menggunakan metode klasifikasi Random Forest sebesar 0,86 dengan akurasi 51%.
  • 23. 23 SARAN Saran pada penelitian ini yaitu dikarenakan keterbatasan laptop dalam melakukan run yang menyebabkan membutuhkan waktu yang lama untuk mendapatkan output yang diinginkan, maka beberapa metode klasifikasi tidak dimasukkan kedalam penelitian ini sehingga harapkan untuk penelitian selanjutnya dapat menggunakan laptop yang memiliki spesifikasi yang lebih baik sehingga dapat menggunakan metode klasifikasi yang lebih banyak.