4. LATAR BELAKANG
Bank X Melakukan transaksi Mengalami kecurangan
Klasifikasi Mendeteksi Kecurangan
(Fraud Detection) di Bank X
Menggunakan Statistika
Konvensional dan Machine Learning
6. SUMBER DATA
Data sekunder yaitu data kecurangan kartu debit di Bank X. Data terdiri dari 23
variabel dengan tipe data kategorik dan integer. Jumlah data objek pengamatan
sebanyak 13124 transaksi di Bank X.
8. LANGKAH-LANGKAH ANALISIS
1. Mencari Fraud Detection data (data kecurangan pada kartu debit di Bank ‘X’)
sekunder yaitu data dari Website Bank ‘X’.
2. Melakukan preprocessing data kecurangan pada kartu debit di Bank ‘X’.
3. Melakukan ekplorasi data kecurangan pada kartu debit di Bank ‘X’.
4. Melakukan klasifikasi menggunakan metode K-Nearest Neighbours, Naive
Bayes, Support Vector Machine, Decision Tree, dan Random Forest.
5. Pemilihan metode klasifikasi terbaik.
6. Hyperparameter tuning pada metode klasifikasi terbaik.
7. Menarik kesimpulan dan saran.
10. PREPROCESSING DATA
Dilakukan mendeteksi adanya missing value agar data tersebut dapat diolah. Berikut adalah
hasil deteksi missing value.
Variabel Jumlah Missing Value
X 0
tipe_kartu 0
id_merchant 0
nama_merchant 0
tipe_mesin 0
tipe_transaksi 0
nama_transaksi 0
nilai_transaksi 0
id_negara 0
nama_negara 0
nama_kota 0
Variabel Jumlah Missing Value
lokasi_mesin 0
pemilik_mesin 0
waktu_transaksi 0
kuartal_transaksi 0
kepemilikan_kartu 0
nama_channel 0
id_channel 0
rata_rata_nilai_transaksi 0
maksimum_nilai_transaksi 0
minimum_nilai_transaksi 0
rata_rata_jumlah_transaksi 0
flag_transaksi_fraud 0
14. FEATURE ENGINEERING
Feature Engineering berfungsi untuk menambah variabel prediktor yang mungkin
berpengaruh terhadap data fraud detection. Pada tahap ini, tidak dilakukan dalam analisis ini,
karena variabel prediktor yang digunakan sudah cukup.
15. FEATURE SELECTION
Feature Selection berfungsi untuk menseleksi variabel-variabel yang kurang baik untuk
digunakan dan memilih beberapa variabel saja yang paling baik digunakan
Setelah dilakukan pemilihan pada variabel
prediktor, maka dihasilkan 12 variabel
terpilih yang terpilih untuk dilanjutkan pada
tahap analisis selanjutnya
Feature ranking
1. feature 7 (0.099612)
2. feature 20 (0.084380)
3. feature 0 (0.074109)
4. feature 21 (0.072442)
5. feature 18 (0.071534)
6. feature 19 (0.071266)
7. feature 11 (0.070820)
8. feature 13 (0.068525)
9. feature 10 (0.062099)
10. feature 1 (0.057426)
11. feature 4 (0.054939)
12. feature 15 (0.046720)
16. HOLD-OUT METHOD
Hold-out Method merupakan metode pembagian data menjadi data training dan data
testing.
Pembagian data testing 20% dan data training 80%.
17. Cross Validation
Setelah dilakukam tahap preprocessing dilakukan analisis selanjutnya untuk mengetahui
nilai akurasi dengan menggunakan 5 metode klasifikasi, metode klasifikasi kNN (K-Nearest
Neighbours), Naive Bayes, SVM (Support Vector Machine), Random Forest, dan Regresi
Logistrik.
Random Forest merupakan metode terbaik dengan akurasi 0,9319
Metode Akurasi
kNN (K-Nearest Neighbours) 0,9299
Naïve Bayes 0,9177
SVM (Support Vector Machine) 0,9318
Random Forest 1,0000
Regresi Logistik 0,9314
18. HYPERPARAMETER TUNING
Hyperparameter dapat meningkatkan nilai akurasi dari metode kalsifikasi terbaik.
Metode yang digunakan yaitu Random Forest.
Nilai
Akurasi 0,9962
Presisi 1,0000
Recalls 0,9443
AUC 1,0000
20. KESIMPULAN
1. Tidak terdeteksi Missing Value pada data kecurangan transaksi di bank X.
2. Metode klasifikasi terbaik dari kelima metode yang digunakan yaitu metode Random
Forest dengan nilai akurasi sebesar 100%.
3. Kebaikan model yang diperoleh dari metode Random Forest dengan nilai akurasi sebesar
99,62%, presisi 100%, recalls (tingkat keberhasilan sistem) sebesar 94,43% dan nilai AUC
(seperti R2) adalah 100%.
21. SARAN
Setelah melakukan penelitian ini, terdapat beberapa saran yang dapat diberikan untuk
penelitian selanjutnya yaitu dalam melakukan pengklasifikasian terhadap data kecurangan
transaksi di bank X dapat menggunakan metode klasifikasi Random Forest. Sebelum
mengklasifikasikan data, perlu dilakukan preprocessing data terkait missing value,
multikolinearitas dan lainnya dan memahami karakteristik data agar dapat menghasilkan
hasil analisis yang tidak bias.