Pada penelitian ini ingin didapatkan metode pengklasifikasian yang terbaik berdasarkan ketepatan nilai akurasi dari setiap metode klasifikasi yang digunakan. Sebelumnya akan dilakukan preprocessing pada data, feature selection, serta eksplorasi pada data untuk mendeskripsikan karakteristik dari data yang digunakan dalam penelitian ini.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Ppt Final Project Data Mining Aprilia Ardiriani
1. Perbandingan Klasifikasi pada Kasus Terjadinya
Cylinder Band Pada Percetakan Rotogravure
dengan Menggunakan Metode Klasifikasi Decision
Tree, Naive Bayes, Random Forest, Gradient
Boosting, SVM, dan Adaptive Boosting
Dosen :
Novri Suhermi,
S.Si., M.Sc.
Oleh:
Aprilia Ardiriani
06211540000012
6. Sumber Data
6
Data sekunder yang diambil dari website
https://archive.ics.uci.edu/ml/datasets/Cylinder+
Bands dengan judul “Cylinder Bands Data Set”
dan diakses pada tanggal 3 Desember 2018.
- Terdapat 521 observasi mengenai kasus penundaan
proses yang dikenal dengan cylinder band pada
percetakan rotogravure.
- 39 variabel independen dan 1 variabel dependen
yaitu band type
7. Variabel Penelitian
7
Variabel Deskripsi Jenis Data
Timestamp
Mesin stempel waktu
pada percetakan
rotogravure
Kontinyu
Cylinder number
Nomor silinder yang
digunakan untuk
mencetak
Kategorik
Customer Nama pelanggan Kategorik
Job number
Nomor pengerjaan
pencetakan
Kategorik
Grain screened Pelapis silinder Kategorik
Ink color Warna tinta Kategorik
Proof on ctd ink
Metode pencocokan
tinta
Kategorik
Blade mfg Mesin blade Kategorik
Cylinder division Bagian silinder Kategorik
Paper type
Jenis kertas untuk
pencetakan
Kategorik
Ink type Jenis tinta Kategorik
Direct Steam Proses uap Kategorik
Solvent type Jenis pelarut Kategorik
8. Variabel Penelitian
8
Variabel Deskripsi Jenis Data
Type on cylinder Jenis silinder isi ulang atau tidak Kategorik
Press type Jenis tekanan pada pencetakan Kategorik
Press Ukuran tekanan pada pencetakan Kategorik
Unit number Nomor unit Kategorik
Cylinder size Ukuran silinder Kategorik
Paper mill
location
Lokasi pabrik kertas Kategorik
Plating tank Tangki plating Kategorik
Proof cut Ukuran pemotongan silinder Kontinyu
Viscosity Viskositas Kontinyu
Caliper Kelengkungan silinder Kontinyu
Ink temperature Suhu tinta Kontinyu
Humifity Kelembaban Kontinyu
Roughness Ukuran kekasaran silinder Kontinyu
9. Variabel Penelitian
9
Variabel Deskripsi Jenis Data
Blade pressure Tekanan blade Kontinyu
Varnish pct Ukuran pelapisan Kontinyu
Press speed
Kecepatan pada proses penekanan
lembaran
Kontinyu
Ink pct Ketebalan tinta Kontinyu
Solvent pct Ukuran pelarut yang digunakan Kontinyu
ESA voltage Tegangan sistem pengapian ESA Kontinyu
ESA amperage Arus sistem pengapian ESA Kontinyu
Wax Ketebalan lapisan lilin Kontinyu
Hardener Ukuran pengeras pada cetakan Kontinyu
Roller Durometer
Kedalaman lekukan dalam materi yang
dibuat
Kontinyu
Current Density Kepadatan arus pada materi yang dibuat Kontinyu
Anode space ratio Rasio ruang anoda Kontinyu
Chrome content Konten pada chrome Kontinyu
Band type
0 : Band
1 : Noband
Proses penundaan pada silinder Kategorik
10. LANGKAH ANALISIS
10
• Eksplorasi pada variabel kategorik
• Eksplorasi pada variabel kontinyu
• Menggunakan metode tree based model
selection
• Mendeteksi outlier dan mengatasinya
• Mendeteksi missing value dan
mengatasinya
13. 13
PREPROCESSING DATA
Dilakukan penghapusan pada 4
variabel prediktor yaitu timestamp,
customer, job number, dan cylinder
number
Data menjadi terdiri dari
519 observasi
Terdapat 2 observasi yang outlier
sehingga dilakukan penghapusan
Data menjadi terdiri dari
519 observasi dengan 36 variabel.
• 35 variabel independen
• 1 variabel dependen
14. 14
PREPROCESSING DATA
Variabel Jumlah Missing Value
Grain screened 48
Ink color 0
Proof ink 56
Blade mfg 59
Cylinder division 0
Paper type 0
Ink type 0
Direct steam 24
Solvent type 54
Type on cylinder 18
Press type 0
Press 0
Unit number 0
Cylinder size 3
PML 155
Plating tank 18
Proof cut 54
Viscosity 5
Jumlah Missing Value
Caliper 27
Ink temperature 2
Humifity 1
Roughness 30
Blade pressure 63
Varnish pct 55
Press speed 10
Ink pct 55
Solvent pct 55
ESA voltage 56
ESA amperage 54
Wax 6
Hardener 7
Roller durometer 54
Current density 7
Anode sr 7
Chrome content 3
Band type 0
25. 25
KLASIFIKASI MENGGUNAKAN DESICION TREE
Metode Nilai Akurasi
Hold Out 0,7593
Hyperparameter Tunning 0,7222
Cross Validation 0,7555
Pada model klasifikasi desicion tree nilai akurasi paling tinggi didapatkan
pada metode hold out sebesar 75,93%.
26. 26
KLASIFIKASI MENGGUNAKAN NAIVE BAYES
Pada model klasifikasi naive bayes nilai akurasi paling tinggi didapatkan
pada metode cross validation sebesar 70,30%.
Metode Nilai Akurasi
Hold Out 0,694
Cross Validation 0,703
27. 27
KLASIFIKASI MENGGUNAKAN RANDOM FOREST
Pada model klasifikasi random forest nilai akurasi paling tinggi didapatkan
pada metode hold out dan hyperparameter tunning sebesar 80,56%.
Metode Nilai Akurasi
Hold Out 0,8056
Hyperparameter Tunning 0,8056
Cross Validation 0,7037
28. 28
KLASIFIKASI MENGGUNAKAN GRADIENT BOOSTING
Pada model klasifikasi gradient boosting nilai akurasi paling tinggi didapatkan
pada metode hold out sebesar 85,18%.
Metode Nilai Akurasi
Hold Out 0,8518
Hyperparameter Tunning 0,8426
Cross Validation 0,7851
29. 29
KLASIFIKASI MENGGUNAKAN SVM
Pada model klasifikasi support vector machine nilai akurasi paling tinggi
didapatkan pada metode hold out sebesar 73,15%.
Metode Nilai Akurasi
Hold Out 0,7315
Cross Validation 0,7037
30. 30
KLASIFIKASI MENGGUNAKAN ADAPTIVE BOOSTING
Pada model klasifikasi adaptive boosting nilai akurasi paling tinggi
didapatkan pada metode hold out dan hyperparameter tunning sebesar
78,70%.
Metode Nilai Akurasi
Hold Out 0,7870
Hyperparameter Tunning 0,7870
Cross Validation 0,7778
31. Place your screenshot here
31
KESIMPULAN
1. Dengan menggunakan klasifikasi decision tree nilai akurasi paling tinggi adalah
pada metode hold out
2. Dengan menggunakan klasifikasi naive bayes nilai akurasi paling tinggi adalah pada
metode cross validation
3. Dengan menggunakan klasifikasi random forest nilai akurasi paling tinggi adalah
pada metode hold out dan hyperparameter tunning
4. Dengan menggunakan klasifikasi gradien boosting nilai akurasi paling tinggi adalah
pada metode hold out
5. Dengan menggunakan klasifikasi SVM nilai akurasi paling tinggi adalah pada
metode hold out
6. Dengan menggunakan klasifikasi adaptive boosting nilai akurasi paling tinggi
adalah pada metode hold out dan hyperparameter tunning
7. Secara keseluruhan yaitu pada 6 model klasifikasi yang digunakan pada penelitian
ini model yang terbaik terbaik adalah model gradient boosting serta metode yang
paling banyak menghasilkan nilai akurasi yang tinggi adalah metode hod out.
32. 32
SARAN
Saran yang dapat dilakukan untuk penelitian selanjutnya yaitu
dengan mencoba jenis feature selection yang lain serta melakukan
feature extraction sehingga pada saat klasifikasi dapat menghasilkan
ketepatan nilai akurasi yang lebih tinggi dai penelitian ini.