Dokumen tersebut membahas tentang metode machine learning yaitu supervised learning, unsupervised learning, dan reinforcement learning. Secara khusus dibahas metode supervised learning yaitu support vector machine (SVM) dan decision tree beserta cara kerjanya. Juga dibahas metode unsupervised learning yaitu k-means clustering beserta contoh penerapannya untuk segmentasi pelanggan."
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...
06 - Machine Learning .pdf
1. D-IV Rekayasa Perangkat Lunak - Teknik Informatika
MACHINE LEARNING
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
“You can have data without information, but you
cannot have information without data.”
- Daniel Keys Moran -
2. Referensi
Russell, S.J and Peter Norvig, P. 2010.Artificial
Intelligence: A Modern Approach. Third Edition. New
Jersey: Pearson Education.
Presentation 2023
D-IV Rekayasa Perangkat Lunak - Teknik Informatika
Suyanto. 2014. Artificial Intelligence: Searching-
Reasoning-Planning-Learning. Bandung: Informatika.
Peirce, C. S. (1955). Abduction and induction. The Journal
of Philosophy, 52(7), 157-163.
Kolodner, J. L. (1993). Case-based reasoning. Morgan
Kaufmann.
Mitchell, T. M. (1997). Machine Learning. McGraw Hill.
3.
4. MACHINE LEARNING
Cabang kecerdasan buatan dan ilmu komputer yang
fokus pada penggunaan data dan algoritma untuk
meniru cara manusia belajar, secara bertahap
meningkatkan akurasinya.
5.
6. METODE MACHINE LEARNING
Machine Learning Presentation 2023
01 03
02
Supervised Learning Unsupervised Learning Reinforcement Learning
Tipe machine learning yang memerlukan
data yang sudah diberi label untuk
melakukan prediksi.
Tipe pembelajaran mesin di mana mesin
diberi data masukan tanpa label atau
output yang diinginkan.
Tipe pembelajaran mesin di mana
mesin belajar melalui interaksi
dengan lingkungan yang dinamis
dengan mencoba memaksimalkan
hadiah atau mengurangi hukuman.
7.
8. Opel Astra
METODE MACHINE LEARNING
Machine Learning Presentation 2023
01
Supervised Learning
Tipe machine learning yang memerlukan
data yang sudah diberi label untuk
melakukan prediksi.
Contoh:
Pada kasus klasifikasi gambar, mesin diberi serangkaian gambar mobil
dan truk yang telah diberi label. Setelah melatih mesin, mesin dapat
memprediksi dengan tepat apakah gambar yang diberikan adalah mobil
atau truk.
Mobil Truk ?
9. METODE MACHINE LEARNING
Machine Learning Presentation 2023
01 Supervised Learning
Tipe machine learning yang memerlukan data yang sudah diberi label untuk melakukan
prediksi.
Algoritma:
Support Vector Machine (SVM), Regresi Linear, K-Nearest Neighbor, Naive Bayes,
Random Forest, Neural Networks, Decision Tree.
10. SUPPORT VECTOR MACHINE (SVM)
Machine Learning Presentation 2023
Metode klasifikasi jenis terpandu (supervised) karena ketika proses pelatihan,
diperlukan target pembelajaran tertentu.
SVM merupakan algoritma yang bekerja menggunakan pemetaan nonlinear
untuk mengubah data pelatihan asli ke dimensi yang lebih tinggi.
SVM muncul pertama kali pada tahun 1992 oleh Vladimir Vapnik bersama
Bernhard Boser dan Isabelle Guyon.
SVM adalah algoritma supervised untuk klasifikasi yang bekerja dengan cara
mencari hyperplane dengan margin terbesar.
SVM sudah ada sejak tahun 1960an (termasuk karya awal oleh vapnik dan
Alexei Chervonenkis pada teori belajar statistik).
SVM dapat digunakan untuk prediksi dan klasifikasi.
11. SUPPORT VECTOR MACHINE (SVM)
Machine Learning Presentation 2023
Kelebihan Kekurangan
Waktu pelatihan SVM kebanyakan lambat,
tetapi metode ini sangat akurat karena
kemampuannya untuk menangani model-
model nonlinear yang kompleks.
SVM kurang rentan terhadap overfitting
dibandingkan metode lainnya.
Underfitting berarti model memiliki skor
akurasi yang rendah pada data training
dan data testing. Overfitting memiliki
skor akurasi tinggi pada data training,
tetapi skor rendah pada data testing. Ini
berarti model yang dibuat tidak
digeneralisasi.
12. SUPPORT VECTOR MACHINE (SVM)
Machine Learning Presentation 2023
Penerapan Identifikasi suara
Deteksi tulisan tangan
Pengenalan obyek
dll
16. SUPPORT VECTOR MACHINE
(CARA KERJA)
Machine Learning Presentation 2023
SUPPORT VECTOR MACHINE (SVM)
Support Vectors
Hyperplane
(Max) Margin
17. SUPPORT VECTOR MACHINE
(CARA KERJA)
Machine Learning Presentation 2023
SUPPORT VECTOR MACHINE (SVM)
Support Vectors
Hyperplane
(Max) Margin
Dua data yang memiliki jarak terdekat yang berasal dari kelas atau kelompok
yang berbeda.
20. SUPPORT VECTOR MACHINE
(CARA KERJA)
Machine Learning Presentation 2023
SUPPORT VECTOR MACHINE (SVM)
Support Vectors
Hyperplane
(Max) Margin
Dua data yang memiliki jarak terdekat yang berasal dari kelas atau kelompok
yang berbeda.
Garis pembatas antar support vectors.
22. SUPPORT VECTOR MACHINE
(CARA KERJA)
Machine Learning Presentation 2023
SUPPORT VECTOR MACHINE (SVM)
Support Vectors
Hyperplane
(Max) Margin
Dua data yang memiliki jarak terdekat yang berasal dari kelas atau kelompok
yang berbeda.
Garis pembatas antar support vectors.
Jarak antara support vectors dengan hyperplane.
32. POHON KEPUTUSAN (DECISION TREE)
Machine Learning Presentation 2023
Akar
Ranting
Daun
Akar
Ranting
Daun
33. POHON KEPUTUSAN (DECISION TREE)
Machine Learning Presentation 2023
Pohon keputusan tool yang populer
untuk klasifikasi dan prediksi. Pohon
keputusan adalah struktur pohon
seperti diagram alur, di mana setiap
simpul internal menunjukkan pengujian
pada atribut, setiap cabang mewakili
hasil pengujian, dan setiap simpul daun
(simpul terminal) memegang label
kelas.
Pohon Keputusan untuk konsep bermain tenis
35. POHON KEPUTUSAN (DECISION TREE)
Machine Learning Presentation 2023
Konstruksi Pohon Keputusan
Sebuah pohon dapat "dipelajari" dengan membagi set sumber menjadi subset berdasarkan tes
nilai atribut. Proses ini diulang pada setiap subset turunan secara rekursif yang disebut partisi
rekursif (recursive partitioning).
Rekursi selesai ketika subset pada node semua memiliki nilai variabel target yang sama, atau
ketika dilakukan pemisahan tidak lagi menambah nilai prediksi.
Konstruksi pengklasifikasi pohon keputusan tidak memerlukan pengetahuan domain atau
pengaturan parameter, dan oleh karena itu sesuai untuk penemuan pengetahuan eksplorasi.
Pohon keputusan dapat menangani data berdimensi tinggi.
Secara umum pengklasifikasi pohon keputusan memiliki akurasi yang baik. Induksi pohon
keputusan adalah pendekatan induktif yang khas untuk mempelajari pengetahuan tentang
klasifikasi.
36. POHON KEPUTUSAN (DECISION TREE)
Machine Learning Presentation 2023
Representasi Pohon Keputusan
(Outlook = Sunny ^ Humidity = Normal) v
(Outlook = Overcast) v (Outlook = Rain ^ Wind =
Weak)
37. METODE MACHINE LEARNING
Machine Learning Presentation 2023
02
Unsupervised Learning
Tipe pembelajaran mesin di mana mesin
diberi data masukan tanpa label atau
output yang diinginkan.
Contoh:
Mesin diberi serangkaian data konsumen dan diberi tugas untuk
mengelompokkan konsumen ke dalam kelompok yang berbeda
berdasarkan perilaku pembelian mereka. Mesin akan menemukan pola
dalam data dan mengelompokkan konsumen ke dalam kelompok-
kelompok yang serupa.
39. Diberikan data profil pelanggan, bagaimana memilih data pelanggan yang potensial untuk
ditawarkan produk tertentu?
40. Diberikan data profil pelanggan, bagaimana memilih data pelanggan yang potensial
untuk ditawarkan produk tertentu?
Kita diminta untuk
mengelompokkan data
customer di samping
berdasarkan kesamaan
profil pelanggan.
Customer Segmentation
Clustering
42. Klasterisasi
Klasterisasi mengelompokkan data secara otomatis tanpa perlu diberitahu label
kelasnya.
Klasterisasi atau clustering adalah proses pengelompokan himpunan data ke dalam
beberapa group atau klaster sedemikian hingga objek-objek dalam suatu klaster
memiliki kemiripan yang tinggi, namun sangat berbeda (memiliki ketidakmiripan yang
tinggi) dengan objek-objek di klaster-klaster lainnya (J Han et al. 2012).
Kemiripan (similarities) dan ketidakmiripan (dissimilarities) dihitung berdasarkan
nilai-nilai atribut yang menggambarkan objek-objek tersebut dan seringkali
melibatkan ukuran jarak.
Kecerdasan Buatan
43. Penerapan Klasterisasi
Retail/Marketing
Analisis pola transaksi yang dilakukan pelanggan
Rekomendasi buku, film, atau produk baru untuk pelanggan
baru
Perbankan
Deteksi fraud dalam transaksi perbankan
Pengelompokan nasabah (program loyalitas
nasabah)
Asuransi
Deteksi fraud dalam klaim asuransi
Analisis risiko asuransi bagi pelanggan
Berita dan Penerbitan
Kategorisasi berita secara otomatis
Rekomendasi artikel/berita baru
44. Penggunaan
Algoritma Clustering
Exploratory Data Analysis
Generate Rangkuman (summary generation)
Deteksi Pencilan (outlier detection)
Mencari duplikat (finding duplicates)
Tahap pra-pemrosesan data
Kompresi data/image
Optimasi algoritma k-NN
dll
45. Kategori Metode
Klasterisasi
k-Means
k-Modes
k-Medoids
Fuzzy c-Means
dll
Metode berbasis partisi
(partitioning methods)
Ukuran Jarak
BIRCH (Balanced Iterative
Reducing and Clustering)
Chameleon
Agglomerative
Divisive, dll
Metode berbasis hirarki
(hierarchical methods)
DBSCAN
OPTICS
DENCLUE
dll
Metode berbasis kepadatan
(density-based methods)
STING
CLIQUE
dll
Metode berbasis kisi
(grid-based methods)
46. Algoritma K-Means Clustering
Klasterisasi
K-Means merupakan algoritma klasterisasi yang paling tua dan paling banyak digunakan.
Algoritma K-Means bersifat iteratif yang mencoba untuk mempartisi dataset menjadi
subkelompok nonoverlapping berbeda yang ditentukan oleh K (cluster) di mana setiap titik
data hanya dimiliki oleh satu kelompok.
K-Means mencoba membuat titik data intracluster semirip mungkin dengan titik data yang
lain pada satu cluster.
K-Means menetapkan poin data ke cluster sedemikian rupa sehingga jumlah jarak kuadrat
antara titik data dan pusat data cluster (centroid) adalah minimal.
Ide dasar algoritma K-Means adalah meminimalkan Sum of Squared Error (SSE) antara objek-
objek data dengan sejumlah k centroid.
47. Langkah Algoritma K-Means Clustering
Klasterisasi
Tentukan jumlah klaster (nilai K)
1.
Ditentukan dengan melihat kebutuhan atau tujuan klastering, melakukan pengujian jumlah k
yang tepat.
2. Inisialisasi nilai centroid awal setiap klaster secara acak
3. Hitung jarak setiap titik data dengan setiap centroid
4. Masukkan setiap titik data ke dalam klaster berdasarkan jarak terdekat dengan pusat klaster
5. Untuk setiap klaster, tentukan nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
6. Ulangi langkah 3-5 hingga tidak ada perubahan anggota klaster
48. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
Data Pelanggan
Diketahui terdapat data pelanggan. Kita diminta
untuk mengelompokkan data pelanggan menjadi
dua kelompok.
49. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
Tentukan Jumlah Klaster
1.
Dalam contoh kasus ini, klaster berjumlah 2.
Klaster 1 Klaster 2
50. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
2. Inisialisasi nilai centroid awal setiap klaster secara acak
Cara penentuan centroid awal:
Memilih salah satu data untuk atribut "Age"
dan "Income" secara acak.
Membangkitkan bilangan acak sesuai rentang
nilai "Age" dan "Income".
1.
2.
Misal, kita menentukan centroid awal
berdasarkan cara 1. Kita tentukan C1 = (41,19)
dan C2 = (47,100).
51. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
2. Inisialisasi nilai centroid awal setiap klaster secara acak
Misal, kita menentukan centroid awal berdasarkan
cara 1. Kita tentukan C1 = (41,19) dan C2 = (47,100).
52. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
3. Hitung jarak setiap titik data dengan setiap centroid.
Misal: menggunakan Euclidean Distance
53. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
4. Masukkan setiap titik data ke dalam klaster berdasarkan jarak terdekat dengan centroid
54. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
4. Masukkan setiap titik data ke dalam klaster berdasarkan jarak terdekat dengan centroid
Klaster 1 Klaster 2
Cust 1
Cust 3
Cust 4
Cust 7
Cust 9
Cust 2
Cust 5
Cust 6
Cust 8
Cust 10
55. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
56. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Nilai centroid baru C1?
57. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Centroid baru C1= (mean(41;33;29;38;26), mean(19;57;19;56;18)) = (33,4; 33,8)
58. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Nilai centroid baru C2?
59. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Centroid baru C2 = (mean(47;47;40;42;47), mean(100;253;81;64;115)) = (44,6; 122,6)
60. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
Pergeseran centroid setiap klaster. C1 = (33,4; 33,8) dan C2 = (44,6; 122,6)
62. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
6. Ulangi langkah 3-5 menggunakan centroid baru
Apakah hasil klasterisasinya sama dengan tahap sebelumnya?
Jika sama, hentikan proses klasterisasi
Jika belum sama, ulangi langkah 3-5
67. Optimasi Nilai k pada K-Means
Klasterisasi
Jumlah klaster (nilai k) merupakan salah satu faktor krusial baik atau tidaknya metode K-
Means. Hasil pengelompokan akan menghasilkan analisa yang berbeda untuk jumlah klaster
yang berbeda.
Semakin kecil nilai k, maka pembagian kluster menjadi cepat. Namun, mungkin ada informasi
tersembunyi yang tidak terungkap.
Semakin besar nilai k, maka akan terbentuk banyak klaster. Mungkin akan terlalu sulit untuk
membuat analisa atau memilih dukungan keputusan dari hasil klaster.
68. Optimasi Nilai k pada K-Means
Klasterisasi
Penentuan nilai k terbaik dapat dilakukan berdasarkan ukuran kualitas hasil klasterisasi.
Beberapa ukuran kualitas klaster:
Sum Square Error (SSE)
Davies Bouldin Index (DBI)
Silhoutte Coefficient
Rand Index
Mutual Information
Calinski-Harabasz Index (C-H Index)
Dunn Index
1.
2.
3.
4.
5.
6.
7.
69. Penentuan Nilai k Terbaik dengan Metode Elbow
Klasterisasi
Untuk mengetahui jumlah klaster yang
paling baik adalah dengan cara melihat
perbandingan kualitas klaster untuk
setiap pilihan nilai k (Misal: k=2,3,4,5, ...).
Nilai k yang dipilih adalah nilai k yang
memiliki perubahan kualitas signifikan,
seperti sebuah siku (elbow).
70. Referensi
Klasterisasi
Suyanto. 2019. Data Mining: Untuk Klasifikasi dan Klasterisasi Data. Bandung. Informatika
Achmad Solichin. 2021. Algoritma K-Means Clustering: Konsep dan Contoh Perhitungannya |
Unsupervised Learning. https://www.youtube.com/watch?v=oO0Wn_h8fe8. Diakses
November 2022.
71. METODE MACHINE LEARNING
Machine Learning Presentation 2023
03
Reinforcement Learning
Tipe pembelajaran mesin di mana mesin belajar melalui
interaksi dengan lingkungan yang dinamis dengan
mencoba memaksimalkan hadiah atau mengurangi
hukuman.
Contoh:
Mesin diinstruksikan untuk memainkan permainan catur
dan diberi hadiah ketika mesin memenangkan
permainan atau hukuman ketika mesin kalah. Setelah
melatih mesin selama beberapa waktu, mesin belajar
strategi terbaik untuk memenangkan permainan.