Machine Learning Diskusi 7.pdf

1
Machine Learning
Pertemuan 7
Supervised Learning: SVM (Support Vector
Machine)
Gambar 1. Algoritma Support Vector machine
Sejarah
Dalam pembelajaran mesin, Support Vector Machine (SVM) juga mendukung jaringan vektor
adalah model pembelajaran yang diawasi dengan algoritma pembelajarann terkait yang
menganalisis data untuk klasifikasi dan analisis regresi. Dikembangkan di AT & T Bell
Laboratories oleh Vladimir Vapnik dengan rekan (Boser et al. , 1993, Cortes dan Vapnik, 1995,
Vapnik at al., 1997. SVM adalah salah satu metode prediksi yang paling kuat, yang didasarkan
pada kerangka kerja pembelajaran statistik atau teori VC diusulkan oleh Vapnik (1982, 1995)
dan Shervonenkis (1974). Mengingat satu set contoh penelitian, masing-masing ditandai
sebagai milik salah satu dari dua kategori, algoritma pelatihan SVM membangun model yang
memberikan contoh baru ke satu kategori atau yang lain, menjadikannya pengklasifikasi linear
biner non-probalistik (meskipun metode seperti penskalaan Platt ada untuk mengunakan SVM
dalam lpengaturan klasifikasi probabilistik). SVM memetakkan contoh pelatihan ke titik-titik
dalam ruang angkasa untuk memaksimalkan lebar kesenjangan antara dua kategori. Contoh-
contoh baru kemudian dipetakkan ke dalam ruang yang sama dan diprediksi termasuk dalam
kategori berdasarkan sisi celah mana mereka jatuh.
Selain melakukan klasifikasi linear, SVM dapat secara evisien melakukan klasifikasi non-linear
menggunakan apa yang disebut trik kernel, secara implisit memetakkan input mereka ke dalam
ruang fitur dimensi tinggi.
Algoritma pengelompokan vektor dukungan, yang dibuat oleh Hava Siegelmann dan Vladimir
Vapnik, menerapkan statistik vektor dukungan, yang dikembangkan dalam algoritma mesin
vektor dukungan, untuk mengkategorikan data yang tidak berlabel. Kumpulan data ini
memerlukan pendekatan pembelajaran tanpa pengawasan, yang mencoba menemukan
pengelompokan alami data ke kelompok dan kemudian untuk memetakkan data baru sesuai
dengan kelompok ini.
• SVM adalah algoritme supervised learning yang dikembangkan oleh Vladimir Vapnik dan
diperkenalkan pertama kali pada tahun 1992 oleh Vapnik, Boser dan Guyon pada
Computational Learning Theory (COLT) 1992.
(dikatakan Vladimir Vapnik telah mengemukakan idenya pada tahun 1979 di salah satu
papernya, tetapi mulai berkembang pada tahun 90-an)

2
Pengertian
Permasalahan klasifikasi dengan SVM dapat dirumuskan sebagai berikut. Jika diberikan satu
himpunan data S = {(𝑥𝑖, 𝑡𝑖)} dimana setiap sampel (𝑥𝑖,𝑡𝑖) terdiri dari variabel data 𝑥𝑖 yang
dipresentasikan dengan m buah fitur (𝑥1𝑖, 𝑥2𝑖,… ,𝑥𝑚𝑖,), dan variabel target 𝑥𝑡𝑖, merupakan data
kategorikal. Untuk menyederhanakan, ruang lingkup penjelasan di dalam sub-bab ini dibatasi
kepada: (i) klasifikasi bersifat biner yaitu data terbagi ke dalam dua kategori dengan nilai
variabel target 𝑡𝑖, ∈ {-1, 1}, dan (ii) data bersifat linearly separable sehingga bisa dibuat sebuah
hyperplane untuk memisahkan kedua kategori data tersebut.
Model linear SVM adalah model klasifikasi yang dapat direpresentasikan dengan persamaan:
y(𝒙𝒊 ) = 𝒘𝒕
+ 𝒘𝟎
dimana y(𝑥𝑖 ) berfungsi sebagai prediksi dari 𝒕𝒊, w adalah vektor weight (parameter model),
𝒙𝒊 adalah variabel data, dan 𝒘𝟎 adalah bias.
Gambar 2. Geometri dari Hyperplane di dalam Ruang Dua Dimensi
Berdasarkan geometri vektor (lihat gambar 2), model SVM di atas merupakan sebuah
hyperplane dimana:
1) w = (
𝑤1
.
.
.
𝑤𝑚
) =
(
𝜕𝑦(𝑥𝑖)
𝑥1𝑖,
.
.
.
𝜕𝑦(𝑥𝑖)
𝑥𝑚𝑖, )
merupakan normal atau vektor yang bersifat ortogonal (tegak lurus)
terhadap hyperplane y(𝒙𝒊 ),
2)
𝒘𝟎
||𝒘||
adalah jarak tegak lurus hyperplane terhadap titik awal.
Nilai y(x) untuk setiap data x adalah sebagai berikut:
1) y(x) = 0, jika data x terletak pada hyperplane,
2) y(x) ≥ 1, jika data x memiliki variabel target 𝒕𝒊 = 1,
𝑥1
𝑥2
𝑅1
𝑅1
y > 0
y = 0
y < 0
w
x1
𝑦(𝑥)
||𝑤||
−𝑤0
||𝑤||
x
(1)

3
3) y(x) ≤ 1, jika data x memiliki variabel target 𝒕𝒊 = -1
Dengan demikian untuk setiap data x berlaku:
(𝒕𝒊 y(x)) – 1 ≥ 0
Model SVM bertujuan untuk memprediksi sebuah hyperplane di dalam ruang dimensi m untuk
mengklasifikasikan data di dalam ruang di mana data berada. Secara umum, sebuah hyperplane
adalah sub-ruang berdimensi m – 1 dari ruang berdimensi m. Sebagai contoh, di dalam sebuah
bidang dua dimensi: sebuah hyperplane merupakan sebuah garis. Demikian pula, di dalam
sebuah ruang tiga dimensi: sebuah hyperplane merupakan sebuah bidang. Alasan digunakan
margin maksimum adalah agar generalization error model SVM lebih kecil dibandingkan
generalization error model SVM yang menggunakan margin yang lebih kecil (Raschka, 2015).
Model SVM untuk klasifikasi biner dapat dijelaskan secara sederhana menggunakan data di
dalam ruang dua dimensi. Sebagai contoh data yang akan diklasifikasikan berupa sebuah
himpunan terdiri dari 12 data. Setiap data x direpresentasikan sebagai vektor dari dua variabel
atau x = (𝑥1,𝑥2) dan setiap data diberi label 𝑡𝑖: 1 atau -1. Dari gambar 3. (a), terlihat sejumlah
alternatif hyperplane yang dapat dibuat sebagai pemisah kedua kategori data tersebut. Setiap
hyperplane dapat dinyatakan dengan persamaan:
y(x) = 𝒘𝟏𝒙𝟏 + 𝒘𝟐𝒙𝟐 + 𝒘𝟎
Dengan notasi vektor, persamaan di atas dapat dinyatakan sebagai:
y(x) = (𝒘𝟏𝒘𝟐) (𝒙𝟏
𝒙𝟐
) + 𝒘𝟎
atau:
y(x) = 𝒘𝑻
x + 𝒘𝟎
Selanjutnya akan diuraikan bagaimana proses pembelajaran model SVM untuk memilih sebuah
hyperplane dengan margin maksimum sebagai pemisah kedua kategori data. Di dalam gambar
3(b), data yang terletak pada garis margin dari optimal hyperplane disebut sebagai support
vector. Support vector sangat penting karena apabila data ini berubah atau dihilangkan maka
garis margin model SVM dapat berubah.
Garis margin yang berada disebelah kanan hyperplane (hyperplane positif) sebagai pembatas
data 𝑥𝑝𝑜𝑠 yaitu data dengan label 1 dapat dinyatakan dengan persamaan:
𝒘𝟎 + 𝒘𝑻
𝒙𝒑𝒐𝒔 = 1
Gambar 3.
+
+
+
+
+
+
o
o
o
o
o
o 𝑥1
𝑥2
+
𝑥1
𝑥2
+
+
+
+
+
o
o
o
o
o o
Margin
w
Support vectors
“positive
hyperplane”
𝒘𝑻
x = 1
“positive
hyperplane”
𝒘𝑻
x = -1
Decision boundary
𝒘𝑻
x = 0
Which hyperplane? SVM: Maximize the margin
(a) (b)
(2)
(3)
(4)
(5)
(6)

4
Garis margin di sebelah kiri hyperplane (hyperplane negatif) sebagai pembatas data 𝒙𝒏𝒆𝒈 yaitu
data dengan label -1 dapat dinyatakan dengan persamaan:
𝒘𝟎 + 𝒘𝑻
𝒙𝒏𝒆𝒈 = -1
Pengurangan persamaan (6) dan persamaan (7) menjadi:
𝒘𝑻
(𝒙𝒑𝒐𝒔−𝒙𝒏𝒆𝒈) = 2
Hasil bagi dengan ||w|| diperoleh hasil:
𝒘𝑻 (𝒙𝒑𝒐𝒔−𝒙𝒏𝒆𝒈)
||𝒘||
=
𝟐
||𝒘||
Suku
𝒘𝑻 (𝒙𝒑𝒐𝒔−𝒙𝒏𝒆𝒈)
||𝒘||
di sebelah kiri persamaan () adalah margin atau jarak dari hyperplane
negatif yang akan dimaksimumkan. Dengan demikian, tujuan optimasi dari SVM adalah
memaksimumkan margin
𝟐
||𝒘||
atau meminimumkan:
1
2
||𝑤||2
dengan kendala: (𝑡𝑖 y(x)) – 1 ≥
0. Sehingga masalah optimisasi margin yang maksimum dari sebuah hyperplane dapat
direpresentasikan sebagai optimisasi:
Meminimumkan:
1
2
||𝑤||2
Kendala: 𝑡𝑖(𝒘𝑻
x + 𝒘𝟎) – 1 ≥ 0 untuk seluruh i.
Salah satu solusi dari masalah optimisasi di atas dapat diperoleh menggunakan teknik Lagrange
Multiplier untuk meminimisasi Primal Form dari problem optimisasi sebagai berikut:
𝑳𝒑 =
𝟏
𝟐
||𝒘||𝟐
- ∑ 𝒂𝒊
𝒏
𝒊=𝟏 [𝒕𝒊(𝒘𝑻
x + 𝒘𝟎) -1]
=
𝟏
𝟐
||𝒘||𝟐
- ∑ 𝒂𝒊
𝒏
𝒊=𝟏 [𝒕𝒊(𝒘𝑻
x + 𝒘𝟎) ] - ∑ 𝑵𝒂𝒊
𝒏
𝒊=𝟏
𝝏𝑳𝒑
𝝏𝒘
= w - ∑ 𝒂𝒊
𝒏
𝒊=𝟏 𝒕𝒊𝒙𝒊 = 0
𝝏𝑳𝒑
𝝏𝒘
= ∑ 𝒂𝒊
𝒏
𝒊=𝟏 𝒕𝒊𝒙𝒊 = 0
Mensubtitusi persamaan (14) dan (15) ke dalam persamaan (13) menghasilkan persamaan Dual
Form sebagai target maksimisasi sebagai berikut:
𝐿𝐷 = ∑ 𝑎𝑖
𝑛
𝑖=1 -
1
2
∑ 𝑎𝑖𝑎𝑗𝑡𝑖𝑡𝑗
𝑛
𝑖,𝑗 (𝑥𝑖. 𝑥𝑗)
Dengan konstrain:
𝑎𝑖 ≥ 0 untuk seluruh I dan ∑ 𝑎𝑖𝑡𝑖
𝑛
𝑖=1 = 0.
Menggunakan teknik quadratic optimization diperoleh solusi sebagai berikut:
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
(17)
(18)

5
Y(X) = sign (∑ 𝑎𝑖𝑡𝑖
𝑛
𝑖=1 (𝑥𝑖. 𝑥𝑖)
Penjelasan mengenai proses optimisasi di atas diuraikan secara detail di dalam (Buges, 1998)
dan (Bishop, 2006).
Motivasi
• Bertahun-tahun metode Neural Network (NN) menjadi ultimate champion untuk
memecahkan permasalahan klasifikasi. NN adalah algoritme learning yang paling efektif ->
sampai kemudian hadir SVM!
• SVM jauh lebih evektif dari NN. SVM mampu melakukan generalisasi dengan baik dan
mudah dalam pelatihannya (training)’
• SVM juga tidak pernah menghasilkan local optima, salah satu permasalahan yang dimiliki
oleh NN yaitu memungkinkan memiliki banyak local optima dan memerlukan waktu yang
lama untuk terjadinya konvergensi.
Pendekatan dengan Machine Learning: Terminologi Dasar
• Training set: N data { 𝑥1, …. , 𝑥𝑛}
- Digunakan untuk tuning parameter dari model
- Kategori dari data training set telah diketahui sebelumnya
• Target vector: vektor unik t untuk tiap target
- Merepresentasikan identitas dari data yang bersesuaian
• Learned function: y(x)
- Training phase (learning phase) -> proses untuk menentukan y(X) berdasarkan training
data.
• Test set: data yang tidak terdapat pada training set
- Setelah model selesai dilatih, model dapat menentukan kategori dari data baru
- Kemampuan untuk mengkategorikan dengan benar data baru yang berbeda dengan data
yang digunakan pada training set -> GENERALISASI
Implementasi SVM pada Dunia Nyata
• SVM telah berhasil diterapkan di berbagai aplikasi pada masalah-masalah yang kompleks di
dunia nyata, seperti klasifikasi teks dan citra, pengenalan tulisan tangan, data mining,
bioinformatika, analisis farmakologi dan biosequence, dan lain-lain.
• Pada banyak aplikasi SVM menjadi pilihan terbaik.
Definisi Masalah
- Diberikan sekumpulan n titik (vektor):
𝑥1, 𝑥2,……….𝑥𝑛 di mana 𝑥𝑖 adalah vektor dengan panjang m dan masing-masing adalah
anggota salah satu dari dua kelas yang memiliki label +1 dan -1.
- Maka training set nya adalah:
(𝒙𝟏, 𝒚𝟏), (𝒙𝟐, 𝒚𝟐),….(𝒙𝒏, 𝒚𝒏)
∀𝒊 𝒙𝒊 ∈ 𝑹𝒎
, 𝒚𝒊 ∈ {+1, -1}
- Diinginkan untuk menemukan hyperplane w . x + b = 0
Yang memisahkan titik-titik tersebut ke dalam dua kelas “Positif” (kelas +1) dan “Negatif”
(kelas -1).
(Diasumsikan titik-titik tersebut dapat dipisahkan secara linear)
Fungsi keputusannya
berupa
f(x) = sign (w.x +b)

6
Hyperplane Pemisah
Gambar 4. Hyperplane pemisah
Gambar 5. Hyperplane pemisah mana yang dipilih?
Memilih Hyperplane Pemisah
▪ Misalkan dipilih hyperplane yang dekat dengan sample 𝑥𝑖
▪ Selanjutnya misal terdapat titik baru 𝑥′
yang merupakan kelas -1 dan dekat dengan 𝑥𝑖.
Dengan menggunakan fungsi klasifikasi f (x) titik 𝑥′
misclasified!
Gambar 6. Generalisasi yang buruk
▪ Hyperplane seharusnya sejauh mungkin dari titik sampel.
▪ Dengan demikian data baru yang dekat dengan sampel data akan diklasifikasikan dengan
benar.

7
Gambar 7. Generalisasi yang baik
▪ Ide dasar dari SVM adalah memaksimalkan distance (jarak) antara hyperplane dan
titik sample terdekat.
Gambar 8. Memaksimalkan distance (jarak)
▪ Tujuan SVM adalah memaksimalkan margin yang besarnya dua kali jarak “d” antara
hyperplane pemisah dan sampel terdekat.
Gambar 9. Margin

8
Gambar 10. Hyperplane dan margin dapat dipersempit atau diperlebar

9
Gambar 13. Mendapatkan hyperplane dengan margin yang maksimal

10
Gambar 14. Hyperplane dengan persamaan 𝒘𝑻
x + b = 0
Gambar 15. Vektor normal w menentukan orientasi dari hyperplane

11

12

13
Gambar 21. Bias b menetukan pergeseran dari titik asal/pusat (origin)

14

15

16

17

18
Gambar 30. Dengan mengubah sudut dari vektor normal w, margin dapat diorientasikan
Gambar 31. Dengan mengubah sudut dari vektor normal w, margin dapat diorientasikan

19
Gambar 32. Jika ingin mwnggeser margin, dapat dilakukan dengan memperbesar atau
memperkecil bias b
memperkecil bias b

20
memperkecil bias b
memperkecil bias b

21
Gambar 36. Margin (m) sama dengan 2 dibagi dengan panjang vektor normalnya
Gambar 37. Margin (m) sama dengan 2 dibagi dengan panjang vektor normalnya

22
Gambar 38. Makin besar/panjang vektor normalnya makin sempit marginnya
Gambar 39. Makin besar/panjang vektor normalnya makin sempit marginnya

23
Gambar 40. Makin kecil panjang vektor normalnya, makin lebar marginnya (m)
Gambar 41. Makin kecil panjang vektor normalnya, makin lebar marginnya (m)

24
Referensi
Syahid Abdullah, S. M. (2023). Machine Learning. Dalam S. M. Syahid Abdullah, Supervised Learning:
SVM (Support Vector Machine) (hal. 1 - 50). Jakarta: Informatika UNSIA.
Wahyono, T. (2021). FUNDAMENTAL OF PYTHON FOR MACHINE LEARNING. Yogyakarta: Gava
Media.
Website: https://www.slideshare.net/HendroGunawan8/machine-learning-diskusi-7pdf

Machine Learning Diskusi 7.pdf

Recommended

Recommended

More Related Content

Similar to Machine Learning Diskusi 7.pdf

Similar to Machine Learning Diskusi 7.pdf (20)

More from HendroGunawan8

More from HendroGunawan8 (20)

Recently uploaded

Recently uploaded (20)

Machine Learning Diskusi 7.pdf