Data Mining Klasifikasi (Updated 30 Desember 2020)

Manajemen
DATA
Adam Mukharil Bachtiar,
M.T.
Data Mining Klasifikasi

Pemahaman Awal Data Mining Klasifikasi

apa itu Data Mining
Klasifikasi?

Ekstraksi pengetahuan berupa nilai (berbentuk label kelas) dari
sebuah atribut/variabel berdasarkan nilai dari atribut/variabel lainnya
(Supervised Learning)

Gambaran Umum Data Mining Klasifikasi

Gambaran Umum Data Mining Klasifikasi (2)

Data mining klasifikasi bisa
digunakan untuk memprediksi
kelas data dari data yang baru
berdasarkan predetermined class
dari data yang sudah ada

Pada proses klasifikasi akan dikenal
dua jenis data yaitu data latih
(training data) dan data uji (testing
data)

Data latih adalah data yang sudah
ada sebelumnya berdasarkan fakta
yang sudah terjadi (predefined
class)

Data uji adalah data yang sudah
berkelas/berlabel yang digunakan
untuk menghitung akurasi model
klasifikasi yang dibentuk

Bagaimana proses untuk melakukan
Data Mining Klasifikasi?

1. Model Construction:
Merepresentasikan rule klasifikasi,
decision tree, atau pun formula
matematika berdasarkan data latih

2. Model Usage:
Mengestimasi akurasi dari model
menggunakan data uji kemudian apabila
akurasi dapat diterima maka berikutnya
melabelkan data baru yang belum
berlabel

Terdapat beberapa algoritma
yang bisa digunakan untuk
klasifikasi di antaranya
algoritma naïve bayes, K-NN,
dan ID3

Penjelasan Algoritma Klasifikasi

Section 1:
Algoritma Naïve Bayes

Metode Naïve Bayes
menggunakan konsep
teorema Bayesian dalam
melakukan proses
klasifikasi

Contoh Kasus Klasifikasi
age income student credit_rating buys_computer
youth high no fair no
youth high no excellent no
middle_age high no fair yes
senior medium no fair yes
senior low yes fair yes
senior low yes excellent no
middle_age low yes excellent yes
youth medium no fair no
youth low yes fair yes
youth medium yes fair yes
senior medium yes excellent yes
youth medium no excellent yes
middle_age high yes fair yes
middle_age medium no excellent no
youth medium yes fair ?X
:

Langkah 1:
Cari P(Ci) dimana i adalah kelas data
yang ada pada data latih

•P(buys_computer = “yes”) = 9/14 = 0.643
•P(buys_computer = “no”) = 5/14= 0.357
buys_computer
no
no
yes
yes
yes
no
yes
no
yes
yes
yes
yes
yes
no

Langkah 2:
Hitung P(X|Ci) dimana X dengan persamaan:
)|(...)|()|(
1
)|()|(
21
CixPCixPCixP
n
k
CixPCiP
n
k



X

1. Hitung P(x|Ci) untuk “buys_computer” = yes
• P(age = “youth” | buys_computer = “yes”) = 3/9 = 0.333
• P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444
• P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667
• P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667
P(X|Ci) :
P(X|buys_computer = “yes”) = 0.333 x 0.444 x 0.667 x 0.667 = 0.066
youth medium yes fair ?

2. Compute P(X|Ci) for “buy_computer” = no
• P(age = “youth” | buys_computer = “no”) = 3/5 = 0.6
• P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4
• P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2
• P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4
P(X|Ci) :
P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019
youth medium yes fair ?

Langkah 3:
Hitung P(Ci|X) dengan persamaan:
)()|()|(
i
CP
i
CP
i
CP XX 

Langkah 4:
Pilih kelas berdasarkan aturan:
X termasuk dalam class Ci jika
𝑷 𝑪𝒊 𝑿 > 𝑷 𝑪𝒋 𝑿 𝒖𝒏𝒕𝒖𝒌 𝟏 ≤ 𝒋 ≤ 𝒎; 𝒋 ≠ 𝒊

X merupakan anggota class (“buys_computer = yes”)
karena P(X|C=yes) > P(X|C=no)
youth medium yes fair yesX

metode untuk melakukan
klasifikasi terhadap objek
berdasarkan pembelajaran data
yang jaraknya paling dekat
dengan objek tersebut.

Contoh Kasus
Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh
4 2 4 Tidak
7 1 3 Ya
10 5 2 Tidak
8 5 4 Tidak
7 5 2 Ya
4 2 4 Ya
6 5 1 Tidak
6 2 5 Ya
8 2 5 Tidak
5 5 3 Ya
7 3 4 ?

Langkah 1:
Tentukan nilai parameter k
(jumlah tetangga pembanding).
Dalam kasus ini kita tentukan 3.

Nilai K disarankan ganjil agar
hasil rasio perbandingan antar
kelas tidak berimbang.

Langkah 2:
Menghitung kuadrat jarak euclidean
data yang mau diklasifikasi terhadap
data training yang diberikan
menggunakan rumus:
𝑑𝑖𝑠𝑡 𝑥, 𝑦 =
𝑖=1
𝑛
(𝑥𝑖 − 𝑦𝑖)2

Cara menghitung jarak eucliden objek
Jarak Tiang Kedalaman
Pondasi
Lama Pembangunan
4 2 4
7 3 4
Jarak eucliden data uji terhadap data latih ke-1
Perhitungan jarak eucliden data ke 1 = (7 − 4)2+(3 − 2)2+(4 − 4)2= 3,162
Pada perhitungan jarak euclide antara data uji dengan data latih ke-1 diperoleh nilai 3,162.
Lakukan proses perhitungan jarak untuk setiap data latih yang ada.

Hasil perhitungan jarak eucliden untuk setiap data latih:
Perhitungan jarak eucliden data ke 10 = (7 − 5)2+(3 − 5)2+(4 − 3)2= 3

Sehingga diperoleh perhitungan jarak Euclidean:
Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh Jarak Eucliden
4 2 4 Tidak 3,162
7 1 3 Ya 2,236
10 5 2 Tidak 4,123
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
5 5 3 Ya 3

Langkah 3:
Mengurutkan hasil perhitungan jarak
euclidean objek terhadap data training
yang diberikan
(berurut dari nilai terkecil ke tertinggi)

Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
5 5 3 Ya 3
4 2 4 Tidak 3,162
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
10 5 2 Tidak 4,123

Langkah 4:
Mengumpulkan baris data latih yang
termasuk tetangga berdasarkan nilai k

Pondasi
Lama
Pembangunan
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
5 5 3 Ya 3
4 2 4 Tidak 3,162
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
10 5 2 Tidak 4,123
Nilai k yang kita tentukan adalah 3

Langkah 5:
Lihat klasifikasi nearest neighbor yang
paling mayoritas

Pondasi
Lama
Pembangunan
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
Nilai k yang kita tentukan adalah 3
Kesimpulan:
Dengan mengurutkan jarak terkecil, semisal diambil k=3, maka
perbandingannya adalah 2(Ya) > 1(Tidak) untuk kelas cepat roboh.
Maka dapat disimpulkan apabila jarak tiang 7, kedalaman pondasi 3, dan lama
pembangunan 4 maka dia masuk ke dalam kelas cepat roboh “Ya”

Iterative Dichotomicer 3
(ID3) adalah algoritma
decision tree learning yang
paling dasar.

Algoritma ini melakukan
pencarian secara menyeluruh
pada semua kemungkinan
pohon keputusan.

Ide dasar:
Memanfaatkan nilai entropy (S) dan
Information Gain untuk membentuk
pohon keputusan

Pemilihan node ditentukan
gain masing-masing atribut.
Value dari atribut Outlook
Keputusan

Langkah 1:
Cari A dimana A merupakan atribut
keputusan terbaik untuk node
berikutnya.

Langkah 2:
Jadikan A sebagai node atribut
keputusan.

Langkah 3:
Untuk setiap jenis nilai A, buat node
descedant

Langkah 4:
Urutkan training examples menjadi leaf
node

Langkah 5:
if training examples diklasifikasikan
secara sempurna, then STOP, else
lanjut membentuk leaf node

Rumus Entropy:
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 =
𝑗=1
𝑘
−𝑝𝑗 log2 𝑝𝑗
Dimana:
• S adalah himpunan (dataset) kasus
• K adalah jumlah kelas data S
• 𝑝𝑗adalah probabilitas kelas data j terhadap total S
Catatan:
Entropy(S) akan bernilai 1 jika antar kelas data di S berjumlah sama dan
bernilai 0 jika hanya ada 1 kelas di S.

Rumus Information Gain:
𝐺𝑎𝑖𝑛 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 −
𝑖=1
𝑘
𝑆𝑖
𝑆
𝑥 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)
Dimana:
• S adalah ruang (data) training
• A adalah atribut
• |𝑆𝑖| adalah jumlah sample untuk nilai V
• |𝑆| adalah jumlah seluruh sample data
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) adalah entropy untuk sample yang memiliki nilai i

Humidity
S: [9+, 5-]
E = 0.940
High Normal
[3+, 4-]
E = 0.985
[6+, 1-]
E = 0.592
Wind
S: [9+, 5-]
E = 0.940
Weak Strong
[6+, 2-]
E = 0.811
[3+, 3-]
E = 1
Gain(S, Humidity)
= .940 - (7/14).985- (7/14).592
= .151
Gain(S, Wind)
= .940 - (8/14).811 - (6/14).1
= .048
Outlook
S: [9+, 5-]
E = 0.940
Sunny Rain
[3+, 2-]
E = 0.971
Gain(S, Outlook)
= .940 - (5/14).971 - (4/14).971 - 0
= .246
[2+, 3-]
E = 0.971
Overcast
Yes
[4+, 0-]
E = 0
Gain Terbesar
Temperature
S: [9+, 5-]
E = 0.940
Hot Cool
[3+, 1-]
E = 0.811
Gain(S, Temperature)
= .940 - (4/14)1 - (6/14).918 - (4/14).811
= .029
[2+, 2-]
E = 1
Mild
Yes
[4+, 2-]
E = 0.918

Outlook
{D1, D2, D3, .., D14}
S: [9+, 5-]
E = 0.940
Sunny Rain
Overcast
Yes
? ?
[2+, 3-]
{D1, D2, D8, D9, D11}
[4+, 0-]
{D3, D7, D12, D13}
[3+, 2-]
{D4, D5, D6, D10, D14}
Humidity
Day Outlook Temperature Humidity Wind Playing Tennis?
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D11 Sunny Mild Normal Strong Yes

Outlook
Yes
?Humidity
Sunny Rain
Overcast
High Normal
No Yes
[0+, 3-]
{D1, D2, D8}
[2+, 0-]
{D9, D11}
Lanjutkan!

Contoh Kasus 2
Peserta SPMB Nilai SPMB UAN Psikotest Diterima
P1 Tinggi Bagus Baik Ya
P2 Tinggi Cukup Baik Ya
P3 Tinggi Cukup Buruk Ya
P4 Tinggi Kurang Buruk Tidak
P5 Sedang Bagus Baik Ya
P6 Sedang Cukup Baik Ya
P7 Sedang Cukup Buruk Ya
P8 Sedang Kurang Buruk Tidak
P9 Rendah Bagus Baik Ya
P10 Rendah Cukup Buruk Tidak
P11 Rendah Kurang Baik Ya

Nilai SPMB
S: [8+, 3-]
E = 0.845
Tinggi Rendah
[3+, 1-]
E = 0.811
[2+, 1-]
E = 0.918
Gain(S, Nilai SPMB)
= .845 - (4/11).811- (4/11).811 - (3/11).0.918
= .0049
Psikotest
S: [8+, 3-]
E = 0.845
Baik Buruk
[2+, 3-]
E = 0.672
Gain(S, Psikotest)
= .845 - 0 - (5/11).672
= .540
[6+, 0-]
E = 0
Gain Terbesar
Sedang
[3+, 1-]
E = 0.811
UAN
S: [8+, 3-]
E = 0.845
Bagus Kurang
[3+, 0-]
E = 0
[1+, 2-]
E = 0.918
Gain(S, UAN)
= .845 - 0 - (5/11).722 - (3/11).0.918
= .267
Cukup
[4+, 1-]
E = 0.722
Ya
Ya

Psikotest
{P1, P2, P3, .., P11}
S: [8+, 3-]
E = 0.845
Baik Buruk
?
[6+, 0-]
{P1, P2, P5, P6, P9, P11}
[2+, 3-]
{P3, P4, P7, P8, P10}
Ya

Psikotest
Baik Buruk
Ya
UAN
Bagus Kurang
Cukup
Tidak
Nilai SPMB
Tinggi Rendah
Sedang
Tidak
Ya TidakYa
Silakan lakukan
perhitungan dan
iterasi sampai bertemu
hasil seperti ini!

Nomor Tingkat Perekonomian Jenis Kelamin Pekerjaan Punya Deposito?
1 Menengah Ke Atas Pria Tetap Ya
2 Menengah Ke Atas Pria Tetap Tidak
3 Menengah Ke Atas Pria Tetap Ya
4 Menengah Ke Bawah Pria Tetap Tidak
5 Menengah Ke Bawah Pria Honorer Ya
6 Menengah Ke Bawah Wanita Honorer Tidak
7 Menengah Ke Bawah Wanita Honorer Ya
8 Menengah Ke Bawah Wanita Tetap Tidak
9 Menengah Ke Atas Wanita Honorer Tidak
10 Menengah Ke Atas Pria Honorer Ya
X Menengah Ke Atas Pria Tetap ?

Data Mining Klasifikasi (Updated 30 Desember 2020)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Data Mining Klasifikasi (Updated 30 Desember 2020)

Similar to Data Mining Klasifikasi (Updated 30 Desember 2020) (20)

More from Adam Mukharil Bachtiar

More from Adam Mukharil Bachtiar (20)

Recently uploaded

Recently uploaded (13)

Data Mining Klasifikasi (Updated 30 Desember 2020)