SlideShare a Scribd company logo
1 of 23
KLASIFIKASI 
Definisi Klasifikasi 
Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau 
membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas 
dari suatu objek yang kelasnya tidak diketahui (Tan et all, 2004). Di dalam klasifikasi 
diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut, 
atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas 
untuk record. 
Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x 
ke dalam label kelas y (Tan et all, 2006) 
Model Klasifikasi terdiri dari (Tan et all, 2006): 
1. Pemodelan Deskriptif 
Dapat bertindak sebagai suatu alat yang bersifat menjelaskan untuk 
membedakan antara objek dengan klas yang berbeda.
2. Pemodelan Prediktif 
Model klasifikasi juga dapat menggunakan prediksi label kelas yang belum diketahui 
recordnya. 
4.2 Tujuan Klasifikasi 
Tujuan dari klasifikasi adalah untuk: 
1. Menemukan model dari training set yang membedakan record kedalam kategori atau 
kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan 
record yang kelasnya belum diketahui sebelumnya pada test set. 
2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil 
klasifikasi yang diperoleh . 
4.3 Konsep Pembuatan Model dalam Klasifikasi 
Untuk mendapatkan model, kita harus melakukan analisis terhadap data latih 
(training set). Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi 
dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama 
atau nilai kelas dari suatu obyek data. Proses klasifikasi data dapat dibedakan dalam 2 
tahap, yaitu : 
1. Pembelajaran / Pembangunan Model 
Tiap – tiap record pada data latih dianalisis berdasarkan nilai – nilai atributnya, 
dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model. 
2. Klasifikasi 
Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model yang 
dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, 
maka model tersebut dapat digunakan untuk mengklasifikasikan record – record data 
baru yang belum pernah dilatihkan atau diujikan sebelumnya. 
Untuk meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat beberapa langkah 
pemrosesan terhadap data, yaitu : 
1. Data Cleaning 
Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise 
dan penanganan terhadap missing value pada suatu record.
2. Analisis Relevansi 
Pada tahap ini, dilakukan penghapusan terhadap atribut – atribut yang redundant 
ataupun kurang berkaitan dengan proses klasifikasi yang akan dilakukan. Analisis 
relevansi dapat meningkatkan efisiensi klasifikasi karena waktu yang diperlukan 
untuk pembelajaran lebih sedikit daripada proses pembelajaran terhadap data – data 
dengan atribut yang masih lengkap (masih terdapat redundansi). 
3. Transformasi Data 
Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi. 
Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu. 
Pembelajaran terhadap data hasil generalisasi dapat mengurangi kompleksitas 
pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih 
kecil. 
(a) 
(b) 
Gambar 2. Proses Klasifikasi: (a) Learning: Training data dianalisis dengan 
algoritma klasifikasi. Disini atribut label kelas adalah ”Tenured“, dan 
“Learned Model“ atau “classifier“ di gambarkan pada blok aturan klasifikasi. 
(b). Classification: Test data digunakan untuk memperkirakan keakuratan 
aturan klasifikasi. Jika keakuratan tersebut dianggap diterima, maka aturan itu 
dapat diaplikasikan untuk mengkalsifikasikan data tuples baru.
Pada Gambar 2 terdiri dari pembuatan model dan penggunaan model. Pembuatan model 
menguraikan sebuah set dari penentuan kelas-kelas sebagai: 
1. Setiap tuple diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan 
oleh label kelas atribut. 
2. Kumpulan tuple yang digunakan untuk membuat model disebut kumpulan 
pelatihan (training set) 
3. Model direpresentasikan sebagai classification rules, decision tree atau formula 
matematika. 
Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek 
yang belum ketahui, yaitu taksiran keakuratan dari model yang terdiri dari: 
1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil 
klasifikasi dari model. 
2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan 
secara tepat oleh model. 
3. Kumpulan tes tidak terikat pada kumpulan pelatihan, 
4. Jika akurasi diterima, gunakan model untuk mengklasifikasikan data tuple yang 
label kelasnya belum diketahui. 
Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi 
dapat dilakukan dengan menghitung jumlah dari test record yang di prediksi secara benar 
(akurasi) atau salah (error rate) oleh model tersebut. Akurasi dan error rate 
didefinisikan sebagai berikut. 
Akurasi = Jumlah prediksi benar 
Jumlah total prediksi 
Error rate = Jumlah prediksi salah 
Jumlah total prediksi 
Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi yang 
tinggi atau error rate yang rendah ketika model diterapkan pada test set.
4.4 Teknik Klasifikasi 
Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa teknik klasifikasi 
yang digunakan, anataralain: pohon keputusan, rule based, neural network, support 
vector machine, naive bayes, dan nearest neighbour. Dan pada pembahasan ini akan 
menggunakan teknik pohon keputusan, karena beberapa alasan: 
1. Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah 
diinterpretasi/ ditangani oleh manusia. 
2. Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon 
keputusan efisien dan sesuai untuk himpunan data besar. 
3. Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain 
yang terkandung dalam data training (yaitu, pengetahuan domain dari distribusi-distribusi 
pada data atau kelas-kelas). 
4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan 
teknik-teknik yang lainnya. 
4.5 Decision Tree 
Salah satu metoda Data Mining yang umum digunakan adalah decision tree. 
Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap 
simpul internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil 
tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision 
tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas untuk 
contoh tersebut. Decision tree mudah untuk dikonversi ke aturan klasifikasi 
(classification rules)(Zalilia, 2007). 
Konsep Decision Tree 
Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan 
(rule) (Basuki dkk, 2003). 
DATA Decision Tree Rule 
Gambar 3. Konsep Decision Tree
Tipe Simpul Pada Tree 
Tree mempunyai 3 tipe simpul yaitu (Zalilia, 2007): 
1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge (tepi), 
2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge keluaran, 
3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada 
edge keluaran. 
Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan 
simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada 
sebagian record yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul 
internal ditandai dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat 
(Han, 2001). 
Gambar 4. Decision tree untuk masalah klasifikasi intrusion 
Konsep Data Dalam Decision Tree 
Ada beberapa konsep dalam decision tree, antara lain: 
1. Data dinyatakan dalam bentuk tabel dengan atribut dan record. 
2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan 
tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, 
angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data 
solusi per-item data yang disebut dengan target atribut.
3. Atribut memiliki nilai- nilai yang dinamakan dengan instance. Misalkan atribut 
cuaca mempunyai instance berupa cerah, berawan dan hujan. 
Contoh pemakaian Decision Tree 
1. Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain. 
2. Pemilihan produk seperti rumah, kendaraan, komputer dan lain-lain 
3. Pemilihan pegawai teladan sesuai dengan kriteria tertentu 
Proses Dalam Decision Tree (Basuki dkk, 2003) 
Proses pembentukan Decision Tree adalah sbb: 
1. Mengubah bentuk data (tabel) menjadi model tree. 
Gambar 5. Proses Data Menjadi Tree
Ukuran untuk Memilih Split Terbaik 
Pemilihan atribut pada algoritma induksi decision tree menggunakan 
ukuran berdasarkan entropy yang dikenal dengan information gain sebagai sebuah 
heuristic untuk memilih atribut yang merupakan bagian terbaik dari contoh ke 
dalam kelas. Semua atribut adalah bersifat kategori yang bernilai diskrit. Atribut 
dengan nilai continuous harus didiskritkan (Zalilia, 2007). 
Ukuran information gain digunakan untuk memilih tes atribut pada setiap 
simpul dalam tree. Atribut dengan information gain tertinggi (atau nilai 
pengurangan entropy yang terbesar) dipilih sebagai tes atribut untuk simpul tersebut. 
Atribut ini meminimalkan informasi yang dibutuhkan untuk mengklasifikasikan 
contoh pada proses pembagian dan mencerminkan ketidakmurnian (impurity). 
Misalkan S adalah kumpulan dari s contoh data. Andaikan atribut label kelas 
mempunyai m nilai berbeda yang menjelaskan m nilai kelas yang 
berbeda, Ci (for i = 1, ..., m). Misalkan si menjadi jumlah contoh S dalam kelas Ci . 
Informasi yang dibutuhkan untuk mengklasifikasikan diberikan contoh sebagai 
1 j 
berikut. 
I ( S ,S ,...,S ) 
m 
pi log 2 ( pi ) 
(1) 
1 2 m 
i 1 
dimana pi adalah kemungkinan sebuah contoh kepunyaan kelas Ci dan 
diperkirakan oleh si/s . Catatan bahwa fungsi log basis 2 digunakan semenjak 
informasi dikodekan dalam bit-bit. 
Misalkan atribut A mempunyai nilai v yang berbeda, a1 , a2 ,..., av Atribut 
A dapat digunakan untuk membagi S kedalam v bagian (subset), S1 , S 2 ,..., S v , 
dimana S j berisi contoh di S yang mempunyai nilai a j dari A . Jika A terpilih 
sebagai tes atribut (misal atribut untuk splitting), maka bagian ini akan sesuai 
dengan pertumbuhan cabang dari simpul yang berisi S . Misal Sij menjadi contoh 
kelas Ci pada sebuah subset S j . Entropy atau informasi berdasarkan pembagian ke 
dalam bagian A sebagai berikut. 
v s ... s 
E A 1 j mj 
.I s 
,..., smj 
(2) 
j 1 s
Bentuk 
sij ... 
s 
smj 
adalah bobot dari bagian (subset) jth dan merupakan jumlah 
contoh pada subbagian dibagi oleh total jumlah contoh dalam S . Nilai entropy 
terkecil adalah kemurnian (purity) terbesar pada pembagian subbagian. Catatan untuk 
subbagian s j , 
I s1 j , s2 j ,..., smj 
sij 
m 
pij log2 
i 1 
pij 
(3) 
Dimana pij 
S j 
adalah probabilitas pada contoh s j kepunyaan kelas Ci . 
Pengkodean informasi yang akan diperoleh dari percabangan pada A adalah: 
Gain A 
I s1 , s2 ,...., sm E A 
(4) 
Dengan kata lain, Gain( A) adalah reduksi yang diharapkan dalam entropy 
yang disebabkan oleh pengetahuan nilai pada atribut A. Algoritma menghitung 
information gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih 
sebagai tes atribut (simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, 
cabang dibuat untuk setiap nilai atribut. 
a. Entropy 
Definisi Entrophy (Basuki, 2003): 
1. Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat 
mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. 
2. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. 
Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam 
mengekstraksi suatu kelas. 
3. Panjang kode untuk menyatakan informasi secara optimal adalah 
untuk messages yang mempunyai probabilitas p. 
log 2 p bits 
4. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas 
adalah: 
p( ) log 2 p( ) 
p( ) log 2 p( ) 
(5) 
Entropy(S ) p( ) log 2 p( ) p( ) log 2 p( ) (6)
Keterangan : 
S = ruang (data) sample yang digunakan untuk training. 
P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk 
kriteria tertentu. 
P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk 
kriteria tertentu. 
2. Mengubah model tree menjadi rule. 
Gambar 6. Mengubah Tree Menjadi Rules 
Gambar 7. Conjunction & Disjunction (pada kasus main tennis)
3. Menyederhanakan Rule (“test of independency” dengan distribusi terpadu chi-square) 
Apabila individu-individu suatu populasi dapat diklasifikasikan dalam dua variable 
(kategori),tiap-tiap kategori dapat terdiri dari beberapa alternative. Kemudian kita 
ingin menguji Ho apakah kedua variable kedua variable itu independent. Untuk 
menguji Ho tersebut kemudian diambil suatu sample, individu- individu dalam sample 
tersebut diklasifikasikan dalam”two way classification”. Test yang demikian 
dinamakan test of independency (pengujian Independensi). Tabelnya dinamakan tabel 
kontingensi. Apabila variabel I terdiri dari k kategori dan variabel II terdiri dari r 
kategori, tabelnya dapat disusun seperti tabel dibawah ini. 
Tabel kontingensi 
Variabel I 
A1 A2 A3 Ak Jumlah 
Variabel 
II 
B1 n11 n12 n13 ……… n1k n1 
B2 n21 n22 n23 ……… n2k n2 
. . . . ……… . . 
. . . . ……… . . 
. . . . ……… . . 
. . . . ……… . . 
Br nr1 nr2 nr3 ……….. nrk nr 
Jumlah n1 n2 n3 nk n 
Dimana; 
nij = individu dari baris i kolom j 
i = 1, 2, ……………………..r 
j = 1, 2, 3, …………………...k 
Langkah-langkah dalam test of independensi: 
1. Menentukan formulasi null hipotesis dengan alternative hipotesis: 
Ho: P11 = P12 = …………......= P1k 
P21 = P22 = …………......= P2k 
--------------------------------------- 
Pr1 = Pr2 = = Prk 
H1 : tidak semua proporsi sama 
2. Dipilih level of significant tertentu ( ) degree of freedom (r-1)(k-1)
3. Kriteria pengujian: 
Daerah 
terima 
Daerah 
tolak 
X 2 
X 2 { ; (r-1)(k-1) 
Ho diterima apabila : X 2 ≤ X 2 ; (n-1) (k-1) 
 berarti kriteria independent (dapat dihilangkan) 
Ho ditolak apabila : X 2 > X 2 ; (r-1) (k-1) 
 berarti kriteria dependent (tidak dapat dihilangkan) 
4. Perhitungan: 
r 
X 2 = 
i j 
k (nij 
j i 
eij ) 2 
eij 
……………………………………………… (1) 
Dimana eij = 
(ni .)(n. j ) 
n 
……………………………………………………. (2) 
nij 
eij 
= frekuensi pengamatan (observasi) dari baris I dan kolom j 
= frekuensi diharapkan (expected) dari baris I dan kolom j 
5. Kesimpulan: Apakah Ho diterima (Variabel yang satu tidak 
mempengaruhi/independent dengan variabel yang lain) atau Ho ditolak (variabel I 
dependen dengan variabel II) 
Contoh: 
Kita ingin mengetahui apakah ada pengaruh (hubungan dependen) antara pendapatan 
individu dengan kualitas bahan makanan yang dikonsumir. 
Untuk tujuan ini kemudian diadakan ujian penyelidikan terhadap 100 individu dan 
didapat kenyatan sebagai berikut:
Pendapatan 
Tinggi Sedang Rendah jumlah 
Mutu 
bahan 
makan 
Baik 14 6 9 29 
Cukup 10 16 10 36 
Jelek 
2 
13 
20 
35 
Jumlah 26 35 39 100 
nij 
Penyelesaian: 
1. Hipotesis 
Ho : P11 = P12 = P13 
P21 = P22 = P23 
P31 = P32 = P33 
Atau mutu bahan makan dependen dengan tingkat dependen. 
Ho : Mutu bahan makan dependen dengan tingkat pendapatan 
2. Dipilih level of significance 0,05 
3. Kriteria Pengujian: 
Daerah 
terima 
Daerah 
tolak 
X 2 
X 2 {0,05 ; (3-1)(3-1) = 9,488 
Ho diterima apabila X 2 ≤ 9,488 
Ho ditolak apabila X 2 > 9,488 
4. Perhitungan X 2 dari sample: 
Dengan menggunakan persamaan (2), maka dapat kita cari eij 
e11 = 
e21 = 
e31 = 
(29)(26) 
100 
(36)(26) 
100 
(35)(26) 
100 
= 7,54 e12 = 
= 9,36 e22 = 
= 9,10 e32 = 
(29)(35) 
100 
(36)(35) 
100 
(35)(35) 
100 
= 10,15 e13 = 
= 12,60 e23 = 
= 12,25 e33 = 
(29)(39) 
100 
(36)(39) 
100 
(35)(39) 
100 
= 11,31 
= 14,04 
= 13,65
Pendapatan 
Tinggi Sedang Rendah jumlah 
Mutu 
bahan 
makan 
Baik 7,54 10,15 11,31 29 
Cukup 9,36 12,60 14,04 36 
Jelek 
9,10 
12,25 
13,65 
35 
Jumlah 26 35 39 100 
eij 
(14 7,54)2 (6 10,15)2 (9 11,31)2 (10 9,36)2 (16 12,60)2 
7,54 10,15 11,31 9,36 12,60 
X 2 = 
(10 14,40)2 (2 9,10)2 (13 12,25)2 (20 13,65)2 
14,40 9,10 12,25 13,65 
= 18,36 
5. Kesimpulan: 
Oleh karena 18,36 > 9,48 maka Ho kita tolak, berarti terdapat hubungan antara 
mutu bahan makan dengan tingkat pendapatan (kriteria dependent).
4.6 CONTOH KASUS 
Contoh: Permasalahan Penentuan Seseorang Menderita Hipertensi Menggunakan 
Decision Tree. Data diambil dengan 18 sample, dengan pemikiran bahwa yang 
mempengaruhi seseorang menderita hipertensi atau tidak adalah usia, berat badan, dan 
jenis kelamin. Usia mempunyai instance: muda dan tua. Berat badan mempunyai 
instance: underweight, average dan overweight. Jenis kelamin mempunyai instance: 
pria dan wanita. Data sample yang digunakan untuk menentukan hipertensi adalah: 
Nama Pasien Berat Badan Usia Jenis Kelamin Hipertensi? 
Oki lukman Overweight Tua Perempuan Ya 
Pasha ungu Overweight Tua Laki-laki Ya 
Budi anduk Overweight Tua Laki-laki Ya 
Indra bekti Overweight Tua Laki-laki Ya 
Luna maya Overweight Muda Perempuan Ya 
Tukul Overweight Muda Laki-laki Ya 
Afgan Average Tua Laki-laki Ya 
Desta Average Tua Laki-laki Ya 
Ringgo Average Muda Laki-laki Tidak 
Ruben Average Muda Laki-laki Tidak 
Titi kamal Average Muda Perempuan Tidak 
Aurakasih Average Tua Perempuan Tidak 
Jengkelin Average Tua Perempuan Tidak 
Ari untung Average Muda Laki-laki Tidak 
Gita gutawa Underweight Muda Perempuan Tidak 
Fedi nuril Underweight Muda Laki-laki Tidak 
Dian sastro Underweight Tua Perempuan Tidak 
Nicholas Underweight Tua Laki-laki Tidak 
Langkah penyelesaian kasus: 
1. Mengubah Data Menjadi Tree. 
2. Mengubah tree menjadi rule. 
3. Menyederhanakan dan menguji rule. 
4. Menentukan rule akhir 
Penyelesaian: 
Langkah -1: Mengubah Data Menjadi Tree. 
a. Menentukan Node Terpilih. 
Dari data sampel tentukan dulu node terpilih, yaitu dengan menghitung nilai information 
gain masing-masing atribut. (usia, berat badan, dan jenis kelamin).
Untuk menentukan node terpilih, gunakan nilai information gain dari setiap kriteria 
dengan data sample yang ditentukan. 
Node terpilih adalah kriteria dengan information gain yang paling besar. 
Langkah – langkah menentukan node terpilih: 
1. Menghitung nilai informasi (I) dari seluruh data training 
Dengan menggunakan persamaan: 
p( ) log 2 p( ) 
p( ) log 2 p( ) 
I = -8/18 log2 8/18 – 10/18 log2 10/18 = 0.99 
2. Menghitung nilai informasi tiap atribut 
Contoh: nilai informasi atribut berat badan 
Dengan menggunakan persamaan: 
BB Hiper? Jumlah 
Catatan: 
Overweight Ya 6 
Overweight Tidak 0 
Average Ya 2 
Average Tidak 6 
Underweight Ya 4 
Underweight Tidak 0 
p( ) log 2 p( ) 
p( ) log 2 p( ) 
q1= -6/6 log2 6/6 – 0/6 log2 0/6 = 0 
q2= -2/8 log2 2/8 – 6/8 log2 6/8 = 0.81 
Total 18 
3. Menghitung nilai entrophy tiap atribut 
Contoh: Entropy untuk berat badan: 
q1= -4/4 log2 4/4 – 0/4 log2 0/4 = 0 
E = (6/18)q1 + (8/18)q2 + (4/18)q3 = 0.36 
4. Menghitung nilai information gain tiap atribut 
Contoh: atribut berat badan 
Gain A 
I s1 , s2 ,...., sm E A 
= 0.99 – 0.36 = 0.63
Dengan menggunakan langkah – langkah yang sama kita hitung nilai information gain 
atribut usia dan jenis kelamin, sehingga didapat nilai information gain atribut usia 
sebesar 0.091 dan jenis kelamin sebesar 0.048. 
Sehingga, terpilih atribut BERAT BADAN sebagai node awal karena memiliki 
information gain terbesar. 
b. Menyusun Tree Awal 
Berat bad an 
Overw eight Average Underw eight 
O k i lu kman 
+ 
A fgan 
D esta 
+ 
+ 
Pash a u ng u + Rin gg o - Fedi nuril - 
Bud i an du k + Ru ben - G ita gutaw a - 
In dra bek t i + Tit i k amal - D ian sast ro - 
Lu na maya + A urak asih - N ich olas - 
Tu ku l + Jen gk elin - 
A ri u ntu ng - 
Node berikutnya dapat dipilih pada bagian yang mempunyai nilai + dan -, pada 
contoh di atas hanya berat = average yang mempunyai nilai + dan –, maka 
semuanya pasti mempunyai internal node. Untuk menyusun internal node lakukan 
satu-persatu. 
Penentuan Internal Node untuk berat = average 
Nama Pasien Usia Jenis Kelamin Hipertensi? 
Afgan Tua Laki-laki Ya 
Desta Tua Laki-laki Ya 
Ringgo Muda Laki-laki Tidak 
Ruben Muda Laki-laki Tidak 
Titi kamal Muda Perempuan Tidak 
Aurakasih Tua Perempuan Tidak 
Jengkelin Tua Perempuan Tidak 
Ari untung Muda Laki-laki Tidak
Nilai informasi (I) dari data training untuk berat average: 
Jenis Kelamin Hiper? Jumlah 
Laki-laki Ya 2 
Laki-laki Tidak 3 
Perempuan Ya 0 
Perempuan Tidak 3 
Dengan menggunakan persamaan: 
p( ) log 2 p( ) 
p( ) log 2 p( ) 
I = -2/8 log2 2/8 – 6/8 log2 6/8 = 0.811 
Kemudian kita menghitung nilai entrophy untuk masing – masing atribut yang tersisa: 
Usia Hiper? Jumlah 
Tua Ya 2 
Tua Tidak 2 
Muda Ya 0 
Muda Tidak 4 
E = 0.5 E = 0.61 
Setelah itu didapatkan nilai information gain untuk atribut usia sebesar 0.811 – 0.5 = 
0.311, dan nilai information gain untuk atribut jenis kelamin sebesar 0.811 – 0.61 = 
0.201, sehingga atribut usia dipilih sebagai node berikutnya. Begitu seterusnya sampai 
node terakhir dapat menentukan kelas dari data. 
Menyusun Tree Lanjutan 
Berat b ada n 
Overweight Average Underweight 
Y ES U sia N O 
Tua Muda 
A fgan + 
D esta + 
A u rak asih - 
Jen g k elin - 
R in g go - 
R ub en - 
Ti t i k amal - 
A ri un tu n g -
Berat b adan 
Overweight Average Underweight 
Y ES U sia N O 
Tua Muda 
Jen is K elamin N O 
Laki-laki Perempuan 
A fgan + 
D est a + 
A u rak asih - 
Jen g k el in - 
Hasil Tree Akhir 
Berat b ad an 
Overweight Average Underweight 
Y ES U sia N O 
Tua Muda 
Jen is K elamin N O 
Laki-laki Perempuan 
Y ES N O
Langkah -2 : Mengubah Tree menjadi rule 
B erat b ad an 
Overweight Average Underweight 
Y ES U sia N O 
Tua Muda 
Jen is K elamin N O 
Laki-laki Perempuan 
Y ES N O 
R1: IF berat = overweight THEN hipertensi = ya 
R2: IF berat = underweight THEN hipertensi = tidak 
R3: IF berat = average^usia = muda^ THEN hipertensi = tidak 
R4: IF berat = average^usia = tua^jenis kelamin=laki- laki^ THEN hipertensi = ya 
R5: IF berat = average^usia = tua^jenis kelamin=perempuan^ THEN hipertensi = tidak 
Langkah -3 : Menyederhanakan dan Menguji Rule 
Dalam langkah menyederhanakan dan menguji rule ini, kita dapat menjalankan langkah-langkah 
berikut: 
1. Membuat table distribusi terpadu dengan menyatakan semua nilai kejadian pada setiap 
rule. 
2. Menghitung tingkat independensi antara kriteria pada suatu rule, yaitu antara atribut dan 
target atribut (penghitungan tingkat independensi menggunakan “Test of Independency” 
Chi-square) 
3. Mengeliminasi kriteria yang tidak perlu, yaitu yang tingkat independensinya tinggi.
Untuk Atribut Berat Badan 
BB hiper? jumlah 
OW ya 6 
OW tidak 0 
AV ya 2 
AV tidak 6 
UW ya 4 
UW tidak 0 
OW AV UW Jumlah 
Hipertensi 6 2 4 12 
Tidak 0 6 0 6 
Jumlah 6 8 4 18 
OW AV UW Jumlah 
X 
Hipertens 
i 
6 2 4 12 
Tidak 0 6 0 6 
Jumlah 6 8 4 18 
nij 
Hipotesis: 
H0 : tidak ada hubungan antara berat badan dengan seseorang menderita 
hipertensi 
H1 : ada hubungan antara berat badan dengan seseorang menderita hipertensi 
Tingkat signifikansi : 
α = 0.05 
Degree of freedom (DOF) = {α; (r – 1)*(k - 1)} = {0.05; (2– 1)*(3 - 1)} = {0.05; 2} 
2 
tabel 
5.9915 (lihat tabel) 
Daerah kritis: 
Daerah 
terima 
Ho diterima apabila X 2 ≤ 5.99 
Ho ditolak apabila X 2 > 5.99 
Daerah 
tolak 
X 2 
X 2 {0,05 ; (2-1)(3-1) = 5.99 
Uji Independensi dengan distribusi Chi-Square 
nij
OW AV UW 
Hipertensi 4 5.33 2.67 12 
Tidak 2 2.67 1.33 6 
Jumlah 6 8 4 18 
(6 4) 2 (2 5.33) 2 (4 2.67) 2 (0 2) 2 (6 2.67) 2 (0 1.33) 2 
4 5.33 2.67 2 2.67 1.33 
 
X 
eij 
Perhitungan: 
(12)(6) 
e11 = 
18 
(6)(6) 
e21 = 
18 
= 4 e12 = 
= 2 e22 = 
(12)(8) 
18 
(6)(8) 
18 
= 5.33 e13 = 
= 2.67 e23 = 
(12)(4) 
18 
(6)(4) 
18 
= 2.67 
= 1.33 
Lalu, kita hitung nilai X2 dengan menggunakan persamaan: 
r k (n 
ei ) 2 
X2 hitung = 
i j 
(ni .)(n. j ) 
ij j 
j i eij 
Dimana eij = 
n 
X2 hitung = 
= 1 + 2.08 + 0.67 + 2 + 4.17 +1.33 = 11.25 
Karena nilai X2 hitung > X2 tabel yaitu 11.25 > 5.99, maka H0 ditolak, artinya atribut 
berat badan mempengaruhi seseorang menderita hipertensi atau tidak (dependent), 
sehingga atribut ini tidak bisa dihilangkan. 
Untuk Atribut Usia 
Dengan cara yang sama pada atribut berat badan, maka dapat diperoleh: 
{0,05 ; 1}  
2 
tabel 
3.8415 (lihat tabel) 
X2 hitung = 2.205 
Kesimpulan: Karena nilai X2 hitung ≤ X2 tabel yaitu 2.205 yaitu 2.205 ≤ 3.8415, artinya 
atribut usia tidak mempengaruhi seseorang menderita hipertensi atau tidak (independent), 
sehingga atribut ini bisa dihilangkan.
Untuk Atribut Jenis kelamin 
Dengan cara yang sama pada atribut berat badan, maka dapat diperoleh: 
 
{0,05 ; 1}  
X 
2 
tabel 
3.8415 (lihat tabel) 
X2 hitung = 5.299 
Kesimpulan: Karena nilai X2 hitung > X2 tabel yaitu 5.299> 3.8415, maka H0 ditolak, 
artinya atribut berat badan mempengaruhi seseorang menderita hipertensi atau tidak 
(dependent), sehingga atribut ini tidak bisa dihilangkan. 
Langkah -4 : Menentukan Rule Akhir 
Berdasarkan hasil penyederhanaan rule dengan Chi-Square, maka rule akhir yang terbentuk 
adalah: 
R1: IF berat = overweight THEN hipertensi = ya 
R2: IF berat = underweight THEN hipertensi = tidak 
R4: IF berat = average ^jenis kelamin=laki- laki^ THEN hipertensi = ya 
R5: IF berat = average ^jenis kelamin=perempuan^ THEN hipertensi = tidak 
TUGAS : 
GUNAKAN DECISION TREE UTK KASUS BERIKUT : 
TABEL KLASIFIKASI RESIKO KREDIT : 
Pelanggan Saving Asset Sallary 
Resiko 
Kredit 
1 Mediun High 75 Good 
2 Low Low 50 Bad 
3 High Medium 25 Bad 
4 Mediun Medium 50 Good 
5 Low Medium 100 Good 
6 High High 25 Good

More Related Content

What's hot

Modul 4 representasi pengetahuan
Modul 4   representasi pengetahuanModul 4   representasi pengetahuan
Modul 4 representasi pengetahuanahmad haidaroh
 
Metodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi Informasi
Metodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi InformasiMetodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi Informasi
Metodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi InformasiAlbaar Rubhasy
 
Manajemen Resiko (Tugas RPL)
 Manajemen Resiko (Tugas RPL)  Manajemen Resiko (Tugas RPL)
Manajemen Resiko (Tugas RPL) viiasilviaa
 
Konsep pengambilan keputusan di dalam sistem informasi manajemen oleh kelom...
Konsep pengambilan keputusan di dalam sistem informasi  manajemen  oleh kelom...Konsep pengambilan keputusan di dalam sistem informasi  manajemen  oleh kelom...
Konsep pengambilan keputusan di dalam sistem informasi manajemen oleh kelom...Sheila Ulfa Hariyanto
 
Metode pencarian heuristik
Metode pencarian heuristikMetode pencarian heuristik
Metode pencarian heuristikBaguss Chandrass
 
Data Base Tiket Pesawat
Data Base Tiket PesawatData Base Tiket Pesawat
Data Base Tiket Pesawatnaufals11
 
Forward Backward Chaining
Forward Backward ChainingForward Backward Chaining
Forward Backward ChainingHerman Tolle
 
Mengevaluasi kasus bisnis contoh laporan business case
Mengevaluasi kasus bisnis contoh laporan business caseMengevaluasi kasus bisnis contoh laporan business case
Mengevaluasi kasus bisnis contoh laporan business caseFajar Baskoro
 
Kelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQL
Kelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQLKelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQL
Kelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQLDejiko Chaem
 
Seminar proposal skripsi teknik informatika
Seminar proposal skripsi teknik informatikaSeminar proposal skripsi teknik informatika
Seminar proposal skripsi teknik informatikaAbdul Fauzan
 
13.analisa korelasi
13.analisa korelasi13.analisa korelasi
13.analisa korelasiHafiza .h
 
PENYELESAIAN MASALAH PENUGASAN DENGAN METODE HUNGARIAN
PENYELESAIAN MASALAH PENUGASAN DENGAN METODE HUNGARIANPENYELESAIAN MASALAH PENUGASAN DENGAN METODE HUNGARIAN
PENYELESAIAN MASALAH PENUGASAN DENGAN METODE HUNGARIANFeronica Romauli
 
Datamining menggunakan algoritma c4.5
Datamining menggunakan algoritma c4.5Datamining menggunakan algoritma c4.5
Datamining menggunakan algoritma c4.5Rosyid Ridlo
 
Data Mining - Naive Bayes
Data Mining - Naive BayesData Mining - Naive Bayes
Data Mining - Naive Bayesdedidarwis
 
Materi Data Mining - C4.5
Materi Data Mining - C4.5Materi Data Mining - C4.5
Materi Data Mining - C4.5dedidarwis
 

What's hot (20)

Modul 4 representasi pengetahuan
Modul 4   representasi pengetahuanModul 4   representasi pengetahuan
Modul 4 representasi pengetahuan
 
Analisis Kebutuhan Sistem Informasi
Analisis Kebutuhan Sistem InformasiAnalisis Kebutuhan Sistem Informasi
Analisis Kebutuhan Sistem Informasi
 
Algoritma penjadwalan proses
Algoritma penjadwalan prosesAlgoritma penjadwalan proses
Algoritma penjadwalan proses
 
Metodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi Informasi
Metodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi InformasiMetodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi Informasi
Metodologi Penelitian pada Bidang Ilmu Komputer dan Teknologi Informasi
 
Manajemen Resiko (Tugas RPL)
 Manajemen Resiko (Tugas RPL)  Manajemen Resiko (Tugas RPL)
Manajemen Resiko (Tugas RPL)
 
Konsep pengambilan keputusan di dalam sistem informasi manajemen oleh kelom...
Konsep pengambilan keputusan di dalam sistem informasi  manajemen  oleh kelom...Konsep pengambilan keputusan di dalam sistem informasi  manajemen  oleh kelom...
Konsep pengambilan keputusan di dalam sistem informasi manajemen oleh kelom...
 
Data Quality
Data QualityData Quality
Data Quality
 
Metode pencarian heuristik
Metode pencarian heuristikMetode pencarian heuristik
Metode pencarian heuristik
 
Data Base Tiket Pesawat
Data Base Tiket PesawatData Base Tiket Pesawat
Data Base Tiket Pesawat
 
Forward Backward Chaining
Forward Backward ChainingForward Backward Chaining
Forward Backward Chaining
 
Mengevaluasi kasus bisnis contoh laporan business case
Mengevaluasi kasus bisnis contoh laporan business caseMengevaluasi kasus bisnis contoh laporan business case
Mengevaluasi kasus bisnis contoh laporan business case
 
Kelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQL
Kelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQLKelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQL
Kelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQL
 
Pertemuan 3 Desain Test Case
Pertemuan 3 Desain Test CasePertemuan 3 Desain Test Case
Pertemuan 3 Desain Test Case
 
Materi 8 aljabar relasional
Materi 8 aljabar relasionalMateri 8 aljabar relasional
Materi 8 aljabar relasional
 
Seminar proposal skripsi teknik informatika
Seminar proposal skripsi teknik informatikaSeminar proposal skripsi teknik informatika
Seminar proposal skripsi teknik informatika
 
13.analisa korelasi
13.analisa korelasi13.analisa korelasi
13.analisa korelasi
 
PENYELESAIAN MASALAH PENUGASAN DENGAN METODE HUNGARIAN
PENYELESAIAN MASALAH PENUGASAN DENGAN METODE HUNGARIANPENYELESAIAN MASALAH PENUGASAN DENGAN METODE HUNGARIAN
PENYELESAIAN MASALAH PENUGASAN DENGAN METODE HUNGARIAN
 
Datamining menggunakan algoritma c4.5
Datamining menggunakan algoritma c4.5Datamining menggunakan algoritma c4.5
Datamining menggunakan algoritma c4.5
 
Data Mining - Naive Bayes
Data Mining - Naive BayesData Mining - Naive Bayes
Data Mining - Naive Bayes
 
Materi Data Mining - C4.5
Materi Data Mining - C4.5Materi Data Mining - C4.5
Materi Data Mining - C4.5
 

Viewers also liked

Accelerating the Random Forest algorithm for commodity parallel- Mark Seligman
Accelerating the Random Forest algorithm for commodity parallel- Mark SeligmanAccelerating the Random Forest algorithm for commodity parallel- Mark Seligman
Accelerating the Random Forest algorithm for commodity parallel- Mark SeligmanPyData
 
Analisis Algoritme Klasifikasi Random Forest, Decision Tree C4.5 dan Simple C...
Analisis Algoritme Klasifikasi Random Forest, Decision Tree C4.5 dan Simple C...Analisis Algoritme Klasifikasi Random Forest, Decision Tree C4.5 dan Simple C...
Analisis Algoritme Klasifikasi Random Forest, Decision Tree C4.5 dan Simple C...Shofyan Sky
 
Random Forests R vs Python by Linda Uruchurtu
Random Forests R vs Python by Linda UruchurtuRandom Forests R vs Python by Linda Uruchurtu
Random Forests R vs Python by Linda UruchurtuPyData
 
Improving the Accuracy of Object Based Supervised Image Classification using ...
Improving the Accuracy of Object Based Supervised Image Classification using ...Improving the Accuracy of Object Based Supervised Image Classification using ...
Improving the Accuracy of Object Based Supervised Image Classification using ...CSCJournals
 
Decision trees and random forests
Decision trees and random forestsDecision trees and random forests
Decision trees and random forestsDebdoot Sheet
 
Gradient Boosted Regression Trees in scikit-learn
Gradient Boosted Regression Trees in scikit-learnGradient Boosted Regression Trees in scikit-learn
Gradient Boosted Regression Trees in scikit-learnDataRobot
 
Rudi hartanto tutorial 01 rapid miner 5.3 decision tree
Rudi hartanto   tutorial 01 rapid miner 5.3 decision treeRudi hartanto   tutorial 01 rapid miner 5.3 decision tree
Rudi hartanto tutorial 01 rapid miner 5.3 decision treeilmuBiner
 
Decision Tree Ensembles - Bagging, Random Forest & Gradient Boosting Machines
Decision Tree Ensembles - Bagging, Random Forest & Gradient Boosting MachinesDecision Tree Ensembles - Bagging, Random Forest & Gradient Boosting Machines
Decision Tree Ensembles - Bagging, Random Forest & Gradient Boosting MachinesDeepak George
 
Machine learning basics using trees algorithm (Random forest, Gradient Boosting)
Machine learning basics using trees algorithm (Random forest, Gradient Boosting)Machine learning basics using trees algorithm (Random forest, Gradient Boosting)
Machine learning basics using trees algorithm (Random forest, Gradient Boosting)Parth Khare
 
PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...
PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...
PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...Uofa_Unsada
 
Random Forest による分類
Random Forest による分類Random Forest による分類
Random Forest による分類Ken'ichi Matsui
 
Understanding Random Forests: From Theory to Practice
Understanding Random Forests: From Theory to PracticeUnderstanding Random Forests: From Theory to Practice
Understanding Random Forests: From Theory to PracticeGilles Louppe
 
Manajemen rantai pasokan
Manajemen rantai pasokanManajemen rantai pasokan
Manajemen rantai pasokanahmad fauzan
 

Viewers also liked (16)

Decision tree and random forest
Decision tree and random forestDecision tree and random forest
Decision tree and random forest
 
Accelerating the Random Forest algorithm for commodity parallel- Mark Seligman
Accelerating the Random Forest algorithm for commodity parallel- Mark SeligmanAccelerating the Random Forest algorithm for commodity parallel- Mark Seligman
Accelerating the Random Forest algorithm for commodity parallel- Mark Seligman
 
Analisis Algoritme Klasifikasi Random Forest, Decision Tree C4.5 dan Simple C...
Analisis Algoritme Klasifikasi Random Forest, Decision Tree C4.5 dan Simple C...Analisis Algoritme Klasifikasi Random Forest, Decision Tree C4.5 dan Simple C...
Analisis Algoritme Klasifikasi Random Forest, Decision Tree C4.5 dan Simple C...
 
Materi KAIT - Tag,Atribut dan Value
Materi KAIT - Tag,Atribut dan ValueMateri KAIT - Tag,Atribut dan Value
Materi KAIT - Tag,Atribut dan Value
 
Random Forests R vs Python by Linda Uruchurtu
Random Forests R vs Python by Linda UruchurtuRandom Forests R vs Python by Linda Uruchurtu
Random Forests R vs Python by Linda Uruchurtu
 
Improving the Accuracy of Object Based Supervised Image Classification using ...
Improving the Accuracy of Object Based Supervised Image Classification using ...Improving the Accuracy of Object Based Supervised Image Classification using ...
Improving the Accuracy of Object Based Supervised Image Classification using ...
 
Decision trees and random forests
Decision trees and random forestsDecision trees and random forests
Decision trees and random forests
 
Gradient Boosted Regression Trees in scikit-learn
Gradient Boosted Regression Trees in scikit-learnGradient Boosted Regression Trees in scikit-learn
Gradient Boosted Regression Trees in scikit-learn
 
Rudi hartanto tutorial 01 rapid miner 5.3 decision tree
Rudi hartanto   tutorial 01 rapid miner 5.3 decision treeRudi hartanto   tutorial 01 rapid miner 5.3 decision tree
Rudi hartanto tutorial 01 rapid miner 5.3 decision tree
 
Decision Tree Ensembles - Bagging, Random Forest & Gradient Boosting Machines
Decision Tree Ensembles - Bagging, Random Forest & Gradient Boosting MachinesDecision Tree Ensembles - Bagging, Random Forest & Gradient Boosting Machines
Decision Tree Ensembles - Bagging, Random Forest & Gradient Boosting Machines
 
Machine learning basics using trees algorithm (Random forest, Gradient Boosting)
Machine learning basics using trees algorithm (Random forest, Gradient Boosting)Machine learning basics using trees algorithm (Random forest, Gradient Boosting)
Machine learning basics using trees algorithm (Random forest, Gradient Boosting)
 
PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...
PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...
PERANCANGAN DAN PEMBUATAN APLIKASI DATAMINING BERBASIS WEB MENGGUNAKAN ALGORI...
 
Random Forest による分類
Random Forest による分類Random Forest による分類
Random Forest による分類
 
Random forest
Random forestRandom forest
Random forest
 
Understanding Random Forests: From Theory to Practice
Understanding Random Forests: From Theory to PracticeUnderstanding Random Forests: From Theory to Practice
Understanding Random Forests: From Theory to Practice
 
Manajemen rantai pasokan
Manajemen rantai pasokanManajemen rantai pasokan
Manajemen rantai pasokan
 

Similar to Modul klasifikasi decission tree modul klasifikasi

Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
 
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-binerA152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-binerEpul Logariasmoú
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian dataKacung Abdullah
 
04-cara-pemakaian-weka.ppt
04-cara-pemakaian-weka.ppt04-cara-pemakaian-weka.ppt
04-cara-pemakaian-weka.pptPutrifitriasari1
 
Tutorial WEKA.ppt
Tutorial WEKA.pptTutorial WEKA.ppt
Tutorial WEKA.pptJurnalJTIM
 
Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes Elvi Rahmi
 
Procceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriAndika Dwi Hadiri
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfRinnaRachmatika2
 
10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarma10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarmaArdianDwiPraba
 
data mining
data miningdata mining
data miningdewi2093
 
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803Alvian yudha Prawira
 

Similar to Modul klasifikasi decission tree modul klasifikasi (20)

15749 5 pengelompokkan data mining
15749 5 pengelompokkan data mining15749 5 pengelompokkan data mining
15749 5 pengelompokkan data mining
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
 
fuzzyShp
fuzzyShpfuzzyShp
fuzzyShp
 
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-binerA152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
 
10
1010
10
 
1. klasifikasi dan evaluasi
1. klasifikasi dan evaluasi1. klasifikasi dan evaluasi
1. klasifikasi dan evaluasi
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian data
 
04-cara-pemakaian-weka.ppt
04-cara-pemakaian-weka.ppt04-cara-pemakaian-weka.ppt
04-cara-pemakaian-weka.ppt
 
Tutorial WEKA.ppt
Tutorial WEKA.pptTutorial WEKA.ppt
Tutorial WEKA.ppt
 
Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes
 
PPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptx
 
Procceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiri
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
 
10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarma10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarma
 
ML.docx
ML.docxML.docx
ML.docx
 
ML.docx
ML.docxML.docx
ML.docx
 
LN s10-machine vision-s2
LN s10-machine vision-s2LN s10-machine vision-s2
LN s10-machine vision-s2
 
data mining
data miningdata mining
data mining
 
Pertemuan 4.pdf
Pertemuan 4.pdfPertemuan 4.pdf
Pertemuan 4.pdf
 
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
 

More from Universitas Bina Darma Palembang

More from Universitas Bina Darma Palembang (20)

30448 pertemuan1
30448 pertemuan130448 pertemuan1
30448 pertemuan1
 
29510 pertemuan18(form method-get-post-dan-session(1))
29510 pertemuan18(form method-get-post-dan-session(1))29510 pertemuan18(form method-get-post-dan-session(1))
29510 pertemuan18(form method-get-post-dan-session(1))
 
28501 pertemuan14(php)
28501 pertemuan14(php)28501 pertemuan14(php)
28501 pertemuan14(php)
 
28500 pertemuan22(header dokumen html dgn tag title)
28500 pertemuan22(header dokumen html dgn tag title)28500 pertemuan22(header dokumen html dgn tag title)
28500 pertemuan22(header dokumen html dgn tag title)
 
25437 pertemuan25(hitcounter)
25437 pertemuan25(hitcounter)25437 pertemuan25(hitcounter)
25437 pertemuan25(hitcounter)
 
23921 pertemuan 3
23921 pertemuan 323921 pertemuan 3
23921 pertemuan 3
 
19313 pertemuan6
19313 pertemuan619313 pertemuan6
19313 pertemuan6
 
18759 pertemuan20(web html editor)
18759 pertemuan20(web html editor)18759 pertemuan20(web html editor)
18759 pertemuan20(web html editor)
 
18040 pertemuan13(css)
18040 pertemuan13(css)18040 pertemuan13(css)
18040 pertemuan13(css)
 
17945 pertemuan5
17945 pertemuan517945 pertemuan5
17945 pertemuan5
 
16406 pertemuan17(konsep basis-data-di-web)
16406 pertemuan17(konsep basis-data-di-web)16406 pertemuan17(konsep basis-data-di-web)
16406 pertemuan17(konsep basis-data-di-web)
 
15294 pertemuan9(eksplorasi &defenisi masalah0
15294 pertemuan9(eksplorasi &defenisi masalah015294 pertemuan9(eksplorasi &defenisi masalah0
15294 pertemuan9(eksplorasi &defenisi masalah0
 
13926 pertemuan4
13926 pertemuan413926 pertemuan4
13926 pertemuan4
 
12738 pertemuan 15(php lanjutan)
12738 pertemuan 15(php lanjutan)12738 pertemuan 15(php lanjutan)
12738 pertemuan 15(php lanjutan)
 
6346 pertemuan21(web statis dengan struktur html)
6346 pertemuan21(web statis dengan struktur html)6346 pertemuan21(web statis dengan struktur html)
6346 pertemuan21(web statis dengan struktur html)
 
5623 pertemuan11(html1)
5623 pertemuan11(html1)5623 pertemuan11(html1)
5623 pertemuan11(html1)
 
4740 pertemuan8(komponen dalam web)
4740 pertemuan8(komponen dalam web)4740 pertemuan8(komponen dalam web)
4740 pertemuan8(komponen dalam web)
 
4075 pertemuan10 (analisa kebutuhan)
4075 pertemuan10 (analisa kebutuhan)4075 pertemuan10 (analisa kebutuhan)
4075 pertemuan10 (analisa kebutuhan)
 
2670 pertemuan12(html lanjut)
2670 pertemuan12(html lanjut)2670 pertemuan12(html lanjut)
2670 pertemuan12(html lanjut)
 
2190 pertemuan24(polling)
2190 pertemuan24(polling)2190 pertemuan24(polling)
2190 pertemuan24(polling)
 

Recently uploaded

KISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAHKISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAHIrmaYanti71
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxrikosyahputra0173
 
415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompokelmalinda2
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxAhmadSyajili
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Surveikustiyantidew94
 
menghitung skewness dan kurtosis pada distribusi normal
menghitung skewness dan kurtosis pada distribusi normalmenghitung skewness dan kurtosis pada distribusi normal
menghitung skewness dan kurtosis pada distribusi normalHendriKurniawanP
 
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaanANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaanamalaguswan1
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxnursariheldaseptiana
 
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanVULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanBungaCitraNazwaAtin
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptAhmadSyajili
 

Recently uploaded (10)

KISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAHKISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
 
415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptx
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Survei
 
menghitung skewness dan kurtosis pada distribusi normal
menghitung skewness dan kurtosis pada distribusi normalmenghitung skewness dan kurtosis pada distribusi normal
menghitung skewness dan kurtosis pada distribusi normal
 
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaanANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptx
 
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanVULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.ppt
 

Modul klasifikasi decission tree modul klasifikasi

  • 1. KLASIFIKASI Definisi Klasifikasi Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Tan et all, 2004). Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record. Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke dalam label kelas y (Tan et all, 2006) Model Klasifikasi terdiri dari (Tan et all, 2006): 1. Pemodelan Deskriptif Dapat bertindak sebagai suatu alat yang bersifat menjelaskan untuk membedakan antara objek dengan klas yang berbeda.
  • 2. 2. Pemodelan Prediktif Model klasifikasi juga dapat menggunakan prediksi label kelas yang belum diketahui recordnya. 4.2 Tujuan Klasifikasi Tujuan dari klasifikasi adalah untuk: 1. Menemukan model dari training set yang membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada test set. 2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil klasifikasi yang diperoleh . 4.3 Konsep Pembuatan Model dalam Klasifikasi Untuk mendapatkan model, kita harus melakukan analisis terhadap data latih (training set). Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data. Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu : 1. Pembelajaran / Pembangunan Model Tiap – tiap record pada data latih dianalisis berdasarkan nilai – nilai atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model. 2. Klasifikasi Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record – record data baru yang belum pernah dilatihkan atau diujikan sebelumnya. Untuk meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat beberapa langkah pemrosesan terhadap data, yaitu : 1. Data Cleaning Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan penanganan terhadap missing value pada suatu record.
  • 3. 2. Analisis Relevansi Pada tahap ini, dilakukan penghapusan terhadap atribut – atribut yang redundant ataupun kurang berkaitan dengan proses klasifikasi yang akan dilakukan. Analisis relevansi dapat meningkatkan efisiensi klasifikasi karena waktu yang diperlukan untuk pembelajaran lebih sedikit daripada proses pembelajaran terhadap data – data dengan atribut yang masih lengkap (masih terdapat redundansi). 3. Transformasi Data Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi. Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu. Pembelajaran terhadap data hasil generalisasi dapat mengurangi kompleksitas pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil. (a) (b) Gambar 2. Proses Klasifikasi: (a) Learning: Training data dianalisis dengan algoritma klasifikasi. Disini atribut label kelas adalah ”Tenured“, dan “Learned Model“ atau “classifier“ di gambarkan pada blok aturan klasifikasi. (b). Classification: Test data digunakan untuk memperkirakan keakuratan aturan klasifikasi. Jika keakuratan tersebut dianggap diterima, maka aturan itu dapat diaplikasikan untuk mengkalsifikasikan data tuples baru.
  • 4. Pada Gambar 2 terdiri dari pembuatan model dan penggunaan model. Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai: 1. Setiap tuple diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan oleh label kelas atribut. 2. Kumpulan tuple yang digunakan untuk membuat model disebut kumpulan pelatihan (training set) 3. Model direpresentasikan sebagai classification rules, decision tree atau formula matematika. Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang belum ketahui, yaitu taksiran keakuratan dari model yang terdiri dari: 1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari model. 2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan secara tepat oleh model. 3. Kumpulan tes tidak terikat pada kumpulan pelatihan, 4. Jika akurasi diterima, gunakan model untuk mengklasifikasikan data tuple yang label kelasnya belum diketahui. Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang di prediksi secara benar (akurasi) atau salah (error rate) oleh model tersebut. Akurasi dan error rate didefinisikan sebagai berikut. Akurasi = Jumlah prediksi benar Jumlah total prediksi Error rate = Jumlah prediksi salah Jumlah total prediksi Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi yang tinggi atau error rate yang rendah ketika model diterapkan pada test set.
  • 5. 4.4 Teknik Klasifikasi Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa teknik klasifikasi yang digunakan, anataralain: pohon keputusan, rule based, neural network, support vector machine, naive bayes, dan nearest neighbour. Dan pada pembahasan ini akan menggunakan teknik pohon keputusan, karena beberapa alasan: 1. Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah diinterpretasi/ ditangani oleh manusia. 2. Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon keputusan efisien dan sesuai untuk himpunan data besar. 3. Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang terkandung dalam data training (yaitu, pengetahuan domain dari distribusi-distribusi pada data atau kelas-kelas). 4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan teknik-teknik yang lainnya. 4.5 Decision Tree Salah satu metoda Data Mining yang umum digunakan adalah decision tree. Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut. Decision tree mudah untuk dikonversi ke aturan klasifikasi (classification rules)(Zalilia, 2007). Konsep Decision Tree Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule) (Basuki dkk, 2003). DATA Decision Tree Rule Gambar 3. Konsep Decision Tree
  • 6. Tipe Simpul Pada Tree Tree mempunyai 3 tipe simpul yaitu (Zalilia, 2007): 1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge (tepi), 2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge keluaran, 3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge keluaran. Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada sebagian record yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul internal ditandai dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat (Han, 2001). Gambar 4. Decision tree untuk masalah klasifikasi intrusion Konsep Data Dalam Decision Tree Ada beberapa konsep dalam decision tree, antara lain: 1. Data dinyatakan dalam bentuk tabel dengan atribut dan record. 2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut.
  • 7. 3. Atribut memiliki nilai- nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan. Contoh pemakaian Decision Tree 1. Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain. 2. Pemilihan produk seperti rumah, kendaraan, komputer dan lain-lain 3. Pemilihan pegawai teladan sesuai dengan kriteria tertentu Proses Dalam Decision Tree (Basuki dkk, 2003) Proses pembentukan Decision Tree adalah sbb: 1. Mengubah bentuk data (tabel) menjadi model tree. Gambar 5. Proses Data Menjadi Tree
  • 8. Ukuran untuk Memilih Split Terbaik Pemilihan atribut pada algoritma induksi decision tree menggunakan ukuran berdasarkan entropy yang dikenal dengan information gain sebagai sebuah heuristic untuk memilih atribut yang merupakan bagian terbaik dari contoh ke dalam kelas. Semua atribut adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai continuous harus didiskritkan (Zalilia, 2007). Ukuran information gain digunakan untuk memilih tes atribut pada setiap simpul dalam tree. Atribut dengan information gain tertinggi (atau nilai pengurangan entropy yang terbesar) dipilih sebagai tes atribut untuk simpul tersebut. Atribut ini meminimalkan informasi yang dibutuhkan untuk mengklasifikasikan contoh pada proses pembagian dan mencerminkan ketidakmurnian (impurity). Misalkan S adalah kumpulan dari s contoh data. Andaikan atribut label kelas mempunyai m nilai berbeda yang menjelaskan m nilai kelas yang berbeda, Ci (for i = 1, ..., m). Misalkan si menjadi jumlah contoh S dalam kelas Ci . Informasi yang dibutuhkan untuk mengklasifikasikan diberikan contoh sebagai 1 j berikut. I ( S ,S ,...,S ) m pi log 2 ( pi ) (1) 1 2 m i 1 dimana pi adalah kemungkinan sebuah contoh kepunyaan kelas Ci dan diperkirakan oleh si/s . Catatan bahwa fungsi log basis 2 digunakan semenjak informasi dikodekan dalam bit-bit. Misalkan atribut A mempunyai nilai v yang berbeda, a1 , a2 ,..., av Atribut A dapat digunakan untuk membagi S kedalam v bagian (subset), S1 , S 2 ,..., S v , dimana S j berisi contoh di S yang mempunyai nilai a j dari A . Jika A terpilih sebagai tes atribut (misal atribut untuk splitting), maka bagian ini akan sesuai dengan pertumbuhan cabang dari simpul yang berisi S . Misal Sij menjadi contoh kelas Ci pada sebuah subset S j . Entropy atau informasi berdasarkan pembagian ke dalam bagian A sebagai berikut. v s ... s E A 1 j mj .I s ,..., smj (2) j 1 s
  • 9. Bentuk sij ... s smj adalah bobot dari bagian (subset) jth dan merupakan jumlah contoh pada subbagian dibagi oleh total jumlah contoh dalam S . Nilai entropy terkecil adalah kemurnian (purity) terbesar pada pembagian subbagian. Catatan untuk subbagian s j , I s1 j , s2 j ,..., smj sij m pij log2 i 1 pij (3) Dimana pij S j adalah probabilitas pada contoh s j kepunyaan kelas Ci . Pengkodean informasi yang akan diperoleh dari percabangan pada A adalah: Gain A I s1 , s2 ,...., sm E A (4) Dengan kata lain, Gain( A) adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh pengetahuan nilai pada atribut A. Algoritma menghitung information gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes atribut (simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap nilai atribut. a. Entropy Definisi Entrophy (Basuki, 2003): 1. Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. 2. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas. 3. Panjang kode untuk menyatakan informasi secara optimal adalah untuk messages yang mempunyai probabilitas p. log 2 p bits 4. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas adalah: p( ) log 2 p( ) p( ) log 2 p( ) (5) Entropy(S ) p( ) log 2 p( ) p( ) log 2 p( ) (6)
  • 10. Keterangan : S = ruang (data) sample yang digunakan untuk training. P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu. P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu. 2. Mengubah model tree menjadi rule. Gambar 6. Mengubah Tree Menjadi Rules Gambar 7. Conjunction & Disjunction (pada kasus main tennis)
  • 11. 3. Menyederhanakan Rule (“test of independency” dengan distribusi terpadu chi-square) Apabila individu-individu suatu populasi dapat diklasifikasikan dalam dua variable (kategori),tiap-tiap kategori dapat terdiri dari beberapa alternative. Kemudian kita ingin menguji Ho apakah kedua variable kedua variable itu independent. Untuk menguji Ho tersebut kemudian diambil suatu sample, individu- individu dalam sample tersebut diklasifikasikan dalam”two way classification”. Test yang demikian dinamakan test of independency (pengujian Independensi). Tabelnya dinamakan tabel kontingensi. Apabila variabel I terdiri dari k kategori dan variabel II terdiri dari r kategori, tabelnya dapat disusun seperti tabel dibawah ini. Tabel kontingensi Variabel I A1 A2 A3 Ak Jumlah Variabel II B1 n11 n12 n13 ……… n1k n1 B2 n21 n22 n23 ……… n2k n2 . . . . ……… . . . . . . ……… . . . . . . ……… . . . . . . ……… . . Br nr1 nr2 nr3 ……….. nrk nr Jumlah n1 n2 n3 nk n Dimana; nij = individu dari baris i kolom j i = 1, 2, ……………………..r j = 1, 2, 3, …………………...k Langkah-langkah dalam test of independensi: 1. Menentukan formulasi null hipotesis dengan alternative hipotesis: Ho: P11 = P12 = …………......= P1k P21 = P22 = …………......= P2k --------------------------------------- Pr1 = Pr2 = = Prk H1 : tidak semua proporsi sama 2. Dipilih level of significant tertentu ( ) degree of freedom (r-1)(k-1)
  • 12. 3. Kriteria pengujian: Daerah terima Daerah tolak X 2 X 2 { ; (r-1)(k-1) Ho diterima apabila : X 2 ≤ X 2 ; (n-1) (k-1)  berarti kriteria independent (dapat dihilangkan) Ho ditolak apabila : X 2 > X 2 ; (r-1) (k-1)  berarti kriteria dependent (tidak dapat dihilangkan) 4. Perhitungan: r X 2 = i j k (nij j i eij ) 2 eij ……………………………………………… (1) Dimana eij = (ni .)(n. j ) n ……………………………………………………. (2) nij eij = frekuensi pengamatan (observasi) dari baris I dan kolom j = frekuensi diharapkan (expected) dari baris I dan kolom j 5. Kesimpulan: Apakah Ho diterima (Variabel yang satu tidak mempengaruhi/independent dengan variabel yang lain) atau Ho ditolak (variabel I dependen dengan variabel II) Contoh: Kita ingin mengetahui apakah ada pengaruh (hubungan dependen) antara pendapatan individu dengan kualitas bahan makanan yang dikonsumir. Untuk tujuan ini kemudian diadakan ujian penyelidikan terhadap 100 individu dan didapat kenyatan sebagai berikut:
  • 13. Pendapatan Tinggi Sedang Rendah jumlah Mutu bahan makan Baik 14 6 9 29 Cukup 10 16 10 36 Jelek 2 13 20 35 Jumlah 26 35 39 100 nij Penyelesaian: 1. Hipotesis Ho : P11 = P12 = P13 P21 = P22 = P23 P31 = P32 = P33 Atau mutu bahan makan dependen dengan tingkat dependen. Ho : Mutu bahan makan dependen dengan tingkat pendapatan 2. Dipilih level of significance 0,05 3. Kriteria Pengujian: Daerah terima Daerah tolak X 2 X 2 {0,05 ; (3-1)(3-1) = 9,488 Ho diterima apabila X 2 ≤ 9,488 Ho ditolak apabila X 2 > 9,488 4. Perhitungan X 2 dari sample: Dengan menggunakan persamaan (2), maka dapat kita cari eij e11 = e21 = e31 = (29)(26) 100 (36)(26) 100 (35)(26) 100 = 7,54 e12 = = 9,36 e22 = = 9,10 e32 = (29)(35) 100 (36)(35) 100 (35)(35) 100 = 10,15 e13 = = 12,60 e23 = = 12,25 e33 = (29)(39) 100 (36)(39) 100 (35)(39) 100 = 11,31 = 14,04 = 13,65
  • 14. Pendapatan Tinggi Sedang Rendah jumlah Mutu bahan makan Baik 7,54 10,15 11,31 29 Cukup 9,36 12,60 14,04 36 Jelek 9,10 12,25 13,65 35 Jumlah 26 35 39 100 eij (14 7,54)2 (6 10,15)2 (9 11,31)2 (10 9,36)2 (16 12,60)2 7,54 10,15 11,31 9,36 12,60 X 2 = (10 14,40)2 (2 9,10)2 (13 12,25)2 (20 13,65)2 14,40 9,10 12,25 13,65 = 18,36 5. Kesimpulan: Oleh karena 18,36 > 9,48 maka Ho kita tolak, berarti terdapat hubungan antara mutu bahan makan dengan tingkat pendapatan (kriteria dependent).
  • 15. 4.6 CONTOH KASUS Contoh: Permasalahan Penentuan Seseorang Menderita Hipertensi Menggunakan Decision Tree. Data diambil dengan 18 sample, dengan pemikiran bahwa yang mempengaruhi seseorang menderita hipertensi atau tidak adalah usia, berat badan, dan jenis kelamin. Usia mempunyai instance: muda dan tua. Berat badan mempunyai instance: underweight, average dan overweight. Jenis kelamin mempunyai instance: pria dan wanita. Data sample yang digunakan untuk menentukan hipertensi adalah: Nama Pasien Berat Badan Usia Jenis Kelamin Hipertensi? Oki lukman Overweight Tua Perempuan Ya Pasha ungu Overweight Tua Laki-laki Ya Budi anduk Overweight Tua Laki-laki Ya Indra bekti Overweight Tua Laki-laki Ya Luna maya Overweight Muda Perempuan Ya Tukul Overweight Muda Laki-laki Ya Afgan Average Tua Laki-laki Ya Desta Average Tua Laki-laki Ya Ringgo Average Muda Laki-laki Tidak Ruben Average Muda Laki-laki Tidak Titi kamal Average Muda Perempuan Tidak Aurakasih Average Tua Perempuan Tidak Jengkelin Average Tua Perempuan Tidak Ari untung Average Muda Laki-laki Tidak Gita gutawa Underweight Muda Perempuan Tidak Fedi nuril Underweight Muda Laki-laki Tidak Dian sastro Underweight Tua Perempuan Tidak Nicholas Underweight Tua Laki-laki Tidak Langkah penyelesaian kasus: 1. Mengubah Data Menjadi Tree. 2. Mengubah tree menjadi rule. 3. Menyederhanakan dan menguji rule. 4. Menentukan rule akhir Penyelesaian: Langkah -1: Mengubah Data Menjadi Tree. a. Menentukan Node Terpilih. Dari data sampel tentukan dulu node terpilih, yaitu dengan menghitung nilai information gain masing-masing atribut. (usia, berat badan, dan jenis kelamin).
  • 16. Untuk menentukan node terpilih, gunakan nilai information gain dari setiap kriteria dengan data sample yang ditentukan. Node terpilih adalah kriteria dengan information gain yang paling besar. Langkah – langkah menentukan node terpilih: 1. Menghitung nilai informasi (I) dari seluruh data training Dengan menggunakan persamaan: p( ) log 2 p( ) p( ) log 2 p( ) I = -8/18 log2 8/18 – 10/18 log2 10/18 = 0.99 2. Menghitung nilai informasi tiap atribut Contoh: nilai informasi atribut berat badan Dengan menggunakan persamaan: BB Hiper? Jumlah Catatan: Overweight Ya 6 Overweight Tidak 0 Average Ya 2 Average Tidak 6 Underweight Ya 4 Underweight Tidak 0 p( ) log 2 p( ) p( ) log 2 p( ) q1= -6/6 log2 6/6 – 0/6 log2 0/6 = 0 q2= -2/8 log2 2/8 – 6/8 log2 6/8 = 0.81 Total 18 3. Menghitung nilai entrophy tiap atribut Contoh: Entropy untuk berat badan: q1= -4/4 log2 4/4 – 0/4 log2 0/4 = 0 E = (6/18)q1 + (8/18)q2 + (4/18)q3 = 0.36 4. Menghitung nilai information gain tiap atribut Contoh: atribut berat badan Gain A I s1 , s2 ,...., sm E A = 0.99 – 0.36 = 0.63
  • 17. Dengan menggunakan langkah – langkah yang sama kita hitung nilai information gain atribut usia dan jenis kelamin, sehingga didapat nilai information gain atribut usia sebesar 0.091 dan jenis kelamin sebesar 0.048. Sehingga, terpilih atribut BERAT BADAN sebagai node awal karena memiliki information gain terbesar. b. Menyusun Tree Awal Berat bad an Overw eight Average Underw eight O k i lu kman + A fgan D esta + + Pash a u ng u + Rin gg o - Fedi nuril - Bud i an du k + Ru ben - G ita gutaw a - In dra bek t i + Tit i k amal - D ian sast ro - Lu na maya + A urak asih - N ich olas - Tu ku l + Jen gk elin - A ri u ntu ng - Node berikutnya dapat dipilih pada bagian yang mempunyai nilai + dan -, pada contoh di atas hanya berat = average yang mempunyai nilai + dan –, maka semuanya pasti mempunyai internal node. Untuk menyusun internal node lakukan satu-persatu. Penentuan Internal Node untuk berat = average Nama Pasien Usia Jenis Kelamin Hipertensi? Afgan Tua Laki-laki Ya Desta Tua Laki-laki Ya Ringgo Muda Laki-laki Tidak Ruben Muda Laki-laki Tidak Titi kamal Muda Perempuan Tidak Aurakasih Tua Perempuan Tidak Jengkelin Tua Perempuan Tidak Ari untung Muda Laki-laki Tidak
  • 18. Nilai informasi (I) dari data training untuk berat average: Jenis Kelamin Hiper? Jumlah Laki-laki Ya 2 Laki-laki Tidak 3 Perempuan Ya 0 Perempuan Tidak 3 Dengan menggunakan persamaan: p( ) log 2 p( ) p( ) log 2 p( ) I = -2/8 log2 2/8 – 6/8 log2 6/8 = 0.811 Kemudian kita menghitung nilai entrophy untuk masing – masing atribut yang tersisa: Usia Hiper? Jumlah Tua Ya 2 Tua Tidak 2 Muda Ya 0 Muda Tidak 4 E = 0.5 E = 0.61 Setelah itu didapatkan nilai information gain untuk atribut usia sebesar 0.811 – 0.5 = 0.311, dan nilai information gain untuk atribut jenis kelamin sebesar 0.811 – 0.61 = 0.201, sehingga atribut usia dipilih sebagai node berikutnya. Begitu seterusnya sampai node terakhir dapat menentukan kelas dari data. Menyusun Tree Lanjutan Berat b ada n Overweight Average Underweight Y ES U sia N O Tua Muda A fgan + D esta + A u rak asih - Jen g k elin - R in g go - R ub en - Ti t i k amal - A ri un tu n g -
  • 19. Berat b adan Overweight Average Underweight Y ES U sia N O Tua Muda Jen is K elamin N O Laki-laki Perempuan A fgan + D est a + A u rak asih - Jen g k el in - Hasil Tree Akhir Berat b ad an Overweight Average Underweight Y ES U sia N O Tua Muda Jen is K elamin N O Laki-laki Perempuan Y ES N O
  • 20. Langkah -2 : Mengubah Tree menjadi rule B erat b ad an Overweight Average Underweight Y ES U sia N O Tua Muda Jen is K elamin N O Laki-laki Perempuan Y ES N O R1: IF berat = overweight THEN hipertensi = ya R2: IF berat = underweight THEN hipertensi = tidak R3: IF berat = average^usia = muda^ THEN hipertensi = tidak R4: IF berat = average^usia = tua^jenis kelamin=laki- laki^ THEN hipertensi = ya R5: IF berat = average^usia = tua^jenis kelamin=perempuan^ THEN hipertensi = tidak Langkah -3 : Menyederhanakan dan Menguji Rule Dalam langkah menyederhanakan dan menguji rule ini, kita dapat menjalankan langkah-langkah berikut: 1. Membuat table distribusi terpadu dengan menyatakan semua nilai kejadian pada setiap rule. 2. Menghitung tingkat independensi antara kriteria pada suatu rule, yaitu antara atribut dan target atribut (penghitungan tingkat independensi menggunakan “Test of Independency” Chi-square) 3. Mengeliminasi kriteria yang tidak perlu, yaitu yang tingkat independensinya tinggi.
  • 21. Untuk Atribut Berat Badan BB hiper? jumlah OW ya 6 OW tidak 0 AV ya 2 AV tidak 6 UW ya 4 UW tidak 0 OW AV UW Jumlah Hipertensi 6 2 4 12 Tidak 0 6 0 6 Jumlah 6 8 4 18 OW AV UW Jumlah X Hipertens i 6 2 4 12 Tidak 0 6 0 6 Jumlah 6 8 4 18 nij Hipotesis: H0 : tidak ada hubungan antara berat badan dengan seseorang menderita hipertensi H1 : ada hubungan antara berat badan dengan seseorang menderita hipertensi Tingkat signifikansi : α = 0.05 Degree of freedom (DOF) = {α; (r – 1)*(k - 1)} = {0.05; (2– 1)*(3 - 1)} = {0.05; 2} 2 tabel 5.9915 (lihat tabel) Daerah kritis: Daerah terima Ho diterima apabila X 2 ≤ 5.99 Ho ditolak apabila X 2 > 5.99 Daerah tolak X 2 X 2 {0,05 ; (2-1)(3-1) = 5.99 Uji Independensi dengan distribusi Chi-Square nij
  • 22. OW AV UW Hipertensi 4 5.33 2.67 12 Tidak 2 2.67 1.33 6 Jumlah 6 8 4 18 (6 4) 2 (2 5.33) 2 (4 2.67) 2 (0 2) 2 (6 2.67) 2 (0 1.33) 2 4 5.33 2.67 2 2.67 1.33  X eij Perhitungan: (12)(6) e11 = 18 (6)(6) e21 = 18 = 4 e12 = = 2 e22 = (12)(8) 18 (6)(8) 18 = 5.33 e13 = = 2.67 e23 = (12)(4) 18 (6)(4) 18 = 2.67 = 1.33 Lalu, kita hitung nilai X2 dengan menggunakan persamaan: r k (n ei ) 2 X2 hitung = i j (ni .)(n. j ) ij j j i eij Dimana eij = n X2 hitung = = 1 + 2.08 + 0.67 + 2 + 4.17 +1.33 = 11.25 Karena nilai X2 hitung > X2 tabel yaitu 11.25 > 5.99, maka H0 ditolak, artinya atribut berat badan mempengaruhi seseorang menderita hipertensi atau tidak (dependent), sehingga atribut ini tidak bisa dihilangkan. Untuk Atribut Usia Dengan cara yang sama pada atribut berat badan, maka dapat diperoleh: {0,05 ; 1}  2 tabel 3.8415 (lihat tabel) X2 hitung = 2.205 Kesimpulan: Karena nilai X2 hitung ≤ X2 tabel yaitu 2.205 yaitu 2.205 ≤ 3.8415, artinya atribut usia tidak mempengaruhi seseorang menderita hipertensi atau tidak (independent), sehingga atribut ini bisa dihilangkan.
  • 23. Untuk Atribut Jenis kelamin Dengan cara yang sama pada atribut berat badan, maka dapat diperoleh:  {0,05 ; 1}  X 2 tabel 3.8415 (lihat tabel) X2 hitung = 5.299 Kesimpulan: Karena nilai X2 hitung > X2 tabel yaitu 5.299> 3.8415, maka H0 ditolak, artinya atribut berat badan mempengaruhi seseorang menderita hipertensi atau tidak (dependent), sehingga atribut ini tidak bisa dihilangkan. Langkah -4 : Menentukan Rule Akhir Berdasarkan hasil penyederhanaan rule dengan Chi-Square, maka rule akhir yang terbentuk adalah: R1: IF berat = overweight THEN hipertensi = ya R2: IF berat = underweight THEN hipertensi = tidak R4: IF berat = average ^jenis kelamin=laki- laki^ THEN hipertensi = ya R5: IF berat = average ^jenis kelamin=perempuan^ THEN hipertensi = tidak TUGAS : GUNAKAN DECISION TREE UTK KASUS BERIKUT : TABEL KLASIFIKASI RESIKO KREDIT : Pelanggan Saving Asset Sallary Resiko Kredit 1 Mediun High 75 Good 2 Low Low 50 Bad 3 High Medium 25 Bad 4 Mediun Medium 50 Good 5 Low Medium 100 Good 6 High High 25 Good