DATAMINING MENGGUNAKAN
ALGORITMA C4.5
Created By : M. Rosyid Ridlo
Algoritma C4.5
• Algoritma C4.5 merupakan algoritma yang
digunakan untuk membentuk pohon keputusan.
• Pohon keputusan sendiri merupakan klasifikasi
dan prediksi yang sangat kuat dan terkenal.
• Metode pohon keputusan mengubah fakta yang
sangat besar menjadi pohon keputusan yang
mempresentasikan aturan.
Tahapan Algoritma C4.5
1. Pilih atribut sebagai akar.
2. Buat cabang untuk tiap-tiap nilai.
3. Bagi kasus dalam cabang.
4. Ulangi proses untuk setiap cabang sampai
semua kasus pada cabang memiliki kelas yang
sama
Rumus Menghitung Gain & Entropy
• Pada kontruksi pohon C4.5, di setiap simpul pohon,
atribut dengan nilai gain ratio tertinggi dipilih sebagai
atribut split untuk simpul. Rumus dari gain ratio
adalah sebagai berikut :
• Untuk mendapatkan nilai gain ratio dalam pembentukan
pohon keputusan, perlu menghitung dulu nilai informasi
dalam satuan bits dari suatu kumpulan objek. Bentuk
perhitungan untuk entropi adalah sebagai berikut :
Tabel Uji
Play : Sebagai
Target Atribut
1. Pencarian Atribut Sebagai Akar
Node
Jml Kasus
(S)
No
(S1)
Yes
(S2)
Entropy Gain
1 Total 14 5 9 0,94028596
Outlook 0,246749824
Sunny 5 3 2 0,97095059
Overcast 4 0 4 0
Rainy 5 2 3 0,97095059
Temperature 0,02922257
Hot 4 2 2 1
Mild 6 2 4 0,91829583
Cool 4 1 3 0,81127812
Humidity 0,1518355
High 7 4 3 0,98522814
Normal 7 1 6 0,59167278
Windy 0,048127034
FALSE 8 2 6 0,81127812
TRUE 6 3 3 1
Pada tabel Gain tertinggi
pada atribut Outlook,
maka Outlook bisa
menjadi Node Akar
2. Gambar Pohon Keputusan
Karena pada tabel,
Overcast sudah
diklasifikasikan
menjadi 1 dan
bernilai Yes.
Sehingga tidak
perlu dilakukan
perhitungan lebih
lanjut
1.2
?
1Outlook
1.1
?
Yes
Overcast
3. Pencarian Node Selanjutnya
Node
Jml Kasus
(S)
No
(S1)
Yes
(S2)
Entropy Gain
1.1 Outlook-Sunny 5 3 2 0,97095059
Temperature 0,57095059
Hot 2 2 0 0
Mild 2 1 1 1
Cool 1 0 1 0
Humidity 0,97095059
High 3 3 0 0
Normal 2 0 2 0
Windy 0,019973092
FALSE 3 2 1 0,91829583
TRUE 2 1 1 1
Node
Jml Kasus
(S)
No
(S1)
Yes
(S2)
Entropy Gain
1.2 Outlook-Rainy 5 2 3 0,97095059
Temperature 0,019973092
Hot 0 0 0 0
Mild 3 1 2 0,91829583
Cool 2 1 1 1
Humidity 0,019973092
High 2 1 1 1
Normal 3 1 2 0,91829583
Windy 0,97095059
FALSE 3 0 3 0
TRUE 2 2 0 0
4. Gambar Pohon Keputusan
Pada tabel,
-node 1.1 gain
tertinggi pada
atribut
Humidity.
-node 1.2 gain
tertinggi pada
atribut Windy
1.2
Windy
1Outlook
1.1
Humidity
Yes
Overcast
No Yes No Yes
Datamining menggunakan algoritma c4.5

Datamining menggunakan algoritma c4.5

  • 1.
  • 2.
    Algoritma C4.5 • AlgoritmaC4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. • Pohon keputusan sendiri merupakan klasifikasi dan prediksi yang sangat kuat dan terkenal. • Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang mempresentasikan aturan.
  • 3.
    Tahapan Algoritma C4.5 1.Pilih atribut sebagai akar. 2. Buat cabang untuk tiap-tiap nilai. 3. Bagi kasus dalam cabang. 4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama
  • 4.
    Rumus Menghitung Gain& Entropy • Pada kontruksi pohon C4.5, di setiap simpul pohon, atribut dengan nilai gain ratio tertinggi dipilih sebagai atribut split untuk simpul. Rumus dari gain ratio adalah sebagai berikut : • Untuk mendapatkan nilai gain ratio dalam pembentukan pohon keputusan, perlu menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan objek. Bentuk perhitungan untuk entropi adalah sebagai berikut :
  • 5.
    Tabel Uji Play :Sebagai Target Atribut
  • 6.
    1. Pencarian AtributSebagai Akar Node Jml Kasus (S) No (S1) Yes (S2) Entropy Gain 1 Total 14 5 9 0,94028596 Outlook 0,246749824 Sunny 5 3 2 0,97095059 Overcast 4 0 4 0 Rainy 5 2 3 0,97095059 Temperature 0,02922257 Hot 4 2 2 1 Mild 6 2 4 0,91829583 Cool 4 1 3 0,81127812 Humidity 0,1518355 High 7 4 3 0,98522814 Normal 7 1 6 0,59167278 Windy 0,048127034 FALSE 8 2 6 0,81127812 TRUE 6 3 3 1 Pada tabel Gain tertinggi pada atribut Outlook, maka Outlook bisa menjadi Node Akar
  • 7.
    2. Gambar PohonKeputusan Karena pada tabel, Overcast sudah diklasifikasikan menjadi 1 dan bernilai Yes. Sehingga tidak perlu dilakukan perhitungan lebih lanjut 1.2 ? 1Outlook 1.1 ? Yes Overcast
  • 8.
    3. Pencarian NodeSelanjutnya Node Jml Kasus (S) No (S1) Yes (S2) Entropy Gain 1.1 Outlook-Sunny 5 3 2 0,97095059 Temperature 0,57095059 Hot 2 2 0 0 Mild 2 1 1 1 Cool 1 0 1 0 Humidity 0,97095059 High 3 3 0 0 Normal 2 0 2 0 Windy 0,019973092 FALSE 3 2 1 0,91829583 TRUE 2 1 1 1 Node Jml Kasus (S) No (S1) Yes (S2) Entropy Gain 1.2 Outlook-Rainy 5 2 3 0,97095059 Temperature 0,019973092 Hot 0 0 0 0 Mild 3 1 2 0,91829583 Cool 2 1 1 1 Humidity 0,019973092 High 2 1 1 1 Normal 3 1 2 0,91829583 Windy 0,97095059 FALSE 3 0 3 0 TRUE 2 2 0 0
  • 9.
    4. Gambar PohonKeputusan Pada tabel, -node 1.1 gain tertinggi pada atribut Humidity. -node 1.2 gain tertinggi pada atribut Windy 1.2 Windy 1Outlook 1.1 Humidity Yes Overcast No Yes No Yes