Slide ini berisi penjelasan tentang Data Mining Klasifikasi. Di dalamnya ada tiga algoritma yang dibahas, yaitu: Naive Bayes, kNN, dan ID3 (Decision Tree).
TEKNIK PENCARIAN (SEARCH) lanjutan:
• Teknik Pencarian Blind Search
• Teknik Pencarian Heuristic Search
• Teknik Search
• Topologi Proses Search
• Metode Search Breadth First Search
TEKNIK PENCARIAN (SEARCH) lanjutan:
• Teknik Pencarian Blind Search
• Teknik Pencarian Heuristic Search
• Teknik Search
• Topologi Proses Search
• Metode Search Breadth First Search
Dalam Statistika 2, kita membahas tentang :
Ukuran Pemusatan Data ( Data tunggal dan Data kelompok)
Ukuran Letak (Data tunggal dan Data kelompok)
Ukuran Penyebaran Data ( Data tunggal dan Data kelompok)
Deteksi Pencilan Data Titik panas di Provinsi Riau Menggunakan Algoritme Loca...Shofyan Sky
Indonesia mengalami kebakaran hutan yang signifikan. Pada tahun 2013 World Resources Institute (WRI) meneliti tren historis titik panas di Pulau Sumatera menggunakan data titik panas aktif National Aeronautics and Space Administration (NASA). Pada 13-30 Juni 2013 terjadi 2643 total jumlah peringatan titik panas. Tahun berikutnya Pada 20 Februari hingga 11 Maret tahun 2014 titik panas meningkat menjadi 3101 peringatan titik panas. Salah satu upaya untuk menangani kebakaran hutan ialah dengan menganalisis data titik panas yaitu dengan menganalisis pencilan titik panas sehingga dapat diidentifikasi wilayah yang beresiko terjadinya kebakaran hutan. Beberapa penelitian terkait deteksi pencilan yang sudah dilakukan diantaranya menggunakan algoritme clustering k-means dan juga menggunakan algoritme clustering berbasis medoids. Kedua penelitian tersebut mendeteksi pencilan berdasarkan frekuensi terjadinya titik panas dan belum mendeteksi pencilan berdasarkan kepadatan penyebaran titik panas. Algoritme yang dapat mendeteksi pencilan berdasarkan kepadatan penyebaran titik panas ialah algoritme local outlier factor. Dengan algoritme local outlier factor informasi mengenai wilayah yang berpotensi terjadi kebakaran hutan berdasarkan kepadatan penyebaran titik panas dapat dideteksi sehingga menjadi informasi tambahan untuk pengambilan keputusan oleh pihak terkait.
Pengujian hipotesis :
Adalah sebauah metode pengambilan keputusan yang didasarkan dari analisis data, baik dari percobaan yang terkontrol, maupun dari observasi (tidak terkontrol). Dalam statistik sebuah hasil bisa dikatakan signifikan secara statistik jika kejadian tersebut hampir tidak mungkin disebabkan oleh faktor yang kebetulan, sesuai dengan batas
Similar to Data Mining Klasifikasi (Updated 30 Desember 2020) (20)
Slide ini menjelaskan perihal penggunaan komentar yang baik dan buruk pada suatu kode program. Slide ini merupakan bahan ajar untuk mata kuliah Clean Code dan Design Pattern.
Materi untuk mata kuliah Pengujian Perangkat Lunak perihal Pengujian Perangkat Luak yang berfokus kepada Unit VS. Integration Testing dan White Box serta Black Box Testing
Slide ini berisi penjelasan tentang teorema-teorema yang berlaku untuk notasi asimptotik beserta cara perhitungannya untuk kebutuhan waktu suatu algoritma.
Kampung Keluarga Berkualitas merupakan salah satu wadah yang sangat strategis untuk mengimplementasikan kegiatan-kegiatan prioritas Program Bangga Kencana secara utuh di lini
lapangan dalam rangka menyelaraskan pelaksanaan program-program yang dilaksanakan Desa
4. Ekstraksi pengetahuan berupa nilai (berbentuk label kelas) dari
sebuah atribut/variabel berdasarkan nilai dari atribut/variabel lainnya
(Supervised Learning)
13. 2. Model Usage:
Mengestimasi akurasi dari model
menggunakan data uji kemudian apabila
akurasi dapat diterima maka berikutnya
melabelkan data baru yang belum
berlabel
18. Contoh Kasus Klasifikasi
age income student credit_rating buys_computer
youth high no fair no
youth high no excellent no
middle_age high no fair yes
senior medium no fair yes
senior low yes fair yes
senior low yes excellent no
middle_age low yes excellent yes
youth medium no fair no
youth low yes fair yes
youth medium yes fair yes
senior medium yes excellent yes
youth medium no excellent yes
middle_age high yes fair yes
middle_age medium no excellent no
youth medium yes fair ?X
:
25. 1. P(X|Ci) :
P(X|buys_computer = “yes”) = 0.333 x 0.444 x 0.667 x 0.667 = 0.066
P(X|Ci)*P(Ci) :
P(X|buys_computer = “yes”) * P(buys_computer = “yes”) = 0.042
2. P(X|Ci) :
P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019
P(X|Ci)*P(Ci) :
P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007
26. Langkah 4:
Pilih kelas berdasarkan aturan:
X termasuk dalam class Ci jika
𝑷 𝑪𝒊 𝑿 > 𝑷 𝑪𝒋 𝑿 𝒖𝒏𝒕𝒖𝒌 𝟏 ≤ 𝒋 ≤ 𝒎; 𝒋 ≠ 𝒊
27. X merupakan anggota class (“buys_computer = yes”)
karena P(X|C=yes) > P(X|C=no)
age income student credit_rating buys_computer
youth high no fair no
youth high no excellent no
middle_age high no fair yes
senior medium no fair yes
senior low yes fair yes
senior low yes excellent no
middle_age low yes excellent yes
youth medium no fair no
youth low yes fair yes
youth medium yes fair yes
senior medium yes excellent yes
youth medium no excellent yes
middle_age high yes fair yes
middle_age medium no excellent no
youth medium yes fair yesX
30. Contoh Kasus
Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh
4 2 4 Tidak
7 1 3 Ya
10 5 2 Tidak
8 5 4 Tidak
7 5 2 Ya
4 2 4 Ya
6 5 1 Tidak
6 2 5 Ya
8 2 5 Tidak
5 5 3 Ya
7 3 4 ?
31. Langkah 1:
Tentukan nilai parameter k
(jumlah tetangga pembanding).
Dalam kasus ini kita tentukan 3.
32. Nilai K disarankan ganjil agar
hasil rasio perbandingan antar
kelas tidak berimbang.
33. Langkah 2:
Menghitung kuadrat jarak euclidean
data yang mau diklasifikasi terhadap
data training yang diberikan
menggunakan rumus:
𝑑𝑖𝑠𝑡 𝑥, 𝑦 =
𝑖=1
𝑛
(𝑥𝑖 − 𝑦𝑖)2
34. Cara menghitung jarak eucliden objek
Jarak Tiang Kedalaman
Pondasi
Lama Pembangunan
4 2 4
7 3 4
Jarak eucliden data uji terhadap data latih ke-1
Perhitungan jarak eucliden data ke 1 = (7 − 4)2+(3 − 2)2+(4 − 4)2= 3,162
Pada perhitungan jarak euclide antara data uji dengan data latih ke-1 diperoleh nilai 3,162.
Lakukan proses perhitungan jarak untuk setiap data latih yang ada.
35. Hasil perhitungan jarak eucliden untuk setiap data latih:
Perhitungan jarak eucliden data ke 2 = (7 − 7)2+(3 − 1)2+(4 − 3)2= 2,236
Perhitungan jarak eucliden data ke 3 = (7 − 10)2+(3 − 5)2+(4 − 2)2= 4,123
Perhitungan jarak eucliden data ke 4 = (7 − 8)2+(3 − 5)2+(4 − 4)2= 2,236
Perhitungan jarak eucliden data ke 5 = (7 − 7)2+(3 − 5)2+(4 − 2)2= 2,828
Perhitungan jarak eucliden data ke 6 = (7 − 4)2+(3 − 2)2+(4 − 4)2= 3,162
Perhitungan jarak eucliden data ke 7 = (7 − 6)2+(3 − 5)2+(4 − 1)2= 3,742
Perhitungan jarak eucliden data ke 8 = (7 − 6)2+(3 − 2)2+(4 − 5)2= 1,732
Perhitungan jarak eucliden data ke 9 = (7 − 8)2+(3 − 2)2+(4 − 5)2= 1,732
Perhitungan jarak eucliden data ke 10 = (7 − 5)2+(3 − 5)2+(4 − 3)2= 3
36. Sehingga diperoleh perhitungan jarak Euclidean:
Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh Jarak Eucliden
4 2 4 Tidak 3,162
7 1 3 Ya 2,236
10 5 2 Tidak 4,123
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
5 5 3 Ya 3
37. Langkah 3:
Mengurutkan hasil perhitungan jarak
euclidean objek terhadap data training
yang diberikan
(berurut dari nilai terkecil ke tertinggi)
38. Jarak Tiang Kedalaman
Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
5 5 3 Ya 3
4 2 4 Tidak 3,162
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
10 5 2 Tidak 4,123
40. Jarak Tiang Kedalaman
Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
5 5 3 Ya 3
4 2 4 Tidak 3,162
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
10 5 2 Tidak 4,123
Nilai k yang kita tentukan adalah 3
42. Jarak Tiang Kedalaman
Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
Nilai k yang kita tentukan adalah 3
Kesimpulan:
Dengan mengurutkan jarak terkecil, semisal diambil k=3, maka
perbandingannya adalah 2(Ya) > 1(Tidak) untuk kelas cepat roboh.
Maka dapat disimpulkan apabila jarak tiang 7, kedalaman pondasi 3, dan lama
pembangunan 4 maka dia masuk ke dalam kelas cepat roboh “Ya”
52. Langkah 5:
if training examples diklasifikasikan
secara sempurna, then STOP, else
lanjut membentuk leaf node
53. Rumus Entropy:
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 =
𝑗=1
𝑘
−𝑝𝑗 log2 𝑝𝑗
Dimana:
• S adalah himpunan (dataset) kasus
• K adalah jumlah kelas data S
• 𝑝𝑗adalah probabilitas kelas data j terhadap total S
Catatan:
Entropy(S) akan bernilai 1 jika antar kelas data di S berjumlah sama dan
bernilai 0 jika hanya ada 1 kelas di S.
54. Rumus Information Gain:
𝐺𝑎𝑖𝑛 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 −
𝑖=1
𝑘
𝑆𝑖
𝑆
𝑥 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)
Dimana:
• S adalah ruang (data) training
• A adalah atribut
• |𝑆𝑖| adalah jumlah sample untuk nilai V
• |𝑆| adalah jumlah seluruh sample data
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) adalah entropy untuk sample yang memiliki nilai i
56. Humidity
S: [9+, 5-]
E = 0.940
High Normal
[3+, 4-]
E = 0.985
[6+, 1-]
E = 0.592
Wind
S: [9+, 5-]
E = 0.940
Weak Strong
[6+, 2-]
E = 0.811
[3+, 3-]
E = 1
Gain(S, Humidity)
= .940 - (7/14).985- (7/14).592
= .151
Gain(S, Wind)
= .940 - (8/14).811 - (6/14).1
= .048
Outlook
S: [9+, 5-]
E = 0.940
Sunny Rain
[3+, 2-]
E = 0.971
Gain(S, Outlook)
= .940 - (5/14).971 - (4/14).971 - 0
= .246
[2+, 3-]
E = 0.971
Overcast
Yes
[4+, 0-]
E = 0
Gain Terbesar
Temperature
S: [9+, 5-]
E = 0.940
Hot Cool
[3+, 1-]
E = 0.811
Gain(S, Temperature)
= .940 - (4/14)1 - (6/14).918 - (4/14).811
= .029
[2+, 2-]
E = 1
Mild
Yes
[4+, 2-]
E = 0.918
57. Outlook
{D1, D2, D3, .., D14}
S: [9+, 5-]
E = 0.940
Sunny Rain
Overcast
Yes
? ?
[2+, 3-]
{D1, D2, D8, D9, D11}
[4+, 0-]
{D3, D7, D12, D13}
[3+, 2-]
{D4, D5, D6, D10, D14}
Humidity
Day Outlook Temperature Humidity Wind Playing Tennis?
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
59. Contoh Kasus 2
Peserta SPMB Nilai SPMB UAN Psikotest Diterima
P1 Tinggi Bagus Baik Ya
P2 Tinggi Cukup Baik Ya
P3 Tinggi Cukup Buruk Ya
P4 Tinggi Kurang Buruk Tidak
P5 Sedang Bagus Baik Ya
P6 Sedang Cukup Baik Ya
P7 Sedang Cukup Buruk Ya
P8 Sedang Kurang Buruk Tidak
P9 Rendah Bagus Baik Ya
P10 Rendah Cukup Buruk Tidak
P11 Rendah Kurang Baik Ya
60. Nilai SPMB
S: [8+, 3-]
E = 0.845
Tinggi Rendah
[3+, 1-]
E = 0.811
[2+, 1-]
E = 0.918
Gain(S, Nilai SPMB)
= .845 - (4/11).811- (4/11).811 - (3/11).0.918
= .0049
Psikotest
S: [8+, 3-]
E = 0.845
Baik Buruk
[2+, 3-]
E = 0.672
Gain(S, Psikotest)
= .845 - 0 - (5/11).672
= .540
[6+, 0-]
E = 0
Gain Terbesar
Sedang
[3+, 1-]
E = 0.811
UAN
S: [8+, 3-]
E = 0.845
Bagus Kurang
[3+, 0-]
E = 0
[1+, 2-]
E = 0.918
Gain(S, UAN)
= .845 - 0 - (5/11).722 - (3/11).0.918
= .267
Cukup
[4+, 1-]
E = 0.722
Ya
Ya
64. Nomor Tingkat Perekonomian Jenis Kelamin Pekerjaan Punya Deposito?
1 Menengah Ke Atas Pria Tetap Ya
2 Menengah Ke Atas Pria Tetap Tidak
3 Menengah Ke Atas Pria Tetap Ya
4 Menengah Ke Bawah Pria Tetap Tidak
5 Menengah Ke Bawah Pria Honorer Ya
6 Menengah Ke Bawah Wanita Honorer Tidak
7 Menengah Ke Bawah Wanita Honorer Ya
8 Menengah Ke Bawah Wanita Tetap Tidak
9 Menengah Ke Atas Wanita Honorer Tidak
10 Menengah Ke Atas Pria Honorer Ya
X Menengah Ke Atas Pria Tetap ?