SlideShare a Scribd company logo
Introduction to Datamining using WEKA
Anto Satriyo Nugroho
Center for Information & Communication Technology
Agency for the Assessment & Application of Technology, Indonesia
Email: asnugroho@ieee.org
2
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifikasi
– Tahapan membangun classifier
– Contoh kasus : Klasifikasi bunga iris
– Tahapan membangun classifier
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier
– Eksperimen memakai classifier yang lain (JST, SVM)
– Classification of cancers based on gene expression
– Parkinson Disease Detection
• K-Means Clustering
3
What is WEKA ?
• Machine learning/data mining software written in Java (distributed under
the GNU Public License)
• Used for research, education, and applications
• Complements “Data Mining” by Witten & Frank
• Main features:
– Comprehensive set of data pre-processing tools, learning algorithms
and evaluation methods
– Graphical user interfaces (incl. data visualization)
– Environment for comparing learning algorithms
• Weka versions
– WEKA 3.4: “book version” compatible with description in data mining
book
– WEKA 3.5: “developer version” with lots of improvements
4
Formatting Data into ARFF
@relation iris
@attribute sepallength real
@attribute sepalwidth real
@attribute petallength real
@attribute petalwidth real
@attribute class {Iris-setosa, Iris-versicolor, Iris-virginica}
@data
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
…
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
…
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
…
5
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifikasi
– Tahapan membangun classifier
– Contoh kasus : Klasifikasi bunga iris
– Tahapan membangun classifier
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier
– Eksperimen memakai classifier yang lain (JST, SVM)
– Classification of cancers based on gene expression
– Parkinson Disease Detection
• K-Means Clustering
6
Tahapan membangun Classifier
1. Tentukan manakah informasi yang merupakan
(a) attribute/feature
(b) class
(c) training & testing set
(d) skenario pengukuran akurasi
2. Tentukan kombinasi parameter model, dan lakukan proses
pelatihan memakai training set
3. Ukurlah akurasi yang dicapai dengan testing set
4. Ubahlah parameter model, dan ulang kembali mulai dari
step 2, sampai dicapai akurasi yang diinginkan
7
Contoh Kasus : Klasifikasi bunga iris
• Data set yang paling terkenal
• Author: R.A. Fisher
• Terdiri dari 3 kelas, masing-masing
memiliki 50 samples (instances)
• Attribute information:
– Sepal (kelopak) length in cm
– sepal width in cm
– Petal (mahkota) length in cm
– petal width in cm
– class: (1) Iris Setosa (2) Iris
Versicolour (3)Iris Virginica
• URL:
http://archive.ics.uci.edu/ml/datasets/Iri
s
8
Flower’s parts
9
Tahapan membangun Classifier
1. Tentukan manakah informasi yang merupakan
(a) attribute/feature : sepal length (panjang
kelopak)
sepal width (lebar kelopak)
petal length (panjang
mahkota)
petal width (lebar mahkota)
(b) class: iris setosa
iris versicolor
iris virginica
(c) training & testing set
training set : 25 instances/class
testing set: 25 instances/class
Step by Step klasifikasi
10
11
Open file “iris-training.arff”
12
statistical information of “sepallength”
Klik pada Classify untuk memilih
Classifier algorithm
13
Klik pada “Choose” untuk memilih
Classifier algorithm
14
SMO ( implementasi SVM)
Naïve Bayes
15
IB1 : 1-Nearest Neighbor
Classifier)
IBk : k-Nearest Neighbor
Classifier
16
Multilayer Perceptron
(Jaringan Syaraf Tiruan)
17
SMO singkatan dari
Sequential Minimal Optimization.
SMO adalah implementasi SVM
Mengacu pada paper John Platt
18
Decision Tree J48 (C4.5)
19
Misalnya kita pilih
IBk : k-Nearest Neighbor
Classifier
20
Selanjutnya pilihlah skenario
Pengukuran akurasi. Dari 4
Options yang diberikan, pilihlah
“Supplied test set” dan klik
Button “Set” untuk memiilih
Testing set file “iris-testing.arff”
21
Tahapan membangun Classifier
Iris-training.arff
Iris-testing.arff
25
25
25 25
25
25
Classifiers :
1. Naïve Bayes
2. K-Nearest Neighbor Classifier
(lazy iBk)
3. Artificial Neural Network
(function multilayer perceptron)
4. Support Vector Machine
(function  SMO)
Akurasi
terhadap
testing set ?
iris setosa
iris versicolor
iris virginica
22
Apakah yang dimaksud “mengukur akurasi”
• Testing set “iris-testing.arff” dilengkapi dengan informasi
actual class-nya. Misalnya instance no.1 adalah suatu bunga
yang memiliki sepal length 5.0 cm, sepal width 3.0cm, petal
length 1.6 cm, petal width 0.2 cm, dan jenis bunganya (class)
“Iris setosa”
• Model classification yang dibangun harus mampu menebak
dengan benar class tersebut.
23
Berbagai cara pengukuran akurasi
• “Using training set” : memakai seluruh
data sebagai training set, sekaligus testing
set. Akurasi akan sangat tinggi, tetapi
tidak memberikan estimasi akurasi yang
sebenarnya terhadap data yang lain (yang
tidak dipakai untuk training)
• Hold Out Method : Memakai sebagian
data sebagai training set, dan sisanya
sebagai testing set. Metode yang lazim
dipakai, asal jumlah sampel cukup banyak.
Ada 2 : supplied test set dan percentage
split. Pilihlah “Supplied test set” : jika file
training dan testing tersedia secara
terpisah. Pilihlah “Percentage split” jika
hanya ada 1 file yang ingin dipisahkan ke
training & testing. Persentase di kolom
adalah porsi yang dipakai sbg training set
24
Berbagai cara pengukuran akurasi
• Cross Validation Method ( fold = 5
atau 10 ) : teknik estimasi akurasi
yang dipakai, jika jumlah sampel
terbatas. Salah satu bentuk
khusus CV adalah Leave-one-out
Cross Validation (LOOCV) : dipakai
jka jumlah sampel sangat terbatas
25
Ilustrasi Cross Validation (k=5)
1. Data terdiri dari 100 instances (samples), dibagi ke dalam 5 blok
dengan jumlah sampel yang sama. Nama blok : A, B, C, D dan E,
masing-masing terdiri dari 20 instances
2. Kualitas kombinasi parameter tertentu diuji dengan cara sbb.
step 1: training memakai A,B,C,D testing memakai E akurasi a
step 2: training memakai A,B,C,E testing memakai D akurasi b
step 3: training memakai A,B, D,E testing memakai C akurasi c
step 4: training memakai A, C,D,E testing memakai B akurasi d
step 5: training memakai B,C,D,E testing memakai A akurasi e
3. Rata-rata akurasi : (a+b+c+d+e)/5 mencerminkan kualitas
parameter yang dipilih
4. Ubahlah parameter model, dan ulangi dari no.2 sampai dicapai
akurasi yang diinginkan
26
Kali ini memakai “Supplied test set”.
Selanjutnya klik pada bagian yang
Di dalam kotak untuk men-set nilai
Parameter. Dalam hal ini, adalah
Nilai “k” pada k-Nearest Neighbour
Classifier (Nick name : IBK)
27
Set-lah nilai “k”misalnya 3 dan klik OK.
Untuk memahami parameter yang lain,
kliklah button “More” & “Capabilities”
28
Klik button “Start”
Hasil eksperimen : Correct classification rate : 96%
(benar 72 dari total 75 data pada testing set)
Bagaimana cara membaca Confusion matrix ?
• Baris pertama “25 0 0” menunjukkan bahwa ada (25+0+0)
instances class Iris-setosa di dalam file iris-testing.arff dan
semua benar diklasifikasikan sebagai Iris setosa
• Baris kedua “0 24 1” menunjukkan bahwa ada (0+24+1)
instances class Iris-versicolor di dalam file iris-testing.arff
dan 1 salah diklasifikasikan sebagai Iris-virginica
• Baris ketiga “0 2 24” menunjukkan bahwa ada (0+2+23)
instances class Iris-virginica di dalam file iris-testing.arff dan
2 di antaranya salah diklasifikasikan sebagai Iris-versicolor
Untuk mengetahui instance mana yang tidak berhasil
Diklasifikasikan klik “More Options” dan check lah
“Output predictions”. Klik “Start” untuk mengulangi
eksperimen yang sama
Inst# : nomer urut data pada file “iris-testing.arff”
actual : class yang sebenarnya
predicted: class yang diprediksi
Error: jika ada misclassification, akan diberikan tanda “+”
dalam contoh ini, pada instance no.34, 59 & 60
Merangkum hasil eksperimen
No. K Correct Classification Rate
Iris setosa Iris versicolor Iris virginica Total
1 1 ? ? ? ?
2 3 100% 96% 92% 96%
3 5
5
7
9
• Tugas : lanjutkan eksperimen di atas untuk nilai k = 1, 3, 5, 7 dan 9
• Buatlah grafik yang menunjukkan akurasi yang dicapai untuk masing-masing
class pada berbagai nilai k. Sumbu horisontal : nilai k dan sumbu vertikal :
akurasi
• Kapankah (pada nilai k berapa ?) akurasi tertinggi dicapai ? Bagaimanakah
trend akurasi masing-masing class ?
33
Eksperimen memakai Neural Network
• Untuk eksperimen memakai neural
network, caranya sama dengan k-Nearest
Neighbor Classifier.
• Parameter yang dituning meliputi antara
lain:
– hiddenLayers: banyaknya neuron
pada hidden layer. Default “a” : rata-
rata jumlah neuron pada input &
output layer
– LearningRate : biasanya nilai kecil
(0.1, 0.01, 0.2, 0.3 dsb)
– Momentum: biasanya nilai besar (0.6,
0.9 dsb)
– trainingTime: maksimum iterasi
backpropagation (500, 1000, 5000,
10000 dsb.)
34
Eksperimen memakai SVM
35
Eksperimen memakai SVM
C: complexity parameter
(biasanya mengambil nilai
besar. 100, 1000 dst)
Untuk memilih kernel
Eksperimen memakai SVM
37
Classification of cancers based on gene expression
• Biological reference:
Classification and diagnostic prediction of cancers using gene
expression profiling and artificial neural networks,
J. Khan, et al., Nature Medicine 7, pp.673-679, 2001
(http://www.thep.lu.se/~carsten/pubs/lu_tp_01_06.pdf )
• Data is available from
http://research.nhgri.nih.gov/microarray/Supplement/
• Small Round Blue Cell Tumors (SRBCT) has two class:
– Ewing Family of Tumors (EWS)
– NB: Neuroblastoma
– BL: Burkitt lymphomas
– RMS: Rhabdomyosarcoma : RMS
• Characteristic of the data
– Training samples : 63 (EWS:23 BL:8 NB:12 RMS:20)
– Testing samples: 20 (EWS:6 BL:3 NB:6 RMS:5)
– Number of features (attributes): 2308
38
Experiment using k-Nearest Neighbor Classifier
• Training and testing set are given as separated arff file
• Use training set to build a classifier: k-Nearest Neighbor (k=1)
• Evaluate its performance on the testing set.
• Change the value of k into 3,5,7 and 9 and repeat step 1 to 3 for each
value.
Experiment using Artificial Neural Network
• Do the same experiment using Multilayer Perceptron Artificial Neural
Network for various parameter setting (hidden neurons, learning rate,
momentum, maximum iteration). Make at least five parameter settings.
Classification of cancers based on gene expression
39
Parkinson Disease Detection
Max Little (Oxford University) recorded speech signals and measured the
biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the
dataset which will be distributed during final examination, each column in the
table is a particular voice measure, and each row corresponds one of 195 voice
recording from these individuals ("name" column). The main aim of the data is
to discriminate healthy people from those with PD, according to "status" column
which is set to 0 for healthy and 1 for PD. There are around six recordings per
patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence
and Fractal Scaling Properties for Voice Disorder Detection', Little MA,
McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering
OnLine 2007, 6:23, 26 June 2007).
Experiment using k-Nearest Neighbor Classifier
Conduct classification experiments using k-Nearest Neighbor Classifier and
Support Vector Machines, by using 50% of the data as training set and the rest
as testing set. Try at least 5 different values of k for k-Nearest neighbor, and
draw a graph show the relationship between k and classification rate. In case
of Support Vector Machine experiments, try several parameter combinations by
modifying the type of Kernel and its parameters (at least 5 experiments).
Compare and discuss the results obtained by both classifiers. Which of them
achieved higher accuracy ?
40
Parkinson Disease Detection
Max Little (Oxford University) recorded speech signals and measured the
biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the
dataset which will be distributed during final examination, each column in the
table is a particular voice measure, and each row corresponds one of 195 voice
recording from these individuals ("name" column). The main aim of the data is
to discriminate healthy people from those with PD, according to "status" column
which is set to 0 for healthy and 1 for PD. There are around six recordings per
patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence
and Fractal Scaling Properties for Voice Disorder Detection', Little MA,
McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering
OnLine 2007, 6:23, 26 June 2007).
Experiment using k-Nearest Neighbor Classifier
Conduct classification experiments using k-Nearest Neighbor Classifier and
Support Vector Machines, by using 50% of the data as training set and the rest
as testing set. Try at least 5 different values of k for k-Nearest neighbor, and
draw a graph show the relationship between k and classification rate. In case
of Support Vector Machine experiments, try several parameter combinations by
modifying the type of Kernel and its parameters (at least 5 experiments).
Compare and discuss the results obtained by both classifiers. Which of them
achieved higher accuracy ?
41
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifikasi
– Tahapan membangun classifier
– Contoh kasus : Klasifikasi bunga iris
– Tahapan membangun classifier
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier
– Eksperimen memakai classifier yang lain (JST, SVM)
– Classification of cancers based on gene expression
– Parkinson Disease Detection
• K-Means Clustering
42
K-Means Clustering : Step by Step
• Pilihlah k buah data sebagai initial centroid
• Ulangi
– Bentuklah K buah cluster dengan meng-assign
tiap data ke centroid terdekat
– Update-lah centroid tiap cluster
• Sampai centroid tidak berubah
43
K-Means Clustering : Step by Step
Filename : kmeans_clustering.arff
45
1
2
46
Klik untuk memilih algoritma clustering
Pilih “Use training set”
47
48
Klik untuk memilih nilai k
49
maxIterations:
untuk menghentikan proses
clustering jika iterasi melebih
nilai tertentu
numClusters: nilai k (banyaknya
cluster)
50
Hasil clustering: terbentuk 3 cluster dan masing-masing
beranggotakan 50 instances
51
Klik dengan button kanan mouse untuk menampilkan
visualisasi cluster
52
Nilai attribute x ditampilkan pada sumbu x, dan nilai
attribute y ditampilkan pada sumbu y
Tiap cluster diberikan warna yang
berbeda (merah, biru, hijau)

More Related Content

Similar to 04-cara-pemakaian-weka.ppt

Data mining algoritma covering dan penerapannya
Data mining algoritma covering dan penerapannyaData mining algoritma covering dan penerapannya
Data mining algoritma covering dan penerapannya
Universitas Gadjah Mada
 
Bab 5 pengujian_perangkat_lunak
Bab 5 pengujian_perangkat_lunakBab 5 pengujian_perangkat_lunak
Bab 5 pengujian_perangkat_lunak
Adie Suryadi
 
Testing black box
Testing black boxTesting black box
Testing black box
Taufik hidayat
 
Mi1274 alpro lanjut 3 - percabangan if - praktikan
Mi1274 alpro lanjut   3 - percabangan if - praktikanMi1274 alpro lanjut   3 - percabangan if - praktikan
Mi1274 alpro lanjut 3 - percabangan if - praktikanDefina Iskandar
 
Pertemuan 3 Desain Test Case
Pertemuan 3 Desain Test CasePertemuan 3 Desain Test Case
Pertemuan 3 Desain Test Case
Endang Retnoningsih
 
Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...
Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...
Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...
Deris Stiawan
 
Support Vector Machine.pptx
Support Vector Machine.pptxSupport Vector Machine.pptx
Support Vector Machine.pptx
Eri Zuliarso
 
IFK 438_Pertemuan ke 15_Accuracy Assesment.pdf
IFK 438_Pertemuan ke 15_Accuracy Assesment.pdfIFK 438_Pertemuan ke 15_Accuracy Assesment.pdf
IFK 438_Pertemuan ke 15_Accuracy Assesment.pdf
UIKA, PT MURA TEKNIK
 
Klasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptxKlasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptx
Adam Superman
 
Procceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriAndika Dwi Hadiri
 
teknik-teknik data mining
teknik-teknik data miningteknik-teknik data mining
teknik-teknik data mining
Universitas Bina Darma Palembang
 
AI Security .pptx
AI Security .pptxAI Security .pptx
AI Security .pptx
OperatorPolina
 
cara menggunakan materi black box keseharian
cara menggunakan materi black box kesehariancara menggunakan materi black box keseharian
cara menggunakan materi black box keseharian
tutorial3112
 
testing_black_box.ppt
testing_black_box.ppttesting_black_box.ppt
testing_black_box.ppt
ErbilantoSetyadi
 
scikit-learn cheat sheet untuk data science
scikit-learn cheat sheet untuk data sciencescikit-learn cheat sheet untuk data science
scikit-learn cheat sheet untuk data science
softscients
 
HibahProdi Genap 2012/2013
HibahProdi Genap 2012/2013HibahProdi Genap 2012/2013
HibahProdi Genap 2012/2013
achmad fauzan
 
Sistem terdistribusi dalam Ilmu Komputer
Sistem terdistribusi dalam Ilmu KomputerSistem terdistribusi dalam Ilmu Komputer
Sistem terdistribusi dalam Ilmu Komputer
ssuser21fe3e
 
Modul praktikum 3 cluster
Modul praktikum 3   clusterModul praktikum 3   cluster
Modul praktikum 3 cluster
DeiHart DeiHart
 
Pengantar Deep Learning Untuk Pembelajaran Deep Learning
Pengantar Deep Learning Untuk Pembelajaran Deep LearningPengantar Deep Learning Untuk Pembelajaran Deep Learning
Pengantar Deep Learning Untuk Pembelajaran Deep Learning
AdeChandra56
 
Statistik sosial-4
Statistik sosial-4Statistik sosial-4
Statistik sosial-4
Emyu Rahmawan
 

Similar to 04-cara-pemakaian-weka.ppt (20)

Data mining algoritma covering dan penerapannya
Data mining algoritma covering dan penerapannyaData mining algoritma covering dan penerapannya
Data mining algoritma covering dan penerapannya
 
Bab 5 pengujian_perangkat_lunak
Bab 5 pengujian_perangkat_lunakBab 5 pengujian_perangkat_lunak
Bab 5 pengujian_perangkat_lunak
 
Testing black box
Testing black boxTesting black box
Testing black box
 
Mi1274 alpro lanjut 3 - percabangan if - praktikan
Mi1274 alpro lanjut   3 - percabangan if - praktikanMi1274 alpro lanjut   3 - percabangan if - praktikan
Mi1274 alpro lanjut 3 - percabangan if - praktikan
 
Pertemuan 3 Desain Test Case
Pertemuan 3 Desain Test CasePertemuan 3 Desain Test Case
Pertemuan 3 Desain Test Case
 
Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...
Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...
Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...
 
Support Vector Machine.pptx
Support Vector Machine.pptxSupport Vector Machine.pptx
Support Vector Machine.pptx
 
IFK 438_Pertemuan ke 15_Accuracy Assesment.pdf
IFK 438_Pertemuan ke 15_Accuracy Assesment.pdfIFK 438_Pertemuan ke 15_Accuracy Assesment.pdf
IFK 438_Pertemuan ke 15_Accuracy Assesment.pdf
 
Klasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptxKlasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptx
 
Procceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiri
 
teknik-teknik data mining
teknik-teknik data miningteknik-teknik data mining
teknik-teknik data mining
 
AI Security .pptx
AI Security .pptxAI Security .pptx
AI Security .pptx
 
cara menggunakan materi black box keseharian
cara menggunakan materi black box kesehariancara menggunakan materi black box keseharian
cara menggunakan materi black box keseharian
 
testing_black_box.ppt
testing_black_box.ppttesting_black_box.ppt
testing_black_box.ppt
 
scikit-learn cheat sheet untuk data science
scikit-learn cheat sheet untuk data sciencescikit-learn cheat sheet untuk data science
scikit-learn cheat sheet untuk data science
 
HibahProdi Genap 2012/2013
HibahProdi Genap 2012/2013HibahProdi Genap 2012/2013
HibahProdi Genap 2012/2013
 
Sistem terdistribusi dalam Ilmu Komputer
Sistem terdistribusi dalam Ilmu KomputerSistem terdistribusi dalam Ilmu Komputer
Sistem terdistribusi dalam Ilmu Komputer
 
Modul praktikum 3 cluster
Modul praktikum 3   clusterModul praktikum 3   cluster
Modul praktikum 3 cluster
 
Pengantar Deep Learning Untuk Pembelajaran Deep Learning
Pengantar Deep Learning Untuk Pembelajaran Deep LearningPengantar Deep Learning Untuk Pembelajaran Deep Learning
Pengantar Deep Learning Untuk Pembelajaran Deep Learning
 
Statistik sosial-4
Statistik sosial-4Statistik sosial-4
Statistik sosial-4
 

Recently uploaded

SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIANSINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
NanieIbrahim
 
AKSI NYATA TRANSISI PAUD-SD : PENGUATAN DI TAHUN AJARAN BARU
AKSI NYATA TRANSISI PAUD-SD : PENGUATAN DI TAHUN AJARAN BARUAKSI NYATA TRANSISI PAUD-SD : PENGUATAN DI TAHUN AJARAN BARU
AKSI NYATA TRANSISI PAUD-SD : PENGUATAN DI TAHUN AJARAN BARU
junaedikuluri1
 
materi penyuluhan kesehatan reproduksi remaja
materi penyuluhan kesehatan reproduksi remajamateri penyuluhan kesehatan reproduksi remaja
materi penyuluhan kesehatan reproduksi remaja
DewiInekePuteri
 
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Fathan Emran
 
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum MerdekaModul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Fathan Emran
 
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi KomunikasiMateri Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
AdePutraTunggali
 
FORMAT PPT RANGKAIAN PROGRAM KERJA KM 7.pptx
FORMAT PPT RANGKAIAN PROGRAM KERJA KM 7.pptxFORMAT PPT RANGKAIAN PROGRAM KERJA KM 7.pptx
FORMAT PPT RANGKAIAN PROGRAM KERJA KM 7.pptx
NavaldiMalau
 
MODUL AJAR MAT LANJUT KELAS XI FASE F.pdf
MODUL AJAR MAT LANJUT KELAS XI FASE F.pdfMODUL AJAR MAT LANJUT KELAS XI FASE F.pdf
MODUL AJAR MAT LANJUT KELAS XI FASE F.pdf
sitispd78
 
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdfMODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
YuristaAndriyani1
 
Pemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptxPemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptx
ssuser4dafea
 
RENCANA TINDAK LANJUT (RTL) PASCA PELATIHAN.pptx
RENCANA TINDAK LANJUT (RTL) PASCA PELATIHAN.pptxRENCANA TINDAK LANJUT (RTL) PASCA PELATIHAN.pptx
RENCANA TINDAK LANJUT (RTL) PASCA PELATIHAN.pptx
mukminbdk
 
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata anginMedia Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
margagurifma2023
 
Tokoh Pendidikan Universitas Negeri Jakarta.pdf
Tokoh Pendidikan Universitas Negeri Jakarta.pdfTokoh Pendidikan Universitas Negeri Jakarta.pdf
Tokoh Pendidikan Universitas Negeri Jakarta.pdf
Mutia Rini Siregar
 
Kisi-kisi PAT IPS Kelas 8 semester 2.pdf
Kisi-kisi PAT IPS Kelas 8 semester 2.pdfKisi-kisi PAT IPS Kelas 8 semester 2.pdf
Kisi-kisi PAT IPS Kelas 8 semester 2.pdf
indraayurestuw
 
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada AnakDefenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Yayasan Pusat Kajian dan Perlindungan Anak
 
Kelompok 2 Tugas Modul 2.1 Ruang Kolaborasi.pdf
Kelompok 2 Tugas Modul 2.1 Ruang Kolaborasi.pdfKelompok 2 Tugas Modul 2.1 Ruang Kolaborasi.pdf
Kelompok 2 Tugas Modul 2.1 Ruang Kolaborasi.pdf
JALANJALANKENYANG
 
Powerpoint Materi Menyusun dan Merencanakan Modul Ajar
Powerpoint Materi Menyusun dan Merencanakan Modul AjarPowerpoint Materi Menyusun dan Merencanakan Modul Ajar
Powerpoint Materi Menyusun dan Merencanakan Modul Ajar
MashudiMashudi12
 
Juknis Materi KSM Kabkota - Pendaftaran[1].pdf
Juknis Materi KSM Kabkota - Pendaftaran[1].pdfJuknis Materi KSM Kabkota - Pendaftaran[1].pdf
Juknis Materi KSM Kabkota - Pendaftaran[1].pdf
HendraSagita2
 
Pelatihan AI GKA abdi Sabda - Apa itu AI?
Pelatihan AI GKA abdi Sabda - Apa itu AI?Pelatihan AI GKA abdi Sabda - Apa itu AI?
Pelatihan AI GKA abdi Sabda - Apa itu AI?
SABDA
 
Laporan Pembina Pramuka sd format doc.docx
Laporan Pembina Pramuka sd format doc.docxLaporan Pembina Pramuka sd format doc.docx
Laporan Pembina Pramuka sd format doc.docx
RUBEN Mbiliyora
 

Recently uploaded (20)

SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIANSINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
 
AKSI NYATA TRANSISI PAUD-SD : PENGUATAN DI TAHUN AJARAN BARU
AKSI NYATA TRANSISI PAUD-SD : PENGUATAN DI TAHUN AJARAN BARUAKSI NYATA TRANSISI PAUD-SD : PENGUATAN DI TAHUN AJARAN BARU
AKSI NYATA TRANSISI PAUD-SD : PENGUATAN DI TAHUN AJARAN BARU
 
materi penyuluhan kesehatan reproduksi remaja
materi penyuluhan kesehatan reproduksi remajamateri penyuluhan kesehatan reproduksi remaja
materi penyuluhan kesehatan reproduksi remaja
 
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
Modul Ajar Matematika Kelas 8 Fase D Kurikulum Merdeka - [abdiera.com]
 
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum MerdekaModul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
Modul Ajar Bahasa Inggris Kelas 10 Fase E Kurikulum Merdeka
 
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi KomunikasiMateri Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
 
FORMAT PPT RANGKAIAN PROGRAM KERJA KM 7.pptx
FORMAT PPT RANGKAIAN PROGRAM KERJA KM 7.pptxFORMAT PPT RANGKAIAN PROGRAM KERJA KM 7.pptx
FORMAT PPT RANGKAIAN PROGRAM KERJA KM 7.pptx
 
MODUL AJAR MAT LANJUT KELAS XI FASE F.pdf
MODUL AJAR MAT LANJUT KELAS XI FASE F.pdfMODUL AJAR MAT LANJUT KELAS XI FASE F.pdf
MODUL AJAR MAT LANJUT KELAS XI FASE F.pdf
 
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdfMODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
 
Pemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptxPemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptx
 
RENCANA TINDAK LANJUT (RTL) PASCA PELATIHAN.pptx
RENCANA TINDAK LANJUT (RTL) PASCA PELATIHAN.pptxRENCANA TINDAK LANJUT (RTL) PASCA PELATIHAN.pptx
RENCANA TINDAK LANJUT (RTL) PASCA PELATIHAN.pptx
 
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata anginMedia Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
 
Tokoh Pendidikan Universitas Negeri Jakarta.pdf
Tokoh Pendidikan Universitas Negeri Jakarta.pdfTokoh Pendidikan Universitas Negeri Jakarta.pdf
Tokoh Pendidikan Universitas Negeri Jakarta.pdf
 
Kisi-kisi PAT IPS Kelas 8 semester 2.pdf
Kisi-kisi PAT IPS Kelas 8 semester 2.pdfKisi-kisi PAT IPS Kelas 8 semester 2.pdf
Kisi-kisi PAT IPS Kelas 8 semester 2.pdf
 
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada AnakDefenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
 
Kelompok 2 Tugas Modul 2.1 Ruang Kolaborasi.pdf
Kelompok 2 Tugas Modul 2.1 Ruang Kolaborasi.pdfKelompok 2 Tugas Modul 2.1 Ruang Kolaborasi.pdf
Kelompok 2 Tugas Modul 2.1 Ruang Kolaborasi.pdf
 
Powerpoint Materi Menyusun dan Merencanakan Modul Ajar
Powerpoint Materi Menyusun dan Merencanakan Modul AjarPowerpoint Materi Menyusun dan Merencanakan Modul Ajar
Powerpoint Materi Menyusun dan Merencanakan Modul Ajar
 
Juknis Materi KSM Kabkota - Pendaftaran[1].pdf
Juknis Materi KSM Kabkota - Pendaftaran[1].pdfJuknis Materi KSM Kabkota - Pendaftaran[1].pdf
Juknis Materi KSM Kabkota - Pendaftaran[1].pdf
 
Pelatihan AI GKA abdi Sabda - Apa itu AI?
Pelatihan AI GKA abdi Sabda - Apa itu AI?Pelatihan AI GKA abdi Sabda - Apa itu AI?
Pelatihan AI GKA abdi Sabda - Apa itu AI?
 
Laporan Pembina Pramuka sd format doc.docx
Laporan Pembina Pramuka sd format doc.docxLaporan Pembina Pramuka sd format doc.docx
Laporan Pembina Pramuka sd format doc.docx
 

04-cara-pemakaian-weka.ppt

  • 1. Introduction to Datamining using WEKA Anto Satriyo Nugroho Center for Information & Communication Technology Agency for the Assessment & Application of Technology, Indonesia Email: asnugroho@ieee.org
  • 2. 2 Practicing WEKA • What is WEKA ? • Formatting the data into ARFF • Klasifikasi – Tahapan membangun classifier – Contoh kasus : Klasifikasi bunga iris – Tahapan membangun classifier – Merangkum hasil eksperimen k-Nearest Neighbor Classifier – Eksperimen memakai classifier yang lain (JST, SVM) – Classification of cancers based on gene expression – Parkinson Disease Detection • K-Means Clustering
  • 3. 3 What is WEKA ? • Machine learning/data mining software written in Java (distributed under the GNU Public License) • Used for research, education, and applications • Complements “Data Mining” by Witten & Frank • Main features: – Comprehensive set of data pre-processing tools, learning algorithms and evaluation methods – Graphical user interfaces (incl. data visualization) – Environment for comparing learning algorithms • Weka versions – WEKA 3.4: “book version” compatible with description in data mining book – WEKA 3.5: “developer version” with lots of improvements
  • 4. 4 Formatting Data into ARFF @relation iris @attribute sepallength real @attribute sepalwidth real @attribute petallength real @attribute petalwidth real @attribute class {Iris-setosa, Iris-versicolor, Iris-virginica} @data 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa … 7.0,3.2,4.7,1.4,Iris-versicolor 6.4,3.2,4.5,1.5,Iris-versicolor … 6.3,3.3,6.0,2.5,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica …
  • 5. 5 Practicing WEKA • What is WEKA ? • Formatting the data into ARFF • Klasifikasi – Tahapan membangun classifier – Contoh kasus : Klasifikasi bunga iris – Tahapan membangun classifier – Merangkum hasil eksperimen k-Nearest Neighbor Classifier – Eksperimen memakai classifier yang lain (JST, SVM) – Classification of cancers based on gene expression – Parkinson Disease Detection • K-Means Clustering
  • 6. 6 Tahapan membangun Classifier 1. Tentukan manakah informasi yang merupakan (a) attribute/feature (b) class (c) training & testing set (d) skenario pengukuran akurasi 2. Tentukan kombinasi parameter model, dan lakukan proses pelatihan memakai training set 3. Ukurlah akurasi yang dicapai dengan testing set 4. Ubahlah parameter model, dan ulang kembali mulai dari step 2, sampai dicapai akurasi yang diinginkan
  • 7. 7 Contoh Kasus : Klasifikasi bunga iris • Data set yang paling terkenal • Author: R.A. Fisher • Terdiri dari 3 kelas, masing-masing memiliki 50 samples (instances) • Attribute information: – Sepal (kelopak) length in cm – sepal width in cm – Petal (mahkota) length in cm – petal width in cm – class: (1) Iris Setosa (2) Iris Versicolour (3)Iris Virginica • URL: http://archive.ics.uci.edu/ml/datasets/Iri s
  • 9. 9 Tahapan membangun Classifier 1. Tentukan manakah informasi yang merupakan (a) attribute/feature : sepal length (panjang kelopak) sepal width (lebar kelopak) petal length (panjang mahkota) petal width (lebar mahkota) (b) class: iris setosa iris versicolor iris virginica (c) training & testing set training set : 25 instances/class testing set: 25 instances/class
  • 10. Step by Step klasifikasi 10
  • 12. 12 statistical information of “sepallength” Klik pada Classify untuk memilih Classifier algorithm
  • 13. 13 Klik pada “Choose” untuk memilih Classifier algorithm
  • 14. 14 SMO ( implementasi SVM) Naïve Bayes
  • 15. 15 IB1 : 1-Nearest Neighbor Classifier) IBk : k-Nearest Neighbor Classifier
  • 17. 17 SMO singkatan dari Sequential Minimal Optimization. SMO adalah implementasi SVM Mengacu pada paper John Platt
  • 19. 19 Misalnya kita pilih IBk : k-Nearest Neighbor Classifier
  • 20. 20 Selanjutnya pilihlah skenario Pengukuran akurasi. Dari 4 Options yang diberikan, pilihlah “Supplied test set” dan klik Button “Set” untuk memiilih Testing set file “iris-testing.arff”
  • 21. 21 Tahapan membangun Classifier Iris-training.arff Iris-testing.arff 25 25 25 25 25 25 Classifiers : 1. Naïve Bayes 2. K-Nearest Neighbor Classifier (lazy iBk) 3. Artificial Neural Network (function multilayer perceptron) 4. Support Vector Machine (function  SMO) Akurasi terhadap testing set ? iris setosa iris versicolor iris virginica
  • 22. 22 Apakah yang dimaksud “mengukur akurasi” • Testing set “iris-testing.arff” dilengkapi dengan informasi actual class-nya. Misalnya instance no.1 adalah suatu bunga yang memiliki sepal length 5.0 cm, sepal width 3.0cm, petal length 1.6 cm, petal width 0.2 cm, dan jenis bunganya (class) “Iris setosa” • Model classification yang dibangun harus mampu menebak dengan benar class tersebut.
  • 23. 23 Berbagai cara pengukuran akurasi • “Using training set” : memakai seluruh data sebagai training set, sekaligus testing set. Akurasi akan sangat tinggi, tetapi tidak memberikan estimasi akurasi yang sebenarnya terhadap data yang lain (yang tidak dipakai untuk training) • Hold Out Method : Memakai sebagian data sebagai training set, dan sisanya sebagai testing set. Metode yang lazim dipakai, asal jumlah sampel cukup banyak. Ada 2 : supplied test set dan percentage split. Pilihlah “Supplied test set” : jika file training dan testing tersedia secara terpisah. Pilihlah “Percentage split” jika hanya ada 1 file yang ingin dipisahkan ke training & testing. Persentase di kolom adalah porsi yang dipakai sbg training set
  • 24. 24 Berbagai cara pengukuran akurasi • Cross Validation Method ( fold = 5 atau 10 ) : teknik estimasi akurasi yang dipakai, jika jumlah sampel terbatas. Salah satu bentuk khusus CV adalah Leave-one-out Cross Validation (LOOCV) : dipakai jka jumlah sampel sangat terbatas
  • 25. 25 Ilustrasi Cross Validation (k=5) 1. Data terdiri dari 100 instances (samples), dibagi ke dalam 5 blok dengan jumlah sampel yang sama. Nama blok : A, B, C, D dan E, masing-masing terdiri dari 20 instances 2. Kualitas kombinasi parameter tertentu diuji dengan cara sbb. step 1: training memakai A,B,C,D testing memakai E akurasi a step 2: training memakai A,B,C,E testing memakai D akurasi b step 3: training memakai A,B, D,E testing memakai C akurasi c step 4: training memakai A, C,D,E testing memakai B akurasi d step 5: training memakai B,C,D,E testing memakai A akurasi e 3. Rata-rata akurasi : (a+b+c+d+e)/5 mencerminkan kualitas parameter yang dipilih 4. Ubahlah parameter model, dan ulangi dari no.2 sampai dicapai akurasi yang diinginkan
  • 26. 26 Kali ini memakai “Supplied test set”. Selanjutnya klik pada bagian yang Di dalam kotak untuk men-set nilai Parameter. Dalam hal ini, adalah Nilai “k” pada k-Nearest Neighbour Classifier (Nick name : IBK)
  • 27. 27 Set-lah nilai “k”misalnya 3 dan klik OK. Untuk memahami parameter yang lain, kliklah button “More” & “Capabilities”
  • 28. 28 Klik button “Start” Hasil eksperimen : Correct classification rate : 96% (benar 72 dari total 75 data pada testing set) Bagaimana cara membaca Confusion matrix ?
  • 29. • Baris pertama “25 0 0” menunjukkan bahwa ada (25+0+0) instances class Iris-setosa di dalam file iris-testing.arff dan semua benar diklasifikasikan sebagai Iris setosa • Baris kedua “0 24 1” menunjukkan bahwa ada (0+24+1) instances class Iris-versicolor di dalam file iris-testing.arff dan 1 salah diklasifikasikan sebagai Iris-virginica • Baris ketiga “0 2 24” menunjukkan bahwa ada (0+2+23) instances class Iris-virginica di dalam file iris-testing.arff dan 2 di antaranya salah diklasifikasikan sebagai Iris-versicolor
  • 30. Untuk mengetahui instance mana yang tidak berhasil Diklasifikasikan klik “More Options” dan check lah “Output predictions”. Klik “Start” untuk mengulangi eksperimen yang sama
  • 31. Inst# : nomer urut data pada file “iris-testing.arff” actual : class yang sebenarnya predicted: class yang diprediksi Error: jika ada misclassification, akan diberikan tanda “+” dalam contoh ini, pada instance no.34, 59 & 60
  • 32. Merangkum hasil eksperimen No. K Correct Classification Rate Iris setosa Iris versicolor Iris virginica Total 1 1 ? ? ? ? 2 3 100% 96% 92% 96% 3 5 5 7 9 • Tugas : lanjutkan eksperimen di atas untuk nilai k = 1, 3, 5, 7 dan 9 • Buatlah grafik yang menunjukkan akurasi yang dicapai untuk masing-masing class pada berbagai nilai k. Sumbu horisontal : nilai k dan sumbu vertikal : akurasi • Kapankah (pada nilai k berapa ?) akurasi tertinggi dicapai ? Bagaimanakah trend akurasi masing-masing class ?
  • 33. 33 Eksperimen memakai Neural Network • Untuk eksperimen memakai neural network, caranya sama dengan k-Nearest Neighbor Classifier. • Parameter yang dituning meliputi antara lain: – hiddenLayers: banyaknya neuron pada hidden layer. Default “a” : rata- rata jumlah neuron pada input & output layer – LearningRate : biasanya nilai kecil (0.1, 0.01, 0.2, 0.3 dsb) – Momentum: biasanya nilai besar (0.6, 0.9 dsb) – trainingTime: maksimum iterasi backpropagation (500, 1000, 5000, 10000 dsb.)
  • 35. 35 Eksperimen memakai SVM C: complexity parameter (biasanya mengambil nilai besar. 100, 1000 dst) Untuk memilih kernel
  • 37. 37 Classification of cancers based on gene expression • Biological reference: Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks, J. Khan, et al., Nature Medicine 7, pp.673-679, 2001 (http://www.thep.lu.se/~carsten/pubs/lu_tp_01_06.pdf ) • Data is available from http://research.nhgri.nih.gov/microarray/Supplement/ • Small Round Blue Cell Tumors (SRBCT) has two class: – Ewing Family of Tumors (EWS) – NB: Neuroblastoma – BL: Burkitt lymphomas – RMS: Rhabdomyosarcoma : RMS • Characteristic of the data – Training samples : 63 (EWS:23 BL:8 NB:12 RMS:20) – Testing samples: 20 (EWS:6 BL:3 NB:6 RMS:5) – Number of features (attributes): 2308
  • 38. 38 Experiment using k-Nearest Neighbor Classifier • Training and testing set are given as separated arff file • Use training set to build a classifier: k-Nearest Neighbor (k=1) • Evaluate its performance on the testing set. • Change the value of k into 3,5,7 and 9 and repeat step 1 to 3 for each value. Experiment using Artificial Neural Network • Do the same experiment using Multilayer Perceptron Artificial Neural Network for various parameter setting (hidden neurons, learning rate, momentum, maximum iteration). Make at least five parameter settings. Classification of cancers based on gene expression
  • 39. 39 Parkinson Disease Detection Max Little (Oxford University) recorded speech signals and measured the biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the dataset which will be distributed during final examination, each column in the table is a particular voice measure, and each row corresponds one of 195 voice recording from these individuals ("name" column). The main aim of the data is to discriminate healthy people from those with PD, according to "status" column which is set to 0 for healthy and 1 for PD. There are around six recordings per patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence and Fractal Scaling Properties for Voice Disorder Detection', Little MA, McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering OnLine 2007, 6:23, 26 June 2007). Experiment using k-Nearest Neighbor Classifier Conduct classification experiments using k-Nearest Neighbor Classifier and Support Vector Machines, by using 50% of the data as training set and the rest as testing set. Try at least 5 different values of k for k-Nearest neighbor, and draw a graph show the relationship between k and classification rate. In case of Support Vector Machine experiments, try several parameter combinations by modifying the type of Kernel and its parameters (at least 5 experiments). Compare and discuss the results obtained by both classifiers. Which of them achieved higher accuracy ?
  • 40. 40 Parkinson Disease Detection Max Little (Oxford University) recorded speech signals and measured the biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the dataset which will be distributed during final examination, each column in the table is a particular voice measure, and each row corresponds one of 195 voice recording from these individuals ("name" column). The main aim of the data is to discriminate healthy people from those with PD, according to "status" column which is set to 0 for healthy and 1 for PD. There are around six recordings per patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence and Fractal Scaling Properties for Voice Disorder Detection', Little MA, McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering OnLine 2007, 6:23, 26 June 2007). Experiment using k-Nearest Neighbor Classifier Conduct classification experiments using k-Nearest Neighbor Classifier and Support Vector Machines, by using 50% of the data as training set and the rest as testing set. Try at least 5 different values of k for k-Nearest neighbor, and draw a graph show the relationship between k and classification rate. In case of Support Vector Machine experiments, try several parameter combinations by modifying the type of Kernel and its parameters (at least 5 experiments). Compare and discuss the results obtained by both classifiers. Which of them achieved higher accuracy ?
  • 41. 41 Practicing WEKA • What is WEKA ? • Formatting the data into ARFF • Klasifikasi – Tahapan membangun classifier – Contoh kasus : Klasifikasi bunga iris – Tahapan membangun classifier – Merangkum hasil eksperimen k-Nearest Neighbor Classifier – Eksperimen memakai classifier yang lain (JST, SVM) – Classification of cancers based on gene expression – Parkinson Disease Detection • K-Means Clustering
  • 42. 42 K-Means Clustering : Step by Step • Pilihlah k buah data sebagai initial centroid • Ulangi – Bentuklah K buah cluster dengan meng-assign tiap data ke centroid terdekat – Update-lah centroid tiap cluster • Sampai centroid tidak berubah
  • 43. 43 K-Means Clustering : Step by Step
  • 46. 46 Klik untuk memilih algoritma clustering Pilih “Use training set”
  • 47. 47
  • 49. 49 maxIterations: untuk menghentikan proses clustering jika iterasi melebih nilai tertentu numClusters: nilai k (banyaknya cluster)
  • 50. 50 Hasil clustering: terbentuk 3 cluster dan masing-masing beranggotakan 50 instances
  • 51. 51 Klik dengan button kanan mouse untuk menampilkan visualisasi cluster
  • 52. 52 Nilai attribute x ditampilkan pada sumbu x, dan nilai attribute y ditampilkan pada sumbu y Tiap cluster diberikan warna yang berbeda (merah, biru, hijau)