Dokumen tersebut membahas penggunaan WEKA untuk melakukan klasifikasi data, termasuk kasus klasifikasi bunga iris, neural network, dan SVM. Berbagai parameter dan metode evaluasi akurasi dijelaskan."
Klasifikasi adalah proses menemukan pola yang menjelaskan atau membedakan konsep atau kelas data untuk memprediksi kelas objek baru. Model klasifikasi dibangun dengan melatih algoritma pada data pelatihan untuk memetakan atribut ke label kelas, lalu model diuji keakuratannya pada data uji. Pohon keputusan sering digunakan karena mudah diinterpretasi.
1. Unsupervised learning digunakan untuk pengelompokkan data tanpa label melalui clustering.
2. K-means clustering dan hierarchical clustering adalah dua pendekatan utama clustering.
3. Pemilihan parameter seperti jumlah cluster pada k-means mempengaruhi akurasi hasil clustering.
Pengenalan Pola Dasar Pengenalan Pola.pptxAdam Superman
Contoh kasus pengenalan pola oleh mesin di dunia nyata:
Klasifikasi Ikan:
- Fitur: Panjang, Lebar, Berat, Jumlah sisik, Warna, bentuk mulut
- Kelas: Ikan lele, Ikan mas, Ikan nila, Ikan gabus
- Jumlah data: 100 gambar ikan
- Sumber: http://archive.ics.uci.edu/ml/datasets/Fish+Market
Klasifikasi Penyakit Paru-Paru:
- Fitur: Hasil CT Scan paru-paru
- Kelas
Dokumen tersebut membahas tentang klasifikasi biner dan multikelas pada machine learning. Terdapat penjelasan mengenai beberapa algoritma klasifikasi seperti logistic regression, decision tree, K-nearest neighbors, SVM, Naive Bayes, dan lainnya beserta contoh penerapannya. Juga dibahas perbedaan antara klasifikasi biner dan multikelas.
Dokumen tersebut membahas penggunaan WEKA untuk melakukan klasifikasi data, termasuk kasus klasifikasi bunga iris, neural network, dan SVM. Berbagai parameter dan metode evaluasi akurasi dijelaskan."
Klasifikasi adalah proses menemukan pola yang menjelaskan atau membedakan konsep atau kelas data untuk memprediksi kelas objek baru. Model klasifikasi dibangun dengan melatih algoritma pada data pelatihan untuk memetakan atribut ke label kelas, lalu model diuji keakuratannya pada data uji. Pohon keputusan sering digunakan karena mudah diinterpretasi.
1. Unsupervised learning digunakan untuk pengelompokkan data tanpa label melalui clustering.
2. K-means clustering dan hierarchical clustering adalah dua pendekatan utama clustering.
3. Pemilihan parameter seperti jumlah cluster pada k-means mempengaruhi akurasi hasil clustering.
Pengenalan Pola Dasar Pengenalan Pola.pptxAdam Superman
Contoh kasus pengenalan pola oleh mesin di dunia nyata:
Klasifikasi Ikan:
- Fitur: Panjang, Lebar, Berat, Jumlah sisik, Warna, bentuk mulut
- Kelas: Ikan lele, Ikan mas, Ikan nila, Ikan gabus
- Jumlah data: 100 gambar ikan
- Sumber: http://archive.ics.uci.edu/ml/datasets/Fish+Market
Klasifikasi Penyakit Paru-Paru:
- Fitur: Hasil CT Scan paru-paru
- Kelas
Dokumen tersebut membahas tentang klasifikasi biner dan multikelas pada machine learning. Terdapat penjelasan mengenai beberapa algoritma klasifikasi seperti logistic regression, decision tree, K-nearest neighbors, SVM, Naive Bayes, dan lainnya beserta contoh penerapannya. Juga dibahas perbedaan antara klasifikasi biner dan multikelas.
Dokumen tersebut membahas tentang algoritma covering dan penerapannya dalam klasifikasi teks. Algoritma covering dapat digunakan untuk membentuk aturan klasifikasi berdasarkan nilai maksimal atribut. Jurnal lain membahas algoritma baru yaitu Cross Covering Algorithm Based on Simulated Annealing (SACCA) yang menggabungkan algoritma covering dan simulated annealing untuk mencari pusat domain yang lebih optimal dengan akurasi yang lebih tinggi. Hasil penelitian menunjukkan bahwa S
Dokumen tersebut membahas tentang teknik black box testing yaitu equivalence partitioning dan boundary value analysis. Kedua teknik ini digunakan untuk merancang test case dengan membagi masukan menjadi kelas-kelas ekuivalensi dan menguji nilai di batas setiap kelas.
Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...Deris Stiawan
1. Penelitian ini mengklasifikasikan malware Trojan ransomware dan file normal menggunakan algoritma Support Vector Machine (SVM).
2. Hasil pengujian menunjukkan bahwa SVM kernel linier memberikan tingkat akurasi terbaik hingga 87,6% dibandingkan SVM Evolutionary.
3. Semakin besar jumlah data latih, semakin baik pula hasil akurasi yang dicapai.
Penilaian akurasi dilakukan untuk mengetahui tingkat ketepatan klasifikasi dengan menggunakan matriks kekeliruan dan menghitung akurasi produsen, pengguna, serta keseluruhan. Nilai akurasi keseluruhan dan koefisien kappa yang dihasilkan menunjukkan bahwa hasil klasifikasi penutupan lahan sesuai dengan kondisi lapangan.
Dokumen tersebut membahas tentang klasifikasi data mining, meliputi definisi klasifikasi, langkah-langkah klasifikasi, contoh task klasifikasi, teknik klasifikasi seperti decision tree dan Naive Bayes, serta parameter evaluasi model."
Dokumen tersebut membahas teknik-teknik data mining yang meliputi analisis cluster, induksi (pohon keputusan dan aturan induksi), jaringan syaraf buatan, OLAP, dan visualisasi data. Metode-metode tersebut digunakan untuk menemukan pola dan hubungan di dalam data besar untuk tujuan klasifikasi, regresi, dan deteksi outlier.
Dokumen tersebut merangkum proses pengembangan sistem keamanan pada server komputer menggunakan biometrika detak jantung. Prosesnya meliputi penentuan tujuan dan ruang lingkup, identifikasi masalah keamanan, merumuskan masalah, persiapan dan pengolahan data, pemilihan algoritma KNN, pelatihan model, dan pengujian model untuk mencocokkan detak jantung pengguna dengan target akurasi 90% yang berhasil dicapai sebesar 90,35%.
Dokumen tersebut membahas tentang praktikum analisis cluster. Terdapat beberapa tahapan dalam analisis cluster, yaitu mendefinisikan cluster, mengukur kesamaan antar objek, memilih algoritma cluster untuk membentuk kelompok, dan menentukan jumlah cluster. Dokumen ini juga menjelaskan beberapa metode cluster seperti hierarchical dan k-means clustering beserta ilustrasinya.
Pengantar Deep Learning Untuk Pembelajaran Deep LearningAdeChandra56
Pengantar Deep Learning Untuk Pembelajaran Deep Learning. Menjelaskan mengeani apa saja yang digunakan untuk pengantar deep learning beserta dengan tugas dan kata2 lain yang bisa digunakan dalam deep learning. Hal ini mencakup softawre yang digunakan dan bagaiaman implemetasinya .
Tabel distribusi frekuensi digunakan untuk menyajikan data hasil penelitian secara sistematis dengan membaginya ke dalam interval-interval tertentu berdasarkan frekuensi masing-masing nilai. Ada tiga tahap yaitu menentukan jumlah kelas, memasukkan nilai ke dalam kelas, dan membuat tabelnya. Formula Sturges digunakan untuk menentukan jumlah kelas berdasarkan jumlah data.
Paper ini bertujuan untuk menganalisis pencemaran udara akibat pabrik aspal. Analisis ini akan fokus pada emisi udara yang dihasilkan oleh pabrik aspal, dampak kesehatan dan lingkungan dari emisi tersebut, dan upaya yang dapat dilakukan untuk mengurangi pencemaran udara
Dokumen tersebut membahas tentang algoritma covering dan penerapannya dalam klasifikasi teks. Algoritma covering dapat digunakan untuk membentuk aturan klasifikasi berdasarkan nilai maksimal atribut. Jurnal lain membahas algoritma baru yaitu Cross Covering Algorithm Based on Simulated Annealing (SACCA) yang menggabungkan algoritma covering dan simulated annealing untuk mencari pusat domain yang lebih optimal dengan akurasi yang lebih tinggi. Hasil penelitian menunjukkan bahwa S
Dokumen tersebut membahas tentang teknik black box testing yaitu equivalence partitioning dan boundary value analysis. Kedua teknik ini digunakan untuk merancang test case dengan membagi masukan menjadi kelas-kelas ekuivalensi dan menguji nilai di batas setiap kelas.
Klasifikasi Malware Trojan Ransomware Dengan Algoritma Support Vector Machine...Deris Stiawan
1. Penelitian ini mengklasifikasikan malware Trojan ransomware dan file normal menggunakan algoritma Support Vector Machine (SVM).
2. Hasil pengujian menunjukkan bahwa SVM kernel linier memberikan tingkat akurasi terbaik hingga 87,6% dibandingkan SVM Evolutionary.
3. Semakin besar jumlah data latih, semakin baik pula hasil akurasi yang dicapai.
Penilaian akurasi dilakukan untuk mengetahui tingkat ketepatan klasifikasi dengan menggunakan matriks kekeliruan dan menghitung akurasi produsen, pengguna, serta keseluruhan. Nilai akurasi keseluruhan dan koefisien kappa yang dihasilkan menunjukkan bahwa hasil klasifikasi penutupan lahan sesuai dengan kondisi lapangan.
Dokumen tersebut membahas tentang klasifikasi data mining, meliputi definisi klasifikasi, langkah-langkah klasifikasi, contoh task klasifikasi, teknik klasifikasi seperti decision tree dan Naive Bayes, serta parameter evaluasi model."
Dokumen tersebut membahas teknik-teknik data mining yang meliputi analisis cluster, induksi (pohon keputusan dan aturan induksi), jaringan syaraf buatan, OLAP, dan visualisasi data. Metode-metode tersebut digunakan untuk menemukan pola dan hubungan di dalam data besar untuk tujuan klasifikasi, regresi, dan deteksi outlier.
Dokumen tersebut merangkum proses pengembangan sistem keamanan pada server komputer menggunakan biometrika detak jantung. Prosesnya meliputi penentuan tujuan dan ruang lingkup, identifikasi masalah keamanan, merumuskan masalah, persiapan dan pengolahan data, pemilihan algoritma KNN, pelatihan model, dan pengujian model untuk mencocokkan detak jantung pengguna dengan target akurasi 90% yang berhasil dicapai sebesar 90,35%.
Dokumen tersebut membahas tentang praktikum analisis cluster. Terdapat beberapa tahapan dalam analisis cluster, yaitu mendefinisikan cluster, mengukur kesamaan antar objek, memilih algoritma cluster untuk membentuk kelompok, dan menentukan jumlah cluster. Dokumen ini juga menjelaskan beberapa metode cluster seperti hierarchical dan k-means clustering beserta ilustrasinya.
Pengantar Deep Learning Untuk Pembelajaran Deep LearningAdeChandra56
Pengantar Deep Learning Untuk Pembelajaran Deep Learning. Menjelaskan mengeani apa saja yang digunakan untuk pengantar deep learning beserta dengan tugas dan kata2 lain yang bisa digunakan dalam deep learning. Hal ini mencakup softawre yang digunakan dan bagaiaman implemetasinya .
Tabel distribusi frekuensi digunakan untuk menyajikan data hasil penelitian secara sistematis dengan membaginya ke dalam interval-interval tertentu berdasarkan frekuensi masing-masing nilai. Ada tiga tahap yaitu menentukan jumlah kelas, memasukkan nilai ke dalam kelas, dan membuat tabelnya. Formula Sturges digunakan untuk menentukan jumlah kelas berdasarkan jumlah data.
Similar to Presentasi Pemakaian WEKA pada Data Mining (20)
Paper ini bertujuan untuk menganalisis pencemaran udara akibat pabrik aspal. Analisis ini akan fokus pada emisi udara yang dihasilkan oleh pabrik aspal, dampak kesehatan dan lingkungan dari emisi tersebut, dan upaya yang dapat dilakukan untuk mengurangi pencemaran udara
Ppt landasan pendidikan Pai 9 _20240604_231000_0000.pdffadlurrahman260903
Ppt landasan pendidikan tentang pendidikan seumur hidup.
Prodi pendidikan agama Islam
Fakultas tarbiyah dan ilmu keguruan
Universitas Islam negeri syekh Ali Hasan Ahmad addary Padangsidimpuan
Pendidikan sepanjang hayat atau pendidikan seumur hidup adalah sebuah system konsepkonsep pendidikan yang menerangkan keseluruhan peristiwa-peristiwa kegiatan belajarmengajar yang berlangsung dalam keseluruhan kehidupan manusia. Pendidikan sepanjang
hayat memandang jauh ke depan, berusaha untuk menghasilkan manusia dan masyarakat yang
baru, merupakan suatu proyek masyarakat yang sangat besar. Pendidikan sepanjang hayat
merupakan asas pendidikan yang cocok bagi orang-orang yang hidup dalam dunia
transformasi dan informasi, yaitu masyarakat modern. Manusia harus lebih bisa menyesuaikan
dirinya secara terus menerus dengan situasi yang baru.
Laporan Pembina Pramuka SD dalam format doc dapat anda jadikan sebagai rujukan dalam membuat laporan. silakan download di sini https://unduhperangkatku.com/contoh-laporan-kegiatan-pramuka-format-word/
Modul Ajar Bahasa Indonesia Kelas 7 Fase D Kurikulum Merdeka - [abdiera.com]Fathan Emran
Modul Ajar Bahasa Indonesia Kelas 7 SMP/MTs Fase D Kurikulum Merdeka - abdiera.com. Modul Ajar Bahasa Indonesia Kelas 7 SMP/MTs Fase D Kurikulum Merdeka. Modul Ajar Bahasa Indonesia Kelas 7 SMP/MTs Fase D Kurikulum Merdeka. Modul Ajar Bahasa Indonesia Kelas 7 SMP/MTs Fase D Kurikulum Merdeka. Modul Ajar Bahasa Indonesia Kelas 7 SMP/MTs Fase D Kurikulum Merdeka. Modul Ajar Bahasa Indonesia Kelas 7 SMP/MTs Fase D Kurikulum Merdeka.
KKTP Kurikulum Merdeka sebagai Panduan dalam kurikulum merdeka
Presentasi Pemakaian WEKA pada Data Mining
1. Introduction to Datamining using WEKA
Anto Satriyo Nugroho
Center for Information & Communication Technology
Agency for the Assessment & Application of Technology, Indonesia
Email: asnugroho@ieee.org
2. 2
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifikasi
– Tahapan membangun classifier
– Contoh kasus : Klasifikasi bunga iris
– Tahapan membangun classifier
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier
– Eksperimen memakai classifier yang lain (JST, SVM)
– Classification of cancers based on gene expression
– Parkinson Disease Detection
• K-Means Clustering
3. 3
What is WEKA ?
• Machine learning/data mining software written in Java (distributed under
the GNU Public License)
• Used for research, education, and applications
• Complements “Data Mining” by Witten & Frank
• Main features:
– Comprehensive set of data pre-processing tools, learning algorithms
and evaluation methods
– Graphical user interfaces (incl. data visualization)
– Environment for comparing learning algorithms
• Weka versions
– WEKA 3.4: “book version” compatible with description in data mining
book
– WEKA 3.5: “developer version” with lots of improvements
4. 4
Formatting Data into ARFF
@relation iris
@attribute sepallength real
@attribute sepalwidth real
@attribute petallength real
@attribute petalwidth real
@attribute class {Iris-setosa, Iris-versicolor, Iris-virginica}
@data
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
…
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
…
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
…
5. 5
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifikasi
– Tahapan membangun classifier
– Contoh kasus : Klasifikasi bunga iris
– Tahapan membangun classifier
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier
– Eksperimen memakai classifier yang lain (JST, SVM)
– Classification of cancers based on gene expression
– Parkinson Disease Detection
• K-Means Clustering
6. 6
Tahapan membangun Classifier
1. Tentukan manakah informasi yang merupakan
(a) attribute/feature
(b) class
(c) training & testing set
(d) skenario pengukuran akurasi
2. Tentukan kombinasi parameter model, dan lakukan proses
pelatihan memakai training set
3. Ukurlah akurasi yang dicapai dengan testing set
4. Ubahlah parameter model, dan ulang kembali mulai dari
step 2, sampai dicapai akurasi yang diinginkan
7. 7
Contoh Kasus : Klasifikasi bunga iris
• Data set yang paling terkenal
• Author: R.A. Fisher
• Terdiri dari 3 kelas, masing-masing
memiliki 50 samples (instances)
• Attribute information:
– Sepal (kelopak) length in cm
– sepal width in cm
– Petal (mahkota) length in cm
– petal width in cm
– class: (1) Iris Setosa (2) Iris
Versicolour (3)Iris Virginica
• URL:
http://archive.ics.uci.edu/ml/datasets/Iri
s
20. 20
Selanjutnya pilihlah skenario
Pengukuran akurasi. Dari 4
Options yang diberikan, pilihlah
“Supplied test set” dan klik
Button “Set” untuk memiilih
Testing set file “iris-testing.arff”
22. 22
Apakah yang dimaksud “mengukur akurasi”
• Testing set “iris-testing.arff” dilengkapi dengan informasi
actual class-nya. Misalnya instance no.1 adalah suatu bunga
yang memiliki sepal length 5.0 cm, sepal width 3.0cm, petal
length 1.6 cm, petal width 0.2 cm, dan jenis bunganya (class)
“Iris setosa”
• Model classification yang dibangun harus mampu menebak
dengan benar class tersebut.
23. 23
Berbagai cara pengukuran akurasi
• “Using training set” : memakai seluruh
data sebagai training set, sekaligus testing
set. Akurasi akan sangat tinggi, tetapi
tidak memberikan estimasi akurasi yang
sebenarnya terhadap data yang lain (yang
tidak dipakai untuk training)
• Hold Out Method : Memakai sebagian
data sebagai training set, dan sisanya
sebagai testing set. Metode yang lazim
dipakai, asal jumlah sampel cukup banyak.
Ada 2 : supplied test set dan percentage
split. Pilihlah “Supplied test set” : jika file
training dan testing tersedia secara
terpisah. Pilihlah “Percentage split” jika
hanya ada 1 file yang ingin dipisahkan ke
training & testing. Persentase di kolom
adalah porsi yang dipakai sbg training set
24. 24
Berbagai cara pengukuran akurasi
• Cross Validation Method ( fold = 5
atau 10 ) : teknik estimasi akurasi
yang dipakai, jika jumlah sampel
terbatas. Salah satu bentuk
khusus CV adalah Leave-one-out
Cross Validation (LOOCV) : dipakai
jka jumlah sampel sangat terbatas
25. 25
Ilustrasi Cross Validation (k=5)
1. Data terdiri dari 100 instances (samples), dibagi ke dalam 5 blok
dengan jumlah sampel yang sama. Nama blok : A, B, C, D dan E,
masing-masing terdiri dari 20 instances
2. Kualitas kombinasi parameter tertentu diuji dengan cara sbb.
step 1: training memakai A,B,C,D testing memakai E akurasi a
step 2: training memakai A,B,C,E testing memakai D akurasi b
step 3: training memakai A,B, D,E testing memakai C akurasi c
step 4: training memakai A, C,D,E testing memakai B akurasi d
step 5: training memakai B,C,D,E testing memakai A akurasi e
3. Rata-rata akurasi : (a+b+c+d+e)/5 mencerminkan kualitas
parameter yang dipilih
4. Ubahlah parameter model, dan ulangi dari no.2 sampai dicapai
akurasi yang diinginkan
26. 26
Kali ini memakai “Supplied test set”.
Selanjutnya klik pada bagian yang
Di dalam kotak untuk men-set nilai
Parameter. Dalam hal ini, adalah
Nilai “k” pada k-Nearest Neighbour
Classifier (Nick name : IBK)
27. 27
Set-lah nilai “k”misalnya 3 dan klik OK.
Untuk memahami parameter yang lain,
kliklah button “More” & “Capabilities”
28. 28
Klik button “Start”
Hasil eksperimen : Correct classification rate : 96%
(benar 72 dari total 75 data pada testing set)
Bagaimana cara membaca Confusion matrix ?
29. • Baris pertama “25 0 0” menunjukkan bahwa ada (25+0+0)
instances class Iris-setosa di dalam file iris-testing.arff dan
semua benar diklasifikasikan sebagai Iris setosa
• Baris kedua “0 24 1” menunjukkan bahwa ada (0+24+1)
instances class Iris-versicolor di dalam file iris-testing.arff
dan 1 salah diklasifikasikan sebagai Iris-virginica
• Baris ketiga “0 2 24” menunjukkan bahwa ada (0+2+23)
instances class Iris-virginica di dalam file iris-testing.arff dan
2 di antaranya salah diklasifikasikan sebagai Iris-versicolor
30. Untuk mengetahui instance mana yang tidak berhasil
Diklasifikasikan klik “More Options” dan check lah
“Output predictions”. Klik “Start” untuk mengulangi
eksperimen yang sama
31. Inst# : nomer urut data pada file “iris-testing.arff”
actual : class yang sebenarnya
predicted: class yang diprediksi
Error: jika ada misclassification, akan diberikan tanda “+”
dalam contoh ini, pada instance no.34, 59 & 60
32. Merangkum hasil eksperimen
No. K Correct Classification Rate
Iris setosa Iris versicolor Iris virginica Total
1 1 ? ? ? ?
2 3 100% 96% 92% 96%
3 5
5
7
9
• Tugas : lanjutkan eksperimen di atas untuk nilai k = 1, 3, 5, 7 dan 9
• Buatlah grafik yang menunjukkan akurasi yang dicapai untuk masing-masing
class pada berbagai nilai k. Sumbu horisontal : nilai k dan sumbu vertikal :
akurasi
• Kapankah (pada nilai k berapa ?) akurasi tertinggi dicapai ? Bagaimanakah
trend akurasi masing-masing class ?
33. 33
Eksperimen memakai Neural Network
• Untuk eksperimen memakai neural
network, caranya sama dengan k-Nearest
Neighbor Classifier.
• Parameter yang dituning meliputi antara
lain:
– hiddenLayers: banyaknya neuron
pada hidden layer. Default “a” : rata-
rata jumlah neuron pada input &
output layer
– LearningRate : biasanya nilai kecil
(0.1, 0.01, 0.2, 0.3 dsb)
– Momentum: biasanya nilai besar (0.6,
0.9 dsb)
– trainingTime: maksimum iterasi
backpropagation (500, 1000, 5000,
10000 dsb.)
37. 37
Classification of cancers based on gene expression
• Biological reference:
Classification and diagnostic prediction of cancers using gene
expression profiling and artificial neural networks,
J. Khan, et al., Nature Medicine 7, pp.673-679, 2001
(http://www.thep.lu.se/~carsten/pubs/lu_tp_01_06.pdf )
• Data is available from
http://research.nhgri.nih.gov/microarray/Supplement/
• Small Round Blue Cell Tumors (SRBCT) has two class:
– Ewing Family of Tumors (EWS)
– NB: Neuroblastoma
– BL: Burkitt lymphomas
– RMS: Rhabdomyosarcoma : RMS
• Characteristic of the data
– Training samples : 63 (EWS:23 BL:8 NB:12 RMS:20)
– Testing samples: 20 (EWS:6 BL:3 NB:6 RMS:5)
– Number of features (attributes): 2308
38. 38
Experiment using k-Nearest Neighbor Classifier
• Training and testing set are given as separated arff file
• Use training set to build a classifier: k-Nearest Neighbor (k=1)
• Evaluate its performance on the testing set.
• Change the value of k into 3,5,7 and 9 and repeat step 1 to 3 for each
value.
Experiment using Artificial Neural Network
• Do the same experiment using Multilayer Perceptron Artificial Neural
Network for various parameter setting (hidden neurons, learning rate,
momentum, maximum iteration). Make at least five parameter settings.
Classification of cancers based on gene expression
39. 39
Parkinson Disease Detection
Max Little (Oxford University) recorded speech signals and measured the
biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the
dataset which will be distributed during final examination, each column in the
table is a particular voice measure, and each row corresponds one of 195 voice
recording from these individuals ("name" column). The main aim of the data is
to discriminate healthy people from those with PD, according to "status" column
which is set to 0 for healthy and 1 for PD. There are around six recordings per
patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence
and Fractal Scaling Properties for Voice Disorder Detection', Little MA,
McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering
OnLine 2007, 6:23, 26 June 2007).
Experiment using k-Nearest Neighbor Classifier
Conduct classification experiments using k-Nearest Neighbor Classifier and
Support Vector Machines, by using 50% of the data as training set and the rest
as testing set. Try at least 5 different values of k for k-Nearest neighbor, and
draw a graph show the relationship between k and classification rate. In case
of Support Vector Machine experiments, try several parameter combinations by
modifying the type of Kernel and its parameters (at least 5 experiments).
Compare and discuss the results obtained by both classifiers. Which of them
achieved higher accuracy ?
40. 40
Parkinson Disease Detection
Max Little (Oxford University) recorded speech signals and measured the
biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the
dataset which will be distributed during final examination, each column in the
table is a particular voice measure, and each row corresponds one of 195 voice
recording from these individuals ("name" column). The main aim of the data is
to discriminate healthy people from those with PD, according to "status" column
which is set to 0 for healthy and 1 for PD. There are around six recordings per
patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence
and Fractal Scaling Properties for Voice Disorder Detection', Little MA,
McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering
OnLine 2007, 6:23, 26 June 2007).
Experiment using k-Nearest Neighbor Classifier
Conduct classification experiments using k-Nearest Neighbor Classifier and
Support Vector Machines, by using 50% of the data as training set and the rest
as testing set. Try at least 5 different values of k for k-Nearest neighbor, and
draw a graph show the relationship between k and classification rate. In case
of Support Vector Machine experiments, try several parameter combinations by
modifying the type of Kernel and its parameters (at least 5 experiments).
Compare and discuss the results obtained by both classifiers. Which of them
achieved higher accuracy ?
41. 41
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifikasi
– Tahapan membangun classifier
– Contoh kasus : Klasifikasi bunga iris
– Tahapan membangun classifier
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier
– Eksperimen memakai classifier yang lain (JST, SVM)
– Classification of cancers based on gene expression
– Parkinson Disease Detection
• K-Means Clustering
42. 42
K-Means Clustering : Step by Step
• Pilihlah k buah data sebagai initial centroid
• Ulangi
– Bentuklah K buah cluster dengan meng-assign
tiap data ke centroid terdekat
– Update-lah centroid tiap cluster
• Sampai centroid tidak berubah
52. 52
Nilai attribute x ditampilkan pada sumbu x, dan nilai
attribute y ditampilkan pada sumbu y
Tiap cluster diberikan warna yang
berbeda (merah, biru, hijau)