Dokumen tersebut membahas penggunaan WEKA untuk melakukan klasifikasi data, termasuk kasus klasifikasi bunga iris, neural network, dan SVM. Berbagai parameter dan metode evaluasi akurasi dijelaskan."
Dokumen tersebut membahas tentang definisi dialog antara manusia dan komputer serta berbagai jenis ragam dialog interaktif seperti dialog berbasis perintah, dialog berbasis bahasa pemrograman, dialog berbasis bahasa alami, dialog berbasis menu dan formulir, serta dialog berbasis manipulasi langsung dan antarmuka grafis.
Dokumen tersebut membahas definisi dan jenis-jenis persyaratan perangkat lunak, termasuk persyaratan fungsional, non fungsional, produk dan proses. Dokumen tersebut juga membahas aktivitas yang terkait dengan persyaratan perangkat lunak seperti elicitation, analisis, spesifikasi dan validasi persyaratan."
Modul ini membahas pengertian rekayasa perangkat lunak, perangkat lunak, proses rekayasa perangkat lunak, ruang lingkup rekayasa perangkat lunak, perekayasa perangkat lunak, dan teknologi informasi sosial.
Dokumen tersebut memberikan instruksi lengkap tentang cara menggunakan fitur-fitur dasar Microsoft Word 2010 seperti membuat, menyimpan, dan mengedit dokumen; mengatur format teks dan paragraf; menyisipkan tabel, gambar, dan objek lainnya; serta mencetak dokumen.
User interface merupakan antarmuka pengguna yang memungkinkan pengguna berinteraksi dengan sistem komputer. Perancangan user interface yang baik harus mempertimbangkan karakteristik pengguna dan mudah digunakan. Evaluasi desain dilakukan untuk meningkatkan kualitas antarmuka.
Dokumen tersebut membahas tentang definisi dialog antara manusia dan komputer serta berbagai jenis ragam dialog interaktif seperti dialog berbasis perintah, dialog berbasis bahasa pemrograman, dialog berbasis bahasa alami, dialog berbasis menu dan formulir, serta dialog berbasis manipulasi langsung dan antarmuka grafis.
Dokumen tersebut membahas definisi dan jenis-jenis persyaratan perangkat lunak, termasuk persyaratan fungsional, non fungsional, produk dan proses. Dokumen tersebut juga membahas aktivitas yang terkait dengan persyaratan perangkat lunak seperti elicitation, analisis, spesifikasi dan validasi persyaratan."
Modul ini membahas pengertian rekayasa perangkat lunak, perangkat lunak, proses rekayasa perangkat lunak, ruang lingkup rekayasa perangkat lunak, perekayasa perangkat lunak, dan teknologi informasi sosial.
Dokumen tersebut memberikan instruksi lengkap tentang cara menggunakan fitur-fitur dasar Microsoft Word 2010 seperti membuat, menyimpan, dan mengedit dokumen; mengatur format teks dan paragraf; menyisipkan tabel, gambar, dan objek lainnya; serta mencetak dokumen.
User interface merupakan antarmuka pengguna yang memungkinkan pengguna berinteraksi dengan sistem komputer. Perancangan user interface yang baik harus mempertimbangkan karakteristik pengguna dan mudah digunakan. Evaluasi desain dilakukan untuk meningkatkan kualitas antarmuka.
Makalah ini membahas analisis sistem informasi aplikasi penjualan dan pembelian elektronik berbasis web pada toko Kotakom Bandung. Tujuannya adalah merancang sistem informasi untuk memudahkan transaksi penjualan dan pembelian secara online.
Dokumen tersebut membahas pengolahan citra digital dengan menggunakan MATLAB. Terdapat penjelasan mengenai teori citra digital, format file citra, dan berbagai fungsi MATLAB untuk membaca, menampilkan, dan mengolah citra digital seperti konversi warna, filtering, dan transformasi Fourier diskrit."
Dokumen tersebut membahas tentang keamanan sistem komputer yang mencakup tiga aspek yaitu keamanan eksternal, interface pemakai, dan internal. Juga membahas mengenai ancaman keamanan seperti kerahasiaan, integritas, dan ketersediaan sumber daya, serta otentikasi pemakai dan virus komputer.
Dokumen tersebut membahas tentang metode Analytical Hierarchy Process (AHP) yang digunakan untuk membantu seseorang bernama Si Budi memilih pantai mana yang akan dikunjunginya di sekitar Kendari. AHP digunakan dengan menetapkan kriteria keindahan, keamanan, fasilitas, dan biaya, serta alternatif pantai Toronipa, Batu Gong, dan Nambo. Perhitungan vektor prioritas dilakukan untuk setiap kriteria dan alternatif, serta
Analisis sistem adalah fase awal pengembangan sistem yang berfokus pada masalah bisnis dan persyaratan, terpisah dari teknologi. Terdapat beberapa pendekatan seperti model driven yang menggunakan diagram alir dan objek, rekayasa informasi yang berfokus pada struktur data, dan analisis terstruktur yang menggambarkan proses bisnis. Tujuannya adalah memahami organisasi dan persyaratan pengguna sebelum pengembangan sistem.
Dokumen tersebut membahas tentang algoritma Naive Bayes Classifier untuk klasifikasi dan prediksi data. Algoritma ini bekerja dengan menghitung probabilitas kelas berdasarkan pengalaman sebelumnya dengan asumsi independensi antar variabel. Diberikan contoh perhitungan Naive Bayes untuk memprediksi kemungkinan seseorang membeli komputer dan status kelulusannya berdasarkan atribut-atribut tertentu.
Proposal ini mengajukan program kreativitas mahasiswa untuk merancang sistem IMAN KEMPES, yaitu implementasi antropometri pada alat kemudi pesawat terbang. Program ini bertujuan untuk merancang konsep dan membuat prototype alat kemudi yang lebih ergonomis dan dapat digunakan oleh pilot dari berbagai ras dengan mengacu pada ukuran tubuh manusia. Kegiatan ini diharapkan dapat meningkatkan keselamatan dan kenyamanan dalam peng
Aplikasi ini menggambarkan sistem rental mobil yang meliputi fitur-fitur utama seperti pendaftaran, login, sewa mobil, pengembalian mobil, dan laporan transaksi dari perspektif pelanggan dan admin. Terdapat use case diagram, activity diagram, sequence diagram, class diagram, dan deskripsi singkat mengenai setiap diagram.
Dokumen ini membahas tentang pembuatan profil perusahaan menggunakan Microsoft Word. Siswa diajak membuat profil secara berkelompok dengan format tertentu seperti ukuran font, spasi, dan margin yang diatur. Langkah-langkah membuat profil dijelaskan meliputi penentuan data profil, diskusi kelompok, pengaturan format di Ms. Word, hingga desain profil yang menarik.
Dokumen tersebut berisi data set cuaca, jarak, pemakaian, dan pelanggan datang. Data set tersebut digunakan untuk membangun model pohon keputusan (decision tree) C4.5 untuk memprediksi apakah pelanggan akan datang berdasarkan atribut-atribut tersebut. Dokumen ini juga menjelaskan cara kerja algoritma C4.5 untuk membangun model pohon keputusan dan menemukan kelasnya.
Makalah ini membahas analisis sistem informasi aplikasi penjualan dan pembelian elektronik berbasis web pada toko Kotakom Bandung. Tujuannya adalah merancang sistem informasi untuk memudahkan transaksi penjualan dan pembelian secara online.
Dokumen tersebut membahas pengolahan citra digital dengan menggunakan MATLAB. Terdapat penjelasan mengenai teori citra digital, format file citra, dan berbagai fungsi MATLAB untuk membaca, menampilkan, dan mengolah citra digital seperti konversi warna, filtering, dan transformasi Fourier diskrit."
Dokumen tersebut membahas tentang keamanan sistem komputer yang mencakup tiga aspek yaitu keamanan eksternal, interface pemakai, dan internal. Juga membahas mengenai ancaman keamanan seperti kerahasiaan, integritas, dan ketersediaan sumber daya, serta otentikasi pemakai dan virus komputer.
Dokumen tersebut membahas tentang metode Analytical Hierarchy Process (AHP) yang digunakan untuk membantu seseorang bernama Si Budi memilih pantai mana yang akan dikunjunginya di sekitar Kendari. AHP digunakan dengan menetapkan kriteria keindahan, keamanan, fasilitas, dan biaya, serta alternatif pantai Toronipa, Batu Gong, dan Nambo. Perhitungan vektor prioritas dilakukan untuk setiap kriteria dan alternatif, serta
Analisis sistem adalah fase awal pengembangan sistem yang berfokus pada masalah bisnis dan persyaratan, terpisah dari teknologi. Terdapat beberapa pendekatan seperti model driven yang menggunakan diagram alir dan objek, rekayasa informasi yang berfokus pada struktur data, dan analisis terstruktur yang menggambarkan proses bisnis. Tujuannya adalah memahami organisasi dan persyaratan pengguna sebelum pengembangan sistem.
Dokumen tersebut membahas tentang algoritma Naive Bayes Classifier untuk klasifikasi dan prediksi data. Algoritma ini bekerja dengan menghitung probabilitas kelas berdasarkan pengalaman sebelumnya dengan asumsi independensi antar variabel. Diberikan contoh perhitungan Naive Bayes untuk memprediksi kemungkinan seseorang membeli komputer dan status kelulusannya berdasarkan atribut-atribut tertentu.
Proposal ini mengajukan program kreativitas mahasiswa untuk merancang sistem IMAN KEMPES, yaitu implementasi antropometri pada alat kemudi pesawat terbang. Program ini bertujuan untuk merancang konsep dan membuat prototype alat kemudi yang lebih ergonomis dan dapat digunakan oleh pilot dari berbagai ras dengan mengacu pada ukuran tubuh manusia. Kegiatan ini diharapkan dapat meningkatkan keselamatan dan kenyamanan dalam peng
Aplikasi ini menggambarkan sistem rental mobil yang meliputi fitur-fitur utama seperti pendaftaran, login, sewa mobil, pengembalian mobil, dan laporan transaksi dari perspektif pelanggan dan admin. Terdapat use case diagram, activity diagram, sequence diagram, class diagram, dan deskripsi singkat mengenai setiap diagram.
Dokumen ini membahas tentang pembuatan profil perusahaan menggunakan Microsoft Word. Siswa diajak membuat profil secara berkelompok dengan format tertentu seperti ukuran font, spasi, dan margin yang diatur. Langkah-langkah membuat profil dijelaskan meliputi penentuan data profil, diskusi kelompok, pengaturan format di Ms. Word, hingga desain profil yang menarik.
Dokumen tersebut berisi data set cuaca, jarak, pemakaian, dan pelanggan datang. Data set tersebut digunakan untuk membangun model pohon keputusan (decision tree) C4.5 untuk memprediksi apakah pelanggan akan datang berdasarkan atribut-atribut tersebut. Dokumen ini juga menjelaskan cara kerja algoritma C4.5 untuk membangun model pohon keputusan dan menemukan kelasnya.
This document provides an overview of the Weka data mining tool and its capabilities for classification, clustering, association rule mining, and feature selection on health services data. It describes Weka's main features including preprocessing tools, algorithms for classification, clustering, association rules, and feature selection. It also outlines the three interfaces in Weka - the Explorer for exploratory data analysis, the Experimenter for experimentation, and the KnowledgeFlow for visual workflow design. Finally, it discusses loading and preprocessing data in Weka, including filtering, attribute selection, and formatting.
Skripsi ini membahas analisis diskriminan linier untuk mengklasifikasikan nasabah bank menjadi dua kelompok, yaitu menunggak dan tidak menunggak, dengan menggunakan metode cross validation. Variabel yang digunakan adalah usia, pendapatan, jumlah tanggungan, jumlah cicilan, dan lamanya bertransaksi. Hasilnya menunjukkan model pertama lebih akurat dibanding model kedua. Oleh karena itu, model pertama dipilih untuk klas
This presentation would give a simple introduction to perform some basic data analysis using WEKA. Since it contains an image guiding criteria it would be very easy for the beginners.
Makalah ini membahas tentang contoh aplikasi Human Resource Management (HRM) yang bernama OrangeHRM. OrangeHRM merupakan sistem manajemen sumber daya manusia berbasis web yang fleksibel dan mudah digunakan, dengan berbagai modul untuk memenuhi kebutuhan dasar HRM. Makalah ini menjelaskan fitur, kelebihan, dan kekurangan dari OrangeHRM beserta produk-produk yang ditawarkannya."
Dokumen ini membahas tentang klasifikasi dataset mobil menggunakan metode decision tree di Weka. Dataset mobil diubah formatnya menjadi ARFF dan diklasifikasi menggunakan ID3 dan J48. Hasilnya menunjukkan ID3 memberikan akurasi yang lebih baik dari J48 berdasarkan nilai presisi, recall, dan F-measure.
WEKA is machine learning software written in Java that is used for data mining tasks. It contains tools for pre-processing data, building classifiers, clustering data, finding associations, attribute selection, and visualizing data. WEKA also allows users to perform experiments to compare the performance of different learning algorithms on classification and regression problems. It has graphical user interfaces that make it easy to set up and run machine learning experiments by connecting different components in a workflow.
Dokumen tersebut merangkum tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, kl
Dokumen tersebut membahas tentang data mining dan pengajaran desain pembelajaran. Secara singkat, dokumen tersebut menjelaskan tentang konsep-konsep dasar data mining, algoritma yang digunakan dalam data mining seperti estimasi, prediksi, klasifikasi, dan klastering, serta tahapan proses data mining mulai dari input data hingga evaluasi hasilnya.
Orange is an open-source data visualization and analysis tool for novice and expert users. It was developed in Python and is available for Windows, Mac OS X, and Linux. Orange provides tools for data mining, machine learning, and statistical analysis through a graphical user interface and Python scripting. Some key features include visual programming, data visualization, interaction and analytics capabilities, a large toolbox of algorithms, and extensibility. Orange has been used by organizations like AstraZeneca for drug development.
This document provides steps to set up OpenCV 3.2.0 with CodeBlocks on Windows. It details downloading and installing OpenCV, tdm-gcc, CodeBlocks, and CMake. It then walks through configuring the tools in CodeBlocks to use the OpenCV libraries and build a sample OpenCV application to read and display an image.
Dokumen tersebut membahas penggunaan WEKA untuk klasifikasi dan clustering data. Beberapa contoh kasus yang dijelaskan adalah klasifikasi bunga iris menggunakan k-Nearest Neighbor Classifier, deteksi penyakit Parkinson berdasarkan suara, dan klasifikasi jenis kanker berdasarkan ekspresi gen. Algoritma yang dapat digunakan antara lain k-Nearest Neighbor, Naive Bayes, Neural Network, dan Support Vector Machine.
1. Unsupervised learning digunakan untuk pengelompokkan data tanpa label melalui clustering.
2. K-means clustering dan hierarchical clustering adalah dua pendekatan utama clustering.
3. Pemilihan parameter seperti jumlah cluster pada k-means mempengaruhi akurasi hasil clustering.
Dokumen tersebut membahas tentang teknik black box testing yaitu equivalence partitioning dan boundary value analysis. Kedua teknik ini digunakan untuk merancang test case dengan membagi masukan menjadi kelas-kelas ekuivalensi dan menguji nilai di batas setiap kelas.
Klasifikasi adalah proses menemukan pola yang menjelaskan atau membedakan konsep atau kelas data untuk memprediksi kelas objek baru. Model klasifikasi dibangun dengan melatih algoritma pada data pelatihan untuk memetakan atribut ke label kelas, lalu model diuji keakuratannya pada data uji. Pohon keputusan sering digunakan karena mudah diinterpretasi.
Slide ini berisi penjelasan tentang Data Mining Klasifikasi. Di dalamnya ada tiga algoritma yang dibahas, yaitu: Naive Bayes, kNN, dan ID3 (Decision Tree).
Dokumen tersebut membahas tentang klasifikasi biner dan multikelas pada machine learning. Terdapat penjelasan mengenai beberapa algoritma klasifikasi seperti logistic regression, decision tree, K-nearest neighbors, SVM, Naive Bayes, dan lainnya beserta contoh penerapannya. Juga dibahas perbedaan antara klasifikasi biner dan multikelas.
Dokumen tersebut membahas tentang algoritma covering dan penerapannya dalam klasifikasi teks. Algoritma covering dapat digunakan untuk membentuk aturan klasifikasi berdasarkan nilai maksimal atribut. Jurnal lain membahas algoritma baru yaitu Cross Covering Algorithm Based on Simulated Annealing (SACCA) yang menggabungkan algoritma covering dan simulated annealing untuk mencari pusat domain yang lebih optimal dengan akurasi yang lebih tinggi. Hasil penelitian menunjukkan bahwa S
Teknik Pengujian Perangkat Lunak membahas berbagai teknik pengujian perangkat lunak termasuk rencana pengujian, proses pengujian, pengujian berbasis kasus, pengujian putih dan hitam, serta pengujian berbasis objek.
Dokumen tersebut membahas tentang klasifikasi data mining, meliputi definisi klasifikasi, langkah-langkah klasifikasi, contoh task klasifikasi, teknik klasifikasi seperti decision tree dan Naive Bayes, serta parameter evaluasi model."
1. Introduction to Datamining using WEKA
Anto Satriyo Nugroho
Center for Information & Communication Technology
Agency for the Assessment & Application of Technology, Indonesia
Email: asnugroho@ieee.org
2. 2
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifikasi
– Tahapan membangun classifier
– Contoh kasus : Klasifikasi bunga iris
– Tahapan membangun classifier
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier
– Eksperimen memakai classifier yang lain (JST, SVM)
– Classification of cancers based on gene expression
– Parkinson Disease Detection
• K-Means Clustering
3. 3
What is WEKA ?
• Machine learning/data mining software written in Java (distributed under
the GNU Public License)
• Used for research, education, and applications
• Complements “Data Mining” by Witten & Frank
• Main features:
– Comprehensive set of data pre-processing tools, learning algorithms
and evaluation methods
– Graphical user interfaces (incl. data visualization)
– Environment for comparing learning algorithms
• Weka versions
– WEKA 3.4: “book version” compatible with description in data mining
book
– WEKA 3.5: “developer version” with lots of improvements
4. Formatting Data into ARFF (Attribute Relation File Format)
4
@relation iris
@attribute sepallength real
@attribute sepalwidth real
@attribute petallength real
@attribute petalwidth real
@attribute class {Iris-setosa, Iris-versicolor, Iris-virginica}
@data
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
…
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
…
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
…
5. 5
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifikasi
– Tahapan membangun classifier
– Contoh kasus : Klasifikasi bunga iris
– Tahapan membangun classifier
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier
– Eksperimen memakai classifier yang lain (JST, SVM)
– Classification of cancers based on gene expression
– Parkinson Disease Detection
• K-Means Clustering
6. 6
Tahapan membangun Classifier
1. Tentukan manakah informasi yang merupakan
(a) attribute/feature
(b) class
(c) training & testing set
(d) skenario pengukuran akurasi
2. Tentukan kombinasi parameter model, dan lakukan proses
pelatihan memakai training set
3. Ukurlah akurasi yang dicapai dengan testing set
4. Ubahlah parameter model, dan ulang kembali mulai dari
step 2, sampai dicapai akurasi yang diinginkan
7. 7
Contoh Kasus : Klasifikasi bunga iris
• Data set yang paling terkenal
• Author: R.A. Fisher
• Terdiri dari 3 kelas, masing-masing
memiliki 50 samples (instances)
• Attribute information:
– Sepal (kelopak) length in cm
– sepal width in cm
– Petal (mahkota) length in cm
– petal width in cm
– class: (1) Iris Setosa (2) Iris
Versicolour (3)Iris Virginica
• URL: http://archive.ics.uci.edu/ml/
datasets/Iris
20. Selanjutnya
pilihlah
skenario
Pengukuran
akurasi.
Dari
4
Op3ons
yang
diberikan,
pilihlah
“Supplied
test
set”
dan
klik
BuQon
“Set”
untuk
memiilih
Tes3ng
set
file
“iris-‐tes3ng.arff”
20
22. 22
Apakah yang dimaksud “mengukur akurasi”
• Tes3ng
set
“iris-‐tes3ng.arff”
dilengkapi
dengan
informasi
actual
class-‐nya.
Misalnya
instance
no.1
adalah
suatu
bunga
yang
memiliki
sepal
length
5.0
cm,
sepal
width
3.0cm,
petal
length
1.6
cm,
petal
width
0.2
cm,
dan
jenis
bunganya
(class)
“Iris
setosa”
• Model
classifica3on
yang
dibangun
harus
mampu
menebak
dengan
benar
class
tersebut.
23. 23
Berbagai cara pengukuran akurasi
• “Using
training
set”
:
memakai
seluruh
data
sebagai
training
set,
sekaligus
tes3ng
set.
Akurasi
akan
sangat
3nggi,
tetapi
3dak
memberikan
es3masi
akurasi
yang
sebenarnya
terhadap
data
yang
lain
(yang
3dak
dipakai
untuk
training)
• Hold
Out
Method
:
Memakai
sebagian
data
sebagai
training
set,
dan
sisanya
sebagai
tes3ng
set.
Metode
yang
lazim
dipakai,
asal
jumlah
sampel
cukup
banyak.
Ada
2
:
supplied
test
set
dan
percentage
split.
Pilihlah
“Supplied
test
set”
:
jika
file
training
dan
tes3ng
tersedia
secara
terpisah.
Pilihlah
“Percentage
split”
jika
hanya
ada
1
file
yang
ingin
dipisahkan
ke
training
&
tes3ng.
Persentase
di
kolom
adalah
porsi
yang
dipakai
sbg
training
set
24. 24
Berbagai cara pengukuran akurasi
• Cross
Valida3on
Method
(
fold
=
5
atau
10
)
:
teknik
es3masi
akurasi
yang
dipakai,
jika
jumlah
sampel
terbatas.
Salah
satu
bentuk
khusus
CV
adalah
Leave-‐one-‐out
Cross
Valida3on
(LOOCV)
:
dipakai
jka
jumlah
sampel
sangat
terbatas
25. 25
Ilustrasi Cross Validation (k=5)
1. Data
terdiri
dari
100
instances
(samples),
dibagi
ke
dalam
5
blok
dengan
jumlah
sampel
yang
sama.
Nama
blok
:
A,
B,
C,
D
dan
E,
masing-‐masing
terdiri
dari
20
instances
2. Kualitas
kombinasi
parameter
tertentu
diuji
dengan
cara
sbb.
step
1:
training
memakai
A,B,C,D
tes3ng
memakai
E
akurasi
a
step
2:
training
memakai
A,B,C,E
tes3ng
memakai
D
akurasi
b
step
3:
training
memakai
A,B,
D,E
tes3ng
memakai
C
akurasi
c
step
4:
training
memakai
A,
C,D,E
tes3ng
memakai
B
akurasi
d
step
5:
training
memakai
B,C,D,E
tes3ng
memakai
A
akurasi
e
3. Rata-‐rata
akurasi
:
(a+b+c+d+e)/5
mencerminkan
kualitas
parameter
yang
dipilih
4. Ubahlah
parameter
model,
dan
ulangi
dari
no.2
sampai
dicapai
akurasi
yang
diinginkan
26. Kali
ini
memakai
“Supplied
test
set”.
Selanjutnya
klik
pada
bagian
yang
Di
dalam
kotak
untuk
men-‐set
nilai
Parameter.
Dalam
hal
ini,
adalah
Nilai
“k”
pada
k-‐Nearest
Neighbour
Classifier
(Nick
name
:
IBK)
26
27. 27
Set-‐lah
nilai
“k”misalnya
3
dan
klik
OK.
Untuk
memahami
parameter
yang
lain,
kliklah
buQon
“More”
&
“Capabili3es”
28. Klik
buQon
“Start”
Hasil
eksperimen
:
Correct
classifica3on
rate
:
96%
(benar
72
dari
total
75
data
pada
tes3ng
set)
28
Bagaimana
cara
membaca
Confusion
matrix
?
29. • Baris pertama “25 0 0” menunjukkan bahwa ada (25+0+0)
instances class Iris-setosa di dalam file iris-testing.arff dan
semua benar diklasifikasikan sebagai Iris setosa
• Baris kedua “0 24 1” menunjukkan bahwa ada (0+24+1)
instances class Iris-versicolor di dalam file iris-testing.arff
dan 1 salah diklasifikasikan sebagai Iris-virginica
• Baris ketiga “0 2 24” menunjukkan bahwa ada (0+2+23)
instances class Iris-virginica di dalam file iris-testing.arff dan
2 di antaranya salah diklasifikasikan sebagai Iris-versicolor
30. Untuk
mengetahui
instance
mana
yang
3dak
berhasil
Diklasifikasikan
klik
“More
Op3ons”
dan
check
lah
“Output
predic3ons”.
Klik
“Start”
untuk
mengulangi
eksperimen
yang
sama
31. Inst#
:
nomer
urut
data
pada
file
“iris-‐tes3ng.arff”
actual
:
class
yang
sebenarnya
predicted:
class
yang
diprediksi
Error:
jika
ada
misclassifica3on,
akan
diberikan
tanda
“+”
dalam
contoh
ini,
pada
instance
no.34,
59
&
60
32. Merangkum hasil eksperimen
No. K Correct Classification Rate
Iris setosa Iris versicolor Iris virginica Total
1 1 ? ? ? ?
2 3 100% 96% 92% 96%
3 5
5
7
9
• Tugas
:
lanjutkan
eksperimen
di
atas
untuk
nilai
k
=
1,
3,
5,
7
dan
9
• Buatlah
grafik
yang
menunjukkan
akurasi
yang
dicapai
untuk
masing-‐masing
class
pada
berbagai
nilai
k.
Sumbu
horisontal
:
nilai
k
dan
sumbu
ver3kal
:
akurasi
• Kapankah
(pada
nilai
k
berapa
?)
akurasi
ter3nggi
dicapai
?
Bagaimanakah
trend
akurasi
masing-‐masing
class
?
33. 33
Eksperimen memakai Neural Network
• Untuk
eksperimen
memakai
neural
network,
caranya
sama
dengan
k-‐Nearest
Neighbor
Classifier.
• Parameter
yang
dituning
melipu3
antara
lain:
–
hiddenLayers:
banyaknya
neuron
pada
hidden
layer.
Default
“a”
:
rata-‐
rata
jumlah
neuron
pada
input
&
output
layer
– LearningRate
:
biasanya
nilai
kecil
(0.1,
0.01,
0.2,
0.3
dsb)
– Momentum:
biasanya
nilai
besar
(0.6,
0.9
dsb)
– trainingTime:
maksimum
iterasi
backpropaga3on
(500,
1000,
5000,
10000
dsb.)
37. 37
Classification of cancers based on gene expression
• Biological reference:
Classification and diagnostic prediction of cancers using gene
expression profiling and artificial neural networks,
J. Khan, et al., Nature Medicine 7, pp.673-679, 2001 (http://
www.thep.lu.se/~carsten/pubs/lu_tp_01_06.pdf )
• Data is available from http://research.nhgri.nih.gov/microarray/
Supplement/
• Small Round Blue Cell Tumors (SRBCT) has two class:
– Ewing Family of Tumors (EWS)
– NB: Neuroblastoma
– BL: Burkitt lymphomas
– RMS: Rhabdomyosarcoma : RMS
• Characteristic of the data
– Training samples : 63 (EWS:23 BL:8 NB:12 RMS:20)
– Testing samples: 20 (EWS:6 BL:3 NB:6 RMS:5)
– Number of features (attributes): 2308
38. Classification of cancers based on gene expression
Experiment using k-Nearest Neighbor Classifier
• Training and testing set are given as separated arff file
• Use training set to build a classifier: k-Nearest Neighbor (k=1)
• Evaluate its performance on the testing set.
• Change the value of k into 3,5,7 and 9 and repeat step 1 to 3 for each
38
value.
Experiment using Artificial Neural Network
• Do the same experiment using Multilayer Perceptron Artificial Neural
Network for various parameter setting (hidden neurons, learning rate,
momentum, maximum iteration). Make at least five parameter settings.
39. 39
Parkinson Disease Detection
Max Little (Oxford University) recorded speech signals and measured the
biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the
dataset which will be distributed during final examination, each column in the
table is a particular voice measure, and each row corresponds one of 195 voice
recording from these individuals ("name" column). The main aim of the data is
to discriminate healthy people from those with PD, according to "status" column
which is set to 0 for healthy and 1 for PD. There are around six recordings per
patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence
and Fractal Scaling Properties for Voice Disorder Detection', Little MA,
McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering
OnLine 2007, 6:23, 26 June 2007).
Experiment using k-Nearest Neighbor Classifier
Conduct classification experiments using k-Nearest Neighbor Classifier and
Support Vector Machines, by using 50% of the data as training set and the rest
as testing set. Try at least 5 different values of k for k-Nearest neighbor, and
draw a graph show the relationship between k and classification rate. In case
of Support Vector Machine experiments, try several parameter combinations by
modifying the type of Kernel and its parameters (at least 5 experiments).
Compare and discuss the results obtained by both classifiers. Which of them
achieved higher accuracy ?
40. 40
Parkinson Disease Detection
Max Little (Oxford University) recorded speech signals and measured the
biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the
dataset which will be distributed during final examination, each column in the
table is a particular voice measure, and each row corresponds one of 195 voice
recording from these individuals ("name" column). The main aim of the data is
to discriminate healthy people from those with PD, according to "status" column
which is set to 0 for healthy and 1 for PD. There are around six recordings per
patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence
and Fractal Scaling Properties for Voice Disorder Detection', Little MA,
McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering
OnLine 2007, 6:23, 26 June 2007).
Experiment using k-Nearest Neighbor Classifier
Conduct classification experiments using k-Nearest Neighbor Classifier and
Support Vector Machines, by using 50% of the data as training set and the rest
as testing set. Try at least 5 different values of k for k-Nearest neighbor, and
draw a graph show the relationship between k and classification rate. In case
of Support Vector Machine experiments, try several parameter combinations by
modifying the type of Kernel and its parameters (at least 5 experiments).
Compare and discuss the results obtained by both classifiers. Which of them
achieved higher accuracy ?
41. 41
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifikasi
– Tahapan membangun classifier
– Contoh kasus : Klasifikasi bunga iris
– Tahapan membangun classifier
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier
– Eksperimen memakai classifier yang lain (JST, SVM)
– Classification of cancers based on gene expression
– Parkinson Disease Detection
• K-Means Clustering
42. 42
K-Means Clustering : Step by Step
• Pilihlah
k
buah
data
sebagai
ini3al
centroid
• Ulangi
– Bentuklah
K
buah
cluster
dengan
meng-‐assign
3ap
data
ke
centroid
terdekat
– Update-‐lah
centroid
3ap
cluster
• Sampai
centroid
3dak
berubah
49. maxItera3ons:
untuk
menghen3kan
proses
clustering
jika
iterasi
melebih
nilai
tertentu
numClusters:
nilai
k
(banyaknya
cluster)
49
50. 50
Hasil
clustering:
terbentuk
3
cluster
dan
masing-‐masing
beranggotakan
50
instances
51. 51
Klik
dengan
buQon
kanan
mouse
untuk
menampilkan
visualisasi
cluster
52. 52
Nilai
aQribute
x
ditampilkan
pada
sumbu
x,
dan
nilai
aQribute
y
ditampilkan
pada
sumbu
y
Tiap
cluster
diberikan
warna
yang
berbeda
(merah,
biru,
hijau)