SlideShare a Scribd company logo
1 of 28
Download to read offline
KEBAIKAN METODE KLASIFIKASI
MULTICLASS MENGGUNAKAN
HOLD-OUT METHOD DAN CROSS
VALIDATION
MUTHIA PANDAN SARI
06211540000122
DATA M INING A| KS 184645
OUTLINE
PENDAHULUAN
METODOLOGI
PENELITIAN
ANALISIS
DAN
PEMBAHASAN
KESIMPULAN
DAN
SARAN
OUTLINE
PENDAHULUAN
PENDAHULUAN
KAMA
CANADIAN
ROSA
PENDAHULUAN
METODOLOGI
PENELITIAN
METODOLOGI PENELITIAN
Sumber Data
Variabel Penelitian
Struktur Data
Langkah Analisis
Sumber Data
Sumber data pada penelitian ini merupakan data sekunder.
Data sekunder yang digunakan adalah Seeds Data Set UCI
Machine Learning sebanyak 210 data. Data diambil pada hari
Selasa 4 Desember 2018.
Variabel Penelitian
Variabel independen yang digunakan pada penelitian ini
sebanyak 7 variabel dan 1 variabel dependen. Variabel
penelitian yang akan digunakan ditampilkan pada Tabel 2.1.
Variabel Nama Keterangan
X1 Area Numerik
X2 Perimeter Numerik
X3 Compactness Numerik
X4 Length of kernel Numerik
X5 Width of kernel Numerik
X6 Asymmetry Coefficient Numerik
X7 Length of kernel groove Numerik
Y Class Kategorik
Tabel 2.1 Variabel Penelitian
Struktur Data
Tabel 2.2 Struktur Data
No.
area
(A)
perimet
er (P)
Compactne
ss
C=4*pi*A/P
^2
length
of
kernel
width
of
kernel
asymmet
ry
coefficien
t
length
of
kernel
groove
class
1 1 X1,1 X1,2 X1,3 X1,4 X1,5 X1,6 X1,7
2 2 X2,1 X2,2 X2,3 X2,4 X2,5 X2,6 X2,7
3 3 X3,1 X3,2 X3,3 X3,4 X3,5 X3,6 X3,7
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
209 209 X209,1 X209,2 X209,3 X209,4 X209,5 X209,6 X209,7
210 210 X210,1 X210,2 X210,3 X210,4 X210,5 X210,6 X210,7
Langkah Analisis
1. Import libraries
2. Fetching the dataset
3. Extracing features dan 0utput
4. Feature Scaling
5. Deteksi outlier
6. Menganalisis statistika deskriptif
7. Membagi data berdasarkan data training dan testing
8. Feature Importance
9. Melakukan klasifikasi dengan berbagai metode
10. Memilih metode klasifikasi terbaik
METODOLOGI
PENELITIAN ANALISIS
DAN
PEMBAHASAN
ANALISIS DAN PEMBAHASAN
Preprocessing Data
Eksplorasi Data
Feature Engineering
Feature Selection
Metode Klasifikasi Terbaik (Hold-Out Method
& Cross Validation)
Preprocessing Data (1/3)
1) Deteksi dan Mengimputasi Missing Value
syntax : data.isnull().any() didapatkan hasil pada Tabel
3.1
Variabel Output
area (A) False
perimeter (P) False
Compactness C=4*pi*A/P^2 False
length of kernel False
width of kernel False
asymmetry coefficient False
length of kernel groove False
Tabel 3.1 Hasil Output Deteksi Missing Value
Preprocessing Data (2/3)
2) Transformasi Data
Menggunakan normalisasi data, yang hasilnya akan di
sajikan pada Tabel 3.2
Tabel 3.2 Hasil Normalisasi Data
No. area (A)
perimeter
(P)
Compactness
C=4*pi*A/P^2
length of
kernel
width of
kernel
asymmetry
coefficient
length of
kernel
groove
class
1 0.663193 0.038481 0.871 0.075674 0.10044 0.116085 0.125965 1
2 0.664621 0.039699 0.8811 0.080599 0.109032 0.130193 0.132817 1
3
0.657453 0.040111 0.905 0.078508 0.101278 0.118052 0.134921 1
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
209 0.601162 0.038168 0.8521 0.070086 0.588453 0.50306 0.361622 3
210 0.598054 0.036259 0.8684 0.061651 0.314149 0.261853 0.334589 3
Preprocessing Data (3/3)
3) Deteksi dan Mengatasi Outlier
Gambar 1. Hasil Box-Plot
Gambar 2. Hasil Pengujian Outlier
Eksplorasi Data (1/2)
area (A)
perimeter
(P)
length of
kernel
width of
kernel
asymmetry
coefficient
length of
kernel
groove
count 210 210 210 210 210 210
mean 0.644492 0.037266 0.870999 0.069221 0.579524 0.524116
std 0.045464 0.001711 0.023629 0.006519 0.212518 0.210799
min 0.552308 0.032966 0.8081 0.050529 0 0
25% 0.604459 0.03617 0.8569 0.065028 0.426682 0.377491
50% 0.65053 0.037128 0.87345 0.069304 0.587317 0.523231
75% 0.681539 0.038596 0.887775 0.074206 0.739336 0.684705
max 0.716325 0.041044 0.9183 0.083519 1 1
Tabel 3.3 Statistika Deskriptif
Eksplorasi Data (2/2)
Feature Selection (1/3)
Gambar 3. Scatterplot Setiap Variabel
Pada Gambar 3 dapat
dilihat bahwa pada variabel
area (A) dan perimeter (P)
terdapat hubungan yang
berbanding lurus dan
memiliki nilai yang cukup
tinggi, hal ini ditandai
dengan plot yang terbentuk
cenderung mengikuti garis
linear.
Feature Selection (2/3)
Gambar 4. Nilai Korelasi Setiap Variabel
Berdasarkan Gambar
4 dapat dilihat bahwa
beberapa variabel
memiliki korelasi
diatas 0.9 sehingga
perlu dihilangkan
variabel yang memiliki
nilai korelasi diatas
0.9. Untuk memilih
variabel yang
dihilangkan
menggunakan feature
importance.
Feature Selection (3/3)
Variabel Nilai
perimeter (P) 0.320051
area (A) 0.221799
length of kernel groove 0.141619
width of kernel 0.116546
asymmetry coefficient 0.075706
length of kernel 0.067588
Compactness C=4*pi*A/P^2 0.056691
Tabel 3.4 Nilai Feature Importance
Batasan jika variabel memiliki nilai feature importance lebih dari 0.05
maka variabel tersebut tidak dihilangkan. Namun dikarenakan nilai
compactness merupakan operasi matematika dari area (A) dan perimeter
(P), maka variabel compactness dihilangkan dari variabel prediktor.
Metode Klasifikasi Terbaik (1/2)
1) Hold-Out Method
Kebaikan metode klasifikasi dengan menggunakan Hold-Out
Method akan disajikan pada Tabel 3.5
Tabel 3.5 Hasil Hold-Out Method
No. Metode Akurasi Presisi Recall
F1
score
1 Decision Tree 0.952381 0.948718 0.968254 0.955556
2 Linear SVC 0.952381 0.948718 0.968254 0.955556
3 Ridge Classifier 0.952381 0.948718 0.968254 0.955556
4 Logistic Regression Multiclass 0.928571 0.932051 0.934921 0.930288
5 Random Forest 0.904762 0.90641 0.904618 0.90251
6 Gaussian Process Classifier 0.904762 0.90641 0.904618 0.90251
7 Naive Bayes 0.880952 0.888095 0.871284 0.871906
8 KNN Classifier 0.880952 0.887218 0.888745 0.882456
Metode Klasifikasi Terbaik (2/2)
2) Cross Validation
Untuk menentukan mana klasifikasi yang terbaik dapat juga
menggunakan nilai cross validation yang akan disajikan pada Tabel 3.6
Tabel 3.6 Hasil Cross Validation
No. Metode
Cross
Validation
1 Ridge Classifier 0.966667
2 Linear SVC 0.952381
3 Logistic Regression Multiclass 0.92381
4 Random Forest 0.904762
5 KNN Classifier 0.904762
6 Gaussian Process Classifier 0.9
7 Naive Bayes 0.895238
8 Decision Tree 0.895238
Hasil Metode Klasifikasi Terbaik
Ridge Classifier, Linear SVC, dan Decision Tree
Gambar 4. Hasil Klasifikasi
Hyperparameter Tuning
param = {
'C': [0.1,0.8,0.9,1,1.1,1.2,1.3,1.4]
}
gridsvc = GridSearchCV(SVC, param_grid=param, scoring='accuracy', cv=10)
gridsvc.fit(X_train, y_train)
gridsvc.best_params_
ANALISIS
DAN
PEMBAHASAN
KESIMPULAN
DAN
SARAN
Kesimpulan
1. Variabel yang dihilangkan adalah compactness karena variabel
tersebut memiliki hubungan dengan area (A) dan perimeter (P)
2. Metode pengklasifikasian terbaik untuk seeds data set adalah
Ridge Classifier, Linear SVC, dan Decision Tree dengan nilai cross
validation yang membedakan. Masing-masing nilai cross
validation untuk ketiga metode adalah 0.966667, 0.952381,
0.895238
3. Hasil klasifikasi pada metode memiliki hasil yang sama dalam
pengklasifikasian jenis gandum, yaitu ada sebanyak 11 observasi
yang tepat diklasifikasikan pada jenis gandum Kama, jenis
gandum Rosa sebanyak 10 observasi, dan untuk jenis gandum
Canadian ada sebanyak 19 observasi. Terdapat 2 observasi
pada jenis gandum Canadian yang salah diklasifikasikan dan
masuk kedalam jenis gandum Kama
Saran
Berdasarkan hasil analisis terdapat hubungan yang tinggi antar
variabel prediktor, sehingga perlu di lakukan feature extraction
daripada menggunakan feature selection. Karna jika menggunakan
feature extraction variabel prediktor tidak dihapus melainkan di
lebur menjadi satu kedalam variabel yang baru, sehingga nilai
akurasi dan presisi dapat meningkat. Salahs satu feature extraction
yang mungkin dapat dilakukan untuk penelitian selanjutnya adalah
dengan Principal Component Analysis (PCA).
Daftar Pustaka
T. Nurmala, Sumber Karbohidrat Utama, Jakarta: Rineka Cipta, 1998.
S. Wallace, "World Wheat Production to Drop 0.9 % in 2010-11," BloombergBusinessWeek, 2010.
B. Blog, "Data Preparation - Pengertian, Alasan dan Langkah-Langkah yang Dilakukan," 17 09 2012. [Online].
Available: http://bow-masbow.blogspot.com/2010/11/data-preparation-pengertian-alasan-dan.html.
R. Agarwal, "Multiclass Classification using Random Forest on Scikit-Learn Library," 2018. [Online]. Available:
https://www.codementor.io/agarrahul01/multiclass-classification-using-random-forest-on-scikit-learn-
library-hkk4lwawu. [Accessed 6 12 2018].
J. Read, B. Pfahringer, G. Holmes and E. Frank, "Classifier Chains for Multi-label Classification," 2009. [Online].
Available: https://scikit-learn.org/stable/modules/multiclass.html. [Accessed 6 12 2018].
s. learn, "Decision Tree Classifier," 2018. [Online]. Available: https://scikit-
learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTre
eClassifier. [Accessed 6 12 2018].
s. learn, "Feature Selection," 2018. [Online]. Available: https://scikit-
learn.org/stable/modules/feature_selection.html. [Accessed 6 12 2018].
s. learn, "Preprocessing Data," 2018. [Online]. Available: https://scikit-
learn.org/stable/modules/preprocessing.html. [Accessed 6 12 2018].
S. Overflow, "sklearn metrics for multiclass classification," 18 9 2017. [Online]. Available:
https://stackoverflow.com/questions/45890328/sklearn-metrics-for-multiclass-classification.
U. M. L. Repository, "seeds data set," 29 09 2012. [Online]. Available:
https://archive.ics.uci.edu/ml/datasets/seeds#.

More Related Content

What's hot

Uji untuk 2 sampel dependen
Uji untuk 2 sampel dependenUji untuk 2 sampel dependen
Uji untuk 2 sampel dependenAngga Mahendra
 
Penyederhanaan Karnaugh Map
Penyederhanaan Karnaugh MapPenyederhanaan Karnaugh Map
Penyederhanaan Karnaugh MapCheria Asyifa
 
Statistika-Uji Hipotesis
Statistika-Uji HipotesisStatistika-Uji Hipotesis
Statistika-Uji HipotesisRhandy Prasetyo
 
Teknik pengambilan sampel
Teknik pengambilan sampelTeknik pengambilan sampel
Teknik pengambilan sampelLana Karyatna
 
Uji Run ( Keacakan )
Uji Run ( Keacakan )Uji Run ( Keacakan )
Uji Run ( Keacakan )Nur Sandy
 
Model Distribusi lag dan distribusi autoregressive
Model Distribusi lag dan distribusi autoregressiveModel Distribusi lag dan distribusi autoregressive
Model Distribusi lag dan distribusi autoregressiveAgung Handoko
 
Beberapa distribusi peluang diskrit (1)
Beberapa distribusi peluang diskrit (1)Beberapa distribusi peluang diskrit (1)
Beberapa distribusi peluang diskrit (1)Raden Maulana
 
Metoda Statistika - Penyajian data
Metoda Statistika - Penyajian dataMetoda Statistika - Penyajian data
Metoda Statistika - Penyajian dataRahma Siska Utari
 
APG Pertemuan 7 : Manova
APG Pertemuan 7 : ManovaAPG Pertemuan 7 : Manova
APG Pertemuan 7 : ManovaRani Nooraeni
 
6. Stack (Struktur Data)
6. Stack (Struktur Data)6. Stack (Struktur Data)
6. Stack (Struktur Data)Kelinci Coklat
 
Stat matematika II (7)
Stat matematika II (7)Stat matematika II (7)
Stat matematika II (7)jayamartha
 
Distribusi probabilitas-diskrit-poisson
Distribusi probabilitas-diskrit-poissonDistribusi probabilitas-diskrit-poisson
Distribusi probabilitas-diskrit-poissonNarwan Ginanjar
 

What's hot (20)

Bab 7 anova
Bab 7 anovaBab 7 anova
Bab 7 anova
 
Pert.12 teori permainan
Pert.12 teori permainanPert.12 teori permainan
Pert.12 teori permainan
 
Statistik & Probabilitas
Statistik & ProbabilitasStatistik & Probabilitas
Statistik & Probabilitas
 
Distribusi Binomial
Distribusi BinomialDistribusi Binomial
Distribusi Binomial
 
Ukuran pemusatan dan penyebaran
Ukuran pemusatan dan penyebaranUkuran pemusatan dan penyebaran
Ukuran pemusatan dan penyebaran
 
Uji untuk 2 sampel dependen
Uji untuk 2 sampel dependenUji untuk 2 sampel dependen
Uji untuk 2 sampel dependen
 
Press dan satistik cp (regresi)
Press dan satistik cp (regresi)Press dan satistik cp (regresi)
Press dan satistik cp (regresi)
 
Penyederhanaan Karnaugh Map
Penyederhanaan Karnaugh MapPenyederhanaan Karnaugh Map
Penyederhanaan Karnaugh Map
 
Statistika-Uji Hipotesis
Statistika-Uji HipotesisStatistika-Uji Hipotesis
Statistika-Uji Hipotesis
 
Teknik pengambilan sampel
Teknik pengambilan sampelTeknik pengambilan sampel
Teknik pengambilan sampel
 
Uji Run ( Keacakan )
Uji Run ( Keacakan )Uji Run ( Keacakan )
Uji Run ( Keacakan )
 
Model Distribusi lag dan distribusi autoregressive
Model Distribusi lag dan distribusi autoregressiveModel Distribusi lag dan distribusi autoregressive
Model Distribusi lag dan distribusi autoregressive
 
Beberapa distribusi peluang diskrit (1)
Beberapa distribusi peluang diskrit (1)Beberapa distribusi peluang diskrit (1)
Beberapa distribusi peluang diskrit (1)
 
Metoda Statistika - Penyajian data
Metoda Statistika - Penyajian dataMetoda Statistika - Penyajian data
Metoda Statistika - Penyajian data
 
APG Pertemuan 7 : Manova
APG Pertemuan 7 : ManovaAPG Pertemuan 7 : Manova
APG Pertemuan 7 : Manova
 
6. Stack (Struktur Data)
6. Stack (Struktur Data)6. Stack (Struktur Data)
6. Stack (Struktur Data)
 
Stat matematika II (7)
Stat matematika II (7)Stat matematika II (7)
Stat matematika II (7)
 
Penyajian data
Penyajian dataPenyajian data
Penyajian data
 
Distribusi probabilitas-diskrit-poisson
Distribusi probabilitas-diskrit-poissonDistribusi probabilitas-diskrit-poisson
Distribusi probabilitas-diskrit-poisson
 
Uji lanjut
Uji lanjutUji lanjut
Uji lanjut
 

Similar to Kebaikan Metode Klasifikasi Multiclass Menggunakan Hold-Out Method dan Cross Validation

04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdfEdizonJambormas
 
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdfEdizonJambormas
 
Laporan Metode Statistikia II
Laporan Metode Statistikia IILaporan Metode Statistikia II
Laporan Metode Statistikia IIHirwanto Iwan
 
4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptx
4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptx4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptx
4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptxAminullah Assagaf
 
Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...
Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...
Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...Aminullah Assagaf
 
Pengendalian Kualitas Statistik #2
Pengendalian Kualitas Statistik #2Pengendalian Kualitas Statistik #2
Pengendalian Kualitas Statistik #2Adhitya Akbar
 
FP DATA MINING A 06211540000082
FP DATA MINING A 06211540000082 FP DATA MINING A 06211540000082
FP DATA MINING A 06211540000082 Muhamad Adryanta
 
Laporan praktikum teori peluang 3
Laporan praktikum teori peluang 3 Laporan praktikum teori peluang 3
Laporan praktikum teori peluang 3 zenardjov
 
Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)
Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)
Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)Siti Julaiha
 
Presentasi progress rabu 22022016
Presentasi progress rabu 22022016Presentasi progress rabu 22022016
Presentasi progress rabu 22022016MohammadYazdiPusada
 
Analisis data sumur dengan sistem clustering menggunakan pearsons r
Analisis data sumur dengan sistem clustering menggunakan pearsons rAnalisis data sumur dengan sistem clustering menggunakan pearsons r
Analisis data sumur dengan sistem clustering menggunakan pearsons rElsonManek
 
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...Arif Rahman
 
Analisa hasil pengujian data ihsg 2009
Analisa hasil pengujian data ihsg 2009Analisa hasil pengujian data ihsg 2009
Analisa hasil pengujian data ihsg 2009Trisno Harefa
 
Laporan biomet sas rak astody
Laporan biomet sas rak astodyLaporan biomet sas rak astody
Laporan biomet sas rak astodyAstody Mandayu
 

Similar to Kebaikan Metode Klasifikasi Multiclass Menggunakan Hold-Out Method dan Cross Validation (20)

Power point statistik anava
Power point statistik anavaPower point statistik anava
Power point statistik anava
 
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
 
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
 
Laporan Metode Statistikia II
Laporan Metode Statistikia IILaporan Metode Statistikia II
Laporan Metode Statistikia II
 
Data Mining
Data MiningData Mining
Data Mining
 
4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptx
4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptx4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptx
4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptx
 
Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...
Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...
Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...
 
Pengendalian Kualitas Statistik #2
Pengendalian Kualitas Statistik #2Pengendalian Kualitas Statistik #2
Pengendalian Kualitas Statistik #2
 
FP DATA MINING A 06211540000082
FP DATA MINING A 06211540000082 FP DATA MINING A 06211540000082
FP DATA MINING A 06211540000082
 
Laporan praktikum teori peluang 3
Laporan praktikum teori peluang 3 Laporan praktikum teori peluang 3
Laporan praktikum teori peluang 3
 
Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)
Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)
Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)
 
Presentasi progress rabu 22022016
Presentasi progress rabu 22022016Presentasi progress rabu 22022016
Presentasi progress rabu 22022016
 
Modul Tutorial Arima
Modul Tutorial ArimaModul Tutorial Arima
Modul Tutorial Arima
 
Analisis data sumur dengan sistem clustering menggunakan pearsons r
Analisis data sumur dengan sistem clustering menggunakan pearsons rAnalisis data sumur dengan sistem clustering menggunakan pearsons r
Analisis data sumur dengan sistem clustering menggunakan pearsons r
 
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
 
peta kendali variabel
peta kendali variabelpeta kendali variabel
peta kendali variabel
 
Stevany
StevanyStevany
Stevany
 
Analisa hasil pengujian data ihsg 2009
Analisa hasil pengujian data ihsg 2009Analisa hasil pengujian data ihsg 2009
Analisa hasil pengujian data ihsg 2009
 
Laporan biomet sas rak astody
Laporan biomet sas rak astodyLaporan biomet sas rak astody
Laporan biomet sas rak astody
 
Dasar dasar pengetahuan
Dasar dasar pengetahuanDasar dasar pengetahuan
Dasar dasar pengetahuan
 

Recently uploaded

WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di SemarangWA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di SemarangKelas Online Pra Nikah Nikah
 
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan KonsultasiJual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasissupi412
 
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasissupi412
 
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...ssupi412
 
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasissupi412
 
5e6a9e119c2fedec04b90d50fcb7700901916.pdf
5e6a9e119c2fedec04b90d50fcb7700901916.pdf5e6a9e119c2fedec04b90d50fcb7700901916.pdf
5e6a9e119c2fedec04b90d50fcb7700901916.pdfFendryGustianVandell
 
PPT usaha Air Minum masak untuk jualan- Umum fix.pptx
PPT usaha Air Minum masak untuk jualan- Umum fix.pptxPPT usaha Air Minum masak untuk jualan- Umum fix.pptx
PPT usaha Air Minum masak untuk jualan- Umum fix.pptxfirbadian97
 
Persyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. KebumenPersyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. KebumenPemdes Wonoyoso
 
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.pptmumtaza6
 

Recently uploaded (11)

Obat Aborsi Medan 082223109953 Klinik Jual Obat Aborsi Di Medan
Obat Aborsi Medan 082223109953 Klinik Jual Obat Aborsi Di MedanObat Aborsi Medan 082223109953 Klinik Jual Obat Aborsi Di Medan
Obat Aborsi Medan 082223109953 Klinik Jual Obat Aborsi Di Medan
 
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
 
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di SemarangWA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
 
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan KonsultasiJual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
 
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
 
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
 
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
 
5e6a9e119c2fedec04b90d50fcb7700901916.pdf
5e6a9e119c2fedec04b90d50fcb7700901916.pdf5e6a9e119c2fedec04b90d50fcb7700901916.pdf
5e6a9e119c2fedec04b90d50fcb7700901916.pdf
 
PPT usaha Air Minum masak untuk jualan- Umum fix.pptx
PPT usaha Air Minum masak untuk jualan- Umum fix.pptxPPT usaha Air Minum masak untuk jualan- Umum fix.pptx
PPT usaha Air Minum masak untuk jualan- Umum fix.pptx
 
Persyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. KebumenPersyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. Kebumen
 
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
 

Kebaikan Metode Klasifikasi Multiclass Menggunakan Hold-Out Method dan Cross Validation

  • 1. KEBAIKAN METODE KLASIFIKASI MULTICLASS MENGGUNAKAN HOLD-OUT METHOD DAN CROSS VALIDATION MUTHIA PANDAN SARI 06211540000122 DATA M INING A| KS 184645
  • 6. METODOLOGI PENELITIAN Sumber Data Variabel Penelitian Struktur Data Langkah Analisis
  • 7. Sumber Data Sumber data pada penelitian ini merupakan data sekunder. Data sekunder yang digunakan adalah Seeds Data Set UCI Machine Learning sebanyak 210 data. Data diambil pada hari Selasa 4 Desember 2018.
  • 8. Variabel Penelitian Variabel independen yang digunakan pada penelitian ini sebanyak 7 variabel dan 1 variabel dependen. Variabel penelitian yang akan digunakan ditampilkan pada Tabel 2.1. Variabel Nama Keterangan X1 Area Numerik X2 Perimeter Numerik X3 Compactness Numerik X4 Length of kernel Numerik X5 Width of kernel Numerik X6 Asymmetry Coefficient Numerik X7 Length of kernel groove Numerik Y Class Kategorik Tabel 2.1 Variabel Penelitian
  • 9. Struktur Data Tabel 2.2 Struktur Data No. area (A) perimet er (P) Compactne ss C=4*pi*A/P ^2 length of kernel width of kernel asymmet ry coefficien t length of kernel groove class 1 1 X1,1 X1,2 X1,3 X1,4 X1,5 X1,6 X1,7 2 2 X2,1 X2,2 X2,3 X2,4 X2,5 X2,6 X2,7 3 3 X3,1 X3,2 X3,3 X3,4 X3,5 X3,6 X3,7 ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ 209 209 X209,1 X209,2 X209,3 X209,4 X209,5 X209,6 X209,7 210 210 X210,1 X210,2 X210,3 X210,4 X210,5 X210,6 X210,7
  • 10. Langkah Analisis 1. Import libraries 2. Fetching the dataset 3. Extracing features dan 0utput 4. Feature Scaling 5. Deteksi outlier 6. Menganalisis statistika deskriptif 7. Membagi data berdasarkan data training dan testing 8. Feature Importance 9. Melakukan klasifikasi dengan berbagai metode 10. Memilih metode klasifikasi terbaik
  • 12. ANALISIS DAN PEMBAHASAN Preprocessing Data Eksplorasi Data Feature Engineering Feature Selection Metode Klasifikasi Terbaik (Hold-Out Method & Cross Validation)
  • 13. Preprocessing Data (1/3) 1) Deteksi dan Mengimputasi Missing Value syntax : data.isnull().any() didapatkan hasil pada Tabel 3.1 Variabel Output area (A) False perimeter (P) False Compactness C=4*pi*A/P^2 False length of kernel False width of kernel False asymmetry coefficient False length of kernel groove False Tabel 3.1 Hasil Output Deteksi Missing Value
  • 14. Preprocessing Data (2/3) 2) Transformasi Data Menggunakan normalisasi data, yang hasilnya akan di sajikan pada Tabel 3.2 Tabel 3.2 Hasil Normalisasi Data No. area (A) perimeter (P) Compactness C=4*pi*A/P^2 length of kernel width of kernel asymmetry coefficient length of kernel groove class 1 0.663193 0.038481 0.871 0.075674 0.10044 0.116085 0.125965 1 2 0.664621 0.039699 0.8811 0.080599 0.109032 0.130193 0.132817 1 3 0.657453 0.040111 0.905 0.078508 0.101278 0.118052 0.134921 1 ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ 209 0.601162 0.038168 0.8521 0.070086 0.588453 0.50306 0.361622 3 210 0.598054 0.036259 0.8684 0.061651 0.314149 0.261853 0.334589 3
  • 15. Preprocessing Data (3/3) 3) Deteksi dan Mengatasi Outlier Gambar 1. Hasil Box-Plot Gambar 2. Hasil Pengujian Outlier
  • 16. Eksplorasi Data (1/2) area (A) perimeter (P) length of kernel width of kernel asymmetry coefficient length of kernel groove count 210 210 210 210 210 210 mean 0.644492 0.037266 0.870999 0.069221 0.579524 0.524116 std 0.045464 0.001711 0.023629 0.006519 0.212518 0.210799 min 0.552308 0.032966 0.8081 0.050529 0 0 25% 0.604459 0.03617 0.8569 0.065028 0.426682 0.377491 50% 0.65053 0.037128 0.87345 0.069304 0.587317 0.523231 75% 0.681539 0.038596 0.887775 0.074206 0.739336 0.684705 max 0.716325 0.041044 0.9183 0.083519 1 1 Tabel 3.3 Statistika Deskriptif
  • 18. Feature Selection (1/3) Gambar 3. Scatterplot Setiap Variabel Pada Gambar 3 dapat dilihat bahwa pada variabel area (A) dan perimeter (P) terdapat hubungan yang berbanding lurus dan memiliki nilai yang cukup tinggi, hal ini ditandai dengan plot yang terbentuk cenderung mengikuti garis linear.
  • 19. Feature Selection (2/3) Gambar 4. Nilai Korelasi Setiap Variabel Berdasarkan Gambar 4 dapat dilihat bahwa beberapa variabel memiliki korelasi diatas 0.9 sehingga perlu dihilangkan variabel yang memiliki nilai korelasi diatas 0.9. Untuk memilih variabel yang dihilangkan menggunakan feature importance.
  • 20. Feature Selection (3/3) Variabel Nilai perimeter (P) 0.320051 area (A) 0.221799 length of kernel groove 0.141619 width of kernel 0.116546 asymmetry coefficient 0.075706 length of kernel 0.067588 Compactness C=4*pi*A/P^2 0.056691 Tabel 3.4 Nilai Feature Importance Batasan jika variabel memiliki nilai feature importance lebih dari 0.05 maka variabel tersebut tidak dihilangkan. Namun dikarenakan nilai compactness merupakan operasi matematika dari area (A) dan perimeter (P), maka variabel compactness dihilangkan dari variabel prediktor.
  • 21. Metode Klasifikasi Terbaik (1/2) 1) Hold-Out Method Kebaikan metode klasifikasi dengan menggunakan Hold-Out Method akan disajikan pada Tabel 3.5 Tabel 3.5 Hasil Hold-Out Method No. Metode Akurasi Presisi Recall F1 score 1 Decision Tree 0.952381 0.948718 0.968254 0.955556 2 Linear SVC 0.952381 0.948718 0.968254 0.955556 3 Ridge Classifier 0.952381 0.948718 0.968254 0.955556 4 Logistic Regression Multiclass 0.928571 0.932051 0.934921 0.930288 5 Random Forest 0.904762 0.90641 0.904618 0.90251 6 Gaussian Process Classifier 0.904762 0.90641 0.904618 0.90251 7 Naive Bayes 0.880952 0.888095 0.871284 0.871906 8 KNN Classifier 0.880952 0.887218 0.888745 0.882456
  • 22. Metode Klasifikasi Terbaik (2/2) 2) Cross Validation Untuk menentukan mana klasifikasi yang terbaik dapat juga menggunakan nilai cross validation yang akan disajikan pada Tabel 3.6 Tabel 3.6 Hasil Cross Validation No. Metode Cross Validation 1 Ridge Classifier 0.966667 2 Linear SVC 0.952381 3 Logistic Regression Multiclass 0.92381 4 Random Forest 0.904762 5 KNN Classifier 0.904762 6 Gaussian Process Classifier 0.9 7 Naive Bayes 0.895238 8 Decision Tree 0.895238
  • 23. Hasil Metode Klasifikasi Terbaik Ridge Classifier, Linear SVC, dan Decision Tree Gambar 4. Hasil Klasifikasi
  • 24. Hyperparameter Tuning param = { 'C': [0.1,0.8,0.9,1,1.1,1.2,1.3,1.4] } gridsvc = GridSearchCV(SVC, param_grid=param, scoring='accuracy', cv=10) gridsvc.fit(X_train, y_train) gridsvc.best_params_
  • 26. Kesimpulan 1. Variabel yang dihilangkan adalah compactness karena variabel tersebut memiliki hubungan dengan area (A) dan perimeter (P) 2. Metode pengklasifikasian terbaik untuk seeds data set adalah Ridge Classifier, Linear SVC, dan Decision Tree dengan nilai cross validation yang membedakan. Masing-masing nilai cross validation untuk ketiga metode adalah 0.966667, 0.952381, 0.895238 3. Hasil klasifikasi pada metode memiliki hasil yang sama dalam pengklasifikasian jenis gandum, yaitu ada sebanyak 11 observasi yang tepat diklasifikasikan pada jenis gandum Kama, jenis gandum Rosa sebanyak 10 observasi, dan untuk jenis gandum Canadian ada sebanyak 19 observasi. Terdapat 2 observasi pada jenis gandum Canadian yang salah diklasifikasikan dan masuk kedalam jenis gandum Kama
  • 27. Saran Berdasarkan hasil analisis terdapat hubungan yang tinggi antar variabel prediktor, sehingga perlu di lakukan feature extraction daripada menggunakan feature selection. Karna jika menggunakan feature extraction variabel prediktor tidak dihapus melainkan di lebur menjadi satu kedalam variabel yang baru, sehingga nilai akurasi dan presisi dapat meningkat. Salahs satu feature extraction yang mungkin dapat dilakukan untuk penelitian selanjutnya adalah dengan Principal Component Analysis (PCA).
  • 28. Daftar Pustaka T. Nurmala, Sumber Karbohidrat Utama, Jakarta: Rineka Cipta, 1998. S. Wallace, "World Wheat Production to Drop 0.9 % in 2010-11," BloombergBusinessWeek, 2010. B. Blog, "Data Preparation - Pengertian, Alasan dan Langkah-Langkah yang Dilakukan," 17 09 2012. [Online]. Available: http://bow-masbow.blogspot.com/2010/11/data-preparation-pengertian-alasan-dan.html. R. Agarwal, "Multiclass Classification using Random Forest on Scikit-Learn Library," 2018. [Online]. Available: https://www.codementor.io/agarrahul01/multiclass-classification-using-random-forest-on-scikit-learn- library-hkk4lwawu. [Accessed 6 12 2018]. J. Read, B. Pfahringer, G. Holmes and E. Frank, "Classifier Chains for Multi-label Classification," 2009. [Online]. Available: https://scikit-learn.org/stable/modules/multiclass.html. [Accessed 6 12 2018]. s. learn, "Decision Tree Classifier," 2018. [Online]. Available: https://scikit- learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTre eClassifier. [Accessed 6 12 2018]. s. learn, "Feature Selection," 2018. [Online]. Available: https://scikit- learn.org/stable/modules/feature_selection.html. [Accessed 6 12 2018]. s. learn, "Preprocessing Data," 2018. [Online]. Available: https://scikit- learn.org/stable/modules/preprocessing.html. [Accessed 6 12 2018]. S. Overflow, "sklearn metrics for multiclass classification," 18 9 2017. [Online]. Available: https://stackoverflow.com/questions/45890328/sklearn-metrics-for-multiclass-classification. U. M. L. Repository, "seeds data set," 29 09 2012. [Online]. Available: https://archive.ics.uci.edu/ml/datasets/seeds#.