Dokumen tersebut membahas tentang keunggulan metode klasifikasi multikelas menggunakan hold-out method dan cross validation. Metode klasifikasi terbaik untuk dataset biji-bijian adalah ridge classifier, linear SVC, dan decision tree berdasarkan nilai cross validation masing-masing sebesar 0,966667; 0,952381; dan 0,895238.
7. Sumber Data
Sumber data pada penelitian ini merupakan data sekunder.
Data sekunder yang digunakan adalah Seeds Data Set UCI
Machine Learning sebanyak 210 data. Data diambil pada hari
Selasa 4 Desember 2018.
8. Variabel Penelitian
Variabel independen yang digunakan pada penelitian ini
sebanyak 7 variabel dan 1 variabel dependen. Variabel
penelitian yang akan digunakan ditampilkan pada Tabel 2.1.
Variabel Nama Keterangan
X1 Area Numerik
X2 Perimeter Numerik
X3 Compactness Numerik
X4 Length of kernel Numerik
X5 Width of kernel Numerik
X6 Asymmetry Coefficient Numerik
X7 Length of kernel groove Numerik
Y Class Kategorik
Tabel 2.1 Variabel Penelitian
9. Struktur Data
Tabel 2.2 Struktur Data
No.
area
(A)
perimet
er (P)
Compactne
ss
C=4*pi*A/P
^2
length
of
kernel
width
of
kernel
asymmet
ry
coefficien
t
length
of
kernel
groove
class
1 1 X1,1 X1,2 X1,3 X1,4 X1,5 X1,6 X1,7
2 2 X2,1 X2,2 X2,3 X2,4 X2,5 X2,6 X2,7
3 3 X3,1 X3,2 X3,3 X3,4 X3,5 X3,6 X3,7
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
209 209 X209,1 X209,2 X209,3 X209,4 X209,5 X209,6 X209,7
210 210 X210,1 X210,2 X210,3 X210,4 X210,5 X210,6 X210,7
10. Langkah Analisis
1. Import libraries
2. Fetching the dataset
3. Extracing features dan 0utput
4. Feature Scaling
5. Deteksi outlier
6. Menganalisis statistika deskriptif
7. Membagi data berdasarkan data training dan testing
8. Feature Importance
9. Melakukan klasifikasi dengan berbagai metode
10. Memilih metode klasifikasi terbaik
12. ANALISIS DAN PEMBAHASAN
Preprocessing Data
Eksplorasi Data
Feature Engineering
Feature Selection
Metode Klasifikasi Terbaik (Hold-Out Method
& Cross Validation)
13. Preprocessing Data (1/3)
1) Deteksi dan Mengimputasi Missing Value
syntax : data.isnull().any() didapatkan hasil pada Tabel
3.1
Variabel Output
area (A) False
perimeter (P) False
Compactness C=4*pi*A/P^2 False
length of kernel False
width of kernel False
asymmetry coefficient False
length of kernel groove False
Tabel 3.1 Hasil Output Deteksi Missing Value
14. Preprocessing Data (2/3)
2) Transformasi Data
Menggunakan normalisasi data, yang hasilnya akan di
sajikan pada Tabel 3.2
Tabel 3.2 Hasil Normalisasi Data
No. area (A)
perimeter
(P)
Compactness
C=4*pi*A/P^2
length of
kernel
width of
kernel
asymmetry
coefficient
length of
kernel
groove
class
1 0.663193 0.038481 0.871 0.075674 0.10044 0.116085 0.125965 1
2 0.664621 0.039699 0.8811 0.080599 0.109032 0.130193 0.132817 1
3
0.657453 0.040111 0.905 0.078508 0.101278 0.118052 0.134921 1
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
209 0.601162 0.038168 0.8521 0.070086 0.588453 0.50306 0.361622 3
210 0.598054 0.036259 0.8684 0.061651 0.314149 0.261853 0.334589 3
15. Preprocessing Data (3/3)
3) Deteksi dan Mengatasi Outlier
Gambar 1. Hasil Box-Plot
Gambar 2. Hasil Pengujian Outlier
16. Eksplorasi Data (1/2)
area (A)
perimeter
(P)
length of
kernel
width of
kernel
asymmetry
coefficient
length of
kernel
groove
count 210 210 210 210 210 210
mean 0.644492 0.037266 0.870999 0.069221 0.579524 0.524116
std 0.045464 0.001711 0.023629 0.006519 0.212518 0.210799
min 0.552308 0.032966 0.8081 0.050529 0 0
25% 0.604459 0.03617 0.8569 0.065028 0.426682 0.377491
50% 0.65053 0.037128 0.87345 0.069304 0.587317 0.523231
75% 0.681539 0.038596 0.887775 0.074206 0.739336 0.684705
max 0.716325 0.041044 0.9183 0.083519 1 1
Tabel 3.3 Statistika Deskriptif
18. Feature Selection (1/3)
Gambar 3. Scatterplot Setiap Variabel
Pada Gambar 3 dapat
dilihat bahwa pada variabel
area (A) dan perimeter (P)
terdapat hubungan yang
berbanding lurus dan
memiliki nilai yang cukup
tinggi, hal ini ditandai
dengan plot yang terbentuk
cenderung mengikuti garis
linear.
19. Feature Selection (2/3)
Gambar 4. Nilai Korelasi Setiap Variabel
Berdasarkan Gambar
4 dapat dilihat bahwa
beberapa variabel
memiliki korelasi
diatas 0.9 sehingga
perlu dihilangkan
variabel yang memiliki
nilai korelasi diatas
0.9. Untuk memilih
variabel yang
dihilangkan
menggunakan feature
importance.
20. Feature Selection (3/3)
Variabel Nilai
perimeter (P) 0.320051
area (A) 0.221799
length of kernel groove 0.141619
width of kernel 0.116546
asymmetry coefficient 0.075706
length of kernel 0.067588
Compactness C=4*pi*A/P^2 0.056691
Tabel 3.4 Nilai Feature Importance
Batasan jika variabel memiliki nilai feature importance lebih dari 0.05
maka variabel tersebut tidak dihilangkan. Namun dikarenakan nilai
compactness merupakan operasi matematika dari area (A) dan perimeter
(P), maka variabel compactness dihilangkan dari variabel prediktor.
21. Metode Klasifikasi Terbaik (1/2)
1) Hold-Out Method
Kebaikan metode klasifikasi dengan menggunakan Hold-Out
Method akan disajikan pada Tabel 3.5
Tabel 3.5 Hasil Hold-Out Method
No. Metode Akurasi Presisi Recall
F1
score
1 Decision Tree 0.952381 0.948718 0.968254 0.955556
2 Linear SVC 0.952381 0.948718 0.968254 0.955556
3 Ridge Classifier 0.952381 0.948718 0.968254 0.955556
4 Logistic Regression Multiclass 0.928571 0.932051 0.934921 0.930288
5 Random Forest 0.904762 0.90641 0.904618 0.90251
6 Gaussian Process Classifier 0.904762 0.90641 0.904618 0.90251
7 Naive Bayes 0.880952 0.888095 0.871284 0.871906
8 KNN Classifier 0.880952 0.887218 0.888745 0.882456
22. Metode Klasifikasi Terbaik (2/2)
2) Cross Validation
Untuk menentukan mana klasifikasi yang terbaik dapat juga
menggunakan nilai cross validation yang akan disajikan pada Tabel 3.6
Tabel 3.6 Hasil Cross Validation
No. Metode
Cross
Validation
1 Ridge Classifier 0.966667
2 Linear SVC 0.952381
3 Logistic Regression Multiclass 0.92381
4 Random Forest 0.904762
5 KNN Classifier 0.904762
6 Gaussian Process Classifier 0.9
7 Naive Bayes 0.895238
8 Decision Tree 0.895238
23. Hasil Metode Klasifikasi Terbaik
Ridge Classifier, Linear SVC, dan Decision Tree
Gambar 4. Hasil Klasifikasi
26. Kesimpulan
1. Variabel yang dihilangkan adalah compactness karena variabel
tersebut memiliki hubungan dengan area (A) dan perimeter (P)
2. Metode pengklasifikasian terbaik untuk seeds data set adalah
Ridge Classifier, Linear SVC, dan Decision Tree dengan nilai cross
validation yang membedakan. Masing-masing nilai cross
validation untuk ketiga metode adalah 0.966667, 0.952381,
0.895238
3. Hasil klasifikasi pada metode memiliki hasil yang sama dalam
pengklasifikasian jenis gandum, yaitu ada sebanyak 11 observasi
yang tepat diklasifikasikan pada jenis gandum Kama, jenis
gandum Rosa sebanyak 10 observasi, dan untuk jenis gandum
Canadian ada sebanyak 19 observasi. Terdapat 2 observasi
pada jenis gandum Canadian yang salah diklasifikasikan dan
masuk kedalam jenis gandum Kama
27. Saran
Berdasarkan hasil analisis terdapat hubungan yang tinggi antar
variabel prediktor, sehingga perlu di lakukan feature extraction
daripada menggunakan feature selection. Karna jika menggunakan
feature extraction variabel prediktor tidak dihapus melainkan di
lebur menjadi satu kedalam variabel yang baru, sehingga nilai
akurasi dan presisi dapat meningkat. Salahs satu feature extraction
yang mungkin dapat dilakukan untuk penelitian selanjutnya adalah
dengan Principal Component Analysis (PCA).
28. Daftar Pustaka
T. Nurmala, Sumber Karbohidrat Utama, Jakarta: Rineka Cipta, 1998.
S. Wallace, "World Wheat Production to Drop 0.9 % in 2010-11," BloombergBusinessWeek, 2010.
B. Blog, "Data Preparation - Pengertian, Alasan dan Langkah-Langkah yang Dilakukan," 17 09 2012. [Online].
Available: http://bow-masbow.blogspot.com/2010/11/data-preparation-pengertian-alasan-dan.html.
R. Agarwal, "Multiclass Classification using Random Forest on Scikit-Learn Library," 2018. [Online]. Available:
https://www.codementor.io/agarrahul01/multiclass-classification-using-random-forest-on-scikit-learn-
library-hkk4lwawu. [Accessed 6 12 2018].
J. Read, B. Pfahringer, G. Holmes and E. Frank, "Classifier Chains for Multi-label Classification," 2009. [Online].
Available: https://scikit-learn.org/stable/modules/multiclass.html. [Accessed 6 12 2018].
s. learn, "Decision Tree Classifier," 2018. [Online]. Available: https://scikit-
learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTre
eClassifier. [Accessed 6 12 2018].
s. learn, "Feature Selection," 2018. [Online]. Available: https://scikit-
learn.org/stable/modules/feature_selection.html. [Accessed 6 12 2018].
s. learn, "Preprocessing Data," 2018. [Online]. Available: https://scikit-
learn.org/stable/modules/preprocessing.html. [Accessed 6 12 2018].
S. Overflow, "sklearn metrics for multiclass classification," 18 9 2017. [Online]. Available:
https://stackoverflow.com/questions/45890328/sklearn-metrics-for-multiclass-classification.
U. M. L. Repository, "seeds data set," 29 09 2012. [Online]. Available:
https://archive.ics.uci.edu/ml/datasets/seeds#.