1. Topik 4
Konsep Transformasi Data, Ekstraksi Fitur,
dan Seleksi Fitur Dalam Machine Learning
Dr. Sunu Wibirama
Modul Kuliah Kecerdasan Buatan
Kode mata kuliah: UGMx 001001132012
June 13, 2022
2. June 13, 2022
1 Capaian Pembelajaran Mata Kuliah
Topik ini akan memenuhi CPMK 4, yakni mampu mendefinisikan konsep dasar trans-
formasi data dan seleksi fitur (feature selection) untuk machine learning.
Adapun indikator tercapainya CPMK tersebut adalah mampu memahami konsep data
preparation, data cleansing, dan feature selection serta teknik-teknik yang lazim digunakan
dalam machine learning.
2 Cakupan Materi
Cakupan materi dalam topik ini sebagai berikut:
a) Introduction to Data Preparation for Machine Learning: materi ini menjelaskan alasan-
alasan pentingnya melakukan persiapan awal sebelum menggunakan dataset dalam
machine learning. Pada materi ini juga dijelaskan langkah-langkah praktis untuk
mendapatkan data yang akan digunakan pada proses machine learning.
b) Overview of Data Preparation: materi ini menjelaskan teknik-teknik dasar yang akan
digunakan dalam mempersiapkan data, misalnya data cleaning, feature selection, data
transforms, feature engineering, dan dimensionality reduction.
c) Data Cleaning: materi ini menjelaskan konsep-konsep dasar data cleaning, yakni
mengidentifikasi dan mengoreksi kesalahan dalam data. Pada materi ini dijelaskan
konsep untuk mengidentifikasi kolom yang memiliki single value menggunakan pem-
rograman Python. Selain itu, materi ini juga menjelaskan cara-cara mengidentifikasi
outliers dalam data dengan menggunakan metode statistika seperti halnya standard
deviation atau interquartile range.
d) Feature Selection: materi ini menjelaskan teknik-teknik dasar pemilihan fitur. Hal
penting yang perlu diperhatikan dalam proses pemilihan fitur adalah melihat tipe data
pada masukan (input) dan luaran (output) algoritme machine learning. Pada materi
ini juga akan dijelaskan teknik Recursive Feature Elimination (RFE) dan Feature
Importance untuk memilih fitur pada proses machine learning.
e) Data Transforms: materi ini akan menjelaskan teknik-teknik dasar transformasi data,
diantaranya data normalization dan quantile transforms. Data normalization digu-
nakan untuk melakukan normalisasi data pada level individu atau elemen dataset.
Sementara itu, quantile transforms digunakan untuk mengubah distribusi data men-
jadi distribusi normal atau distribusi uniform.
f) Dimensionality Reduction: materi ini akan terbagi menjadi dua bagian, yakni penge-
nalan Principal Component Analysis (PCA) dan implementasi PCA. Pada bagian per-
tama, akan dijelaskan konsep dasar PCA, eigenvalues, dan eigenvector. Pada bagian
kedua, akan dijelaskan langkah-langkah praktis implementasi PCA dan aplikasinya
dengan pemrograman Python.
1