SlideShare a Scribd company logo
1 of 28
Download to read offline
Pendahuluan
Unit kompetensi ini berhubungan dengan pengetahuan, keterampilan, dan sikap kerja yang dibutuhkan
dalam mengkonstruksikan data untuk proyek data science.
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu menjelaskan data preparation mengenai
feature engineering, yaitu Analisis Data Eksplorasi (EDA), dan Principal Component Analysis (PCA)
menggunakan data science dan menerapkannya untuk suatu permasalahan data science.
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data Science adalah
• Menganalisis data untuk mementukan representasi data awal
• Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam bentuk tertulis
• Menentukan fitur mana yang paling penting dengan informasi yang saling mendukung satu sama
lain.
• Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian permasalahan dunia
nyata
• Melakukan analisis hasil pelabelan data
• Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality categoricals) dengan
pendekatan encoding yang tepat
• Melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama (Principal
Component Analysis)
Latar belakang
Unit kompetensi ini dinilai berdasarkan tingkat kemampuan peserta dalam memahami visualisasi dari
teknologi AI. Adapun penilaian dilakukan dengan menggabungkan serangkaian metode untuk menilai
kemampuan dan penerapan pengetahuan pendukung penting. Penilaian dilakukan dengan mengacu
kepada Kriteria Unjuk Kerja (KUK) dan dilaksanakn di Tempat Uji Kompetensi (TUK), ruang simulasi atau
workshop dengan cara:
1.1. Lisan
1.2. Wawancara
1.3. Tes tertulis
1.4. Metode lain yang relevan
Tujuan Pembelajaran
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu memahami
pembelajaran mesin, penambangan data, dan data analytics mengandalkan dan dapat
mengambil manfaat dari rekayasa fitur yang efektif
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data
Science adalah
A. Menganalisis data untuk mementukan representasi data awal
B. Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam
bentuk tertulis
C. Menentukan fitur mana yang paling penting dengan informasi yang saling
mendukung satu sama lain.
D. Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian
permasalahan dunia nyata
E. Melakukan analisis hasil pelabelan data
F. Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality
categoricals) dengan pendekatan encoding yang tepat
G. Melakukan dimensi reduksi dengan pendekatan metode analisis komponen
utama (Principal Component Analysis)
Deskripsi Pelatihan
Materi ini berisi penjelasan Secara umum, semua pembelajaran mesin, penambangan
data, dan data analytics mengandalkan dan dapat mengambil manfaat dari rekayasa fitur
yang efektif. Tugas khusus meliputi klasifikasi, regresi, pengelompokan, deteksi outlier,
pola/aturan, pemodelan prediktif, pembedaan dan karakterisasi kelas data, penemuan
konsep, pembelajaran jarak jauh, estimasi probabilitas, konstruksi ontologi/taksonomi,
pencarian informasi, intelijen bisnis, dan sebagainya
Kompetensi Dasar
• Mampu menganalisis data untuk mementukan representasi data awal
• Mampu menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam
bentuk tertulis
• Mampu menentukan fitur mana yang paling penting dengan informasi yang saling
mendukung satu sama lain.
• Mampu merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian
permasalahan dunia nyata
• Mampu melakukan analisis hasil pelabelan data
• Mampu melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality
categoricals) dengan pendekatan encoding yang tepat
• Mampu melakukan dimensi reduksi dengan pendekatan metode analisis komponen
utama (Principal Component Analysis)
Indikator Hasil Belajar
Dapat melakukan analisis data, menjelaskan tahapan transformasi data, menentukan
fitur mana yang paling penting, merekayasa fitur, melakukan analisis hasil pelabelan
data, melakukan kodefikasi kategori dengan kardinalitas tinggi dan melakukan dimensi
reduksi dengan pendekatan metode analisis komponen utama
INFORMASI PELATIHAN
Akademi Thematic Academy
Mitra Pelatihan Kementerian Komunikasi dan Informatika
Tema Pelatihan Data Scientist: Artificial Intelligence untuk Dosen dan
Instruktur
Sertifikasi • Certificate of Attainment;
• Sertifikat Kompetensi Associate Data Scientist
Persyaratan Sarana Peserta/spesifikasi device
Tools/media ajar yang akan digunakan
Memiliki laptop/komputer dengan spesifikasi minimal :
• RAM minimal 2 GB (disarankan 4 GB)
• Laptop dengan 32/64-bit processor
• Laptop dengan Operating System Windows 7, 8,
10, MacOS X atau Linux
• Laptop dengan konektivitas WiFi dan memiliki
Webcam
• Akses Internet Dedicated 126 kbps per peserta per
perangkat
• Memiliki aplikasi Zoom
• Memiliki akun Google Colab
Aplikasi yang akan di gunakan selamat pelatihan • Spyder
• Jupyter notebook
Tim Penyusun Dr. Rer. Nat. I Made Wiryana (Universitas Gunadarma)
Dr. Miftah Andriansyah (Universitas Gunadarma)
Dr. Astie Darmayantie (Universitas Gunadarma)
INFORMASI PEMBELAJARAN
Unit Kompetensi Materi
pembelajaran
Kegiatan
pembelajaran
Durasi
Pelatihan
Rasio
Praktek :
Teori
Sumber
pembelajaran
Dapat melakukan analisis
data, menjelaskan
tahapan transformasi
data, menentukan fitur
mana yang paling
penting, merekayasa
fitur, melakukan analisis
hasil pelabelan data,
melakukan kodefikasi
kategori dengan
kardinalitas tinggi dan
melakukan dimensi
reduksi dengan
pendekatan metode
analisis komponen utama
Data Science Daring / Online Live Class
2 JP
LMS 4 JP @
45 menit
70:30 LMS
Materi Pokok
Data Science
Sub Materi Pokok
• Prolog
• Feature vs Feature Engineering
• Fase Feature Engineering
o Feature Understanding
o Feature transformation
o Feature generation
o Feature selection
o Feature analysis and evaluation
• Case Study
MATERI PELATIHAN
1. Prolog
Mengapa Rekayasa Fitur Penting?
Ilmuwan data dan insinyur pembelajaran mesin sering mengumpulkan data untuk
memecahkan masalah kehidupan nyata. Insinyur ini memiliki pekerjaan unik dalam
merancang pipa dan arsitektur yang dirancang untuk menangani dan mengubah data
mentah menjadi sesuatu yang dapat digunakan oleh seluruh perusahaan, terutama
ilmuwan data dan insinyur pembelajaran mesin.
Gambar 1. Hasil Survey
Sebuah survei yang dilakukan oleh para ilmuwan data di lapangan mengungkapkan
bahwa lebih dari 80% waktu dari data scientist dihabiskan untuk mengumpulkan,
membersihkan, dan mengorganisir data. Kurang dari 20% sisa waktu mereka dihabiskan
untuk membangun algoritma atau model.
Gambar 2. Hasil Survey
Sebuah survei yang sama juga dilakukan untuk mengetahui bagian pekerjaan mana yang
dirasa kurang menyenangkan, hasilnya 77% responden mengatakan fase
mengumpulkan, membersihkan, dan mengorganisir data. adalah fase yang dirasa kurang
menyenangkan.
“A stellar data scientist knows that preparing data is not only so important that it takes up
most of their time, they also know that it is an arduous process and can be unenjoyable. Far
too often, we take for granted clean data given to us by machine learning competitions and
academic sources. More than 90% of data, the data that is interesting, and the most useful,
exists in this raw format.”
Dikutip dari: Sinan Ozdemir. “Feature Engineering Made Easy.”
Gambar 3. Data Cleaning
Menyiapkan data bisa menjadi pekerjaan yang tidak jelas batasannya. Persiapan
memperhitungkan pengambilan data, penyimpanan data, pembersihan data, dan
sebagainya. Seperti yang terlihat pada bagan yang ditunjukkan sebelumnya, sebagian
kecil, tetapi masih sebagian besar waktu ilmuwan data dihabiskan untuk membersihkan
dan mengatur data. Dalam proses inilah tugas terbesar dari seorang data scientist.
Berikut simulasi perbedaan tahapan data cleaning dan data organizing
Transformasi pembersihan sampel log server yang mencakup data dan penjelasan teks
tentang apa yang terjadi di server. Perhatikan bahwa saat membersihkan, &
karakter, yang merupakan karakter Unicode, diubah menjadi ampersand (&) yang lebih
mudah dibaca. Fase pembersihan meninggalkan dokumen dalam format yang sama
persis seperti sebelumnya.
Gambar 4. Data Organizing
• Transformasi pengorganisasian terbawah jauh lebih radikal. Itu mengubah dokumen
mentah menjadi struktur baris/kolom, di mana setiap baris mewakili satu tindakan yang
diambil oleh server dan kolom mewakili atribut dari tindakan server. Dalam hal ini, dua
atribut adalah Tanggal dan Teks.
• Baik pembersihan maupun pengorganisasian termasuk dalam kategori ilmu data yang lebih
besar, yang itu rekayasa fitur. Atau feature engineering
• Kutipan Dari: Sinan Ozdemir. “Rekayasa Fitur Menjadi Mudah.” Buku Apel.
2. Feature vs Feature Engineering
Dalam konteks machine learning, data mining, dan data analytics, sebuah fitur (feature)
adalah sebuah atribut atau variabel yang digunakan untuk merepresentasikan atau
mendeskripsikan sebuah aspek dari obyek tertentu. Sebagai contoh :
Gambar 5. Contoh Feature
Macam-macam Fitur:
• Fitur informatif adalah dasar untuk analisis data. Mereka berguna untuk
• menggambarkan objek yang mendasari, dan untuk membedakan dan
mengkarakterisasi
• kelompok objek yang berbeda (eksplisit atau laten). Mereka juga penting untuk
memproduksi
• model prediksi yang akurat dan mudah dijelaskan, dan menghasilkan hasil yang
baik dalam
• berbagai tugas analitik data. "Fitur," "variabel," dan "atribut" sering
• digunakan sebagai sinonim.
• Untuk aplikasi tertentu dan titik waktu tertentu, sering kali himpunan tetap
• fitur secara implisit dipilih untuk menggambarkan semua objek data yang
mendasarinya; setiap objek
• mengambil nilai tertentu untuk masing-masing fitur tersebut. Ini menghasilkan
representasi objek data berbasis vektor fitur.
• Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan
numerik. Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda,
• karena perbedaan struktural dalam domain mereka.
Feature
• Fitur yang informatif merupakan fundamental dasar dari analisis data.
• Fitur menggambar menggambarkan objek yang mendasari, dan untuk
membedakan dan mengkarakterisasi kelompok objek yang berbeda (eksplisit
atau laten).
• Fitur sangat penting untuk menghasilkan model prediksi yang akurat dan mudah
dijelaskan, dan menghasilkan hasil yang baik dalam berbagai tugas analitik data.
Gambar 6. Komponen Fitur
2.1 Mengerti hal mendasar tentang feature:
Gambar 7. Atribut, Data Observasi
a. Setiap baris data, atau dikenal sebagai observasi, mewakili satu contoh/contoh
masalah. Jika data kami termasuk dalam domain perdagangan hari di pasar
saham, pengamatan mungkin mewakili perubahan satu jam di pasar dan harga
secara keseluruhan.
b. Dalam contoh berikut untuk kasus network security Setiap baris berisi data
dateTime, protocol, urgentm malicious.
Gambar 8. Atribut, Data Observasi
c. Kita akan menganggap data sebagai table.
d. Anda juga dapat melihat contoh spesifik di mana matriks data hanya memiliki
satu kolom/atribut. Misalnya, jika kita sedang membangun sebuah perangkat
lunak yang mampu mengambil satu gambar dari sebuah ruangan dan
menampilkan apakah ada manusia di ruangan itu atau tidak. Data untuk input
dapat direpresentasikan sebagai matriks satu kolom di mana kolom tunggal
hanyalah URL ke foto sebuah ruangan dan tidak ada yang lain.
e. Misalnya, mengingat tabel tabel berikut yang hanya memiliki satu kolom
berjudul, URL Foto. Nilai tabel adalah URL (ini palsu dan tidak mengarah ke
mana pun dan murni misalnya) foto yang relevan
f. Data yang diinput ke sistem mungkin hanya satu kolom, seperti dalam kasus
ini. Dalam kemampuan kami untuk membuat sistem yang dapat menganalisis
gambar, masukannya mungkin hanya berupa URL ke gambar yang dimaksud.
Kehendak kita sebagai ilmuwan data untuk merekayasa fitur dari URL.
g. Sebagai ilmuwan data, kita harus siap untuk mencerna dan menangani data
yang mungkin besar, kecil, lebar, sempit (dalam hal atribut), jarang dalam
penyelesaian (mungkin ada nilai yang hilang), dan siap untuk memanfaatkan
data ini untuk tujuan pembelajaran mesin. Sekarang saat yang tepat untuk
berbicara lebih banyak tentang itu. Algoritme pembelajaran mesin termasuk
dalam kelas algoritme yang ditentukan oleh kemampuannya untuk
mengekstrak dan mengeksploitasi pola dalam data untuk menyelesaikan tugas
berdasarkan data pelatihan historis.
2.3 Kesimpulan Feature:
• Untuk aplikasi tertentu dan dengan domain waktu tertentu, seringkali
sekumpulan fitur tetap dipilih secara implisit untuk menggambarkan semua objek
data yang mendasarinya; setiap objek mengambil nilai tertentu untuk masing-
masing fitur tersebut.
• Hal ini menghasilkan representasi berbasis vektor fitur dari objek data.
• Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan
numerik.
• Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda, karena
perbedaan struktural dalam domainnya.
2.4 Beberapa jenis fitur, antara lain
• Kategori
Fitur berjenis kategori biasanya merupakan sebuah himpunan yang berisi nilai
diskrit. Sebagai contoh warna merupakan sebuah fitur berjenis kategori yang
dapat memiliki nilai {hitam, biru, kuning, cokelat, merah} Contoh lainnya adalah
nilai binary, yang mana fitur tersebut hanya dapat memiliki salah satu dari dua
nilai yaitu 0 atau 1.
• Ordinal,
Contoh fitur ordinal adalah Degree dimana berisi {Bachelorm Master, PhD}
dimana ketiga value tersebut di urutkan sebagai berikut Bachelor < Master <
PhD
• Numerik.
Fitur jenis ini berisi himpunan nilai numerik. Jenis fitur ini juga sering disebut
sebagai fitur quantitative atau continuous. Sebagai contoh: sebuah fitur umur
adalah sebuah fitur berjenis numerik dimana merupakan sebuah himpunan nilai
integer antara 0 dan 150.
• Rasio.
Pemahaman Anda mengenai jenis fitur yang ada sangat penting karena setiap jenis fitur
tertentu memerlukan pendekatan analisis yang berbeda, karena perbedaan
struktural dalam domainnya.
• Dalam banyak aplikasi, fitur kategori direpresentasikan sebagai nilai numerik.
• Untuk itu, kita perlu berhati-hati dalam merepresentasikan nilai tersebut, karena
jika tidak hasil analisis yang diperlukan dalam kasus-kasus seperti urutan yang
tersirat oleh nilai numerik biasanya tidak berarti jika pendekatan analisis yang
digunakan tidak sesuai.
• Dalam bahasa R variabel kategori diperlakukan sebagai faktor.
• Pendekatan ”one-hot encoding" sering digunakan untuk mengubah fitur dengan
jenis ini.
Kegunaan (the usefulness / the importance ) dari sebuah fitur dapat diukur dengan
signifikan pengaruh fitur tersebur kepada hasil analitik data yang dihasilkan. Misalnya,
dalam klasifikasi ini sebagian besar dalam hal peningkatan akurasi klasifikasi.
Kemudahan pemahaman dan interpretasi dari fitur juga dapat digunakan sebagai salah
satu tolak ukur yang digunakan.
Gambar 9. Feature
2.5 Feature Engineering
“Feature engineering is the process of transforming data into features that better
represent the underlying problem, resulting in improved machine learning performance.”
Excerpt From: Sinan Ozdemir. “Feature Engineering Made Easy.”
Gambar 10. Feature Engineering
• Feature Understanding
Memahami data dan domain permasalahan dengan informasi kualitatif dan
kuantitatif yang dimiliki
• Feature Improvement
Membersihkan data, mengisi nilai yang kosong, mentransformasikan data yang
tidak tersturktur, dan normalisasi data
• Feature Transformation
Pembentukan fitur baru dari fitur yang ada; ini sering dicapai dengan
menggunakan pemetaan matematika.
• Feature Generation / Construction
Menghasilkan fitur baru yang seringkali tidak hasil transformasi fitur. Misalnya,
Anda tidak mengambil piksel dalam gambar sebagai fitur, melainkan
mengekstraksi hasil pemrosesan sebuah operasi misalnya hasil konvolusi untuk
region tertentu yang menghasilkan fitur baru untuk gambar. Selain itu, kita juga
dapat mengatakan bahwa fitur didefinisikan dari pola/teksture salah satu hasil
dari feature generation. Banyak cara khusus domain untuk mendefinisikan fitur
juga termasuk dalam kategori pembuatan fitur. Kadang-kadang ekstraksi fitur
istilah digunakan untuk generasi fitur.
• Feature Selection
adalah tentang memilih satu set kecil fitur dari yang sangat kumpulan fitur yang
besar. Ukuran kumpulan fitur yang dikurangi membuatnya layak secara
komputasi untuk menggunakan algoritma tertentu. Pemilihan fitur juga dapat
menyebabkan peningkatan kualitas pada hasil dari algoritma tersebut.
• Feature Analysis
adalah tentang konsep, metode, dan ukuran untuk mengevaluasi kegunaan fitur
dan set fitur. Feature analysis juga sering dimasukkan sebagai salah bagian dari
seleksi fitur.
• General Automatic Feature
Metodologi rekayasa fitur otomatis umum adalah tentang pendekatan generik
untuk secara otomatis menghasilkan sejumlah besar fitur dan memilih subset
yang efektif dari fitur yang dihasilkan.
3. Feature Understanding
3.1 Tipe Data : Structured vs Unstructured
• Structured data. Data jenis ini biasanya berbentuk tabular, dimana baris
merepresentasikan data observasi dan kolom merepresentasikan atribut atau fitur.
• Unstructured data. Data yang ada sebagai entitas yang mengalir bebas dan tidak
mengikuti hierarki organisasi standar seperti tabularitas. Seringkali, data tidak
terstruktur tampak bagi kami sebagai data blob, atau sebagai satu karakteristik
(kolom).
3.2 Tipe Data: Qualitative vs Quantitative
• Qualitative. Data yang memiliki sifat kategorikal. Mendeskripsikan kulitas dari
sebuah obyek tertentu.
• Quantitative. Data yang umumnya bersifat numerik. Mendeskripsikan kuantitas
dari sebuah obyek tertentu.
3.3 Exploratory Data Analysis
Analisis Data Eksplorasi (EDA) adalah pendekatan/filosofi untuk analisis data yang
menggunakan berbagai teknik (kebanyakan grafis) untuk:
• memaksimalkan wawasan ke dalam kumpulan data;
• mengungkap struktur yang mendasarinya;
• ekstrak variabel penting;
• mendeteksi outlier dan anomali;
• menguji asumsi yang mendasarinya;
• mengembangkan model pelit; dan
• menentukan pengaturan faktor yang optimal.
4. Analisis Data Eksplorasi (EDA)
EDA merupakan salah satu dari tigak teknik pendekatan analisis data yang ada. Ketiga
pendekatan tersebut mempunyai kemiripan, semuanya dimulai dari teori atau
permasalahan umum dan diakhiri dengan suatu kesimpulan. Perbedaannya terletak pada
urutan dan fokus dari langkah-langkah perantara.
Analisis klasik, urutannya:
Masalah → Data → Model → Analisis → Kesimpulan
EDA, urutannya:
Masalah → Data → Analisis → Model → Kesimpulan
Bayesian, urutannya:
Masalah → Data → Model → Distribusi Prior/bersyarat → Analisis → Kesimpulan
Gambar 11. ADE
Analisis Data Eksplorasi mengacu pada proses kritis dalam melakukan penyelidikan awal
pada data untuk menemukan pola, menemukan anomali, menguji hipotesis, dan
memeriksa asumsi dengan bantuan statistik ringkasan dan representasi grafis.
Analisis Data Eksplorafit (ADE) merupakan suatu alat menganalisis yang berguna untuk
melihat pola suatu data segingga dapat mengetahui berapa informasi awal terkait dengan
data tersebut, yang artinya akan berguna untuk melakukan pengujian pada data tersebut
dengan model statistik inferensial (Kurniawan, Sohibien, and Rahani 2019).
Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi
sangat penting sebelum melakukan feature engineering dan modeling karena dalam
tahap ini kita harus memahami datanya terlebih dahulu. Dalam artikel ini penulis
menggunakan dataset house price dari Kaggle.
• Proses Data Science:
• Data Preparation
• Data Cleansing
• Exploratory Data Analysis
• Feature Engineering
• Modeling
• Evaluation
• Deployment
Exploratory Data Analysis memungkinkan analyst memahami isi data yang digunakan,
mulai dari distribusi, frekuensi, korelasi dan lainnya. Dalam prakteknya, curiousity
sangat penting dalam proses ini, pemahaman konteks data juga diperhatikan, karena
akan menjawab masalah masalah dasar. Pada umumnya EDA dilakukan dengan beberapa
cara:
• Univariat Analysis — analisis deskriptif dengan satu variabel.
• Bivariat Analysis — analisis relasi dengan dua variabel yang biasanya dengan
target variabel.
• Multivariat Analysis — analisis yang menggunakan lebih dari atau sama dengan
tiga variabel (Chandra 2019).
Sebagian besar teknik EDA bersifat grafis dengan beberapa teknik kuantitatif. Alasan
ketergantungan yang tinggi pada grafik adalah bahwa pada dasarnya peran utama EDA
adalah untuk mengeksplorasi data secara terbuka, dan grafik memberikan para
gambaran yang lebih jelas mengenai informasi dari data sehingga dapat memberikan
beberapa wawasan baru, yang seringkali tidak terduga, tentang data. Terutama dalam
memahami kombinasi dengan kemampuan pengenalan pola data yang kita miliki.
5. Principal Component Analysis (PCA)
PCA merupakan metode pengurangan dimensi menggunakan teknik statistik non-
parametrik, tidak terawasi, yang sering digunakan untuk mengurangi dimensi kumpulan
data besar, dengan mengubah kumpulan variabel besar menjadi lebih kecil yang masih
berisi sebagian besar informasi dalam kumpulan besar. Metode PCA Ini telah banyak
digunakan di bidang pengenalan pola dan pemrosesan sinyal dan merupakan metode
statistik di bawah judul analisis faktor yang luas.
Tujuan PCA adalah untuk :
1. Mengekstrak informasi terpenting dari tabel data;
2. kompres ukuran kumpulan data dengan hanya menyimpan informasi penting
ini;
3. menyederhanakan deskripsi kumpulan data; dan
4. Menganalisis struktur observasi dan variabelnya.
5. Kompres data, dengan mengurangi jumlah dimensi, tanpa banyak kehilangan
informasi.
6. Teknik ini digunakan dalam kompresi gambar Untuk menganalisis data
dengan Analisis Komponen Utama kita harus teliti dalam statistik dan aljabar
matriks (Mishra et al. 2017).
PCA adalah alat yang sangat fleksibel dan memungkinkan analisis kumpulan data yang
mungkin berisi, misalnya, multikolinearitas, nilai yang hilang, data kategoris, dan
pengukuran yang tidak tepat. Tujuannya adalah untuk mengekstrak informasi penting
dari data dan untuk mengekspresikan informasi ini sebagai satu set indeks ringkasan
yang disebut komponen utama.
Secara statistik, PCA menemukan garis, bidang, dan bidang hiper dalam ruang dimensi-K
yang mendekati data sebaik mungkin dalam arti kuadrat terkecil. Garis atau bidang yang
merupakan aproksimasi kuadrat terkecil dari sekumpulan titik data membuat varians
koordinat pada garis atau bidang sebesar mungkin.
Gambar 12. PCA
Pada Gambar 12 menunjukan, PCA membuat visualisasi data yang meminimalkan varians
residual dalam arti kuadrat terkecil dan memaksimalkan varians koordinat proyeksi.
5.1 Cara kerja PCA
Pertimbangkan matriks X dengan N baris (alias "pengamatan") dan K kolom (alias
"variabel"). Untuk matriks ini, kami membangun ruang variabel dengan dimensi
sebanyak variabel yang ada (lihat gambar di bawah). Setiap variabel mewakili satu
sumbu koordinat. Untuk setiap variabel, panjangnya telah distandarisasi menurut
kriteria penskalaan, biasanya dengan penskalaan ke varians unit. Anda dapat
menemukan detail lebih lanjut tentang penskalaan ke varians unit di posting blog
sebelumnya.
Principal Component Analysis (PCA) adalah sebuah metode yang sering digunakan untuk
pengurangan dimensi dalam pembelajaran mesin. Dimensi tinggi berarti bahwa dataset
memiliki sejumlah besar fitur.
Komponen utama pertama
Setelah pemusatan rata-rata dan penskalaan ke varians unit, kumpulan data siap untuk
perhitungan indeks ringkasan pertama, komponen utama pertama (PC1). Komponen ini
adalah garis dalam ruang variabel K-dimensi yang paling mendekati data dalam arti
kuadrat terkecil. Garis ini melewati titik rata-rata. Setiap pengamatan (titik kuning)
sekarang dapat diproyeksikan ke garis ini untuk mendapatkan nilai koordinat di
sepanjang garis PC. Nilai koordinat baru ini juga dikenal sebagai skor.
Gambar 13. PC1
Pada gambar 13, menjelaskan Komponen utama pertama (PC1) adalah garis yang paling
sesuai untuk bentuk gerombolan titik. Ini mewakili arah varians maksimum dalam data.
Setiap pengamatan (titik kuning) dapat diproyeksikan ke garis ini untuk mendapatkan
nilai koordinat di sepanjang garis PC. Nilai ini dikenal sebagai skor.
Komponen utama kedua
Biasanya, satu indeks ringkasan atau komponen utama tidak cukup untuk memodelkan
variasi sistematis dari kumpulan data. Dengan demikian, indeks ringkasan kedua –
komponen utama kedua (PC2) – dihitung. PC kedua juga diwakili oleh garis dalam ruang
variabel K-dimensi, yang ortogonal terhadap PC pertama. Garis ini juga melewati titik
rata-rata, dan meningkatkan aproksimasi data-X sebanyak mungkin.
Gambar 14. PC2
Pada gambar 14, menunjukan Komponen utama kedua (PC2) diorientasikan sedemikian
rupa sehingga mencerminkan sumber variasi terbesar kedua dalam data sambil
ortogonal ke PC pertama. PC2 juga melewati titik rata-rata.
Dua komponen utama menentukan bidang model
Ketika dua komponen utama telah diturunkan, mereka bersama-sama mendefinisikan
tempat, jendela ke dalam ruang variabel K-dimensi. Dengan memproyeksikan semua
pengamatan ke sub-ruang dimensi rendah dan memplot hasilnya, dimungkinkan untuk
memvisualisasikan struktur kumpulan data yang diselidiki. Nilai koordinat dari
pengamatan pada bidang ini disebut skor, dan karenanya plot dari konfigurasi yang
diproyeksikan seperti itu dikenal sebagai plot skor.
Gambar 15. PC1 dan PC2
Pada gambar 15, menunjukan Dua PC membentuk pesawat. Bidang ini adalah jendela ke
ruang multidimensi, yang dapat divisualisasikan secara grafis. Setiap pengamatan dapat
diproyeksikan ke bidang ini, memberikan skor untuk masing-masing.
Kelebihan PCA
• Model juga menjadi lebih efisien karena set fitur yang dikurangi meningkatkan
kecepatan pembelajaran dan mengurangi biaya komputasi dengan menghapus
fitur yang berlebihan.
• PCA mengidentifikasi daftar sumbu utama (principal axes) untuk
menggambarkan kumpulan data yang mendasarinya sebelum memeringkatnya
sesuai dengan jumlah varians yang ditangkap oleh masing-masing sumbu.
• PCA adalah algoritma pembelajaran tanpa pengawasan karena arah komponen ini
dihitung murni dari set fitur penjelas tanpa referensi ke variabel respons.
• Normalisasikan data
PCA digunakan untuk mengidentifikasi komponen dengan varians maksimum,
dan kontribusi setiap variabel untuk komponen didasarkan pada besarnya
varians. Ini adalah praktik terbaik untuk menormalkan data sebelum melakukan
PCA karena data yang tidak diskalakan dengan unit pengukuran yang berbeda
dapat mendistorsi perbandingan relatif varians di seluruh fitur.
• Membuat matriks kovarians untuk dekomposisi Eigen
Cara yang berguna untuk mendapatkan semua kemungkinan hubungan antara
semua dimensi yang berbeda adalah dengan menghitung kovarians di antara
mereka semua dan menempatkannya dalam matriks kovarians yang mewakili
hubungan ini dalam data. Memahami persentase kumulatif varians yang
ditangkap oleh setiap komponen utama merupakan bagian integral dari
pengurangan set fitur.
Apakah PCA merupakan teknik yang memadai?
• Jika objective dari analisa data adalah membangun kombinasi linear yang tidak
saling berkorelasi maka keputusan apakah PCA cukup baik digunakan atau tidak
tergantung pada apakah hasil dari PCA ini dapat diinterpretasikan atau tidak. Bila
hasil dari PCA tidak dapat diinterpretasikan, maka penggunakan PCA tid k d ti d b
ik dihi d i tidak ada artinya dan sebaiknya dihindari.
• Jika objective dari analisa data adalah untuk mengurangi jumlah variable
(principle component) yang merupakan kombinasi linear dari variable-variable
asli maka jumlah variable asli, maka jumlah principle component harus kurang
dari jumlah variable asli. Dalam kasus seperti ini, PCA hanya boleh dilakukan bila
data dapat direpresentasikan dalam beberapa buah principle component tanpa
menghilangkan informasi secara substansial (without a substantial loss of
information).
Tugas Dan Proyek Pelatihan
Silahkan mengerjakan Quiz Modul 10 pada LMS Kominfo.
Link Referensi Modul Pertama
1. Ozdemir, Sinan Susarla, Divya - Feature engineering made easy identify unique features from your
dataset in order to build powerful machine learning systems (2018, Packt Publishing)
2. Dong, Guozhu, Liu, H. - Feature Engineering For Machine Learning and Data Analytics
3. Chandra, Andreas. 2019. Memahami Data Dengan Exploratory Data Analysis.
https://medium.com/data-folks-indonesia/memahami-data-dengan-exploratory-data-analysis-
a53b230cce84.
4. Kurniawan, Robert, Gama Putra Danu Sohibien, and Rini Rahani. 2019. Cara Mudah Belajar Statistik
Analisis Data & Eksplorasi. 1st Editio. Kencana.
https://books.google.co.id/books?hl=en&lr=&id=zFgCEAAAQBAJ&oi=fnd&pg=PP1&dq=Analisis+Data
+Eksplorasi+(EDA)+pdf&ots=9X620ivw_N&sig=YC4P5-
X9awyHkfQ3UUntOv0oTcU&redir_esc=y#v=onepage&q&f=false.
5. Mishra, Sidharth Prasad et al. 2017. “Multivariate Statistical Data Analysis- Principal Component
Analysis (PCA).” International Journal of Livestock Research 7(5): 60–78.
6. https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15
7. https://www.sartorius.com/en/knowledge/science-snippets/what-is-principal-component-analysis-
pca-and-how-it-is-used-507186
Link Pertanyaan Modul Petama
Bahan Tayang
Power Point
Link room Pelatihan dan Jadwal live sesi bersama instruktur
Zoom
Penilaian
Komposisi penilaian Tugas Data Science : Nilai 100
Target Penyelesaian Modul Pertama
1 hari / sampai 6 JP
10 feature engineering-univ-gunadarma

More Related Content

What's hot

Pembuatan uml pada toko belanja online
Pembuatan uml pada toko belanja onlinePembuatan uml pada toko belanja online
Pembuatan uml pada toko belanja onlineandiseprianto
 
Perancangan database penjualan indomaret
Perancangan database penjualan indomaretPerancangan database penjualan indomaret
Perancangan database penjualan indomaretRut Kristina
 
Algoritma Apriori
Algoritma AprioriAlgoritma Apriori
Algoritma Aprioridedidarwis
 
Mata Kuliah Basis Data
Mata Kuliah Basis DataMata Kuliah Basis Data
Mata Kuliah Basis DataMr. Nugraha
 
Arsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data WarehouseArsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data Warehousededidarwis
 
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-175 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17ArdianDwiPraba
 
Data dan informasi power point
Data dan informasi power pointData dan informasi power point
Data dan informasi power pointDeanfer99
 
Analisis sistem-informasi
Analisis sistem-informasiAnalisis sistem-informasi
Analisis sistem-informasiryanprasetya
 
Analisis Kebutuhan Sistem Informasi bagi Organisasi
Analisis Kebutuhan Sistem Informasi bagi OrganisasiAnalisis Kebutuhan Sistem Informasi bagi Organisasi
Analisis Kebutuhan Sistem Informasi bagi Organisasidhibah
 
Perancangan dan Pembahasan Sistem Rumah Sakit
Perancangan dan Pembahasan Sistem Rumah SakitPerancangan dan Pembahasan Sistem Rumah Sakit
Perancangan dan Pembahasan Sistem Rumah SakitAmbar Ayu Susilowati
 
Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)dedidarwis
 
Analisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
Analisis Penerapan Sistem Informasi pada PT GO-JEK IndonesiaAnalisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
Analisis Penerapan Sistem Informasi pada PT GO-JEK IndonesiaMaitsa Anggraini
 
Java membuat form data mahasiswa
Java   membuat form data mahasiswaJava   membuat form data mahasiswa
Java membuat form data mahasiswahermawanawang
 
9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarmaArdianDwiPraba
 
Langkah - Langkah Perencanaan Sistem
Langkah - Langkah Perencanaan SistemLangkah - Langkah Perencanaan Sistem
Langkah - Langkah Perencanaan SistemRetrina Deskara
 
Pertemuan 7 camera
Pertemuan 7 cameraPertemuan 7 camera
Pertemuan 7 cameraheriakj
 

What's hot (20)

Pembuatan uml pada toko belanja online
Pembuatan uml pada toko belanja onlinePembuatan uml pada toko belanja online
Pembuatan uml pada toko belanja online
 
Erp pertemuan-1
Erp pertemuan-1Erp pertemuan-1
Erp pertemuan-1
 
Bab 8 teori
Bab 8 teoriBab 8 teori
Bab 8 teori
 
Perancangan database penjualan indomaret
Perancangan database penjualan indomaretPerancangan database penjualan indomaret
Perancangan database penjualan indomaret
 
Algoritma Apriori
Algoritma AprioriAlgoritma Apriori
Algoritma Apriori
 
Mata Kuliah Basis Data
Mata Kuliah Basis DataMata Kuliah Basis Data
Mata Kuliah Basis Data
 
Arsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data WarehouseArsitektur dan Infrastruktur Data Warehouse
Arsitektur dan Infrastruktur Data Warehouse
 
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-175 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17
 
Data dan informasi power point
Data dan informasi power pointData dan informasi power point
Data dan informasi power point
 
Analisis sistem-informasi
Analisis sistem-informasiAnalisis sistem-informasi
Analisis sistem-informasi
 
Analisis Kebutuhan Sistem Informasi bagi Organisasi
Analisis Kebutuhan Sistem Informasi bagi OrganisasiAnalisis Kebutuhan Sistem Informasi bagi Organisasi
Analisis Kebutuhan Sistem Informasi bagi Organisasi
 
1 modul 1
1 modul 11 modul 1
1 modul 1
 
Perancangan dan Pembahasan Sistem Rumah Sakit
Perancangan dan Pembahasan Sistem Rumah SakitPerancangan dan Pembahasan Sistem Rumah Sakit
Perancangan dan Pembahasan Sistem Rumah Sakit
 
Kecerdasan bisnis
Kecerdasan bisnisKecerdasan bisnis
Kecerdasan bisnis
 
Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)
 
Analisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
Analisis Penerapan Sistem Informasi pada PT GO-JEK IndonesiaAnalisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
Analisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
 
Java membuat form data mahasiswa
Java   membuat form data mahasiswaJava   membuat form data mahasiswa
Java membuat form data mahasiswa
 
9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma
 
Langkah - Langkah Perencanaan Sistem
Langkah - Langkah Perencanaan SistemLangkah - Langkah Perencanaan Sistem
Langkah - Langkah Perencanaan Sistem
 
Pertemuan 7 camera
Pertemuan 7 cameraPertemuan 7 camera
Pertemuan 7 camera
 

Similar to 10 feature engineering-univ-gunadarma

Data Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdfData Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdfHendroGunawan8
 
MODUL DATA MINING
MODUL DATA MININGMODUL DATA MINING
MODUL DATA MININGNanzalXIV
 
Analisis data merupakan salah satu langk
Analisis data merupakan salah satu langkAnalisis data merupakan salah satu langk
Analisis data merupakan salah satu langkerwinbaruadi90
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfRinnaRachmatika2
 
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...Suhaili Hanafi
 
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTERPERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTERSitiOlis
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian dataKacung Abdullah
 
educational research
educational researcheducational research
educational researchharjunode
 
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxHerwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxSuraClips
 
Analisis data kualitatif
Analisis data kualitatifAnalisis data kualitatif
Analisis data kualitatifwmkfirdaus
 
MateriDSS-SKP.ppt
MateriDSS-SKP.pptMateriDSS-SKP.ppt
MateriDSS-SKP.pptpurwantoid1
 
Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1Fariszal Nova
 

Similar to 10 feature engineering-univ-gunadarma (20)

Data Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdfData Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdf
 
MODUL DATA MINING
MODUL DATA MININGMODUL DATA MINING
MODUL DATA MINING
 
Analisis data merupakan salah satu langk
Analisis data merupakan salah satu langkAnalisis data merupakan salah satu langk
Analisis data merupakan salah satu langk
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
 
10
1010
10
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
 
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
 
Arsitektur dan model data mining
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data mining
 
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTERPERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
 
PERTEMUAN 9DPB.pptx
PERTEMUAN 9DPB.pptxPERTEMUAN 9DPB.pptx
PERTEMUAN 9DPB.pptx
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian data
 
educational research
educational researcheducational research
educational research
 
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxHerwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
 
Login.hotspot.bsi
Login.hotspot.bsiLogin.hotspot.bsi
Login.hotspot.bsi
 
Pertemuan 1
Pertemuan 1Pertemuan 1
Pertemuan 1
 
Analisis data kualitatif
Analisis data kualitatifAnalisis data kualitatif
Analisis data kualitatif
 
MateriDSS-SKP.ppt
MateriDSS-SKP.pptMateriDSS-SKP.ppt
MateriDSS-SKP.ppt
 
Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1
 
BAB_5_Data_Mining.ppt
BAB_5_Data_Mining.pptBAB_5_Data_Mining.ppt
BAB_5_Data_Mining.ppt
 
Pertemuan 1 Sistem Basis Data.pptx
Pertemuan 1 Sistem Basis Data.pptxPertemuan 1 Sistem Basis Data.pptx
Pertemuan 1 Sistem Basis Data.pptx
 

More from ArdianDwiPraba

16.modul melakukan deployment model (final) v1 1
16.modul melakukan deployment model (final) v1 116.modul melakukan deployment model (final) v1 1
16.modul melakukan deployment model (final) v1 1ArdianDwiPraba
 
15. modul model evaluasi v 0.6
15. modul model evaluasi v 0.615. modul model evaluasi v 0.6
15. modul model evaluasi v 0.6ArdianDwiPraba
 
14. modul ta dts2021 model ann 14 juli 2021-v2
14. modul ta dts2021   model ann 14 juli 2021-v214. modul ta dts2021   model ann 14 juli 2021-v2
14. modul ta dts2021 model ann 14 juli 2021-v2ArdianDwiPraba
 
13. modul ta dts2021 clustering
13. modul ta dts2021 clustering13. modul ta dts2021 clustering
13. modul ta dts2021 clusteringArdianDwiPraba
 
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
 
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v27. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2ArdianDwiPraba
 
6 data-understanding-v2
6 data-understanding-v26 data-understanding-v2
6 data-understanding-v2ArdianDwiPraba
 
2 modul 2 - ta dts2021
2 modul 2 - ta dts20212 modul 2 - ta dts2021
2 modul 2 - ta dts2021ArdianDwiPraba
 
4. tools proyek data science dts ta v.2
4. tools proyek data science dts ta v.24. tools proyek data science dts ta v.2
4. tools proyek data science dts ta v.2ArdianDwiPraba
 

More from ArdianDwiPraba (11)

16.modul melakukan deployment model (final) v1 1
16.modul melakukan deployment model (final) v1 116.modul melakukan deployment model (final) v1 1
16.modul melakukan deployment model (final) v1 1
 
15. modul model evaluasi v 0.6
15. modul model evaluasi v 0.615. modul model evaluasi v 0.6
15. modul model evaluasi v 0.6
 
14. modul ta dts2021 model ann 14 juli 2021-v2
14. modul ta dts2021   model ann 14 juli 2021-v214. modul ta dts2021   model ann 14 juli 2021-v2
14. modul ta dts2021 model ann 14 juli 2021-v2
 
13. modul ta dts2021 clustering
13. modul ta dts2021 clustering13. modul ta dts2021 clustering
13. modul ta dts2021 clustering
 
12 regresi
12 regresi12 regresi
12 regresi
 
11 ta dts2021-11-v2
11 ta dts2021-11-v211 ta dts2021-11-v2
11 ta dts2021-11-v2
 
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
 
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v27. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
 
6 data-understanding-v2
6 data-understanding-v26 data-understanding-v2
6 data-understanding-v2
 
2 modul 2 - ta dts2021
2 modul 2 - ta dts20212 modul 2 - ta dts2021
2 modul 2 - ta dts2021
 
4. tools proyek data science dts ta v.2
4. tools proyek data science dts ta v.24. tools proyek data science dts ta v.2
4. tools proyek data science dts ta v.2
 

Recently uploaded

LAPORAN KASUS HB demam tifoid dr syarifuddin rauf
LAPORAN KASUS HB demam tifoid dr syarifuddin raufLAPORAN KASUS HB demam tifoid dr syarifuddin rauf
LAPORAN KASUS HB demam tifoid dr syarifuddin raufalmahdaly02
 
05. PPT Pelayanan Kefarmasian Penggunanan Obat Bimbingan.pptx
05. PPT Pelayanan Kefarmasian Penggunanan Obat Bimbingan.pptx05. PPT Pelayanan Kefarmasian Penggunanan Obat Bimbingan.pptx
05. PPT Pelayanan Kefarmasian Penggunanan Obat Bimbingan.pptxssuser1f6caf1
 
PERHITUNGAN_DAN_KATEGORI_STATUS_GIZI.ppt
PERHITUNGAN_DAN_KATEGORI_STATUS_GIZI.pptPERHITUNGAN_DAN_KATEGORI_STATUS_GIZI.ppt
PERHITUNGAN_DAN_KATEGORI_STATUS_GIZI.pptika291990
 
2 Adaptasi Sel dan Jejas Sel.pptx Ilmu Dasar Kep
2 Adaptasi Sel dan Jejas Sel.pptx Ilmu Dasar Kep2 Adaptasi Sel dan Jejas Sel.pptx Ilmu Dasar Kep
2 Adaptasi Sel dan Jejas Sel.pptx Ilmu Dasar KepHaslianiBaharuddin
 
Update 2023 Tentang Sepsis Dan Syok Pada Pasien Dewasa
Update 2023 Tentang Sepsis Dan Syok Pada Pasien DewasaUpdate 2023 Tentang Sepsis Dan Syok Pada Pasien Dewasa
Update 2023 Tentang Sepsis Dan Syok Pada Pasien DewasaErdinataKusuma1
 
3. HEACTING LASERASI.ppt pada persalinan
3. HEACTING LASERASI.ppt pada persalinan3. HEACTING LASERASI.ppt pada persalinan
3. HEACTING LASERASI.ppt pada persalinanDwiNormaR
 
2. Kebijakan ILP di Posyandu-1234567.pdf
2. Kebijakan ILP di Posyandu-1234567.pdf2. Kebijakan ILP di Posyandu-1234567.pdf
2. Kebijakan ILP di Posyandu-1234567.pdfMeboix
 
Pelajaran Distosia Bahu pada persalinann
Pelajaran Distosia Bahu pada persalinannPelajaran Distosia Bahu pada persalinann
Pelajaran Distosia Bahu pada persalinannandyyusrizal2
 
anatomi fisiologi sistem penginderaan.ppt
anatomi fisiologi sistem penginderaan.pptanatomi fisiologi sistem penginderaan.ppt
anatomi fisiologi sistem penginderaan.pptRoniAlfaqih2
 
TUMBUH KEMBANG KELUARGAaaaaaaaaaaaa.pptx
TUMBUH KEMBANG KELUARGAaaaaaaaaaaaa.pptxTUMBUH KEMBANG KELUARGAaaaaaaaaaaaa.pptx
TUMBUH KEMBANG KELUARGAaaaaaaaaaaaa.pptxTriNurmiyati
 
ILMU PENYAKIT GIGI DAN MULUT PEMERIKSAAN SUBJEKTIF.pptx
ILMU PENYAKIT GIGI DAN MULUT PEMERIKSAAN SUBJEKTIF.pptxILMU PENYAKIT GIGI DAN MULUT PEMERIKSAAN SUBJEKTIF.pptx
ILMU PENYAKIT GIGI DAN MULUT PEMERIKSAAN SUBJEKTIF.pptxfania35
 
414325562-Ppt- Keperawatan GawatDarurat Trauma-Abdomen.pptx
414325562-Ppt- Keperawatan GawatDarurat Trauma-Abdomen.pptx414325562-Ppt- Keperawatan GawatDarurat Trauma-Abdomen.pptx
414325562-Ppt- Keperawatan GawatDarurat Trauma-Abdomen.pptxrachmatpawelloi
 
2.8.2.a Bukti Pemantauan Kegiatan Evaluasi UKME.docx
2.8.2.a Bukti Pemantauan Kegiatan Evaluasi UKME.docx2.8.2.a Bukti Pemantauan Kegiatan Evaluasi UKME.docx
2.8.2.a Bukti Pemantauan Kegiatan Evaluasi UKME.docxpuskesmasseigeringin
 
Laporan kasus restorasi kelas 2 komposit.pdf
Laporan kasus restorasi kelas 2 komposit.pdfLaporan kasus restorasi kelas 2 komposit.pdf
Laporan kasus restorasi kelas 2 komposit.pdfHilalSunu
 
SEDIAAN EMULSI : DEFINISI, TIPE EMULSI, JENIS EMULGATOR DAN CARA PEMBUATAN
SEDIAAN EMULSI : DEFINISI, TIPE EMULSI, JENIS EMULGATOR DAN CARA PEMBUATANSEDIAAN EMULSI : DEFINISI, TIPE EMULSI, JENIS EMULGATOR DAN CARA PEMBUATAN
SEDIAAN EMULSI : DEFINISI, TIPE EMULSI, JENIS EMULGATOR DAN CARA PEMBUATANYayahKodariyah
 
PPT KONTRASEPSI KB HORMONAL DAN NON HORMONAL
PPT KONTRASEPSI KB HORMONAL DAN NON HORMONALPPT KONTRASEPSI KB HORMONAL DAN NON HORMONAL
PPT KONTRASEPSI KB HORMONAL DAN NON HORMONALMayangWulan3
 
Toksikologi obat dan macam-macam obat yang toksik dan berbahaya.ppt
Toksikologi obat dan macam-macam obat yang toksik dan berbahaya.pptToksikologi obat dan macam-macam obat yang toksik dan berbahaya.ppt
Toksikologi obat dan macam-macam obat yang toksik dan berbahaya.pptRoniAlfaqih2
 
SOSIALISASI MATERI DEMAM BERDARAH DENGUE.ppt
SOSIALISASI MATERI DEMAM BERDARAH DENGUE.pptSOSIALISASI MATERI DEMAM BERDARAH DENGUE.ppt
SOSIALISASI MATERI DEMAM BERDARAH DENGUE.pptDwiBhaktiPertiwi1
 
MATERI TENTANG STUNTING BAGI REMAJA (Materi sosialisasi).ppt
MATERI TENTANG STUNTING BAGI REMAJA (Materi sosialisasi).pptMATERI TENTANG STUNTING BAGI REMAJA (Materi sosialisasi).ppt
MATERI TENTANG STUNTING BAGI REMAJA (Materi sosialisasi).pptbambang62741
 
1 Konsep Patologi dan Patofisologi.pptx Ilmu Dasar Keperawatan
1 Konsep Patologi dan Patofisologi.pptx Ilmu Dasar Keperawatan1 Konsep Patologi dan Patofisologi.pptx Ilmu Dasar Keperawatan
1 Konsep Patologi dan Patofisologi.pptx Ilmu Dasar KeperawatanHaslianiBaharuddin
 

Recently uploaded (20)

LAPORAN KASUS HB demam tifoid dr syarifuddin rauf
LAPORAN KASUS HB demam tifoid dr syarifuddin raufLAPORAN KASUS HB demam tifoid dr syarifuddin rauf
LAPORAN KASUS HB demam tifoid dr syarifuddin rauf
 
05. PPT Pelayanan Kefarmasian Penggunanan Obat Bimbingan.pptx
05. PPT Pelayanan Kefarmasian Penggunanan Obat Bimbingan.pptx05. PPT Pelayanan Kefarmasian Penggunanan Obat Bimbingan.pptx
05. PPT Pelayanan Kefarmasian Penggunanan Obat Bimbingan.pptx
 
PERHITUNGAN_DAN_KATEGORI_STATUS_GIZI.ppt
PERHITUNGAN_DAN_KATEGORI_STATUS_GIZI.pptPERHITUNGAN_DAN_KATEGORI_STATUS_GIZI.ppt
PERHITUNGAN_DAN_KATEGORI_STATUS_GIZI.ppt
 
2 Adaptasi Sel dan Jejas Sel.pptx Ilmu Dasar Kep
2 Adaptasi Sel dan Jejas Sel.pptx Ilmu Dasar Kep2 Adaptasi Sel dan Jejas Sel.pptx Ilmu Dasar Kep
2 Adaptasi Sel dan Jejas Sel.pptx Ilmu Dasar Kep
 
Update 2023 Tentang Sepsis Dan Syok Pada Pasien Dewasa
Update 2023 Tentang Sepsis Dan Syok Pada Pasien DewasaUpdate 2023 Tentang Sepsis Dan Syok Pada Pasien Dewasa
Update 2023 Tentang Sepsis Dan Syok Pada Pasien Dewasa
 
3. HEACTING LASERASI.ppt pada persalinan
3. HEACTING LASERASI.ppt pada persalinan3. HEACTING LASERASI.ppt pada persalinan
3. HEACTING LASERASI.ppt pada persalinan
 
2. Kebijakan ILP di Posyandu-1234567.pdf
2. Kebijakan ILP di Posyandu-1234567.pdf2. Kebijakan ILP di Posyandu-1234567.pdf
2. Kebijakan ILP di Posyandu-1234567.pdf
 
Pelajaran Distosia Bahu pada persalinann
Pelajaran Distosia Bahu pada persalinannPelajaran Distosia Bahu pada persalinann
Pelajaran Distosia Bahu pada persalinann
 
anatomi fisiologi sistem penginderaan.ppt
anatomi fisiologi sistem penginderaan.pptanatomi fisiologi sistem penginderaan.ppt
anatomi fisiologi sistem penginderaan.ppt
 
TUMBUH KEMBANG KELUARGAaaaaaaaaaaaa.pptx
TUMBUH KEMBANG KELUARGAaaaaaaaaaaaa.pptxTUMBUH KEMBANG KELUARGAaaaaaaaaaaaa.pptx
TUMBUH KEMBANG KELUARGAaaaaaaaaaaaa.pptx
 
ILMU PENYAKIT GIGI DAN MULUT PEMERIKSAAN SUBJEKTIF.pptx
ILMU PENYAKIT GIGI DAN MULUT PEMERIKSAAN SUBJEKTIF.pptxILMU PENYAKIT GIGI DAN MULUT PEMERIKSAAN SUBJEKTIF.pptx
ILMU PENYAKIT GIGI DAN MULUT PEMERIKSAAN SUBJEKTIF.pptx
 
414325562-Ppt- Keperawatan GawatDarurat Trauma-Abdomen.pptx
414325562-Ppt- Keperawatan GawatDarurat Trauma-Abdomen.pptx414325562-Ppt- Keperawatan GawatDarurat Trauma-Abdomen.pptx
414325562-Ppt- Keperawatan GawatDarurat Trauma-Abdomen.pptx
 
2.8.2.a Bukti Pemantauan Kegiatan Evaluasi UKME.docx
2.8.2.a Bukti Pemantauan Kegiatan Evaluasi UKME.docx2.8.2.a Bukti Pemantauan Kegiatan Evaluasi UKME.docx
2.8.2.a Bukti Pemantauan Kegiatan Evaluasi UKME.docx
 
Laporan kasus restorasi kelas 2 komposit.pdf
Laporan kasus restorasi kelas 2 komposit.pdfLaporan kasus restorasi kelas 2 komposit.pdf
Laporan kasus restorasi kelas 2 komposit.pdf
 
SEDIAAN EMULSI : DEFINISI, TIPE EMULSI, JENIS EMULGATOR DAN CARA PEMBUATAN
SEDIAAN EMULSI : DEFINISI, TIPE EMULSI, JENIS EMULGATOR DAN CARA PEMBUATANSEDIAAN EMULSI : DEFINISI, TIPE EMULSI, JENIS EMULGATOR DAN CARA PEMBUATAN
SEDIAAN EMULSI : DEFINISI, TIPE EMULSI, JENIS EMULGATOR DAN CARA PEMBUATAN
 
PPT KONTRASEPSI KB HORMONAL DAN NON HORMONAL
PPT KONTRASEPSI KB HORMONAL DAN NON HORMONALPPT KONTRASEPSI KB HORMONAL DAN NON HORMONAL
PPT KONTRASEPSI KB HORMONAL DAN NON HORMONAL
 
Toksikologi obat dan macam-macam obat yang toksik dan berbahaya.ppt
Toksikologi obat dan macam-macam obat yang toksik dan berbahaya.pptToksikologi obat dan macam-macam obat yang toksik dan berbahaya.ppt
Toksikologi obat dan macam-macam obat yang toksik dan berbahaya.ppt
 
SOSIALISASI MATERI DEMAM BERDARAH DENGUE.ppt
SOSIALISASI MATERI DEMAM BERDARAH DENGUE.pptSOSIALISASI MATERI DEMAM BERDARAH DENGUE.ppt
SOSIALISASI MATERI DEMAM BERDARAH DENGUE.ppt
 
MATERI TENTANG STUNTING BAGI REMAJA (Materi sosialisasi).ppt
MATERI TENTANG STUNTING BAGI REMAJA (Materi sosialisasi).pptMATERI TENTANG STUNTING BAGI REMAJA (Materi sosialisasi).ppt
MATERI TENTANG STUNTING BAGI REMAJA (Materi sosialisasi).ppt
 
1 Konsep Patologi dan Patofisologi.pptx Ilmu Dasar Keperawatan
1 Konsep Patologi dan Patofisologi.pptx Ilmu Dasar Keperawatan1 Konsep Patologi dan Patofisologi.pptx Ilmu Dasar Keperawatan
1 Konsep Patologi dan Patofisologi.pptx Ilmu Dasar Keperawatan
 

10 feature engineering-univ-gunadarma

  • 1. Pendahuluan Unit kompetensi ini berhubungan dengan pengetahuan, keterampilan, dan sikap kerja yang dibutuhkan dalam mengkonstruksikan data untuk proyek data science. A. Tujuan Umum Setelah mempelajari modul ini peserta latih diharapkan mampu menjelaskan data preparation mengenai feature engineering, yaitu Analisis Data Eksplorasi (EDA), dan Principal Component Analysis (PCA) menggunakan data science dan menerapkannya untuk suatu permasalahan data science. B. Tujuan Khusus Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data Science adalah • Menganalisis data untuk mementukan representasi data awal • Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam bentuk tertulis • Menentukan fitur mana yang paling penting dengan informasi yang saling mendukung satu sama lain. • Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian permasalahan dunia nyata • Melakukan analisis hasil pelabelan data • Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality categoricals) dengan pendekatan encoding yang tepat • Melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama (Principal Component Analysis) Latar belakang Unit kompetensi ini dinilai berdasarkan tingkat kemampuan peserta dalam memahami visualisasi dari teknologi AI. Adapun penilaian dilakukan dengan menggabungkan serangkaian metode untuk menilai kemampuan dan penerapan pengetahuan pendukung penting. Penilaian dilakukan dengan mengacu kepada Kriteria Unjuk Kerja (KUK) dan dilaksanakn di Tempat Uji Kompetensi (TUK), ruang simulasi atau workshop dengan cara: 1.1. Lisan 1.2. Wawancara 1.3. Tes tertulis 1.4. Metode lain yang relevan
  • 2. Tujuan Pembelajaran A. Tujuan Umum Setelah mempelajari modul ini peserta latih diharapkan mampu memahami pembelajaran mesin, penambangan data, dan data analytics mengandalkan dan dapat mengambil manfaat dari rekayasa fitur yang efektif B. Tujuan Khusus Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data Science adalah A. Menganalisis data untuk mementukan representasi data awal B. Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam bentuk tertulis C. Menentukan fitur mana yang paling penting dengan informasi yang saling mendukung satu sama lain. D. Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian permasalahan dunia nyata E. Melakukan analisis hasil pelabelan data F. Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality categoricals) dengan pendekatan encoding yang tepat G. Melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama (Principal Component Analysis) Deskripsi Pelatihan Materi ini berisi penjelasan Secara umum, semua pembelajaran mesin, penambangan data, dan data analytics mengandalkan dan dapat mengambil manfaat dari rekayasa fitur yang efektif. Tugas khusus meliputi klasifikasi, regresi, pengelompokan, deteksi outlier, pola/aturan, pemodelan prediktif, pembedaan dan karakterisasi kelas data, penemuan konsep, pembelajaran jarak jauh, estimasi probabilitas, konstruksi ontologi/taksonomi, pencarian informasi, intelijen bisnis, dan sebagainya Kompetensi Dasar • Mampu menganalisis data untuk mementukan representasi data awal
  • 3. • Mampu menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam bentuk tertulis • Mampu menentukan fitur mana yang paling penting dengan informasi yang saling mendukung satu sama lain. • Mampu merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian permasalahan dunia nyata • Mampu melakukan analisis hasil pelabelan data • Mampu melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality categoricals) dengan pendekatan encoding yang tepat • Mampu melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama (Principal Component Analysis) Indikator Hasil Belajar Dapat melakukan analisis data, menjelaskan tahapan transformasi data, menentukan fitur mana yang paling penting, merekayasa fitur, melakukan analisis hasil pelabelan data, melakukan kodefikasi kategori dengan kardinalitas tinggi dan melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama
  • 4. INFORMASI PELATIHAN Akademi Thematic Academy Mitra Pelatihan Kementerian Komunikasi dan Informatika Tema Pelatihan Data Scientist: Artificial Intelligence untuk Dosen dan Instruktur Sertifikasi • Certificate of Attainment; • Sertifikat Kompetensi Associate Data Scientist Persyaratan Sarana Peserta/spesifikasi device Tools/media ajar yang akan digunakan Memiliki laptop/komputer dengan spesifikasi minimal : • RAM minimal 2 GB (disarankan 4 GB) • Laptop dengan 32/64-bit processor • Laptop dengan Operating System Windows 7, 8, 10, MacOS X atau Linux • Laptop dengan konektivitas WiFi dan memiliki Webcam • Akses Internet Dedicated 126 kbps per peserta per perangkat • Memiliki aplikasi Zoom • Memiliki akun Google Colab Aplikasi yang akan di gunakan selamat pelatihan • Spyder • Jupyter notebook Tim Penyusun Dr. Rer. Nat. I Made Wiryana (Universitas Gunadarma) Dr. Miftah Andriansyah (Universitas Gunadarma) Dr. Astie Darmayantie (Universitas Gunadarma)
  • 5. INFORMASI PEMBELAJARAN Unit Kompetensi Materi pembelajaran Kegiatan pembelajaran Durasi Pelatihan Rasio Praktek : Teori Sumber pembelajaran Dapat melakukan analisis data, menjelaskan tahapan transformasi data, menentukan fitur mana yang paling penting, merekayasa fitur, melakukan analisis hasil pelabelan data, melakukan kodefikasi kategori dengan kardinalitas tinggi dan melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama Data Science Daring / Online Live Class 2 JP LMS 4 JP @ 45 menit 70:30 LMS Materi Pokok Data Science Sub Materi Pokok • Prolog • Feature vs Feature Engineering • Fase Feature Engineering o Feature Understanding o Feature transformation
  • 6. o Feature generation o Feature selection o Feature analysis and evaluation • Case Study
  • 7. MATERI PELATIHAN 1. Prolog Mengapa Rekayasa Fitur Penting? Ilmuwan data dan insinyur pembelajaran mesin sering mengumpulkan data untuk memecahkan masalah kehidupan nyata. Insinyur ini memiliki pekerjaan unik dalam merancang pipa dan arsitektur yang dirancang untuk menangani dan mengubah data mentah menjadi sesuatu yang dapat digunakan oleh seluruh perusahaan, terutama ilmuwan data dan insinyur pembelajaran mesin. Gambar 1. Hasil Survey Sebuah survei yang dilakukan oleh para ilmuwan data di lapangan mengungkapkan bahwa lebih dari 80% waktu dari data scientist dihabiskan untuk mengumpulkan, membersihkan, dan mengorganisir data. Kurang dari 20% sisa waktu mereka dihabiskan untuk membangun algoritma atau model.
  • 8. Gambar 2. Hasil Survey Sebuah survei yang sama juga dilakukan untuk mengetahui bagian pekerjaan mana yang dirasa kurang menyenangkan, hasilnya 77% responden mengatakan fase mengumpulkan, membersihkan, dan mengorganisir data. adalah fase yang dirasa kurang menyenangkan. “A stellar data scientist knows that preparing data is not only so important that it takes up most of their time, they also know that it is an arduous process and can be unenjoyable. Far too often, we take for granted clean data given to us by machine learning competitions and academic sources. More than 90% of data, the data that is interesting, and the most useful, exists in this raw format.” Dikutip dari: Sinan Ozdemir. “Feature Engineering Made Easy.”
  • 9. Gambar 3. Data Cleaning Menyiapkan data bisa menjadi pekerjaan yang tidak jelas batasannya. Persiapan memperhitungkan pengambilan data, penyimpanan data, pembersihan data, dan sebagainya. Seperti yang terlihat pada bagan yang ditunjukkan sebelumnya, sebagian kecil, tetapi masih sebagian besar waktu ilmuwan data dihabiskan untuk membersihkan dan mengatur data. Dalam proses inilah tugas terbesar dari seorang data scientist. Berikut simulasi perbedaan tahapan data cleaning dan data organizing Transformasi pembersihan sampel log server yang mencakup data dan penjelasan teks tentang apa yang terjadi di server. Perhatikan bahwa saat membersihkan, &amp; karakter, yang merupakan karakter Unicode, diubah menjadi ampersand (&) yang lebih mudah dibaca. Fase pembersihan meninggalkan dokumen dalam format yang sama persis seperti sebelumnya. Gambar 4. Data Organizing
  • 10. • Transformasi pengorganisasian terbawah jauh lebih radikal. Itu mengubah dokumen mentah menjadi struktur baris/kolom, di mana setiap baris mewakili satu tindakan yang diambil oleh server dan kolom mewakili atribut dari tindakan server. Dalam hal ini, dua atribut adalah Tanggal dan Teks. • Baik pembersihan maupun pengorganisasian termasuk dalam kategori ilmu data yang lebih besar, yang itu rekayasa fitur. Atau feature engineering • Kutipan Dari: Sinan Ozdemir. “Rekayasa Fitur Menjadi Mudah.” Buku Apel. 2. Feature vs Feature Engineering Dalam konteks machine learning, data mining, dan data analytics, sebuah fitur (feature) adalah sebuah atribut atau variabel yang digunakan untuk merepresentasikan atau mendeskripsikan sebuah aspek dari obyek tertentu. Sebagai contoh : Gambar 5. Contoh Feature Macam-macam Fitur: • Fitur informatif adalah dasar untuk analisis data. Mereka berguna untuk • menggambarkan objek yang mendasari, dan untuk membedakan dan mengkarakterisasi
  • 11. • kelompok objek yang berbeda (eksplisit atau laten). Mereka juga penting untuk memproduksi • model prediksi yang akurat dan mudah dijelaskan, dan menghasilkan hasil yang baik dalam • berbagai tugas analitik data. "Fitur," "variabel," dan "atribut" sering • digunakan sebagai sinonim. • Untuk aplikasi tertentu dan titik waktu tertentu, sering kali himpunan tetap • fitur secara implisit dipilih untuk menggambarkan semua objek data yang mendasarinya; setiap objek • mengambil nilai tertentu untuk masing-masing fitur tersebut. Ini menghasilkan representasi objek data berbasis vektor fitur. • Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan numerik. Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda, • karena perbedaan struktural dalam domain mereka. Feature • Fitur yang informatif merupakan fundamental dasar dari analisis data. • Fitur menggambar menggambarkan objek yang mendasari, dan untuk membedakan dan mengkarakterisasi kelompok objek yang berbeda (eksplisit atau laten). • Fitur sangat penting untuk menghasilkan model prediksi yang akurat dan mudah dijelaskan, dan menghasilkan hasil yang baik dalam berbagai tugas analitik data.
  • 12. Gambar 6. Komponen Fitur 2.1 Mengerti hal mendasar tentang feature: Gambar 7. Atribut, Data Observasi a. Setiap baris data, atau dikenal sebagai observasi, mewakili satu contoh/contoh masalah. Jika data kami termasuk dalam domain perdagangan hari di pasar saham, pengamatan mungkin mewakili perubahan satu jam di pasar dan harga secara keseluruhan. b. Dalam contoh berikut untuk kasus network security Setiap baris berisi data dateTime, protocol, urgentm malicious.
  • 13. Gambar 8. Atribut, Data Observasi c. Kita akan menganggap data sebagai table. d. Anda juga dapat melihat contoh spesifik di mana matriks data hanya memiliki satu kolom/atribut. Misalnya, jika kita sedang membangun sebuah perangkat lunak yang mampu mengambil satu gambar dari sebuah ruangan dan menampilkan apakah ada manusia di ruangan itu atau tidak. Data untuk input dapat direpresentasikan sebagai matriks satu kolom di mana kolom tunggal hanyalah URL ke foto sebuah ruangan dan tidak ada yang lain. e. Misalnya, mengingat tabel tabel berikut yang hanya memiliki satu kolom berjudul, URL Foto. Nilai tabel adalah URL (ini palsu dan tidak mengarah ke mana pun dan murni misalnya) foto yang relevan f. Data yang diinput ke sistem mungkin hanya satu kolom, seperti dalam kasus ini. Dalam kemampuan kami untuk membuat sistem yang dapat menganalisis gambar, masukannya mungkin hanya berupa URL ke gambar yang dimaksud. Kehendak kita sebagai ilmuwan data untuk merekayasa fitur dari URL. g. Sebagai ilmuwan data, kita harus siap untuk mencerna dan menangani data yang mungkin besar, kecil, lebar, sempit (dalam hal atribut), jarang dalam penyelesaian (mungkin ada nilai yang hilang), dan siap untuk memanfaatkan data ini untuk tujuan pembelajaran mesin. Sekarang saat yang tepat untuk berbicara lebih banyak tentang itu. Algoritme pembelajaran mesin termasuk dalam kelas algoritme yang ditentukan oleh kemampuannya untuk mengekstrak dan mengeksploitasi pola dalam data untuk menyelesaikan tugas berdasarkan data pelatihan historis. 2.3 Kesimpulan Feature: • Untuk aplikasi tertentu dan dengan domain waktu tertentu, seringkali sekumpulan fitur tetap dipilih secara implisit untuk menggambarkan semua objek data yang mendasarinya; setiap objek mengambil nilai tertentu untuk masing- masing fitur tersebut. • Hal ini menghasilkan representasi berbasis vektor fitur dari objek data.
  • 14. • Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan numerik. • Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda, karena perbedaan struktural dalam domainnya. 2.4 Beberapa jenis fitur, antara lain • Kategori Fitur berjenis kategori biasanya merupakan sebuah himpunan yang berisi nilai diskrit. Sebagai contoh warna merupakan sebuah fitur berjenis kategori yang dapat memiliki nilai {hitam, biru, kuning, cokelat, merah} Contoh lainnya adalah nilai binary, yang mana fitur tersebut hanya dapat memiliki salah satu dari dua nilai yaitu 0 atau 1. • Ordinal, Contoh fitur ordinal adalah Degree dimana berisi {Bachelorm Master, PhD} dimana ketiga value tersebut di urutkan sebagai berikut Bachelor < Master < PhD • Numerik. Fitur jenis ini berisi himpunan nilai numerik. Jenis fitur ini juga sering disebut sebagai fitur quantitative atau continuous. Sebagai contoh: sebuah fitur umur adalah sebuah fitur berjenis numerik dimana merupakan sebuah himpunan nilai integer antara 0 dan 150. • Rasio. Pemahaman Anda mengenai jenis fitur yang ada sangat penting karena setiap jenis fitur tertentu memerlukan pendekatan analisis yang berbeda, karena perbedaan struktural dalam domainnya. • Dalam banyak aplikasi, fitur kategori direpresentasikan sebagai nilai numerik. • Untuk itu, kita perlu berhati-hati dalam merepresentasikan nilai tersebut, karena jika tidak hasil analisis yang diperlukan dalam kasus-kasus seperti urutan yang tersirat oleh nilai numerik biasanya tidak berarti jika pendekatan analisis yang digunakan tidak sesuai.
  • 15. • Dalam bahasa R variabel kategori diperlakukan sebagai faktor. • Pendekatan ”one-hot encoding" sering digunakan untuk mengubah fitur dengan jenis ini. Kegunaan (the usefulness / the importance ) dari sebuah fitur dapat diukur dengan signifikan pengaruh fitur tersebur kepada hasil analitik data yang dihasilkan. Misalnya, dalam klasifikasi ini sebagian besar dalam hal peningkatan akurasi klasifikasi. Kemudahan pemahaman dan interpretasi dari fitur juga dapat digunakan sebagai salah satu tolak ukur yang digunakan. Gambar 9. Feature 2.5 Feature Engineering “Feature engineering is the process of transforming data into features that better represent the underlying problem, resulting in improved machine learning performance.” Excerpt From: Sinan Ozdemir. “Feature Engineering Made Easy.”
  • 16. Gambar 10. Feature Engineering • Feature Understanding Memahami data dan domain permasalahan dengan informasi kualitatif dan kuantitatif yang dimiliki • Feature Improvement Membersihkan data, mengisi nilai yang kosong, mentransformasikan data yang tidak tersturktur, dan normalisasi data • Feature Transformation Pembentukan fitur baru dari fitur yang ada; ini sering dicapai dengan menggunakan pemetaan matematika. • Feature Generation / Construction Menghasilkan fitur baru yang seringkali tidak hasil transformasi fitur. Misalnya, Anda tidak mengambil piksel dalam gambar sebagai fitur, melainkan mengekstraksi hasil pemrosesan sebuah operasi misalnya hasil konvolusi untuk region tertentu yang menghasilkan fitur baru untuk gambar. Selain itu, kita juga dapat mengatakan bahwa fitur didefinisikan dari pola/teksture salah satu hasil
  • 17. dari feature generation. Banyak cara khusus domain untuk mendefinisikan fitur juga termasuk dalam kategori pembuatan fitur. Kadang-kadang ekstraksi fitur istilah digunakan untuk generasi fitur. • Feature Selection adalah tentang memilih satu set kecil fitur dari yang sangat kumpulan fitur yang besar. Ukuran kumpulan fitur yang dikurangi membuatnya layak secara komputasi untuk menggunakan algoritma tertentu. Pemilihan fitur juga dapat menyebabkan peningkatan kualitas pada hasil dari algoritma tersebut. • Feature Analysis adalah tentang konsep, metode, dan ukuran untuk mengevaluasi kegunaan fitur dan set fitur. Feature analysis juga sering dimasukkan sebagai salah bagian dari seleksi fitur. • General Automatic Feature Metodologi rekayasa fitur otomatis umum adalah tentang pendekatan generik untuk secara otomatis menghasilkan sejumlah besar fitur dan memilih subset yang efektif dari fitur yang dihasilkan. 3. Feature Understanding 3.1 Tipe Data : Structured vs Unstructured • Structured data. Data jenis ini biasanya berbentuk tabular, dimana baris merepresentasikan data observasi dan kolom merepresentasikan atribut atau fitur. • Unstructured data. Data yang ada sebagai entitas yang mengalir bebas dan tidak mengikuti hierarki organisasi standar seperti tabularitas. Seringkali, data tidak terstruktur tampak bagi kami sebagai data blob, atau sebagai satu karakteristik (kolom).
  • 18. 3.2 Tipe Data: Qualitative vs Quantitative • Qualitative. Data yang memiliki sifat kategorikal. Mendeskripsikan kulitas dari sebuah obyek tertentu. • Quantitative. Data yang umumnya bersifat numerik. Mendeskripsikan kuantitas dari sebuah obyek tertentu. 3.3 Exploratory Data Analysis Analisis Data Eksplorasi (EDA) adalah pendekatan/filosofi untuk analisis data yang menggunakan berbagai teknik (kebanyakan grafis) untuk: • memaksimalkan wawasan ke dalam kumpulan data; • mengungkap struktur yang mendasarinya; • ekstrak variabel penting; • mendeteksi outlier dan anomali; • menguji asumsi yang mendasarinya; • mengembangkan model pelit; dan • menentukan pengaturan faktor yang optimal. 4. Analisis Data Eksplorasi (EDA) EDA merupakan salah satu dari tigak teknik pendekatan analisis data yang ada. Ketiga pendekatan tersebut mempunyai kemiripan, semuanya dimulai dari teori atau permasalahan umum dan diakhiri dengan suatu kesimpulan. Perbedaannya terletak pada urutan dan fokus dari langkah-langkah perantara. Analisis klasik, urutannya: Masalah → Data → Model → Analisis → Kesimpulan EDA, urutannya: Masalah → Data → Analisis → Model → Kesimpulan
  • 19. Bayesian, urutannya: Masalah → Data → Model → Distribusi Prior/bersyarat → Analisis → Kesimpulan Gambar 11. ADE Analisis Data Eksplorasi mengacu pada proses kritis dalam melakukan penyelidikan awal pada data untuk menemukan pola, menemukan anomali, menguji hipotesis, dan memeriksa asumsi dengan bantuan statistik ringkasan dan representasi grafis. Analisis Data Eksplorafit (ADE) merupakan suatu alat menganalisis yang berguna untuk melihat pola suatu data segingga dapat mengetahui berapa informasi awal terkait dengan data tersebut, yang artinya akan berguna untuk melakukan pengujian pada data tersebut dengan model statistik inferensial (Kurniawan, Sohibien, and Rahani 2019). Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi sangat penting sebelum melakukan feature engineering dan modeling karena dalam tahap ini kita harus memahami datanya terlebih dahulu. Dalam artikel ini penulis menggunakan dataset house price dari Kaggle. • Proses Data Science: • Data Preparation • Data Cleansing • Exploratory Data Analysis • Feature Engineering • Modeling • Evaluation • Deployment
  • 20. Exploratory Data Analysis memungkinkan analyst memahami isi data yang digunakan, mulai dari distribusi, frekuensi, korelasi dan lainnya. Dalam prakteknya, curiousity sangat penting dalam proses ini, pemahaman konteks data juga diperhatikan, karena akan menjawab masalah masalah dasar. Pada umumnya EDA dilakukan dengan beberapa cara: • Univariat Analysis — analisis deskriptif dengan satu variabel. • Bivariat Analysis — analisis relasi dengan dua variabel yang biasanya dengan target variabel. • Multivariat Analysis — analisis yang menggunakan lebih dari atau sama dengan tiga variabel (Chandra 2019). Sebagian besar teknik EDA bersifat grafis dengan beberapa teknik kuantitatif. Alasan ketergantungan yang tinggi pada grafik adalah bahwa pada dasarnya peran utama EDA adalah untuk mengeksplorasi data secara terbuka, dan grafik memberikan para gambaran yang lebih jelas mengenai informasi dari data sehingga dapat memberikan beberapa wawasan baru, yang seringkali tidak terduga, tentang data. Terutama dalam memahami kombinasi dengan kemampuan pengenalan pola data yang kita miliki. 5. Principal Component Analysis (PCA) PCA merupakan metode pengurangan dimensi menggunakan teknik statistik non- parametrik, tidak terawasi, yang sering digunakan untuk mengurangi dimensi kumpulan data besar, dengan mengubah kumpulan variabel besar menjadi lebih kecil yang masih berisi sebagian besar informasi dalam kumpulan besar. Metode PCA Ini telah banyak digunakan di bidang pengenalan pola dan pemrosesan sinyal dan merupakan metode statistik di bawah judul analisis faktor yang luas. Tujuan PCA adalah untuk : 1. Mengekstrak informasi terpenting dari tabel data; 2. kompres ukuran kumpulan data dengan hanya menyimpan informasi penting ini;
  • 21. 3. menyederhanakan deskripsi kumpulan data; dan 4. Menganalisis struktur observasi dan variabelnya. 5. Kompres data, dengan mengurangi jumlah dimensi, tanpa banyak kehilangan informasi. 6. Teknik ini digunakan dalam kompresi gambar Untuk menganalisis data dengan Analisis Komponen Utama kita harus teliti dalam statistik dan aljabar matriks (Mishra et al. 2017). PCA adalah alat yang sangat fleksibel dan memungkinkan analisis kumpulan data yang mungkin berisi, misalnya, multikolinearitas, nilai yang hilang, data kategoris, dan pengukuran yang tidak tepat. Tujuannya adalah untuk mengekstrak informasi penting dari data dan untuk mengekspresikan informasi ini sebagai satu set indeks ringkasan yang disebut komponen utama. Secara statistik, PCA menemukan garis, bidang, dan bidang hiper dalam ruang dimensi-K yang mendekati data sebaik mungkin dalam arti kuadrat terkecil. Garis atau bidang yang merupakan aproksimasi kuadrat terkecil dari sekumpulan titik data membuat varians koordinat pada garis atau bidang sebesar mungkin. Gambar 12. PCA
  • 22. Pada Gambar 12 menunjukan, PCA membuat visualisasi data yang meminimalkan varians residual dalam arti kuadrat terkecil dan memaksimalkan varians koordinat proyeksi. 5.1 Cara kerja PCA Pertimbangkan matriks X dengan N baris (alias "pengamatan") dan K kolom (alias "variabel"). Untuk matriks ini, kami membangun ruang variabel dengan dimensi sebanyak variabel yang ada (lihat gambar di bawah). Setiap variabel mewakili satu sumbu koordinat. Untuk setiap variabel, panjangnya telah distandarisasi menurut kriteria penskalaan, biasanya dengan penskalaan ke varians unit. Anda dapat menemukan detail lebih lanjut tentang penskalaan ke varians unit di posting blog sebelumnya. Principal Component Analysis (PCA) adalah sebuah metode yang sering digunakan untuk pengurangan dimensi dalam pembelajaran mesin. Dimensi tinggi berarti bahwa dataset memiliki sejumlah besar fitur. Komponen utama pertama Setelah pemusatan rata-rata dan penskalaan ke varians unit, kumpulan data siap untuk perhitungan indeks ringkasan pertama, komponen utama pertama (PC1). Komponen ini adalah garis dalam ruang variabel K-dimensi yang paling mendekati data dalam arti kuadrat terkecil. Garis ini melewati titik rata-rata. Setiap pengamatan (titik kuning) sekarang dapat diproyeksikan ke garis ini untuk mendapatkan nilai koordinat di sepanjang garis PC. Nilai koordinat baru ini juga dikenal sebagai skor.
  • 23. Gambar 13. PC1 Pada gambar 13, menjelaskan Komponen utama pertama (PC1) adalah garis yang paling sesuai untuk bentuk gerombolan titik. Ini mewakili arah varians maksimum dalam data. Setiap pengamatan (titik kuning) dapat diproyeksikan ke garis ini untuk mendapatkan nilai koordinat di sepanjang garis PC. Nilai ini dikenal sebagai skor. Komponen utama kedua Biasanya, satu indeks ringkasan atau komponen utama tidak cukup untuk memodelkan variasi sistematis dari kumpulan data. Dengan demikian, indeks ringkasan kedua – komponen utama kedua (PC2) – dihitung. PC kedua juga diwakili oleh garis dalam ruang variabel K-dimensi, yang ortogonal terhadap PC pertama. Garis ini juga melewati titik rata-rata, dan meningkatkan aproksimasi data-X sebanyak mungkin. Gambar 14. PC2
  • 24. Pada gambar 14, menunjukan Komponen utama kedua (PC2) diorientasikan sedemikian rupa sehingga mencerminkan sumber variasi terbesar kedua dalam data sambil ortogonal ke PC pertama. PC2 juga melewati titik rata-rata. Dua komponen utama menentukan bidang model Ketika dua komponen utama telah diturunkan, mereka bersama-sama mendefinisikan tempat, jendela ke dalam ruang variabel K-dimensi. Dengan memproyeksikan semua pengamatan ke sub-ruang dimensi rendah dan memplot hasilnya, dimungkinkan untuk memvisualisasikan struktur kumpulan data yang diselidiki. Nilai koordinat dari pengamatan pada bidang ini disebut skor, dan karenanya plot dari konfigurasi yang diproyeksikan seperti itu dikenal sebagai plot skor. Gambar 15. PC1 dan PC2 Pada gambar 15, menunjukan Dua PC membentuk pesawat. Bidang ini adalah jendela ke ruang multidimensi, yang dapat divisualisasikan secara grafis. Setiap pengamatan dapat diproyeksikan ke bidang ini, memberikan skor untuk masing-masing. Kelebihan PCA • Model juga menjadi lebih efisien karena set fitur yang dikurangi meningkatkan kecepatan pembelajaran dan mengurangi biaya komputasi dengan menghapus fitur yang berlebihan.
  • 25. • PCA mengidentifikasi daftar sumbu utama (principal axes) untuk menggambarkan kumpulan data yang mendasarinya sebelum memeringkatnya sesuai dengan jumlah varians yang ditangkap oleh masing-masing sumbu. • PCA adalah algoritma pembelajaran tanpa pengawasan karena arah komponen ini dihitung murni dari set fitur penjelas tanpa referensi ke variabel respons. • Normalisasikan data PCA digunakan untuk mengidentifikasi komponen dengan varians maksimum, dan kontribusi setiap variabel untuk komponen didasarkan pada besarnya varians. Ini adalah praktik terbaik untuk menormalkan data sebelum melakukan PCA karena data yang tidak diskalakan dengan unit pengukuran yang berbeda dapat mendistorsi perbandingan relatif varians di seluruh fitur. • Membuat matriks kovarians untuk dekomposisi Eigen Cara yang berguna untuk mendapatkan semua kemungkinan hubungan antara semua dimensi yang berbeda adalah dengan menghitung kovarians di antara mereka semua dan menempatkannya dalam matriks kovarians yang mewakili hubungan ini dalam data. Memahami persentase kumulatif varians yang ditangkap oleh setiap komponen utama merupakan bagian integral dari pengurangan set fitur. Apakah PCA merupakan teknik yang memadai? • Jika objective dari analisa data adalah membangun kombinasi linear yang tidak saling berkorelasi maka keputusan apakah PCA cukup baik digunakan atau tidak tergantung pada apakah hasil dari PCA ini dapat diinterpretasikan atau tidak. Bila hasil dari PCA tidak dapat diinterpretasikan, maka penggunakan PCA tid k d ti d b ik dihi d i tidak ada artinya dan sebaiknya dihindari. • Jika objective dari analisa data adalah untuk mengurangi jumlah variable (principle component) yang merupakan kombinasi linear dari variable-variable asli maka jumlah variable asli, maka jumlah principle component harus kurang dari jumlah variable asli. Dalam kasus seperti ini, PCA hanya boleh dilakukan bila data dapat direpresentasikan dalam beberapa buah principle component tanpa menghilangkan informasi secara substansial (without a substantial loss of information).
  • 26. Tugas Dan Proyek Pelatihan Silahkan mengerjakan Quiz Modul 10 pada LMS Kominfo. Link Referensi Modul Pertama 1. Ozdemir, Sinan Susarla, Divya - Feature engineering made easy identify unique features from your dataset in order to build powerful machine learning systems (2018, Packt Publishing) 2. Dong, Guozhu, Liu, H. - Feature Engineering For Machine Learning and Data Analytics 3. Chandra, Andreas. 2019. Memahami Data Dengan Exploratory Data Analysis. https://medium.com/data-folks-indonesia/memahami-data-dengan-exploratory-data-analysis- a53b230cce84. 4. Kurniawan, Robert, Gama Putra Danu Sohibien, and Rini Rahani. 2019. Cara Mudah Belajar Statistik Analisis Data & Eksplorasi. 1st Editio. Kencana. https://books.google.co.id/books?hl=en&lr=&id=zFgCEAAAQBAJ&oi=fnd&pg=PP1&dq=Analisis+Data +Eksplorasi+(EDA)+pdf&ots=9X620ivw_N&sig=YC4P5- X9awyHkfQ3UUntOv0oTcU&redir_esc=y#v=onepage&q&f=false. 5. Mishra, Sidharth Prasad et al. 2017. “Multivariate Statistical Data Analysis- Principal Component Analysis (PCA).” International Journal of Livestock Research 7(5): 60–78. 6. https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15 7. https://www.sartorius.com/en/knowledge/science-snippets/what-is-principal-component-analysis- pca-and-how-it-is-used-507186 Link Pertanyaan Modul Petama Bahan Tayang Power Point
  • 27. Link room Pelatihan dan Jadwal live sesi bersama instruktur Zoom Penilaian Komposisi penilaian Tugas Data Science : Nilai 100 Target Penyelesaian Modul Pertama 1 hari / sampai 6 JP