SlideShare a Scribd company logo
Pendahuluan
Unit kompetensi ini berhubungan dengan pengetahuan, keterampilan, dan sikap kerja yang dibutuhkan
dalam mengkonstruksikan data untuk proyek data science.
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu menjelaskan data preparation mengenai
feature engineering, yaitu Analisis Data Eksplorasi (EDA), dan Principal Component Analysis (PCA)
menggunakan data science dan menerapkannya untuk suatu permasalahan data science.
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data Science adalah
• Menganalisis data untuk mementukan representasi data awal
• Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam bentuk tertulis
• Menentukan fitur mana yang paling penting dengan informasi yang saling mendukung satu sama
lain.
• Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian permasalahan dunia
nyata
• Melakukan analisis hasil pelabelan data
• Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality categoricals) dengan
pendekatan encoding yang tepat
• Melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama (Principal
Component Analysis)
Latar belakang
Unit kompetensi ini dinilai berdasarkan tingkat kemampuan peserta dalam memahami visualisasi dari
teknologi AI. Adapun penilaian dilakukan dengan menggabungkan serangkaian metode untuk menilai
kemampuan dan penerapan pengetahuan pendukung penting. Penilaian dilakukan dengan mengacu
kepada Kriteria Unjuk Kerja (KUK) dan dilaksanakn di Tempat Uji Kompetensi (TUK), ruang simulasi atau
workshop dengan cara:
1.1. Lisan
1.2. Wawancara
1.3. Tes tertulis
1.4. Metode lain yang relevan
Tujuan Pembelajaran
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu memahami
pembelajaran mesin, penambangan data, dan data analytics mengandalkan dan dapat
mengambil manfaat dari rekayasa fitur yang efektif
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data
Science adalah
A. Menganalisis data untuk mementukan representasi data awal
B. Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam
bentuk tertulis
C. Menentukan fitur mana yang paling penting dengan informasi yang saling
mendukung satu sama lain.
D. Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian
permasalahan dunia nyata
E. Melakukan analisis hasil pelabelan data
F. Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality
categoricals) dengan pendekatan encoding yang tepat
G. Melakukan dimensi reduksi dengan pendekatan metode analisis komponen
utama (Principal Component Analysis)
Deskripsi Pelatihan
Materi ini berisi penjelasan Secara umum, semua pembelajaran mesin, penambangan
data, dan data analytics mengandalkan dan dapat mengambil manfaat dari rekayasa fitur
yang efektif. Tugas khusus meliputi klasifikasi, regresi, pengelompokan, deteksi outlier,
pola/aturan, pemodelan prediktif, pembedaan dan karakterisasi kelas data, penemuan
konsep, pembelajaran jarak jauh, estimasi probabilitas, konstruksi ontologi/taksonomi,
pencarian informasi, intelijen bisnis, dan sebagainya
Kompetensi Dasar
• Mampu menganalisis data untuk mementukan representasi data awal
• Mampu menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam
bentuk tertulis
• Mampu menentukan fitur mana yang paling penting dengan informasi yang saling
mendukung satu sama lain.
• Mampu merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian
permasalahan dunia nyata
• Mampu melakukan analisis hasil pelabelan data
• Mampu melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality
categoricals) dengan pendekatan encoding yang tepat
• Mampu melakukan dimensi reduksi dengan pendekatan metode analisis komponen
utama (Principal Component Analysis)
Indikator Hasil Belajar
Dapat melakukan analisis data, menjelaskan tahapan transformasi data, menentukan
fitur mana yang paling penting, merekayasa fitur, melakukan analisis hasil pelabelan
data, melakukan kodefikasi kategori dengan kardinalitas tinggi dan melakukan dimensi
reduksi dengan pendekatan metode analisis komponen utama
INFORMASI PELATIHAN
Akademi Thematic Academy
Mitra Pelatihan Kementerian Komunikasi dan Informatika
Tema Pelatihan Data Scientist: Artificial Intelligence untuk Dosen dan
Instruktur
Sertifikasi • Certificate of Attainment;
• Sertifikat Kompetensi Associate Data Scientist
Persyaratan Sarana Peserta/spesifikasi device
Tools/media ajar yang akan digunakan
Memiliki laptop/komputer dengan spesifikasi minimal :
• RAM minimal 2 GB (disarankan 4 GB)
• Laptop dengan 32/64-bit processor
• Laptop dengan Operating System Windows 7, 8,
10, MacOS X atau Linux
• Laptop dengan konektivitas WiFi dan memiliki
Webcam
• Akses Internet Dedicated 126 kbps per peserta per
perangkat
• Memiliki aplikasi Zoom
• Memiliki akun Google Colab
Aplikasi yang akan di gunakan selamat pelatihan • Spyder
• Jupyter notebook
Tim Penyusun Dr. Rer. Nat. I Made Wiryana (Universitas Gunadarma)
Dr. Miftah Andriansyah (Universitas Gunadarma)
Dr. Astie Darmayantie (Universitas Gunadarma)
INFORMASI PEMBELAJARAN
Unit Kompetensi Materi
pembelajaran
Kegiatan
pembelajaran
Durasi
Pelatihan
Rasio
Praktek :
Teori
Sumber
pembelajaran
Dapat melakukan analisis
data, menjelaskan
tahapan transformasi
data, menentukan fitur
mana yang paling
penting, merekayasa
fitur, melakukan analisis
hasil pelabelan data,
melakukan kodefikasi
kategori dengan
kardinalitas tinggi dan
melakukan dimensi
reduksi dengan
pendekatan metode
analisis komponen utama
Data Science Daring / Online Live Class
2 JP
LMS 4 JP @
45 menit
70:30 LMS
Materi Pokok
Data Science
Sub Materi Pokok
• Prolog
• Feature vs Feature Engineering
• Fase Feature Engineering
o Feature Understanding
o Feature transformation
o Feature generation
o Feature selection
o Feature analysis and evaluation
• Case Study
MATERI PELATIHAN
1. Prolog
Mengapa Rekayasa Fitur Penting?
Ilmuwan data dan insinyur pembelajaran mesin sering mengumpulkan data untuk
memecahkan masalah kehidupan nyata. Insinyur ini memiliki pekerjaan unik dalam
merancang pipa dan arsitektur yang dirancang untuk menangani dan mengubah data
mentah menjadi sesuatu yang dapat digunakan oleh seluruh perusahaan, terutama
ilmuwan data dan insinyur pembelajaran mesin.
Gambar 1. Hasil Survey
Sebuah survei yang dilakukan oleh para ilmuwan data di lapangan mengungkapkan
bahwa lebih dari 80% waktu dari data scientist dihabiskan untuk mengumpulkan,
membersihkan, dan mengorganisir data. Kurang dari 20% sisa waktu mereka dihabiskan
untuk membangun algoritma atau model.
Gambar 2. Hasil Survey
Sebuah survei yang sama juga dilakukan untuk mengetahui bagian pekerjaan mana yang
dirasa kurang menyenangkan, hasilnya 77% responden mengatakan fase
mengumpulkan, membersihkan, dan mengorganisir data. adalah fase yang dirasa kurang
menyenangkan.
“A stellar data scientist knows that preparing data is not only so important that it takes up
most of their time, they also know that it is an arduous process and can be unenjoyable. Far
too often, we take for granted clean data given to us by machine learning competitions and
academic sources. More than 90% of data, the data that is interesting, and the most useful,
exists in this raw format.”
Dikutip dari: Sinan Ozdemir. “Feature Engineering Made Easy.”
Gambar 3. Data Cleaning
Menyiapkan data bisa menjadi pekerjaan yang tidak jelas batasannya. Persiapan
memperhitungkan pengambilan data, penyimpanan data, pembersihan data, dan
sebagainya. Seperti yang terlihat pada bagan yang ditunjukkan sebelumnya, sebagian
kecil, tetapi masih sebagian besar waktu ilmuwan data dihabiskan untuk membersihkan
dan mengatur data. Dalam proses inilah tugas terbesar dari seorang data scientist.
Berikut simulasi perbedaan tahapan data cleaning dan data organizing
Transformasi pembersihan sampel log server yang mencakup data dan penjelasan teks
tentang apa yang terjadi di server. Perhatikan bahwa saat membersihkan, &
karakter, yang merupakan karakter Unicode, diubah menjadi ampersand (&) yang lebih
mudah dibaca. Fase pembersihan meninggalkan dokumen dalam format yang sama
persis seperti sebelumnya.
Gambar 4. Data Organizing
• Transformasi pengorganisasian terbawah jauh lebih radikal. Itu mengubah dokumen
mentah menjadi struktur baris/kolom, di mana setiap baris mewakili satu tindakan yang
diambil oleh server dan kolom mewakili atribut dari tindakan server. Dalam hal ini, dua
atribut adalah Tanggal dan Teks.
• Baik pembersihan maupun pengorganisasian termasuk dalam kategori ilmu data yang lebih
besar, yang itu rekayasa fitur. Atau feature engineering
• Kutipan Dari: Sinan Ozdemir. “Rekayasa Fitur Menjadi Mudah.” Buku Apel.
2. Feature vs Feature Engineering
Dalam konteks machine learning, data mining, dan data analytics, sebuah fitur (feature)
adalah sebuah atribut atau variabel yang digunakan untuk merepresentasikan atau
mendeskripsikan sebuah aspek dari obyek tertentu. Sebagai contoh :
Gambar 5. Contoh Feature
Macam-macam Fitur:
• Fitur informatif adalah dasar untuk analisis data. Mereka berguna untuk
• menggambarkan objek yang mendasari, dan untuk membedakan dan
mengkarakterisasi
• kelompok objek yang berbeda (eksplisit atau laten). Mereka juga penting untuk
memproduksi
• model prediksi yang akurat dan mudah dijelaskan, dan menghasilkan hasil yang
baik dalam
• berbagai tugas analitik data. "Fitur," "variabel," dan "atribut" sering
• digunakan sebagai sinonim.
• Untuk aplikasi tertentu dan titik waktu tertentu, sering kali himpunan tetap
• fitur secara implisit dipilih untuk menggambarkan semua objek data yang
mendasarinya; setiap objek
• mengambil nilai tertentu untuk masing-masing fitur tersebut. Ini menghasilkan
representasi objek data berbasis vektor fitur.
• Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan
numerik. Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda,
• karena perbedaan struktural dalam domain mereka.
Feature
• Fitur yang informatif merupakan fundamental dasar dari analisis data.
• Fitur menggambar menggambarkan objek yang mendasari, dan untuk
membedakan dan mengkarakterisasi kelompok objek yang berbeda (eksplisit
atau laten).
• Fitur sangat penting untuk menghasilkan model prediksi yang akurat dan mudah
dijelaskan, dan menghasilkan hasil yang baik dalam berbagai tugas analitik data.
Gambar 6. Komponen Fitur
2.1 Mengerti hal mendasar tentang feature:
Gambar 7. Atribut, Data Observasi
a. Setiap baris data, atau dikenal sebagai observasi, mewakili satu contoh/contoh
masalah. Jika data kami termasuk dalam domain perdagangan hari di pasar
saham, pengamatan mungkin mewakili perubahan satu jam di pasar dan harga
secara keseluruhan.
b. Dalam contoh berikut untuk kasus network security Setiap baris berisi data
dateTime, protocol, urgentm malicious.
Gambar 8. Atribut, Data Observasi
c. Kita akan menganggap data sebagai table.
d. Anda juga dapat melihat contoh spesifik di mana matriks data hanya memiliki
satu kolom/atribut. Misalnya, jika kita sedang membangun sebuah perangkat
lunak yang mampu mengambil satu gambar dari sebuah ruangan dan
menampilkan apakah ada manusia di ruangan itu atau tidak. Data untuk input
dapat direpresentasikan sebagai matriks satu kolom di mana kolom tunggal
hanyalah URL ke foto sebuah ruangan dan tidak ada yang lain.
e. Misalnya, mengingat tabel tabel berikut yang hanya memiliki satu kolom
berjudul, URL Foto. Nilai tabel adalah URL (ini palsu dan tidak mengarah ke
mana pun dan murni misalnya) foto yang relevan
f. Data yang diinput ke sistem mungkin hanya satu kolom, seperti dalam kasus
ini. Dalam kemampuan kami untuk membuat sistem yang dapat menganalisis
gambar, masukannya mungkin hanya berupa URL ke gambar yang dimaksud.
Kehendak kita sebagai ilmuwan data untuk merekayasa fitur dari URL.
g. Sebagai ilmuwan data, kita harus siap untuk mencerna dan menangani data
yang mungkin besar, kecil, lebar, sempit (dalam hal atribut), jarang dalam
penyelesaian (mungkin ada nilai yang hilang), dan siap untuk memanfaatkan
data ini untuk tujuan pembelajaran mesin. Sekarang saat yang tepat untuk
berbicara lebih banyak tentang itu. Algoritme pembelajaran mesin termasuk
dalam kelas algoritme yang ditentukan oleh kemampuannya untuk
mengekstrak dan mengeksploitasi pola dalam data untuk menyelesaikan tugas
berdasarkan data pelatihan historis.
2.3 Kesimpulan Feature:
• Untuk aplikasi tertentu dan dengan domain waktu tertentu, seringkali
sekumpulan fitur tetap dipilih secara implisit untuk menggambarkan semua objek
data yang mendasarinya; setiap objek mengambil nilai tertentu untuk masing-
masing fitur tersebut.
• Hal ini menghasilkan representasi berbasis vektor fitur dari objek data.
• Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan
numerik.
• Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda, karena
perbedaan struktural dalam domainnya.
2.4 Beberapa jenis fitur, antara lain
• Kategori
Fitur berjenis kategori biasanya merupakan sebuah himpunan yang berisi nilai
diskrit. Sebagai contoh warna merupakan sebuah fitur berjenis kategori yang
dapat memiliki nilai {hitam, biru, kuning, cokelat, merah} Contoh lainnya adalah
nilai binary, yang mana fitur tersebut hanya dapat memiliki salah satu dari dua
nilai yaitu 0 atau 1.
• Ordinal,
Contoh fitur ordinal adalah Degree dimana berisi {Bachelorm Master, PhD}
dimana ketiga value tersebut di urutkan sebagai berikut Bachelor < Master <
PhD
• Numerik.
Fitur jenis ini berisi himpunan nilai numerik. Jenis fitur ini juga sering disebut
sebagai fitur quantitative atau continuous. Sebagai contoh: sebuah fitur umur
adalah sebuah fitur berjenis numerik dimana merupakan sebuah himpunan nilai
integer antara 0 dan 150.
• Rasio.
Pemahaman Anda mengenai jenis fitur yang ada sangat penting karena setiap jenis fitur
tertentu memerlukan pendekatan analisis yang berbeda, karena perbedaan
struktural dalam domainnya.
• Dalam banyak aplikasi, fitur kategori direpresentasikan sebagai nilai numerik.
• Untuk itu, kita perlu berhati-hati dalam merepresentasikan nilai tersebut, karena
jika tidak hasil analisis yang diperlukan dalam kasus-kasus seperti urutan yang
tersirat oleh nilai numerik biasanya tidak berarti jika pendekatan analisis yang
digunakan tidak sesuai.
• Dalam bahasa R variabel kategori diperlakukan sebagai faktor.
• Pendekatan ”one-hot encoding" sering digunakan untuk mengubah fitur dengan
jenis ini.
Kegunaan (the usefulness / the importance ) dari sebuah fitur dapat diukur dengan
signifikan pengaruh fitur tersebur kepada hasil analitik data yang dihasilkan. Misalnya,
dalam klasifikasi ini sebagian besar dalam hal peningkatan akurasi klasifikasi.
Kemudahan pemahaman dan interpretasi dari fitur juga dapat digunakan sebagai salah
satu tolak ukur yang digunakan.
Gambar 9. Feature
2.5 Feature Engineering
“Feature engineering is the process of transforming data into features that better
represent the underlying problem, resulting in improved machine learning performance.”
Excerpt From: Sinan Ozdemir. “Feature Engineering Made Easy.”
Gambar 10. Feature Engineering
• Feature Understanding
Memahami data dan domain permasalahan dengan informasi kualitatif dan
kuantitatif yang dimiliki
• Feature Improvement
Membersihkan data, mengisi nilai yang kosong, mentransformasikan data yang
tidak tersturktur, dan normalisasi data
• Feature Transformation
Pembentukan fitur baru dari fitur yang ada; ini sering dicapai dengan
menggunakan pemetaan matematika.
• Feature Generation / Construction
Menghasilkan fitur baru yang seringkali tidak hasil transformasi fitur. Misalnya,
Anda tidak mengambil piksel dalam gambar sebagai fitur, melainkan
mengekstraksi hasil pemrosesan sebuah operasi misalnya hasil konvolusi untuk
region tertentu yang menghasilkan fitur baru untuk gambar. Selain itu, kita juga
dapat mengatakan bahwa fitur didefinisikan dari pola/teksture salah satu hasil
dari feature generation. Banyak cara khusus domain untuk mendefinisikan fitur
juga termasuk dalam kategori pembuatan fitur. Kadang-kadang ekstraksi fitur
istilah digunakan untuk generasi fitur.
• Feature Selection
adalah tentang memilih satu set kecil fitur dari yang sangat kumpulan fitur yang
besar. Ukuran kumpulan fitur yang dikurangi membuatnya layak secara
komputasi untuk menggunakan algoritma tertentu. Pemilihan fitur juga dapat
menyebabkan peningkatan kualitas pada hasil dari algoritma tersebut.
• Feature Analysis
adalah tentang konsep, metode, dan ukuran untuk mengevaluasi kegunaan fitur
dan set fitur. Feature analysis juga sering dimasukkan sebagai salah bagian dari
seleksi fitur.
• General Automatic Feature
Metodologi rekayasa fitur otomatis umum adalah tentang pendekatan generik
untuk secara otomatis menghasilkan sejumlah besar fitur dan memilih subset
yang efektif dari fitur yang dihasilkan.
3. Feature Understanding
3.1 Tipe Data : Structured vs Unstructured
• Structured data. Data jenis ini biasanya berbentuk tabular, dimana baris
merepresentasikan data observasi dan kolom merepresentasikan atribut atau fitur.
• Unstructured data. Data yang ada sebagai entitas yang mengalir bebas dan tidak
mengikuti hierarki organisasi standar seperti tabularitas. Seringkali, data tidak
terstruktur tampak bagi kami sebagai data blob, atau sebagai satu karakteristik
(kolom).
3.2 Tipe Data: Qualitative vs Quantitative
• Qualitative. Data yang memiliki sifat kategorikal. Mendeskripsikan kulitas dari
sebuah obyek tertentu.
• Quantitative. Data yang umumnya bersifat numerik. Mendeskripsikan kuantitas
dari sebuah obyek tertentu.
3.3 Exploratory Data Analysis
Analisis Data Eksplorasi (EDA) adalah pendekatan/filosofi untuk analisis data yang
menggunakan berbagai teknik (kebanyakan grafis) untuk:
• memaksimalkan wawasan ke dalam kumpulan data;
• mengungkap struktur yang mendasarinya;
• ekstrak variabel penting;
• mendeteksi outlier dan anomali;
• menguji asumsi yang mendasarinya;
• mengembangkan model pelit; dan
• menentukan pengaturan faktor yang optimal.
4. Analisis Data Eksplorasi (EDA)
EDA merupakan salah satu dari tigak teknik pendekatan analisis data yang ada. Ketiga
pendekatan tersebut mempunyai kemiripan, semuanya dimulai dari teori atau
permasalahan umum dan diakhiri dengan suatu kesimpulan. Perbedaannya terletak pada
urutan dan fokus dari langkah-langkah perantara.
Analisis klasik, urutannya:
Masalah → Data → Model → Analisis → Kesimpulan
EDA, urutannya:
Masalah → Data → Analisis → Model → Kesimpulan
Bayesian, urutannya:
Masalah → Data → Model → Distribusi Prior/bersyarat → Analisis → Kesimpulan
Gambar 11. ADE
Analisis Data Eksplorasi mengacu pada proses kritis dalam melakukan penyelidikan awal
pada data untuk menemukan pola, menemukan anomali, menguji hipotesis, dan
memeriksa asumsi dengan bantuan statistik ringkasan dan representasi grafis.
Analisis Data Eksplorafit (ADE) merupakan suatu alat menganalisis yang berguna untuk
melihat pola suatu data segingga dapat mengetahui berapa informasi awal terkait dengan
data tersebut, yang artinya akan berguna untuk melakukan pengujian pada data tersebut
dengan model statistik inferensial (Kurniawan, Sohibien, and Rahani 2019).
Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi
sangat penting sebelum melakukan feature engineering dan modeling karena dalam
tahap ini kita harus memahami datanya terlebih dahulu. Dalam artikel ini penulis
menggunakan dataset house price dari Kaggle.
• Proses Data Science:
• Data Preparation
• Data Cleansing
• Exploratory Data Analysis
• Feature Engineering
• Modeling
• Evaluation
• Deployment
Exploratory Data Analysis memungkinkan analyst memahami isi data yang digunakan,
mulai dari distribusi, frekuensi, korelasi dan lainnya. Dalam prakteknya, curiousity
sangat penting dalam proses ini, pemahaman konteks data juga diperhatikan, karena
akan menjawab masalah masalah dasar. Pada umumnya EDA dilakukan dengan beberapa
cara:
• Univariat Analysis — analisis deskriptif dengan satu variabel.
• Bivariat Analysis — analisis relasi dengan dua variabel yang biasanya dengan
target variabel.
• Multivariat Analysis — analisis yang menggunakan lebih dari atau sama dengan
tiga variabel (Chandra 2019).
Sebagian besar teknik EDA bersifat grafis dengan beberapa teknik kuantitatif. Alasan
ketergantungan yang tinggi pada grafik adalah bahwa pada dasarnya peran utama EDA
adalah untuk mengeksplorasi data secara terbuka, dan grafik memberikan para
gambaran yang lebih jelas mengenai informasi dari data sehingga dapat memberikan
beberapa wawasan baru, yang seringkali tidak terduga, tentang data. Terutama dalam
memahami kombinasi dengan kemampuan pengenalan pola data yang kita miliki.
5. Principal Component Analysis (PCA)
PCA merupakan metode pengurangan dimensi menggunakan teknik statistik non-
parametrik, tidak terawasi, yang sering digunakan untuk mengurangi dimensi kumpulan
data besar, dengan mengubah kumpulan variabel besar menjadi lebih kecil yang masih
berisi sebagian besar informasi dalam kumpulan besar. Metode PCA Ini telah banyak
digunakan di bidang pengenalan pola dan pemrosesan sinyal dan merupakan metode
statistik di bawah judul analisis faktor yang luas.
Tujuan PCA adalah untuk :
1. Mengekstrak informasi terpenting dari tabel data;
2. kompres ukuran kumpulan data dengan hanya menyimpan informasi penting
ini;
3. menyederhanakan deskripsi kumpulan data; dan
4. Menganalisis struktur observasi dan variabelnya.
5. Kompres data, dengan mengurangi jumlah dimensi, tanpa banyak kehilangan
informasi.
6. Teknik ini digunakan dalam kompresi gambar Untuk menganalisis data
dengan Analisis Komponen Utama kita harus teliti dalam statistik dan aljabar
matriks (Mishra et al. 2017).
PCA adalah alat yang sangat fleksibel dan memungkinkan analisis kumpulan data yang
mungkin berisi, misalnya, multikolinearitas, nilai yang hilang, data kategoris, dan
pengukuran yang tidak tepat. Tujuannya adalah untuk mengekstrak informasi penting
dari data dan untuk mengekspresikan informasi ini sebagai satu set indeks ringkasan
yang disebut komponen utama.
Secara statistik, PCA menemukan garis, bidang, dan bidang hiper dalam ruang dimensi-K
yang mendekati data sebaik mungkin dalam arti kuadrat terkecil. Garis atau bidang yang
merupakan aproksimasi kuadrat terkecil dari sekumpulan titik data membuat varians
koordinat pada garis atau bidang sebesar mungkin.
Gambar 12. PCA
Pada Gambar 12 menunjukan, PCA membuat visualisasi data yang meminimalkan varians
residual dalam arti kuadrat terkecil dan memaksimalkan varians koordinat proyeksi.
5.1 Cara kerja PCA
Pertimbangkan matriks X dengan N baris (alias "pengamatan") dan K kolom (alias
"variabel"). Untuk matriks ini, kami membangun ruang variabel dengan dimensi
sebanyak variabel yang ada (lihat gambar di bawah). Setiap variabel mewakili satu
sumbu koordinat. Untuk setiap variabel, panjangnya telah distandarisasi menurut
kriteria penskalaan, biasanya dengan penskalaan ke varians unit. Anda dapat
menemukan detail lebih lanjut tentang penskalaan ke varians unit di posting blog
sebelumnya.
Principal Component Analysis (PCA) adalah sebuah metode yang sering digunakan untuk
pengurangan dimensi dalam pembelajaran mesin. Dimensi tinggi berarti bahwa dataset
memiliki sejumlah besar fitur.
Komponen utama pertama
Setelah pemusatan rata-rata dan penskalaan ke varians unit, kumpulan data siap untuk
perhitungan indeks ringkasan pertama, komponen utama pertama (PC1). Komponen ini
adalah garis dalam ruang variabel K-dimensi yang paling mendekati data dalam arti
kuadrat terkecil. Garis ini melewati titik rata-rata. Setiap pengamatan (titik kuning)
sekarang dapat diproyeksikan ke garis ini untuk mendapatkan nilai koordinat di
sepanjang garis PC. Nilai koordinat baru ini juga dikenal sebagai skor.
Gambar 13. PC1
Pada gambar 13, menjelaskan Komponen utama pertama (PC1) adalah garis yang paling
sesuai untuk bentuk gerombolan titik. Ini mewakili arah varians maksimum dalam data.
Setiap pengamatan (titik kuning) dapat diproyeksikan ke garis ini untuk mendapatkan
nilai koordinat di sepanjang garis PC. Nilai ini dikenal sebagai skor.
Komponen utama kedua
Biasanya, satu indeks ringkasan atau komponen utama tidak cukup untuk memodelkan
variasi sistematis dari kumpulan data. Dengan demikian, indeks ringkasan kedua –
komponen utama kedua (PC2) – dihitung. PC kedua juga diwakili oleh garis dalam ruang
variabel K-dimensi, yang ortogonal terhadap PC pertama. Garis ini juga melewati titik
rata-rata, dan meningkatkan aproksimasi data-X sebanyak mungkin.
Gambar 14. PC2
Pada gambar 14, menunjukan Komponen utama kedua (PC2) diorientasikan sedemikian
rupa sehingga mencerminkan sumber variasi terbesar kedua dalam data sambil
ortogonal ke PC pertama. PC2 juga melewati titik rata-rata.
Dua komponen utama menentukan bidang model
Ketika dua komponen utama telah diturunkan, mereka bersama-sama mendefinisikan
tempat, jendela ke dalam ruang variabel K-dimensi. Dengan memproyeksikan semua
pengamatan ke sub-ruang dimensi rendah dan memplot hasilnya, dimungkinkan untuk
memvisualisasikan struktur kumpulan data yang diselidiki. Nilai koordinat dari
pengamatan pada bidang ini disebut skor, dan karenanya plot dari konfigurasi yang
diproyeksikan seperti itu dikenal sebagai plot skor.
Gambar 15. PC1 dan PC2
Pada gambar 15, menunjukan Dua PC membentuk pesawat. Bidang ini adalah jendela ke
ruang multidimensi, yang dapat divisualisasikan secara grafis. Setiap pengamatan dapat
diproyeksikan ke bidang ini, memberikan skor untuk masing-masing.
Kelebihan PCA
• Model juga menjadi lebih efisien karena set fitur yang dikurangi meningkatkan
kecepatan pembelajaran dan mengurangi biaya komputasi dengan menghapus
fitur yang berlebihan.
• PCA mengidentifikasi daftar sumbu utama (principal axes) untuk
menggambarkan kumpulan data yang mendasarinya sebelum memeringkatnya
sesuai dengan jumlah varians yang ditangkap oleh masing-masing sumbu.
• PCA adalah algoritma pembelajaran tanpa pengawasan karena arah komponen ini
dihitung murni dari set fitur penjelas tanpa referensi ke variabel respons.
• Normalisasikan data
PCA digunakan untuk mengidentifikasi komponen dengan varians maksimum,
dan kontribusi setiap variabel untuk komponen didasarkan pada besarnya
varians. Ini adalah praktik terbaik untuk menormalkan data sebelum melakukan
PCA karena data yang tidak diskalakan dengan unit pengukuran yang berbeda
dapat mendistorsi perbandingan relatif varians di seluruh fitur.
• Membuat matriks kovarians untuk dekomposisi Eigen
Cara yang berguna untuk mendapatkan semua kemungkinan hubungan antara
semua dimensi yang berbeda adalah dengan menghitung kovarians di antara
mereka semua dan menempatkannya dalam matriks kovarians yang mewakili
hubungan ini dalam data. Memahami persentase kumulatif varians yang
ditangkap oleh setiap komponen utama merupakan bagian integral dari
pengurangan set fitur.
Apakah PCA merupakan teknik yang memadai?
• Jika objective dari analisa data adalah membangun kombinasi linear yang tidak
saling berkorelasi maka keputusan apakah PCA cukup baik digunakan atau tidak
tergantung pada apakah hasil dari PCA ini dapat diinterpretasikan atau tidak. Bila
hasil dari PCA tidak dapat diinterpretasikan, maka penggunakan PCA tid k d ti d b
ik dihi d i tidak ada artinya dan sebaiknya dihindari.
• Jika objective dari analisa data adalah untuk mengurangi jumlah variable
(principle component) yang merupakan kombinasi linear dari variable-variable
asli maka jumlah variable asli, maka jumlah principle component harus kurang
dari jumlah variable asli. Dalam kasus seperti ini, PCA hanya boleh dilakukan bila
data dapat direpresentasikan dalam beberapa buah principle component tanpa
menghilangkan informasi secara substansial (without a substantial loss of
information).
Tugas Dan Proyek Pelatihan
Silahkan mengerjakan Quiz Modul 10 pada LMS Kominfo.
Link Referensi Modul Pertama
1. Ozdemir, Sinan Susarla, Divya - Feature engineering made easy identify unique features from your
dataset in order to build powerful machine learning systems (2018, Packt Publishing)
2. Dong, Guozhu, Liu, H. - Feature Engineering For Machine Learning and Data Analytics
3. Chandra, Andreas. 2019. Memahami Data Dengan Exploratory Data Analysis.
https://medium.com/data-folks-indonesia/memahami-data-dengan-exploratory-data-analysis-
a53b230cce84.
4. Kurniawan, Robert, Gama Putra Danu Sohibien, and Rini Rahani. 2019. Cara Mudah Belajar Statistik
Analisis Data & Eksplorasi. 1st Editio. Kencana.
https://books.google.co.id/books?hl=en&lr=&id=zFgCEAAAQBAJ&oi=fnd&pg=PP1&dq=Analisis+Data
+Eksplorasi+(EDA)+pdf&ots=9X620ivw_N&sig=YC4P5-
X9awyHkfQ3UUntOv0oTcU&redir_esc=y#v=onepage&q&f=false.
5. Mishra, Sidharth Prasad et al. 2017. “Multivariate Statistical Data Analysis- Principal Component
Analysis (PCA).” International Journal of Livestock Research 7(5): 60–78.
6. https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15
7. https://www.sartorius.com/en/knowledge/science-snippets/what-is-principal-component-analysis-
pca-and-how-it-is-used-507186
Link Pertanyaan Modul Petama
Bahan Tayang
Power Point
Link room Pelatihan dan Jadwal live sesi bersama instruktur
Zoom
Penilaian
Komposisi penilaian Tugas Data Science : Nilai 100
Target Penyelesaian Modul Pertama
1 hari / sampai 6 JP
10 feature engineering-univ-gunadarma

More Related Content

What's hot

Analisis dan perancangan sistem informasi
Analisis dan perancangan sistem informasiAnalisis dan perancangan sistem informasi
Analisis dan perancangan sistem informasi
Dyah Ayu Damayanti
 
Sistem Basis Data(PPT)
Sistem Basis Data(PPT)Sistem Basis Data(PPT)
Sistem Basis Data(PPT)tafrikan
 
4. tools proyek data science dts ta v.2
4. tools proyek data science dts ta v.24. tools proyek data science dts ta v.2
4. tools proyek data science dts ta v.2
ArdianDwiPraba
 
3. metodologi data science dts ta v.1
3. metodologi data science dts ta v.13. metodologi data science dts ta v.1
3. metodologi data science dts ta v.1
ArdianDwiPraba
 
Visualisasi Data.pptx
Visualisasi Data.pptxVisualisasi Data.pptx
Visualisasi Data.pptx
MichelleWalakandou1
 
10.kompresi citra
10.kompresi citra10.kompresi citra
10.kompresi citra
Rakhmi Khalida, M.M.S.I
 
Bab 4 operasi-operasi dasar pengolahan citra dijital
Bab 4 operasi-operasi dasar pengolahan citra dijitalBab 4 operasi-operasi dasar pengolahan citra dijital
Bab 4 operasi-operasi dasar pengolahan citra dijital
Syafrizal
 
Data, Informasi, dan Pengetahuan
Data, Informasi, dan PengetahuanData, Informasi, dan Pengetahuan
Data, Informasi, dan Pengetahuan
Sinath Sabado
 
Perancangan dan Analisa Sistem
Perancangan dan Analisa SistemPerancangan dan Analisa Sistem
Perancangan dan Analisa Sistemguestb7aaaf1e
 
Kebutuhan Data Warehouse
Kebutuhan Data WarehouseKebutuhan Data Warehouse
Kebutuhan Data Warehouse
dedidarwis
 
9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma
ArdianDwiPraba
 
Data mining 8 estimasi linear regression
Data mining 8   estimasi linear regressionData mining 8   estimasi linear regression
Data mining 8 estimasi linear regression
IrwansyahSaputra1
 
16.modul melakukan deployment model (final) v1 1
16.modul melakukan deployment model (final) v1 116.modul melakukan deployment model (final) v1 1
16.modul melakukan deployment model (final) v1 1
ArdianDwiPraba
 
Makalah statistika dasar 2015 universitas sriwijaya
Makalah statistika dasar 2015 universitas sriwijayaMakalah statistika dasar 2015 universitas sriwijaya
Makalah statistika dasar 2015 universitas sriwijaya
Dhea Budiman
 
Modul 03 Dasar Pemodelan
Modul 03 Dasar PemodelanModul 03 Dasar Pemodelan
Modul 03 Dasar Pemodelan
Arif Rahman
 
20731 21 visualisasi data
20731 21 visualisasi data20731 21 visualisasi data
20731 21 visualisasi data
Universitas Bina Darma Palembang
 
Big Data
Big DataBig Data
Bahasa Query Terapan
Bahasa Query TerapanBahasa Query Terapan
Bahasa Query Terapan
Sherly Uda
 
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v27. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
ArdianDwiPraba
 
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
Lucha Kamala Putri
 

What's hot (20)

Analisis dan perancangan sistem informasi
Analisis dan perancangan sistem informasiAnalisis dan perancangan sistem informasi
Analisis dan perancangan sistem informasi
 
Sistem Basis Data(PPT)
Sistem Basis Data(PPT)Sistem Basis Data(PPT)
Sistem Basis Data(PPT)
 
4. tools proyek data science dts ta v.2
4. tools proyek data science dts ta v.24. tools proyek data science dts ta v.2
4. tools proyek data science dts ta v.2
 
3. metodologi data science dts ta v.1
3. metodologi data science dts ta v.13. metodologi data science dts ta v.1
3. metodologi data science dts ta v.1
 
Visualisasi Data.pptx
Visualisasi Data.pptxVisualisasi Data.pptx
Visualisasi Data.pptx
 
10.kompresi citra
10.kompresi citra10.kompresi citra
10.kompresi citra
 
Bab 4 operasi-operasi dasar pengolahan citra dijital
Bab 4 operasi-operasi dasar pengolahan citra dijitalBab 4 operasi-operasi dasar pengolahan citra dijital
Bab 4 operasi-operasi dasar pengolahan citra dijital
 
Data, Informasi, dan Pengetahuan
Data, Informasi, dan PengetahuanData, Informasi, dan Pengetahuan
Data, Informasi, dan Pengetahuan
 
Perancangan dan Analisa Sistem
Perancangan dan Analisa SistemPerancangan dan Analisa Sistem
Perancangan dan Analisa Sistem
 
Kebutuhan Data Warehouse
Kebutuhan Data WarehouseKebutuhan Data Warehouse
Kebutuhan Data Warehouse
 
9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma
 
Data mining 8 estimasi linear regression
Data mining 8   estimasi linear regressionData mining 8   estimasi linear regression
Data mining 8 estimasi linear regression
 
16.modul melakukan deployment model (final) v1 1
16.modul melakukan deployment model (final) v1 116.modul melakukan deployment model (final) v1 1
16.modul melakukan deployment model (final) v1 1
 
Makalah statistika dasar 2015 universitas sriwijaya
Makalah statistika dasar 2015 universitas sriwijayaMakalah statistika dasar 2015 universitas sriwijaya
Makalah statistika dasar 2015 universitas sriwijaya
 
Modul 03 Dasar Pemodelan
Modul 03 Dasar PemodelanModul 03 Dasar Pemodelan
Modul 03 Dasar Pemodelan
 
20731 21 visualisasi data
20731 21 visualisasi data20731 21 visualisasi data
20731 21 visualisasi data
 
Big Data
Big DataBig Data
Big Data
 
Bahasa Query Terapan
Bahasa Query TerapanBahasa Query Terapan
Bahasa Query Terapan
 
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v27. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
 
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
 

Similar to 10 feature engineering-univ-gunadarma

Data Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdfData Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdf
HendroGunawan8
 
MODUL DATA MINING
MODUL DATA MININGMODUL DATA MINING
MODUL DATA MINING
NanzalXIV
 
Analisis data merupakan salah satu langk
Analisis data merupakan salah satu langkAnalisis data merupakan salah satu langk
Analisis data merupakan salah satu langk
erwinbaruadi90
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
RinnaRachmatika2
 
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...Suhaili Hanafi
 
Arsitektur dan model data mining
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data mining
Universitas Bina Darma Palembang
 
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTERPERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
SitiOlis
 
PERTEMUAN 9DPB.pptx
PERTEMUAN 9DPB.pptxPERTEMUAN 9DPB.pptx
PERTEMUAN 9DPB.pptx
CherlinaPanjaitan
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian data
Kacung Abdullah
 
educational research
educational researcheducational research
educational research
harjunode
 
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxHerwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
SuraClips
 
Analisis data kualitatif
Analisis data kualitatifAnalisis data kualitatif
Analisis data kualitatif
wmkfirdaus
 
MateriDSS-SKP.ppt
MateriDSS-SKP.pptMateriDSS-SKP.ppt
MateriDSS-SKP.ppt
purwantoid1
 
Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1
Fariszal Nova
 
BAB_5_Data_Mining.ppt
BAB_5_Data_Mining.pptBAB_5_Data_Mining.ppt
BAB_5_Data_Mining.ppt
NursalamSalampessy
 
Kecerdasan bisnis
Kecerdasan bisnisKecerdasan bisnis
Kecerdasan bisnis
HehePangibulan2
 

Similar to 10 feature engineering-univ-gunadarma (20)

Data Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdfData Mining Diskusi 3.pdf
Data Mining Diskusi 3.pdf
 
MODUL DATA MINING
MODUL DATA MININGMODUL DATA MINING
MODUL DATA MINING
 
Analisis data merupakan salah satu langk
Analisis data merupakan salah satu langkAnalisis data merupakan salah satu langk
Analisis data merupakan salah satu langk
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
 
10
1010
10
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
 
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
 
Arsitektur dan model data mining
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data mining
 
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTERPERANCANGAN BASIS DATA - SISTEM KOMPUTER
PERANCANGAN BASIS DATA - SISTEM KOMPUTER
 
PERTEMUAN 9DPB.pptx
PERTEMUAN 9DPB.pptxPERTEMUAN 9DPB.pptx
PERTEMUAN 9DPB.pptx
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian data
 
educational research
educational researcheducational research
educational research
 
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxHerwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
 
Login.hotspot.bsi
Login.hotspot.bsiLogin.hotspot.bsi
Login.hotspot.bsi
 
Pertemuan 1
Pertemuan 1Pertemuan 1
Pertemuan 1
 
Analisis data kualitatif
Analisis data kualitatifAnalisis data kualitatif
Analisis data kualitatif
 
MateriDSS-SKP.ppt
MateriDSS-SKP.pptMateriDSS-SKP.ppt
MateriDSS-SKP.ppt
 
Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1
 
BAB_5_Data_Mining.ppt
BAB_5_Data_Mining.pptBAB_5_Data_Mining.ppt
BAB_5_Data_Mining.ppt
 
Kecerdasan bisnis
Kecerdasan bisnisKecerdasan bisnis
Kecerdasan bisnis
 

More from ArdianDwiPraba

15. modul model evaluasi v 0.6
15. modul model evaluasi v 0.615. modul model evaluasi v 0.6
15. modul model evaluasi v 0.6
ArdianDwiPraba
 
14. modul ta dts2021 model ann 14 juli 2021-v2
14. modul ta dts2021   model ann 14 juli 2021-v214. modul ta dts2021   model ann 14 juli 2021-v2
14. modul ta dts2021 model ann 14 juli 2021-v2
ArdianDwiPraba
 
13. modul ta dts2021 clustering
13. modul ta dts2021 clustering13. modul ta dts2021 clustering
13. modul ta dts2021 clustering
ArdianDwiPraba
 
12 regresi
12 regresi12 regresi
12 regresi
ArdianDwiPraba
 
2 modul 2 - ta dts2021
2 modul 2 - ta dts20212 modul 2 - ta dts2021
2 modul 2 - ta dts2021
ArdianDwiPraba
 

More from ArdianDwiPraba (6)

15. modul model evaluasi v 0.6
15. modul model evaluasi v 0.615. modul model evaluasi v 0.6
15. modul model evaluasi v 0.6
 
14. modul ta dts2021 model ann 14 juli 2021-v2
14. modul ta dts2021   model ann 14 juli 2021-v214. modul ta dts2021   model ann 14 juli 2021-v2
14. modul ta dts2021 model ann 14 juli 2021-v2
 
13. modul ta dts2021 clustering
13. modul ta dts2021 clustering13. modul ta dts2021 clustering
13. modul ta dts2021 clustering
 
12 regresi
12 regresi12 regresi
12 regresi
 
1 modul 1
1 modul 11 modul 1
1 modul 1
 
2 modul 2 - ta dts2021
2 modul 2 - ta dts20212 modul 2 - ta dts2021
2 modul 2 - ta dts2021
 

Recently uploaded

TM 2-4 Perubahan Fisiologis Kehamilan.pptx
TM 2-4 Perubahan Fisiologis Kehamilan.pptxTM 2-4 Perubahan Fisiologis Kehamilan.pptx
TM 2-4 Perubahan Fisiologis Kehamilan.pptx
rifdahatikah1
 
BAHAN AJAR 25 KETRAMPILAN KADER POSYANDU.pptx
BAHAN AJAR 25 KETRAMPILAN KADER POSYANDU.pptxBAHAN AJAR 25 KETRAMPILAN KADER POSYANDU.pptx
BAHAN AJAR 25 KETRAMPILAN KADER POSYANDU.pptx
lansiapola
 
sudden death-akibat penyakit cardio vascular-forensik.pptx
sudden death-akibat penyakit cardio vascular-forensik.pptxsudden death-akibat penyakit cardio vascular-forensik.pptx
sudden death-akibat penyakit cardio vascular-forensik.pptx
muhammadrezkizanuars
 
RUU KESEHATAN (apt. Guntur Satrio Pratomo).pptx
RUU KESEHATAN (apt. Guntur Satrio Pratomo).pptxRUU KESEHATAN (apt. Guntur Satrio Pratomo).pptx
RUU KESEHATAN (apt. Guntur Satrio Pratomo).pptx
nadyahermawan
 
0838-4800-7379Jual Obat Aborsi Cytotec Asli.pdf
0838-4800-7379Jual Obat Aborsi Cytotec Asli.pdf0838-4800-7379Jual Obat Aborsi Cytotec Asli.pdf
0838-4800-7379Jual Obat Aborsi Cytotec Asli.pdf
jualobat34
 
Aplikasi Teori/Model pada Praktik, Penelitian, dan Pendidikan Keperawatan
Aplikasi Teori/Model pada Praktik, Penelitian, dan Pendidikan KeperawatanAplikasi Teori/Model pada Praktik, Penelitian, dan Pendidikan Keperawatan
Aplikasi Teori/Model pada Praktik, Penelitian, dan Pendidikan Keperawatan
BayuEkaKurniawan1
 
80533176-LAPORAN-KASUS-Asma-Bronkial.pptx
80533176-LAPORAN-KASUS-Asma-Bronkial.pptx80533176-LAPORAN-KASUS-Asma-Bronkial.pptx
80533176-LAPORAN-KASUS-Asma-Bronkial.pptx
YernimaDaeli1
 
Manajemen Keperawatan pada pasien gangguan jiwa
Manajemen Keperawatan pada pasien gangguan jiwaManajemen Keperawatan pada pasien gangguan jiwa
Manajemen Keperawatan pada pasien gangguan jiwa
iskandar186656
 
Malpraktek & Kelalaian dalam kesehatan.pptx
Malpraktek & Kelalaian dalam kesehatan.pptxMalpraktek & Kelalaian dalam kesehatan.pptx
Malpraktek & Kelalaian dalam kesehatan.pptx
LyanNurse1
 
KEBIJK_Jaminan_kesehatan_Indonesia _014.ppt
KEBIJK_Jaminan_kesehatan_Indonesia _014.pptKEBIJK_Jaminan_kesehatan_Indonesia _014.ppt
KEBIJK_Jaminan_kesehatan_Indonesia _014.ppt
gerald rundengan
 
audit stunting Desa Bengkak Kecamatan wongsorejo
audit stunting Desa Bengkak Kecamatan wongsorejoaudit stunting Desa Bengkak Kecamatan wongsorejo
audit stunting Desa Bengkak Kecamatan wongsorejo
ReniAnjarwati
 
CBT BOARD INTERNAL Medicine chapter xxxx
CBT BOARD INTERNAL Medicine chapter xxxxCBT BOARD INTERNAL Medicine chapter xxxx
CBT BOARD INTERNAL Medicine chapter xxxx
MuhammadAlFarizi88
 
Herbal penggugur kandungan Makassar obat aborsi janin makassar jamu penggugur...
Herbal penggugur kandungan Makassar obat aborsi janin makassar jamu penggugur...Herbal penggugur kandungan Makassar obat aborsi janin makassar jamu penggugur...
Herbal penggugur kandungan Makassar obat aborsi janin makassar jamu penggugur...
Cara Menggugurkan Kandungan 087776558899
 
tiroid penyakit pada tubuh yang harus di.ppt
tiroid penyakit pada tubuh yang harus di.ppttiroid penyakit pada tubuh yang harus di.ppt
tiroid penyakit pada tubuh yang harus di.ppt
HanifaYR
 
Askep-Anak-dengan-gangguan malnutris.ppt
Askep-Anak-dengan-gangguan malnutris.pptAskep-Anak-dengan-gangguan malnutris.ppt
Askep-Anak-dengan-gangguan malnutris.ppt
fitrianakartikasari5
 
Jamu Penggugur obat penggugur herbal penggugur kandungan (087776558899)
Jamu Penggugur obat penggugur herbal penggugur kandungan (087776558899)Jamu Penggugur obat penggugur herbal penggugur kandungan (087776558899)
Jamu Penggugur obat penggugur herbal penggugur kandungan (087776558899)
Cara Menggugurkan Kandungan 087776558899
 
PEMERIKSAAN KESEHATAN USIA DASAR DAN SEKOLAH.pdf
PEMERIKSAAN KESEHATAN USIA DASAR DAN SEKOLAH.pdfPEMERIKSAAN KESEHATAN USIA DASAR DAN SEKOLAH.pdf
PEMERIKSAAN KESEHATAN USIA DASAR DAN SEKOLAH.pdf
celli4
 
Bahan ajar - INTERAKSI ANTIGEN DAN ANTIBODI-.ppt
Bahan ajar - INTERAKSI ANTIGEN DAN ANTIBODI-.pptBahan ajar - INTERAKSI ANTIGEN DAN ANTIBODI-.ppt
Bahan ajar - INTERAKSI ANTIGEN DAN ANTIBODI-.ppt
UmmyKhairussyifa1
 
PPT PENGKAJIAN SISTEM MUSKULOSKELETAL 2.pptx
PPT PENGKAJIAN SISTEM MUSKULOSKELETAL 2.pptxPPT PENGKAJIAN SISTEM MUSKULOSKELETAL 2.pptx
PPT PENGKAJIAN SISTEM MUSKULOSKELETAL 2.pptx
EmohAsJohn
 
FIN_Kebijakan Skrining Bayi Baru Lahir.pdf
FIN_Kebijakan Skrining Bayi Baru Lahir.pdfFIN_Kebijakan Skrining Bayi Baru Lahir.pdf
FIN_Kebijakan Skrining Bayi Baru Lahir.pdf
helixyap92
 

Recently uploaded (20)

TM 2-4 Perubahan Fisiologis Kehamilan.pptx
TM 2-4 Perubahan Fisiologis Kehamilan.pptxTM 2-4 Perubahan Fisiologis Kehamilan.pptx
TM 2-4 Perubahan Fisiologis Kehamilan.pptx
 
BAHAN AJAR 25 KETRAMPILAN KADER POSYANDU.pptx
BAHAN AJAR 25 KETRAMPILAN KADER POSYANDU.pptxBAHAN AJAR 25 KETRAMPILAN KADER POSYANDU.pptx
BAHAN AJAR 25 KETRAMPILAN KADER POSYANDU.pptx
 
sudden death-akibat penyakit cardio vascular-forensik.pptx
sudden death-akibat penyakit cardio vascular-forensik.pptxsudden death-akibat penyakit cardio vascular-forensik.pptx
sudden death-akibat penyakit cardio vascular-forensik.pptx
 
RUU KESEHATAN (apt. Guntur Satrio Pratomo).pptx
RUU KESEHATAN (apt. Guntur Satrio Pratomo).pptxRUU KESEHATAN (apt. Guntur Satrio Pratomo).pptx
RUU KESEHATAN (apt. Guntur Satrio Pratomo).pptx
 
0838-4800-7379Jual Obat Aborsi Cytotec Asli.pdf
0838-4800-7379Jual Obat Aborsi Cytotec Asli.pdf0838-4800-7379Jual Obat Aborsi Cytotec Asli.pdf
0838-4800-7379Jual Obat Aborsi Cytotec Asli.pdf
 
Aplikasi Teori/Model pada Praktik, Penelitian, dan Pendidikan Keperawatan
Aplikasi Teori/Model pada Praktik, Penelitian, dan Pendidikan KeperawatanAplikasi Teori/Model pada Praktik, Penelitian, dan Pendidikan Keperawatan
Aplikasi Teori/Model pada Praktik, Penelitian, dan Pendidikan Keperawatan
 
80533176-LAPORAN-KASUS-Asma-Bronkial.pptx
80533176-LAPORAN-KASUS-Asma-Bronkial.pptx80533176-LAPORAN-KASUS-Asma-Bronkial.pptx
80533176-LAPORAN-KASUS-Asma-Bronkial.pptx
 
Manajemen Keperawatan pada pasien gangguan jiwa
Manajemen Keperawatan pada pasien gangguan jiwaManajemen Keperawatan pada pasien gangguan jiwa
Manajemen Keperawatan pada pasien gangguan jiwa
 
Malpraktek & Kelalaian dalam kesehatan.pptx
Malpraktek & Kelalaian dalam kesehatan.pptxMalpraktek & Kelalaian dalam kesehatan.pptx
Malpraktek & Kelalaian dalam kesehatan.pptx
 
KEBIJK_Jaminan_kesehatan_Indonesia _014.ppt
KEBIJK_Jaminan_kesehatan_Indonesia _014.pptKEBIJK_Jaminan_kesehatan_Indonesia _014.ppt
KEBIJK_Jaminan_kesehatan_Indonesia _014.ppt
 
audit stunting Desa Bengkak Kecamatan wongsorejo
audit stunting Desa Bengkak Kecamatan wongsorejoaudit stunting Desa Bengkak Kecamatan wongsorejo
audit stunting Desa Bengkak Kecamatan wongsorejo
 
CBT BOARD INTERNAL Medicine chapter xxxx
CBT BOARD INTERNAL Medicine chapter xxxxCBT BOARD INTERNAL Medicine chapter xxxx
CBT BOARD INTERNAL Medicine chapter xxxx
 
Herbal penggugur kandungan Makassar obat aborsi janin makassar jamu penggugur...
Herbal penggugur kandungan Makassar obat aborsi janin makassar jamu penggugur...Herbal penggugur kandungan Makassar obat aborsi janin makassar jamu penggugur...
Herbal penggugur kandungan Makassar obat aborsi janin makassar jamu penggugur...
 
tiroid penyakit pada tubuh yang harus di.ppt
tiroid penyakit pada tubuh yang harus di.ppttiroid penyakit pada tubuh yang harus di.ppt
tiroid penyakit pada tubuh yang harus di.ppt
 
Askep-Anak-dengan-gangguan malnutris.ppt
Askep-Anak-dengan-gangguan malnutris.pptAskep-Anak-dengan-gangguan malnutris.ppt
Askep-Anak-dengan-gangguan malnutris.ppt
 
Jamu Penggugur obat penggugur herbal penggugur kandungan (087776558899)
Jamu Penggugur obat penggugur herbal penggugur kandungan (087776558899)Jamu Penggugur obat penggugur herbal penggugur kandungan (087776558899)
Jamu Penggugur obat penggugur herbal penggugur kandungan (087776558899)
 
PEMERIKSAAN KESEHATAN USIA DASAR DAN SEKOLAH.pdf
PEMERIKSAAN KESEHATAN USIA DASAR DAN SEKOLAH.pdfPEMERIKSAAN KESEHATAN USIA DASAR DAN SEKOLAH.pdf
PEMERIKSAAN KESEHATAN USIA DASAR DAN SEKOLAH.pdf
 
Bahan ajar - INTERAKSI ANTIGEN DAN ANTIBODI-.ppt
Bahan ajar - INTERAKSI ANTIGEN DAN ANTIBODI-.pptBahan ajar - INTERAKSI ANTIGEN DAN ANTIBODI-.ppt
Bahan ajar - INTERAKSI ANTIGEN DAN ANTIBODI-.ppt
 
PPT PENGKAJIAN SISTEM MUSKULOSKELETAL 2.pptx
PPT PENGKAJIAN SISTEM MUSKULOSKELETAL 2.pptxPPT PENGKAJIAN SISTEM MUSKULOSKELETAL 2.pptx
PPT PENGKAJIAN SISTEM MUSKULOSKELETAL 2.pptx
 
FIN_Kebijakan Skrining Bayi Baru Lahir.pdf
FIN_Kebijakan Skrining Bayi Baru Lahir.pdfFIN_Kebijakan Skrining Bayi Baru Lahir.pdf
FIN_Kebijakan Skrining Bayi Baru Lahir.pdf
 

10 feature engineering-univ-gunadarma

  • 1. Pendahuluan Unit kompetensi ini berhubungan dengan pengetahuan, keterampilan, dan sikap kerja yang dibutuhkan dalam mengkonstruksikan data untuk proyek data science. A. Tujuan Umum Setelah mempelajari modul ini peserta latih diharapkan mampu menjelaskan data preparation mengenai feature engineering, yaitu Analisis Data Eksplorasi (EDA), dan Principal Component Analysis (PCA) menggunakan data science dan menerapkannya untuk suatu permasalahan data science. B. Tujuan Khusus Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data Science adalah • Menganalisis data untuk mementukan representasi data awal • Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam bentuk tertulis • Menentukan fitur mana yang paling penting dengan informasi yang saling mendukung satu sama lain. • Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian permasalahan dunia nyata • Melakukan analisis hasil pelabelan data • Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality categoricals) dengan pendekatan encoding yang tepat • Melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama (Principal Component Analysis) Latar belakang Unit kompetensi ini dinilai berdasarkan tingkat kemampuan peserta dalam memahami visualisasi dari teknologi AI. Adapun penilaian dilakukan dengan menggabungkan serangkaian metode untuk menilai kemampuan dan penerapan pengetahuan pendukung penting. Penilaian dilakukan dengan mengacu kepada Kriteria Unjuk Kerja (KUK) dan dilaksanakn di Tempat Uji Kompetensi (TUK), ruang simulasi atau workshop dengan cara: 1.1. Lisan 1.2. Wawancara 1.3. Tes tertulis 1.4. Metode lain yang relevan
  • 2. Tujuan Pembelajaran A. Tujuan Umum Setelah mempelajari modul ini peserta latih diharapkan mampu memahami pembelajaran mesin, penambangan data, dan data analytics mengandalkan dan dapat mengambil manfaat dari rekayasa fitur yang efektif B. Tujuan Khusus Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data Science adalah A. Menganalisis data untuk mementukan representasi data awal B. Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam bentuk tertulis C. Menentukan fitur mana yang paling penting dengan informasi yang saling mendukung satu sama lain. D. Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian permasalahan dunia nyata E. Melakukan analisis hasil pelabelan data F. Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality categoricals) dengan pendekatan encoding yang tepat G. Melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama (Principal Component Analysis) Deskripsi Pelatihan Materi ini berisi penjelasan Secara umum, semua pembelajaran mesin, penambangan data, dan data analytics mengandalkan dan dapat mengambil manfaat dari rekayasa fitur yang efektif. Tugas khusus meliputi klasifikasi, regresi, pengelompokan, deteksi outlier, pola/aturan, pemodelan prediktif, pembedaan dan karakterisasi kelas data, penemuan konsep, pembelajaran jarak jauh, estimasi probabilitas, konstruksi ontologi/taksonomi, pencarian informasi, intelijen bisnis, dan sebagainya Kompetensi Dasar • Mampu menganalisis data untuk mementukan representasi data awal
  • 3. • Mampu menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam bentuk tertulis • Mampu menentukan fitur mana yang paling penting dengan informasi yang saling mendukung satu sama lain. • Mampu merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian permasalahan dunia nyata • Mampu melakukan analisis hasil pelabelan data • Mampu melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality categoricals) dengan pendekatan encoding yang tepat • Mampu melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama (Principal Component Analysis) Indikator Hasil Belajar Dapat melakukan analisis data, menjelaskan tahapan transformasi data, menentukan fitur mana yang paling penting, merekayasa fitur, melakukan analisis hasil pelabelan data, melakukan kodefikasi kategori dengan kardinalitas tinggi dan melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama
  • 4. INFORMASI PELATIHAN Akademi Thematic Academy Mitra Pelatihan Kementerian Komunikasi dan Informatika Tema Pelatihan Data Scientist: Artificial Intelligence untuk Dosen dan Instruktur Sertifikasi • Certificate of Attainment; • Sertifikat Kompetensi Associate Data Scientist Persyaratan Sarana Peserta/spesifikasi device Tools/media ajar yang akan digunakan Memiliki laptop/komputer dengan spesifikasi minimal : • RAM minimal 2 GB (disarankan 4 GB) • Laptop dengan 32/64-bit processor • Laptop dengan Operating System Windows 7, 8, 10, MacOS X atau Linux • Laptop dengan konektivitas WiFi dan memiliki Webcam • Akses Internet Dedicated 126 kbps per peserta per perangkat • Memiliki aplikasi Zoom • Memiliki akun Google Colab Aplikasi yang akan di gunakan selamat pelatihan • Spyder • Jupyter notebook Tim Penyusun Dr. Rer. Nat. I Made Wiryana (Universitas Gunadarma) Dr. Miftah Andriansyah (Universitas Gunadarma) Dr. Astie Darmayantie (Universitas Gunadarma)
  • 5. INFORMASI PEMBELAJARAN Unit Kompetensi Materi pembelajaran Kegiatan pembelajaran Durasi Pelatihan Rasio Praktek : Teori Sumber pembelajaran Dapat melakukan analisis data, menjelaskan tahapan transformasi data, menentukan fitur mana yang paling penting, merekayasa fitur, melakukan analisis hasil pelabelan data, melakukan kodefikasi kategori dengan kardinalitas tinggi dan melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama Data Science Daring / Online Live Class 2 JP LMS 4 JP @ 45 menit 70:30 LMS Materi Pokok Data Science Sub Materi Pokok • Prolog • Feature vs Feature Engineering • Fase Feature Engineering o Feature Understanding o Feature transformation
  • 6. o Feature generation o Feature selection o Feature analysis and evaluation • Case Study
  • 7. MATERI PELATIHAN 1. Prolog Mengapa Rekayasa Fitur Penting? Ilmuwan data dan insinyur pembelajaran mesin sering mengumpulkan data untuk memecahkan masalah kehidupan nyata. Insinyur ini memiliki pekerjaan unik dalam merancang pipa dan arsitektur yang dirancang untuk menangani dan mengubah data mentah menjadi sesuatu yang dapat digunakan oleh seluruh perusahaan, terutama ilmuwan data dan insinyur pembelajaran mesin. Gambar 1. Hasil Survey Sebuah survei yang dilakukan oleh para ilmuwan data di lapangan mengungkapkan bahwa lebih dari 80% waktu dari data scientist dihabiskan untuk mengumpulkan, membersihkan, dan mengorganisir data. Kurang dari 20% sisa waktu mereka dihabiskan untuk membangun algoritma atau model.
  • 8. Gambar 2. Hasil Survey Sebuah survei yang sama juga dilakukan untuk mengetahui bagian pekerjaan mana yang dirasa kurang menyenangkan, hasilnya 77% responden mengatakan fase mengumpulkan, membersihkan, dan mengorganisir data. adalah fase yang dirasa kurang menyenangkan. “A stellar data scientist knows that preparing data is not only so important that it takes up most of their time, they also know that it is an arduous process and can be unenjoyable. Far too often, we take for granted clean data given to us by machine learning competitions and academic sources. More than 90% of data, the data that is interesting, and the most useful, exists in this raw format.” Dikutip dari: Sinan Ozdemir. “Feature Engineering Made Easy.”
  • 9. Gambar 3. Data Cleaning Menyiapkan data bisa menjadi pekerjaan yang tidak jelas batasannya. Persiapan memperhitungkan pengambilan data, penyimpanan data, pembersihan data, dan sebagainya. Seperti yang terlihat pada bagan yang ditunjukkan sebelumnya, sebagian kecil, tetapi masih sebagian besar waktu ilmuwan data dihabiskan untuk membersihkan dan mengatur data. Dalam proses inilah tugas terbesar dari seorang data scientist. Berikut simulasi perbedaan tahapan data cleaning dan data organizing Transformasi pembersihan sampel log server yang mencakup data dan penjelasan teks tentang apa yang terjadi di server. Perhatikan bahwa saat membersihkan, &amp; karakter, yang merupakan karakter Unicode, diubah menjadi ampersand (&) yang lebih mudah dibaca. Fase pembersihan meninggalkan dokumen dalam format yang sama persis seperti sebelumnya. Gambar 4. Data Organizing
  • 10. • Transformasi pengorganisasian terbawah jauh lebih radikal. Itu mengubah dokumen mentah menjadi struktur baris/kolom, di mana setiap baris mewakili satu tindakan yang diambil oleh server dan kolom mewakili atribut dari tindakan server. Dalam hal ini, dua atribut adalah Tanggal dan Teks. • Baik pembersihan maupun pengorganisasian termasuk dalam kategori ilmu data yang lebih besar, yang itu rekayasa fitur. Atau feature engineering • Kutipan Dari: Sinan Ozdemir. “Rekayasa Fitur Menjadi Mudah.” Buku Apel. 2. Feature vs Feature Engineering Dalam konteks machine learning, data mining, dan data analytics, sebuah fitur (feature) adalah sebuah atribut atau variabel yang digunakan untuk merepresentasikan atau mendeskripsikan sebuah aspek dari obyek tertentu. Sebagai contoh : Gambar 5. Contoh Feature Macam-macam Fitur: • Fitur informatif adalah dasar untuk analisis data. Mereka berguna untuk • menggambarkan objek yang mendasari, dan untuk membedakan dan mengkarakterisasi
  • 11. • kelompok objek yang berbeda (eksplisit atau laten). Mereka juga penting untuk memproduksi • model prediksi yang akurat dan mudah dijelaskan, dan menghasilkan hasil yang baik dalam • berbagai tugas analitik data. "Fitur," "variabel," dan "atribut" sering • digunakan sebagai sinonim. • Untuk aplikasi tertentu dan titik waktu tertentu, sering kali himpunan tetap • fitur secara implisit dipilih untuk menggambarkan semua objek data yang mendasarinya; setiap objek • mengambil nilai tertentu untuk masing-masing fitur tersebut. Ini menghasilkan representasi objek data berbasis vektor fitur. • Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan numerik. Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda, • karena perbedaan struktural dalam domain mereka. Feature • Fitur yang informatif merupakan fundamental dasar dari analisis data. • Fitur menggambar menggambarkan objek yang mendasari, dan untuk membedakan dan mengkarakterisasi kelompok objek yang berbeda (eksplisit atau laten). • Fitur sangat penting untuk menghasilkan model prediksi yang akurat dan mudah dijelaskan, dan menghasilkan hasil yang baik dalam berbagai tugas analitik data.
  • 12. Gambar 6. Komponen Fitur 2.1 Mengerti hal mendasar tentang feature: Gambar 7. Atribut, Data Observasi a. Setiap baris data, atau dikenal sebagai observasi, mewakili satu contoh/contoh masalah. Jika data kami termasuk dalam domain perdagangan hari di pasar saham, pengamatan mungkin mewakili perubahan satu jam di pasar dan harga secara keseluruhan. b. Dalam contoh berikut untuk kasus network security Setiap baris berisi data dateTime, protocol, urgentm malicious.
  • 13. Gambar 8. Atribut, Data Observasi c. Kita akan menganggap data sebagai table. d. Anda juga dapat melihat contoh spesifik di mana matriks data hanya memiliki satu kolom/atribut. Misalnya, jika kita sedang membangun sebuah perangkat lunak yang mampu mengambil satu gambar dari sebuah ruangan dan menampilkan apakah ada manusia di ruangan itu atau tidak. Data untuk input dapat direpresentasikan sebagai matriks satu kolom di mana kolom tunggal hanyalah URL ke foto sebuah ruangan dan tidak ada yang lain. e. Misalnya, mengingat tabel tabel berikut yang hanya memiliki satu kolom berjudul, URL Foto. Nilai tabel adalah URL (ini palsu dan tidak mengarah ke mana pun dan murni misalnya) foto yang relevan f. Data yang diinput ke sistem mungkin hanya satu kolom, seperti dalam kasus ini. Dalam kemampuan kami untuk membuat sistem yang dapat menganalisis gambar, masukannya mungkin hanya berupa URL ke gambar yang dimaksud. Kehendak kita sebagai ilmuwan data untuk merekayasa fitur dari URL. g. Sebagai ilmuwan data, kita harus siap untuk mencerna dan menangani data yang mungkin besar, kecil, lebar, sempit (dalam hal atribut), jarang dalam penyelesaian (mungkin ada nilai yang hilang), dan siap untuk memanfaatkan data ini untuk tujuan pembelajaran mesin. Sekarang saat yang tepat untuk berbicara lebih banyak tentang itu. Algoritme pembelajaran mesin termasuk dalam kelas algoritme yang ditentukan oleh kemampuannya untuk mengekstrak dan mengeksploitasi pola dalam data untuk menyelesaikan tugas berdasarkan data pelatihan historis. 2.3 Kesimpulan Feature: • Untuk aplikasi tertentu dan dengan domain waktu tertentu, seringkali sekumpulan fitur tetap dipilih secara implisit untuk menggambarkan semua objek data yang mendasarinya; setiap objek mengambil nilai tertentu untuk masing- masing fitur tersebut. • Hal ini menghasilkan representasi berbasis vektor fitur dari objek data.
  • 14. • Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan numerik. • Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda, karena perbedaan struktural dalam domainnya. 2.4 Beberapa jenis fitur, antara lain • Kategori Fitur berjenis kategori biasanya merupakan sebuah himpunan yang berisi nilai diskrit. Sebagai contoh warna merupakan sebuah fitur berjenis kategori yang dapat memiliki nilai {hitam, biru, kuning, cokelat, merah} Contoh lainnya adalah nilai binary, yang mana fitur tersebut hanya dapat memiliki salah satu dari dua nilai yaitu 0 atau 1. • Ordinal, Contoh fitur ordinal adalah Degree dimana berisi {Bachelorm Master, PhD} dimana ketiga value tersebut di urutkan sebagai berikut Bachelor < Master < PhD • Numerik. Fitur jenis ini berisi himpunan nilai numerik. Jenis fitur ini juga sering disebut sebagai fitur quantitative atau continuous. Sebagai contoh: sebuah fitur umur adalah sebuah fitur berjenis numerik dimana merupakan sebuah himpunan nilai integer antara 0 dan 150. • Rasio. Pemahaman Anda mengenai jenis fitur yang ada sangat penting karena setiap jenis fitur tertentu memerlukan pendekatan analisis yang berbeda, karena perbedaan struktural dalam domainnya. • Dalam banyak aplikasi, fitur kategori direpresentasikan sebagai nilai numerik. • Untuk itu, kita perlu berhati-hati dalam merepresentasikan nilai tersebut, karena jika tidak hasil analisis yang diperlukan dalam kasus-kasus seperti urutan yang tersirat oleh nilai numerik biasanya tidak berarti jika pendekatan analisis yang digunakan tidak sesuai.
  • 15. • Dalam bahasa R variabel kategori diperlakukan sebagai faktor. • Pendekatan ”one-hot encoding" sering digunakan untuk mengubah fitur dengan jenis ini. Kegunaan (the usefulness / the importance ) dari sebuah fitur dapat diukur dengan signifikan pengaruh fitur tersebur kepada hasil analitik data yang dihasilkan. Misalnya, dalam klasifikasi ini sebagian besar dalam hal peningkatan akurasi klasifikasi. Kemudahan pemahaman dan interpretasi dari fitur juga dapat digunakan sebagai salah satu tolak ukur yang digunakan. Gambar 9. Feature 2.5 Feature Engineering “Feature engineering is the process of transforming data into features that better represent the underlying problem, resulting in improved machine learning performance.” Excerpt From: Sinan Ozdemir. “Feature Engineering Made Easy.”
  • 16. Gambar 10. Feature Engineering • Feature Understanding Memahami data dan domain permasalahan dengan informasi kualitatif dan kuantitatif yang dimiliki • Feature Improvement Membersihkan data, mengisi nilai yang kosong, mentransformasikan data yang tidak tersturktur, dan normalisasi data • Feature Transformation Pembentukan fitur baru dari fitur yang ada; ini sering dicapai dengan menggunakan pemetaan matematika. • Feature Generation / Construction Menghasilkan fitur baru yang seringkali tidak hasil transformasi fitur. Misalnya, Anda tidak mengambil piksel dalam gambar sebagai fitur, melainkan mengekstraksi hasil pemrosesan sebuah operasi misalnya hasil konvolusi untuk region tertentu yang menghasilkan fitur baru untuk gambar. Selain itu, kita juga dapat mengatakan bahwa fitur didefinisikan dari pola/teksture salah satu hasil
  • 17. dari feature generation. Banyak cara khusus domain untuk mendefinisikan fitur juga termasuk dalam kategori pembuatan fitur. Kadang-kadang ekstraksi fitur istilah digunakan untuk generasi fitur. • Feature Selection adalah tentang memilih satu set kecil fitur dari yang sangat kumpulan fitur yang besar. Ukuran kumpulan fitur yang dikurangi membuatnya layak secara komputasi untuk menggunakan algoritma tertentu. Pemilihan fitur juga dapat menyebabkan peningkatan kualitas pada hasil dari algoritma tersebut. • Feature Analysis adalah tentang konsep, metode, dan ukuran untuk mengevaluasi kegunaan fitur dan set fitur. Feature analysis juga sering dimasukkan sebagai salah bagian dari seleksi fitur. • General Automatic Feature Metodologi rekayasa fitur otomatis umum adalah tentang pendekatan generik untuk secara otomatis menghasilkan sejumlah besar fitur dan memilih subset yang efektif dari fitur yang dihasilkan. 3. Feature Understanding 3.1 Tipe Data : Structured vs Unstructured • Structured data. Data jenis ini biasanya berbentuk tabular, dimana baris merepresentasikan data observasi dan kolom merepresentasikan atribut atau fitur. • Unstructured data. Data yang ada sebagai entitas yang mengalir bebas dan tidak mengikuti hierarki organisasi standar seperti tabularitas. Seringkali, data tidak terstruktur tampak bagi kami sebagai data blob, atau sebagai satu karakteristik (kolom).
  • 18. 3.2 Tipe Data: Qualitative vs Quantitative • Qualitative. Data yang memiliki sifat kategorikal. Mendeskripsikan kulitas dari sebuah obyek tertentu. • Quantitative. Data yang umumnya bersifat numerik. Mendeskripsikan kuantitas dari sebuah obyek tertentu. 3.3 Exploratory Data Analysis Analisis Data Eksplorasi (EDA) adalah pendekatan/filosofi untuk analisis data yang menggunakan berbagai teknik (kebanyakan grafis) untuk: • memaksimalkan wawasan ke dalam kumpulan data; • mengungkap struktur yang mendasarinya; • ekstrak variabel penting; • mendeteksi outlier dan anomali; • menguji asumsi yang mendasarinya; • mengembangkan model pelit; dan • menentukan pengaturan faktor yang optimal. 4. Analisis Data Eksplorasi (EDA) EDA merupakan salah satu dari tigak teknik pendekatan analisis data yang ada. Ketiga pendekatan tersebut mempunyai kemiripan, semuanya dimulai dari teori atau permasalahan umum dan diakhiri dengan suatu kesimpulan. Perbedaannya terletak pada urutan dan fokus dari langkah-langkah perantara. Analisis klasik, urutannya: Masalah → Data → Model → Analisis → Kesimpulan EDA, urutannya: Masalah → Data → Analisis → Model → Kesimpulan
  • 19. Bayesian, urutannya: Masalah → Data → Model → Distribusi Prior/bersyarat → Analisis → Kesimpulan Gambar 11. ADE Analisis Data Eksplorasi mengacu pada proses kritis dalam melakukan penyelidikan awal pada data untuk menemukan pola, menemukan anomali, menguji hipotesis, dan memeriksa asumsi dengan bantuan statistik ringkasan dan representasi grafis. Analisis Data Eksplorafit (ADE) merupakan suatu alat menganalisis yang berguna untuk melihat pola suatu data segingga dapat mengetahui berapa informasi awal terkait dengan data tersebut, yang artinya akan berguna untuk melakukan pengujian pada data tersebut dengan model statistik inferensial (Kurniawan, Sohibien, and Rahani 2019). Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi sangat penting sebelum melakukan feature engineering dan modeling karena dalam tahap ini kita harus memahami datanya terlebih dahulu. Dalam artikel ini penulis menggunakan dataset house price dari Kaggle. • Proses Data Science: • Data Preparation • Data Cleansing • Exploratory Data Analysis • Feature Engineering • Modeling • Evaluation • Deployment
  • 20. Exploratory Data Analysis memungkinkan analyst memahami isi data yang digunakan, mulai dari distribusi, frekuensi, korelasi dan lainnya. Dalam prakteknya, curiousity sangat penting dalam proses ini, pemahaman konteks data juga diperhatikan, karena akan menjawab masalah masalah dasar. Pada umumnya EDA dilakukan dengan beberapa cara: • Univariat Analysis — analisis deskriptif dengan satu variabel. • Bivariat Analysis — analisis relasi dengan dua variabel yang biasanya dengan target variabel. • Multivariat Analysis — analisis yang menggunakan lebih dari atau sama dengan tiga variabel (Chandra 2019). Sebagian besar teknik EDA bersifat grafis dengan beberapa teknik kuantitatif. Alasan ketergantungan yang tinggi pada grafik adalah bahwa pada dasarnya peran utama EDA adalah untuk mengeksplorasi data secara terbuka, dan grafik memberikan para gambaran yang lebih jelas mengenai informasi dari data sehingga dapat memberikan beberapa wawasan baru, yang seringkali tidak terduga, tentang data. Terutama dalam memahami kombinasi dengan kemampuan pengenalan pola data yang kita miliki. 5. Principal Component Analysis (PCA) PCA merupakan metode pengurangan dimensi menggunakan teknik statistik non- parametrik, tidak terawasi, yang sering digunakan untuk mengurangi dimensi kumpulan data besar, dengan mengubah kumpulan variabel besar menjadi lebih kecil yang masih berisi sebagian besar informasi dalam kumpulan besar. Metode PCA Ini telah banyak digunakan di bidang pengenalan pola dan pemrosesan sinyal dan merupakan metode statistik di bawah judul analisis faktor yang luas. Tujuan PCA adalah untuk : 1. Mengekstrak informasi terpenting dari tabel data; 2. kompres ukuran kumpulan data dengan hanya menyimpan informasi penting ini;
  • 21. 3. menyederhanakan deskripsi kumpulan data; dan 4. Menganalisis struktur observasi dan variabelnya. 5. Kompres data, dengan mengurangi jumlah dimensi, tanpa banyak kehilangan informasi. 6. Teknik ini digunakan dalam kompresi gambar Untuk menganalisis data dengan Analisis Komponen Utama kita harus teliti dalam statistik dan aljabar matriks (Mishra et al. 2017). PCA adalah alat yang sangat fleksibel dan memungkinkan analisis kumpulan data yang mungkin berisi, misalnya, multikolinearitas, nilai yang hilang, data kategoris, dan pengukuran yang tidak tepat. Tujuannya adalah untuk mengekstrak informasi penting dari data dan untuk mengekspresikan informasi ini sebagai satu set indeks ringkasan yang disebut komponen utama. Secara statistik, PCA menemukan garis, bidang, dan bidang hiper dalam ruang dimensi-K yang mendekati data sebaik mungkin dalam arti kuadrat terkecil. Garis atau bidang yang merupakan aproksimasi kuadrat terkecil dari sekumpulan titik data membuat varians koordinat pada garis atau bidang sebesar mungkin. Gambar 12. PCA
  • 22. Pada Gambar 12 menunjukan, PCA membuat visualisasi data yang meminimalkan varians residual dalam arti kuadrat terkecil dan memaksimalkan varians koordinat proyeksi. 5.1 Cara kerja PCA Pertimbangkan matriks X dengan N baris (alias "pengamatan") dan K kolom (alias "variabel"). Untuk matriks ini, kami membangun ruang variabel dengan dimensi sebanyak variabel yang ada (lihat gambar di bawah). Setiap variabel mewakili satu sumbu koordinat. Untuk setiap variabel, panjangnya telah distandarisasi menurut kriteria penskalaan, biasanya dengan penskalaan ke varians unit. Anda dapat menemukan detail lebih lanjut tentang penskalaan ke varians unit di posting blog sebelumnya. Principal Component Analysis (PCA) adalah sebuah metode yang sering digunakan untuk pengurangan dimensi dalam pembelajaran mesin. Dimensi tinggi berarti bahwa dataset memiliki sejumlah besar fitur. Komponen utama pertama Setelah pemusatan rata-rata dan penskalaan ke varians unit, kumpulan data siap untuk perhitungan indeks ringkasan pertama, komponen utama pertama (PC1). Komponen ini adalah garis dalam ruang variabel K-dimensi yang paling mendekati data dalam arti kuadrat terkecil. Garis ini melewati titik rata-rata. Setiap pengamatan (titik kuning) sekarang dapat diproyeksikan ke garis ini untuk mendapatkan nilai koordinat di sepanjang garis PC. Nilai koordinat baru ini juga dikenal sebagai skor.
  • 23. Gambar 13. PC1 Pada gambar 13, menjelaskan Komponen utama pertama (PC1) adalah garis yang paling sesuai untuk bentuk gerombolan titik. Ini mewakili arah varians maksimum dalam data. Setiap pengamatan (titik kuning) dapat diproyeksikan ke garis ini untuk mendapatkan nilai koordinat di sepanjang garis PC. Nilai ini dikenal sebagai skor. Komponen utama kedua Biasanya, satu indeks ringkasan atau komponen utama tidak cukup untuk memodelkan variasi sistematis dari kumpulan data. Dengan demikian, indeks ringkasan kedua – komponen utama kedua (PC2) – dihitung. PC kedua juga diwakili oleh garis dalam ruang variabel K-dimensi, yang ortogonal terhadap PC pertama. Garis ini juga melewati titik rata-rata, dan meningkatkan aproksimasi data-X sebanyak mungkin. Gambar 14. PC2
  • 24. Pada gambar 14, menunjukan Komponen utama kedua (PC2) diorientasikan sedemikian rupa sehingga mencerminkan sumber variasi terbesar kedua dalam data sambil ortogonal ke PC pertama. PC2 juga melewati titik rata-rata. Dua komponen utama menentukan bidang model Ketika dua komponen utama telah diturunkan, mereka bersama-sama mendefinisikan tempat, jendela ke dalam ruang variabel K-dimensi. Dengan memproyeksikan semua pengamatan ke sub-ruang dimensi rendah dan memplot hasilnya, dimungkinkan untuk memvisualisasikan struktur kumpulan data yang diselidiki. Nilai koordinat dari pengamatan pada bidang ini disebut skor, dan karenanya plot dari konfigurasi yang diproyeksikan seperti itu dikenal sebagai plot skor. Gambar 15. PC1 dan PC2 Pada gambar 15, menunjukan Dua PC membentuk pesawat. Bidang ini adalah jendela ke ruang multidimensi, yang dapat divisualisasikan secara grafis. Setiap pengamatan dapat diproyeksikan ke bidang ini, memberikan skor untuk masing-masing. Kelebihan PCA • Model juga menjadi lebih efisien karena set fitur yang dikurangi meningkatkan kecepatan pembelajaran dan mengurangi biaya komputasi dengan menghapus fitur yang berlebihan.
  • 25. • PCA mengidentifikasi daftar sumbu utama (principal axes) untuk menggambarkan kumpulan data yang mendasarinya sebelum memeringkatnya sesuai dengan jumlah varians yang ditangkap oleh masing-masing sumbu. • PCA adalah algoritma pembelajaran tanpa pengawasan karena arah komponen ini dihitung murni dari set fitur penjelas tanpa referensi ke variabel respons. • Normalisasikan data PCA digunakan untuk mengidentifikasi komponen dengan varians maksimum, dan kontribusi setiap variabel untuk komponen didasarkan pada besarnya varians. Ini adalah praktik terbaik untuk menormalkan data sebelum melakukan PCA karena data yang tidak diskalakan dengan unit pengukuran yang berbeda dapat mendistorsi perbandingan relatif varians di seluruh fitur. • Membuat matriks kovarians untuk dekomposisi Eigen Cara yang berguna untuk mendapatkan semua kemungkinan hubungan antara semua dimensi yang berbeda adalah dengan menghitung kovarians di antara mereka semua dan menempatkannya dalam matriks kovarians yang mewakili hubungan ini dalam data. Memahami persentase kumulatif varians yang ditangkap oleh setiap komponen utama merupakan bagian integral dari pengurangan set fitur. Apakah PCA merupakan teknik yang memadai? • Jika objective dari analisa data adalah membangun kombinasi linear yang tidak saling berkorelasi maka keputusan apakah PCA cukup baik digunakan atau tidak tergantung pada apakah hasil dari PCA ini dapat diinterpretasikan atau tidak. Bila hasil dari PCA tidak dapat diinterpretasikan, maka penggunakan PCA tid k d ti d b ik dihi d i tidak ada artinya dan sebaiknya dihindari. • Jika objective dari analisa data adalah untuk mengurangi jumlah variable (principle component) yang merupakan kombinasi linear dari variable-variable asli maka jumlah variable asli, maka jumlah principle component harus kurang dari jumlah variable asli. Dalam kasus seperti ini, PCA hanya boleh dilakukan bila data dapat direpresentasikan dalam beberapa buah principle component tanpa menghilangkan informasi secara substansial (without a substantial loss of information).
  • 26. Tugas Dan Proyek Pelatihan Silahkan mengerjakan Quiz Modul 10 pada LMS Kominfo. Link Referensi Modul Pertama 1. Ozdemir, Sinan Susarla, Divya - Feature engineering made easy identify unique features from your dataset in order to build powerful machine learning systems (2018, Packt Publishing) 2. Dong, Guozhu, Liu, H. - Feature Engineering For Machine Learning and Data Analytics 3. Chandra, Andreas. 2019. Memahami Data Dengan Exploratory Data Analysis. https://medium.com/data-folks-indonesia/memahami-data-dengan-exploratory-data-analysis- a53b230cce84. 4. Kurniawan, Robert, Gama Putra Danu Sohibien, and Rini Rahani. 2019. Cara Mudah Belajar Statistik Analisis Data & Eksplorasi. 1st Editio. Kencana. https://books.google.co.id/books?hl=en&lr=&id=zFgCEAAAQBAJ&oi=fnd&pg=PP1&dq=Analisis+Data +Eksplorasi+(EDA)+pdf&ots=9X620ivw_N&sig=YC4P5- X9awyHkfQ3UUntOv0oTcU&redir_esc=y#v=onepage&q&f=false. 5. Mishra, Sidharth Prasad et al. 2017. “Multivariate Statistical Data Analysis- Principal Component Analysis (PCA).” International Journal of Livestock Research 7(5): 60–78. 6. https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15 7. https://www.sartorius.com/en/knowledge/science-snippets/what-is-principal-component-analysis- pca-and-how-it-is-used-507186 Link Pertanyaan Modul Petama Bahan Tayang Power Point
  • 27. Link room Pelatihan dan Jadwal live sesi bersama instruktur Zoom Penilaian Komposisi penilaian Tugas Data Science : Nilai 100 Target Penyelesaian Modul Pertama 1 hari / sampai 6 JP