SlideShare a Scribd company logo
1 of 52
Download to read offline
UG-AI-CoE
Menentukan Objek Data,
Membersihkan Data,
Memvalidasi Data
PERTEMUAN KE - 2
UG-AI-CoE
Menentukan Objek Data
UG-AI-CoE
Referensi: SKKNI Data Science
UG-AI-CoE
Course Definition
◦ Bagian Pertama dari Tiga materi Data Preparation
◦ Berfokus pada Penentuan Objek Data atau Memilih Data
◦ Pengetahuan dan pemahaman akan data preparation menjadi syarat
mutlak untuk menghasilkan model prediksi yang optimal
UG-AI-CoE
Learning Objective
Dalam pelatihan ini diharapkan:
Peserta memiliki kemampuan untuk memilih dan memilah data sesuai
kebutuhan dan sumber daya yang dimiliki.
UG-AI-CoE
Data Preparation dalam CRISP-DM
● Akronim dari: CRoss Industry
Standard Process Data Mining
● Metodologi umum untuk data mining,
analitik, dan proyek data sains,
berfungsi menstandarkan proses
data mining lintas industri
● Digunakan untuk semua level dari
pemula hingga pakar
UG-AI-CoE
Terminologi dan Definisi
● Istilah lain: Data Pre-processing, Data
Manipulation, Data Cleansing /
Normalization
Definisi:
● Transformasi data mentah menjadi
format yang mudah dipahami
● Menemukan data yang relevan untuk
disertakan dalam aplikasi analitik
sehingga memberikan informasi yang
dicari oleh analis atau pengguna bisnis
● Langkah pra-pemrosesan yang
melibatkan pembersihan, transformasi,
dan konsolidasi data
Definisi:
● Proses yang melibatkan koneksi ke satu
atau banyak sumber data yang berbeda,
membersihkan data kotor, memformat
ulang atau strukturisasi data ulang, dan
akhirnya menggabungkan data ini untuk
digunakan untuk analisis.
UG-AI-CoE
● 60-80% porsi kegiatan data scientist (forbes,
crowdflower 2016)
● Data yang ada saat ini dari banyak sumber data
dan format yang beragam (terstruktur, semi, dan
tidak terstruktur)
● Kualitas model prediktif bergantung pada
kualitas data (GIGO)
Fakta Terkait Data Preparation
UG-AI-CoE
● Data perlu diformat sesuai dengan
software yang digunakan
● Data perlu disesuaikan dengan metode
data science yang digunakan
● Data real-world cenderung ‘kotor’:
● Tidak komplit: kurangnya nilai
attribute, kurangnya atribut
tertentu/penting, hanya berisi data
agreggate.
Misal: pekerjaan = ”” (tidak ada
isian)
● Noisy: memiliki error atau outlier.
Misal: Gaji = ”-10”, Usia = ”222”
Pentingnya Data Preparation
● Data real-world cenderung ‘kotor’:
● Tidak konsisten: memiliki perbedaan dalam
kode dan nama.
Misal: Usia= “32” TglLahir=”03/07/2000”;
Rating “1,2,3” → rating “A, B, C”
● Kolom dan baris yang saling bertukar
● Banyak variabel dalam satu kolom yang sama
UG-AI-CoE
● Kompilasi Data menjadi Efisien dan
Efektif (menghindari duplikasi)
● Identifikasi dan Memperbaiki Error
● Mudah Perubahan Secara Global
● Menghasilkan Informasi yang Akurat
untuk Pengambilan Keputusan
● Nilai Bisnis dan ROI (Return on
Investment) akan Meningkat
Manfaat Data Preparation
UG-AI-CoE
● Memakan Waktu Lama
● Porsi Teknis yang Dominan
● Data yang Tersedia Tidak Akurat atau Jelas/Tidak Langsung Pakai
● Data tidak Balance Saat Pengambilan Sampel
● Rentan akan Error
Tahapan dan Tantangan Data Preparation
UG-AI-CoE
Data Preparation dalam CRISP-DM
UG-AI-CoE
Rincian Tahapan Data Preparation
1. Bangun/ Construct Data
• Atribut turunan.
• Latar belakang pengetahuan.
• Bagaimana atribut yang hilang dapat dibangun atau
diperhitungkan
2. Integrasi/ Integrate Data
• Mengintegrasikan sumber dan menyimpan hasil (tabel dan
catatan baru)
3. Bentuk/ Format Data
UG-AI-CoE
Tahapan Data Preparation: Penentuan Objek
atau Memilih Data
● Pertimbangkan pemilihan data
● Tentukan dataset yang akan digunakan
● Kumpulkan data tambahan yang sesuai (internal atau eksternal)
● Pertimbangkan penggunaan teknik pengambilan sampel
● Jelaskan mengapa data tertentu dimasukkan atau dikecualikan
UG-AI-CoE
Tahapan Data Preparation: Versi Simple
UG-AI-CoE
Sampling Data: Pengertian Sampling
● Sebelum melakukan tahapan dalam data preparation, terlebih dahulu
adalah pemilihan/penentuan objek yang dapat dilakukan dengan
menggunakan penentuan:
● Populasi
● Sampel
UG-AI-CoE
17
● Ciri-ciri dari Probability Sampling:
○ Populasi diketahui
○ Randomisasi/keteracakan: Ya
○ Conclusiver
○ Hasil: Unbiased
○ Kesimpulan: Statistik
● Non-Probability Sampling
○ Populasi tidak diketahui
○ Keterbatasan penelitian
○ Randomisasi/keteracakan: Tidak
○ Exploratory
○ Hasil: Biased
○ Kesimpulan: Analitik
Sampling Data: Metode Sampling
UG-AI-CoE
18
Sampling Data: Metode Sampling
UG-AI-CoE
19
● Probability Sampling adalah penarikan contoh dengan metode peluang
yang dilakukan secara acak dan dapat dilakukan dengan cara undian
atau tabel bilangan random.
● Sering disebut random sampling, yaitu pengambilan sampel penelitian
secara random
● Teknik sampling ini cocok dipilih untuk populasi yang bersifat finit,
artinya besaran anggota populasi dapat ditentukan lebih dahulu
● Setiap populasi mempunyai kesempatan yang sama untuk terpilih
terutama digunakan dalam penelitian kuantitatif
Metode Sampling: Probability Sampling
UG-AI-CoE
Probability sampling dapat
digunakan ketika:
o Ingin mengurangi bias pada
sampel
o Populasi biasanya beragam
o Untuk membuat sampel yang
akurat
Tipe-tipe Probability Sampling:
o Simple Random Sampling
o Systematic Sampling
o Stratified Sampling
o Cluster Sampling
Metode Sampling: Probability Sampling
UG-AI-CoE
● Teknik pengambilan sampel yang tidak memberi peluang atau
kesempatan sama bagi setiap unsur atau anggota populasi yang
dipilih menjadi sampel.
● Tidak bisa digunakan untuk membuat generalisasi.
Metode Sampling: Non-Probability Sampling
UG-AI-CoE
Sampling Data: Teknik Sampling
UG-AI-CoE
Sampling Data: Tahapan Sampling
UG-AI-CoE
o Imbalanced Dataset merupakan data yang biasanya diolah
secara klasifikasi dengan salah satu kelas/label pada datanya
mempunyai nilai yang sangat jauh berbeda dengan jumlahnya
dari kelas lainnya
o Pada imbalanced dataset biasanya memiliki data dengan kelas
yang sedikit dan data dengan kelas yang banyak (abundant
class)
o Contoh kasus yang sering terjadi pada imbalanced dataset: credit
scoring
Imbalance Dataset
UG-AI-CoE
Imbalance Dataset: Resampling
Ini dilakukan setelah proses pemilihan, pembersihan dan rekayasa fitur dilakukan atas
pertanyaan:
Tanya: Apakah kelas target data yang kita inginkan telah secara sama terdistribusi di
seluruh dataset?
Jawab: Di banyak kasus tidak/belum tentu. Biasanya terjadi imbalance
(ketidakseimbangan) antara dua kelas. Misal untuk dataset tentang deteksi fraud di
perbankan, lelang real-time, atau deteksi intrusi di network! Biasanya data dari dataset
tersebut berukuran sangat kecil atau kurang dari 1%, namun sangat signifikan.
Kebanyakan algoritma ML tidak bekerja baik untuk dataset imbalance tersebut
UG-AI-CoE
Berikut adalah beberapa cara untuk mengatasi imbalance dataset:
Gunakan pengukuran (metrik) yang tepat, misal dengan menggunakan:
o Precision: berapa banyak instance yang relevan.
o Recall/Sensitivitas: berapa banyak instance yang dipilih.
o F1 score: harmonisasi mean dari precision dan recall.
o Matthews correlation coefficient (MCC): koefisien korelasi antara klasifikasi
biner antara observasi vs prediksi.
o Area under the ROC curve (AUC): relasi antara tingkat true-positive vs
false-positive.
Resample data training, dengan dua metode:
o Undersampling: menyeimbangkan dataset dengan mereduksi ukuran kelas
yang melimpah. Dilakukan jika kuantitas data mencukupi.
o Oversampling: Kebalikan dari undersampling, dilakukan jika kuantitas data
tidak mencukupi.
Imbalance Dataset: Resampling
UG-AI-CoE
● Teknik Resampling:
○ Oversampling (SMOTE)
○ Oversampling (Bootstrap)
○ Undersampling (Bootstrap)
Imbalance Dataset: Resampling
UG-AI-CoE
Keberadaan Data dari Berbagai Sumber (stakeholder)
UG-AI-CoE
○ Menaikkan kualitas data di lingkungan
organisasi
○ Konsistensi data dan update dijaga
○ Mengupayakan agar memiliki skema yang
sama ataupun pemetaan skema yang
terbuka → skema data diketahui umum
○ Mengupayakan data referensi sama → data
referensi diketahui
UG-AI-CoE
Kualitas Data bergantung Governance
UG-AI-CoE
Federated Database
UG-AI-CoE
Ontologi dan Database
UG-AI-CoE
Pemilihan (Seleksi Fitur) Data
UG-AI-CoE
○ Setelah menentukan sampling atas data yang akan diambil nanti, selanjutnya adalah
melakukan seleksi fitur (feature selection) atas data sampling tsb → Memilih.
Kolom/Atribut/Variabel yang akan diolah lebih lanjut.
○ Terminologi fitur di Data Science atau Machine Learning adalah Kolom/Atribut/Variabel
yang dianggap & dihitung sebagai prioritas (sedikit berbeda dengan terminologi fitur di
Statistika).
○ Seleksi fitur merupakan konsep inti dalam ML yang berdampak besar bagi kinerja model
prediksi.
○ Fitur data yang tidak/sebagian saja relevan berdampak negatif terhadap kinerja model.
○ Definisi Seleksi Fitur: proses otomatis atau manual memilih fitur data yang paling
berkontribusi terhadap variabel prediksi atau output yang diinginkan.
Pemilihan (Seleksi Fitur) Data
UG-AI-CoE
Seleksi Fitur Data
● Manfaat:
o Reduksi Overfitting: semakin kecil data redundant maka keputusan
berdasarkan noise semakin berkurang
o Meningkatkan Akurasi: semakin kecil data misleading maka akurasi model
lebih baik
o Reduksi Waktu Training: semakin kecil titik data (data point) maka
kompleksitas algoritma berkurang dan latih algoritma lebih cepat
● Jenis:
o Unsupervised: metode yang mengabaikan variabel target, seperti
menghapus variabel yang berlebihan menggunakan korelasi
o Supervised: metode yang menggunakan variabel target, seperti
menghapus variabel yang tidak relevan
UG-AI-CoE
Seleksi Fitur
Membedakan jenis data: Numerik vs Kategorik
UG-AI-CoE
Membersihkan Data
UG-AI-CoE
Referensi: SKKNI Data Science
UG-AI-CoE
Course Definition
◦Bagian Kedua dari Tiga materi Data Preparation
◦Berfokus pada Pembersihan Data dan validasi data Konteksnya yaitu:
◦Strategi pembersihan data kotor (noise, bias, missing value, outlier, dll)
◦Pengecekan kualitas dan tingkat kecukupan data
◦Pengetahuan dan pemahaman akan data preparation menjadi syarat
mutlak untuk menghasilkan model prediksi yang optimal.
UG-AI-CoE
Learning Objective
Dalam pelatihan ini diharapkan:
◦Peserta mampu melakukan pembersihan data.
◦Peserta mampu melakukan memeriksa (cek) kualitas dan kecukupan
data.
UG-AI-CoE
Paramater/Daftar Isi Dokumentasi Data Cleaning
Laporan dokumentasi data cleaning, setidaknya memiliki parameter berikut:
● Data Set Description
● Data Set yang digunakan
● Jenis noise yang terjadi pada data (diantaranya: Missing data, Data errors;
Coding inconsistencies; Missing/ bad metadata
● Pendekatan yang dilakukan untuk menghilangkan noise tersebut
● Teknik mana yang digunakan sehingga berhasil untuk menghilangkan noise
tersebut
● Apakah ada kasus atau atribut yang tak dapat diselamatkan
● Pastikan data yang dikecualikan karena kondisi noisenya
UG-AI-CoE
Data cleaning atas data berantakan (messy data), seperti:
○ missing value,
○ format tidak konsisten
○ record tidak berbentuk baik (malformed record)
○ outlier yang berlebihan
Data Cleaning
UG-AI-CoE
Memvalidasi Data
UG-AI-CoE
Referensi: SKKNI Data Science
UG-AI-CoE
Paramater/Daftar Isi Dokumentasi Data Validation
Laporan dokumentasi data validasi, setidaknya memiliki parameter berikut:
• Validasi data
• Kebenaran, misal di Indonesia isian Gender yang diakui hanya 2
Pria/Wanita; Agama hanya 6 (Islam, Protestan, Katholik, Hindu, Budha,
Konghucu)
• Kelengkapan, misal data provinsi seluruh Indonesia (34 prov), namun
hanya sebagian yg ada
• Konsistensi, misal penulisan STM atau SMK;
• Kecukupan data → Perlukan diulang berikan justifikasi (Resampling)
UG-AI-CoE
Validasi merupakan tahapan kritikal yang sering
diabaikan DS-tist pemula, karena memeriksa,
diantaranya sbb:
o Tipe Data (mis. integer, float, string)
Range Data
o Uniqueness (mis. Kode Pos)
o Consistent expression (mis. Jalan, Jl.,
Jln.)
o Format Data (mis. utk tgl “YYYY-MM-DD”
vs “DD-MM-YYYY”) → tmt (terhitung
mulai tanggal)
o Nilai Null/Missing Values
o Misspelling/Type
o Invalid Data (gender: L/P: L; Laki-laki;
P: Pria/Perempuan? )
Validasi Data
Verifikasi vs Validasi
o Verifikasi: Benar vs Salah (sesuai
prosedur)
o Validasi: Kuat vs Lemah (sesuai
kenyataan)
Teknik Validasi Data dan Model
o Akurasi Kelengkapan Konsistensi
Ketepatan Waktu Kepercayaan Nilai
Tambah Penafsiran
o Kemudahan Akses
UG-AI-CoE
Pandas: DataFrame
UG-AI-CoE
Tools Lab Online
o Jupyter notebook
o Scikit-learn
o Pandas
o Numpy
o Matplotlib Pyplot
UG-AI-CoE
Summary
o Data preparation memiliki sebutan lain, diantaranya data pre-processing, data cleaning, data
manipulation.
o Data preparation mengambil porsi kerja terbanyak dalam data science 60-80%
o Data preparation membutuhkan ketelitian dan kesabaran/kerajinan dari peneliti DS, terutama pemula
o Seleksi Fitur harus dilakukan di awal tahapan data preparation setelah melakukan penentuan
metode/teknik sampling
o Data Validation merupakan tahapan kritikal dari DS namun sering diabaikan para peneliti Seleksi
Fitur harus dilakukan di awal tahapan data preparation setelah melakukan penentuan metode/teknik
sampling
o Data cleaning merupakan pekerjaan yang sangat memerlukan keahlian teknik DS terkait
penggunaan tools dan coding
o Kebersihan data merupakan syarat mutlak untuk Model Prediksi yang baik.
UG-AI-CoE
Referensi
o Krensky P. Data PreTools: Goals, Benefits, and The Advantage of Hadoop. Aberdeen
Group Report. July 2015
o SAS. Data Preparation Challenges Facing Every Enterprise. ebook. December 2017
o https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consumi
ng-least-enjoyable-data-science-task-survey-says/?sh=6e9aa0e36f63
o https://improvado.io/blog/what-is-data-preparation
o https://searchenterpriseai.techtarget.com/feature/Data-preparation-for-machine-learnin
g-still-requires-humans
o https://towardsdatascience.com/feature-selection-techniques-in-machine-learning-with
-python-f24e7da3f36e
UG-AI-CoE
Quiz / Tugas
Silakan kerjakan tugas mandiri yang telah disiapkan untuk pertemuan
ini. Tugas mandiri akan dijelaskan lebih detail oleh Instruktur dan
asisten Anda.
UG-AI-CoE
Terima kasih

More Related Content

Similar to Pertemuan 2_Menentukan Objek_Membersihkan_Memvalidasi_Data.pdf

file_2013-09-23_16_38_27_Lalang_Erawan,_M.Kom__Pengertian_Sistem.ppt
file_2013-09-23_16_38_27_Lalang_Erawan,_M.Kom__Pengertian_Sistem.pptfile_2013-09-23_16_38_27_Lalang_Erawan,_M.Kom__Pengertian_Sistem.ppt
file_2013-09-23_16_38_27_Lalang_Erawan,_M.Kom__Pengertian_Sistem.ppt
yuandita12345
 
9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma
ArdianDwiPraba
 
Modul 1 statistik_bisnis(ok)
Modul 1 statistik_bisnis(ok)Modul 1 statistik_bisnis(ok)
Modul 1 statistik_bisnis(ok)
Sony Sunaryo
 
Topik 24 Processing Data dan Visualisasi.pptx.ppt
Topik 24 Processing Data dan Visualisasi.pptx.pptTopik 24 Processing Data dan Visualisasi.pptx.ppt
Topik 24 Processing Data dan Visualisasi.pptx.ppt
widisalendra1
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
butest
 
10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarma10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarma
ArdianDwiPraba
 
PMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdfPMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdf
Andri946883
 

Similar to Pertemuan 2_Menentukan Objek_Membersihkan_Memvalidasi_Data.pdf (20)

MODUL DATA MINING
MODUL DATA MININGMODUL DATA MINING
MODUL DATA MINING
 
file_2013-09-23_16_38_27_Lalang_Erawan,_M.Kom__Pengertian_Sistem.ppt
file_2013-09-23_16_38_27_Lalang_Erawan,_M.Kom__Pengertian_Sistem.pptfile_2013-09-23_16_38_27_Lalang_Erawan,_M.Kom__Pengertian_Sistem.ppt
file_2013-09-23_16_38_27_Lalang_Erawan,_M.Kom__Pengertian_Sistem.ppt
 
Big data.pptx
Big data.pptxBig data.pptx
Big data.pptx
 
PENGUKURAN INDIKATOR MUTU - KMKP.pdf
PENGUKURAN INDIKATOR MUTU - KMKP.pdfPENGUKURAN INDIKATOR MUTU - KMKP.pdf
PENGUKURAN INDIKATOR MUTU - KMKP.pdf
 
Arsitektur dan model data mining
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data mining
 
DATA MINING : RSITEKTUR & MODEL DATA MINING
DATA MINING : RSITEKTUR & MODEL DATA MININGDATA MINING : RSITEKTUR & MODEL DATA MINING
DATA MINING : RSITEKTUR & MODEL DATA MINING
 
Data Preprocessing
Data PreprocessingData Preprocessing
Data Preprocessing
 
Aps03 planning
Aps03 planningAps03 planning
Aps03 planning
 
9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma
 
materi analisis dan interprestasi data.ppt
materi analisis dan interprestasi data.pptmateri analisis dan interprestasi data.ppt
materi analisis dan interprestasi data.ppt
 
Modul 1 statistik_bisnis(ok)
Modul 1 statistik_bisnis(ok)Modul 1 statistik_bisnis(ok)
Modul 1 statistik_bisnis(ok)
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan Netlytics
 
Rancangan perbaikan display berdasarkan analisa conjoint pada sebuah jam din...
Rancangan perbaikan display  berdasarkan analisa conjoint pada sebuah jam din...Rancangan perbaikan display  berdasarkan analisa conjoint pada sebuah jam din...
Rancangan perbaikan display berdasarkan analisa conjoint pada sebuah jam din...
 
Topik 24 Processing Data dan Visualisasi.pptx.ppt
Topik 24 Processing Data dan Visualisasi.pptx.pptTopik 24 Processing Data dan Visualisasi.pptx.ppt
Topik 24 Processing Data dan Visualisasi.pptx.ppt
 
ppt metopen kel 09.pptx
ppt metopen kel 09.pptxppt metopen kel 09.pptx
ppt metopen kel 09.pptx
 
Pert 03 introduction dm 2012
Pert 03 introduction dm 2012Pert 03 introduction dm 2012
Pert 03 introduction dm 2012
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
 
10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarma10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarma
 
Analisis data merupakan salah satu langk
Analisis data merupakan salah satu langkAnalisis data merupakan salah satu langk
Analisis data merupakan salah satu langk
 
PMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdfPMK 1 PENGANTAR DATA ANALITIK.pdf
PMK 1 PENGANTAR DATA ANALITIK.pdf
 

Recently uploaded

undang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogorundang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogor
ritch4
 
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Riyadh +966572737505 get cytotec
 
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
TaufikTito
 
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.pptKeracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
DIGGIVIO2
 
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).pptSIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
EndangNingsih7
 
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerjaContoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
IniiiHeru
 
Diac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponenDiac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponen
BangMahar
 
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Riyadh +966572737505 get cytotec
 

Recently uploaded (20)

DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.pptDATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
 
undang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogorundang undang penataan ruang daerah kabupaten bogor
undang undang penataan ruang daerah kabupaten bogor
 
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
 
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf
 
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.pptKeracunan bahan kimia,ektasi,opiat,makanan.ppt
Keracunan bahan kimia,ektasi,opiat,makanan.ppt
 
Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdf
 
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppTPERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT
 
Salinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa IndonesiaSalinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa Indonesia
 
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).pptSIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt
 
Bimbingan Teknis Penyusunan Soal Pilihan Berganda 2024.pptx
Bimbingan Teknis Penyusunan Soal Pilihan Berganda  2024.pptxBimbingan Teknis Penyusunan Soal Pilihan Berganda  2024.pptx
Bimbingan Teknis Penyusunan Soal Pilihan Berganda 2024.pptx
 
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerjaContoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja
 
contoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjanacontoh judul tesis untuk mahasiswa pascasarjana
contoh judul tesis untuk mahasiswa pascasarjana
 
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdfAlur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf
 
Diac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponenDiac & Triac untuk memenuhi tugas komponen
Diac & Triac untuk memenuhi tugas komponen
 
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCCPERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
PERMEN518_HSNCC_PERMEN518_HSNCC_PERMEN518_HSNCC
 
materi konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptxmateri konsep dan Model TRIASE Bencana.pptx
materi konsep dan Model TRIASE Bencana.pptx
 
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIFPPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
PPT SIDANG UJIAN KOMPREHENSIF KUALITATIF
 
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MAMateri Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA
 
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
 
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotec
 

Pertemuan 2_Menentukan Objek_Membersihkan_Memvalidasi_Data.pdf

  • 1. UG-AI-CoE Menentukan Objek Data, Membersihkan Data, Memvalidasi Data PERTEMUAN KE - 2
  • 4. UG-AI-CoE Course Definition ◦ Bagian Pertama dari Tiga materi Data Preparation ◦ Berfokus pada Penentuan Objek Data atau Memilih Data ◦ Pengetahuan dan pemahaman akan data preparation menjadi syarat mutlak untuk menghasilkan model prediksi yang optimal
  • 5. UG-AI-CoE Learning Objective Dalam pelatihan ini diharapkan: Peserta memiliki kemampuan untuk memilih dan memilah data sesuai kebutuhan dan sumber daya yang dimiliki.
  • 6. UG-AI-CoE Data Preparation dalam CRISP-DM ● Akronim dari: CRoss Industry Standard Process Data Mining ● Metodologi umum untuk data mining, analitik, dan proyek data sains, berfungsi menstandarkan proses data mining lintas industri ● Digunakan untuk semua level dari pemula hingga pakar
  • 7. UG-AI-CoE Terminologi dan Definisi ● Istilah lain: Data Pre-processing, Data Manipulation, Data Cleansing / Normalization Definisi: ● Transformasi data mentah menjadi format yang mudah dipahami ● Menemukan data yang relevan untuk disertakan dalam aplikasi analitik sehingga memberikan informasi yang dicari oleh analis atau pengguna bisnis ● Langkah pra-pemrosesan yang melibatkan pembersihan, transformasi, dan konsolidasi data Definisi: ● Proses yang melibatkan koneksi ke satu atau banyak sumber data yang berbeda, membersihkan data kotor, memformat ulang atau strukturisasi data ulang, dan akhirnya menggabungkan data ini untuk digunakan untuk analisis.
  • 8. UG-AI-CoE ● 60-80% porsi kegiatan data scientist (forbes, crowdflower 2016) ● Data yang ada saat ini dari banyak sumber data dan format yang beragam (terstruktur, semi, dan tidak terstruktur) ● Kualitas model prediktif bergantung pada kualitas data (GIGO) Fakta Terkait Data Preparation
  • 9. UG-AI-CoE ● Data perlu diformat sesuai dengan software yang digunakan ● Data perlu disesuaikan dengan metode data science yang digunakan ● Data real-world cenderung ‘kotor’: ● Tidak komplit: kurangnya nilai attribute, kurangnya atribut tertentu/penting, hanya berisi data agreggate. Misal: pekerjaan = ”” (tidak ada isian) ● Noisy: memiliki error atau outlier. Misal: Gaji = ”-10”, Usia = ”222” Pentingnya Data Preparation ● Data real-world cenderung ‘kotor’: ● Tidak konsisten: memiliki perbedaan dalam kode dan nama. Misal: Usia= “32” TglLahir=”03/07/2000”; Rating “1,2,3” → rating “A, B, C” ● Kolom dan baris yang saling bertukar ● Banyak variabel dalam satu kolom yang sama
  • 10. UG-AI-CoE ● Kompilasi Data menjadi Efisien dan Efektif (menghindari duplikasi) ● Identifikasi dan Memperbaiki Error ● Mudah Perubahan Secara Global ● Menghasilkan Informasi yang Akurat untuk Pengambilan Keputusan ● Nilai Bisnis dan ROI (Return on Investment) akan Meningkat Manfaat Data Preparation
  • 11. UG-AI-CoE ● Memakan Waktu Lama ● Porsi Teknis yang Dominan ● Data yang Tersedia Tidak Akurat atau Jelas/Tidak Langsung Pakai ● Data tidak Balance Saat Pengambilan Sampel ● Rentan akan Error Tahapan dan Tantangan Data Preparation
  • 13. UG-AI-CoE Rincian Tahapan Data Preparation 1. Bangun/ Construct Data • Atribut turunan. • Latar belakang pengetahuan. • Bagaimana atribut yang hilang dapat dibangun atau diperhitungkan 2. Integrasi/ Integrate Data • Mengintegrasikan sumber dan menyimpan hasil (tabel dan catatan baru) 3. Bentuk/ Format Data
  • 14. UG-AI-CoE Tahapan Data Preparation: Penentuan Objek atau Memilih Data ● Pertimbangkan pemilihan data ● Tentukan dataset yang akan digunakan ● Kumpulkan data tambahan yang sesuai (internal atau eksternal) ● Pertimbangkan penggunaan teknik pengambilan sampel ● Jelaskan mengapa data tertentu dimasukkan atau dikecualikan
  • 16. UG-AI-CoE Sampling Data: Pengertian Sampling ● Sebelum melakukan tahapan dalam data preparation, terlebih dahulu adalah pemilihan/penentuan objek yang dapat dilakukan dengan menggunakan penentuan: ● Populasi ● Sampel
  • 17. UG-AI-CoE 17 ● Ciri-ciri dari Probability Sampling: ○ Populasi diketahui ○ Randomisasi/keteracakan: Ya ○ Conclusiver ○ Hasil: Unbiased ○ Kesimpulan: Statistik ● Non-Probability Sampling ○ Populasi tidak diketahui ○ Keterbatasan penelitian ○ Randomisasi/keteracakan: Tidak ○ Exploratory ○ Hasil: Biased ○ Kesimpulan: Analitik Sampling Data: Metode Sampling
  • 19. UG-AI-CoE 19 ● Probability Sampling adalah penarikan contoh dengan metode peluang yang dilakukan secara acak dan dapat dilakukan dengan cara undian atau tabel bilangan random. ● Sering disebut random sampling, yaitu pengambilan sampel penelitian secara random ● Teknik sampling ini cocok dipilih untuk populasi yang bersifat finit, artinya besaran anggota populasi dapat ditentukan lebih dahulu ● Setiap populasi mempunyai kesempatan yang sama untuk terpilih terutama digunakan dalam penelitian kuantitatif Metode Sampling: Probability Sampling
  • 20. UG-AI-CoE Probability sampling dapat digunakan ketika: o Ingin mengurangi bias pada sampel o Populasi biasanya beragam o Untuk membuat sampel yang akurat Tipe-tipe Probability Sampling: o Simple Random Sampling o Systematic Sampling o Stratified Sampling o Cluster Sampling Metode Sampling: Probability Sampling
  • 21. UG-AI-CoE ● Teknik pengambilan sampel yang tidak memberi peluang atau kesempatan sama bagi setiap unsur atau anggota populasi yang dipilih menjadi sampel. ● Tidak bisa digunakan untuk membuat generalisasi. Metode Sampling: Non-Probability Sampling
  • 24. UG-AI-CoE o Imbalanced Dataset merupakan data yang biasanya diolah secara klasifikasi dengan salah satu kelas/label pada datanya mempunyai nilai yang sangat jauh berbeda dengan jumlahnya dari kelas lainnya o Pada imbalanced dataset biasanya memiliki data dengan kelas yang sedikit dan data dengan kelas yang banyak (abundant class) o Contoh kasus yang sering terjadi pada imbalanced dataset: credit scoring Imbalance Dataset
  • 25. UG-AI-CoE Imbalance Dataset: Resampling Ini dilakukan setelah proses pemilihan, pembersihan dan rekayasa fitur dilakukan atas pertanyaan: Tanya: Apakah kelas target data yang kita inginkan telah secara sama terdistribusi di seluruh dataset? Jawab: Di banyak kasus tidak/belum tentu. Biasanya terjadi imbalance (ketidakseimbangan) antara dua kelas. Misal untuk dataset tentang deteksi fraud di perbankan, lelang real-time, atau deteksi intrusi di network! Biasanya data dari dataset tersebut berukuran sangat kecil atau kurang dari 1%, namun sangat signifikan. Kebanyakan algoritma ML tidak bekerja baik untuk dataset imbalance tersebut
  • 26. UG-AI-CoE Berikut adalah beberapa cara untuk mengatasi imbalance dataset: Gunakan pengukuran (metrik) yang tepat, misal dengan menggunakan: o Precision: berapa banyak instance yang relevan. o Recall/Sensitivitas: berapa banyak instance yang dipilih. o F1 score: harmonisasi mean dari precision dan recall. o Matthews correlation coefficient (MCC): koefisien korelasi antara klasifikasi biner antara observasi vs prediksi. o Area under the ROC curve (AUC): relasi antara tingkat true-positive vs false-positive. Resample data training, dengan dua metode: o Undersampling: menyeimbangkan dataset dengan mereduksi ukuran kelas yang melimpah. Dilakukan jika kuantitas data mencukupi. o Oversampling: Kebalikan dari undersampling, dilakukan jika kuantitas data tidak mencukupi. Imbalance Dataset: Resampling
  • 27. UG-AI-CoE ● Teknik Resampling: ○ Oversampling (SMOTE) ○ Oversampling (Bootstrap) ○ Undersampling (Bootstrap) Imbalance Dataset: Resampling
  • 28. UG-AI-CoE Keberadaan Data dari Berbagai Sumber (stakeholder)
  • 29. UG-AI-CoE ○ Menaikkan kualitas data di lingkungan organisasi ○ Konsistensi data dan update dijaga ○ Mengupayakan agar memiliki skema yang sama ataupun pemetaan skema yang terbuka → skema data diketahui umum ○ Mengupayakan data referensi sama → data referensi diketahui
  • 34. UG-AI-CoE ○ Setelah menentukan sampling atas data yang akan diambil nanti, selanjutnya adalah melakukan seleksi fitur (feature selection) atas data sampling tsb → Memilih. Kolom/Atribut/Variabel yang akan diolah lebih lanjut. ○ Terminologi fitur di Data Science atau Machine Learning adalah Kolom/Atribut/Variabel yang dianggap & dihitung sebagai prioritas (sedikit berbeda dengan terminologi fitur di Statistika). ○ Seleksi fitur merupakan konsep inti dalam ML yang berdampak besar bagi kinerja model prediksi. ○ Fitur data yang tidak/sebagian saja relevan berdampak negatif terhadap kinerja model. ○ Definisi Seleksi Fitur: proses otomatis atau manual memilih fitur data yang paling berkontribusi terhadap variabel prediksi atau output yang diinginkan. Pemilihan (Seleksi Fitur) Data
  • 35. UG-AI-CoE Seleksi Fitur Data ● Manfaat: o Reduksi Overfitting: semakin kecil data redundant maka keputusan berdasarkan noise semakin berkurang o Meningkatkan Akurasi: semakin kecil data misleading maka akurasi model lebih baik o Reduksi Waktu Training: semakin kecil titik data (data point) maka kompleksitas algoritma berkurang dan latih algoritma lebih cepat ● Jenis: o Unsupervised: metode yang mengabaikan variabel target, seperti menghapus variabel yang berlebihan menggunakan korelasi o Supervised: metode yang menggunakan variabel target, seperti menghapus variabel yang tidak relevan
  • 36. UG-AI-CoE Seleksi Fitur Membedakan jenis data: Numerik vs Kategorik
  • 39. UG-AI-CoE Course Definition ◦Bagian Kedua dari Tiga materi Data Preparation ◦Berfokus pada Pembersihan Data dan validasi data Konteksnya yaitu: ◦Strategi pembersihan data kotor (noise, bias, missing value, outlier, dll) ◦Pengecekan kualitas dan tingkat kecukupan data ◦Pengetahuan dan pemahaman akan data preparation menjadi syarat mutlak untuk menghasilkan model prediksi yang optimal.
  • 40. UG-AI-CoE Learning Objective Dalam pelatihan ini diharapkan: ◦Peserta mampu melakukan pembersihan data. ◦Peserta mampu melakukan memeriksa (cek) kualitas dan kecukupan data.
  • 41. UG-AI-CoE Paramater/Daftar Isi Dokumentasi Data Cleaning Laporan dokumentasi data cleaning, setidaknya memiliki parameter berikut: ● Data Set Description ● Data Set yang digunakan ● Jenis noise yang terjadi pada data (diantaranya: Missing data, Data errors; Coding inconsistencies; Missing/ bad metadata ● Pendekatan yang dilakukan untuk menghilangkan noise tersebut ● Teknik mana yang digunakan sehingga berhasil untuk menghilangkan noise tersebut ● Apakah ada kasus atau atribut yang tak dapat diselamatkan ● Pastikan data yang dikecualikan karena kondisi noisenya
  • 42. UG-AI-CoE Data cleaning atas data berantakan (messy data), seperti: ○ missing value, ○ format tidak konsisten ○ record tidak berbentuk baik (malformed record) ○ outlier yang berlebihan Data Cleaning
  • 45. UG-AI-CoE Paramater/Daftar Isi Dokumentasi Data Validation Laporan dokumentasi data validasi, setidaknya memiliki parameter berikut: • Validasi data • Kebenaran, misal di Indonesia isian Gender yang diakui hanya 2 Pria/Wanita; Agama hanya 6 (Islam, Protestan, Katholik, Hindu, Budha, Konghucu) • Kelengkapan, misal data provinsi seluruh Indonesia (34 prov), namun hanya sebagian yg ada • Konsistensi, misal penulisan STM atau SMK; • Kecukupan data → Perlukan diulang berikan justifikasi (Resampling)
  • 46. UG-AI-CoE Validasi merupakan tahapan kritikal yang sering diabaikan DS-tist pemula, karena memeriksa, diantaranya sbb: o Tipe Data (mis. integer, float, string) Range Data o Uniqueness (mis. Kode Pos) o Consistent expression (mis. Jalan, Jl., Jln.) o Format Data (mis. utk tgl “YYYY-MM-DD” vs “DD-MM-YYYY”) → tmt (terhitung mulai tanggal) o Nilai Null/Missing Values o Misspelling/Type o Invalid Data (gender: L/P: L; Laki-laki; P: Pria/Perempuan? ) Validasi Data Verifikasi vs Validasi o Verifikasi: Benar vs Salah (sesuai prosedur) o Validasi: Kuat vs Lemah (sesuai kenyataan) Teknik Validasi Data dan Model o Akurasi Kelengkapan Konsistensi Ketepatan Waktu Kepercayaan Nilai Tambah Penafsiran o Kemudahan Akses
  • 48. UG-AI-CoE Tools Lab Online o Jupyter notebook o Scikit-learn o Pandas o Numpy o Matplotlib Pyplot
  • 49. UG-AI-CoE Summary o Data preparation memiliki sebutan lain, diantaranya data pre-processing, data cleaning, data manipulation. o Data preparation mengambil porsi kerja terbanyak dalam data science 60-80% o Data preparation membutuhkan ketelitian dan kesabaran/kerajinan dari peneliti DS, terutama pemula o Seleksi Fitur harus dilakukan di awal tahapan data preparation setelah melakukan penentuan metode/teknik sampling o Data Validation merupakan tahapan kritikal dari DS namun sering diabaikan para peneliti Seleksi Fitur harus dilakukan di awal tahapan data preparation setelah melakukan penentuan metode/teknik sampling o Data cleaning merupakan pekerjaan yang sangat memerlukan keahlian teknik DS terkait penggunaan tools dan coding o Kebersihan data merupakan syarat mutlak untuk Model Prediksi yang baik.
  • 50. UG-AI-CoE Referensi o Krensky P. Data PreTools: Goals, Benefits, and The Advantage of Hadoop. Aberdeen Group Report. July 2015 o SAS. Data Preparation Challenges Facing Every Enterprise. ebook. December 2017 o https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consumi ng-least-enjoyable-data-science-task-survey-says/?sh=6e9aa0e36f63 o https://improvado.io/blog/what-is-data-preparation o https://searchenterpriseai.techtarget.com/feature/Data-preparation-for-machine-learnin g-still-requires-humans o https://towardsdatascience.com/feature-selection-techniques-in-machine-learning-with -python-f24e7da3f36e
  • 51. UG-AI-CoE Quiz / Tugas Silakan kerjakan tugas mandiri yang telah disiapkan untuk pertemuan ini. Tugas mandiri akan dijelaskan lebih detail oleh Instruktur dan asisten Anda.