SlideShare a Scribd company logo
1 of 44
Download to read offline
KonsepKonsep dandan TeknikTeknik Data MiningData Mining
Data Preprocessing
Data PreprocessingData Preprocessing
Pembersihan dataPembersihan data
Integrasi dan transformasi dataIntegrasi dan transformasi data
Mengapa data di proses awal?Mengapa data di proses awal?
Data Preprocessing
Diskritisasi dan pembuatanDiskritisasi dan pembuatan
konsep hierarkikonsep hierarki
Integrasi dan transformasi dataIntegrasi dan transformasi data
Reduksi dataReduksi data
Mengapa Data Diproses Awal?Mengapa Data Diproses Awal?
• Data dalam dunia nyata kotor
– Tak-lengkap: nilai-nilai atribut kurang, atribut
tertentu yang dipentingkan tidak disertakan, atau
hanya memuat data agregasi
• Misal, pekerjaan=“”
Data Preprocessing
• Misal, pekerjaan=“”
– Noisy: memuat error atau memuat outliers (data
yang secara nyata berbeda dengan data-data yang
lain)
• Misal, Salary=“-10”
Mengapa Data Diproses Awal?Mengapa Data Diproses Awal?
– Tak-konsisten: memuat perbedaan dalam kode atau
nama
• Misal, Age=“42” Birthday=“03/07/1997”
• Misal, rating sebelumnya “1,2,3”, sekarang
rating “A, B, C”
Data Preprocessing
rating “A, B, C”
• Misal, perbedaan antara duplikasi record
• Data yang lebih baik akan menghasilkan data mining
yang lebih baik
• Data preprocessing membantu didalam memperbaiki
presisi dan kinerja data mining dan mencegah
kesalahan didalam data mining.
Mengapa Data Kotor?Mengapa Data Kotor?
• Ketaklengkapan data datang dari
– Nilai data tidak tersedia saat dikumpulkan
– Perbedaan pertimbangan waktu antara saat data
dikumpulkan dan saat data dianalisa.
Data Preprocessing
– Masalah manusia, hardware, dan software
• Noisy data datang dari proses data
– Pengumpulan
– Pemasukan (entry)
– Transmisi
Mengapa Data Kotor?Mengapa Data Kotor?
• Ketak-konsistenan data datang dari
– Sumber data yang berbeda
– Pelanggaran kebergantungan fungsional
Data Preprocessing
6/7
MengapaMengapa
Pemrosesan Awal Data Penting?Pemrosesan Awal Data Penting?
• Kualitas data tidak ada, kualitas hasil mining tidak
ada!
– Kualitas keputusan harus didasarkan kepada
kualitas data
• Misal, duplikasi data atau data hilang bisa
menyebabkan ketidak-benaran atau bahkan
Data Preprocessing
7/7
menyebabkan ketidak-benaran atau bahkan
statistik yang menyesatkan.
– Data warehouse memerlukan kualitas integrasi data
yang konsisten
• Ekstraksi data, pembersihan, dan transformasi
merupakan kerja utama dari pembuatan suatu data
warehouse. — Bill Inmon
Pengukuran Kualitas DataPengukuran Kualitas Data
MultidimesiMultidimesi
• Kualitas data dapat diakses dalam bentuk:
– Akurasi
– Kelengkapan
– Konsistensi
– Ketepatan waktu
Data Preprocessing
8/7
– Kepercayaan
– Nilai tambah
– Penafsiran
– Kemudahan diakses
• Kategori luas:
– Hakekat, kontekstual, bisa direpresentasikan,
dan mudah diakses
Tugas UtamaTugas Utama
Pemrosesan Awal DataPemrosesan Awal Data
• Pembersihan data (data yang kotor)
– Mengisi nilai-nilai yang hilang,
menghaluskan noisy data, mengenali atau
menghilangkan outlier, dan memecahkan
ketak-konsistenan
Data Preprocessing
ketak-konsistenan
• Integrasi data (data heterogen)
– Integrasi banyak database, banyak kubus
data, atau banyak file
• Transformasi data (data detail)
– Normalisasi dan agregasi
Tugas UtamaTugas Utama
Pemrosesan Awal DataPemrosesan Awal Data
• Reduksi data (jumlah data yang besar)
– Mendapatkan representasi yang direduksi
dalam volume tetapi menghasilkan hasil
analitikal yang sama atau mirip
• Diskritisasi data (kesinambungan atribut)
Data Preprocessing
10/
• Diskritisasi data (kesinambungan atribut)
– Bagian dari reduksi data tetapi dengan
kepentingan khusus, terutama data
numerik
BentukBentuk--Bentuk DariBentuk Dari
Pemrosesan Awal DataPemrosesan Awal Data
Pembersihan DataPembersihan Data
Integrasi DataIntegrasi Data
Data Preprocessing
11/
Transformasi DataTransformasi Data
Reduksi DataReduksi Data
Pembersihan DataPembersihan Data
– Memperbaiki ketak-konsitenan data, US=USA?
• Menggunakan rujukan eksternal
• Mendeteksi pelanggaran kendala
–Misal, kebergantungan fungsional
Data Preprocessing
Data HilangData Hilang
• Data tidak selalu tersedia
– Misal, banyak tuple atau record tidak memiliki nilai
yang tercatat untuk beberapa atribut, seperti
customer income dalam data sales
• Hilangnya data bisa karena
Data Preprocessing
• Hilangnya data bisa karena
– Kegagalan pemakaian peralatan
– Ketak-konsistenan dengan data tercatat lainnya dan
karenanya dihapus
– Data tidak dimasukkan karena salah pengertian
– Data tertentu bisa tidak dipandang penting pada saat
entry
Data HilangData Hilang
– Tidak mencatat history atau tidak mencatat
perubahan data
• Kehilangan data perlu disimpulkan
Data Preprocessing
14/
Bagaimana Menangani Data Hilang?Bagaimana Menangani Data Hilang?
• Mengabaikan tuple atau record: mudah tetapi tidak
efektif, dan merupakan metoda terakhir
– Biasanya dilakukan saat label kelas hilang
– Tidak efektif bila persentasi dari nilai-nilai yang
hilang per atribut sungguh-sungguh bervariasi.
Data Preprocessing
hilang per atribut sungguh-sungguh bervariasi.
• Mengisi nilai-nilai yang hilang secara manual:
– Paling baik
– Membosankan
– Paling mahal biayanya
– Tak mungkin dilakukan dalam banyak hal!
Bagaimana Menangani Data Hilang?Bagaimana Menangani Data Hilang?
• Mengisi nilai-nilai yang hilang secara otomatis
menggunakan:
– Suatu konstanta global: misal, “unknown”, “Null”,
atau suatu kelas baru?!
• Suatu pola yang memuat “unknown” atau “Null”
adalah buruk
Data Preprocessing
adalah buruk
– Gunakan rata-rata atribut
– Pengempisan data ke mean/median
– Rata-rata atribut untuk seluruh sampel yang masuk
kedalam kelas yang sama
• Lebih cerdas, dan suatu metoda yang baik
Bagaimana Menangani Data Hilang?Bagaimana Menangani Data Hilang?
– Nilai yang paling mungkin: berbasis inferensi
seperti regresi, rumus bayesian, atau pohon
keputusan
• Klasifikasi untuk mendapatkan nilai yang paling
mungkin
• Suatu metoda yang baik dengan beberapa
Data Preprocessing
• Suatu metoda yang baik dengan beberapa
overhead
– Menggunakan suatu nilai untuk mengisi nilai yang
hilang bisa membiaskan data, nilai bisa salah
– Nilai yang paling mungkin adalah yang terbaik
– Gunakan informasi yang paling banyak dari data
yang ada untuk memprediksi
Noisy DataNoisy Data
• Noise: error acak atau variansi dalam suatu variabel
terukur
• Nilai-nilai atribut tak benar mungkin karena
– Kegagalan instrumen pengumpulan data
– Problem pemasukan data
– Problem transmisi data
Data Preprocessing
– Problem transmisi data
– Keterbatasan teknologi
– Ketak-konsistenan dalam konvensi penamaan
• Problem data lainnya yang memerlukan pembersihan
data
– Duplikasi record
– Data tak lengkap
– Data tidak konsisten
Noisy Data: Menghilangkan OutlierNoisy Data: Menghilangkan Outlier
Data Preprocessing
Noisy Data: PenghalusanNoisy Data: Penghalusan
y
Y1
Data Preprocessing
xX1
Y1
Y1’
Bagaimana Menangani Noisy Data?Bagaimana Menangani Noisy Data?
• Metoda Binning:
– Pertama urutkan data dan partisi kedalam (kedalaman
yang sama) bin-bin
– Kemudian noisy data itu bisa dihaluskan dengan rata-
rata bin, median bin, atau batas bin.
Data Preprocessing
• Clustering
– Medeteksi dan membuang outliers
• Inspeksi kombinasi komputer dan manusia
– Mendeteksi nilai-nilai yang mencurigakan dan
memeriksa dengan manusia(misal, berurusan dengan
outlier yang mungkin)
Bagaimana Menangani Noisy Data?Bagaimana Menangani Noisy Data?
• Regresi
– Menghaluskan dengan memasukkan data kedalam
fungsi regresi
Data Preprocessing
Metoda Binning:Metoda Binning:
Diskritisasi SederhanaDiskritisasi Sederhana
• Partisi lebar yang sama (jarak):
– Membagi range kedalam N interval dengan
ukuran yang sama: grid seragam
– Jika A dan B masing-masing adalah nilai
terendah dan tertinggi dari atribut, lebar
Data Preprocessing
23/
terendah dan tertinggi dari atribut, lebar
interval akan menjadi : W = (B –A)/N.
– Kebanyakan langsung, tetapi outlier
mendominasi presentasi
– Data Outlier dan menyimpang tidak ditangani
dengan baik.
Metoda Binning:Metoda Binning:
Diskritisasi SederhanaDiskritisasi Sederhana
• Partisi kedalaman sama (frekuensi):
– Membagi range kedalam N interval, masing-masing
memuat jumlah sampel yang hampir sama
– Penskalaan data yang baik
– Penanganan atribut yang bersifat kategori bisa
Data Preprocessing
24/
– Penanganan atribut yang bersifat kategori bisa
rumit.
Metoda BinningMetoda Binning
Untuk Penghalusan DataUntuk Penghalusan Data
• Data terurut untuk harga (dalam dollar): 4, 8, 9, 15,
21, 21, 24, 25, 26, 28, 29, 34
• Partisi kedalam bin dengan kedalaman yang sama
(misal, dalam bin-3):
- Bin 1: 4, 8, 9, 15
Data Preprocessing
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
• Haluskan dengan rata-rata bins:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
Metoda BinningMetoda Binning
Untuk Penghalusan DataUntuk Penghalusan Data
• Penghalusan dengan batas bin:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
Data Preprocessing
- Bin 3: 26, 26, 26, 34
Analisis ClusterAnalisis Cluster
Data Preprocessing
RegresiRegresi
y
y = x + 1
Y1
Y1’
Data Preprocessing
28/
x
y = x + 1
X1
Y1’
Inspeksi Komputer dan ManusiaInspeksi Komputer dan Manusia——
PenghalusanPenghalusan
• Inspeksi kombinasi komputer dan manusia
– Suatu ambang yang diberikan user
– Komputer mendeteksi seluruh potensi outlier yang
dikaitkan dengan ambang
– Manusia menentukan outlier sesungguhnya
Data Preprocessing
– Manusia menentukan outlier sesungguhnya
Integrasi DataIntegrasi Data
• Integrasi data:
– Mengkombinasikan data dari banyak sumber kedalam suatu
simpanan terpadu
• Integrasi skema
– Mengintegrasikan metadata dari sumber-sumber berbeda
Data Preprocessing
– Mengintegrasikan metadata dari sumber-sumber berbeda
– Problem identifikasi entitas: mengenali entitas dunia nyata
dari banyak sumber-sumber data, misal A.cust-id ≡ B.cust-#
• Pendeteksian dan pemecahan konflik nilai data
– Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari
sumber-sumber berbeda adalah berbeda
– Alasan yang mungkin: representasi berbeda, skala berbeda,
misal berat bisa dalam pound atau kilogram
Integrasi DataIntegrasi Data
• Problem: integrasi skema heterogen
• Nama-nama tribut berbeda
cid name byear
1 Jones 1960
2 Smith 1974
Customer-ID state
1 NY
2 CA
Data Preprocessing
• Unit berbeda: Sales dalam $, sales dalam Yen,
sales dalam DM
2 Smith 1974
3 Smith 1950
2 CA
3 NY
Integrasi DataIntegrasi Data
• Problem: integrasi skema heterogen
• Skala berbeda: Sales dalam dollar versus sales dalam
sen dollar
Data Preprocessing
• Atribut turunan: Annual salary versus monthly salary
cid monthlySalary
1 5000
2 2400
3 3000
cid Salary
6 50,000
7 100,000
8 40,000
Integrasi DataIntegrasi Data
• Problem: ketak-konsistenan karena redundansi
• Customer dengan customer-id 150 punya 3 anak dalam
relation1 dan 4 anak dalam relation2
cid numChildren
1 3
cid numChildren
1 4
Data Preprocessing
• Komputasi annual salary dari monthly salary dalam
relation1 tak cocok dengan atribut “annual-salary”
dalam relation2
1 3 1 4
Penanganan RedundansiPenanganan Redundansi
Dalam Integrasi DataDalam Integrasi Data
• Data redundan sering terjadi saat integrasi dari banyak
database
– Atribut yang sama bisa memiliki nama berbeda dalam
database berbeda
– Atribut yang satu bisa merupakan suatu atribut “turunan”
dalam tabel lainnya, misal, annual revenue
Data Preprocessing
dalam tabel lainnya, misal, annual revenue
• Data redundan mungkin bisa dideteksi dengan analisis
korelasi
• Integrasi data hati-hati dari banyak sumber bisa
membantu mengurangi/mencegah redundansi dan
ketak-konsistenan dan memperbaiki kecepatan dan
kualitas mining
Penanganan RedundansiPenanganan Redundansi
Dalam Integrasi DataDalam Integrasi Data
• Suatu atribut adalah redundan jika atribut tersebut bisa
diperoleh dari atribut lainnya
• Analisis korelasi
• Rata-rata A adalah
Data Preprocessing
• Deviasi standard A adalah
• RA,B = 0: A dan B saling bebas
• RA,B > 0: A dan B berkorelasi positip A↑↔B↑
• RA,B < 0: A dan B berkorelasi negatif A↓↔B↑
Transformasi DataTransformasi Data
• Penghalusan: menghilangkan noise dari data
• Agregasi: ringkasan, konstruksi kubus data
• Generalisasi: konsep hierarchy climbing
• Normalisasi: diskalakan agar jatuh didalam suatu
Data Preprocessing
range kecil yang tertentu
– Normalisasi min-max
– Normalisasi z-score
– Normalisasi dengan penskalaan desimal
• Konstruksi atribut/fitur
– Atribut-atribut baru dibangun dari atribut-atribut yang ada
Transformasi Data: NormalisasiTransformasi Data: Normalisasi
• Normalisasi min-max
• Normalisasi z-score (saat Min, Max tak diketahui)
Data Preprocessing
• Normalisasi dengan penskalaan desimal
j
v
v
10
'= dimana j adalah integer terkecil sehingga Max(| |)<1'v
Strategi Reduksi DataStrategi Reduksi Data
• Suatu data warehouse bisa menyimpan terabytes data
– Analisis/menambang data kompleks bisa membutuhkan
waktu sangat lama untuk dijalankan pada data set komplit
(tak efisien)
• Reduksi data
– Mengurangi ukuran data set tetapi menghasilkan hasil
analitis yang sama (hampir sama)
Data Preprocessing
– Mengurangi ukuran data set tetapi menghasilkan hasil
analitis yang sama (hampir sama)
• Strategi reduksi data
– Agregasi kubus data
– Reduksi dimensionalitas—menghilangkan atribut tak penting
– Kompresi data
– Reduksi Numerosity reduction—mencocokkan data kedalam
model
– Diskritisasi dan pembuatan konsep hierarki
Normalization methodsNormalization methods
• Min-Max
• Z-Score
• Decimal Scaling
• Sigmoidal
Data Preprocessing
• Sigmoidal
• Softmax
Normalization methodNormalization method
(Min(Min--Max)Max)
• Min-Max merupakan metode normalisasi dengan
melakukan transformasi linier terhadap data asli.
• Rumus:
newdata = (data-min)*(newmax-newmin)/(max-
min)+newmin
• Keuntungan dari metode ini adalah keseimbangan
Data Preprocessing
• Keuntungan dari metode ini adalah keseimbangan
nilai perbandingan antar data saat sebelum dan
sesudah proses normalisasi. Tidak ada data bias
yang dihasilkan oleh metode ini.
• Kekurangannya adalah jika ada data baru, metode
ini akan memungkinkan terjebak pada "out of
bound" error.
Normalization methodNormalization method
(Z(Z--Score)Score)
• Z-score merupakan metode normalisasi yang
berdasarkan mean (nilai rata-rata) dan standard
deviation (deviasi standar) dari data.
• Rumus:
Data Preprocessing
• Rumus:
newdata = (data-mean)/std
• Metode ini sangat berguna jika kita tidak
mengetahui nilai aktual minimum dan maksimum
dari data.
Normalization methodNormalization method
(Decimal Scaling)(Decimal Scaling)
• Metode ini melakukan normalisasi dengan
menggerakkan nilai desimal dari data ke arah
yang diinginkan.
• Rumus:
newdata = data / 10i
dimana i adalah nilai integer untuk
Data Preprocessing
dimana i adalah nilai integer untuk
menggerakkan nilai desimal ke arah yang
diinginkan.
Normalization methodNormalization method
((SigmoidalSigmoidal))
• Sigmoidal normalization melakukan normalisasi
data secara nonlinier ke dalam range -1 - 1 dengan
menggunakan fungsi sigmoid.
• Rumus:
newdata = (1-e^(-x))/(1+ e^(-x))
Data Preprocessing
newdata = (1-e^(-x))/(1+ e^(-x))
dimana:
x = (data-mean)/std
e = nilai eksponensial (2,718281828)
• Metode ini sangat berguna pada saat data-data
yang ada melibatkan data-data outlier.
Normalization methodNormalization method
((SoftmaxSoftmax))
• Metode ini merupakan pengembangan
transformasi secara linier. Output range-nya
adalah 0-1.
• Rumus:
newdata = 1/(1+e^(-transfdata))
Data Preprocessing
newdata = 1/(1+e^(-transfdata))
• dimana:
transfdata = (data-mean)/(x*(std/(2*3.14)))
x = respon linier di deviasi standar

More Related Content

What's hot

Perhitungan matematis CNN untuk Analisis Sentimen
Perhitungan matematis CNN untuk Analisis SentimenPerhitungan matematis CNN untuk Analisis Sentimen
Perhitungan matematis CNN untuk Analisis SentimenMoch Ari Nasichuddin
 
Fitur dan Komponen Data Warehouse
Fitur dan Komponen Data WarehouseFitur dan Komponen Data Warehouse
Fitur dan Komponen Data Warehousededidarwis
 
Pertemuan 9 Strukturdata Datawarehouse
Pertemuan 9 Strukturdata DatawarehousePertemuan 9 Strukturdata Datawarehouse
Pertemuan 9 Strukturdata DatawarehouseEndang Retnoningsih
 
Konsep Dasar Data Warehouse
Konsep Dasar Data WarehouseKonsep Dasar Data Warehouse
Konsep Dasar Data Warehousededidarwis
 
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v27. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2ArdianDwiPraba
 
Metode Transportasi (Masalah dalam Metode Transportasi)
Metode Transportasi (Masalah dalam Metode Transportasi)Metode Transportasi (Masalah dalam Metode Transportasi)
Metode Transportasi (Masalah dalam Metode Transportasi)hazhiyah
 
Data Catalog for Better Data Discovery and Governance
Data Catalog for Better Data Discovery and GovernanceData Catalog for Better Data Discovery and Governance
Data Catalog for Better Data Discovery and GovernanceDenodo
 
Kontrol dan Audit Sistem Informasi
Kontrol dan Audit Sistem InformasiKontrol dan Audit Sistem Informasi
Kontrol dan Audit Sistem InformasiHerman efendi
 
Kebutuhan Data Warehouse
Kebutuhan Data WarehouseKebutuhan Data Warehouse
Kebutuhan Data Warehousededidarwis
 
Chapter 4: Data Architecture Management
Chapter 4: Data Architecture ManagementChapter 4: Data Architecture Management
Chapter 4: Data Architecture ManagementAhmed Alorage
 
Data Mining Klasifikasi (Updated 30 Desember 2020)
Data Mining Klasifikasi (Updated 30 Desember 2020)Data Mining Klasifikasi (Updated 30 Desember 2020)
Data Mining Klasifikasi (Updated 30 Desember 2020)Adam Mukharil Bachtiar
 
Konsep Data Mining
Konsep Data MiningKonsep Data Mining
Konsep Data Miningdedidarwis
 
Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)dedidarwis
 
01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptxmelrideswina
 
Pertemuan 10 Metadata Datawarehouse
Pertemuan 10 Metadata DatawarehousePertemuan 10 Metadata Datawarehouse
Pertemuan 10 Metadata DatawarehouseEndang Retnoningsih
 

What's hot (20)

Perhitungan matematis CNN untuk Analisis Sentimen
Perhitungan matematis CNN untuk Analisis SentimenPerhitungan matematis CNN untuk Analisis Sentimen
Perhitungan matematis CNN untuk Analisis Sentimen
 
Fitur dan Komponen Data Warehouse
Fitur dan Komponen Data WarehouseFitur dan Komponen Data Warehouse
Fitur dan Komponen Data Warehouse
 
Pertemuan 9 Strukturdata Datawarehouse
Pertemuan 9 Strukturdata DatawarehousePertemuan 9 Strukturdata Datawarehouse
Pertemuan 9 Strukturdata Datawarehouse
 
3 model data
3 model data3 model data
3 model data
 
Konsep Dasar Data Warehouse
Konsep Dasar Data WarehouseKonsep Dasar Data Warehouse
Konsep Dasar Data Warehouse
 
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v27. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
 
PENGENALAN DATA SCIENCE.pptx
PENGENALAN DATA SCIENCE.pptxPENGENALAN DATA SCIENCE.pptx
PENGENALAN DATA SCIENCE.pptx
 
Metode Transportasi (Masalah dalam Metode Transportasi)
Metode Transportasi (Masalah dalam Metode Transportasi)Metode Transportasi (Masalah dalam Metode Transportasi)
Metode Transportasi (Masalah dalam Metode Transportasi)
 
Kecerdasan bisnis
Kecerdasan bisnisKecerdasan bisnis
Kecerdasan bisnis
 
Data Catalog for Better Data Discovery and Governance
Data Catalog for Better Data Discovery and GovernanceData Catalog for Better Data Discovery and Governance
Data Catalog for Better Data Discovery and Governance
 
Kontrol dan Audit Sistem Informasi
Kontrol dan Audit Sistem InformasiKontrol dan Audit Sistem Informasi
Kontrol dan Audit Sistem Informasi
 
Kebutuhan Data Warehouse
Kebutuhan Data WarehouseKebutuhan Data Warehouse
Kebutuhan Data Warehouse
 
Chapter 4: Data Architecture Management
Chapter 4: Data Architecture ManagementChapter 4: Data Architecture Management
Chapter 4: Data Architecture Management
 
Data Mining Klasifikasi (Updated 30 Desember 2020)
Data Mining Klasifikasi (Updated 30 Desember 2020)Data Mining Klasifikasi (Updated 30 Desember 2020)
Data Mining Klasifikasi (Updated 30 Desember 2020)
 
Konsep Data Mining
Konsep Data MiningKonsep Data Mining
Konsep Data Mining
 
Pertemuan 11 Kualitas Data
Pertemuan 11 Kualitas DataPertemuan 11 Kualitas Data
Pertemuan 11 Kualitas Data
 
Text mining
Text miningText mining
Text mining
 
Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)
 
01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx
 
Pertemuan 10 Metadata Datawarehouse
Pertemuan 10 Metadata DatawarehousePertemuan 10 Metadata Datawarehouse
Pertemuan 10 Metadata Datawarehouse
 

Similar to APPLIED DATABASE III - Modul Data Preprocessing

3_ Data processing.ppt
3_ Data processing.ppt3_ Data processing.ppt
3_ Data processing.pptSaifAlfarizi1
 
Presentasi_Data_Mining.pptx
Presentasi_Data_Mining.pptxPresentasi_Data_Mining.pptx
Presentasi_Data_Mining.pptxWiraDana1
 
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...Arif Rahman
 
Data mining week 1 - pengantar data mining
Data mining   week 1 - pengantar data miningData mining   week 1 - pengantar data mining
Data mining week 1 - pengantar data miningLye Lazar
 
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa data
Siskohatkes 2020 (kompetensi ppih)   d. pengolahan dan analisa dataSiskohatkes 2020 (kompetensi ppih)   d. pengolahan dan analisa data
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa datarickygunawan84
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
 
Populating Data Warehouse
Populating Data WarehousePopulating Data Warehouse
Populating Data WarehouseNova ed
 
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.pptDATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.pptmuhammadarsyad77
 
Praproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data miningPraproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data miningssuseref80a11
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian dataKacung Abdullah
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsHendro Subagyo
 
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).ppt2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).pptFaniaAmbarWanti
 
Proses Data Mining
Proses Data MiningProses Data Mining
Proses Data Miningdedidarwis
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfRinnaRachmatika2
 
02 - Preprocessing Data.pdf
02 - Preprocessing Data.pdf02 - Preprocessing Data.pdf
02 - Preprocessing Data.pdfElvi Rahmi
 
Study Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptxStudy Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptxunikomdsc
 

Similar to APPLIED DATABASE III - Modul Data Preprocessing (20)

3_ Data processing.ppt
3_ Data processing.ppt3_ Data processing.ppt
3_ Data processing.ppt
 
Presentasi_Data_Mining.pptx
Presentasi_Data_Mining.pptxPresentasi_Data_Mining.pptx
Presentasi_Data_Mining.pptx
 
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
 
MIK4237-02.pdf
MIK4237-02.pdfMIK4237-02.pdf
MIK4237-02.pdf
 
2700 3 data preprocessing
2700 3 data preprocessing2700 3 data preprocessing
2700 3 data preprocessing
 
Data mining week 1 - pengantar data mining
Data mining   week 1 - pengantar data miningData mining   week 1 - pengantar data mining
Data mining week 1 - pengantar data mining
 
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa data
Siskohatkes 2020 (kompetensi ppih)   d. pengolahan dan analisa dataSiskohatkes 2020 (kompetensi ppih)   d. pengolahan dan analisa data
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa data
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
 
Populating Data Warehouse
Populating Data WarehousePopulating Data Warehouse
Populating Data Warehouse
 
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.pptDATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
 
Praproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data miningPraproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data mining
 
Bab1.pptx
Bab1.pptxBab1.pptx
Bab1.pptx
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian data
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan Netlytics
 
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).ppt2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
 
Proses Data Mining
Proses Data MiningProses Data Mining
Proses Data Mining
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
 
02 - Preprocessing Data.pdf
02 - Preprocessing Data.pdf02 - Preprocessing Data.pdf
02 - Preprocessing Data.pdf
 
Study Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptxStudy Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptx
 
BAB_5_Data_Mining.ppt
BAB_5_Data_Mining.pptBAB_5_Data_Mining.ppt
BAB_5_Data_Mining.ppt
 

More from DEDE IRYAWAN

Riset Teknologi Informasi - Tugas 03 - Paper Review on “Naive Bayes Classifi...
Riset Teknologi Informasi - Tugas 03 -  Paper Review on “Naive Bayes Classifi...Riset Teknologi Informasi - Tugas 03 -  Paper Review on “Naive Bayes Classifi...
Riset Teknologi Informasi - Tugas 03 - Paper Review on “Naive Bayes Classifi...DEDE IRYAWAN
 
APPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningAPPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningDEDE IRYAWAN
 
Riset Teknologi Informasi - Modul 6 - Judul, Baris Kepemilikan, Abstrak, dan...
Riset Teknologi  Informasi - Modul 6 - Judul, Baris Kepemilikan, Abstrak, dan...Riset Teknologi  Informasi - Modul 6 - Judul, Baris Kepemilikan, Abstrak, dan...
Riset Teknologi Informasi - Modul 6 - Judul, Baris Kepemilikan, Abstrak, dan...DEDE IRYAWAN
 
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 6 - MANAJEMEN BIAYA PROYEK
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 6 - MANAJEMEN BIAYA PROYEKMANAJEMEN PROYEK PERANGKAT LUNAK - Modul 6 - MANAJEMEN BIAYA PROYEK
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 6 - MANAJEMEN BIAYA PROYEKDEDE IRYAWAN
 
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 5 - MANAJEMEN WAKTU PROYEK
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 5 - MANAJEMEN WAKTU PROYEKMANAJEMEN PROYEK PERANGKAT LUNAK - Modul 5 - MANAJEMEN WAKTU PROYEK
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 5 - MANAJEMEN WAKTU PROYEKDEDE IRYAWAN
 
TOEFL Exercise 22 Slide
TOEFL Exercise 22 SlideTOEFL Exercise 22 Slide
TOEFL Exercise 22 SlideDEDE IRYAWAN
 
TOEFL Exercise 17 - Listen for IDIOMS
TOEFL Exercise 17 - Listen for IDIOMSTOEFL Exercise 17 - Listen for IDIOMS
TOEFL Exercise 17 - Listen for IDIOMSDEDE IRYAWAN
 
TOEFL EXERCISE 15 - UNTRUE CONDITION
TOEFL EXERCISE 15 - UNTRUE CONDITIONTOEFL EXERCISE 15 - UNTRUE CONDITION
TOEFL EXERCISE 15 - UNTRUE CONDITIONDEDE IRYAWAN
 
TOEFL EXERCISE 14 - Listen for WISHES
TOEFL EXERCISE 14 - Listen for  WISHESTOEFL EXERCISE 14 - Listen for  WISHES
TOEFL EXERCISE 14 - Listen for WISHESDEDE IRYAWAN
 
TOEFL Exercise 13 - Emphatic Expression of SURPRISE
TOEFL Exercise 13 - Emphatic Expression of SURPRISETOEFL Exercise 13 - Emphatic Expression of SURPRISE
TOEFL Exercise 13 - Emphatic Expression of SURPRISEDEDE IRYAWAN
 
TOEFL Exercise 12 - Expression of UNCERTAINITY and SUGGESTION
TOEFL Exercise 12 - Expression of UNCERTAINITY and SUGGESTIONTOEFL Exercise 12 - Expression of UNCERTAINITY and SUGGESTION
TOEFL Exercise 12 - Expression of UNCERTAINITY and SUGGESTIONDEDE IRYAWAN
 
TOEFL Exercise 11 - Expression of AGREEMENT
TOEFL Exercise 11 - Expression of AGREEMENTTOEFL Exercise 11 - Expression of AGREEMENT
TOEFL Exercise 11 - Expression of AGREEMENTDEDE IRYAWAN
 
TOEFL Exercise 10 - NEGATIVE WITH COMPARATIVE
TOEFL Exercise 10 - NEGATIVE WITH COMPARATIVETOEFL Exercise 10 - NEGATIVE WITH COMPARATIVE
TOEFL Exercise 10 - NEGATIVE WITH COMPARATIVEDEDE IRYAWAN
 
TOEFL Exercise 9 - “ALMOST NEGATIVE” Expression
TOEFL Exercise 9 - “ALMOST NEGATIVE” ExpressionTOEFL Exercise 9 - “ALMOST NEGATIVE” Expression
TOEFL Exercise 9 - “ALMOST NEGATIVE” ExpressionDEDE IRYAWAN
 
TOEFL EXERCISE 8 - DOUBLE NEGATIVE EXPRESSIONS
TOEFL EXERCISE 8 - DOUBLE NEGATIVE EXPRESSIONSTOEFL EXERCISE 8 - DOUBLE NEGATIVE EXPRESSIONS
TOEFL EXERCISE 8 - DOUBLE NEGATIVE EXPRESSIONSDEDE IRYAWAN
 
TOEFL Exercise 7 - NEGATIVE EXPRESSION
TOEFL Exercise 7 - NEGATIVE EXPRESSIONTOEFL Exercise 7 - NEGATIVE EXPRESSION
TOEFL Exercise 7 - NEGATIVE EXPRESSIONDEDE IRYAWAN
 
TOEFL EXERCISE 3 - AVOID SIMILAR SOUNDS
TOEFL EXERCISE 3 - AVOID SIMILAR SOUNDSTOEFL EXERCISE 3 - AVOID SIMILAR SOUNDS
TOEFL EXERCISE 3 - AVOID SIMILAR SOUNDSDEDE IRYAWAN
 
TOEFL EXERCISE 1 - FOCUS ON THE SECOND LINE
TOEFL EXERCISE 1 - FOCUS ON THE SECOND LINETOEFL EXERCISE 1 - FOCUS ON THE SECOND LINE
TOEFL EXERCISE 1 - FOCUS ON THE SECOND LINEDEDE IRYAWAN
 
English for Proficiency Certification (EPC) - Modul 2 - Further Exercises and...
English for Proficiency Certification (EPC) - Modul 2 - Further Exercises and...English for Proficiency Certification (EPC) - Modul 2 - Further Exercises and...
English for Proficiency Certification (EPC) - Modul 2 - Further Exercises and...DEDE IRYAWAN
 
Kapita Selekta Applied Database : Slide 5 - Desain Penelitian
Kapita Selekta Applied Database : Slide 5 - Desain PenelitianKapita Selekta Applied Database : Slide 5 - Desain Penelitian
Kapita Selekta Applied Database : Slide 5 - Desain PenelitianDEDE IRYAWAN
 

More from DEDE IRYAWAN (20)

Riset Teknologi Informasi - Tugas 03 - Paper Review on “Naive Bayes Classifi...
Riset Teknologi Informasi - Tugas 03 -  Paper Review on “Naive Bayes Classifi...Riset Teknologi Informasi - Tugas 03 -  Paper Review on “Naive Bayes Classifi...
Riset Teknologi Informasi - Tugas 03 - Paper Review on “Naive Bayes Classifi...
 
APPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningAPPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data Mining
 
Riset Teknologi Informasi - Modul 6 - Judul, Baris Kepemilikan, Abstrak, dan...
Riset Teknologi  Informasi - Modul 6 - Judul, Baris Kepemilikan, Abstrak, dan...Riset Teknologi  Informasi - Modul 6 - Judul, Baris Kepemilikan, Abstrak, dan...
Riset Teknologi Informasi - Modul 6 - Judul, Baris Kepemilikan, Abstrak, dan...
 
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 6 - MANAJEMEN BIAYA PROYEK
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 6 - MANAJEMEN BIAYA PROYEKMANAJEMEN PROYEK PERANGKAT LUNAK - Modul 6 - MANAJEMEN BIAYA PROYEK
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 6 - MANAJEMEN BIAYA PROYEK
 
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 5 - MANAJEMEN WAKTU PROYEK
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 5 - MANAJEMEN WAKTU PROYEKMANAJEMEN PROYEK PERANGKAT LUNAK - Modul 5 - MANAJEMEN WAKTU PROYEK
MANAJEMEN PROYEK PERANGKAT LUNAK - Modul 5 - MANAJEMEN WAKTU PROYEK
 
TOEFL Exercise 22 Slide
TOEFL Exercise 22 SlideTOEFL Exercise 22 Slide
TOEFL Exercise 22 Slide
 
TOEFL Exercise 17 - Listen for IDIOMS
TOEFL Exercise 17 - Listen for IDIOMSTOEFL Exercise 17 - Listen for IDIOMS
TOEFL Exercise 17 - Listen for IDIOMS
 
TOEFL EXERCISE 15 - UNTRUE CONDITION
TOEFL EXERCISE 15 - UNTRUE CONDITIONTOEFL EXERCISE 15 - UNTRUE CONDITION
TOEFL EXERCISE 15 - UNTRUE CONDITION
 
TOEFL EXERCISE 14 - Listen for WISHES
TOEFL EXERCISE 14 - Listen for  WISHESTOEFL EXERCISE 14 - Listen for  WISHES
TOEFL EXERCISE 14 - Listen for WISHES
 
TOEFL Exercise 13 - Emphatic Expression of SURPRISE
TOEFL Exercise 13 - Emphatic Expression of SURPRISETOEFL Exercise 13 - Emphatic Expression of SURPRISE
TOEFL Exercise 13 - Emphatic Expression of SURPRISE
 
TOEFL Exercise 12 - Expression of UNCERTAINITY and SUGGESTION
TOEFL Exercise 12 - Expression of UNCERTAINITY and SUGGESTIONTOEFL Exercise 12 - Expression of UNCERTAINITY and SUGGESTION
TOEFL Exercise 12 - Expression of UNCERTAINITY and SUGGESTION
 
TOEFL Exercise 11 - Expression of AGREEMENT
TOEFL Exercise 11 - Expression of AGREEMENTTOEFL Exercise 11 - Expression of AGREEMENT
TOEFL Exercise 11 - Expression of AGREEMENT
 
TOEFL Exercise 10 - NEGATIVE WITH COMPARATIVE
TOEFL Exercise 10 - NEGATIVE WITH COMPARATIVETOEFL Exercise 10 - NEGATIVE WITH COMPARATIVE
TOEFL Exercise 10 - NEGATIVE WITH COMPARATIVE
 
TOEFL Exercise 9 - “ALMOST NEGATIVE” Expression
TOEFL Exercise 9 - “ALMOST NEGATIVE” ExpressionTOEFL Exercise 9 - “ALMOST NEGATIVE” Expression
TOEFL Exercise 9 - “ALMOST NEGATIVE” Expression
 
TOEFL EXERCISE 8 - DOUBLE NEGATIVE EXPRESSIONS
TOEFL EXERCISE 8 - DOUBLE NEGATIVE EXPRESSIONSTOEFL EXERCISE 8 - DOUBLE NEGATIVE EXPRESSIONS
TOEFL EXERCISE 8 - DOUBLE NEGATIVE EXPRESSIONS
 
TOEFL Exercise 7 - NEGATIVE EXPRESSION
TOEFL Exercise 7 - NEGATIVE EXPRESSIONTOEFL Exercise 7 - NEGATIVE EXPRESSION
TOEFL Exercise 7 - NEGATIVE EXPRESSION
 
TOEFL EXERCISE 3 - AVOID SIMILAR SOUNDS
TOEFL EXERCISE 3 - AVOID SIMILAR SOUNDSTOEFL EXERCISE 3 - AVOID SIMILAR SOUNDS
TOEFL EXERCISE 3 - AVOID SIMILAR SOUNDS
 
TOEFL EXERCISE 1 - FOCUS ON THE SECOND LINE
TOEFL EXERCISE 1 - FOCUS ON THE SECOND LINETOEFL EXERCISE 1 - FOCUS ON THE SECOND LINE
TOEFL EXERCISE 1 - FOCUS ON THE SECOND LINE
 
English for Proficiency Certification (EPC) - Modul 2 - Further Exercises and...
English for Proficiency Certification (EPC) - Modul 2 - Further Exercises and...English for Proficiency Certification (EPC) - Modul 2 - Further Exercises and...
English for Proficiency Certification (EPC) - Modul 2 - Further Exercises and...
 
Kapita Selekta Applied Database : Slide 5 - Desain Penelitian
Kapita Selekta Applied Database : Slide 5 - Desain PenelitianKapita Selekta Applied Database : Slide 5 - Desain Penelitian
Kapita Selekta Applied Database : Slide 5 - Desain Penelitian
 

Recently uploaded

Laporan Tinjauan Manajemen HSE/Laporan HSE Triwulanpptx
Laporan Tinjauan Manajemen HSE/Laporan HSE TriwulanpptxLaporan Tinjauan Manajemen HSE/Laporan HSE Triwulanpptx
Laporan Tinjauan Manajemen HSE/Laporan HSE Triwulanpptxilanarespatinovitari1
 
sample for Flow Chart Permintaan Spare Part
sample for Flow Chart Permintaan Spare Partsample for Flow Chart Permintaan Spare Part
sample for Flow Chart Permintaan Spare Parthusien3
 
SOAL UJIAN SKKhhhhhhjjjjjjjjjjjjjjjj.pptx
SOAL UJIAN SKKhhhhhhjjjjjjjjjjjjjjjj.pptxSOAL UJIAN SKKhhhhhhjjjjjjjjjjjjjjjj.pptx
SOAL UJIAN SKKhhhhhhjjjjjjjjjjjjjjjj.pptxFahrizalTriPrasetyo
 
UTILITAS BANGUNAN BERUPA PENANGKAL PETIR.pptx
UTILITAS BANGUNAN BERUPA PENANGKAL PETIR.pptxUTILITAS BANGUNAN BERUPA PENANGKAL PETIR.pptx
UTILITAS BANGUNAN BERUPA PENANGKAL PETIR.pptxAndimarini2
 
BAB_3_Teorema superposisi_thevenin_norton (1).ppt
BAB_3_Teorema superposisi_thevenin_norton (1).pptBAB_3_Teorema superposisi_thevenin_norton (1).ppt
BAB_3_Teorema superposisi_thevenin_norton (1).pptDellaEkaPutri2
 
TEKNIS TES TULIS REKRUTMEN PAMSIMAS 2024.pdf
TEKNIS TES TULIS REKRUTMEN PAMSIMAS 2024.pdfTEKNIS TES TULIS REKRUTMEN PAMSIMAS 2024.pdf
TEKNIS TES TULIS REKRUTMEN PAMSIMAS 2024.pdfYogiCahyoPurnomo
 
ppt hidrolika_ARI SATRIA NINGSIH_E1A120026.pptx
ppt hidrolika_ARI SATRIA NINGSIH_E1A120026.pptxppt hidrolika_ARI SATRIA NINGSIH_E1A120026.pptx
ppt hidrolika_ARI SATRIA NINGSIH_E1A120026.pptxArisatrianingsih
 
2024.02.26 - Pra-Rakor Tol IKN 3A-2 - R2 V2.pptx
2024.02.26 - Pra-Rakor Tol IKN 3A-2 - R2 V2.pptx2024.02.26 - Pra-Rakor Tol IKN 3A-2 - R2 V2.pptx
2024.02.26 - Pra-Rakor Tol IKN 3A-2 - R2 V2.pptxEnginerMine
 
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptxPresentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptxyoodika046
 
Manajer Lapangan Pelaksanaan Pekerjaan Gedung - Endy Aitya.pptx
Manajer Lapangan Pelaksanaan Pekerjaan Gedung - Endy Aitya.pptxManajer Lapangan Pelaksanaan Pekerjaan Gedung - Endy Aitya.pptx
Manajer Lapangan Pelaksanaan Pekerjaan Gedung - Endy Aitya.pptxarifyudianto3
 
MAteri:Penggunaan fungsi pada pemrograman c++
MAteri:Penggunaan fungsi pada pemrograman c++MAteri:Penggunaan fungsi pada pemrograman c++
MAteri:Penggunaan fungsi pada pemrograman c++FujiAdam
 
Presentasi gedung jenjang 6 - Isman Kurniawan.ppt
Presentasi gedung jenjang 6 - Isman Kurniawan.pptPresentasi gedung jenjang 6 - Isman Kurniawan.ppt
Presentasi gedung jenjang 6 - Isman Kurniawan.pptarifyudianto3
 
POWER POINT TEKLING UNTUK SARJANA KEATAS
POWER POINT TEKLING UNTUK SARJANA KEATASPOWER POINT TEKLING UNTUK SARJANA KEATAS
POWER POINT TEKLING UNTUK SARJANA KEATASMuhammadFiqi8
 
Materi Asesi SKK Manajer Pelaksana SPAM- jenjang 6.pptx
Materi Asesi SKK Manajer Pelaksana SPAM- jenjang 6.pptxMateri Asesi SKK Manajer Pelaksana SPAM- jenjang 6.pptx
Materi Asesi SKK Manajer Pelaksana SPAM- jenjang 6.pptxarifyudianto3
 
Pengolahan Kelapa Sawit 1 pabrik pks.pdf
Pengolahan Kelapa Sawit 1 pabrik pks.pdfPengolahan Kelapa Sawit 1 pabrik pks.pdf
Pengolahan Kelapa Sawit 1 pabrik pks.pdffitriAnnisa54
 

Recently uploaded (16)

Laporan Tinjauan Manajemen HSE/Laporan HSE Triwulanpptx
Laporan Tinjauan Manajemen HSE/Laporan HSE TriwulanpptxLaporan Tinjauan Manajemen HSE/Laporan HSE Triwulanpptx
Laporan Tinjauan Manajemen HSE/Laporan HSE Triwulanpptx
 
sample for Flow Chart Permintaan Spare Part
sample for Flow Chart Permintaan Spare Partsample for Flow Chart Permintaan Spare Part
sample for Flow Chart Permintaan Spare Part
 
Abortion Pills In Doha // QATAR (+966572737505 ) Get Cytotec
Abortion Pills In Doha // QATAR (+966572737505 ) Get CytotecAbortion Pills In Doha // QATAR (+966572737505 ) Get Cytotec
Abortion Pills In Doha // QATAR (+966572737505 ) Get Cytotec
 
SOAL UJIAN SKKhhhhhhjjjjjjjjjjjjjjjj.pptx
SOAL UJIAN SKKhhhhhhjjjjjjjjjjjjjjjj.pptxSOAL UJIAN SKKhhhhhhjjjjjjjjjjjjjjjj.pptx
SOAL UJIAN SKKhhhhhhjjjjjjjjjjjjjjjj.pptx
 
UTILITAS BANGUNAN BERUPA PENANGKAL PETIR.pptx
UTILITAS BANGUNAN BERUPA PENANGKAL PETIR.pptxUTILITAS BANGUNAN BERUPA PENANGKAL PETIR.pptx
UTILITAS BANGUNAN BERUPA PENANGKAL PETIR.pptx
 
BAB_3_Teorema superposisi_thevenin_norton (1).ppt
BAB_3_Teorema superposisi_thevenin_norton (1).pptBAB_3_Teorema superposisi_thevenin_norton (1).ppt
BAB_3_Teorema superposisi_thevenin_norton (1).ppt
 
TEKNIS TES TULIS REKRUTMEN PAMSIMAS 2024.pdf
TEKNIS TES TULIS REKRUTMEN PAMSIMAS 2024.pdfTEKNIS TES TULIS REKRUTMEN PAMSIMAS 2024.pdf
TEKNIS TES TULIS REKRUTMEN PAMSIMAS 2024.pdf
 
ppt hidrolika_ARI SATRIA NINGSIH_E1A120026.pptx
ppt hidrolika_ARI SATRIA NINGSIH_E1A120026.pptxppt hidrolika_ARI SATRIA NINGSIH_E1A120026.pptx
ppt hidrolika_ARI SATRIA NINGSIH_E1A120026.pptx
 
2024.02.26 - Pra-Rakor Tol IKN 3A-2 - R2 V2.pptx
2024.02.26 - Pra-Rakor Tol IKN 3A-2 - R2 V2.pptx2024.02.26 - Pra-Rakor Tol IKN 3A-2 - R2 V2.pptx
2024.02.26 - Pra-Rakor Tol IKN 3A-2 - R2 V2.pptx
 
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptxPresentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
 
Manajer Lapangan Pelaksanaan Pekerjaan Gedung - Endy Aitya.pptx
Manajer Lapangan Pelaksanaan Pekerjaan Gedung - Endy Aitya.pptxManajer Lapangan Pelaksanaan Pekerjaan Gedung - Endy Aitya.pptx
Manajer Lapangan Pelaksanaan Pekerjaan Gedung - Endy Aitya.pptx
 
MAteri:Penggunaan fungsi pada pemrograman c++
MAteri:Penggunaan fungsi pada pemrograman c++MAteri:Penggunaan fungsi pada pemrograman c++
MAteri:Penggunaan fungsi pada pemrograman c++
 
Presentasi gedung jenjang 6 - Isman Kurniawan.ppt
Presentasi gedung jenjang 6 - Isman Kurniawan.pptPresentasi gedung jenjang 6 - Isman Kurniawan.ppt
Presentasi gedung jenjang 6 - Isman Kurniawan.ppt
 
POWER POINT TEKLING UNTUK SARJANA KEATAS
POWER POINT TEKLING UNTUK SARJANA KEATASPOWER POINT TEKLING UNTUK SARJANA KEATAS
POWER POINT TEKLING UNTUK SARJANA KEATAS
 
Materi Asesi SKK Manajer Pelaksana SPAM- jenjang 6.pptx
Materi Asesi SKK Manajer Pelaksana SPAM- jenjang 6.pptxMateri Asesi SKK Manajer Pelaksana SPAM- jenjang 6.pptx
Materi Asesi SKK Manajer Pelaksana SPAM- jenjang 6.pptx
 
Pengolahan Kelapa Sawit 1 pabrik pks.pdf
Pengolahan Kelapa Sawit 1 pabrik pks.pdfPengolahan Kelapa Sawit 1 pabrik pks.pdf
Pengolahan Kelapa Sawit 1 pabrik pks.pdf
 

APPLIED DATABASE III - Modul Data Preprocessing

  • 1. KonsepKonsep dandan TeknikTeknik Data MiningData Mining Data Preprocessing
  • 2. Data PreprocessingData Preprocessing Pembersihan dataPembersihan data Integrasi dan transformasi dataIntegrasi dan transformasi data Mengapa data di proses awal?Mengapa data di proses awal? Data Preprocessing Diskritisasi dan pembuatanDiskritisasi dan pembuatan konsep hierarkikonsep hierarki Integrasi dan transformasi dataIntegrasi dan transformasi data Reduksi dataReduksi data
  • 3. Mengapa Data Diproses Awal?Mengapa Data Diproses Awal? • Data dalam dunia nyata kotor – Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang dipentingkan tidak disertakan, atau hanya memuat data agregasi • Misal, pekerjaan=“” Data Preprocessing • Misal, pekerjaan=“” – Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain) • Misal, Salary=“-10”
  • 4. Mengapa Data Diproses Awal?Mengapa Data Diproses Awal? – Tak-konsisten: memuat perbedaan dalam kode atau nama • Misal, Age=“42” Birthday=“03/07/1997” • Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C” Data Preprocessing rating “A, B, C” • Misal, perbedaan antara duplikasi record • Data yang lebih baik akan menghasilkan data mining yang lebih baik • Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah kesalahan didalam data mining.
  • 5. Mengapa Data Kotor?Mengapa Data Kotor? • Ketaklengkapan data datang dari – Nilai data tidak tersedia saat dikumpulkan – Perbedaan pertimbangan waktu antara saat data dikumpulkan dan saat data dianalisa. Data Preprocessing – Masalah manusia, hardware, dan software • Noisy data datang dari proses data – Pengumpulan – Pemasukan (entry) – Transmisi
  • 6. Mengapa Data Kotor?Mengapa Data Kotor? • Ketak-konsistenan data datang dari – Sumber data yang berbeda – Pelanggaran kebergantungan fungsional Data Preprocessing 6/7
  • 7. MengapaMengapa Pemrosesan Awal Data Penting?Pemrosesan Awal Data Penting? • Kualitas data tidak ada, kualitas hasil mining tidak ada! – Kualitas keputusan harus didasarkan kepada kualitas data • Misal, duplikasi data atau data hilang bisa menyebabkan ketidak-benaran atau bahkan Data Preprocessing 7/7 menyebabkan ketidak-benaran atau bahkan statistik yang menyesatkan. – Data warehouse memerlukan kualitas integrasi data yang konsisten • Ekstraksi data, pembersihan, dan transformasi merupakan kerja utama dari pembuatan suatu data warehouse. — Bill Inmon
  • 8. Pengukuran Kualitas DataPengukuran Kualitas Data MultidimesiMultidimesi • Kualitas data dapat diakses dalam bentuk: – Akurasi – Kelengkapan – Konsistensi – Ketepatan waktu Data Preprocessing 8/7 – Kepercayaan – Nilai tambah – Penafsiran – Kemudahan diakses • Kategori luas: – Hakekat, kontekstual, bisa direpresentasikan, dan mudah diakses
  • 9. Tugas UtamaTugas Utama Pemrosesan Awal DataPemrosesan Awal Data • Pembersihan data (data yang kotor) – Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau menghilangkan outlier, dan memecahkan ketak-konsistenan Data Preprocessing ketak-konsistenan • Integrasi data (data heterogen) – Integrasi banyak database, banyak kubus data, atau banyak file • Transformasi data (data detail) – Normalisasi dan agregasi
  • 10. Tugas UtamaTugas Utama Pemrosesan Awal DataPemrosesan Awal Data • Reduksi data (jumlah data yang besar) – Mendapatkan representasi yang direduksi dalam volume tetapi menghasilkan hasil analitikal yang sama atau mirip • Diskritisasi data (kesinambungan atribut) Data Preprocessing 10/ • Diskritisasi data (kesinambungan atribut) – Bagian dari reduksi data tetapi dengan kepentingan khusus, terutama data numerik
  • 11. BentukBentuk--Bentuk DariBentuk Dari Pemrosesan Awal DataPemrosesan Awal Data Pembersihan DataPembersihan Data Integrasi DataIntegrasi Data Data Preprocessing 11/ Transformasi DataTransformasi Data Reduksi DataReduksi Data
  • 12. Pembersihan DataPembersihan Data – Memperbaiki ketak-konsitenan data, US=USA? • Menggunakan rujukan eksternal • Mendeteksi pelanggaran kendala –Misal, kebergantungan fungsional Data Preprocessing
  • 13. Data HilangData Hilang • Data tidak selalu tersedia – Misal, banyak tuple atau record tidak memiliki nilai yang tercatat untuk beberapa atribut, seperti customer income dalam data sales • Hilangnya data bisa karena Data Preprocessing • Hilangnya data bisa karena – Kegagalan pemakaian peralatan – Ketak-konsistenan dengan data tercatat lainnya dan karenanya dihapus – Data tidak dimasukkan karena salah pengertian – Data tertentu bisa tidak dipandang penting pada saat entry
  • 14. Data HilangData Hilang – Tidak mencatat history atau tidak mencatat perubahan data • Kehilangan data perlu disimpulkan Data Preprocessing 14/
  • 15. Bagaimana Menangani Data Hilang?Bagaimana Menangani Data Hilang? • Mengabaikan tuple atau record: mudah tetapi tidak efektif, dan merupakan metoda terakhir – Biasanya dilakukan saat label kelas hilang – Tidak efektif bila persentasi dari nilai-nilai yang hilang per atribut sungguh-sungguh bervariasi. Data Preprocessing hilang per atribut sungguh-sungguh bervariasi. • Mengisi nilai-nilai yang hilang secara manual: – Paling baik – Membosankan – Paling mahal biayanya – Tak mungkin dilakukan dalam banyak hal!
  • 16. Bagaimana Menangani Data Hilang?Bagaimana Menangani Data Hilang? • Mengisi nilai-nilai yang hilang secara otomatis menggunakan: – Suatu konstanta global: misal, “unknown”, “Null”, atau suatu kelas baru?! • Suatu pola yang memuat “unknown” atau “Null” adalah buruk Data Preprocessing adalah buruk – Gunakan rata-rata atribut – Pengempisan data ke mean/median – Rata-rata atribut untuk seluruh sampel yang masuk kedalam kelas yang sama • Lebih cerdas, dan suatu metoda yang baik
  • 17. Bagaimana Menangani Data Hilang?Bagaimana Menangani Data Hilang? – Nilai yang paling mungkin: berbasis inferensi seperti regresi, rumus bayesian, atau pohon keputusan • Klasifikasi untuk mendapatkan nilai yang paling mungkin • Suatu metoda yang baik dengan beberapa Data Preprocessing • Suatu metoda yang baik dengan beberapa overhead – Menggunakan suatu nilai untuk mengisi nilai yang hilang bisa membiaskan data, nilai bisa salah – Nilai yang paling mungkin adalah yang terbaik – Gunakan informasi yang paling banyak dari data yang ada untuk memprediksi
  • 18. Noisy DataNoisy Data • Noise: error acak atau variansi dalam suatu variabel terukur • Nilai-nilai atribut tak benar mungkin karena – Kegagalan instrumen pengumpulan data – Problem pemasukan data – Problem transmisi data Data Preprocessing – Problem transmisi data – Keterbatasan teknologi – Ketak-konsistenan dalam konvensi penamaan • Problem data lainnya yang memerlukan pembersihan data – Duplikasi record – Data tak lengkap – Data tidak konsisten
  • 19. Noisy Data: Menghilangkan OutlierNoisy Data: Menghilangkan Outlier Data Preprocessing
  • 20. Noisy Data: PenghalusanNoisy Data: Penghalusan y Y1 Data Preprocessing xX1 Y1 Y1’
  • 21. Bagaimana Menangani Noisy Data?Bagaimana Menangani Noisy Data? • Metoda Binning: – Pertama urutkan data dan partisi kedalam (kedalaman yang sama) bin-bin – Kemudian noisy data itu bisa dihaluskan dengan rata- rata bin, median bin, atau batas bin. Data Preprocessing • Clustering – Medeteksi dan membuang outliers • Inspeksi kombinasi komputer dan manusia – Mendeteksi nilai-nilai yang mencurigakan dan memeriksa dengan manusia(misal, berurusan dengan outlier yang mungkin)
  • 22. Bagaimana Menangani Noisy Data?Bagaimana Menangani Noisy Data? • Regresi – Menghaluskan dengan memasukkan data kedalam fungsi regresi Data Preprocessing
  • 23. Metoda Binning:Metoda Binning: Diskritisasi SederhanaDiskritisasi Sederhana • Partisi lebar yang sama (jarak): – Membagi range kedalam N interval dengan ukuran yang sama: grid seragam – Jika A dan B masing-masing adalah nilai terendah dan tertinggi dari atribut, lebar Data Preprocessing 23/ terendah dan tertinggi dari atribut, lebar interval akan menjadi : W = (B –A)/N. – Kebanyakan langsung, tetapi outlier mendominasi presentasi – Data Outlier dan menyimpang tidak ditangani dengan baik.
  • 24. Metoda Binning:Metoda Binning: Diskritisasi SederhanaDiskritisasi Sederhana • Partisi kedalaman sama (frekuensi): – Membagi range kedalam N interval, masing-masing memuat jumlah sampel yang hampir sama – Penskalaan data yang baik – Penanganan atribut yang bersifat kategori bisa Data Preprocessing 24/ – Penanganan atribut yang bersifat kategori bisa rumit.
  • 25. Metoda BinningMetoda Binning Untuk Penghalusan DataUntuk Penghalusan Data • Data terurut untuk harga (dalam dollar): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 • Partisi kedalam bin dengan kedalaman yang sama (misal, dalam bin-3): - Bin 1: 4, 8, 9, 15 Data Preprocessing - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 • Haluskan dengan rata-rata bins: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29
  • 26. Metoda BinningMetoda Binning Untuk Penghalusan DataUntuk Penghalusan Data • Penghalusan dengan batas bin: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34 Data Preprocessing - Bin 3: 26, 26, 26, 34
  • 28. RegresiRegresi y y = x + 1 Y1 Y1’ Data Preprocessing 28/ x y = x + 1 X1 Y1’
  • 29. Inspeksi Komputer dan ManusiaInspeksi Komputer dan Manusia—— PenghalusanPenghalusan • Inspeksi kombinasi komputer dan manusia – Suatu ambang yang diberikan user – Komputer mendeteksi seluruh potensi outlier yang dikaitkan dengan ambang – Manusia menentukan outlier sesungguhnya Data Preprocessing – Manusia menentukan outlier sesungguhnya
  • 30. Integrasi DataIntegrasi Data • Integrasi data: – Mengkombinasikan data dari banyak sumber kedalam suatu simpanan terpadu • Integrasi skema – Mengintegrasikan metadata dari sumber-sumber berbeda Data Preprocessing – Mengintegrasikan metadata dari sumber-sumber berbeda – Problem identifikasi entitas: mengenali entitas dunia nyata dari banyak sumber-sumber data, misal A.cust-id ≡ B.cust-# • Pendeteksian dan pemecahan konflik nilai data – Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari sumber-sumber berbeda adalah berbeda – Alasan yang mungkin: representasi berbeda, skala berbeda, misal berat bisa dalam pound atau kilogram
  • 31. Integrasi DataIntegrasi Data • Problem: integrasi skema heterogen • Nama-nama tribut berbeda cid name byear 1 Jones 1960 2 Smith 1974 Customer-ID state 1 NY 2 CA Data Preprocessing • Unit berbeda: Sales dalam $, sales dalam Yen, sales dalam DM 2 Smith 1974 3 Smith 1950 2 CA 3 NY
  • 32. Integrasi DataIntegrasi Data • Problem: integrasi skema heterogen • Skala berbeda: Sales dalam dollar versus sales dalam sen dollar Data Preprocessing • Atribut turunan: Annual salary versus monthly salary cid monthlySalary 1 5000 2 2400 3 3000 cid Salary 6 50,000 7 100,000 8 40,000
  • 33. Integrasi DataIntegrasi Data • Problem: ketak-konsistenan karena redundansi • Customer dengan customer-id 150 punya 3 anak dalam relation1 dan 4 anak dalam relation2 cid numChildren 1 3 cid numChildren 1 4 Data Preprocessing • Komputasi annual salary dari monthly salary dalam relation1 tak cocok dengan atribut “annual-salary” dalam relation2 1 3 1 4
  • 34. Penanganan RedundansiPenanganan Redundansi Dalam Integrasi DataDalam Integrasi Data • Data redundan sering terjadi saat integrasi dari banyak database – Atribut yang sama bisa memiliki nama berbeda dalam database berbeda – Atribut yang satu bisa merupakan suatu atribut “turunan” dalam tabel lainnya, misal, annual revenue Data Preprocessing dalam tabel lainnya, misal, annual revenue • Data redundan mungkin bisa dideteksi dengan analisis korelasi • Integrasi data hati-hati dari banyak sumber bisa membantu mengurangi/mencegah redundansi dan ketak-konsistenan dan memperbaiki kecepatan dan kualitas mining
  • 35. Penanganan RedundansiPenanganan Redundansi Dalam Integrasi DataDalam Integrasi Data • Suatu atribut adalah redundan jika atribut tersebut bisa diperoleh dari atribut lainnya • Analisis korelasi • Rata-rata A adalah Data Preprocessing • Deviasi standard A adalah • RA,B = 0: A dan B saling bebas • RA,B > 0: A dan B berkorelasi positip A↑↔B↑ • RA,B < 0: A dan B berkorelasi negatif A↓↔B↑
  • 36. Transformasi DataTransformasi Data • Penghalusan: menghilangkan noise dari data • Agregasi: ringkasan, konstruksi kubus data • Generalisasi: konsep hierarchy climbing • Normalisasi: diskalakan agar jatuh didalam suatu Data Preprocessing range kecil yang tertentu – Normalisasi min-max – Normalisasi z-score – Normalisasi dengan penskalaan desimal • Konstruksi atribut/fitur – Atribut-atribut baru dibangun dari atribut-atribut yang ada
  • 37. Transformasi Data: NormalisasiTransformasi Data: Normalisasi • Normalisasi min-max • Normalisasi z-score (saat Min, Max tak diketahui) Data Preprocessing • Normalisasi dengan penskalaan desimal j v v 10 '= dimana j adalah integer terkecil sehingga Max(| |)<1'v
  • 38. Strategi Reduksi DataStrategi Reduksi Data • Suatu data warehouse bisa menyimpan terabytes data – Analisis/menambang data kompleks bisa membutuhkan waktu sangat lama untuk dijalankan pada data set komplit (tak efisien) • Reduksi data – Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir sama) Data Preprocessing – Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir sama) • Strategi reduksi data – Agregasi kubus data – Reduksi dimensionalitas—menghilangkan atribut tak penting – Kompresi data – Reduksi Numerosity reduction—mencocokkan data kedalam model – Diskritisasi dan pembuatan konsep hierarki
  • 39. Normalization methodsNormalization methods • Min-Max • Z-Score • Decimal Scaling • Sigmoidal Data Preprocessing • Sigmoidal • Softmax
  • 40. Normalization methodNormalization method (Min(Min--Max)Max) • Min-Max merupakan metode normalisasi dengan melakukan transformasi linier terhadap data asli. • Rumus: newdata = (data-min)*(newmax-newmin)/(max- min)+newmin • Keuntungan dari metode ini adalah keseimbangan Data Preprocessing • Keuntungan dari metode ini adalah keseimbangan nilai perbandingan antar data saat sebelum dan sesudah proses normalisasi. Tidak ada data bias yang dihasilkan oleh metode ini. • Kekurangannya adalah jika ada data baru, metode ini akan memungkinkan terjebak pada "out of bound" error.
  • 41. Normalization methodNormalization method (Z(Z--Score)Score) • Z-score merupakan metode normalisasi yang berdasarkan mean (nilai rata-rata) dan standard deviation (deviasi standar) dari data. • Rumus: Data Preprocessing • Rumus: newdata = (data-mean)/std • Metode ini sangat berguna jika kita tidak mengetahui nilai aktual minimum dan maksimum dari data.
  • 42. Normalization methodNormalization method (Decimal Scaling)(Decimal Scaling) • Metode ini melakukan normalisasi dengan menggerakkan nilai desimal dari data ke arah yang diinginkan. • Rumus: newdata = data / 10i dimana i adalah nilai integer untuk Data Preprocessing dimana i adalah nilai integer untuk menggerakkan nilai desimal ke arah yang diinginkan.
  • 43. Normalization methodNormalization method ((SigmoidalSigmoidal)) • Sigmoidal normalization melakukan normalisasi data secara nonlinier ke dalam range -1 - 1 dengan menggunakan fungsi sigmoid. • Rumus: newdata = (1-e^(-x))/(1+ e^(-x)) Data Preprocessing newdata = (1-e^(-x))/(1+ e^(-x)) dimana: x = (data-mean)/std e = nilai eksponensial (2,718281828) • Metode ini sangat berguna pada saat data-data yang ada melibatkan data-data outlier.
  • 44. Normalization methodNormalization method ((SoftmaxSoftmax)) • Metode ini merupakan pengembangan transformasi secara linier. Output range-nya adalah 0-1. • Rumus: newdata = 1/(1+e^(-transfdata)) Data Preprocessing newdata = 1/(1+e^(-transfdata)) • dimana: transfdata = (data-mean)/(x*(std/(2*3.14))) x = respon linier di deviasi standar