2. KONSEP DASAR
Reduksi data adalah proses analisis untuk memilih,
memusatkan perhatian, meyederhanakan,
mengabstraksikan serta mentransformasikan data
yang muncul dari catatan-catatan lapangan.
Mereduksi data berarti membuat rangkuman, memilih
hal-hal pokok, memfokuskan pada hal-hal penting,
mencari tema dan pola, serta membuang yang
dianggap tidak perlu.
3. KONSEP DASAR
Contoh: data yang besar dalam data warehouse
pada data set kompleks.
Reduksi data berarti : Mengurangi ukuran data set
tetapi menghasilkan hasil analisis yang sama (hampir
sama)
5. OPERASI DASAR
Tiga dimensi utama dari data set (plain files):
Kolom (fitur)
Baris (kasus/ contoh)
Nilai fitur
Tiga operasi dasar dari proses reduksi data:
Delete kolom,
Delete baris
Pengurangan jumlah nilai kolom (penghalusan suatu fitur).
6. PENDEKATAN YANG DIGUNAKAN
Operasi lain mereduksi tetapi data baru tidak dikenali lagi.
Menggantikan sekumpulan fitur awal dengan fitur
campuran yang baru.
Contoh: data set fitur (tinggi dan berat) diganti dengan
BMI (body-mass-index).
Merupakan proporsi hasil bagi dari dua fitur awal.
7. PARAMETER ANALISIS DASAR
Waktu komputasi, data yang lebih sederhana dapat
mereduksi waktu untuk proses data mining
Keakuratan prediksi/deskriptif, mengukur
seberapa baik data dapat disimpulkan dan
mengeneralisasi ke dalam suatu model.
Penyajian dari model data mining, kesederhanaan
representasi menjadi model yang dapat dimengerti
8. dapat mereduksi waktu, meningkatkan akurasi dan
penyajian dalam bentuk yang sederhana pada waktu
yang bersamaan, menggunakan strategi
Dimensionality reduction.
9. FEATURE REDUCTION
Proses reduksi fitur harus menghasilkan:
Data yang lebih kecil, sehingga algoritma data mining
dapat bekerja lebih cepat
Akurasi yang tinggi dari proses data mining, sehingga
model dapat mengeneralisasikan data lebih baik
Hasil yang sederhana, sehingga lebih mudah dimengerti
dan digunakan
Fitur yang lebih kecil.
10. Klasifikasi Reduksi Fitur
Feature selection: proses pememilihan fitur yang
ditemukan pada sebuah data set awal.
Feature composition: faktor penentu dalam
menghasilkan hasil data mining yang berkualitas
11. Feature Selection
Terdiri dari algoritma feature-rangking dan algoritma
subset minimum.
Algoritma feature-rangking.
Daftar fitur yang terurut berdasarkan hasil evaluasi.
Suatu ukuran dapat digunakan berdasarkan akurasi data yang
tersedia, konsistensi, isi informasi, jarak.
Algoritma ini tidak dapat memberitahukan apakah kumpulan
fitur dapat dianalisa lebih lanjut.
Algoritma subset minimum
Mendapatkan subset fitur minimum dan tidak ada perbedaan
urutan diantara fitur-fitur dalam subset.
Fitur-fitur dalam subset yang relevan ditujukan untuk proses
mining
12. Seleksi fitur secara umum dapat digambarkan sebagai
masalah pencarian, dengan setiap state di area
pencarian khusus suatu subset.
Seleksi fitur dan reduksi dimensi data membantu
seluruh tahapan dalam proses data mining untuk
penemuan pengetahuan.
13. Entropy Measure
Suatu metoda untuk seleksi unsupervised fitur atau
merangking berdasarkan ukuran entropy.
Asumsi dasar adalah semua contoh diberikan sebagai
vektor tanpa adanya klasifikasi dari output sample.
Pendekatan didasarkan atas observasi pembuangan fitur
yang tidak relevan, fitur redundan, atau keduanya dari
kemungkinan yg tidak mengubah karakteristik data set.
Algoritma didasarkan atas ukuran kesamaan S yang
berbanding terbalik dengan jarak D antara dua n-
dimensional sample. Ukuran jarak D kecil, dekat dengan
contoh, dan yang besar untuk perbedaan pasangan.
14. Ada 2 formula yg dipakai untuk mengukur kesamaan
terhadap fitur: data numerik dan non numerik
(kategori).
1. Data numerik:
Similarity (S)
dimana: e=2.7183;
Namun sering digunakan sebagai konstanta
Dan ukuran jarak D didapatkan:
15. 2. Data non-numerik
Di mana |xij=xjk| adalah 1 jika xij=xjk, dan
sebaliknya 0. Jumlah variable adalah n.
Sample F1 F2 F3
R1
R2
R3
R4
R5
A
B
C
B
C
X
Y
Y
X
Z
1
2
2
1
3
R1 R2 R3 R4 R5
R1
R2
R3
R4
0/3 0/3
2/3
2/3
1/3
0/3
0/3
0/3
1/3
0/3
Data set dgn 3 fitur kategori Tabel ukuran similarity Sij diantara samples
16. Nilai Entropy yang digunakan untuk rangking
fitur adalah:
Kedekatan suatu fitur ditunjukan semakin
kecilnya perbedaan nilai entropy.
17. DATA REDUCTION METHODS
Principal Component Analysis
Values Reduction
Feature Discretization
18. Principal Component Analysis (PCA)
Metoda statistik yang populer untuk mereduksi dimensi
data set yang besar adalah metode Karhunen-Loeve (K-L).
Merupakan metoda pentranformasian data set awal yg
direpresentasikan vector sample menjadi kumpulan vector
sample baru dengan dimensi yang didapatkan.
Tujuannya memfokuskan informasi terhadap perbedaan-
perbedaan diantara sample menjadi dimensi yang kecil.
19. Principal Component Analysis (PCA)
Ide dasar: sekumpulan vector sampel berdimensi n X={x1,
x2, x3, …, xm} ditransformasikan ke himpunan lain Y = {y1,
y2, y3, …, ym} dengan dimensi yg sama, tetapi y ,memiliki
property yg paling informatif isinya disimpan dalam
dimensi pertama.
Transformasi didasarkan atas asumsi bahwa informasi yg
tinggi berhubungan dengan varian yg tinggi. Sehingga jika
mereduksi ke satu dimensi dari matrik X ke matrik Y dapat
dituliskan:
Y= A ∙ X, pemilihan A sehingga Y mempunyai varian terbesar dari data
set yg diberikan. Dimensi tunggal dari Y diperoleh dari transformasi
ini disebut first principal component.
20. Principal Component Analysis (PCA)
Maka untuk menentukan matrix A, dihitung dahulu
covariance matrix S sebagai tahap awal dari
transformasi fitur.
Dimana:
21. Eigen values & Eigen vector
Eigenvalues dari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0
Eigenvectors v1,v2,… vn berhubungan dengan eigenvalues λ1 ≥ λ2
≥… λn dan disebut principal axes.
Kriteria untuk seleksi fitur didasarkan atas rasio penjumlahan
eigenvalue terbesar S ke nilai seluruh S, sehingga dapat dituliskan:
Ketika nilai rasio R cukup besar (lebih besar dari nilai threshold),
seluruh analisa dari subset atas fitur m merepresentasikan estimasi
awal yg baik dari n dimensi ruang.
22. Eigen values & Eigen vector
Nilai eigen value diperoleh dengan mengetahui
nilai covariance sehingga dituliskan: det (S – λ) =
0 ; dimana S= matrix covariance
Sedangkan nilai eigen vector (v) diperoleh dengan
rumusan berikut:
λv = Sv
24. Dengan nilai threshold R*=0.95, maka dipilih 2
fitur pertama, sebab:
R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 +
0.02061)
= 0.958 > 0.95, sehingga 2 fitur tersebutcukup
mendeskripsikan karakteristik data set.
25. Value Reduction
Suatu reduksi jumlah nilai-nilai diskrit untuk figure yg
diberikan didasarkan atas teknik diskritisasi.
Tujuannnya : mendiskritisasi nilai fitur kontinu
menuju sejumlah kecil interval, yg mana setiap
interval dipetakkan ke simbol diskrit.
Keuntungan: diskripsi data disederhanakan sehingga
data dan hasil-hasil data-mining mudah dimengerti,
juga kebanyakan teknik data mining dapat
diaplikasikan dengan nilai fitur diskrit.
26. Sebagai contoh: suatu umur seseorang, diberikan diawal
proses data-mining sebagai nilai kontinu (antara 0 dan 150
tahun) mungkin diklasifikasikan menjadi segmen2
kategori: anak, remaja, dewasa, setengah tua, tua. Titik2
batas didefinisikan secara subyektif.
Cut points?
Child Adolescent Adult Middle-age Elderly
age
0 150
27. Pengelompokan nilai-nilai fitur
Diberikan suatu fitur mempunyai suatu jarak nilai-nilai
numerik, dan nilai-nilai ini dapat diurutkan dari yg terkecil
ke yg terbesar.
penempatan pembagian nilai-nilai ke dalam kelompok-kelompok
dengan nilai-nilai yg dekat.
Seluruh nilai dalam kelompok akan digabung ke konsep
tunggal yg direpresentasikan dengan nilai tunggal,
biasanya mean atau median dari nilai-nilai tersebut.
Nilai mean/ mode biasanya efektif untuk jumlah nilai yg
lumayan besar.
Namun bila kecil/ sedikit, batasan dari setiap kelompok
dapat menjadi kandidat untuk representasinya.
28. Contoh
Sebagai contoh, jika diberikan fitur f {3, 2, 1, 5, 4, 3,
1, 7, 5, 3} kemudian setelah sorting didapatkan : {1,
1, 2, 3, 3, 3, 4, 5, 5, 7}
Maka sekarang, mungkin dipecah jumlah
kumpulan nilai kedalam 3 bins
{1, 1, 2, 3, 3, 3, 4, 5, 5, 7}
BIN1 BIN2 BIN3
29. Langkah berikutnya, perbedaan representasi dapat
dipilih untuk setiap bin.
Berdasarkan mode dalam bin, maka nilai-nilai
baru:
{1, 1, 1, 3, 3, 3, 5, 5, 5, 5}
BIN1 BIN2 BIN3
Berdasarkan mean
{1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25}
BIN1 BIN2 BIN3
Berdasarkan kedekatan dengan batasan nilai
dalam bin:
{1, 1, 2, 3, 3, 3, 4, 4, 4, 7}
BIN1 BIN2 BIN3
30. Masalah utama dari metoda ini adalah
menemukan batasan terbaik untuk bin. Maka
prosedurenya terdiri langkah-langkah berikut:
Urutkan seluruh nilai bagi fitur yg diberikan
Assign dengan perkiraan sejumlah nilai-nilai yg
berdekatan setiap bin
Pindahkan elemen batas dari satu bin ke berikutnya
(atau sebelumnya) ketika mereduksi error jarak
keseluruhan (ER)
31. Contoh:
Kumpulan nilai dari fitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split
ke dalam 3 bin (k=3), dimana bin2 akan direpresentasikan
dengan mode-nya.
Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}
Inisialisasi bin (k=3) BIN1 BIN2 BIN3
(i) Modes untuk ketiga bin terpilih : {1, 2, 8}. Maka total error:
ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7
(ii) Setelah memindahkan 2 elemen dari BIN2 ke BIN1 dan 1
elemen dari BIN3 ke BIN2, maka diperoleh ER yg lebih kecil dan
distribusi akhir menjadi:
Final bins f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}
BIN1 BIN2 BIN3
Modesnya: {2, 5, 8}, dan total error ER diminimisasi menjadi 4.
Distribusi akhir, dengan median-median sebagai representative
akan didaptkan masalah reduksi nilai.
32. FEATURE DISCRETIZATION
ChiMerge: suatu algoritma diskritisasi yang
menganalisi kualitas interval atas fitur yg diberikan
dengan menggunakan statistik X2.
Algoritma menentukan kesamaan antara distribusi
data dalam interval yg berdekatan berdasarkan
klasifikasi output sample.
Jika kesimpulan dari X2 test ini adalah class output yg
independen maka interval harus digabungkan,
sebaliknya jika perbedaannya terlalu besar maka tidak
digabung.
33. Algoritma ChiMerge
Algoritma ChiMerge berisi 3 tahap untuk diskritisasi:
1. Sort data atas fitur yg diberikan secara urut naik
2. Definisikan inisial awal interval sehingga setiap nilai
dalam interval terpisah
3. Ulangi hingga tidak ada X2 dari 2 interval yg berdekatan
lebih kecil dari nilai threshold.
34. Dimana:
k= jumlah kelas
Aij=jumlah contoh dalam interval ke-i, kelas ke-j
Eij =frekuensi yg diharapkan dari Aij, yg mana dihitung (Ri.Cj)/N
Ri= jumlah contoh dalam interval ke –i
Cj = jumlah contoh dalam kelas ke –j
N= jumlah total dari contoh
Class 1 Class 2 ∑
Interval-1 A11 A12 R1
Interval-2 A21 A22 R2
∑ C1 C2 N