8186 8 reduksi data

KONSEP DASAR
 Reduksi data adalah proses analisis untuk memilih,
memusatkan perhatian, meyederhanakan,
mengabstraksikan serta mentransformasikan data
yang muncul dari catatan-catatan lapangan.
 Mereduksi data berarti membuat rangkuman, memilih
hal-hal pokok, memfokuskan pada hal-hal penting,
mencari tema dan pola, serta membuang yang
dianggap tidak perlu.

KONSEP DASAR
 Contoh: data yang besar dalam data warehouse
pada data set kompleks.
 Reduksi data berarti : Mengurangi ukuran data set
tetapi menghasilkan hasil analisis yang sama (hampir
sama)

TUJUAN
 Menentukan kualitas solusi dalam data mining

OPERASI DASAR
 Tiga dimensi utama dari data set (plain files):
 Kolom (fitur)
 Baris (kasus/ contoh)
 Nilai fitur
 Tiga operasi dasar dari proses reduksi data:
 Delete kolom,
 Delete baris
 Pengurangan jumlah nilai kolom (penghalusan suatu fitur).

PENDEKATAN YANG DIGUNAKAN
 Operasi lain mereduksi tetapi data baru tidak dikenali lagi.
 Menggantikan sekumpulan fitur awal dengan fitur
campuran yang baru.
 Contoh: data set fitur (tinggi dan berat) diganti dengan
BMI (body-mass-index).
 Merupakan proporsi hasil bagi dari dua fitur awal.

PARAMETER ANALISIS DASAR
 Waktu komputasi, data yang lebih sederhana dapat
mereduksi waktu untuk proses data mining
 Keakuratan prediksi/deskriptif, mengukur
seberapa baik data dapat disimpulkan dan
mengeneralisasi ke dalam suatu model.
 Penyajian dari model data mining, kesederhanaan
representasi menjadi model yang dapat dimengerti

 dapat mereduksi waktu, meningkatkan akurasi dan
penyajian dalam bentuk yang sederhana pada waktu
yang bersamaan, menggunakan strategi
Dimensionality reduction.

FEATURE REDUCTION
 Proses reduksi fitur harus menghasilkan:
 Data yang lebih kecil, sehingga algoritma data mining
dapat bekerja lebih cepat
 Akurasi yang tinggi dari proses data mining, sehingga
model dapat mengeneralisasikan data lebih baik
 Hasil yang sederhana, sehingga lebih mudah dimengerti
dan digunakan
 Fitur yang lebih kecil.

Klasifikasi Reduksi Fitur
 Feature selection: proses pememilihan fitur yang
ditemukan pada sebuah data set awal.
Feature composition: faktor penentu dalam
menghasilkan hasil data mining yang berkualitas

Feature Selection
 Terdiri dari algoritma feature-rangking dan algoritma
subset minimum.
 Algoritma feature-rangking.
 Daftar fitur yang terurut berdasarkan hasil evaluasi.
 Suatu ukuran dapat digunakan berdasarkan akurasi data yang
tersedia, konsistensi, isi informasi, jarak.
 Algoritma ini tidak dapat memberitahukan apakah kumpulan
fitur dapat dianalisa lebih lanjut.
 Algoritma subset minimum
 Mendapatkan subset fitur minimum dan tidak ada perbedaan
urutan diantara fitur-fitur dalam subset.
 Fitur-fitur dalam subset yang relevan ditujukan untuk proses
mining

 Seleksi fitur secara umum dapat digambarkan sebagai
masalah pencarian, dengan setiap state di area
pencarian khusus suatu subset.
 Seleksi fitur dan reduksi dimensi data membantu
seluruh tahapan dalam proses data mining untuk
penemuan pengetahuan.

Entropy Measure
 Suatu metoda untuk seleksi unsupervised fitur atau
merangking berdasarkan ukuran entropy.
 Asumsi dasar adalah semua contoh diberikan sebagai
vektor tanpa adanya klasifikasi dari output sample.
 Pendekatan didasarkan atas observasi pembuangan fitur
yang tidak relevan, fitur redundan, atau keduanya dari
kemungkinan yg tidak mengubah karakteristik data set.
 Algoritma didasarkan atas ukuran kesamaan S yang
berbanding terbalik dengan jarak D antara dua n-
dimensional sample. Ukuran jarak D kecil, dekat dengan
contoh, dan yang besar untuk perbedaan pasangan.

 Ada 2 formula yg dipakai untuk mengukur kesamaan
terhadap fitur: data numerik dan non numerik
(kategori).
1. Data numerik:
Similarity (S)
dimana: e=2.7183;
Namun sering digunakan sebagai konstanta
Dan ukuran jarak D didapatkan:

2. Data non-numerik
Di mana |xij=xjk| adalah 1 jika xij=xjk, dan
sebaliknya 0. Jumlah variable adalah n.
Sample F1 F2 F3
R1
R2
R3
R4
R5
A
B
C
B
C
X
Y
Y
X
Z
1
2
2
1
3
R1 R2 R3 R4 R5
R1
R2
R3
R4
0/3 0/3
2/3
2/3
1/3
0/3
0/3
0/3
1/3
0/3
Data set dgn 3 fitur kategori Tabel ukuran similarity Sij diantara samples

 Nilai Entropy yang digunakan untuk rangking
fitur adalah:
 Kedekatan suatu fitur ditunjukan semakin
kecilnya perbedaan nilai entropy.

DATA REDUCTION METHODS
 Principal Component Analysis
 Values Reduction
 Feature Discretization

Principal Component Analysis (PCA)
 Metoda statistik yang populer untuk mereduksi dimensi
data set yang besar adalah metode Karhunen-Loeve (K-L).
 Merupakan metoda pentranformasian data set awal yg
direpresentasikan vector sample menjadi kumpulan vector
sample baru dengan dimensi yang didapatkan.
 Tujuannya memfokuskan informasi terhadap perbedaan-
perbedaan diantara sample menjadi dimensi yang kecil.

 Ide dasar: sekumpulan vector sampel berdimensi n X={x1,
x2, x3, …, xm} ditransformasikan ke himpunan lain Y = {y1,
y2, y3, …, ym} dengan dimensi yg sama, tetapi y ,memiliki
property yg paling informatif isinya disimpan dalam
dimensi pertama.
 Transformasi didasarkan atas asumsi bahwa informasi yg
tinggi berhubungan dengan varian yg tinggi. Sehingga jika
mereduksi ke satu dimensi dari matrik X ke matrik Y dapat
dituliskan:
Y= A ∙ X, pemilihan A sehingga Y mempunyai varian terbesar dari data
set yg diberikan. Dimensi tunggal dari Y diperoleh dari transformasi
ini disebut first principal component.

 Maka untuk menentukan matrix A, dihitung dahulu
covariance matrix S sebagai tahap awal dari
transformasi fitur.
 Dimana:

Eigen values & Eigen vector
 Eigenvalues dari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0
 Eigenvectors v1,v2,… vn berhubungan dengan eigenvalues λ1 ≥ λ2
≥… λn dan disebut principal axes.
 Kriteria untuk seleksi fitur didasarkan atas rasio penjumlahan
eigenvalue terbesar S ke nilai seluruh S, sehingga dapat dituliskan:
 Ketika nilai rasio R cukup besar (lebih besar dari nilai threshold),
seluruh analisa dari subset atas fitur m merepresentasikan estimasi
awal yg baik dari n dimensi ruang.

Eigen values & Eigen vector
 Nilai eigen value diperoleh dengan mengetahui
nilai covariance sehingga dituliskan: det (S – λ) =
0 ; dimana S= matrix covariance
 Sedangkan nilai eigen vector (v) diperoleh dengan
rumusan berikut:
λv = Sv

Contoh
Feature 1 Feature 2 Feature 3 Feature 4
Feature 1 1.0000 1.1094 0.8718 0.8180
Feature 2 −0.1094 1.0000 −0.4205 −0.3565
Feature 3 0.8718 −0.4205 1.0000 0.9628
Feature 4 0.8180 −0.3565 0.9628 1.0000
Feature Eigenvalue
Feature 1 2.91082
Feature 2 0.92122
Feature 3 0.14735
Feature 4 0.02061
Eigenvalue dari data
Covariance

 Dengan nilai threshold R*=0.95, maka dipilih 2
fitur pertama, sebab:
R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 +
0.02061)
= 0.958 > 0.95, sehingga 2 fitur tersebutcukup
mendeskripsikan karakteristik data set.

Value Reduction
 Suatu reduksi jumlah nilai-nilai diskrit untuk figure yg
diberikan didasarkan atas teknik diskritisasi.
 Tujuannnya : mendiskritisasi nilai fitur kontinu
menuju sejumlah kecil interval, yg mana setiap
interval dipetakkan ke simbol diskrit.
 Keuntungan: diskripsi data disederhanakan sehingga
data dan hasil-hasil data-mining mudah dimengerti,
juga kebanyakan teknik data mining dapat
diaplikasikan dengan nilai fitur diskrit.

 Sebagai contoh: suatu umur seseorang, diberikan diawal
proses data-mining sebagai nilai kontinu (antara 0 dan 150
tahun) mungkin diklasifikasikan menjadi segmen2
kategori: anak, remaja, dewasa, setengah tua, tua. Titik2
batas didefinisikan secara subyektif.
Cut points?
Child Adolescent Adult Middle-age Elderly
age
0 150

Pengelompokan nilai-nilai fitur
 Diberikan suatu fitur mempunyai suatu jarak nilai-nilai
numerik, dan nilai-nilai ini dapat diurutkan dari yg terkecil
ke yg terbesar.
 penempatan pembagian nilai-nilai ke dalam kelompok-kelompok
dengan nilai-nilai yg dekat.
 Seluruh nilai dalam kelompok akan digabung ke konsep
tunggal yg direpresentasikan dengan nilai tunggal,
biasanya mean atau median dari nilai-nilai tersebut.
 Nilai mean/ mode biasanya efektif untuk jumlah nilai yg
lumayan besar.
 Namun bila kecil/ sedikit, batasan dari setiap kelompok
dapat menjadi kandidat untuk representasinya.

Contoh
 Sebagai contoh, jika diberikan fitur f {3, 2, 1, 5, 4, 3,
1, 7, 5, 3} kemudian setelah sorting didapatkan : {1,
1, 2, 3, 3, 3, 4, 5, 5, 7}
 Maka sekarang, mungkin dipecah jumlah
kumpulan nilai kedalam 3 bins
{1, 1, 2, 3, 3, 3, 4, 5, 5, 7}
BIN1 BIN2 BIN3

 Langkah berikutnya, perbedaan representasi dapat
dipilih untuk setiap bin.
 Berdasarkan mode dalam bin, maka nilai-nilai
baru:
{1, 1, 1, 3, 3, 3, 5, 5, 5, 5}
BIN1 BIN2 BIN3
 Berdasarkan mean
{1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25}
BIN1 BIN2 BIN3
 Berdasarkan kedekatan dengan batasan nilai
dalam bin:
{1, 1, 2, 3, 3, 3, 4, 4, 4, 7}
BIN1 BIN2 BIN3

 Masalah utama dari metoda ini adalah
menemukan batasan terbaik untuk bin. Maka
prosedurenya terdiri langkah-langkah berikut:
 Urutkan seluruh nilai bagi fitur yg diberikan
 Assign dengan perkiraan sejumlah nilai-nilai yg
berdekatan setiap bin
 Pindahkan elemen batas dari satu bin ke berikutnya
(atau sebelumnya) ketika mereduksi error jarak
keseluruhan (ER)

 Contoh:
 Kumpulan nilai dari fitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split
ke dalam 3 bin (k=3), dimana bin2 akan direpresentasikan
dengan mode-nya.
 Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}
 Inisialisasi bin (k=3) BIN1 BIN2 BIN3
(i) Modes untuk ketiga bin terpilih : {1, 2, 8}. Maka total error:
ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7
(ii) Setelah memindahkan 2 elemen dari BIN2 ke BIN1 dan 1
elemen dari BIN3 ke BIN2, maka diperoleh ER yg lebih kecil dan
distribusi akhir menjadi:
Final bins  f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}
BIN1 BIN2 BIN3
 Modesnya: {2, 5, 8}, dan total error ER diminimisasi menjadi 4.
 Distribusi akhir, dengan median-median sebagai representative
akan didaptkan masalah reduksi nilai.

FEATURE DISCRETIZATION
 ChiMerge: suatu algoritma diskritisasi yang
menganalisi kualitas interval atas fitur yg diberikan
dengan menggunakan statistik X2.
 Algoritma menentukan kesamaan antara distribusi
data dalam interval yg berdekatan berdasarkan
klasifikasi output sample.
 Jika kesimpulan dari X2 test ini adalah class output yg
independen maka interval harus digabungkan,
sebaliknya jika perbedaannya terlalu besar maka tidak
digabung.

Algoritma ChiMerge
 Algoritma ChiMerge berisi 3 tahap untuk diskritisasi:
1. Sort data atas fitur yg diberikan secara urut naik
2. Definisikan inisial awal interval sehingga setiap nilai
dalam interval terpisah
3. Ulangi hingga tidak ada X2 dari 2 interval yg berdekatan
lebih kecil dari nilai threshold.

 Dimana:
 k= jumlah kelas
 Aij=jumlah contoh dalam interval ke-i, kelas ke-j
 Eij =frekuensi yg diharapkan dari Aij, yg mana dihitung (Ri.Cj)/N
 Ri= jumlah contoh dalam interval ke –i
 Cj = jumlah contoh dalam kelas ke –j
 N= jumlah total dari contoh
Class 1 Class 2 ∑
Interval-1 A11 A12 R1
Interval-2 A21 A22 R2
∑ C1 C2 N

Contoh
Sample: F K
1 1 1
2 3 2
3 7 1
4 8 1
5 9 1
6 11 2
7 23 2
8 37 1
9 39 2
10 45 1
11 46 1
12 59 1

No Median
1 5.0
2 7.5
3 8.5
4 10.0
5 17.0
6 30.0
7 38.0
8 42.0
9 45.5
10 52.5

K = 1 K = 2 ∑
Interval [7.5, 8.5] A11 = 1 A12 = 0 R1 = 1
Interval [8.5, 10] A21 = 1 A22 = 0 R2 = 1
∑ C1 = 2 C2 = 0 N = 2
Berdasarkan tabel di atas didapatkan:
E11 = 2/2 = 1
E12 0/2 ≈ 0.1
E21 = 2/2 = 1 dan
E22 = 0/2 ≈ 0.1
X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2
Oleh karena lebih kecil dari threshold (2.706 untuk distribusi
dg α =0.1, maka dilakukan penggabungan

K = 1 K = 2 ∑
Interval [0, 7.5] A11 = 2 A12 = 1 R1 = 3
Interval [7.5, 10] A21 = 2 A22 = 0 R2 = 2
∑ C1 = 4 C2 = 1 N = 5
E11 = 12/5 = 2.4
E12 = 3/5 = 0.6
E21 = 8/5 = 1.6
E22 = 2/5 = 0.4
X2 = 0.834

K = 1 K = 2 ∑
Interval [0, 10.0] A11 = 4 A12 = 1 R1 = 5
Interval [10.0,
42.0]
A21 = 1 A22 = 3 R2 = 4
∑ C1 = 5 C2 = 4 N = 9
E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, dan χ2 = 2.72
Oleh karena dihasilkan > dari threshold (2.706), maka
tidak diperlukan lagi penggabungan

8186 8 reduksi data

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (16)

Similar to 8186 8 reduksi data

Similar to 8186 8 reduksi data (20)

More from Universitas Bina Darma Palembang

More from Universitas Bina Darma Palembang (20)

Recently uploaded

Recently uploaded (11)

8186 8 reduksi data