SlideShare a Scribd company logo
1 of 39
Download to read offline
KONSEP DASAR
 Reduksi data adalah proses analisis untuk memilih,
memusatkan perhatian, meyederhanakan,
mengabstraksikan serta mentransformasikan data
yang muncul dari catatan-catatan lapangan.
 Mereduksi data berarti membuat rangkuman, memilih
hal-hal pokok, memfokuskan pada hal-hal penting,
mencari tema dan pola, serta membuang yang
dianggap tidak perlu.
KONSEP DASAR
 Contoh: data yang besar dalam data warehouse
pada data set kompleks.
 Reduksi data berarti : Mengurangi ukuran data set
tetapi menghasilkan hasil analisis yang sama (hampir
sama)
TUJUAN
 Menentukan kualitas solusi dalam data mining
OPERASI DASAR
 Tiga dimensi utama dari data set (plain files):
 Kolom (fitur)
 Baris (kasus/ contoh)
 Nilai fitur
 Tiga operasi dasar dari proses reduksi data:
 Delete kolom,
 Delete baris
 Pengurangan jumlah nilai kolom (penghalusan suatu fitur).
PENDEKATAN YANG DIGUNAKAN
 Operasi lain mereduksi tetapi data baru tidak dikenali lagi.
 Menggantikan sekumpulan fitur awal dengan fitur
campuran yang baru.
 Contoh: data set fitur (tinggi dan berat) diganti dengan
BMI (body-mass-index).
 Merupakan proporsi hasil bagi dari dua fitur awal.
PARAMETER ANALISIS DASAR
 Waktu komputasi, data yang lebih sederhana dapat
mereduksi waktu untuk proses data mining
 Keakuratan prediksi/deskriptif, mengukur
seberapa baik data dapat disimpulkan dan
mengeneralisasi ke dalam suatu model.
 Penyajian dari model data mining, kesederhanaan
representasi menjadi model yang dapat dimengerti
 dapat mereduksi waktu, meningkatkan akurasi dan
penyajian dalam bentuk yang sederhana pada waktu
yang bersamaan, menggunakan strategi
Dimensionality reduction.
FEATURE REDUCTION
 Proses reduksi fitur harus menghasilkan:
 Data yang lebih kecil, sehingga algoritma data mining
dapat bekerja lebih cepat
 Akurasi yang tinggi dari proses data mining, sehingga
model dapat mengeneralisasikan data lebih baik
 Hasil yang sederhana, sehingga lebih mudah dimengerti
dan digunakan
 Fitur yang lebih kecil.
Klasifikasi Reduksi Fitur
 Feature selection: proses pememilihan fitur yang
ditemukan pada sebuah data set awal.
Feature composition: faktor penentu dalam
menghasilkan hasil data mining yang berkualitas
Feature Selection
 Terdiri dari algoritma feature-rangking dan algoritma
subset minimum.
 Algoritma feature-rangking.
 Daftar fitur yang terurut berdasarkan hasil evaluasi.
 Suatu ukuran dapat digunakan berdasarkan akurasi data yang
tersedia, konsistensi, isi informasi, jarak.
 Algoritma ini tidak dapat memberitahukan apakah kumpulan
fitur dapat dianalisa lebih lanjut.
 Algoritma subset minimum
 Mendapatkan subset fitur minimum dan tidak ada perbedaan
urutan diantara fitur-fitur dalam subset.
 Fitur-fitur dalam subset yang relevan ditujukan untuk proses
mining
 Seleksi fitur secara umum dapat digambarkan sebagai
masalah pencarian, dengan setiap state di area
pencarian khusus suatu subset.
 Seleksi fitur dan reduksi dimensi data membantu
seluruh tahapan dalam proses data mining untuk
penemuan pengetahuan.
Entropy Measure
 Suatu metoda untuk seleksi unsupervised fitur atau
merangking berdasarkan ukuran entropy.
 Asumsi dasar adalah semua contoh diberikan sebagai
vektor tanpa adanya klasifikasi dari output sample.
 Pendekatan didasarkan atas observasi pembuangan fitur
yang tidak relevan, fitur redundan, atau keduanya dari
kemungkinan yg tidak mengubah karakteristik data set.
 Algoritma didasarkan atas ukuran kesamaan S yang
berbanding terbalik dengan jarak D antara dua n-
dimensional sample. Ukuran jarak D kecil, dekat dengan
contoh, dan yang besar untuk perbedaan pasangan.
 Ada 2 formula yg dipakai untuk mengukur kesamaan
terhadap fitur: data numerik dan non numerik
(kategori).
1. Data numerik:
Similarity (S)
dimana: e=2.7183;
Namun sering digunakan sebagai konstanta
Dan ukuran jarak D didapatkan:
2. Data non-numerik
Di mana |xij=xjk| adalah 1 jika xij=xjk, dan
sebaliknya 0. Jumlah variable adalah n.
Sample F1 F2 F3
R1
R2
R3
R4
R5
A
B
C
B
C
X
Y
Y
X
Z
1
2
2
1
3
R1 R2 R3 R4 R5
R1
R2
R3
R4
0/3 0/3
2/3
2/3
1/3
0/3
0/3
0/3
1/3
0/3
Data set dgn 3 fitur kategori Tabel ukuran similarity Sij diantara samples
 Nilai Entropy yang digunakan untuk rangking
fitur adalah:
 Kedekatan suatu fitur ditunjukan semakin
kecilnya perbedaan nilai entropy.
DATA REDUCTION METHODS
 Principal Component Analysis
 Values Reduction
 Feature Discretization
Principal Component Analysis (PCA)
 Metoda statistik yang populer untuk mereduksi dimensi
data set yang besar adalah metode Karhunen-Loeve (K-L).
 Merupakan metoda pentranformasian data set awal yg
direpresentasikan vector sample menjadi kumpulan vector
sample baru dengan dimensi yang didapatkan.
 Tujuannya memfokuskan informasi terhadap perbedaan-
perbedaan diantara sample menjadi dimensi yang kecil.
Principal Component Analysis (PCA)
 Ide dasar: sekumpulan vector sampel berdimensi n X={x1,
x2, x3, …, xm} ditransformasikan ke himpunan lain Y = {y1,
y2, y3, …, ym} dengan dimensi yg sama, tetapi y ,memiliki
property yg paling informatif isinya disimpan dalam
dimensi pertama.
 Transformasi didasarkan atas asumsi bahwa informasi yg
tinggi berhubungan dengan varian yg tinggi. Sehingga jika
mereduksi ke satu dimensi dari matrik X ke matrik Y dapat
dituliskan:
Y= A ∙ X, pemilihan A sehingga Y mempunyai varian terbesar dari data
set yg diberikan. Dimensi tunggal dari Y diperoleh dari transformasi
ini disebut first principal component.
Principal Component Analysis (PCA)
 Maka untuk menentukan matrix A, dihitung dahulu
covariance matrix S sebagai tahap awal dari
transformasi fitur.
 Dimana:
Eigen values & Eigen vector
 Eigenvalues dari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0
 Eigenvectors v1,v2,… vn berhubungan dengan eigenvalues λ1 ≥ λ2
≥… λn dan disebut principal axes.
 Kriteria untuk seleksi fitur didasarkan atas rasio penjumlahan
eigenvalue terbesar S ke nilai seluruh S, sehingga dapat dituliskan:
 Ketika nilai rasio R cukup besar (lebih besar dari nilai threshold),
seluruh analisa dari subset atas fitur m merepresentasikan estimasi
awal yg baik dari n dimensi ruang.
Eigen values & Eigen vector
 Nilai eigen value diperoleh dengan mengetahui
nilai covariance sehingga dituliskan: det (S – λ) =
0 ; dimana S= matrix covariance
 Sedangkan nilai eigen vector (v) diperoleh dengan
rumusan berikut:
λv = Sv
Contoh
Feature 1 Feature 2 Feature 3 Feature 4
Feature 1 1.0000 1.1094 0.8718 0.8180
Feature 2 −0.1094 1.0000 −0.4205 −0.3565
Feature 3 0.8718 −0.4205 1.0000 0.9628
Feature 4 0.8180 −0.3565 0.9628 1.0000
Feature Eigenvalue
Feature 1 2.91082
Feature 2 0.92122
Feature 3 0.14735
Feature 4 0.02061
Eigenvalue dari data
Covariance
 Dengan nilai threshold R*=0.95, maka dipilih 2
fitur pertama, sebab:
R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 +
0.02061)
= 0.958 > 0.95, sehingga 2 fitur tersebutcukup
mendeskripsikan karakteristik data set.
Value Reduction
 Suatu reduksi jumlah nilai-nilai diskrit untuk figure yg
diberikan didasarkan atas teknik diskritisasi.
 Tujuannnya : mendiskritisasi nilai fitur kontinu
menuju sejumlah kecil interval, yg mana setiap
interval dipetakkan ke simbol diskrit.
 Keuntungan: diskripsi data disederhanakan sehingga
data dan hasil-hasil data-mining mudah dimengerti,
juga kebanyakan teknik data mining dapat
diaplikasikan dengan nilai fitur diskrit.
 Sebagai contoh: suatu umur seseorang, diberikan diawal
proses data-mining sebagai nilai kontinu (antara 0 dan 150
tahun) mungkin diklasifikasikan menjadi segmen2
kategori: anak, remaja, dewasa, setengah tua, tua. Titik2
batas didefinisikan secara subyektif.
Cut points?
Child Adolescent Adult Middle-age Elderly
age
0 150
Pengelompokan nilai-nilai fitur
 Diberikan suatu fitur mempunyai suatu jarak nilai-nilai
numerik, dan nilai-nilai ini dapat diurutkan dari yg terkecil
ke yg terbesar.
 penempatan pembagian nilai-nilai ke dalam kelompok-kelompok
dengan nilai-nilai yg dekat.
 Seluruh nilai dalam kelompok akan digabung ke konsep
tunggal yg direpresentasikan dengan nilai tunggal,
biasanya mean atau median dari nilai-nilai tersebut.
 Nilai mean/ mode biasanya efektif untuk jumlah nilai yg
lumayan besar.
 Namun bila kecil/ sedikit, batasan dari setiap kelompok
dapat menjadi kandidat untuk representasinya.
Contoh
 Sebagai contoh, jika diberikan fitur f {3, 2, 1, 5, 4, 3,
1, 7, 5, 3} kemudian setelah sorting didapatkan : {1,
1, 2, 3, 3, 3, 4, 5, 5, 7}
 Maka sekarang, mungkin dipecah jumlah
kumpulan nilai kedalam 3 bins
{1, 1, 2, 3, 3, 3, 4, 5, 5, 7}
BIN1 BIN2 BIN3
 Langkah berikutnya, perbedaan representasi dapat
dipilih untuk setiap bin.
 Berdasarkan mode dalam bin, maka nilai-nilai
baru:
{1, 1, 1, 3, 3, 3, 5, 5, 5, 5}
BIN1 BIN2 BIN3
 Berdasarkan mean
{1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25}
BIN1 BIN2 BIN3
 Berdasarkan kedekatan dengan batasan nilai
dalam bin:
{1, 1, 2, 3, 3, 3, 4, 4, 4, 7}
BIN1 BIN2 BIN3
 Masalah utama dari metoda ini adalah
menemukan batasan terbaik untuk bin. Maka
prosedurenya terdiri langkah-langkah berikut:
 Urutkan seluruh nilai bagi fitur yg diberikan
 Assign dengan perkiraan sejumlah nilai-nilai yg
berdekatan setiap bin
 Pindahkan elemen batas dari satu bin ke berikutnya
(atau sebelumnya) ketika mereduksi error jarak
keseluruhan (ER)
 Contoh:
 Kumpulan nilai dari fitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split
ke dalam 3 bin (k=3), dimana bin2 akan direpresentasikan
dengan mode-nya.
 Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}
 Inisialisasi bin (k=3) BIN1 BIN2 BIN3
(i) Modes untuk ketiga bin terpilih : {1, 2, 8}. Maka total error:
ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7
(ii) Setelah memindahkan 2 elemen dari BIN2 ke BIN1 dan 1
elemen dari BIN3 ke BIN2, maka diperoleh ER yg lebih kecil dan
distribusi akhir menjadi:
Final bins  f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}
BIN1 BIN2 BIN3
 Modesnya: {2, 5, 8}, dan total error ER diminimisasi menjadi 4.
 Distribusi akhir, dengan median-median sebagai representative
akan didaptkan masalah reduksi nilai.
FEATURE DISCRETIZATION
 ChiMerge: suatu algoritma diskritisasi yang
menganalisi kualitas interval atas fitur yg diberikan
dengan menggunakan statistik X2.
 Algoritma menentukan kesamaan antara distribusi
data dalam interval yg berdekatan berdasarkan
klasifikasi output sample.
 Jika kesimpulan dari X2 test ini adalah class output yg
independen maka interval harus digabungkan,
sebaliknya jika perbedaannya terlalu besar maka tidak
digabung.
Algoritma ChiMerge
 Algoritma ChiMerge berisi 3 tahap untuk diskritisasi:
1. Sort data atas fitur yg diberikan secara urut naik
2. Definisikan inisial awal interval sehingga setiap nilai
dalam interval terpisah
3. Ulangi hingga tidak ada X2 dari 2 interval yg berdekatan
lebih kecil dari nilai threshold.
 Dimana:
 k= jumlah kelas
 Aij=jumlah contoh dalam interval ke-i, kelas ke-j
 Eij =frekuensi yg diharapkan dari Aij, yg mana dihitung (Ri.Cj)/N
 Ri= jumlah contoh dalam interval ke –i
 Cj = jumlah contoh dalam kelas ke –j
 N= jumlah total dari contoh
Class 1 Class 2 ∑
Interval-1 A11 A12 R1
Interval-2 A21 A22 R2
∑ C1 C2 N
Contoh
Sample: F K
1 1 1
2 3 2
3 7 1
4 8 1
5 9 1
6 11 2
7 23 2
8 37 1
9 39 2
10 45 1
11 46 1
12 59 1
No Median
1 5.0
2 7.5
3 8.5
4 10.0
5 17.0
6 30.0
7 38.0
8 42.0
9 45.5
10 52.5
K = 1 K = 2 ∑
Interval [7.5, 8.5] A11 = 1 A12 = 0 R1 = 1
Interval [8.5, 10] A21 = 1 A22 = 0 R2 = 1
∑ C1 = 2 C2 = 0 N = 2
Berdasarkan tabel di atas didapatkan:
E11 = 2/2 = 1
E12 0/2 ≈ 0.1
E21 = 2/2 = 1 dan
E22 = 0/2 ≈ 0.1
X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2
Oleh karena lebih kecil dari threshold (2.706 untuk distribusi
dg α =0.1, maka dilakukan penggabungan
K = 1 K = 2 ∑
Interval [0, 7.5] A11 = 2 A12 = 1 R1 = 3
Interval [7.5, 10] A21 = 2 A22 = 0 R2 = 2
∑ C1 = 4 C2 = 1 N = 5
E11 = 12/5 = 2.4
E12 = 3/5 = 0.6
E21 = 8/5 = 1.6
E22 = 2/5 = 0.4
X2 = 0.834
K = 1 K = 2 ∑
Interval [0, 10.0] A11 = 4 A12 = 1 R1 = 5
Interval [10.0,
42.0]
A21 = 1 A22 = 3 R2 = 4
∑ C1 = 5 C2 = 4 N = 9
E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, dan χ2 = 2.72
Oleh karena dihasilkan > dari threshold (2.706), maka
tidak diperlukan lagi penggabungan

More Related Content

What's hot

13. modul ta dts2021 clustering
13. modul ta dts2021 clustering13. modul ta dts2021 clustering
13. modul ta dts2021 clustering
ArdianDwiPraba
 
Riset operasional
Riset operasionalRiset operasional
Riset operasional
Henry Guns
 
Makalah kelompok 4 metode simpleks
Makalah kelompok 4 metode simpleksMakalah kelompok 4 metode simpleks
Makalah kelompok 4 metode simpleks
Nila Aulia
 

What's hot (20)

Beberapa distribusi peluang diskrit (1)
Beberapa distribusi peluang diskrit (1)Beberapa distribusi peluang diskrit (1)
Beberapa distribusi peluang diskrit (1)
 
EKMA4413 - Riset Operasi - Modul 6
EKMA4413 - Riset Operasi - Modul 6EKMA4413 - Riset Operasi - Modul 6
EKMA4413 - Riset Operasi - Modul 6
 
Analisa kurva IS-LM
Analisa kurva IS-LMAnalisa kurva IS-LM
Analisa kurva IS-LM
 
PENELITIAN OPERASIONAL - PROGRAMA LINIER - METODE PRIMAL DUAL
PENELITIAN OPERASIONAL - PROGRAMA LINIER - METODE PRIMAL DUALPENELITIAN OPERASIONAL - PROGRAMA LINIER - METODE PRIMAL DUAL
PENELITIAN OPERASIONAL - PROGRAMA LINIER - METODE PRIMAL DUAL
 
13. modul ta dts2021 clustering
13. modul ta dts2021 clustering13. modul ta dts2021 clustering
13. modul ta dts2021 clustering
 
Bab 3. Ukuran-Ukuran Numerik Statistik Deskriptif
Bab 3. Ukuran-Ukuran Numerik Statistik DeskriptifBab 3. Ukuran-Ukuran Numerik Statistik Deskriptif
Bab 3. Ukuran-Ukuran Numerik Statistik Deskriptif
 
20731 21 visualisasi data
20731 21 visualisasi data20731 21 visualisasi data
20731 21 visualisasi data
 
7. f
7. f7. f
7. f
 
Riset operasional
Riset operasionalRiset operasional
Riset operasional
 
Ekonomi manajerial
Ekonomi manajerialEkonomi manajerial
Ekonomi manajerial
 
Materi sorting(pengurutan)-Dasar-Dasar Pemprograman
Materi sorting(pengurutan)-Dasar-Dasar PemprogramanMateri sorting(pengurutan)-Dasar-Dasar Pemprograman
Materi sorting(pengurutan)-Dasar-Dasar Pemprograman
 
Proses Data Mining
Proses Data MiningProses Data Mining
Proses Data Mining
 
Analisis sensitivitas
Analisis sensitivitasAnalisis sensitivitas
Analisis sensitivitas
 
Analisis Diskriminan (1)
Analisis Diskriminan (1)Analisis Diskriminan (1)
Analisis Diskriminan (1)
 
Makalah kelompok 4 metode simpleks
Makalah kelompok 4 metode simpleksMakalah kelompok 4 metode simpleks
Makalah kelompok 4 metode simpleks
 
Modul 03 Dasar Pemodelan
Modul 03 Dasar PemodelanModul 03 Dasar Pemodelan
Modul 03 Dasar Pemodelan
 
Algoritma Divide and Conquer (Sorting & Searching)
Algoritma Divide and Conquer (Sorting & Searching)Algoritma Divide and Conquer (Sorting & Searching)
Algoritma Divide and Conquer (Sorting & Searching)
 
Uas riset operasi (kevin surya)
Uas riset operasi (kevin surya)Uas riset operasi (kevin surya)
Uas riset operasi (kevin surya)
 
Distribusi Sampling
Distribusi SamplingDistribusi Sampling
Distribusi Sampling
 
Metode interpolasi linier
Metode  interpolasi linierMetode  interpolasi linier
Metode interpolasi linier
 

Viewers also liked

Presentasi sidang proposal skripsi, Lutfi Bahtiyar, 2014
Presentasi sidang proposal skripsi, Lutfi Bahtiyar, 2014Presentasi sidang proposal skripsi, Lutfi Bahtiyar, 2014
Presentasi sidang proposal skripsi, Lutfi Bahtiyar, 2014
Ns. Lutfi
 
Feature selection concepts and methods
Feature selection concepts and methodsFeature selection concepts and methods
Feature selection concepts and methods
Reza Ramezani
 

Viewers also liked (16)

14 reduksi data
14 reduksi data14 reduksi data
14 reduksi data
 
Contoh data mining
Contoh data miningContoh data mining
Contoh data mining
 
data mining
data miningdata mining
data mining
 
An introduction to variable and feature selection
An introduction to variable and feature selectionAn introduction to variable and feature selection
An introduction to variable and feature selection
 
Feature Selection
Feature Selection Feature Selection
Feature Selection
 
Konsep Dasar Sistem dan Sistem Informasi
Konsep Dasar Sistem dan Sistem InformasiKonsep Dasar Sistem dan Sistem Informasi
Konsep Dasar Sistem dan Sistem Informasi
 
Feature selection
Feature selectionFeature selection
Feature selection
 
Distribusi hipergeometrik
Distribusi hipergeometrikDistribusi hipergeometrik
Distribusi hipergeometrik
 
Presentasi sidang proposal skripsi, Lutfi Bahtiyar, 2014
Presentasi sidang proposal skripsi, Lutfi Bahtiyar, 2014Presentasi sidang proposal skripsi, Lutfi Bahtiyar, 2014
Presentasi sidang proposal skripsi, Lutfi Bahtiyar, 2014
 
Konsep Dasar Sistem Informasi Manajemen (SIM)
Konsep Dasar Sistem Informasi Manajemen (SIM)Konsep Dasar Sistem Informasi Manajemen (SIM)
Konsep Dasar Sistem Informasi Manajemen (SIM)
 
Textmining Introduction
Textmining IntroductionTextmining Introduction
Textmining Introduction
 
Contoh Presentasi Proposal Skripsi
Contoh Presentasi Proposal SkripsiContoh Presentasi Proposal Skripsi
Contoh Presentasi Proposal Skripsi
 
Feature selection concepts and methods
Feature selection concepts and methodsFeature selection concepts and methods
Feature selection concepts and methods
 
Contoh Powerpoint ppt PRESENTASI SIDANG UJIAN SKRIPSI
Contoh Powerpoint ppt PRESENTASI SIDANG UJIAN SKRIPSIContoh Powerpoint ppt PRESENTASI SIDANG UJIAN SKRIPSI
Contoh Powerpoint ppt PRESENTASI SIDANG UJIAN SKRIPSI
 
Contoh Slide Presentasi Proposal Penelitian yang Bagus
Contoh Slide Presentasi Proposal Penelitian yang BagusContoh Slide Presentasi Proposal Penelitian yang Bagus
Contoh Slide Presentasi Proposal Penelitian yang Bagus
 
Feature Selection for Document Ranking
Feature Selection for Document RankingFeature Selection for Document Ranking
Feature Selection for Document Ranking
 

Similar to 8186 8 reduksi data

Fungsi rumus statistik di excel
Fungsi rumus statistik di excelFungsi rumus statistik di excel
Fungsi rumus statistik di excel
Arief Hidayat
 
Limit Fungsi di Ruang Metrik
Limit Fungsi di Ruang MetrikLimit Fungsi di Ruang Metrik
Limit Fungsi di Ruang Metrik
Nida Shafiyanti
 
Bab i1 kohonen (recovered)
Bab i1 kohonen (recovered)Bab i1 kohonen (recovered)
Bab i1 kohonen (recovered)
Eka Suryadana
 
Statistika Industri
Statistika IndustriStatistika Industri
Statistika Industri
liffi
 

Similar to 8186 8 reduksi data (20)

Machine Learning Diskusi 14.pdf
Machine Learning Diskusi 14.pdfMachine Learning Diskusi 14.pdf
Machine Learning Diskusi 14.pdf
 
Analisa spasial -_vektor
Analisa spasial -_vektorAnalisa spasial -_vektor
Analisa spasial -_vektor
 
Metode statistik multivariat
Metode statistik multivariatMetode statistik multivariat
Metode statistik multivariat
 
LN s07-machine vision-s2
LN s07-machine vision-s2LN s07-machine vision-s2
LN s07-machine vision-s2
 
knn.pptx
knn.pptxknn.pptx
knn.pptx
 
DIPELAJARI YA (1).pptx
DIPELAJARI YA (1).pptxDIPELAJARI YA (1).pptx
DIPELAJARI YA (1).pptx
 
Kelompok 7 clustering data mining and Retrieval mode
Kelompok 7 clustering data mining and Retrieval modeKelompok 7 clustering data mining and Retrieval mode
Kelompok 7 clustering data mining and Retrieval mode
 
K-MEANS CLUSTERING.pptx
K-MEANS CLUSTERING.pptxK-MEANS CLUSTERING.pptx
K-MEANS CLUSTERING.pptx
 
Data mining 7
Data mining 7Data mining 7
Data mining 7
 
Fungsi rumus statistik di excel
Fungsi rumus statistik di excelFungsi rumus statistik di excel
Fungsi rumus statistik di excel
 
Limit Fungsi di Ruang Metrik
Limit Fungsi di Ruang MetrikLimit Fungsi di Ruang Metrik
Limit Fungsi di Ruang Metrik
 
FP DATA MINING A 06211540000082
FP DATA MINING A 06211540000082 FP DATA MINING A 06211540000082
FP DATA MINING A 06211540000082
 
Bab i1 kohonen (recovered)
Bab i1 kohonen (recovered)Bab i1 kohonen (recovered)
Bab i1 kohonen (recovered)
 
bahan sidang
bahan sidangbahan sidang
bahan sidang
 
Statistika Industri
Statistika IndustriStatistika Industri
Statistika Industri
 
Analisis klaster
Analisis klasterAnalisis klaster
Analisis klaster
 
Materi 3 - Pengantar Pengolahan Obyek.pdf
Materi 3 - Pengantar Pengolahan Obyek.pdfMateri 3 - Pengantar Pengolahan Obyek.pdf
Materi 3 - Pengantar Pengolahan Obyek.pdf
 
Modul klasifikasi decission tree modul klasifikasi
Modul klasifikasi decission tree modul klasifikasiModul klasifikasi decission tree modul klasifikasi
Modul klasifikasi decission tree modul klasifikasi
 
2 pengenalan matlab
2 pengenalan matlab2 pengenalan matlab
2 pengenalan matlab
 
ahp sederhana.pptx
ahp sederhana.pptxahp sederhana.pptx
ahp sederhana.pptx
 

More from Universitas Bina Darma Palembang

More from Universitas Bina Darma Palembang (20)

30448 pertemuan1
30448 pertemuan130448 pertemuan1
30448 pertemuan1
 
29510 pertemuan18(form method-get-post-dan-session(1))
29510 pertemuan18(form method-get-post-dan-session(1))29510 pertemuan18(form method-get-post-dan-session(1))
29510 pertemuan18(form method-get-post-dan-session(1))
 
28501 pertemuan14(php)
28501 pertemuan14(php)28501 pertemuan14(php)
28501 pertemuan14(php)
 
28500 pertemuan22(header dokumen html dgn tag title)
28500 pertemuan22(header dokumen html dgn tag title)28500 pertemuan22(header dokumen html dgn tag title)
28500 pertemuan22(header dokumen html dgn tag title)
 
25437 pertemuan25(hitcounter)
25437 pertemuan25(hitcounter)25437 pertemuan25(hitcounter)
25437 pertemuan25(hitcounter)
 
23921 pertemuan 3
23921 pertemuan 323921 pertemuan 3
23921 pertemuan 3
 
19313 pertemuan6
19313 pertemuan619313 pertemuan6
19313 pertemuan6
 
18759 pertemuan20(web html editor)
18759 pertemuan20(web html editor)18759 pertemuan20(web html editor)
18759 pertemuan20(web html editor)
 
18040 pertemuan13(css)
18040 pertemuan13(css)18040 pertemuan13(css)
18040 pertemuan13(css)
 
17945 pertemuan5
17945 pertemuan517945 pertemuan5
17945 pertemuan5
 
16406 pertemuan17(konsep basis-data-di-web)
16406 pertemuan17(konsep basis-data-di-web)16406 pertemuan17(konsep basis-data-di-web)
16406 pertemuan17(konsep basis-data-di-web)
 
15294 pertemuan9(eksplorasi &defenisi masalah0
15294 pertemuan9(eksplorasi &defenisi masalah015294 pertemuan9(eksplorasi &defenisi masalah0
15294 pertemuan9(eksplorasi &defenisi masalah0
 
13926 pertemuan4
13926 pertemuan413926 pertemuan4
13926 pertemuan4
 
12738 pertemuan 15(php lanjutan)
12738 pertemuan 15(php lanjutan)12738 pertemuan 15(php lanjutan)
12738 pertemuan 15(php lanjutan)
 
6346 pertemuan21(web statis dengan struktur html)
6346 pertemuan21(web statis dengan struktur html)6346 pertemuan21(web statis dengan struktur html)
6346 pertemuan21(web statis dengan struktur html)
 
5623 pertemuan11(html1)
5623 pertemuan11(html1)5623 pertemuan11(html1)
5623 pertemuan11(html1)
 
4740 pertemuan8(komponen dalam web)
4740 pertemuan8(komponen dalam web)4740 pertemuan8(komponen dalam web)
4740 pertemuan8(komponen dalam web)
 
4075 pertemuan10 (analisa kebutuhan)
4075 pertemuan10 (analisa kebutuhan)4075 pertemuan10 (analisa kebutuhan)
4075 pertemuan10 (analisa kebutuhan)
 
2670 pertemuan12(html lanjut)
2670 pertemuan12(html lanjut)2670 pertemuan12(html lanjut)
2670 pertemuan12(html lanjut)
 
2190 pertemuan24(polling)
2190 pertemuan24(polling)2190 pertemuan24(polling)
2190 pertemuan24(polling)
 

Recently uploaded

Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Riyadh +966572737505 get cytotec
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
danzztzy405
 
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Riyadh +966572737505 get cytotec
 

Recently uploaded (11)

Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
 
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx
 
Contoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningContoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data mining
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
 
Abortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Jeddah+966543202731/ buy cytotec
Abortion pills in Jeddah+966543202731/ buy cytotec
 
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
 
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptxASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
ASUMSI DAN KARAKTERISTIK AKUNTANSI SYARIAH.pptx
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
 
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANKONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
 
Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdf
 
Salinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa IndonesiaSalinan PPT TATA BAHASA Bahasa Indonesia
Salinan PPT TATA BAHASA Bahasa Indonesia
 

8186 8 reduksi data

  • 1.
  • 2. KONSEP DASAR  Reduksi data adalah proses analisis untuk memilih, memusatkan perhatian, meyederhanakan, mengabstraksikan serta mentransformasikan data yang muncul dari catatan-catatan lapangan.  Mereduksi data berarti membuat rangkuman, memilih hal-hal pokok, memfokuskan pada hal-hal penting, mencari tema dan pola, serta membuang yang dianggap tidak perlu.
  • 3. KONSEP DASAR  Contoh: data yang besar dalam data warehouse pada data set kompleks.  Reduksi data berarti : Mengurangi ukuran data set tetapi menghasilkan hasil analisis yang sama (hampir sama)
  • 4. TUJUAN  Menentukan kualitas solusi dalam data mining
  • 5. OPERASI DASAR  Tiga dimensi utama dari data set (plain files):  Kolom (fitur)  Baris (kasus/ contoh)  Nilai fitur  Tiga operasi dasar dari proses reduksi data:  Delete kolom,  Delete baris  Pengurangan jumlah nilai kolom (penghalusan suatu fitur).
  • 6. PENDEKATAN YANG DIGUNAKAN  Operasi lain mereduksi tetapi data baru tidak dikenali lagi.  Menggantikan sekumpulan fitur awal dengan fitur campuran yang baru.  Contoh: data set fitur (tinggi dan berat) diganti dengan BMI (body-mass-index).  Merupakan proporsi hasil bagi dari dua fitur awal.
  • 7. PARAMETER ANALISIS DASAR  Waktu komputasi, data yang lebih sederhana dapat mereduksi waktu untuk proses data mining  Keakuratan prediksi/deskriptif, mengukur seberapa baik data dapat disimpulkan dan mengeneralisasi ke dalam suatu model.  Penyajian dari model data mining, kesederhanaan representasi menjadi model yang dapat dimengerti
  • 8.  dapat mereduksi waktu, meningkatkan akurasi dan penyajian dalam bentuk yang sederhana pada waktu yang bersamaan, menggunakan strategi Dimensionality reduction.
  • 9. FEATURE REDUCTION  Proses reduksi fitur harus menghasilkan:  Data yang lebih kecil, sehingga algoritma data mining dapat bekerja lebih cepat  Akurasi yang tinggi dari proses data mining, sehingga model dapat mengeneralisasikan data lebih baik  Hasil yang sederhana, sehingga lebih mudah dimengerti dan digunakan  Fitur yang lebih kecil.
  • 10. Klasifikasi Reduksi Fitur  Feature selection: proses pememilihan fitur yang ditemukan pada sebuah data set awal. Feature composition: faktor penentu dalam menghasilkan hasil data mining yang berkualitas
  • 11. Feature Selection  Terdiri dari algoritma feature-rangking dan algoritma subset minimum.  Algoritma feature-rangking.  Daftar fitur yang terurut berdasarkan hasil evaluasi.  Suatu ukuran dapat digunakan berdasarkan akurasi data yang tersedia, konsistensi, isi informasi, jarak.  Algoritma ini tidak dapat memberitahukan apakah kumpulan fitur dapat dianalisa lebih lanjut.  Algoritma subset minimum  Mendapatkan subset fitur minimum dan tidak ada perbedaan urutan diantara fitur-fitur dalam subset.  Fitur-fitur dalam subset yang relevan ditujukan untuk proses mining
  • 12.  Seleksi fitur secara umum dapat digambarkan sebagai masalah pencarian, dengan setiap state di area pencarian khusus suatu subset.  Seleksi fitur dan reduksi dimensi data membantu seluruh tahapan dalam proses data mining untuk penemuan pengetahuan.
  • 13. Entropy Measure  Suatu metoda untuk seleksi unsupervised fitur atau merangking berdasarkan ukuran entropy.  Asumsi dasar adalah semua contoh diberikan sebagai vektor tanpa adanya klasifikasi dari output sample.  Pendekatan didasarkan atas observasi pembuangan fitur yang tidak relevan, fitur redundan, atau keduanya dari kemungkinan yg tidak mengubah karakteristik data set.  Algoritma didasarkan atas ukuran kesamaan S yang berbanding terbalik dengan jarak D antara dua n- dimensional sample. Ukuran jarak D kecil, dekat dengan contoh, dan yang besar untuk perbedaan pasangan.
  • 14.  Ada 2 formula yg dipakai untuk mengukur kesamaan terhadap fitur: data numerik dan non numerik (kategori). 1. Data numerik: Similarity (S) dimana: e=2.7183; Namun sering digunakan sebagai konstanta Dan ukuran jarak D didapatkan:
  • 15. 2. Data non-numerik Di mana |xij=xjk| adalah 1 jika xij=xjk, dan sebaliknya 0. Jumlah variable adalah n. Sample F1 F2 F3 R1 R2 R3 R4 R5 A B C B C X Y Y X Z 1 2 2 1 3 R1 R2 R3 R4 R5 R1 R2 R3 R4 0/3 0/3 2/3 2/3 1/3 0/3 0/3 0/3 1/3 0/3 Data set dgn 3 fitur kategori Tabel ukuran similarity Sij diantara samples
  • 16.  Nilai Entropy yang digunakan untuk rangking fitur adalah:  Kedekatan suatu fitur ditunjukan semakin kecilnya perbedaan nilai entropy.
  • 17. DATA REDUCTION METHODS  Principal Component Analysis  Values Reduction  Feature Discretization
  • 18. Principal Component Analysis (PCA)  Metoda statistik yang populer untuk mereduksi dimensi data set yang besar adalah metode Karhunen-Loeve (K-L).  Merupakan metoda pentranformasian data set awal yg direpresentasikan vector sample menjadi kumpulan vector sample baru dengan dimensi yang didapatkan.  Tujuannya memfokuskan informasi terhadap perbedaan- perbedaan diantara sample menjadi dimensi yang kecil.
  • 19. Principal Component Analysis (PCA)  Ide dasar: sekumpulan vector sampel berdimensi n X={x1, x2, x3, …, xm} ditransformasikan ke himpunan lain Y = {y1, y2, y3, …, ym} dengan dimensi yg sama, tetapi y ,memiliki property yg paling informatif isinya disimpan dalam dimensi pertama.  Transformasi didasarkan atas asumsi bahwa informasi yg tinggi berhubungan dengan varian yg tinggi. Sehingga jika mereduksi ke satu dimensi dari matrik X ke matrik Y dapat dituliskan: Y= A ∙ X, pemilihan A sehingga Y mempunyai varian terbesar dari data set yg diberikan. Dimensi tunggal dari Y diperoleh dari transformasi ini disebut first principal component.
  • 20. Principal Component Analysis (PCA)  Maka untuk menentukan matrix A, dihitung dahulu covariance matrix S sebagai tahap awal dari transformasi fitur.  Dimana:
  • 21. Eigen values & Eigen vector  Eigenvalues dari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0  Eigenvectors v1,v2,… vn berhubungan dengan eigenvalues λ1 ≥ λ2 ≥… λn dan disebut principal axes.  Kriteria untuk seleksi fitur didasarkan atas rasio penjumlahan eigenvalue terbesar S ke nilai seluruh S, sehingga dapat dituliskan:  Ketika nilai rasio R cukup besar (lebih besar dari nilai threshold), seluruh analisa dari subset atas fitur m merepresentasikan estimasi awal yg baik dari n dimensi ruang.
  • 22. Eigen values & Eigen vector  Nilai eigen value diperoleh dengan mengetahui nilai covariance sehingga dituliskan: det (S – λ) = 0 ; dimana S= matrix covariance  Sedangkan nilai eigen vector (v) diperoleh dengan rumusan berikut: λv = Sv
  • 23. Contoh Feature 1 Feature 2 Feature 3 Feature 4 Feature 1 1.0000 1.1094 0.8718 0.8180 Feature 2 −0.1094 1.0000 −0.4205 −0.3565 Feature 3 0.8718 −0.4205 1.0000 0.9628 Feature 4 0.8180 −0.3565 0.9628 1.0000 Feature Eigenvalue Feature 1 2.91082 Feature 2 0.92122 Feature 3 0.14735 Feature 4 0.02061 Eigenvalue dari data Covariance
  • 24.  Dengan nilai threshold R*=0.95, maka dipilih 2 fitur pertama, sebab: R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 + 0.02061) = 0.958 > 0.95, sehingga 2 fitur tersebutcukup mendeskripsikan karakteristik data set.
  • 25. Value Reduction  Suatu reduksi jumlah nilai-nilai diskrit untuk figure yg diberikan didasarkan atas teknik diskritisasi.  Tujuannnya : mendiskritisasi nilai fitur kontinu menuju sejumlah kecil interval, yg mana setiap interval dipetakkan ke simbol diskrit.  Keuntungan: diskripsi data disederhanakan sehingga data dan hasil-hasil data-mining mudah dimengerti, juga kebanyakan teknik data mining dapat diaplikasikan dengan nilai fitur diskrit.
  • 26.  Sebagai contoh: suatu umur seseorang, diberikan diawal proses data-mining sebagai nilai kontinu (antara 0 dan 150 tahun) mungkin diklasifikasikan menjadi segmen2 kategori: anak, remaja, dewasa, setengah tua, tua. Titik2 batas didefinisikan secara subyektif. Cut points? Child Adolescent Adult Middle-age Elderly age 0 150
  • 27. Pengelompokan nilai-nilai fitur  Diberikan suatu fitur mempunyai suatu jarak nilai-nilai numerik, dan nilai-nilai ini dapat diurutkan dari yg terkecil ke yg terbesar.  penempatan pembagian nilai-nilai ke dalam kelompok-kelompok dengan nilai-nilai yg dekat.  Seluruh nilai dalam kelompok akan digabung ke konsep tunggal yg direpresentasikan dengan nilai tunggal, biasanya mean atau median dari nilai-nilai tersebut.  Nilai mean/ mode biasanya efektif untuk jumlah nilai yg lumayan besar.  Namun bila kecil/ sedikit, batasan dari setiap kelompok dapat menjadi kandidat untuk representasinya.
  • 28. Contoh  Sebagai contoh, jika diberikan fitur f {3, 2, 1, 5, 4, 3, 1, 7, 5, 3} kemudian setelah sorting didapatkan : {1, 1, 2, 3, 3, 3, 4, 5, 5, 7}  Maka sekarang, mungkin dipecah jumlah kumpulan nilai kedalam 3 bins {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} BIN1 BIN2 BIN3
  • 29.  Langkah berikutnya, perbedaan representasi dapat dipilih untuk setiap bin.  Berdasarkan mode dalam bin, maka nilai-nilai baru: {1, 1, 1, 3, 3, 3, 5, 5, 5, 5} BIN1 BIN2 BIN3  Berdasarkan mean {1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25} BIN1 BIN2 BIN3  Berdasarkan kedekatan dengan batasan nilai dalam bin: {1, 1, 2, 3, 3, 3, 4, 4, 4, 7} BIN1 BIN2 BIN3
  • 30.  Masalah utama dari metoda ini adalah menemukan batasan terbaik untuk bin. Maka prosedurenya terdiri langkah-langkah berikut:  Urutkan seluruh nilai bagi fitur yg diberikan  Assign dengan perkiraan sejumlah nilai-nilai yg berdekatan setiap bin  Pindahkan elemen batas dari satu bin ke berikutnya (atau sebelumnya) ketika mereduksi error jarak keseluruhan (ER)
  • 31.  Contoh:  Kumpulan nilai dari fitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split ke dalam 3 bin (k=3), dimana bin2 akan direpresentasikan dengan mode-nya.  Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}  Inisialisasi bin (k=3) BIN1 BIN2 BIN3 (i) Modes untuk ketiga bin terpilih : {1, 2, 8}. Maka total error: ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7 (ii) Setelah memindahkan 2 elemen dari BIN2 ke BIN1 dan 1 elemen dari BIN3 ke BIN2, maka diperoleh ER yg lebih kecil dan distribusi akhir menjadi: Final bins  f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} BIN1 BIN2 BIN3  Modesnya: {2, 5, 8}, dan total error ER diminimisasi menjadi 4.  Distribusi akhir, dengan median-median sebagai representative akan didaptkan masalah reduksi nilai.
  • 32. FEATURE DISCRETIZATION  ChiMerge: suatu algoritma diskritisasi yang menganalisi kualitas interval atas fitur yg diberikan dengan menggunakan statistik X2.  Algoritma menentukan kesamaan antara distribusi data dalam interval yg berdekatan berdasarkan klasifikasi output sample.  Jika kesimpulan dari X2 test ini adalah class output yg independen maka interval harus digabungkan, sebaliknya jika perbedaannya terlalu besar maka tidak digabung.
  • 33. Algoritma ChiMerge  Algoritma ChiMerge berisi 3 tahap untuk diskritisasi: 1. Sort data atas fitur yg diberikan secara urut naik 2. Definisikan inisial awal interval sehingga setiap nilai dalam interval terpisah 3. Ulangi hingga tidak ada X2 dari 2 interval yg berdekatan lebih kecil dari nilai threshold.
  • 34.  Dimana:  k= jumlah kelas  Aij=jumlah contoh dalam interval ke-i, kelas ke-j  Eij =frekuensi yg diharapkan dari Aij, yg mana dihitung (Ri.Cj)/N  Ri= jumlah contoh dalam interval ke –i  Cj = jumlah contoh dalam kelas ke –j  N= jumlah total dari contoh Class 1 Class 2 ∑ Interval-1 A11 A12 R1 Interval-2 A21 A22 R2 ∑ C1 C2 N
  • 35. Contoh Sample: F K 1 1 1 2 3 2 3 7 1 4 8 1 5 9 1 6 11 2 7 23 2 8 37 1 9 39 2 10 45 1 11 46 1 12 59 1
  • 36. No Median 1 5.0 2 7.5 3 8.5 4 10.0 5 17.0 6 30.0 7 38.0 8 42.0 9 45.5 10 52.5
  • 37. K = 1 K = 2 ∑ Interval [7.5, 8.5] A11 = 1 A12 = 0 R1 = 1 Interval [8.5, 10] A21 = 1 A22 = 0 R2 = 1 ∑ C1 = 2 C2 = 0 N = 2 Berdasarkan tabel di atas didapatkan: E11 = 2/2 = 1 E12 0/2 ≈ 0.1 E21 = 2/2 = 1 dan E22 = 0/2 ≈ 0.1 X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2 Oleh karena lebih kecil dari threshold (2.706 untuk distribusi dg α =0.1, maka dilakukan penggabungan
  • 38. K = 1 K = 2 ∑ Interval [0, 7.5] A11 = 2 A12 = 1 R1 = 3 Interval [7.5, 10] A21 = 2 A22 = 0 R2 = 2 ∑ C1 = 4 C2 = 1 N = 5 E11 = 12/5 = 2.4 E12 = 3/5 = 0.6 E21 = 8/5 = 1.6 E22 = 2/5 = 0.4 X2 = 0.834
  • 39. K = 1 K = 2 ∑ Interval [0, 10.0] A11 = 4 A12 = 1 R1 = 5 Interval [10.0, 42.0] A21 = 1 A22 = 3 R2 = 4 ∑ C1 = 5 C2 = 4 N = 9 E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, dan χ2 = 2.72 Oleh karena dihasilkan > dari threshold (2.706), maka tidak diperlukan lagi penggabungan