7. Problem Data
Data yang dikumpulkan dari banyak sumber berbeda
dengan banyak metode akan menyebabkan problem:
Heterogeneity and Diversity, data dengan format
dan struktur yang beragam dan berantakan.
Data Quality, data yang tercemar noise, error, outlier,
missing value, bias, fake data, illegal data dan irrelevant data.
Scale, data yang berskala besar yang membutuhkan upaya
ekstra untuk mengolahnya.
7
8. Problem Data: Heterogeneity and Diversity
Number
Text
Graph
Image
Audio
Video
Code, encryption,
decryption
Electric current
Radio wave
Light wave
Electromagnetic wave
Magnetic field
Force and energy
Analog or digital signals
8
10. Problem Data: Scale
Number of instances (records, objects)
Rule of thumb: 5,000 or more desired
if less, results are less reliable; use special methods (boosting, …)
Number of attributes (fields)
Rule of thumb: for each attribute, 10 or more instances
If more fields, use feature reduction and selection
Number of targets
Rule of thumb: >100 for each class
if very unbalanced, use stratified sampling
10
11. Kesalahan Pemilihan Sumber Data
Random error : kesalahan sampling karena
sebaran sampel kurang merepresentasikan distribusi
populasi. → abandoned subset of population
Systematic error : kesalahan sampling karena
sampel terkumpul di sebagian populasi yang dibatasi
rentang waktu tertentu atau lokasi tertentu dan
melalaikan sebagian yang lain. → undercoverage
Illegitimate error : kesalahan sampling karena
sampel dari populasi yang berbeda → overcoverage
11
13. Kesalahan Proses Pengukuran
Random error : kesalahan tak terkendali antar
pengukuran, karena faktor keacakan dari objek ukur,
operator, alat ukur, lingkungan atau noise lainnya.
Systematic error : kesalahan yang berulang dan
membiaskan hasil, karena kegagalan operator atau
alat ukur, kesalahan prosedur, pengaruh lingkungan
Illegitimate error : kesalahan insidental dan
menghasilkan outlier, karena keteledoran, keliru
kalkulasi, atau kesalahan lainnya
13
15. Kesalahan Konten Data
Unusual value (outlier), data yang sangat jauh dari kumpulan data utama,
karena illegitimate error pengukuran atau mungkin sampel berasal dari populasi lain
(terdapat faktor yang berbeda).
Missing value, data relevan yang kurang atau tidak lengkap, karena kealpaan
pengukuran atau pencatatannya, atau sebaran sampel kurang baik.
Bias, pergeseran data dari nilai yang sebenarnya, karena systematic error
pengukuran.
Fake data, data palsu, fiktif, manipulasi, dugaan, prediksi.
Illegal data, data dari sumber yang belum/tidak terpercaya atau bahkan tidak
mempunyai akses pada data.
Irrelevant data, data yang berbeda atau berubah karena diperoleh dari time frame
yang lain, atau perlakuan yang lain, atau tujuan studi yang lain, atau pendekatan yang
lain, atau faktor-faktor lainnya.
15
22. Ukuran Sebaran
Ukuran sebaran atau dispersi (a measure of
dispersion) adalah ukuran numerik yang
dipergunakan untuk merepresentasikan penyebaran
satu himpunan data terhadap pemusatannya
Range Quartile
Variance Decile
Deviation Percentile
Standard Deviation Interquartile range
Mean absolute deviation Skewness
Coefficient of variation Kurtosis
22
23. Range
Rentang (range) adalah ukuran numerik yang
menunjukkan rentang sebaran data mulai data
terkecil hingga data terbesar.
Untuk memperoleh range, harus dicari data terkecil
dan data terbesar terlebih dahulu. Selisih antara data
terkecil dengan data terbesar adalah besaran range.
23
25. Variance
Varians (variance) adalah ukuran numerik dari rata-
rata kuadrat penyimpangan data terhadap ukuran
pemusatan data.
Berdasarkan teorema limit sentral (central limit
theorem), sebagai parameter dari distribusi normal
populasi dinotasikan dengan 2, sedangkan sebagai
statistik sampel dinotasikan dengan s2 dengan derajat
kebebasan (df) = n-1
25
26. Variance
26
N
x
N
x
x
n
i
i
n
=
−
=
−
+
+
−
=
1
2
2
2
1
2
)
(
)
(
)
(
Di mana :
s2 = variance
͞x = arithmetic mean
xi = data ke-i
i = indeks urutan data
n = banyaknya data
1
)
(
1
)
(
)
(
1
2
2
2
1
2
−
−
=
−
−
+
+
−
=
=
n
x
x
n
x
x
x
x
s
n
i
i
n
Di mana :
2 = variance
= arithmetic mean
xi = data ke-i
i = indeks urutan data
N = banyaknya data
POPULASI SAMPEL
27. Variance
27
Di mana :
s2 = variance
xi = data ke-i
i = indeks urutan data
n = banyaknya data
( )
)
1
(
2
1
1
2
2
−
−
=
=
=
n
n
x
x
n
s
n
i
i
n
i
i
Variance gabungan beberapa himpunan
=
=
= k
i
i
k
i
i
i
n
s
n
s
1
1
2
2
.
30. Standard Deviation
Simpangan baku (standard deviation) adalah ukuran
numerik yang menunjukkan penyimpangan data
terhadap ukuran pemusatan data tanpa
memperhatikan arah penyimpangannya.
Dalam formulasi matematis, standard deviation
adalah akar pangkat dua dari variance
30
31. Standard Deviation
31
2
1
2
2 2
1
)
(
−
−
=
=
=
n
x
x
s
s
n
i
i
Di mana :
s = standard deviation
͞x = arithmetic mean
xi = data ke-i
i = indeks urutan data
n = banyaknya data
Di mana :
= standard deviation
= arithmetic mean
xi = data ke-i
i = indeks urutan data
N = banyaknya data
2
1
2
2 2
)
(
N
x
n
i
i
=
−
=
=
POPULASI SAMPEL
32. Standard Deviation
32
Di mana :
s = standard deviation
xi = data ke-i
i = indeks urutan data
n = banyaknya data
( )
2
2
1
1
2
)
1
( −
−
=
=
=
n
n
x
x
n
s
n
i
i
n
i
i
33. Mean Absolute Deviation
Simpangan absolut (mean absolute deviation) adalah
ukuran numerik yang menunjukkan rata-rata absolut
penyimpangan data terhadap ukuran pemusatan data
33
35. Coefficient of Variation
Koefisien variasi (coefficient of variation) atau
simpangan baku relatif (relative standard deviation)
adalah ukuran numerik yang menunjukkan rasio
relatif dari standard deviation dibagi arithmetic mean
35
37. Quartile, Decile & Percentile
Kuartile (quartile), adalah nilai yang membagi
sejumlah data observasi menjadi empat bagian yang
sama.
Desil (decile), adalah nilai yang membagi sejumlah
data observasi menjadi sepuluh bagian yang sama.
Persentil (percentile), adalah nilai yang membagi
sejumlah data observasi menjadi seratus bagian yang
sama.
37
38. Quartile, Decile & Percentile
38
%
80
)
(
%;
70
)
(
%;
75
)
(
,
%
30
)
(
%;
20
)
(
%;
25
)
(
,
%
50
)
(
)
(
)
(
)
(
,
8
7
3
8
3
7
3
2
1
3
1
2
50
5
2
50
5
2
=
=
=
=
=
=
D
x
P
D
x
P
Q
x
P
D
Q
D
D
x
P
D
x
P
Q
x
P
D
Q
D
Me
x
P
P
x
P
D
x
P
Q
x
P
Me
P
D
Q
x1 , x2 , x3 , x4 , x5 , . . . , xn
D1 D2 D3 D4 D5 D6 D7 D8 D9
Q2
Q1 Q3
P1 P99
P50
P5 P10 P25 P75 P90 P95
39. Quartile, Decile & Percentile
39
APROKSIMASI
n = banyaknya data observasi
u = urutan data untuk aproksimasi
uB = pembulatan ke bawah urutan data
uA = pembulatan ke atas urutan data
Penentuan aproksimasi besaran u
Median ➔ u = (n+1)/2
Qi ➔ u = i.(n+1)/4
Di ➔ u = i.(n+1)/10
Pi ➔ u = i.(n+1)/100
Interpolasi aproksimasi
Approximation = xUB +
(u – uB)
. (xUA – xUB)
1
40. Interquartile Range
Rentang antar kuartil (interquartile range) adalah
ukuran numerik yang menunjukkan rentang sebaran
data antara kuartil 1 hingga kuartil 3.
Rentang semi antar kuartil (semi-interquartile range)
adalah setengah dari rentang antar kuartil
40
43. Quartile Coefficient Of Dispersion
43
( )
( )
3
1
2
1
1
3
2
1
.
.
Q
Q
Q
Q
QCD
Midhinge
SIQR
QCD
+
−
=
=
Di mana :
QCD= Quartile coefficient of dispersion
SIQR= semi-intequartile range
Midhinge= midpoint between the first and third quartiles
Q1 = kuartil ke-1
Q3 = kuartil ke-3
44. Percentile Range
Rentang persentil (percentile range) adalah ukuran
numerik yang menunjukkan rentang sebaran data
antara persentil 10 hingga persentil 90.
44
46. Skewness
Kemiringan atau kemenjuluran (skewness) adalah
ukuran numerik yang menunjukkan derajat
ketidaksimetrian distribusi atau kecondongan miring
kurva distribusi, karena ketiga ukuran pemusatan
(mean, median, mode) tidak berimpit.
46
47. Skewness
47
( )
( )
( )
( )
3
1
2
1
3
3
2
3
1
1
1
.
3
−
−
−
=
=
−
=
−
=
=
=
n
i
i
n
i
i
x
x
n
x
x
n
s
m
s
Me
x
s
Mo
x
skewness
Mo
Me
͞x Mo Me ͞x
͞x
Skewness = 0 Skewness > 0
Skewness < 0
Positive or right skew
Mo
Me
Symmetric
Negative or left skew
Di mana :
͞x = arithmetic mean
Mo= mode
Me= median
m3 = 3-rd moment function
s2 = variance
48. Kurtosis
Keruncingan (kurtosis) adalah ukuran numerik yang
menunjukkan derajat kecuraman puncak distribusi
dan biasanya relatif terhadap distribusi normal.
48
49. Kurtosis
49
( )
( )
( )
( )
4
1
2
1
4
4
2
4
10
90
1
3
2
1
1
1
1
.
−
−
−
=
=
−
−
=
=
=
n
i
i
n
i
i
x
x
n
x
x
n
s
m
P
P
Q
Q
kurtosis
Di mana :
Q = quartile
P = percentile
m4 = 4-th moment function
s2 = variance
Leptokurtik Mesokurtik Platikurtik
Kurtosis > 0,263 Kurtosis = 0,263 Kurtosis < 0,263
Runcing Normal Landai
➔ Normal = 0,263
➔ Normal = 3
50. Ukuran Jarak Sebaran
Pada data univariate, jarak sebaran cukup dihitung
berdasarkan selisih antara dua titik data. Terkadang
salah satu titik adalah titik rujukan (reference point),
misalnya nilai rata-rata aritmetika.
Pada data bivariate atau multivariate, terdapat
beberapa cara menghitung jarak antara dua titik data.
50
51. Ukuran Jarak Sebaran
Beberapa cara menghitung distance atau jarak dua titik data:
Euclidean / Pythagorean / Straight-line / L2 Distance
Rectilinear / Manhattan / Cityblock / Taxicab / Snake / L1 Distance
Chebyshev / Chessboard / Maximum / L∞ Distance
Minkowski Distance
Canberra Distance
Mahalanobis Distance
Cosine Distance
Haversine / Spherical / Great-Circle / Orthodromic Distance
Jaccard / Tanimoto / Critical Success Index
Sorensen-Dice Coefficient
Lee / Mannheim Distance
Hamming Distance
Jaro-Winkler Distance
Levenshtein Distance
Damerau-Levenshtein Distance
51
53. Properti Umum Distance / Jarak
Distance atau jarak sebaran antara titik x dan y
mempunyai beberapa properti umum, yakni:
1. d(x, y) 0 memenuhi sifat nonnegativity untuk semua
titik data x dan y
2. d(x, y) = 0 akan bersifat similar jika dan hanya jika
kedua titik data berimpit di lokasi yang sama, x = y.
3. d(x, y) = d(y, x) memenuhi sifat symmetry untuk
semua titik data x dan y
4. d(x, z) d(x, y) + d(y, z) memenuhi sifat triangle
inequality untuk semua titik data x, y, and z.
53
56. Euclidean Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
56
( )
=
−
=
n
k
k
k q
p
q
p
d
1
2
)
,
(
58. Euclidean Distance
Perhitungan Distance
Di mana:
p, q : dua titik yang dicari jaraknya berkoordinat polar
rp, rq : radius koordinat polar dari masing-masing titik
θp, θq : sudut koordinat polar dari masing-masing titik
58
|)
cos(|
2
)
,
( 2
2
q
p
q
p
q
p r
r
r
r
q
p
d
−
−
+
=
59. Euclidean Distance
59
Distance Matrix
point r θ
p1 2 90
o
p2 2 0
o
p3 3,162 18,435
o
p4 5,099 11,310
o
Polar Coordinate
p1 p2 p3 p4
p1 0 2,828 3,162 5,099
p2 2,828 0 1,414 3,162
p3 3,162 1,414 0 2
p4 5,099 3,162 2 0
60. Rectilinear Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
60
=
−
=
n
k
k
k q
p
q
p
d
1
)
,
(
62. Chebyshev Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
62
k
k
n
k
q
p
q
p
d −
=
max
)
,
(
64. Minkowski Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
r : parameter Minkowski inequality
64
r
n
k
r
k
k q
p
q
p
d
=
−
=
1
)
,
(
66. Minkowski Distance
66
r = 1. Rectilinear distance.
r = 2. Euclidean distance
r → . Chebyshev distance.
Do not confuse r with n, i.e., all these distances are defined for all
numbers of dimensions.
68. Canberra Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
68
= +
−
=
n
k k
k
k
k
q
p
q
p
q
p
d
1
)
,
(
70. Mahalanobis Distance
Perhitungan Distance
Di mana:
p, q : dua titik yang dicari jaraknya sebagai vektor
T : transpose matriks
Σ-1 : invers matriks kovarians
Euclidean distance adalah kasus khusus Mahalanobis distance dengan
matriks identitas sebagai matriks kovarians.
70
( ) ( )
p
q
p
q
q
p
d
T
−
−
= −1
)
,
(
75. Cosine Distance
Perhitungan Distance
Di mana:
p, q : dua titik yang dicari jaraknya sebagai vektor
θ : sudut yang terbentuk antara vektor p dan q
• : perkalian dot antar vektor
|| || : besar vektor
75
=
=
=
=
•
=
=
n
k
k
n
k
k
n
k
k
k
q
p
q
p
q
p
q
p
q
p
d
1
2
1
2
1
)
(
)
cos(
)
,
(
78. Haversine Distance
Perhitungan Distance
Di mana:
p, q : dua titik yang dicari jaraknya di bola berradius r
ϕ1, ϕ2: sudut latitude dari titik p dan q
λ1, λ2 : sudut longitude dari titik p dan q
78
( ) ( )
−
+
−
=
2
sin
cos
cos
2
sin
arcsin(
.
2
)
,
( 1
2
2
2
1
1
2
2
r
q
p
d
79. Similarity dan Dissimilarity
Ukuran Similarity
Ukuran numerik kuantifikasi seberapa mirip antara dua objek data.
Semakin tinggi jika kedua objek data semakin mirip.
Seringkali menggunakan bilangan nyata rentang antara 0 dan 1
Ukuran Dissimilarity
Ukuran numerik kuantifikasi seberapa berbeda antara dua objek
data.
Semakin rendah jika kedua objek data semakin mirip
Seringkali menggunakan bilangan nyata rentang antara 0 dan 1
Proximity mengindikasikan similarity atau dissimilarity
79
80. Similarity dan Dissimilarity
Tabel berikut menunjukkan similarity dan dissimilarity antara
dua objek data, x and y, dengan atribut tunggal dan
sederhana.
80
81. Properti Umum Similarity
Similarity antara dua objek data, x dan y ,
mempunyai beberapa properti umum, yakni:
1. s(x, y) = 1 (or maximum similarity) only if x = y.
2. s(x, y) = s(y, x) for all x and y. (Symmetry)
where s(x, y) is the similarity between points (data objects), x and y.
`
81
83. Simple Matching Coefficient
Perhitungan Distance
Di mana:
A, B : dua dataset yang dicari jaraknya sebagai space
: irisan atau intersection
: gabungan atau union
| | : besar dataset
83
)
,
(
1
)
,
(
)
,
(
1
B
A
SMC
B
A
d
U
B
A
B
A
B
A
SMC
−
=
+
=
−
84. Jaccard Index
Perhitungan Distance
Di mana:
A, B : dua dataset yang dicari jaraknya sebagai space
: irisan atau intersection
: gabungan atau union
| | : besar dataset
84
)
,
(
1
)
,
(
)
,
(
)
,
(
2
2
B
A
J
B
A
d
B
A
B
A
B
A
B
A
J
B
A
B
A
B
A
B
A
B
A
B
A
J
−
=
•
−
+
•
=
−
+
=
=
86. Sorensen-Dice Index
Perhitungan Distance
Di mana:
A, B : dua dataset yang dicari jaraknya sebagai space
: irisan atau intersection
| | : besar dataset
86
)
,
(
1
)
,
(
2
)
,
(
2
)
,
(
2
2
B
A
DSC
B
A
d
B
A
B
A
B
A
DSC
B
A
B
A
B
A
DSC
−
=
+
•
=
+
=
89. Edit Distance
The edit distance d(a, b) is the minimum-weight series
of edit operations that transforms a into b.
edit operations:
Insertion of a single symbol. If a = uv, then inserting the symbol x produces uxv.
This can also be denoted ε→x, using ε to denote the empty string.
Deletion of a single symbol changes uxv to uv (x→ε).
Substitution of a single symbol x for a symbol y ≠ x changes uxv to uyv (x→y).
Transposition of two adjacent characters, formally characterized by an operation that
changes uxyv into uyxv
Merge operation replaces a pair of characters with a single character, changes uxxv
to uxv (xx→x)
Split operation replaces a single character into a pair of them, changes uxv to uxxv
(x→xx)
89
93. Longest Common Subsequence (LCS) Distance
Perhitungan Distance
Menyatakan banyaknya perbedaan antara 2 data yang
mempunyai panjang karakter atau total anggota yang
mungkin berbeda dengan insertion/deletion.
Contoh: corpse → cropped , distance = 5
1. corpse → crpse (delete “o” at 1)
2. crpse → cropse (insert “o” at 2)
3. cropse → crope (delete “s” at 4)
4. crope → croppe (insert “p” at 4)
5. croppe → cropped (insert “d” at 6)
93
94. Levenshtein Distance
Perhitungan Distance
Menyatakan banyaknya perbedaan antara 2 data yang
mempunyai panjang karakter atau total anggota yang
mungkin berbeda dengan insertion/deletion/substitution.
Contoh: corpse → cropped , distance = 4
1. corpse → crpse (delete “o” at 1)
2. crpse → cropse (insert “o” at 2)
3. cropse → croppe (substitution of “p” for “s”)
4. croppe → cropped (insert “d” at the end)
94
95. Damerau–Levenshtein Distance
Perhitungan Distance
Menyatakan banyaknya perbedaan antara 2 data yang
mempunyai panjang karakter atau total anggota yang
mungkin berbeda dengan insertion/deletion/substitution/
transposition.
Contoh: corpse → cropped , distance = 3
1. corpse → cropse (transposition of “or” to “ro”)
2. cropse → croppe (substitution of “p” for “s”)
3. croppe → cropped (insert “d” at the end)
95
98. Pembersihan dan Proses Awal Data
98
Penting memperhatikan
cara memperoleh
data yang akan diolah
Demikian pula
cara mengolah data
juga penting diperhatikan
106. Pembersihan dan Proses Awal Data
Pembersihan data (data cleaning or cleansing) adalah
proses mencari, mendeteksi dan menghilangkan data
palsu, rusak, keliru (tak akurat), atau menyimpang dari
sekumpulan data, tabel atau basis data.
Pembersihan data (data wrangling or munging) adalah
proses transformasi dan memetakan data mentah yang
tercemar (noise, error & irrelevant) dan berantakan
(messy, unstructured & incosistent) menjadi bentuk lain
yang lebih sesuai dan bermanfaat untuk proses
berikutnya
106
109. Pembersihan dan Proses Awal Data
How do I detect and control noise?—Noise Discovering.
How do I clean up the data?—Data Cleaning.
How do I handle missing data?—Missing Data Imputation.
How do I provide accurate data and standard format?—Data Transformation.
How do I incorporate and adjust data?—Data Integration.
How do I unify and scale data?—Data Structure Normalization.
How do I reduce the dimensionality of data?—Feature Selection (FS).
How do I remove redundant and/or conflictive examples?—Instance Selection (IS).
How do I simplify the domain of an attribute?—Discretization.
How do I fill in gaps in data?—Feature Extraction and/or Instance Generation.
109
112. Noise
Untuk objek data, noise merupakan kejanggalan objek data yang
asing dan tak selaras dengan pola umum
Untuk atribut data, noise merupakan perubahan atau penyimpangan
dari nilai sesungguhnya
Contoh: distorsi suara penelepon ketika menggunakan telepon yang rusak, dan
suara lain dari lingkungan yang ikut tertangkap mikrofon.
Gambar di bawah menunjukkan dua gelombang sinus dengan amplitudo sama
namun frekuensi berbeda, gabungan kedua gelombang, dan gabungan kedua
gelombang sinus yang terdistorsi oleh random noise acak.
113. Outliers adalah objek data dengan karakteristik yang
sangat berbeda dari sebagian besar objek data
lainnya dalam dataset
Kasus 1: Outliers menjadi
noise yang mengganggu
analisis data
Kasus 2: Outliers menjadi
tujuan analisis data
➢ Credit card fraud
➢ Intrusion detection
Outliers
114. Missing Values
Latar belakang terjadinya missing values
Informasi tidak dapat diperoleh karena keengganan, penolakan,
kelalaian, kecurigaan atau kerahasiaan (misalnya responden tidak
bersedia menyampaikan usia atau berat badannya)
Atribut data yang tidak mungkin cocok untuk sebagian kasus
(misalnya gaji untuk anak-anak)
Kegagalan alat atau ketidak-sengajaan penghapusan.
Penanganan missing values
Mengeliminasi objek data atau variabel
Mengestimasi missing values
➢Misalnya dengan regresi atau interpolasi
➢Misalnya dengan pencocokan pola pemusatan dari sebaran yang mirip
Mengabaikan missing value selama analisis data
115. Duplicate Data
Dataset mungkin mengandung objek data yang redundansi
atau terduplikasi secara utuh atau sebagian.
Contoh: orang yang sama dengan alamat e-mail berbeda
Pengumpulan data dari beberapa sumber heterogen
mempunyai isu mayor memperoleh duplicate data.
Contoh: data identitas pribadi orang yang sama diperoleh dari
instansi kependudukan dan dari afiliasi pekerjaan
Penanganan duplicate data
Mengeliminasi duplicate data
Mencatat atau merekap frekuensi duplikasi
Mengumpulkan subset data yang menjadi data-child untuk
sebagian data berbeda
116. Operasi Dasar dalam Data Preprocessing
Data cleaning
Fill in missing values, smooth noisy data, identify or remove outliers, and resolve
inconsistencies
Data integration
Integration of multiple databases, data cubes, or files
Data reduction
Dimensionality reduction
Numerosity reduction
Data compression
Data transformation and data discretization
Normalization
Concept hierarchy generation
116