Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 04

PREPARASI DATA:
Pembersihan dan Proses
Awal Data
ARIF RAHMAN
1

3
Godsey, B, Think Like a Data
Scientist: Tackle the Data
Science Process Step-by-Step

5
Cielen, D, Meysman, ADB, & Ali, M,
Introducing Data Science: Big Data,
Machine Learning, and More, Using
Python Tools

Kesalahan dalam
Pengumpulan Data
6

Problem Data
Data yang dikumpulkan dari banyak sumber berbeda
dengan banyak metode akan menyebabkan problem:
Heterogeneity and Diversity, data dengan format
dan struktur yang beragam dan berantakan.
Data Quality, data yang tercemar noise, error, outlier,
missing value, bias, fake data, illegal data dan irrelevant data.
Scale, data yang berskala besar yang membutuhkan upaya
ekstra untuk mengolahnya.
7

Problem Data: Heterogeneity and Diversity
Number
Text
Graph
Image
Audio
Video
Code, encryption,
decryption
Electric current
Radio wave
Light wave
Electromagnetic wave
Magnetic field
Force and energy
Analog or digital signals
8

Problem Data: Data Quality
Accuracy
Completeness
Consistency
Timeliness
Believability
Value added
Interpretability
Accessibility
Erroneousness
Negligence
Erraticism
Obsolescence
Deception
Worthlessness
Obscurity
Impediment
9

Problem Data: Scale
Number of instances (records, objects)
Rule of thumb: 5,000 or more desired
if less, results are less reliable; use special methods (boosting, …)
Number of attributes (fields)
Rule of thumb: for each attribute, 10 or more instances
If more fields, use feature reduction and selection
Number of targets
Rule of thumb: >100 for each class
if very unbalanced, use stratified sampling
10

Kesalahan Pemilihan Sumber Data
Random error : kesalahan sampling karena
sebaran sampel kurang merepresentasikan distribusi
populasi. → abandoned subset of population
Systematic error : kesalahan sampling karena
sampel terkumpul di sebagian populasi yang dibatasi
rentang waktu tertentu atau lokasi tertentu dan
melalaikan sebagian yang lain. → undercoverage
Illegitimate error : kesalahan sampling karena
sampel dari populasi yang berbeda → overcoverage
11

Kesalahan Pemilihan Sumber Data
12

Kesalahan Proses Pengukuran
Random error : kesalahan tak terkendali antar
pengukuran, karena faktor keacakan dari objek ukur,
operator, alat ukur, lingkungan atau noise lainnya.
Systematic error : kesalahan yang berulang dan
membiaskan hasil, karena kegagalan operator atau
alat ukur, kesalahan prosedur, pengaruh lingkungan
Illegitimate error : kesalahan insidental dan
menghasilkan outlier, karena keteledoran, keliru
kalkulasi, atau kesalahan lainnya
13

Kesalahan Proses Pengukuran
14

Kesalahan Konten Data
 Unusual value (outlier), data yang sangat jauh dari kumpulan data utama,
karena illegitimate error pengukuran atau mungkin sampel berasal dari populasi lain
(terdapat faktor yang berbeda).
 Missing value, data relevan yang kurang atau tidak lengkap, karena kealpaan
pengukuran atau pencatatannya, atau sebaran sampel kurang baik.
 Bias, pergeseran data dari nilai yang sebenarnya, karena systematic error
pengukuran.
 Fake data, data palsu, fiktif, manipulasi, dugaan, prediksi.
 Illegal data, data dari sumber yang belum/tidak terpercaya atau bahkan tidak
mempunyai akses pada data.
 Irrelevant data, data yang berbeda atau berubah karena diperoleh dari time frame
yang lain, atau perlakuan yang lain, atau tujuan studi yang lain, atau pendekatan yang
lain, atau faktor-faktor lainnya.
15

Ukuran Sebaran
Ukuran sebaran atau dispersi (a measure of
dispersion) adalah ukuran numerik yang
dipergunakan untuk merepresentasikan penyebaran
satu himpunan data terhadap pemusatannya
Range  Quartile
Variance  Decile
Deviation  Percentile
Standard Deviation  Interquartile range
Mean absolute deviation  Skewness
Coefficient of variation  Kurtosis
22

Range
Rentang (range) adalah ukuran numerik yang
menunjukkan rentang sebaran data mulai data
terkecil hingga data terbesar.
Untuk memperoleh range, harus dicari data terkecil
dan data terbesar terlebih dahulu. Selisih antara data
terkecil dengan data terbesar adalah besaran range.
23

Range
24
min
max x
x
R −
=
Di mana :
R = range
xmax = data terbesar
xmin = data terkecil

Variance
Varians (variance) adalah ukuran numerik dari rata-
rata kuadrat penyimpangan data terhadap ukuran
pemusatan data.
Berdasarkan teorema limit sentral (central limit
theorem), sebagai parameter dari distribusi normal
populasi dinotasikan dengan 2, sedangkan sebagai
statistik sampel dinotasikan dengan s2 dengan derajat
kebebasan (df) = n-1
25

Variance
26
N
x
N
x
x
n
i
i
n

=
−
=
−
+
+
−
=
1
2
2
2
1
2
)
(
)
(
)
(





Di mana :
s2 = variance
͞x = arithmetic mean
xi = data ke-i
i = indeks urutan data
n = banyaknya data
1
)
(
1
)
(
)
(
1
2
2
2
1
2
−
−
=
−
−
+
+
−
=

=
n
x
x
n
x
x
x
x
s
n
i
i
n

Di mana :
2 = variance
 = arithmetic mean
xi = data ke-i
N = banyaknya data
POPULASI SAMPEL

Variance
27
Di mana :
s2 = variance
xi = data ke-i
n = banyaknya data
( )
)
1
(
2
1
1
2
2
−






−
=

 =
=
n
n
x
x
n
s
n
i
i
n
i
i
Variance gabungan beberapa himpunan


=
=
= k
i
i
k
i
i
i
n
s
n
s
1
1
2
2
.

Deviation
Simpangan (deviation) adalah ukuran numerik yang
menunjukkan penyimpangan data terhadap ukuran
pemusatan data
28

Deviation
29
( )
x
x
Deviation i −
=
Di mana :
Deviation
xi = data ke-i

Standard Deviation
Simpangan baku (standard deviation) adalah ukuran
numerik yang menunjukkan penyimpangan data
terhadap ukuran pemusatan data tanpa
memperhatikan arah penyimpangannya.
Dalam formulasi matematis, standard deviation
adalah akar pangkat dua dari variance
30

Standard Deviation
31
2
1
2
2 2
1
)
(
−
−
=
=

=
n
x
x
s
s
n
i
i
Di mana :
s = standard deviation
xi = data ke-i
n = banyaknya data
Di mana :
 = standard deviation
 = arithmetic mean
xi = data ke-i
N = banyaknya data
2
1
2
2 2
)
(
N
x
n
i
i

=
−
=
=



POPULASI SAMPEL

Standard Deviation
32
Di mana :
xi = data ke-i
n = banyaknya data
( )
2
2
1
1
2
)
1
( −






−
=

 =
=
n
n
x
x
n
s
n
i
i
n
i
i

Mean Absolute Deviation
Simpangan absolut (mean absolute deviation) adalah
ukuran numerik yang menunjukkan rata-rata absolut
penyimpangan data terhadap ukuran pemusatan data
33

Mean Absolute Deviation
34
n
x
x
n
x
x
x
x
x
x
MAD
n
i
i
n

=
−
=
−
+
+
−
+
−
=
1
2
1 
Di mana :
MAD= absolute deviation
xi = data ke-i
n = banyaknya data

Coefficient of Variation
Koefisien variasi (coefficient of variation) atau
simpangan baku relatif (relative standard deviation)
adalah ukuran numerik yang menunjukkan rasio
relatif dari standard deviation dibagi arithmetic mean
35

Coefficient of Variation
36
x
s
RSD=
Di mana :
RSD = relative standard deviation

Quartile, Decile & Percentile
Kuartile (quartile), adalah nilai yang membagi
sejumlah data observasi menjadi empat bagian yang
sama.
Desil (decile), adalah nilai yang membagi sejumlah
data observasi menjadi sepuluh bagian yang sama.
Persentil (percentile), adalah nilai yang membagi
sejumlah data observasi menjadi seratus bagian yang
sama.
37

38
%
80
)
(
%;
70
)
(
%;
75
)
(
,
%
30
)
(
%;
20
)
(
%;
25
)
(
,
%
50
)
(
)
(
)
(
)
(
,
8
7
3
8
3
7
3
2
1
3
1
2
50
5
2
50
5
2


















=

=

=

=
=
=
D
x
P
D
x
P
Q
x
P
D
Q
D
D
x
P
D
x
P
Q
x
P
D
Q
D
Me
x
P
P
x
P
D
x
P
Q
x
P
Me
P
D
Q
x1 , x2 , x3 , x4 , x5 , . . . , xn
D1 D2 D3 D4 D5 D6 D7 D8 D9
Q2
Q1 Q3
P1 P99
P50
P5 P10 P25 P75 P90 P95

39
APROKSIMASI
n = banyaknya data observasi
u = urutan data untuk aproksimasi
uB = pembulatan ke bawah urutan data
uA = pembulatan ke atas urutan data
Penentuan aproksimasi besaran u
Median ➔ u = (n+1)/2
Qi ➔ u = i.(n+1)/4
Di ➔ u = i.(n+1)/10
Pi ➔ u = i.(n+1)/100
Interpolasi aproksimasi
Approximation = xUB +
(u – uB)
. (xUA – xUB)
1

Interquartile Range
Rentang antar kuartil (interquartile range) adalah
ukuran numerik yang menunjukkan rentang sebaran
data antara kuartil 1 hingga kuartil 3.
Rentang semi antar kuartil (semi-interquartile range)
adalah setengah dari rentang antar kuartil
40

Interquartile Range
41
)
(
. 1
3
2
1
2
1
1
3
Q
Q
IQR
SIQR
Q
Q
IQR
−
=
=
−
=
Di mana :
IQR= intequartile range
SIQR= semi-intequartile range
Q1 = kuartil ke-1
Q3 = kuartil ke-3

Midhinge
42
)
(
2
3
1
2
1
3
1
Q
Q
Q
Q
Midhinge +
=
+
=
Di mana :
Midhinge= midpoint between the first and third quartiles
Q1 = kuartil ke-1
Q3 = kuartil ke-3

Quartile Coefficient Of Dispersion
43
( )
( )
3
1
2
1
1
3
2
1
.
.
Q
Q
Q
Q
QCD
Midhinge
SIQR
QCD
+
−
=
=
Di mana :
QCD= Quartile coefficient of dispersion
SIQR= semi-intequartile range
Midhinge= midpoint between the first and third quartiles
Q1 = kuartil ke-1
Q3 = kuartil ke-3

Percentile Range
Rentang persentil (percentile range) adalah ukuran
numerik yang menunjukkan rentang sebaran data
antara persentil 10 hingga persentil 90.
44

Percentile Range
45
10
90 P
P
PR −
=
Di mana :
PR= percentile range
P10 = persentil ke-10
P90 = persentil ke-90

Skewness
Kemiringan atau kemenjuluran (skewness) adalah
ukuran numerik yang menunjukkan derajat
ketidaksimetrian distribusi atau kecondongan miring
kurva distribusi, karena ketiga ukuran pemusatan
(mean, median, mode) tidak berimpit.
46

Skewness
47
( )
( )
( )
( )
3
1
2
1
3
3
2
3
1
1
1
.
3








−
−
−
=
=
−
=
−
=


=
=
n
i
i
n
i
i
x
x
n
x
x
n
s
m
s
Me
x
s
Mo
x
skewness
Mo
Me
͞x Mo Me ͞x
͞x
Skewness = 0 Skewness > 0
Skewness < 0
Positive or right skew
Mo
Me
Symmetric
Negative or left skew
Di mana :
Mo= mode
Me= median
m3 = 3-rd moment function
s2 = variance

Kurtosis
Keruncingan (kurtosis) adalah ukuran numerik yang
menunjukkan derajat kecuraman puncak distribusi
dan biasanya relatif terhadap distribusi normal.
48

Kurtosis
49
( )
( )
( )
( )
4
1
2
1
4
4
2
4
10
90
1
3
2
1
1
1
1
.








−
−
−
=
=
−
−
=


=
=
n
i
i
n
i
i
x
x
n
x
x
n
s
m
P
P
Q
Q
kurtosis
Di mana :
Q = quartile
P = percentile
m4 = 4-th moment function
s2 = variance
Leptokurtik Mesokurtik Platikurtik
Kurtosis > 0,263 Kurtosis = 0,263 Kurtosis < 0,263
Runcing Normal Landai
➔ Normal = 0,263
➔ Normal = 3

Ukuran Jarak Sebaran
Pada data univariate, jarak sebaran cukup dihitung
berdasarkan selisih antara dua titik data. Terkadang
salah satu titik adalah titik rujukan (reference point),
misalnya nilai rata-rata aritmetika.
Pada data bivariate atau multivariate, terdapat
beberapa cara menghitung jarak antara dua titik data.
50

Ukuran Jarak Sebaran
 Beberapa cara menghitung distance atau jarak dua titik data:
 Euclidean / Pythagorean / Straight-line / L2 Distance
 Rectilinear / Manhattan / Cityblock / Taxicab / Snake / L1 Distance
 Chebyshev / Chessboard / Maximum / L∞ Distance
 Minkowski Distance
 Canberra Distance
 Mahalanobis Distance
 Cosine Distance
 Haversine / Spherical / Great-Circle / Orthodromic Distance
 Jaccard / Tanimoto / Critical Success Index
 Sorensen-Dice Coefficient
 Lee / Mannheim Distance
 Hamming Distance
 Jaro-Winkler Distance
 Levenshtein Distance
 Damerau-Levenshtein Distance
51

Properti Umum Distance / Jarak
 Distance atau jarak sebaran antara titik x dan y
mempunyai beberapa properti umum, yakni:
1. d(x, y)  0 memenuhi sifat nonnegativity untuk semua
titik data x dan y
2. d(x, y) = 0 akan bersifat similar jika dan hanya jika
kedua titik data berimpit di lokasi yang sama, x = y.
3. d(x, y) = d(y, x) memenuhi sifat symmetry untuk
semua titik data x dan y
4. d(x, z)  d(x, y) + d(y, z) memenuhi sifat triangle
inequality untuk semua titik data x, y, and z.
53

Fungsi Distance dalam scipy
54

55

Euclidean Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
56
( )

=
−
=
n
k
k
k q
p
q
p
d
1
2
)
,
(

Euclidean Distance
57
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
p1 p2 p3 p4
p1 0 2,828 3,162 5,099
p2 2,828 0 1,414 3,162
p3 3,162 1,414 0 2
p4 5,099 3,162 2 0

Euclidean Distance
Di mana:
p, q : dua titik yang dicari jaraknya berkoordinat polar
rp, rq : radius koordinat polar dari masing-masing titik
θp, θq : sudut koordinat polar dari masing-masing titik
58
|)
cos(|
2
)
,
( 2
2
q
p
q
p
q
p r
r
r
r
q
p
d 
 −
−
+
=

Euclidean Distance
59
Distance Matrix
point r θ
p1 2 90
o
p2 2 0
o
p3 3,162 18,435
o
p4 5,099 11,310
o
Polar Coordinate
p1 p2 p3 p4
p1 0 2,828 3,162 5,099
p2 2,828 0 1,414 3,162
p3 3,162 1,414 0 2
p4 5,099 3,162 2 0

Rectilinear Distance
Di mana:
60

=
−
=
n
k
k
k q
p
q
p
d
1
)
,
(

Rectilinear Distance
61
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0

Chebyshev Distance
Di mana:
62
 
k
k
n
k
q
p
q
p
d −
=

max
)
,
(

Chebyshev Distance
63
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0

Minkowski Distance
Di mana:
r : parameter Minkowski inequality
64
r
n
k
r
k
k q
p
q
p
d 
=
−
=
1
)
,
(

Minkowski Distance
66
 r = 1. Rectilinear distance.
 r = 2. Euclidean distance
 r → . Chebyshev distance.
 Do not confuse r with n, i.e., all these distances are defined for all
numbers of dimensions.

Minkowski Distance
67
Distance Matrix (r=3)
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
p1 p2 p3 p4
p1 0 2,520 3,037 5,013
p2 2,520 0 1,260 3,037
p3 3,037 1,260 0 2
p4 5,013 3,037 2 0

Canberra Distance
Di mana:
68

= +
−
=
n
k k
k
k
k
q
p
q
p
q
p
d
1
)
,
(

Canberra Distance
69
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
p1 p2 p3 p4
p1 0 2 1,333 1,333
p2 2 0 1,2 1,429
p3 1,333 1,2 0 0,25
p4 1,333 1,429 0,25 0

Mahalanobis Distance
Di mana:
p, q : dua titik yang dicari jaraknya sebagai vektor
T : transpose matriks
Σ-1 : invers matriks kovarians
Euclidean distance adalah kasus khusus Mahalanobis distance dengan
matriks identitas sebagai matriks kovarians.
70
( ) ( )
p
q
p
q
q
p
d
T
−

−
= −1
)
,
(

71
Matrix of
overall data
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1












=
1
5
1
3
0
2
2
0
P
Mean Matrix    
1
5
.
2
1
5
1
3
0
2
2
0
1
1
1
1
4
1
=












=
P
Deviation Matrix












−
−
−
=












−












=
0
5
.
2
0
5
.
0
1
5
.
0
1
5
.
2
1
5
.
2
1
5
.
2
1
5
.
2
1
5
.
2
1
5
1
3
0
2
2
0
D

72
Covariance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1






−
−
=












−
−
−






−
−
−
−
=

667
.
0
667
.
0
667
.
0
333
.
4
0
5
.
2
0
5
.
0
1
5
.
0
1
5
.
2
0
0
1
1
5
.
2
5
.
0
5
.
0
5
.
2
1
4
1
Inverse of Covariance Matrix






=
−
773
.
1
273
.
0
273
.
0
273
.
0
1

73
Distance of p1 to p2
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
 
  449
.
2
6
2
2
3
0
)
2
0
(
)
0
2
(
773
.
1
273
.
0
273
.
0
273
.
0
)
2
0
(
)
0
2
(
)
2
,
1
(
=
=






−
−
=






−
−






−
−
=
p
p
d

74
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
p1 p2 p3 p4
p1 0 2,449 1,610 2,421
p2 2,449 0 1,610 2,421
p3 1,610 1,610 0 1,044
p4 2,421 2,421 1,044 0

Cosine Distance
Di mana:
p, q : dua titik yang dicari jaraknya sebagai vektor
θ : sudut yang terbentuk antara vektor p dan q
• : perkalian dot antar vektor
|| || : besar vektor
75



=
=
=

=
•
=
=
n
k
k
n
k
k
n
k
k
k
q
p
q
p
q
p
q
p
q
p
d
1
2
1
2
1
)
(
)
cos(
)
,
( 

Cosine Distance
76
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
0
0
2
2
0
)
0
2
(
)
2
0
(
0
2
2
0
0
2
2
0
)
2
,
1
(
2
2
2
2
=
+

+

+

=






•






=
p
p
d
316
.
0
1
3
2
0
)
1
2
(
)
3
0
(
1
3
2
0
1
3
2
0
)
3
,
1
(
2
2
2
2
=
+

+

+

=






•






=
p
p
d

Cosine Distance
77
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
p1 p2 p3 p4
p1 0 0 0,316 0,196
p2 0 0 0,949 0,981
p3 0,316 0,949 0 0,992
p4 0,196 0,981 0,992 0

Haversine Distance
Di mana:
p, q : dua titik yang dicari jaraknya di bola berradius r
ϕ1, ϕ2: sudut latitude dari titik p dan q
λ1, λ2 : sudut longitude dari titik p dan q
78
( ) ( ) 






 −
+







 −
=
2
sin
cos
cos
2
sin
arcsin(
.
2
)
,
( 1
2
2
2
1
1
2
2 





r
q
p
d

Similarity dan Dissimilarity
Ukuran Similarity
Ukuran numerik kuantifikasi seberapa mirip antara dua objek data.
Semakin tinggi jika kedua objek data semakin mirip.
Seringkali menggunakan bilangan nyata rentang antara 0 dan 1
Ukuran Dissimilarity
Ukuran numerik kuantifikasi seberapa berbeda antara dua objek
data.
Semakin rendah jika kedua objek data semakin mirip
Seringkali menggunakan bilangan nyata rentang antara 0 dan 1
Proximity mengindikasikan similarity atau dissimilarity
79

Similarity dan Dissimilarity
Tabel berikut menunjukkan similarity dan dissimilarity antara
dua objek data, x and y, dengan atribut tunggal dan
sederhana.
80

Properti Umum Similarity
 Similarity antara dua objek data, x dan y ,
mempunyai beberapa properti umum, yakni:
1. s(x, y) = 1 (or maximum similarity) only if x = y.
2. s(x, y) = s(y, x) for all x and y. (Symmetry)
where s(x, y) is the similarity between points (data objects), x and y.
`
81

82

Simple Matching Coefficient
Di mana:
A, B : dua dataset yang dicari jaraknya sebagai space
 : irisan atau intersection
 : gabungan atau union
| | : besar dataset
83
)
,
(
1
)
,
(
)
,
(
1
B
A
SMC
B
A
d
U
B
A
B
A
B
A
SMC
−
=

+

=
−

Jaccard Index
Di mana:
 : gabungan atau union
| | : besar dataset
84
)
,
(
1
)
,
(
)
,
(
)
,
(
2
2
B
A
J
B
A
d
B
A
B
A
B
A
B
A
J
B
A
B
A
B
A
B
A
B
A
B
A
J
−
=
•
−
+
•
=

−
+

=


=

Sorensen-Dice Index
Di mana:
| | : besar dataset
86
)
,
(
1
)
,
(
2
)
,
(
2
)
,
(
2
2
B
A
DSC
B
A
d
B
A
B
A
B
A
DSC
B
A
B
A
B
A
DSC
−
=
+
•
=
+

=

87
a
b c
a
b c
a
b c
a
b c
a
b c
a+b
a
b c
a+c
d
d

Lee Distance
Contoh:
88
 

=
−
−
−
=
n
k
k
k
k
k p
q
m
p
q
q
p
d
1
;
min
)
,
(
|2-3|
6-|5-1|
|4-4| |3-0|

Edit Distance
The edit distance d(a, b) is the minimum-weight series
of edit operations that transforms a into b.
edit operations:
 Insertion of a single symbol. If a = uv, then inserting the symbol x produces uxv.
This can also be denoted ε→x, using ε to denote the empty string.
 Deletion of a single symbol changes uxv to uv (x→ε).
 Substitution of a single symbol x for a symbol y ≠ x changes uxv to uyv (x→y).
 Transposition of two adjacent characters, formally characterized by an operation that
changes uxyv into uyxv
 Merge operation replaces a pair of characters with a single character, changes uxxv
to uxv (xx→x)
 Split operation replaces a single character into a pair of them, changes uxv to uxxv
(x→xx)
89

Hamming Distance
Menyatakan banyaknya anggota yang berbeda antara 2
data yang mempunyai kesamaan panjang karakter atau
total anggota dengan operasi subtitution.
Contoh:
90

Jaro-Winkler Distance
Menyatakan banyaknya perbedaan antara 2 data yang
mempunyai panjang karakter atau total anggota yang
mungkin berbeda termasuk dengan transposition.
91

Jaro-Winkler Distance
Contoh:
▪ “cat and “act”
▪ similarity = 1/3 (3/3 + 3/3 + (3-1) /3) = 8/9 = 0,889
▪ distance = 1 – 0,889 = 0,111
▪ “from” and “form”
▪ similarity = 1/3 (4/4 + 4/4 + (4-1) /4) = 11/12 = 0,917
▪ distance = 1 – 0,917 = 0,083
▪ “angle” and “angel”
▪ similarity = 1/3 (5/5 + 5/5 + (5-1) /5) = 14/15 = 0,917
▪ distance = 1 – 0,917 = 0,083
▪ “trial” and “trail”
▪ similarity = 1/3 (5/5 + 5/5 + (5-1) /5) = 14/15 = 0,933
▪ distance = 1 – 0,933 = 0,067
▪ “blade” and “baled”
▪ similarity = 1/3 (5/5 + 5/5 + (5-2) /5) = 13/15 = 0,867
▪ distance = 1 – 0,867 = 0,133
▪ “interpret” and “entrepreneur”
▪ similarity = 1/3 (7/9 + 7/12 + (7-1) /7) = 559/756 = 0,739
▪ distance = 1 – 0,739 = 0,261
92

Longest Common Subsequence (LCS) Distance
mungkin berbeda dengan insertion/deletion.
Contoh: corpse → cropped , distance = 5
1. corpse → crpse (delete “o” at 1)
2. crpse → cropse (insert “o” at 2)
3. cropse → crope (delete “s” at 4)
4. crope → croppe (insert “p” at 4)
5. croppe → cropped (insert “d” at 6)
93

Levenshtein Distance
mungkin berbeda dengan insertion/deletion/substitution.
1. corpse → crpse (delete “o” at 1)
2. crpse → cropse (insert “o” at 2)
3. cropse → croppe (substitution of “p” for “s”)
4. croppe → cropped (insert “d” at the end)
94

Damerau–Levenshtein Distance
mungkin berbeda dengan insertion/deletion/substitution/
transposition.
1. corpse → cropse (transposition of “or” to “ro”)
2. cropse → croppe (substitution of “p” for “s”)
3. croppe → cropped (insert “d” at the end)
95

Pembersihan Data
(Data Cleansing) dan
Proses Awal Data
(Data Preprocessing)
96

Pembersihan dan Proses Awal Data
97

98
Penting memperhatikan
cara memperoleh
data yang akan diolah
Demikian pula
cara mengolah data
juga penting diperhatikan

100

101

102

Pembersihan data (data cleaning or cleansing) adalah
proses mencari, mendeteksi dan menghilangkan data
palsu, rusak, keliru (tak akurat), atau menyimpang dari
sekumpulan data, tabel atau basis data.
Pembersihan data (data wrangling or munging) adalah
proses transformasi dan memetakan data mentah yang
tercemar (noise, error & irrelevant) dan berantakan
(messy, unstructured & incosistent) menjadi bentuk lain
yang lebih sesuai dan bermanfaat untuk proses
berikutnya
106

 How do I detect and control noise?—Noise Discovering.
 How do I clean up the data?—Data Cleaning.
 How do I handle missing data?—Missing Data Imputation.
 How do I provide accurate data and standard format?—Data Transformation.
 How do I incorporate and adjust data?—Data Integration.
 How do I unify and scale data?—Data Structure Normalization.
 How do I reduce the dimensionality of data?—Feature Selection (FS).
 How do I remove redundant and/or conflictive examples?—Instance Selection (IS).
 How do I simplify the domain of an attribute?—Discretization.
 How do I fill in gaps in data?—Feature Extraction and/or Instance Generation.
109

110

Problem Kualitas Data
Noise and outliers
Wrong data
Fake data
Missing values
Duplicate data

Noise
 Untuk objek data, noise merupakan kejanggalan objek data yang
asing dan tak selaras dengan pola umum
 Untuk atribut data, noise merupakan perubahan atau penyimpangan
dari nilai sesungguhnya
 Contoh: distorsi suara penelepon ketika menggunakan telepon yang rusak, dan
suara lain dari lingkungan yang ikut tertangkap mikrofon.
 Gambar di bawah menunjukkan dua gelombang sinus dengan amplitudo sama
namun frekuensi berbeda, gabungan kedua gelombang, dan gabungan kedua
gelombang sinus yang terdistorsi oleh random noise acak.

Outliers adalah objek data dengan karakteristik yang
sangat berbeda dari sebagian besar objek data
lainnya dalam dataset
Kasus 1: Outliers menjadi
noise yang mengganggu
analisis data
Kasus 2: Outliers menjadi
tujuan analisis data
➢ Credit card fraud
➢ Intrusion detection
Outliers

Missing Values
Latar belakang terjadinya missing values
Informasi tidak dapat diperoleh karena keengganan, penolakan,
kelalaian, kecurigaan atau kerahasiaan (misalnya responden tidak
bersedia menyampaikan usia atau berat badannya)
Atribut data yang tidak mungkin cocok untuk sebagian kasus
(misalnya gaji untuk anak-anak)
Kegagalan alat atau ketidak-sengajaan penghapusan.
Penanganan missing values
Mengeliminasi objek data atau variabel
Mengestimasi missing values
➢Misalnya dengan regresi atau interpolasi
➢Misalnya dengan pencocokan pola pemusatan dari sebaran yang mirip
Mengabaikan missing value selama analisis data

Duplicate Data
Dataset mungkin mengandung objek data yang redundansi
atau terduplikasi secara utuh atau sebagian.
Contoh: orang yang sama dengan alamat e-mail berbeda
Pengumpulan data dari beberapa sumber heterogen
mempunyai isu mayor memperoleh duplicate data.
Contoh: data identitas pribadi orang yang sama diperoleh dari
instansi kependudukan dan dari afiliasi pekerjaan
Penanganan duplicate data
Mengeliminasi duplicate data
Mencatat atau merekap frekuensi duplikasi
Mengumpulkan subset data yang menjadi data-child untuk
sebagian data berbeda

Operasi Dasar dalam Data Preprocessing
 Data cleaning
 Fill in missing values, smooth noisy data, identify or remove outliers, and resolve
inconsistencies
 Data integration
 Integration of multiple databases, data cubes, or files
 Data reduction
 Dimensionality reduction
 Numerosity reduction
 Data compression
 Data transformation and data discretization
 Normalization
 Concept hierarchy generation
116

117
Terima kasih ...
... Ada pertanyaan ???

Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 04

Recommended

Recommended

More Related Content

Similar to Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 04

Similar to Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 04 (20)

More from Arif Rahman

More from Arif Rahman (20)

Recently uploaded

Recently uploaded (9)

Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 04