SlideShare a Scribd company logo
1 of 117
Download to read offline
PREPARASI DATA:
Pembersihan dan Proses
Awal Data
ARIF RAHMAN
1
2
3
Godsey, B, Think Like a Data
Scientist: Tackle the Data
Science Process Step-by-Step
4
5
Cielen, D, Meysman, ADB, & Ali, M,
Introducing Data Science: Big Data,
Machine Learning, and More, Using
Python Tools
Kesalahan dalam
Pengumpulan Data
6
Problem Data
Data yang dikumpulkan dari banyak sumber berbeda
dengan banyak metode akan menyebabkan problem:
Heterogeneity and Diversity, data dengan format
dan struktur yang beragam dan berantakan.
Data Quality, data yang tercemar noise, error, outlier,
missing value, bias, fake data, illegal data dan irrelevant data.
Scale, data yang berskala besar yang membutuhkan upaya
ekstra untuk mengolahnya.
7
Problem Data: Heterogeneity and Diversity
Number
Text
Graph
Image
Audio
Video
Code, encryption,
decryption
Electric current
Radio wave
Light wave
Electromagnetic wave
Magnetic field
Force and energy
Analog or digital signals
8
Problem Data: Data Quality
Accuracy
Completeness
Consistency
Timeliness
Believability
Value added
Interpretability
Accessibility
Erroneousness
Negligence
Erraticism
Obsolescence
Deception
Worthlessness
Obscurity
Impediment
9
Problem Data: Scale
Number of instances (records, objects)
Rule of thumb: 5,000 or more desired
if less, results are less reliable; use special methods (boosting, …)
Number of attributes (fields)
Rule of thumb: for each attribute, 10 or more instances
If more fields, use feature reduction and selection
Number of targets
Rule of thumb: >100 for each class
if very unbalanced, use stratified sampling
10
Kesalahan Pemilihan Sumber Data
Random error : kesalahan sampling karena
sebaran sampel kurang merepresentasikan distribusi
populasi. → abandoned subset of population
Systematic error : kesalahan sampling karena
sampel terkumpul di sebagian populasi yang dibatasi
rentang waktu tertentu atau lokasi tertentu dan
melalaikan sebagian yang lain. → undercoverage
Illegitimate error : kesalahan sampling karena
sampel dari populasi yang berbeda → overcoverage
11
Kesalahan Pemilihan Sumber Data
12
Kesalahan Proses Pengukuran
Random error : kesalahan tak terkendali antar
pengukuran, karena faktor keacakan dari objek ukur,
operator, alat ukur, lingkungan atau noise lainnya.
Systematic error : kesalahan yang berulang dan
membiaskan hasil, karena kegagalan operator atau
alat ukur, kesalahan prosedur, pengaruh lingkungan
Illegitimate error : kesalahan insidental dan
menghasilkan outlier, karena keteledoran, keliru
kalkulasi, atau kesalahan lainnya
13
Kesalahan Proses Pengukuran
14
Kesalahan Konten Data
 Unusual value (outlier), data yang sangat jauh dari kumpulan data utama,
karena illegitimate error pengukuran atau mungkin sampel berasal dari populasi lain
(terdapat faktor yang berbeda).
 Missing value, data relevan yang kurang atau tidak lengkap, karena kealpaan
pengukuran atau pencatatannya, atau sebaran sampel kurang baik.
 Bias, pergeseran data dari nilai yang sebenarnya, karena systematic error
pengukuran.
 Fake data, data palsu, fiktif, manipulasi, dugaan, prediksi.
 Illegal data, data dari sumber yang belum/tidak terpercaya atau bahkan tidak
mempunyai akses pada data.
 Irrelevant data, data yang berbeda atau berubah karena diperoleh dari time frame
yang lain, atau perlakuan yang lain, atau tujuan studi yang lain, atau pendekatan yang
lain, atau faktor-faktor lainnya.
15
Kesalahan Konten Data
16
Kesalahan Konten Data
17
Kesalahan Konten Data
18
Kesalahan Konten Data
19
Kesalahan Konten Data
20
Ukuran Jarak
Sebaran Data
21
Ukuran Sebaran
Ukuran sebaran atau dispersi (a measure of
dispersion) adalah ukuran numerik yang
dipergunakan untuk merepresentasikan penyebaran
satu himpunan data terhadap pemusatannya
Range  Quartile
Variance  Decile
Deviation  Percentile
Standard Deviation  Interquartile range
Mean absolute deviation  Skewness
Coefficient of variation  Kurtosis
22
Range
Rentang (range) adalah ukuran numerik yang
menunjukkan rentang sebaran data mulai data
terkecil hingga data terbesar.
Untuk memperoleh range, harus dicari data terkecil
dan data terbesar terlebih dahulu. Selisih antara data
terkecil dengan data terbesar adalah besaran range.
23
Range
24
min
max x
x
R −
=
Di mana :
R = range
xmax = data terbesar
xmin = data terkecil
Variance
Varians (variance) adalah ukuran numerik dari rata-
rata kuadrat penyimpangan data terhadap ukuran
pemusatan data.
Berdasarkan teorema limit sentral (central limit
theorem), sebagai parameter dari distribusi normal
populasi dinotasikan dengan 2, sedangkan sebagai
statistik sampel dinotasikan dengan s2 dengan derajat
kebebasan (df) = n-1
25
Variance
26
N
x
N
x
x
n
i
i
n

=
−
=
−
+
+
−
=
1
2
2
2
1
2
)
(
)
(
)
(





Di mana :
s2 = variance
͞x = arithmetic mean
xi = data ke-i
i = indeks urutan data
n = banyaknya data
1
)
(
1
)
(
)
(
1
2
2
2
1
2
−
−
=
−
−
+
+
−
=

=
n
x
x
n
x
x
x
x
s
n
i
i
n

Di mana :
2 = variance
 = arithmetic mean
xi = data ke-i
i = indeks urutan data
N = banyaknya data
POPULASI SAMPEL
Variance
27
Di mana :
s2 = variance
xi = data ke-i
i = indeks urutan data
n = banyaknya data
( )
)
1
(
2
1
1
2
2
−






−
=

 =
=
n
n
x
x
n
s
n
i
i
n
i
i
Variance gabungan beberapa himpunan


=
=
= k
i
i
k
i
i
i
n
s
n
s
1
1
2
2
.
Deviation
Simpangan (deviation) adalah ukuran numerik yang
menunjukkan penyimpangan data terhadap ukuran
pemusatan data
28
Deviation
29
( )
x
x
Deviation i −
=
Di mana :
Deviation
͞x = arithmetic mean
xi = data ke-i
i = indeks urutan data
Standard Deviation
Simpangan baku (standard deviation) adalah ukuran
numerik yang menunjukkan penyimpangan data
terhadap ukuran pemusatan data tanpa
memperhatikan arah penyimpangannya.
Dalam formulasi matematis, standard deviation
adalah akar pangkat dua dari variance
30
Standard Deviation
31
2
1
2
2 2
1
)
(
−
−
=
=

=
n
x
x
s
s
n
i
i
Di mana :
s = standard deviation
͞x = arithmetic mean
xi = data ke-i
i = indeks urutan data
n = banyaknya data
Di mana :
 = standard deviation
 = arithmetic mean
xi = data ke-i
i = indeks urutan data
N = banyaknya data
2
1
2
2 2
)
(
N
x
n
i
i

=
−
=
=



POPULASI SAMPEL
Standard Deviation
32
Di mana :
s = standard deviation
xi = data ke-i
i = indeks urutan data
n = banyaknya data
( )
2
2
1
1
2
)
1
( −






−
=

 =
=
n
n
x
x
n
s
n
i
i
n
i
i
Mean Absolute Deviation
Simpangan absolut (mean absolute deviation) adalah
ukuran numerik yang menunjukkan rata-rata absolut
penyimpangan data terhadap ukuran pemusatan data
33
Mean Absolute Deviation
34
n
x
x
n
x
x
x
x
x
x
MAD
n
i
i
n

=
−
=
−
+
+
−
+
−
=
1
2
1 
Di mana :
MAD= absolute deviation
͞x = arithmetic mean
xi = data ke-i
i = indeks urutan data
n = banyaknya data
Coefficient of Variation
Koefisien variasi (coefficient of variation) atau
simpangan baku relatif (relative standard deviation)
adalah ukuran numerik yang menunjukkan rasio
relatif dari standard deviation dibagi arithmetic mean
35
Coefficient of Variation
36
x
s
RSD=
Di mana :
RSD = relative standard deviation
͞x = arithmetic mean
s = standard deviation
Quartile, Decile & Percentile
Kuartile (quartile), adalah nilai yang membagi
sejumlah data observasi menjadi empat bagian yang
sama.
Desil (decile), adalah nilai yang membagi sejumlah
data observasi menjadi sepuluh bagian yang sama.
Persentil (percentile), adalah nilai yang membagi
sejumlah data observasi menjadi seratus bagian yang
sama.
37
Quartile, Decile & Percentile
38
%
80
)
(
%;
70
)
(
%;
75
)
(
,
%
30
)
(
%;
20
)
(
%;
25
)
(
,
%
50
)
(
)
(
)
(
)
(
,
8
7
3
8
3
7
3
2
1
3
1
2
50
5
2
50
5
2


















=

=

=

=
=
=
D
x
P
D
x
P
Q
x
P
D
Q
D
D
x
P
D
x
P
Q
x
P
D
Q
D
Me
x
P
P
x
P
D
x
P
Q
x
P
Me
P
D
Q
x1 , x2 , x3 , x4 , x5 , . . . , xn
D1 D2 D3 D4 D5 D6 D7 D8 D9
Q2
Q1 Q3
P1 P99
P50
P5 P10 P25 P75 P90 P95
Quartile, Decile & Percentile
39
APROKSIMASI
n = banyaknya data observasi
u = urutan data untuk aproksimasi
uB = pembulatan ke bawah urutan data
uA = pembulatan ke atas urutan data
Penentuan aproksimasi besaran u
Median ➔ u = (n+1)/2
Qi ➔ u = i.(n+1)/4
Di ➔ u = i.(n+1)/10
Pi ➔ u = i.(n+1)/100
Interpolasi aproksimasi
Approximation = xUB +
(u – uB)
. (xUA – xUB)
1
Interquartile Range
Rentang antar kuartil (interquartile range) adalah
ukuran numerik yang menunjukkan rentang sebaran
data antara kuartil 1 hingga kuartil 3.
Rentang semi antar kuartil (semi-interquartile range)
adalah setengah dari rentang antar kuartil
40
Interquartile Range
41
)
(
. 1
3
2
1
2
1
1
3
Q
Q
IQR
SIQR
Q
Q
IQR
−
=
=
−
=
Di mana :
IQR= intequartile range
SIQR= semi-intequartile range
Q1 = kuartil ke-1
Q3 = kuartil ke-3
Midhinge
42
)
(
2
3
1
2
1
3
1
Q
Q
Q
Q
Midhinge +
=
+
=
Di mana :
Midhinge= midpoint between the first and third quartiles
Q1 = kuartil ke-1
Q3 = kuartil ke-3
Quartile Coefficient Of Dispersion
43
( )
( )
3
1
2
1
1
3
2
1
.
.
Q
Q
Q
Q
QCD
Midhinge
SIQR
QCD
+
−
=
=
Di mana :
QCD= Quartile coefficient of dispersion
SIQR= semi-intequartile range
Midhinge= midpoint between the first and third quartiles
Q1 = kuartil ke-1
Q3 = kuartil ke-3
Percentile Range
Rentang persentil (percentile range) adalah ukuran
numerik yang menunjukkan rentang sebaran data
antara persentil 10 hingga persentil 90.
44
Percentile Range
45
10
90 P
P
PR −
=
Di mana :
PR= percentile range
P10 = persentil ke-10
P90 = persentil ke-90
Skewness
Kemiringan atau kemenjuluran (skewness) adalah
ukuran numerik yang menunjukkan derajat
ketidaksimetrian distribusi atau kecondongan miring
kurva distribusi, karena ketiga ukuran pemusatan
(mean, median, mode) tidak berimpit.
46
Skewness
47
( )
( )
( )
( )
3
1
2
1
3
3
2
3
1
1
1
.
3








−
−
−
=
=
−
=
−
=


=
=
n
i
i
n
i
i
x
x
n
x
x
n
s
m
s
Me
x
s
Mo
x
skewness
Mo
Me
͞x Mo Me ͞x
͞x
Skewness = 0 Skewness > 0
Skewness < 0
Positive or right skew
Mo
Me
Symmetric
Negative or left skew
Di mana :
͞x = arithmetic mean
Mo= mode
Me= median
m3 = 3-rd moment function
s2 = variance
Kurtosis
Keruncingan (kurtosis) adalah ukuran numerik yang
menunjukkan derajat kecuraman puncak distribusi
dan biasanya relatif terhadap distribusi normal.
48
Kurtosis
49
( )
( )
( )
( )
4
1
2
1
4
4
2
4
10
90
1
3
2
1
1
1
1
.








−
−
−
=
=
−
−
=


=
=
n
i
i
n
i
i
x
x
n
x
x
n
s
m
P
P
Q
Q
kurtosis
Di mana :
Q = quartile
P = percentile
m4 = 4-th moment function
s2 = variance
Leptokurtik Mesokurtik Platikurtik
Kurtosis > 0,263 Kurtosis = 0,263 Kurtosis < 0,263
Runcing Normal Landai
➔ Normal = 0,263
➔ Normal = 3
Ukuran Jarak Sebaran
Pada data univariate, jarak sebaran cukup dihitung
berdasarkan selisih antara dua titik data. Terkadang
salah satu titik adalah titik rujukan (reference point),
misalnya nilai rata-rata aritmetika.
Pada data bivariate atau multivariate, terdapat
beberapa cara menghitung jarak antara dua titik data.
50
Ukuran Jarak Sebaran
 Beberapa cara menghitung distance atau jarak dua titik data:
 Euclidean / Pythagorean / Straight-line / L2 Distance
 Rectilinear / Manhattan / Cityblock / Taxicab / Snake / L1 Distance
 Chebyshev / Chessboard / Maximum / L∞ Distance
 Minkowski Distance
 Canberra Distance
 Mahalanobis Distance
 Cosine Distance
 Haversine / Spherical / Great-Circle / Orthodromic Distance
 Jaccard / Tanimoto / Critical Success Index
 Sorensen-Dice Coefficient
 Lee / Mannheim Distance
 Hamming Distance
 Jaro-Winkler Distance
 Levenshtein Distance
 Damerau-Levenshtein Distance
51
52
Properti Umum Distance / Jarak
 Distance atau jarak sebaran antara titik x dan y
mempunyai beberapa properti umum, yakni:
1. d(x, y)  0 memenuhi sifat nonnegativity untuk semua
titik data x dan y
2. d(x, y) = 0 akan bersifat similar jika dan hanya jika
kedua titik data berimpit di lokasi yang sama, x = y.
3. d(x, y) = d(y, x) memenuhi sifat symmetry untuk
semua titik data x dan y
4. d(x, z)  d(x, y) + d(y, z) memenuhi sifat triangle
inequality untuk semua titik data x, y, and z.
53
Fungsi Distance dalam scipy
54
Fungsi Distance dalam scipy
55
Euclidean Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
56
( )

=
−
=
n
k
k
k q
p
q
p
d
1
2
)
,
(
Euclidean Distance
57
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
p1 p2 p3 p4
p1 0 2,828 3,162 5,099
p2 2,828 0 1,414 3,162
p3 3,162 1,414 0 2
p4 5,099 3,162 2 0
Euclidean Distance
Perhitungan Distance
Di mana:
p, q : dua titik yang dicari jaraknya berkoordinat polar
rp, rq : radius koordinat polar dari masing-masing titik
θp, θq : sudut koordinat polar dari masing-masing titik
58
|)
cos(|
2
)
,
( 2
2
q
p
q
p
q
p r
r
r
r
q
p
d 
 −
−
+
=
Euclidean Distance
59
Distance Matrix
point r θ
p1 2 90
o
p2 2 0
o
p3 3,162 18,435
o
p4 5,099 11,310
o
Polar Coordinate
p1 p2 p3 p4
p1 0 2,828 3,162 5,099
p2 2,828 0 1,414 3,162
p3 3,162 1,414 0 2
p4 5,099 3,162 2 0
Rectilinear Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
60

=
−
=
n
k
k
k q
p
q
p
d
1
)
,
(
Rectilinear Distance
61
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0
Chebyshev Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
62
 
k
k
n
k
q
p
q
p
d −
=

max
)
,
(
Chebyshev Distance
63
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0
Minkowski Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
r : parameter Minkowski inequality
64
r
n
k
r
k
k q
p
q
p
d 
=
−
=
1
)
,
(
Minkowski Distance
65
Minkowski Distance
66
 r = 1. Rectilinear distance.
 r = 2. Euclidean distance
 r → . Chebyshev distance.
 Do not confuse r with n, i.e., all these distances are defined for all
numbers of dimensions.
Minkowski Distance
67
Distance Matrix (r=3)
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
p1 p2 p3 p4
p1 0 2,520 3,037 5,013
p2 2,520 0 1,260 3,037
p3 3,037 1,260 0 2
p4 5,013 3,037 2 0
Canberra Distance
Perhitungan Distance
Di mana:
n : banyaknya dimensi atau sumbu
p, q : dua titik yang dicari jaraknya
pk, qk : koordinat titik pada dimensi atau sumbu ke-k
68

= +
−
=
n
k k
k
k
k
q
p
q
p
q
p
d
1
)
,
(
Canberra Distance
69
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
p1 p2 p3 p4
p1 0 2 1,333 1,333
p2 2 0 1,2 1,429
p3 1,333 1,2 0 0,25
p4 1,333 1,429 0,25 0
Mahalanobis Distance
Perhitungan Distance
Di mana:
p, q : dua titik yang dicari jaraknya sebagai vektor
T : transpose matriks
Σ-1 : invers matriks kovarians
Euclidean distance adalah kasus khusus Mahalanobis distance dengan
matriks identitas sebagai matriks kovarians.
70
( ) ( )
p
q
p
q
q
p
d
T
−

−
= −1
)
,
(
Mahalanobis Distance
71
Matrix of
overall data
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate












=
1
5
1
3
0
2
2
0
P
Mean Matrix    
1
5
.
2
1
5
1
3
0
2
2
0
1
1
1
1
4
1
=












=
P
Deviation Matrix












−
−
−
=












−












=
0
5
.
2
0
5
.
0
1
5
.
0
1
5
.
2
1
5
.
2
1
5
.
2
1
5
.
2
1
5
.
2
1
5
1
3
0
2
2
0
D
Mahalanobis Distance
72
Covariance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate






−
−
=












−
−
−






−
−
−
−
=

667
.
0
667
.
0
667
.
0
333
.
4
0
5
.
2
0
5
.
0
1
5
.
0
1
5
.
2
0
0
1
1
5
.
2
5
.
0
5
.
0
5
.
2
1
4
1
Inverse of Covariance Matrix






=
−
773
.
1
273
.
0
273
.
0
273
.
0
1
Mahalanobis Distance
73
Distance of p1 to p2
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
 
  449
.
2
6
2
2
3
0
)
2
0
(
)
0
2
(
773
.
1
273
.
0
273
.
0
273
.
0
)
2
0
(
)
0
2
(
)
2
,
1
(
=
=






−
−
=






−
−






−
−
=
p
p
d
Mahalanobis Distance
74
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
p1 p2 p3 p4
p1 0 2,449 1,610 2,421
p2 2,449 0 1,610 2,421
p3 1,610 1,610 0 1,044
p4 2,421 2,421 1,044 0
Cosine Distance
Perhitungan Distance
Di mana:
p, q : dua titik yang dicari jaraknya sebagai vektor
θ : sudut yang terbentuk antara vektor p dan q
• : perkalian dot antar vektor
|| || : besar vektor
75



=
=
=

=
•
=
=
n
k
k
n
k
k
n
k
k
k
q
p
q
p
q
p
q
p
q
p
d
1
2
1
2
1
)
(
)
cos(
)
,
( 
Cosine Distance
76
Distance of p1 to p2
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
0
0
2
2
0
)
0
2
(
)
2
0
(
0
2
2
0
0
2
2
0
)
2
,
1
(
2
2
2
2
=
+

+

+

=






•






=
p
p
d
Distance of p1 to p3
316
.
0
1
3
2
0
)
1
2
(
)
3
0
(
1
3
2
0
1
3
2
0
)
3
,
1
(
2
2
2
2
=
+

+

+

=






•






=
p
p
d
Cosine Distance
77
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Cartesian Coordinate
p1 p2 p3 p4
p1 0 0 0,316 0,196
p2 0 0 0,949 0,981
p3 0,316 0,949 0 0,992
p4 0,196 0,981 0,992 0
Haversine Distance
Perhitungan Distance
Di mana:
p, q : dua titik yang dicari jaraknya di bola berradius r
ϕ1, ϕ2: sudut latitude dari titik p dan q
λ1, λ2 : sudut longitude dari titik p dan q
78
( ) ( ) 






 −
+







 −
=
2
sin
cos
cos
2
sin
arcsin(
.
2
)
,
( 1
2
2
2
1
1
2
2 





r
q
p
d
Similarity dan Dissimilarity
Ukuran Similarity
Ukuran numerik kuantifikasi seberapa mirip antara dua objek data.
Semakin tinggi jika kedua objek data semakin mirip.
Seringkali menggunakan bilangan nyata rentang antara 0 dan 1
Ukuran Dissimilarity
Ukuran numerik kuantifikasi seberapa berbeda antara dua objek
data.
Semakin rendah jika kedua objek data semakin mirip
Seringkali menggunakan bilangan nyata rentang antara 0 dan 1
Proximity mengindikasikan similarity atau dissimilarity
79
Similarity dan Dissimilarity
Tabel berikut menunjukkan similarity dan dissimilarity antara
dua objek data, x and y, dengan atribut tunggal dan
sederhana.
80
Properti Umum Similarity
 Similarity antara dua objek data, x dan y ,
mempunyai beberapa properti umum, yakni:
1. s(x, y) = 1 (or maximum similarity) only if x = y.
2. s(x, y) = s(y, x) for all x and y. (Symmetry)
where s(x, y) is the similarity between points (data objects), x and y.
`
81
Fungsi Distance dalam scipy
82
Simple Matching Coefficient
Perhitungan Distance
Di mana:
A, B : dua dataset yang dicari jaraknya sebagai space
 : irisan atau intersection
 : gabungan atau union
| | : besar dataset
83
)
,
(
1
)
,
(
)
,
(
1
B
A
SMC
B
A
d
U
B
A
B
A
B
A
SMC
−
=

+

=
−
Jaccard Index
Perhitungan Distance
Di mana:
A, B : dua dataset yang dicari jaraknya sebagai space
 : irisan atau intersection
 : gabungan atau union
| | : besar dataset
84
)
,
(
1
)
,
(
)
,
(
)
,
(
2
2
B
A
J
B
A
d
B
A
B
A
B
A
B
A
J
B
A
B
A
B
A
B
A
B
A
B
A
J
−
=
•
−
+
•
=

−
+

=


=
Jaccard Index
85
Sorensen-Dice Index
Perhitungan Distance
Di mana:
A, B : dua dataset yang dicari jaraknya sebagai space
 : irisan atau intersection
| | : besar dataset
86
)
,
(
1
)
,
(
2
)
,
(
2
)
,
(
2
2
B
A
DSC
B
A
d
B
A
B
A
B
A
DSC
B
A
B
A
B
A
DSC
−
=
+
•
=
+

=
87
a
b c
a
b c
a
b c
a
b c
a
b c
a+b
a
b c
a+c
d
d
Lee Distance
Perhitungan Distance
Contoh:
88
 

=
−
−
−
=
n
k
k
k
k
k p
q
m
p
q
q
p
d
1
;
min
)
,
(
|2-3|
6-|5-1|
|4-4| |3-0|
Edit Distance
The edit distance d(a, b) is the minimum-weight series
of edit operations that transforms a into b.
edit operations:
 Insertion of a single symbol. If a = uv, then inserting the symbol x produces uxv.
This can also be denoted ε→x, using ε to denote the empty string.
 Deletion of a single symbol changes uxv to uv (x→ε).
 Substitution of a single symbol x for a symbol y ≠ x changes uxv to uyv (x→y).
 Transposition of two adjacent characters, formally characterized by an operation that
changes uxyv into uyxv
 Merge operation replaces a pair of characters with a single character, changes uxxv
to uxv (xx→x)
 Split operation replaces a single character into a pair of them, changes uxv to uxxv
(x→xx)
89
Hamming Distance
Perhitungan Distance
Menyatakan banyaknya anggota yang berbeda antara 2
data yang mempunyai kesamaan panjang karakter atau
total anggota dengan operasi subtitution.
Contoh:
90
Jaro-Winkler Distance
Perhitungan Distance
Menyatakan banyaknya perbedaan antara 2 data yang
mempunyai panjang karakter atau total anggota yang
mungkin berbeda termasuk dengan transposition.
91
Jaro-Winkler Distance
Contoh:
▪ “cat and “act”
▪ similarity = 1/3 (3/3 + 3/3 + (3-1) /3) = 8/9 = 0,889
▪ distance = 1 – 0,889 = 0,111
▪ “from” and “form”
▪ similarity = 1/3 (4/4 + 4/4 + (4-1) /4) = 11/12 = 0,917
▪ distance = 1 – 0,917 = 0,083
▪ “angle” and “angel”
▪ similarity = 1/3 (5/5 + 5/5 + (5-1) /5) = 14/15 = 0,917
▪ distance = 1 – 0,917 = 0,083
▪ “trial” and “trail”
▪ similarity = 1/3 (5/5 + 5/5 + (5-1) /5) = 14/15 = 0,933
▪ distance = 1 – 0,933 = 0,067
▪ “blade” and “baled”
▪ similarity = 1/3 (5/5 + 5/5 + (5-2) /5) = 13/15 = 0,867
▪ distance = 1 – 0,867 = 0,133
▪ “interpret” and “entrepreneur”
▪ similarity = 1/3 (7/9 + 7/12 + (7-1) /7) = 559/756 = 0,739
▪ distance = 1 – 0,739 = 0,261
92
Longest Common Subsequence (LCS) Distance
Perhitungan Distance
Menyatakan banyaknya perbedaan antara 2 data yang
mempunyai panjang karakter atau total anggota yang
mungkin berbeda dengan insertion/deletion.
Contoh: corpse → cropped , distance = 5
1. corpse → crpse (delete “o” at 1)
2. crpse → cropse (insert “o” at 2)
3. cropse → crope (delete “s” at 4)
4. crope → croppe (insert “p” at 4)
5. croppe → cropped (insert “d” at 6)
93
Levenshtein Distance
Perhitungan Distance
Menyatakan banyaknya perbedaan antara 2 data yang
mempunyai panjang karakter atau total anggota yang
mungkin berbeda dengan insertion/deletion/substitution.
Contoh: corpse → cropped , distance = 4
1. corpse → crpse (delete “o” at 1)
2. crpse → cropse (insert “o” at 2)
3. cropse → croppe (substitution of “p” for “s”)
4. croppe → cropped (insert “d” at the end)
94
Damerau–Levenshtein Distance
Perhitungan Distance
Menyatakan banyaknya perbedaan antara 2 data yang
mempunyai panjang karakter atau total anggota yang
mungkin berbeda dengan insertion/deletion/substitution/
transposition.
Contoh: corpse → cropped , distance = 3
1. corpse → cropse (transposition of “or” to “ro”)
2. cropse → croppe (substitution of “p” for “s”)
3. croppe → cropped (insert “d” at the end)
95
Pembersihan Data
(Data Cleansing) dan
Proses Awal Data
(Data Preprocessing)
96
Pembersihan dan Proses Awal Data
97
Pembersihan dan Proses Awal Data
98
Penting memperhatikan
cara memperoleh
data yang akan diolah
Demikian pula
cara mengolah data
juga penting diperhatikan
99
Pembersihan dan Proses Awal Data
100
Pembersihan dan Proses Awal Data
101
Pembersihan dan Proses Awal Data
102
103
104
105
Pembersihan dan Proses Awal Data
Pembersihan data (data cleaning or cleansing) adalah
proses mencari, mendeteksi dan menghilangkan data
palsu, rusak, keliru (tak akurat), atau menyimpang dari
sekumpulan data, tabel atau basis data.
Pembersihan data (data wrangling or munging) adalah
proses transformasi dan memetakan data mentah yang
tercemar (noise, error & irrelevant) dan berantakan
(messy, unstructured & incosistent) menjadi bentuk lain
yang lebih sesuai dan bermanfaat untuk proses
berikutnya
106
107
108
Pembersihan dan Proses Awal Data
 How do I detect and control noise?—Noise Discovering.
 How do I clean up the data?—Data Cleaning.
 How do I handle missing data?—Missing Data Imputation.
 How do I provide accurate data and standard format?—Data Transformation.
 How do I incorporate and adjust data?—Data Integration.
 How do I unify and scale data?—Data Structure Normalization.
 How do I reduce the dimensionality of data?—Feature Selection (FS).
 How do I remove redundant and/or conflictive examples?—Instance Selection (IS).
 How do I simplify the domain of an attribute?—Discretization.
 How do I fill in gaps in data?—Feature Extraction and/or Instance Generation.
109
Pembersihan dan Proses Awal Data
110
Problem Kualitas Data
Noise and outliers
Wrong data
Fake data
Missing values
Duplicate data
Noise
 Untuk objek data, noise merupakan kejanggalan objek data yang
asing dan tak selaras dengan pola umum
 Untuk atribut data, noise merupakan perubahan atau penyimpangan
dari nilai sesungguhnya
 Contoh: distorsi suara penelepon ketika menggunakan telepon yang rusak, dan
suara lain dari lingkungan yang ikut tertangkap mikrofon.
 Gambar di bawah menunjukkan dua gelombang sinus dengan amplitudo sama
namun frekuensi berbeda, gabungan kedua gelombang, dan gabungan kedua
gelombang sinus yang terdistorsi oleh random noise acak.
Outliers adalah objek data dengan karakteristik yang
sangat berbeda dari sebagian besar objek data
lainnya dalam dataset
Kasus 1: Outliers menjadi
noise yang mengganggu
analisis data
Kasus 2: Outliers menjadi
tujuan analisis data
➢ Credit card fraud
➢ Intrusion detection
Outliers
Missing Values
Latar belakang terjadinya missing values
Informasi tidak dapat diperoleh karena keengganan, penolakan,
kelalaian, kecurigaan atau kerahasiaan (misalnya responden tidak
bersedia menyampaikan usia atau berat badannya)
Atribut data yang tidak mungkin cocok untuk sebagian kasus
(misalnya gaji untuk anak-anak)
Kegagalan alat atau ketidak-sengajaan penghapusan.
Penanganan missing values
Mengeliminasi objek data atau variabel
Mengestimasi missing values
➢Misalnya dengan regresi atau interpolasi
➢Misalnya dengan pencocokan pola pemusatan dari sebaran yang mirip
Mengabaikan missing value selama analisis data
Duplicate Data
Dataset mungkin mengandung objek data yang redundansi
atau terduplikasi secara utuh atau sebagian.
Contoh: orang yang sama dengan alamat e-mail berbeda
Pengumpulan data dari beberapa sumber heterogen
mempunyai isu mayor memperoleh duplicate data.
Contoh: data identitas pribadi orang yang sama diperoleh dari
instansi kependudukan dan dari afiliasi pekerjaan
Penanganan duplicate data
Mengeliminasi duplicate data
Mencatat atau merekap frekuensi duplikasi
Mengumpulkan subset data yang menjadi data-child untuk
sebagian data berbeda
Operasi Dasar dalam Data Preprocessing
 Data cleaning
 Fill in missing values, smooth noisy data, identify or remove outliers, and resolve
inconsistencies
 Data integration
 Integration of multiple databases, data cubes, or files
 Data reduction
 Dimensionality reduction
 Numerosity reduction
 Data compression
 Data transformation and data discretization
 Normalization
 Concept hierarchy generation
116
117
Terima kasih ...
... Ada pertanyaan ???

More Related Content

Similar to Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 04

Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...Arif Rahman
 
Stat prob05 descriptivestatistic_statisticmeasure
Stat prob05 descriptivestatistic_statisticmeasureStat prob05 descriptivestatistic_statisticmeasure
Stat prob05 descriptivestatistic_statisticmeasureArif Rahman
 
TM5-statistika_5 pengenalan statistik deskriptif
TM5-statistika_5 pengenalan statistik deskriptifTM5-statistika_5 pengenalan statistik deskriptif
TM5-statistika_5 pengenalan statistik deskriptifYogiRabani1
 
TM5-statistika_5.ppt
TM5-statistika_5.pptTM5-statistika_5.ppt
TM5-statistika_5.pptMiffJasenx
 
bahan matakuliah probabilitas dan statistik.ppt
bahan matakuliah probabilitas dan statistik.pptbahan matakuliah probabilitas dan statistik.ppt
bahan matakuliah probabilitas dan statistik.pptssuser13daca1
 
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiwTM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiwRahmanPrasetyo3
 
TM5-statistika_5.ppt
TM5-statistika_5.pptTM5-statistika_5.ppt
TM5-statistika_5.pptafni48
 
Stat prob02 scientificdata
Stat prob02 scientificdataStat prob02 scientificdata
Stat prob02 scientificdataArif Rahman
 
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).ppt2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).pptFaniaAmbarWanti
 
STATISTIKA DESKRIPTIF P3.ppt
STATISTIKA DESKRIPTIF P3.pptSTATISTIKA DESKRIPTIF P3.ppt
STATISTIKA DESKRIPTIF P3.pptArnita Piliang
 
power point statistik by faisal
power point statistik by faisalpower point statistik by faisal
power point statistik by faisalmuhammadikhsaniks
 
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...YayaInu
 
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...YayaInu
 
UKURAN PENYEBARAN DATA.pptx
UKURAN PENYEBARAN DATA.pptxUKURAN PENYEBARAN DATA.pptx
UKURAN PENYEBARAN DATA.pptxarisantomico
 
Ppt singkat kel 8 pengantar statistika
Ppt singkat kel 8 pengantar statistikaPpt singkat kel 8 pengantar statistika
Ppt singkat kel 8 pengantar statistikasintia 67
 
Slide4 statistika
Slide4 statistikaSlide4 statistika
Slide4 statistikaAmrul Rizal
 
4. ukuran pemusatan data dan ukuran penyebaran data
4. ukuran pemusatan data dan ukuran penyebaran data4. ukuran pemusatan data dan ukuran penyebaran data
4. ukuran pemusatan data dan ukuran penyebaran dataRia Defti Nurharinda
 
KUARTIL, DESIL DAN SIMPANGAN RATA-RATA.ppt
KUARTIL, DESIL DAN SIMPANGAN RATA-RATA.pptKUARTIL, DESIL DAN SIMPANGAN RATA-RATA.ppt
KUARTIL, DESIL DAN SIMPANGAN RATA-RATA.pptUniversity of Mumbai
 
Statistika Deskriptif - Bab 03 - Ukuran Pemusatan
Statistika Deskriptif - Bab 03 - Ukuran PemusatanStatistika Deskriptif - Bab 03 - Ukuran Pemusatan
Statistika Deskriptif - Bab 03 - Ukuran PemusatanZombie Black
 

Similar to Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 04 (20)

Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
 
Stat prob05 descriptivestatistic_statisticmeasure
Stat prob05 descriptivestatistic_statisticmeasureStat prob05 descriptivestatistic_statisticmeasure
Stat prob05 descriptivestatistic_statisticmeasure
 
TM5-statistika_5 pengenalan statistik deskriptif
TM5-statistika_5 pengenalan statistik deskriptifTM5-statistika_5 pengenalan statistik deskriptif
TM5-statistika_5 pengenalan statistik deskriptif
 
TM5-statistika_5.ppt
TM5-statistika_5.pptTM5-statistika_5.ppt
TM5-statistika_5.ppt
 
bahan matakuliah probabilitas dan statistik.ppt
bahan matakuliah probabilitas dan statistik.pptbahan matakuliah probabilitas dan statistik.ppt
bahan matakuliah probabilitas dan statistik.ppt
 
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiwTM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
 
TM5-statistika_5.ppt
TM5-statistika_5.pptTM5-statistika_5.ppt
TM5-statistika_5.ppt
 
Stat prob02 scientificdata
Stat prob02 scientificdataStat prob02 scientificdata
Stat prob02 scientificdata
 
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).ppt2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
 
STATISTIKA DESKRIPTIF P3.ppt
STATISTIKA DESKRIPTIF P3.pptSTATISTIKA DESKRIPTIF P3.ppt
STATISTIKA DESKRIPTIF P3.ppt
 
power point statistik by faisal
power point statistik by faisalpower point statistik by faisal
power point statistik by faisal
 
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
 
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
Menghitung Kemiringan Keruncingan Data Tunggal Nilai UTS Semester Ganjil Tahu...
 
UKURAN PENYEBARAN DATA.pptx
UKURAN PENYEBARAN DATA.pptxUKURAN PENYEBARAN DATA.pptx
UKURAN PENYEBARAN DATA.pptx
 
Ppt singkat kel 8 pengantar statistika
Ppt singkat kel 8 pengantar statistikaPpt singkat kel 8 pengantar statistika
Ppt singkat kel 8 pengantar statistika
 
Slide4 statistika
Slide4 statistikaSlide4 statistika
Slide4 statistika
 
4. ukuran pemusatan data dan ukuran penyebaran data
4. ukuran pemusatan data dan ukuran penyebaran data4. ukuran pemusatan data dan ukuran penyebaran data
4. ukuran pemusatan data dan ukuran penyebaran data
 
KUARTIL, DESIL DAN SIMPANGAN RATA-RATA.ppt
KUARTIL, DESIL DAN SIMPANGAN RATA-RATA.pptKUARTIL, DESIL DAN SIMPANGAN RATA-RATA.ppt
KUARTIL, DESIL DAN SIMPANGAN RATA-RATA.ppt
 
Statistika Dasar
Statistika DasarStatistika Dasar
Statistika Dasar
 
Statistika Deskriptif - Bab 03 - Ukuran Pemusatan
Statistika Deskriptif - Bab 03 - Ukuran PemusatanStatistika Deskriptif - Bab 03 - Ukuran Pemusatan
Statistika Deskriptif - Bab 03 - Ukuran Pemusatan
 

More from Arif Rahman

Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07Arif Rahman
 
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06Arif Rahman
 
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...Arif Rahman
 
Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02Arif Rahman
 
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata NonparametrikModul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata NonparametrikArif Rahman
 
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi ParametrikModul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi ParametrikArif Rahman
 
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi ParametrikModul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi ParametrikArif Rahman
 
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata ParametrikModul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata ParametrikArif Rahman
 
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika InferensiaModul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika InferensiaArif Rahman
 
Doe15 factorialmixed
Doe15 factorialmixedDoe15 factorialmixed
Doe15 factorialmixedArif Rahman
 
Doe14 factorial3k fractional
Doe14 factorial3k fractionalDoe14 factorial3k fractional
Doe14 factorial3k fractionalArif Rahman
 
Doe13 factorial3k blocking
Doe13 factorial3k blockingDoe13 factorial3k blocking
Doe13 factorial3k blockingArif Rahman
 
Doe12 factorial3k
Doe12 factorial3kDoe12 factorial3k
Doe12 factorial3kArif Rahman
 
Doe11 factorial2k fractional
Doe11 factorial2k fractionalDoe11 factorial2k fractional
Doe11 factorial2k fractionalArif Rahman
 
Doe10 factorial2k blocking
Doe10 factorial2k blockingDoe10 factorial2k blocking
Doe10 factorial2k blockingArif Rahman
 

More from Arif Rahman (20)

Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
 
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
 
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
 
Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02
 
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
 
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
 
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
 
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
 
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
 
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata NonparametrikModul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
 
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi ParametrikModul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
 
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi ParametrikModul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
 
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata ParametrikModul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
 
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika InferensiaModul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
 
Doe15 factorialmixed
Doe15 factorialmixedDoe15 factorialmixed
Doe15 factorialmixed
 
Doe14 factorial3k fractional
Doe14 factorial3k fractionalDoe14 factorial3k fractional
Doe14 factorial3k fractional
 
Doe13 factorial3k blocking
Doe13 factorial3k blockingDoe13 factorial3k blocking
Doe13 factorial3k blocking
 
Doe12 factorial3k
Doe12 factorial3kDoe12 factorial3k
Doe12 factorial3k
 
Doe11 factorial2k fractional
Doe11 factorial2k fractionalDoe11 factorial2k fractional
Doe11 factorial2k fractional
 
Doe10 factorial2k blocking
Doe10 factorial2k blockingDoe10 factorial2k blocking
Doe10 factorial2k blocking
 

Recently uploaded

PPT Manajemen Konstruksi Unsur Unsur Proyek 1.pptx
PPT Manajemen Konstruksi Unsur Unsur Proyek 1.pptxPPT Manajemen Konstruksi Unsur Unsur Proyek 1.pptx
PPT Manajemen Konstruksi Unsur Unsur Proyek 1.pptxHamidNurMukhlis
 
Sesi_02_Rangkaian_Hubungan_Seri_Paralel.pptx
Sesi_02_Rangkaian_Hubungan_Seri_Paralel.pptxSesi_02_Rangkaian_Hubungan_Seri_Paralel.pptx
Sesi_02_Rangkaian_Hubungan_Seri_Paralel.pptx185TsabitSujud
 
PPT PENILAIAN PERKERASAN JALAN Metode PCI.pptx
PPT PENILAIAN PERKERASAN JALAN Metode PCI.pptxPPT PENILAIAN PERKERASAN JALAN Metode PCI.pptx
PPT PENILAIAN PERKERASAN JALAN Metode PCI.pptxYehezkielAkwila3
 
Materi Safety Talk Persiapan Libur Lebaran
Materi Safety Talk Persiapan Libur LebaranMateri Safety Talk Persiapan Libur Lebaran
Materi Safety Talk Persiapan Libur LebaranSintaMarlina3
 
Ahli Muda Teknik Bangunan GEdung Jenjang 7 - Samet Kurnianto.pptx
Ahli Muda Teknik Bangunan GEdung Jenjang 7 - Samet Kurnianto.pptxAhli Muda Teknik Bangunan GEdung Jenjang 7 - Samet Kurnianto.pptx
Ahli Muda Teknik Bangunan GEdung Jenjang 7 - Samet Kurnianto.pptxarifyudianto3
 
QCC MANAJEMEN TOOL MAINTENANCE (MAINTENANCE TEAM).pptx
QCC MANAJEMEN TOOL MAINTENANCE (MAINTENANCE TEAM).pptxQCC MANAJEMEN TOOL MAINTENANCE (MAINTENANCE TEAM).pptx
QCC MANAJEMEN TOOL MAINTENANCE (MAINTENANCE TEAM).pptxdjam11
 
Transfer Massa dan Panas Teknik Kimia Industri
Transfer Massa dan Panas Teknik Kimia IndustriTransfer Massa dan Panas Teknik Kimia Industri
Transfer Massa dan Panas Teknik Kimia Industririzwahyung
 
Kelompok 5 PPt Penerapan Teori Fuzzy.pdf
Kelompok 5 PPt Penerapan Teori Fuzzy.pdfKelompok 5 PPt Penerapan Teori Fuzzy.pdf
Kelompok 5 PPt Penerapan Teori Fuzzy.pdfVardyFahrizal
 
2021 - 10 - 03 PAPARAN PENDAHULUAN LEGGER JALAN.pptx
2021 - 10 - 03 PAPARAN PENDAHULUAN LEGGER JALAN.pptx2021 - 10 - 03 PAPARAN PENDAHULUAN LEGGER JALAN.pptx
2021 - 10 - 03 PAPARAN PENDAHULUAN LEGGER JALAN.pptxAnnisaNurHasanah27
 

Recently uploaded (9)

PPT Manajemen Konstruksi Unsur Unsur Proyek 1.pptx
PPT Manajemen Konstruksi Unsur Unsur Proyek 1.pptxPPT Manajemen Konstruksi Unsur Unsur Proyek 1.pptx
PPT Manajemen Konstruksi Unsur Unsur Proyek 1.pptx
 
Sesi_02_Rangkaian_Hubungan_Seri_Paralel.pptx
Sesi_02_Rangkaian_Hubungan_Seri_Paralel.pptxSesi_02_Rangkaian_Hubungan_Seri_Paralel.pptx
Sesi_02_Rangkaian_Hubungan_Seri_Paralel.pptx
 
PPT PENILAIAN PERKERASAN JALAN Metode PCI.pptx
PPT PENILAIAN PERKERASAN JALAN Metode PCI.pptxPPT PENILAIAN PERKERASAN JALAN Metode PCI.pptx
PPT PENILAIAN PERKERASAN JALAN Metode PCI.pptx
 
Materi Safety Talk Persiapan Libur Lebaran
Materi Safety Talk Persiapan Libur LebaranMateri Safety Talk Persiapan Libur Lebaran
Materi Safety Talk Persiapan Libur Lebaran
 
Ahli Muda Teknik Bangunan GEdung Jenjang 7 - Samet Kurnianto.pptx
Ahli Muda Teknik Bangunan GEdung Jenjang 7 - Samet Kurnianto.pptxAhli Muda Teknik Bangunan GEdung Jenjang 7 - Samet Kurnianto.pptx
Ahli Muda Teknik Bangunan GEdung Jenjang 7 - Samet Kurnianto.pptx
 
QCC MANAJEMEN TOOL MAINTENANCE (MAINTENANCE TEAM).pptx
QCC MANAJEMEN TOOL MAINTENANCE (MAINTENANCE TEAM).pptxQCC MANAJEMEN TOOL MAINTENANCE (MAINTENANCE TEAM).pptx
QCC MANAJEMEN TOOL MAINTENANCE (MAINTENANCE TEAM).pptx
 
Transfer Massa dan Panas Teknik Kimia Industri
Transfer Massa dan Panas Teknik Kimia IndustriTransfer Massa dan Panas Teknik Kimia Industri
Transfer Massa dan Panas Teknik Kimia Industri
 
Kelompok 5 PPt Penerapan Teori Fuzzy.pdf
Kelompok 5 PPt Penerapan Teori Fuzzy.pdfKelompok 5 PPt Penerapan Teori Fuzzy.pdf
Kelompok 5 PPt Penerapan Teori Fuzzy.pdf
 
2021 - 10 - 03 PAPARAN PENDAHULUAN LEGGER JALAN.pptx
2021 - 10 - 03 PAPARAN PENDAHULUAN LEGGER JALAN.pptx2021 - 10 - 03 PAPARAN PENDAHULUAN LEGGER JALAN.pptx
2021 - 10 - 03 PAPARAN PENDAHULUAN LEGGER JALAN.pptx
 

Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 04

  • 1. PREPARASI DATA: Pembersihan dan Proses Awal Data ARIF RAHMAN 1
  • 2. 2
  • 3. 3 Godsey, B, Think Like a Data Scientist: Tackle the Data Science Process Step-by-Step
  • 4. 4
  • 5. 5 Cielen, D, Meysman, ADB, & Ali, M, Introducing Data Science: Big Data, Machine Learning, and More, Using Python Tools
  • 7. Problem Data Data yang dikumpulkan dari banyak sumber berbeda dengan banyak metode akan menyebabkan problem: Heterogeneity and Diversity, data dengan format dan struktur yang beragam dan berantakan. Data Quality, data yang tercemar noise, error, outlier, missing value, bias, fake data, illegal data dan irrelevant data. Scale, data yang berskala besar yang membutuhkan upaya ekstra untuk mengolahnya. 7
  • 8. Problem Data: Heterogeneity and Diversity Number Text Graph Image Audio Video Code, encryption, decryption Electric current Radio wave Light wave Electromagnetic wave Magnetic field Force and energy Analog or digital signals 8
  • 9. Problem Data: Data Quality Accuracy Completeness Consistency Timeliness Believability Value added Interpretability Accessibility Erroneousness Negligence Erraticism Obsolescence Deception Worthlessness Obscurity Impediment 9
  • 10. Problem Data: Scale Number of instances (records, objects) Rule of thumb: 5,000 or more desired if less, results are less reliable; use special methods (boosting, …) Number of attributes (fields) Rule of thumb: for each attribute, 10 or more instances If more fields, use feature reduction and selection Number of targets Rule of thumb: >100 for each class if very unbalanced, use stratified sampling 10
  • 11. Kesalahan Pemilihan Sumber Data Random error : kesalahan sampling karena sebaran sampel kurang merepresentasikan distribusi populasi. → abandoned subset of population Systematic error : kesalahan sampling karena sampel terkumpul di sebagian populasi yang dibatasi rentang waktu tertentu atau lokasi tertentu dan melalaikan sebagian yang lain. → undercoverage Illegitimate error : kesalahan sampling karena sampel dari populasi yang berbeda → overcoverage 11
  • 13. Kesalahan Proses Pengukuran Random error : kesalahan tak terkendali antar pengukuran, karena faktor keacakan dari objek ukur, operator, alat ukur, lingkungan atau noise lainnya. Systematic error : kesalahan yang berulang dan membiaskan hasil, karena kegagalan operator atau alat ukur, kesalahan prosedur, pengaruh lingkungan Illegitimate error : kesalahan insidental dan menghasilkan outlier, karena keteledoran, keliru kalkulasi, atau kesalahan lainnya 13
  • 15. Kesalahan Konten Data  Unusual value (outlier), data yang sangat jauh dari kumpulan data utama, karena illegitimate error pengukuran atau mungkin sampel berasal dari populasi lain (terdapat faktor yang berbeda).  Missing value, data relevan yang kurang atau tidak lengkap, karena kealpaan pengukuran atau pencatatannya, atau sebaran sampel kurang baik.  Bias, pergeseran data dari nilai yang sebenarnya, karena systematic error pengukuran.  Fake data, data palsu, fiktif, manipulasi, dugaan, prediksi.  Illegal data, data dari sumber yang belum/tidak terpercaya atau bahkan tidak mempunyai akses pada data.  Irrelevant data, data yang berbeda atau berubah karena diperoleh dari time frame yang lain, atau perlakuan yang lain, atau tujuan studi yang lain, atau pendekatan yang lain, atau faktor-faktor lainnya. 15
  • 22. Ukuran Sebaran Ukuran sebaran atau dispersi (a measure of dispersion) adalah ukuran numerik yang dipergunakan untuk merepresentasikan penyebaran satu himpunan data terhadap pemusatannya Range  Quartile Variance  Decile Deviation  Percentile Standard Deviation  Interquartile range Mean absolute deviation  Skewness Coefficient of variation  Kurtosis 22
  • 23. Range Rentang (range) adalah ukuran numerik yang menunjukkan rentang sebaran data mulai data terkecil hingga data terbesar. Untuk memperoleh range, harus dicari data terkecil dan data terbesar terlebih dahulu. Selisih antara data terkecil dengan data terbesar adalah besaran range. 23
  • 24. Range 24 min max x x R − = Di mana : R = range xmax = data terbesar xmin = data terkecil
  • 25. Variance Varians (variance) adalah ukuran numerik dari rata- rata kuadrat penyimpangan data terhadap ukuran pemusatan data. Berdasarkan teorema limit sentral (central limit theorem), sebagai parameter dari distribusi normal populasi dinotasikan dengan 2, sedangkan sebagai statistik sampel dinotasikan dengan s2 dengan derajat kebebasan (df) = n-1 25
  • 26. Variance 26 N x N x x n i i n  = − = − + + − = 1 2 2 2 1 2 ) ( ) ( ) (      Di mana : s2 = variance ͞x = arithmetic mean xi = data ke-i i = indeks urutan data n = banyaknya data 1 ) ( 1 ) ( ) ( 1 2 2 2 1 2 − − = − − + + − =  = n x x n x x x x s n i i n  Di mana : 2 = variance  = arithmetic mean xi = data ke-i i = indeks urutan data N = banyaknya data POPULASI SAMPEL
  • 27. Variance 27 Di mana : s2 = variance xi = data ke-i i = indeks urutan data n = banyaknya data ( ) ) 1 ( 2 1 1 2 2 −       − =   = = n n x x n s n i i n i i Variance gabungan beberapa himpunan   = = = k i i k i i i n s n s 1 1 2 2 .
  • 28. Deviation Simpangan (deviation) adalah ukuran numerik yang menunjukkan penyimpangan data terhadap ukuran pemusatan data 28
  • 29. Deviation 29 ( ) x x Deviation i − = Di mana : Deviation ͞x = arithmetic mean xi = data ke-i i = indeks urutan data
  • 30. Standard Deviation Simpangan baku (standard deviation) adalah ukuran numerik yang menunjukkan penyimpangan data terhadap ukuran pemusatan data tanpa memperhatikan arah penyimpangannya. Dalam formulasi matematis, standard deviation adalah akar pangkat dua dari variance 30
  • 31. Standard Deviation 31 2 1 2 2 2 1 ) ( − − = =  = n x x s s n i i Di mana : s = standard deviation ͞x = arithmetic mean xi = data ke-i i = indeks urutan data n = banyaknya data Di mana :  = standard deviation  = arithmetic mean xi = data ke-i i = indeks urutan data N = banyaknya data 2 1 2 2 2 ) ( N x n i i  = − = =    POPULASI SAMPEL
  • 32. Standard Deviation 32 Di mana : s = standard deviation xi = data ke-i i = indeks urutan data n = banyaknya data ( ) 2 2 1 1 2 ) 1 ( −       − =   = = n n x x n s n i i n i i
  • 33. Mean Absolute Deviation Simpangan absolut (mean absolute deviation) adalah ukuran numerik yang menunjukkan rata-rata absolut penyimpangan data terhadap ukuran pemusatan data 33
  • 34. Mean Absolute Deviation 34 n x x n x x x x x x MAD n i i n  = − = − + + − + − = 1 2 1  Di mana : MAD= absolute deviation ͞x = arithmetic mean xi = data ke-i i = indeks urutan data n = banyaknya data
  • 35. Coefficient of Variation Koefisien variasi (coefficient of variation) atau simpangan baku relatif (relative standard deviation) adalah ukuran numerik yang menunjukkan rasio relatif dari standard deviation dibagi arithmetic mean 35
  • 36. Coefficient of Variation 36 x s RSD= Di mana : RSD = relative standard deviation ͞x = arithmetic mean s = standard deviation
  • 37. Quartile, Decile & Percentile Kuartile (quartile), adalah nilai yang membagi sejumlah data observasi menjadi empat bagian yang sama. Desil (decile), adalah nilai yang membagi sejumlah data observasi menjadi sepuluh bagian yang sama. Persentil (percentile), adalah nilai yang membagi sejumlah data observasi menjadi seratus bagian yang sama. 37
  • 38. Quartile, Decile & Percentile 38 % 80 ) ( %; 70 ) ( %; 75 ) ( , % 30 ) ( %; 20 ) ( %; 25 ) ( , % 50 ) ( ) ( ) ( ) ( , 8 7 3 8 3 7 3 2 1 3 1 2 50 5 2 50 5 2                   =  =  =  = = = D x P D x P Q x P D Q D D x P D x P Q x P D Q D Me x P P x P D x P Q x P Me P D Q x1 , x2 , x3 , x4 , x5 , . . . , xn D1 D2 D3 D4 D5 D6 D7 D8 D9 Q2 Q1 Q3 P1 P99 P50 P5 P10 P25 P75 P90 P95
  • 39. Quartile, Decile & Percentile 39 APROKSIMASI n = banyaknya data observasi u = urutan data untuk aproksimasi uB = pembulatan ke bawah urutan data uA = pembulatan ke atas urutan data Penentuan aproksimasi besaran u Median ➔ u = (n+1)/2 Qi ➔ u = i.(n+1)/4 Di ➔ u = i.(n+1)/10 Pi ➔ u = i.(n+1)/100 Interpolasi aproksimasi Approximation = xUB + (u – uB) . (xUA – xUB) 1
  • 40. Interquartile Range Rentang antar kuartil (interquartile range) adalah ukuran numerik yang menunjukkan rentang sebaran data antara kuartil 1 hingga kuartil 3. Rentang semi antar kuartil (semi-interquartile range) adalah setengah dari rentang antar kuartil 40
  • 41. Interquartile Range 41 ) ( . 1 3 2 1 2 1 1 3 Q Q IQR SIQR Q Q IQR − = = − = Di mana : IQR= intequartile range SIQR= semi-intequartile range Q1 = kuartil ke-1 Q3 = kuartil ke-3
  • 42. Midhinge 42 ) ( 2 3 1 2 1 3 1 Q Q Q Q Midhinge + = + = Di mana : Midhinge= midpoint between the first and third quartiles Q1 = kuartil ke-1 Q3 = kuartil ke-3
  • 43. Quartile Coefficient Of Dispersion 43 ( ) ( ) 3 1 2 1 1 3 2 1 . . Q Q Q Q QCD Midhinge SIQR QCD + − = = Di mana : QCD= Quartile coefficient of dispersion SIQR= semi-intequartile range Midhinge= midpoint between the first and third quartiles Q1 = kuartil ke-1 Q3 = kuartil ke-3
  • 44. Percentile Range Rentang persentil (percentile range) adalah ukuran numerik yang menunjukkan rentang sebaran data antara persentil 10 hingga persentil 90. 44
  • 45. Percentile Range 45 10 90 P P PR − = Di mana : PR= percentile range P10 = persentil ke-10 P90 = persentil ke-90
  • 46. Skewness Kemiringan atau kemenjuluran (skewness) adalah ukuran numerik yang menunjukkan derajat ketidaksimetrian distribusi atau kecondongan miring kurva distribusi, karena ketiga ukuran pemusatan (mean, median, mode) tidak berimpit. 46
  • 47. Skewness 47 ( ) ( ) ( ) ( ) 3 1 2 1 3 3 2 3 1 1 1 . 3         − − − = = − = − =   = = n i i n i i x x n x x n s m s Me x s Mo x skewness Mo Me ͞x Mo Me ͞x ͞x Skewness = 0 Skewness > 0 Skewness < 0 Positive or right skew Mo Me Symmetric Negative or left skew Di mana : ͞x = arithmetic mean Mo= mode Me= median m3 = 3-rd moment function s2 = variance
  • 48. Kurtosis Keruncingan (kurtosis) adalah ukuran numerik yang menunjukkan derajat kecuraman puncak distribusi dan biasanya relatif terhadap distribusi normal. 48
  • 49. Kurtosis 49 ( ) ( ) ( ) ( ) 4 1 2 1 4 4 2 4 10 90 1 3 2 1 1 1 1 .         − − − = = − − =   = = n i i n i i x x n x x n s m P P Q Q kurtosis Di mana : Q = quartile P = percentile m4 = 4-th moment function s2 = variance Leptokurtik Mesokurtik Platikurtik Kurtosis > 0,263 Kurtosis = 0,263 Kurtosis < 0,263 Runcing Normal Landai ➔ Normal = 0,263 ➔ Normal = 3
  • 50. Ukuran Jarak Sebaran Pada data univariate, jarak sebaran cukup dihitung berdasarkan selisih antara dua titik data. Terkadang salah satu titik adalah titik rujukan (reference point), misalnya nilai rata-rata aritmetika. Pada data bivariate atau multivariate, terdapat beberapa cara menghitung jarak antara dua titik data. 50
  • 51. Ukuran Jarak Sebaran  Beberapa cara menghitung distance atau jarak dua titik data:  Euclidean / Pythagorean / Straight-line / L2 Distance  Rectilinear / Manhattan / Cityblock / Taxicab / Snake / L1 Distance  Chebyshev / Chessboard / Maximum / L∞ Distance  Minkowski Distance  Canberra Distance  Mahalanobis Distance  Cosine Distance  Haversine / Spherical / Great-Circle / Orthodromic Distance  Jaccard / Tanimoto / Critical Success Index  Sorensen-Dice Coefficient  Lee / Mannheim Distance  Hamming Distance  Jaro-Winkler Distance  Levenshtein Distance  Damerau-Levenshtein Distance 51
  • 52. 52
  • 53. Properti Umum Distance / Jarak  Distance atau jarak sebaran antara titik x dan y mempunyai beberapa properti umum, yakni: 1. d(x, y)  0 memenuhi sifat nonnegativity untuk semua titik data x dan y 2. d(x, y) = 0 akan bersifat similar jika dan hanya jika kedua titik data berimpit di lokasi yang sama, x = y. 3. d(x, y) = d(y, x) memenuhi sifat symmetry untuk semua titik data x dan y 4. d(x, z)  d(x, y) + d(y, z) memenuhi sifat triangle inequality untuk semua titik data x, y, and z. 53
  • 56. Euclidean Distance Perhitungan Distance Di mana: n : banyaknya dimensi atau sumbu p, q : dua titik yang dicari jaraknya pk, qk : koordinat titik pada dimensi atau sumbu ke-k 56 ( )  = − = n k k k q p q p d 1 2 ) , (
  • 57. Euclidean Distance 57 Distance Matrix point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate p1 p2 p3 p4 p1 0 2,828 3,162 5,099 p2 2,828 0 1,414 3,162 p3 3,162 1,414 0 2 p4 5,099 3,162 2 0
  • 58. Euclidean Distance Perhitungan Distance Di mana: p, q : dua titik yang dicari jaraknya berkoordinat polar rp, rq : radius koordinat polar dari masing-masing titik θp, θq : sudut koordinat polar dari masing-masing titik 58 |) cos(| 2 ) , ( 2 2 q p q p q p r r r r q p d   − − + =
  • 59. Euclidean Distance 59 Distance Matrix point r θ p1 2 90 o p2 2 0 o p3 3,162 18,435 o p4 5,099 11,310 o Polar Coordinate p1 p2 p3 p4 p1 0 2,828 3,162 5,099 p2 2,828 0 1,414 3,162 p3 3,162 1,414 0 2 p4 5,099 3,162 2 0
  • 60. Rectilinear Distance Perhitungan Distance Di mana: n : banyaknya dimensi atau sumbu p, q : dua titik yang dicari jaraknya pk, qk : koordinat titik pada dimensi atau sumbu ke-k 60  = − = n k k k q p q p d 1 ) , (
  • 61. Rectilinear Distance 61 Distance Matrix point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate p1 p2 p3 p4 p1 0 4 4 6 p2 4 0 2 4 p3 4 2 0 2 p4 6 4 2 0
  • 62. Chebyshev Distance Perhitungan Distance Di mana: n : banyaknya dimensi atau sumbu p, q : dua titik yang dicari jaraknya pk, qk : koordinat titik pada dimensi atau sumbu ke-k 62   k k n k q p q p d − =  max ) , (
  • 63. Chebyshev Distance 63 Distance Matrix point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate p1 p2 p3 p4 p1 0 2 3 5 p2 2 0 1 3 p3 3 1 0 2 p4 5 3 2 0
  • 64. Minkowski Distance Perhitungan Distance Di mana: n : banyaknya dimensi atau sumbu p, q : dua titik yang dicari jaraknya pk, qk : koordinat titik pada dimensi atau sumbu ke-k r : parameter Minkowski inequality 64 r n k r k k q p q p d  = − = 1 ) , (
  • 66. Minkowski Distance 66  r = 1. Rectilinear distance.  r = 2. Euclidean distance  r → . Chebyshev distance.  Do not confuse r with n, i.e., all these distances are defined for all numbers of dimensions.
  • 67. Minkowski Distance 67 Distance Matrix (r=3) point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate p1 p2 p3 p4 p1 0 2,520 3,037 5,013 p2 2,520 0 1,260 3,037 p3 3,037 1,260 0 2 p4 5,013 3,037 2 0
  • 68. Canberra Distance Perhitungan Distance Di mana: n : banyaknya dimensi atau sumbu p, q : dua titik yang dicari jaraknya pk, qk : koordinat titik pada dimensi atau sumbu ke-k 68  = + − = n k k k k k q p q p q p d 1 ) , (
  • 69. Canberra Distance 69 Distance Matrix point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate p1 p2 p3 p4 p1 0 2 1,333 1,333 p2 2 0 1,2 1,429 p3 1,333 1,2 0 0,25 p4 1,333 1,429 0,25 0
  • 70. Mahalanobis Distance Perhitungan Distance Di mana: p, q : dua titik yang dicari jaraknya sebagai vektor T : transpose matriks Σ-1 : invers matriks kovarians Euclidean distance adalah kasus khusus Mahalanobis distance dengan matriks identitas sebagai matriks kovarians. 70 ( ) ( ) p q p q q p d T −  − = −1 ) , (
  • 71. Mahalanobis Distance 71 Matrix of overall data point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate             = 1 5 1 3 0 2 2 0 P Mean Matrix     1 5 . 2 1 5 1 3 0 2 2 0 1 1 1 1 4 1 =             = P Deviation Matrix             − − − =             −             = 0 5 . 2 0 5 . 0 1 5 . 0 1 5 . 2 1 5 . 2 1 5 . 2 1 5 . 2 1 5 . 2 1 5 1 3 0 2 2 0 D
  • 72. Mahalanobis Distance 72 Covariance Matrix point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate       − − =             − − −       − − − − =  667 . 0 667 . 0 667 . 0 333 . 4 0 5 . 2 0 5 . 0 1 5 . 0 1 5 . 2 0 0 1 1 5 . 2 5 . 0 5 . 0 5 . 2 1 4 1 Inverse of Covariance Matrix       = − 773 . 1 273 . 0 273 . 0 273 . 0 1
  • 73. Mahalanobis Distance 73 Distance of p1 to p2 point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate     449 . 2 6 2 2 3 0 ) 2 0 ( ) 0 2 ( 773 . 1 273 . 0 273 . 0 273 . 0 ) 2 0 ( ) 0 2 ( ) 2 , 1 ( = =       − − =       − −       − − = p p d
  • 74. Mahalanobis Distance 74 Distance Matrix point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate p1 p2 p3 p4 p1 0 2,449 1,610 2,421 p2 2,449 0 1,610 2,421 p3 1,610 1,610 0 1,044 p4 2,421 2,421 1,044 0
  • 75. Cosine Distance Perhitungan Distance Di mana: p, q : dua titik yang dicari jaraknya sebagai vektor θ : sudut yang terbentuk antara vektor p dan q • : perkalian dot antar vektor || || : besar vektor 75    = = =  = • = = n k k n k k n k k k q p q p q p q p q p d 1 2 1 2 1 ) ( ) cos( ) , ( 
  • 76. Cosine Distance 76 Distance of p1 to p2 point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate 0 0 2 2 0 ) 0 2 ( ) 2 0 ( 0 2 2 0 0 2 2 0 ) 2 , 1 ( 2 2 2 2 = +  +  +  =       •       = p p d Distance of p1 to p3 316 . 0 1 3 2 0 ) 1 2 ( ) 3 0 ( 1 3 2 0 1 3 2 0 ) 3 , 1 ( 2 2 2 2 = +  +  +  =       •       = p p d
  • 77. Cosine Distance 77 Distance Matrix point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Cartesian Coordinate p1 p2 p3 p4 p1 0 0 0,316 0,196 p2 0 0 0,949 0,981 p3 0,316 0,949 0 0,992 p4 0,196 0,981 0,992 0
  • 78. Haversine Distance Perhitungan Distance Di mana: p, q : dua titik yang dicari jaraknya di bola berradius r ϕ1, ϕ2: sudut latitude dari titik p dan q λ1, λ2 : sudut longitude dari titik p dan q 78 ( ) ( )         − +         − = 2 sin cos cos 2 sin arcsin( . 2 ) , ( 1 2 2 2 1 1 2 2       r q p d
  • 79. Similarity dan Dissimilarity Ukuran Similarity Ukuran numerik kuantifikasi seberapa mirip antara dua objek data. Semakin tinggi jika kedua objek data semakin mirip. Seringkali menggunakan bilangan nyata rentang antara 0 dan 1 Ukuran Dissimilarity Ukuran numerik kuantifikasi seberapa berbeda antara dua objek data. Semakin rendah jika kedua objek data semakin mirip Seringkali menggunakan bilangan nyata rentang antara 0 dan 1 Proximity mengindikasikan similarity atau dissimilarity 79
  • 80. Similarity dan Dissimilarity Tabel berikut menunjukkan similarity dan dissimilarity antara dua objek data, x and y, dengan atribut tunggal dan sederhana. 80
  • 81. Properti Umum Similarity  Similarity antara dua objek data, x dan y , mempunyai beberapa properti umum, yakni: 1. s(x, y) = 1 (or maximum similarity) only if x = y. 2. s(x, y) = s(y, x) for all x and y. (Symmetry) where s(x, y) is the similarity between points (data objects), x and y. ` 81
  • 83. Simple Matching Coefficient Perhitungan Distance Di mana: A, B : dua dataset yang dicari jaraknya sebagai space  : irisan atau intersection  : gabungan atau union | | : besar dataset 83 ) , ( 1 ) , ( ) , ( 1 B A SMC B A d U B A B A B A SMC − =  +  = −
  • 84. Jaccard Index Perhitungan Distance Di mana: A, B : dua dataset yang dicari jaraknya sebagai space  : irisan atau intersection  : gabungan atau union | | : besar dataset 84 ) , ( 1 ) , ( ) , ( ) , ( 2 2 B A J B A d B A B A B A B A J B A B A B A B A B A B A J − = • − + • =  − +  =   =
  • 86. Sorensen-Dice Index Perhitungan Distance Di mana: A, B : dua dataset yang dicari jaraknya sebagai space  : irisan atau intersection | | : besar dataset 86 ) , ( 1 ) , ( 2 ) , ( 2 ) , ( 2 2 B A DSC B A d B A B A B A DSC B A B A B A DSC − = + • = +  =
  • 87. 87 a b c a b c a b c a b c a b c a+b a b c a+c d d
  • 88. Lee Distance Perhitungan Distance Contoh: 88    = − − − = n k k k k k p q m p q q p d 1 ; min ) , ( |2-3| 6-|5-1| |4-4| |3-0|
  • 89. Edit Distance The edit distance d(a, b) is the minimum-weight series of edit operations that transforms a into b. edit operations:  Insertion of a single symbol. If a = uv, then inserting the symbol x produces uxv. This can also be denoted ε→x, using ε to denote the empty string.  Deletion of a single symbol changes uxv to uv (x→ε).  Substitution of a single symbol x for a symbol y ≠ x changes uxv to uyv (x→y).  Transposition of two adjacent characters, formally characterized by an operation that changes uxyv into uyxv  Merge operation replaces a pair of characters with a single character, changes uxxv to uxv (xx→x)  Split operation replaces a single character into a pair of them, changes uxv to uxxv (x→xx) 89
  • 90. Hamming Distance Perhitungan Distance Menyatakan banyaknya anggota yang berbeda antara 2 data yang mempunyai kesamaan panjang karakter atau total anggota dengan operasi subtitution. Contoh: 90
  • 91. Jaro-Winkler Distance Perhitungan Distance Menyatakan banyaknya perbedaan antara 2 data yang mempunyai panjang karakter atau total anggota yang mungkin berbeda termasuk dengan transposition. 91
  • 92. Jaro-Winkler Distance Contoh: ▪ “cat and “act” ▪ similarity = 1/3 (3/3 + 3/3 + (3-1) /3) = 8/9 = 0,889 ▪ distance = 1 – 0,889 = 0,111 ▪ “from” and “form” ▪ similarity = 1/3 (4/4 + 4/4 + (4-1) /4) = 11/12 = 0,917 ▪ distance = 1 – 0,917 = 0,083 ▪ “angle” and “angel” ▪ similarity = 1/3 (5/5 + 5/5 + (5-1) /5) = 14/15 = 0,917 ▪ distance = 1 – 0,917 = 0,083 ▪ “trial” and “trail” ▪ similarity = 1/3 (5/5 + 5/5 + (5-1) /5) = 14/15 = 0,933 ▪ distance = 1 – 0,933 = 0,067 ▪ “blade” and “baled” ▪ similarity = 1/3 (5/5 + 5/5 + (5-2) /5) = 13/15 = 0,867 ▪ distance = 1 – 0,867 = 0,133 ▪ “interpret” and “entrepreneur” ▪ similarity = 1/3 (7/9 + 7/12 + (7-1) /7) = 559/756 = 0,739 ▪ distance = 1 – 0,739 = 0,261 92
  • 93. Longest Common Subsequence (LCS) Distance Perhitungan Distance Menyatakan banyaknya perbedaan antara 2 data yang mempunyai panjang karakter atau total anggota yang mungkin berbeda dengan insertion/deletion. Contoh: corpse → cropped , distance = 5 1. corpse → crpse (delete “o” at 1) 2. crpse → cropse (insert “o” at 2) 3. cropse → crope (delete “s” at 4) 4. crope → croppe (insert “p” at 4) 5. croppe → cropped (insert “d” at 6) 93
  • 94. Levenshtein Distance Perhitungan Distance Menyatakan banyaknya perbedaan antara 2 data yang mempunyai panjang karakter atau total anggota yang mungkin berbeda dengan insertion/deletion/substitution. Contoh: corpse → cropped , distance = 4 1. corpse → crpse (delete “o” at 1) 2. crpse → cropse (insert “o” at 2) 3. cropse → croppe (substitution of “p” for “s”) 4. croppe → cropped (insert “d” at the end) 94
  • 95. Damerau–Levenshtein Distance Perhitungan Distance Menyatakan banyaknya perbedaan antara 2 data yang mempunyai panjang karakter atau total anggota yang mungkin berbeda dengan insertion/deletion/substitution/ transposition. Contoh: corpse → cropped , distance = 3 1. corpse → cropse (transposition of “or” to “ro”) 2. cropse → croppe (substitution of “p” for “s”) 3. croppe → cropped (insert “d” at the end) 95
  • 96. Pembersihan Data (Data Cleansing) dan Proses Awal Data (Data Preprocessing) 96
  • 97. Pembersihan dan Proses Awal Data 97
  • 98. Pembersihan dan Proses Awal Data 98 Penting memperhatikan cara memperoleh data yang akan diolah Demikian pula cara mengolah data juga penting diperhatikan
  • 99. 99
  • 100. Pembersihan dan Proses Awal Data 100
  • 101. Pembersihan dan Proses Awal Data 101
  • 102. Pembersihan dan Proses Awal Data 102
  • 103. 103
  • 104. 104
  • 105. 105
  • 106. Pembersihan dan Proses Awal Data Pembersihan data (data cleaning or cleansing) adalah proses mencari, mendeteksi dan menghilangkan data palsu, rusak, keliru (tak akurat), atau menyimpang dari sekumpulan data, tabel atau basis data. Pembersihan data (data wrangling or munging) adalah proses transformasi dan memetakan data mentah yang tercemar (noise, error & irrelevant) dan berantakan (messy, unstructured & incosistent) menjadi bentuk lain yang lebih sesuai dan bermanfaat untuk proses berikutnya 106
  • 107. 107
  • 108. 108
  • 109. Pembersihan dan Proses Awal Data  How do I detect and control noise?—Noise Discovering.  How do I clean up the data?—Data Cleaning.  How do I handle missing data?—Missing Data Imputation.  How do I provide accurate data and standard format?—Data Transformation.  How do I incorporate and adjust data?—Data Integration.  How do I unify and scale data?—Data Structure Normalization.  How do I reduce the dimensionality of data?—Feature Selection (FS).  How do I remove redundant and/or conflictive examples?—Instance Selection (IS).  How do I simplify the domain of an attribute?—Discretization.  How do I fill in gaps in data?—Feature Extraction and/or Instance Generation. 109
  • 110. Pembersihan dan Proses Awal Data 110
  • 111. Problem Kualitas Data Noise and outliers Wrong data Fake data Missing values Duplicate data
  • 112. Noise  Untuk objek data, noise merupakan kejanggalan objek data yang asing dan tak selaras dengan pola umum  Untuk atribut data, noise merupakan perubahan atau penyimpangan dari nilai sesungguhnya  Contoh: distorsi suara penelepon ketika menggunakan telepon yang rusak, dan suara lain dari lingkungan yang ikut tertangkap mikrofon.  Gambar di bawah menunjukkan dua gelombang sinus dengan amplitudo sama namun frekuensi berbeda, gabungan kedua gelombang, dan gabungan kedua gelombang sinus yang terdistorsi oleh random noise acak.
  • 113. Outliers adalah objek data dengan karakteristik yang sangat berbeda dari sebagian besar objek data lainnya dalam dataset Kasus 1: Outliers menjadi noise yang mengganggu analisis data Kasus 2: Outliers menjadi tujuan analisis data ➢ Credit card fraud ➢ Intrusion detection Outliers
  • 114. Missing Values Latar belakang terjadinya missing values Informasi tidak dapat diperoleh karena keengganan, penolakan, kelalaian, kecurigaan atau kerahasiaan (misalnya responden tidak bersedia menyampaikan usia atau berat badannya) Atribut data yang tidak mungkin cocok untuk sebagian kasus (misalnya gaji untuk anak-anak) Kegagalan alat atau ketidak-sengajaan penghapusan. Penanganan missing values Mengeliminasi objek data atau variabel Mengestimasi missing values ➢Misalnya dengan regresi atau interpolasi ➢Misalnya dengan pencocokan pola pemusatan dari sebaran yang mirip Mengabaikan missing value selama analisis data
  • 115. Duplicate Data Dataset mungkin mengandung objek data yang redundansi atau terduplikasi secara utuh atau sebagian. Contoh: orang yang sama dengan alamat e-mail berbeda Pengumpulan data dari beberapa sumber heterogen mempunyai isu mayor memperoleh duplicate data. Contoh: data identitas pribadi orang yang sama diperoleh dari instansi kependudukan dan dari afiliasi pekerjaan Penanganan duplicate data Mengeliminasi duplicate data Mencatat atau merekap frekuensi duplikasi Mengumpulkan subset data yang menjadi data-child untuk sebagian data berbeda
  • 116. Operasi Dasar dalam Data Preprocessing  Data cleaning  Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies  Data integration  Integration of multiple databases, data cubes, or files  Data reduction  Dimensionality reduction  Numerosity reduction  Data compression  Data transformation and data discretization  Normalization  Concept hierarchy generation 116
  • 117. 117 Terima kasih ... ... Ada pertanyaan ???