SlideShare a Scribd company logo
1 of 100
Download to read offline
PREPARASI DATA:
Penetapan Tujuan dan
Pengumpulan Data
ARIF RAHMAN
1
2
3
Godsey, B, Think Like a Data
Scientist: Tackle the Data
Science Process Step-by-Step
4
5
Cielen, D, Meysman, ADB, & Ali, M,
Introducing Data Science: Big Data,
Machine Learning, and More, Using
Python Tools
Aplikasi
Data Science
6
Aplikasi Data Science
7
8
9
10
Penetapan Tujuan
(Set Goals)
11
Penetapan Tujuan Analisis Data
Sesuai jenis risetnya, apakah eksploratif, deskriptif, atau
eksplanatif.
Sesuai metode risetnya, apakah metode ilmiah (scientific
method) atau metode rekayasa (engineering method).
Sesuai konteks aplikasinya terkait “system of interest” dan
“problem domain”-nya.
Diinisiasi oleh pertanyaan dari perspektif stakeholder dengan
analogi personifikasi atas permasalahan di sistem yang ingin
dievaluasi.
Disederhanakan dengan menyisakan elemen-elemen relevan
dan penting, agar fokus dan terarah
12
Jenis Riset Dasar
 Riset Eksploratif (Exploratory Research). Riset yang menggali berbagai data untuk
menjabarkan permasalahan dan mengidentifikasi elemen-elemen relevan dan penting
 Riset Deskriptif (Descriptive Research). Riset yang mengorganisasi data untuk
mendeskripsikan permasalahan dan mengilustrasikan status elemen-elemen relevan
dan penting
 Riset Eksplanatif (Explanatory/Causal Research). Riset yang menggunakan data
untuk menguji hipotesa atas permasalahan dan mengevaluasi relasi elemen-elemen
relevan dan penting
13
Jenis Riset Dasar
14
Setting goals by asking good questions
 Put ourself in the stakeholders’
shoes
 Understand context of domain
 Specify stakeholders’
requirements
 Identify data needs
 Encapsulate a problem in a
single question and break it
down into smaller parts
 Ask specific and useful
questions
17
Penetapan Tujuan Diinisiasi Pertanyaan
18
apakah yang akan diselesaikan data science?
apakah hipotesa model pola datanya?
apa sajakah data-data yang diperlukan?
di manakah data science ini diterapkan?
di manakah sistem dan problem domain?
dari mana sajakah data-data diperoleh?
siapakah stakeholdernya?
apa peranan atau
keterkaitannya dengan
keputusan atas masalah?
siapa sajakah yang punya
otoritas atas data yang
diperlukan?
kapankah data science diterapkan?
kapankah data-data yang diperoleh?
kapankah perkiraan waktu dari
informasi yang diperlukan?
bagaimanakah data
science diterapkan?
bagaimanakah menggali
data-data relevan?
bagaimanakah model
pola data dianalisa?
mengapa data science diperlukan?
mengapa data-data relevan diperlukan?
mengapa terbentuk model pola data?
Perumusan Tujuan dengan Analisa Awal
19
20
Penyederhanaan Tujuan dengan Prioritas
21
22
Penyederhanaan Tujuan dengan Prioritas
23
Penyederhanaan Tujuan dengan Prioritas
Lingkup “system of interest” dan “problem domain”
dibatasi sesuai prioritas.
Tidak semua kebutuhan stakeholder akan dipenuhi,
dibatasi yang relevan dan penting dalam
permasalahan.
Tidak semua elemen sistem akan dianalisis, dibatasi
yang relevan dan penting dalam permasalahan.
24
Misal: tujuan keputusan strategis
spesifik pada segmen pasar sasaran
25
26
Pengumpulan Data
(Data Sourcing)
27
28
Pengumpulan Data
29
Pengumpulan Data
30
Penting memperhatikan
cara memperoleh
data yang akan diolah
Demikian pula
cara mengolah data
juga penting diperhatikan
Pengumpulan Data
Pengumpulan data (data sourcing or acquisition or
extraction) adalah proses memilih sumber data (internal dan
eksternal), menggali data (metode dan kontinyuitas),
mengumpulkan data (klasifikasi dan relasi) dan
mengorganisasi data (terintegrasi dan terdistribusi) yang
relevan dengan tujuan studi.
Pengumpulan data dapat dilakukan dalam waktu terbatas
(berbentuk batch) atau berkelanjutan kontinyu (berbentuk
stream)
31
Pengumpulan Data
 Pengumpulan data manual (data collection/gathering) yakni
pengumpulan data yang dilakukan oleh peneliti yang berinteraksi
secara langsung dengan sumber data tanpa/dengan bantuan alat.
 Pemindaian data otomatis (data capture) yakni pengumpulan data
yang dilakukan oleh alat sensor yang memindai, mengidentifikasi,
menangkap, mengekstrak, mentransformasi dan merekam data dari
sumber data.
 Absorpsi data (data ingestion) yakni pengumpulan data yang
dilakukan oleh algoritma komputasi yang menyerap berbagai tipe data
dari banyak sumber data dengan mengimpor dan mentransfernya, lalu
memuatnya ke sistem penyimpanan data target untuk penggunaan dan
pengolahan di masa mendatang
32
Pengumpulan Data Manual
 Census untuk mengumpulkan data atau informasi dari semua anggota populasi.
 Retrospective study untuk mengumpulkan data atau informasi yang terjadi di masa
lalu (historical data)
 Observational study untuk mengumpulkan data atau informasi dengan pengamatan /
observasi di sistem aktual yang sedang terjadi
 Designed experiment untuk mengumpulkan data atau informasi melalui
eksperimentasi di sistem dengan pengkondisian yang telah dirancang terlebih dahulu
 Simulation study untuk mengumpulkan data atau informasi dengan observasi atau
eksperimentasi pada prototype atau model yang mewakili sistem
 Survey study untuk mengumpulkan data atau informasi dari sangat banyak
stakeholder untuk menelusuri pendapat umum pada perkara terstruktur
 Interview study untuk mengumpulkan data atau informasi dari banyak stakeholder
untuk menggali banyak pendapat pada perkara tak-terstruktur
 Focus Group study untuk mengumpulkan data atau informasi dari beberapa orang
(6-10) yang mendiskusikan topik atau subtopik spesifik dari permasalahan.
33
Pengumpulan Data Manual
34
35
36
37
Pengumpulan Data Manual
38
Pengumpulan Data Manual
39
40
Pemindaian Data Otomatis
Teknologi Pemindaian Data Otomatis terdiri dari tiga komponen
dasar, yaitu:
 Encoded. Komponen yang mengubah data dalam format kode yang
berupa satu set simbol atau sinyal (biasanya dalam karakter
alfanumerik). Ketika data ter-encoded, data tersebut diterjemahkan
dalam machine-readable code.
 Machine reader or scanner. Komponen yang membaca encoded
data, mengkonversikannya dalam format lain, biasanya dalam sinyal
elektrik.
 Decoder. Komponen yang mentransformasikan sinyal elektrik menjadi
data digital yang selanjutnya dapat diolah untuk menjadi informasi yang
sesuai data awal.
41
Pemindaian Data Otomatis
42
Pemindaian Data Otomatis
1. Optical
Bar codes (linear and 2-D), optical character recognition (OCR), optical mark recognition
(OMR), machine vision, image capture, video capture
2. Magnetic
Magnetic stripe, magnetic ink character recognition (MICR)
3. Electromagnetic
Radio frequency identification (RFID)
4. Smart Card
Small plastic cards imbedded with microchips (integrated circuits)
5. Touch Techniques
Touch screens
6. Biometric
Voice recognition, facial recognition, fingerprint analysis, retinal eye scans
43
Pemindaian Data Otomatis
44
Pemindaian Data Otomatis
45
Pemindaian Data Otomatis
46
47
48
49
50
Isu Data Ingestion
51
52
53
54
55
56
Web Scraping
Web scraping atau “web harvesting” atau “web data
extraction” adalah konstruksi agent (object beralgoritma AI)
yang mempunyai fungsi mengunduh (download), mengurai
(parse), dan mengorganisasi (organize) data dari web secara
otomatis.
Atau dengan kata lain, mengunduh, menyalin dan merekam
banyak data dari laman web termasuk data aktivitas
pengunjung laman web tersebut ke spreadsheet atau
basisdata secara otomatis.
57
Web Scraping
58
Web Scraping
59
Web Scraping vs Web Crawling
60
Web Scraping vs Web Crawling
61
Web Scraping vs Web Crawling
62
63
64
65
66
67
68
69
70
71
72
73
ETL vs ELT
74
75
Kesalahan dalam
Pengumpulan Data
76
Kesalahan Pemilihan Sumber Data
Random error : kesalahan sampling karena
sebaran sampel kurang merepresentasikan distribusi
populasi. → abandoned subset of population
Systematic error : kesalahan sampling karena
sampel terkumpul di sebagian populasi yang dibatasi
rentang waktu tertentu atau lokasi tertentu dan
melalaikan sebagian yang lain. → undercoverage
Illegitimate error : kesalahan sampling karena
sampel dari populasi yang berbeda → overcoverage
77
Kesalahan Pemilihan Sumber Data
78
79
Kesalahan Proses Pengukuran
Random error : kesalahan tak terkendali antar
pengukuran, karena faktor keacakan dari objek ukur,
operator, alat ukur, lingkungan atau noise lainnya.
Systematic error : kesalahan yang berulang dan
membiaskan hasil, karena kegagalan operator atau
alat ukur, kesalahan prosedur, pengaruh lingkungan
Illegitimate error : kesalahan insidental dan
menghasilkan outlier, karena keteledoran, keliru
kalkulasi, atau kesalahan lainnya
80
Kesalahan Proses Pengukuran
81
82
Kesalahan Konten Data
 Unusual value (outlier), data yang sangat jauh dari kumpulan data utama,
karena illegitimate error pengukuran atau mungkin sampel berasal dari populasi lain
(terdapat faktor yang berbeda).
 Missing value, data relevan yang kurang atau tidak lengkap, karena kealpaan
pengukuran atau pencatatannya, atau sebaran sampel kurang baik.
 Bias, pergeseran data dari nilai yang sebenarnya, karena systematic error
pengukuran.
 Fake data, data palsu, fiktif, manipulasi, dugaan, prediksi.
 Illegal data, data dari sumber yang belum/tidak terpercaya atau bahkan tidak
mempunyai akses pada data.
 Irrelevant data, data yang berbeda atau berubah karena diperoleh dari time frame
yang lain, atau perlakuan yang lain, atau tujuan studi yang lain, atau pendekatan yang
lain, atau faktor-faktor lainnya.
83
Kesalahan Konten Data
84
Kualitas Data
85
Problem Data
Data yang dikumpulkan dari banyak sumber berbeda
dengan banyak metode akan menyebabkan problem:
Heterogeneity and Diversity, data dengan format
dan struktur yang beragam dan berantakan.
Data Quality, data yang tercemar noise, error, outlier,
missing value, bias, fake data, illegal data dan irrelevant data.
Scale, data yang berskala besar yang membutuhkan upaya
ekstra untuk mengolahnya.
86
Kualitas Data
87
Do data reflect
the real value?
Are data values within
the specified value domains?
Are data available
at the time needed?
Are data integrity and
relationships definite?
Are data consistent
under certain condition?
Are all required
data present?
Kualitas Data
88
Degree to which data
represents the reality
Degree to which data are within defined
requirements like format, type and range
Degree to which data are
available at the time they
are needed
Degree to which data are
unique and cannot be
mistaken for other entries
Degree to which data
are equal within and
between datasets
Degree to which required
data are available for use
Kualitas Informasi
89
Kualitas Informasi
90
Kualitas Informasi
91
Kualitas Informasi
92
Impor Data
dalam Python
93
Memanggil Numpy dan Pandas
>>> import numpy as np
>>> import pandas as pd
94
Impor File ekstensi “txt”
>>> filename = '*********.txt'
>>> file = open(filename, mode = 'r' ) #Open the file for reading
>>> text = file.read() #Read a file’s contents
>>> print(file.closed) #Check whether file is closed
>>> file.close() #Close file
>>> print(text)
Using the context manager with
>>> with open('********.txt', 'r' ) as file:
print(file.readline()) #Read a single line
print(file.readline())
print(file.readline())
95
Impor File ekstensi “txt”
Using Numpy
>>> filename = '*********.txt'
>>> data = np.loadtxt(filename,
delimiter= ',', #String used to separate values
skiprows=2, #Skip the first 2 lines
usecols=[0,2], #Read the 1st and 3rd column
dtype=str) #The type of the resulting array
96
Impor File ekstensi “csv”
Using Numpy
>>> filename = '*********.csv'
>>> data = np. genfromtxt(filename,
delimiter= ‘,', #String used to separate values
names=True, #Look for column header
dtype=None)
>>> data_array = np.recfromcsv(filename) #The default dtype of the np.recfromcsv()
function is None
97
Impor File ekstensi “csv”
Using Pandas
>>> filename = '*********.csv'
>>> data = pd.read_csv(filename,
nrows=5, #Number of rows of file to read
header=None, #Row number to use as col names
sep=‘t', #Delimiter to use
comment=‘#', #Character to split comments
na_values=[“”]) #String to recognize as NA/NaN
>>> data_array = data.values #Convert a DataFrame to an a NumPy array
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
98
Impor File ekstensi “xls” or “xlsx”
Using Pandas
>>> filename = '*********.xls'
>>> data = pd.ExcelFile(filename)
>>> df_sheet2 = data.parse(sheet_name, #To access the sheet_name
skiprows=[0],
names=[ ])
>>> df_sheet1 = data.parse(0,
parse_cols=[0],
skiprows=[0],
names=[ ])
https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html
https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html
99
100
Terima kasih ...
... Ada pertanyaan ???

More Related Content

Similar to Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Analisis Data 03

Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
butest
 
[PPT] BAB 2 KONSEP DASAR SISTEM, INFORMASI DAN SISTEM TEKNOLOGI INFORMASI
[PPT] BAB 2 KONSEP DASAR SISTEM, INFORMASI DAN SISTEM TEKNOLOGI INFORMASI[PPT] BAB 2 KONSEP DASAR SISTEM, INFORMASI DAN SISTEM TEKNOLOGI INFORMASI
[PPT] BAB 2 KONSEP DASAR SISTEM, INFORMASI DAN SISTEM TEKNOLOGI INFORMASI
Dedes ssi
 
Tik in organisation
Tik in organisationTik in organisation
Tik in organisation
rusdicinere
 
Analisa dan perancangan sistem informasi 02 analisa sistem
Analisa dan perancangan sistem informasi 02   analisa sistemAnalisa dan perancangan sistem informasi 02   analisa sistem
Analisa dan perancangan sistem informasi 02 analisa sistem
Edri Yunizal
 
Kuliah 2a penelitian di bidang ilmu komputer
Kuliah 2a penelitian di bidang ilmu komputerKuliah 2a penelitian di bidang ilmu komputer
Kuliah 2a penelitian di bidang ilmu komputer
Nur Anita Okaya
 

Similar to Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Analisis Data 03 (20)

Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian data
 
Materi Data Science Teknik Informatika Politeknik TEDC
Materi Data Science Teknik Informatika Politeknik TEDCMateri Data Science Teknik Informatika Politeknik TEDC
Materi Data Science Teknik Informatika Politeknik TEDC
 
Pertemuan 10 - Metodologi Data Science - Copy.pptx
Pertemuan 10 - Metodologi Data Science - Copy.pptxPertemuan 10 - Metodologi Data Science - Copy.pptx
Pertemuan 10 - Metodologi Data Science - Copy.pptx
 
Apsi pertemuan 1
Apsi pertemuan 1Apsi pertemuan 1
Apsi pertemuan 1
 
Statistik.xlsx
Statistik.xlsxStatistik.xlsx
Statistik.xlsx
 
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptxHerwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
 
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptxKuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
 
[PPT] BAB 2 KONSEP DASAR SISTEM, INFORMASI DAN SISTEM TEKNOLOGI INFORMASI
[PPT] BAB 2 KONSEP DASAR SISTEM, INFORMASI DAN SISTEM TEKNOLOGI INFORMASI[PPT] BAB 2 KONSEP DASAR SISTEM, INFORMASI DAN SISTEM TEKNOLOGI INFORMASI
[PPT] BAB 2 KONSEP DASAR SISTEM, INFORMASI DAN SISTEM TEKNOLOGI INFORMASI
 
Pengantar Data Mining di Teknik Lingkungan
Pengantar Data Mining di Teknik LingkunganPengantar Data Mining di Teknik Lingkungan
Pengantar Data Mining di Teknik Lingkungan
 
Pert 03 introduction dm 2012
Pert 03 introduction dm 2012Pert 03 introduction dm 2012
Pert 03 introduction dm 2012
 
SIM 9, Rosmala Dewi, Prof.Dr.Ir. Hapzi Ali, mm, cm. Decision Support System (...
SIM 9, Rosmala Dewi, Prof.Dr.Ir. Hapzi Ali, mm, cm. Decision Support System (...SIM 9, Rosmala Dewi, Prof.Dr.Ir. Hapzi Ali, mm, cm. Decision Support System (...
SIM 9, Rosmala Dewi, Prof.Dr.Ir. Hapzi Ali, mm, cm. Decision Support System (...
 
Tik in organisation
Tik in organisationTik in organisation
Tik in organisation
 
Analisa dan perancangan sistem informasi 02 analisa sistem
Analisa dan perancangan sistem informasi 02   analisa sistemAnalisa dan perancangan sistem informasi 02   analisa sistem
Analisa dan perancangan sistem informasi 02 analisa sistem
 
10
1010
10
 
SISTEM PENDUKUNG KEPUTUSAN MENGGUNAKAN METODE ANALYTICAL HIERARCHY PROCESS...
SISTEM PENDUKUNG KEPUTUSAN  MENGGUNAKAN METODE ANALYTICAL   HIERARCHY PROCESS...SISTEM PENDUKUNG KEPUTUSAN  MENGGUNAKAN METODE ANALYTICAL   HIERARCHY PROCESS...
SISTEM PENDUKUNG KEPUTUSAN MENGGUNAKAN METODE ANALYTICAL HIERARCHY PROCESS...
 
01. Pengantar Penambangan Data.pdf
01. Pengantar Penambangan Data.pdf01. Pengantar Penambangan Data.pdf
01. Pengantar Penambangan Data.pdf
 
Kuliah 2a penelitian di bidang ilmu komputer
Kuliah 2a penelitian di bidang ilmu komputerKuliah 2a penelitian di bidang ilmu komputer
Kuliah 2a penelitian di bidang ilmu komputer
 
BAB_5_Data_Mining.ppt
BAB_5_Data_Mining.pptBAB_5_Data_Mining.ppt
BAB_5_Data_Mining.ppt
 
P1 data mining
P1  data mining P1  data mining
P1 data mining
 

More from Arif Rahman

More from Arif Rahman (20)

Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
 
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
 
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
 
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
 
Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02
 
Pengantar Analisis Data - Modul Ajar Kuliah Analisis Data 01
Pengantar Analisis Data - Modul Ajar Kuliah Analisis Data 01Pengantar Analisis Data - Modul Ajar Kuliah Analisis Data 01
Pengantar Analisis Data - Modul Ajar Kuliah Analisis Data 01
 
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
 
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
 
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
 
Modul Ajar Statistika Inferensia ke-10: Analisis Regresi Nonlinier
Modul Ajar Statistika Inferensia ke-10: Analisis Regresi NonlinierModul Ajar Statistika Inferensia ke-10: Analisis Regresi Nonlinier
Modul Ajar Statistika Inferensia ke-10: Analisis Regresi Nonlinier
 
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
 
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
 
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
 
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
 
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata NonparametrikModul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
 
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi ParametrikModul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
 
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi ParametrikModul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
 
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata ParametrikModul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
 
Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...
Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...
Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...
 
Doe15 factorialmixed
Doe15 factorialmixedDoe15 factorialmixed
Doe15 factorialmixed
 

Recently uploaded

Petunjuk teknis Pengisian Usulan Alat Kesehatan SOPHI.pptx
Petunjuk teknis Pengisian Usulan Alat Kesehatan SOPHI.pptxPetunjuk teknis Pengisian Usulan Alat Kesehatan SOPHI.pptx
Petunjuk teknis Pengisian Usulan Alat Kesehatan SOPHI.pptx
pkmcipakudrive
 
obat aborsi Pangkal pinang Wa 082223109953 Jual obat aborsi Cytotec asli Di P...
obat aborsi Pangkal pinang Wa 082223109953 Jual obat aborsi Cytotec asli Di P...obat aborsi Pangkal pinang Wa 082223109953 Jual obat aborsi Cytotec asli Di P...
obat aborsi Pangkal pinang Wa 082223109953 Jual obat aborsi Cytotec asli Di P...
obat aborsi Pangkal pinang 082223109953 Jual obat aborsi
 
ESTIMASI BIAYA PEMELIHARAAN BANGUNAN BERDASARKAN PEDOMAN PEMELIHARAAN DAN.pptx
ESTIMASI BIAYA PEMELIHARAAN BANGUNAN BERDASARKAN PEDOMAN PEMELIHARAAN DAN.pptxESTIMASI BIAYA PEMELIHARAAN BANGUNAN BERDASARKAN PEDOMAN PEMELIHARAAN DAN.pptx
ESTIMASI BIAYA PEMELIHARAAN BANGUNAN BERDASARKAN PEDOMAN PEMELIHARAAN DAN.pptx
adnijayautama
 
Obat Aborsi Sungai Penuh 082223109953 Jual Cytotec Asli Di Sungai Penuh
Obat Aborsi Sungai Penuh 082223109953 Jual Cytotec Asli Di Sungai PenuhObat Aborsi Sungai Penuh 082223109953 Jual Cytotec Asli Di Sungai Penuh
Obat Aborsi Sungai Penuh 082223109953 Jual Cytotec Asli Di Sungai Penuh
Obat Aborsi Sungai Penuh 082223109953 Jual Cytotec Asli
 
Electrostatic Precipitator handbook manual
Electrostatic Precipitator handbook manualElectrostatic Precipitator handbook manual
Electrostatic Precipitator handbook manual
dendranov19
 
Bahan kuliah elemen mesin semester 2 rekayasa manufaktur
Bahan kuliah elemen mesin semester 2 rekayasa manufakturBahan kuliah elemen mesin semester 2 rekayasa manufaktur
Bahan kuliah elemen mesin semester 2 rekayasa manufaktur
AhmadAffandi36
 
Obat Aborsi jakarta WA 082223109953 Jual Obat Aborsi Cytotec Asli Di jakarta
Obat Aborsi jakarta WA 082223109953  Jual Obat Aborsi Cytotec Asli Di jakartaObat Aborsi jakarta WA 082223109953  Jual Obat Aborsi Cytotec Asli Di jakarta
Obat Aborsi jakarta WA 082223109953 Jual Obat Aborsi Cytotec Asli Di jakarta
Obat Aborsi jakarta WA 082223109953 Cytotec Asli Di jakarta
 
Jual Obat Aborsi Denpasar Bali ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik...
Jual Obat Aborsi Denpasar Bali ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik...Jual Obat Aborsi Denpasar Bali ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik...
Jual Obat Aborsi Denpasar Bali ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik...
Jual Obat Aborsi Denpasar ( Asli Ampuh No.1 ) 082223109953
 
Jual Cytotec Di Batam Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Batam Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Batam Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Batam Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
ssupi412
 
Jual Obat Aborsi Batam ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jual Ob...
Jual Obat Aborsi Batam ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jual Ob...Jual Obat Aborsi Batam ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jual Ob...
Jual Obat Aborsi Batam ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jual Ob...
Jual Obat Aborsi Batam ( Asli Ampuh No.1 ) 082223109953
 
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptxPresentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
yoodika046
 

Recently uploaded (16)

Petunjuk teknis Pengisian Usulan Alat Kesehatan SOPHI.pptx
Petunjuk teknis Pengisian Usulan Alat Kesehatan SOPHI.pptxPetunjuk teknis Pengisian Usulan Alat Kesehatan SOPHI.pptx
Petunjuk teknis Pengisian Usulan Alat Kesehatan SOPHI.pptx
 
Gambar Rencana TOYOMARTO KETINDAN Malang jawa timur.pdf
Gambar Rencana TOYOMARTO KETINDAN Malang jawa timur.pdfGambar Rencana TOYOMARTO KETINDAN Malang jawa timur.pdf
Gambar Rencana TOYOMARTO KETINDAN Malang jawa timur.pdf
 
obat aborsi Pangkal pinang Wa 082223109953 Jual obat aborsi Cytotec asli Di P...
obat aborsi Pangkal pinang Wa 082223109953 Jual obat aborsi Cytotec asli Di P...obat aborsi Pangkal pinang Wa 082223109953 Jual obat aborsi Cytotec asli Di P...
obat aborsi Pangkal pinang Wa 082223109953 Jual obat aborsi Cytotec asli Di P...
 
PPT PELAKSANA LAPANGAN PERPIPAAN MADYA - IWAN SYAHRONI.pptx
PPT PELAKSANA LAPANGAN PERPIPAAN MADYA - IWAN SYAHRONI.pptxPPT PELAKSANA LAPANGAN PERPIPAAN MADYA - IWAN SYAHRONI.pptx
PPT PELAKSANA LAPANGAN PERPIPAAN MADYA - IWAN SYAHRONI.pptx
 
ESTIMASI BIAYA PEMELIHARAAN BANGUNAN BERDASARKAN PEDOMAN PEMELIHARAAN DAN.pptx
ESTIMASI BIAYA PEMELIHARAAN BANGUNAN BERDASARKAN PEDOMAN PEMELIHARAAN DAN.pptxESTIMASI BIAYA PEMELIHARAAN BANGUNAN BERDASARKAN PEDOMAN PEMELIHARAAN DAN.pptx
ESTIMASI BIAYA PEMELIHARAAN BANGUNAN BERDASARKAN PEDOMAN PEMELIHARAAN DAN.pptx
 
Obat Aborsi Sungai Penuh 082223109953 Jual Cytotec Asli Di Sungai Penuh
Obat Aborsi Sungai Penuh 082223109953 Jual Cytotec Asli Di Sungai PenuhObat Aborsi Sungai Penuh 082223109953 Jual Cytotec Asli Di Sungai Penuh
Obat Aborsi Sungai Penuh 082223109953 Jual Cytotec Asli Di Sungai Penuh
 
Makalah pptMOTOR LISTRIK DAN MOTOR AC.pptx
Makalah pptMOTOR LISTRIK DAN MOTOR AC.pptxMakalah pptMOTOR LISTRIK DAN MOTOR AC.pptx
Makalah pptMOTOR LISTRIK DAN MOTOR AC.pptx
 
Electrostatic Precipitator handbook manual
Electrostatic Precipitator handbook manualElectrostatic Precipitator handbook manual
Electrostatic Precipitator handbook manual
 
Bahan kuliah elemen mesin semester 2 rekayasa manufaktur
Bahan kuliah elemen mesin semester 2 rekayasa manufakturBahan kuliah elemen mesin semester 2 rekayasa manufaktur
Bahan kuliah elemen mesin semester 2 rekayasa manufaktur
 
Obat Aborsi jakarta WA 082223109953 Jual Obat Aborsi Cytotec Asli Di jakarta
Obat Aborsi jakarta WA 082223109953  Jual Obat Aborsi Cytotec Asli Di jakartaObat Aborsi jakarta WA 082223109953  Jual Obat Aborsi Cytotec Asli Di jakarta
Obat Aborsi jakarta WA 082223109953 Jual Obat Aborsi Cytotec Asli Di jakarta
 
Jual Obat Aborsi Denpasar Bali ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik...
Jual Obat Aborsi Denpasar Bali ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik...Jual Obat Aborsi Denpasar Bali ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik...
Jual Obat Aborsi Denpasar Bali ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik...
 
Jual Cytotec Di Batam Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Batam Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Batam Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Batam Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
 
Jual Obat Aborsi Batam ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jual Ob...
Jual Obat Aborsi Batam ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jual Ob...Jual Obat Aborsi Batam ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jual Ob...
Jual Obat Aborsi Batam ( Asli Ampuh No.1 ) 082223109953 Tempat Klinik Jual Ob...
 
Pelaksana Lapangan Pekerjaan Bangun air Limbah Permukiman Madya
Pelaksana Lapangan Pekerjaan Bangun air Limbah Permukiman MadyaPelaksana Lapangan Pekerjaan Bangun air Limbah Permukiman Madya
Pelaksana Lapangan Pekerjaan Bangun air Limbah Permukiman Madya
 
K3 INSTALASI PENYALUR PETIR PERMEN 31 TH 2015
K3 INSTALASI PENYALUR PETIR PERMEN 31 TH 2015K3 INSTALASI PENYALUR PETIR PERMEN 31 TH 2015
K3 INSTALASI PENYALUR PETIR PERMEN 31 TH 2015
 
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptxPresentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
Presentation Bisnis Teknologi Modern Biru & Ungu_20240429_074226_0000.pptx
 

Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Analisis Data 03

  • 1. PREPARASI DATA: Penetapan Tujuan dan Pengumpulan Data ARIF RAHMAN 1
  • 2. 2
  • 3. 3 Godsey, B, Think Like a Data Scientist: Tackle the Data Science Process Step-by-Step
  • 4. 4
  • 5. 5 Cielen, D, Meysman, ADB, & Ali, M, Introducing Data Science: Big Data, Machine Learning, and More, Using Python Tools
  • 8. 8
  • 9. 9
  • 10. 10
  • 12. Penetapan Tujuan Analisis Data Sesuai jenis risetnya, apakah eksploratif, deskriptif, atau eksplanatif. Sesuai metode risetnya, apakah metode ilmiah (scientific method) atau metode rekayasa (engineering method). Sesuai konteks aplikasinya terkait “system of interest” dan “problem domain”-nya. Diinisiasi oleh pertanyaan dari perspektif stakeholder dengan analogi personifikasi atas permasalahan di sistem yang ingin dievaluasi. Disederhanakan dengan menyisakan elemen-elemen relevan dan penting, agar fokus dan terarah 12
  • 13. Jenis Riset Dasar  Riset Eksploratif (Exploratory Research). Riset yang menggali berbagai data untuk menjabarkan permasalahan dan mengidentifikasi elemen-elemen relevan dan penting  Riset Deskriptif (Descriptive Research). Riset yang mengorganisasi data untuk mendeskripsikan permasalahan dan mengilustrasikan status elemen-elemen relevan dan penting  Riset Eksplanatif (Explanatory/Causal Research). Riset yang menggunakan data untuk menguji hipotesa atas permasalahan dan mengevaluasi relasi elemen-elemen relevan dan penting 13
  • 15.
  • 16.
  • 17. Setting goals by asking good questions  Put ourself in the stakeholders’ shoes  Understand context of domain  Specify stakeholders’ requirements  Identify data needs  Encapsulate a problem in a single question and break it down into smaller parts  Ask specific and useful questions 17
  • 18. Penetapan Tujuan Diinisiasi Pertanyaan 18 apakah yang akan diselesaikan data science? apakah hipotesa model pola datanya? apa sajakah data-data yang diperlukan? di manakah data science ini diterapkan? di manakah sistem dan problem domain? dari mana sajakah data-data diperoleh? siapakah stakeholdernya? apa peranan atau keterkaitannya dengan keputusan atas masalah? siapa sajakah yang punya otoritas atas data yang diperlukan? kapankah data science diterapkan? kapankah data-data yang diperoleh? kapankah perkiraan waktu dari informasi yang diperlukan? bagaimanakah data science diterapkan? bagaimanakah menggali data-data relevan? bagaimanakah model pola data dianalisa? mengapa data science diperlukan? mengapa data-data relevan diperlukan? mengapa terbentuk model pola data?
  • 19. Perumusan Tujuan dengan Analisa Awal 19
  • 20. 20
  • 22. 22
  • 24. Penyederhanaan Tujuan dengan Prioritas Lingkup “system of interest” dan “problem domain” dibatasi sesuai prioritas. Tidak semua kebutuhan stakeholder akan dipenuhi, dibatasi yang relevan dan penting dalam permasalahan. Tidak semua elemen sistem akan dianalisis, dibatasi yang relevan dan penting dalam permasalahan. 24
  • 25. Misal: tujuan keputusan strategis spesifik pada segmen pasar sasaran 25
  • 26. 26
  • 28. 28
  • 30. Pengumpulan Data 30 Penting memperhatikan cara memperoleh data yang akan diolah Demikian pula cara mengolah data juga penting diperhatikan
  • 31. Pengumpulan Data Pengumpulan data (data sourcing or acquisition or extraction) adalah proses memilih sumber data (internal dan eksternal), menggali data (metode dan kontinyuitas), mengumpulkan data (klasifikasi dan relasi) dan mengorganisasi data (terintegrasi dan terdistribusi) yang relevan dengan tujuan studi. Pengumpulan data dapat dilakukan dalam waktu terbatas (berbentuk batch) atau berkelanjutan kontinyu (berbentuk stream) 31
  • 32. Pengumpulan Data  Pengumpulan data manual (data collection/gathering) yakni pengumpulan data yang dilakukan oleh peneliti yang berinteraksi secara langsung dengan sumber data tanpa/dengan bantuan alat.  Pemindaian data otomatis (data capture) yakni pengumpulan data yang dilakukan oleh alat sensor yang memindai, mengidentifikasi, menangkap, mengekstrak, mentransformasi dan merekam data dari sumber data.  Absorpsi data (data ingestion) yakni pengumpulan data yang dilakukan oleh algoritma komputasi yang menyerap berbagai tipe data dari banyak sumber data dengan mengimpor dan mentransfernya, lalu memuatnya ke sistem penyimpanan data target untuk penggunaan dan pengolahan di masa mendatang 32
  • 33. Pengumpulan Data Manual  Census untuk mengumpulkan data atau informasi dari semua anggota populasi.  Retrospective study untuk mengumpulkan data atau informasi yang terjadi di masa lalu (historical data)  Observational study untuk mengumpulkan data atau informasi dengan pengamatan / observasi di sistem aktual yang sedang terjadi  Designed experiment untuk mengumpulkan data atau informasi melalui eksperimentasi di sistem dengan pengkondisian yang telah dirancang terlebih dahulu  Simulation study untuk mengumpulkan data atau informasi dengan observasi atau eksperimentasi pada prototype atau model yang mewakili sistem  Survey study untuk mengumpulkan data atau informasi dari sangat banyak stakeholder untuk menelusuri pendapat umum pada perkara terstruktur  Interview study untuk mengumpulkan data atau informasi dari banyak stakeholder untuk menggali banyak pendapat pada perkara tak-terstruktur  Focus Group study untuk mengumpulkan data atau informasi dari beberapa orang (6-10) yang mendiskusikan topik atau subtopik spesifik dari permasalahan. 33
  • 35. 35
  • 36. 36
  • 37. 37
  • 40. 40
  • 41. Pemindaian Data Otomatis Teknologi Pemindaian Data Otomatis terdiri dari tiga komponen dasar, yaitu:  Encoded. Komponen yang mengubah data dalam format kode yang berupa satu set simbol atau sinyal (biasanya dalam karakter alfanumerik). Ketika data ter-encoded, data tersebut diterjemahkan dalam machine-readable code.  Machine reader or scanner. Komponen yang membaca encoded data, mengkonversikannya dalam format lain, biasanya dalam sinyal elektrik.  Decoder. Komponen yang mentransformasikan sinyal elektrik menjadi data digital yang selanjutnya dapat diolah untuk menjadi informasi yang sesuai data awal. 41
  • 43. Pemindaian Data Otomatis 1. Optical Bar codes (linear and 2-D), optical character recognition (OCR), optical mark recognition (OMR), machine vision, image capture, video capture 2. Magnetic Magnetic stripe, magnetic ink character recognition (MICR) 3. Electromagnetic Radio frequency identification (RFID) 4. Smart Card Small plastic cards imbedded with microchips (integrated circuits) 5. Touch Techniques Touch screens 6. Biometric Voice recognition, facial recognition, fingerprint analysis, retinal eye scans 43
  • 47. 47
  • 48. 48
  • 49. 49
  • 50. 50
  • 52. 52
  • 53. 53
  • 54. 54
  • 55. 55
  • 56. 56
  • 57. Web Scraping Web scraping atau “web harvesting” atau “web data extraction” adalah konstruksi agent (object beralgoritma AI) yang mempunyai fungsi mengunduh (download), mengurai (parse), dan mengorganisasi (organize) data dari web secara otomatis. Atau dengan kata lain, mengunduh, menyalin dan merekam banyak data dari laman web termasuk data aktivitas pengunjung laman web tersebut ke spreadsheet atau basisdata secara otomatis. 57
  • 60. Web Scraping vs Web Crawling 60
  • 61. Web Scraping vs Web Crawling 61
  • 62. Web Scraping vs Web Crawling 62
  • 63. 63
  • 64. 64
  • 65. 65
  • 66. 66
  • 67. 67
  • 68. 68
  • 69. 69
  • 70. 70
  • 71. 71
  • 72. 72
  • 73. 73
  • 75. 75
  • 77. Kesalahan Pemilihan Sumber Data Random error : kesalahan sampling karena sebaran sampel kurang merepresentasikan distribusi populasi. → abandoned subset of population Systematic error : kesalahan sampling karena sampel terkumpul di sebagian populasi yang dibatasi rentang waktu tertentu atau lokasi tertentu dan melalaikan sebagian yang lain. → undercoverage Illegitimate error : kesalahan sampling karena sampel dari populasi yang berbeda → overcoverage 77
  • 79. 79
  • 80. Kesalahan Proses Pengukuran Random error : kesalahan tak terkendali antar pengukuran, karena faktor keacakan dari objek ukur, operator, alat ukur, lingkungan atau noise lainnya. Systematic error : kesalahan yang berulang dan membiaskan hasil, karena kegagalan operator atau alat ukur, kesalahan prosedur, pengaruh lingkungan Illegitimate error : kesalahan insidental dan menghasilkan outlier, karena keteledoran, keliru kalkulasi, atau kesalahan lainnya 80
  • 82. 82
  • 83. Kesalahan Konten Data  Unusual value (outlier), data yang sangat jauh dari kumpulan data utama, karena illegitimate error pengukuran atau mungkin sampel berasal dari populasi lain (terdapat faktor yang berbeda).  Missing value, data relevan yang kurang atau tidak lengkap, karena kealpaan pengukuran atau pencatatannya, atau sebaran sampel kurang baik.  Bias, pergeseran data dari nilai yang sebenarnya, karena systematic error pengukuran.  Fake data, data palsu, fiktif, manipulasi, dugaan, prediksi.  Illegal data, data dari sumber yang belum/tidak terpercaya atau bahkan tidak mempunyai akses pada data.  Irrelevant data, data yang berbeda atau berubah karena diperoleh dari time frame yang lain, atau perlakuan yang lain, atau tujuan studi yang lain, atau pendekatan yang lain, atau faktor-faktor lainnya. 83
  • 86. Problem Data Data yang dikumpulkan dari banyak sumber berbeda dengan banyak metode akan menyebabkan problem: Heterogeneity and Diversity, data dengan format dan struktur yang beragam dan berantakan. Data Quality, data yang tercemar noise, error, outlier, missing value, bias, fake data, illegal data dan irrelevant data. Scale, data yang berskala besar yang membutuhkan upaya ekstra untuk mengolahnya. 86
  • 87. Kualitas Data 87 Do data reflect the real value? Are data values within the specified value domains? Are data available at the time needed? Are data integrity and relationships definite? Are data consistent under certain condition? Are all required data present?
  • 88. Kualitas Data 88 Degree to which data represents the reality Degree to which data are within defined requirements like format, type and range Degree to which data are available at the time they are needed Degree to which data are unique and cannot be mistaken for other entries Degree to which data are equal within and between datasets Degree to which required data are available for use
  • 94. Memanggil Numpy dan Pandas >>> import numpy as np >>> import pandas as pd 94
  • 95. Impor File ekstensi “txt” >>> filename = '*********.txt' >>> file = open(filename, mode = 'r' ) #Open the file for reading >>> text = file.read() #Read a file’s contents >>> print(file.closed) #Check whether file is closed >>> file.close() #Close file >>> print(text) Using the context manager with >>> with open('********.txt', 'r' ) as file: print(file.readline()) #Read a single line print(file.readline()) print(file.readline()) 95
  • 96. Impor File ekstensi “txt” Using Numpy >>> filename = '*********.txt' >>> data = np.loadtxt(filename, delimiter= ',', #String used to separate values skiprows=2, #Skip the first 2 lines usecols=[0,2], #Read the 1st and 3rd column dtype=str) #The type of the resulting array 96
  • 97. Impor File ekstensi “csv” Using Numpy >>> filename = '*********.csv' >>> data = np. genfromtxt(filename, delimiter= ‘,', #String used to separate values names=True, #Look for column header dtype=None) >>> data_array = np.recfromcsv(filename) #The default dtype of the np.recfromcsv() function is None 97
  • 98. Impor File ekstensi “csv” Using Pandas >>> filename = '*********.csv' >>> data = pd.read_csv(filename, nrows=5, #Number of rows of file to read header=None, #Row number to use as col names sep=‘t', #Delimiter to use comment=‘#', #Character to split comments na_values=[“”]) #String to recognize as NA/NaN >>> data_array = data.values #Convert a DataFrame to an a NumPy array https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html 98
  • 99. Impor File ekstensi “xls” or “xlsx” Using Pandas >>> filename = '*********.xls' >>> data = pd.ExcelFile(filename) >>> df_sheet2 = data.parse(sheet_name, #To access the sheet_name skiprows=[0], names=[ ]) >>> df_sheet1 = data.parse(0, parse_cols=[0], skiprows=[0], names=[ ]) https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html 99
  • 100. 100 Terima kasih ... ... Ada pertanyaan ???