Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Analisis Data 03

PREPARASI DATA:
Penetapan Tujuan dan
Pengumpulan Data
ARIF RAHMAN
1

3
Godsey, B, Think Like a Data
Scientist: Tackle the Data
Science Process Step-by-Step

5
Cielen, D, Meysman, ADB, & Ali, M,
Introducing Data Science: Big Data,
Machine Learning, and More, Using
Python Tools

Penetapan Tujuan
(Set Goals)
11

Penetapan Tujuan Analisis Data
Sesuai jenis risetnya, apakah eksploratif, deskriptif, atau
eksplanatif.
Sesuai metode risetnya, apakah metode ilmiah (scientific
method) atau metode rekayasa (engineering method).
Sesuai konteks aplikasinya terkait “system of interest” dan
“problem domain”-nya.
Diinisiasi oleh pertanyaan dari perspektif stakeholder dengan
analogi personifikasi atas permasalahan di sistem yang ingin
dievaluasi.
Disederhanakan dengan menyisakan elemen-elemen relevan
dan penting, agar fokus dan terarah
12

Jenis Riset Dasar
 Riset Eksploratif (Exploratory Research). Riset yang menggali berbagai data untuk
menjabarkan permasalahan dan mengidentifikasi elemen-elemen relevan dan penting
 Riset Deskriptif (Descriptive Research). Riset yang mengorganisasi data untuk
mendeskripsikan permasalahan dan mengilustrasikan status elemen-elemen relevan
dan penting
 Riset Eksplanatif (Explanatory/Causal Research). Riset yang menggunakan data
untuk menguji hipotesa atas permasalahan dan mengevaluasi relasi elemen-elemen
relevan dan penting
13

Setting goals by asking good questions
 Put ourself in the stakeholders’
shoes
 Understand context of domain
 Specify stakeholders’
requirements
 Identify data needs
 Encapsulate a problem in a
single question and break it
down into smaller parts
 Ask specific and useful
questions
17

Penetapan Tujuan Diinisiasi Pertanyaan
18
apakah yang akan diselesaikan data science?
apakah hipotesa model pola datanya?
apa sajakah data-data yang diperlukan?
di manakah data science ini diterapkan?
di manakah sistem dan problem domain?
dari mana sajakah data-data diperoleh?
siapakah stakeholdernya?
apa peranan atau
keterkaitannya dengan
keputusan atas masalah?
siapa sajakah yang punya
otoritas atas data yang
diperlukan?
kapankah data science diterapkan?
kapankah data-data yang diperoleh?
kapankah perkiraan waktu dari
informasi yang diperlukan?
bagaimanakah data
science diterapkan?
bagaimanakah menggali
data-data relevan?
bagaimanakah model
pola data dianalisa?
mengapa data science diperlukan?
mengapa data-data relevan diperlukan?
mengapa terbentuk model pola data?

Perumusan Tujuan dengan Analisa Awal
19

Penyederhanaan Tujuan dengan Prioritas
21

23

Lingkup “system of interest” dan “problem domain”
dibatasi sesuai prioritas.
Tidak semua kebutuhan stakeholder akan dipenuhi,
dibatasi yang relevan dan penting dalam
permasalahan.
Tidak semua elemen sistem akan dianalisis, dibatasi
yang relevan dan penting dalam permasalahan.
24

Misal: tujuan keputusan strategis
spesifik pada segmen pasar sasaran
25

Pengumpulan Data
(Data Sourcing)
27

Pengumpulan Data
30
Penting memperhatikan
cara memperoleh
data yang akan diolah
Demikian pula
cara mengolah data
juga penting diperhatikan

Pengumpulan Data
Pengumpulan data (data sourcing or acquisition or
extraction) adalah proses memilih sumber data (internal dan
eksternal), menggali data (metode dan kontinyuitas),
mengumpulkan data (klasifikasi dan relasi) dan
mengorganisasi data (terintegrasi dan terdistribusi) yang
relevan dengan tujuan studi.
Pengumpulan data dapat dilakukan dalam waktu terbatas
(berbentuk batch) atau berkelanjutan kontinyu (berbentuk
stream)
31

Pengumpulan Data
 Pengumpulan data manual (data collection/gathering) yakni
pengumpulan data yang dilakukan oleh peneliti yang berinteraksi
secara langsung dengan sumber data tanpa/dengan bantuan alat.
 Pemindaian data otomatis (data capture) yakni pengumpulan data
yang dilakukan oleh alat sensor yang memindai, mengidentifikasi,
menangkap, mengekstrak, mentransformasi dan merekam data dari
sumber data.
 Absorpsi data (data ingestion) yakni pengumpulan data yang
dilakukan oleh algoritma komputasi yang menyerap berbagai tipe data
dari banyak sumber data dengan mengimpor dan mentransfernya, lalu
memuatnya ke sistem penyimpanan data target untuk penggunaan dan
pengolahan di masa mendatang
32

Pengumpulan Data Manual
 Census untuk mengumpulkan data atau informasi dari semua anggota populasi.
 Retrospective study untuk mengumpulkan data atau informasi yang terjadi di masa
lalu (historical data)
 Observational study untuk mengumpulkan data atau informasi dengan pengamatan /
observasi di sistem aktual yang sedang terjadi
 Designed experiment untuk mengumpulkan data atau informasi melalui
eksperimentasi di sistem dengan pengkondisian yang telah dirancang terlebih dahulu
 Simulation study untuk mengumpulkan data atau informasi dengan observasi atau
eksperimentasi pada prototype atau model yang mewakili sistem
 Survey study untuk mengumpulkan data atau informasi dari sangat banyak
stakeholder untuk menelusuri pendapat umum pada perkara terstruktur
 Interview study untuk mengumpulkan data atau informasi dari banyak stakeholder
untuk menggali banyak pendapat pada perkara tak-terstruktur
 Focus Group study untuk mengumpulkan data atau informasi dari beberapa orang
(6-10) yang mendiskusikan topik atau subtopik spesifik dari permasalahan.
33

Pemindaian Data Otomatis
Teknologi Pemindaian Data Otomatis terdiri dari tiga komponen
dasar, yaitu:
 Encoded. Komponen yang mengubah data dalam format kode yang
berupa satu set simbol atau sinyal (biasanya dalam karakter
alfanumerik). Ketika data ter-encoded, data tersebut diterjemahkan
dalam machine-readable code.
 Machine reader or scanner. Komponen yang membaca encoded
data, mengkonversikannya dalam format lain, biasanya dalam sinyal
elektrik.
 Decoder. Komponen yang mentransformasikan sinyal elektrik menjadi
data digital yang selanjutnya dapat diolah untuk menjadi informasi yang
sesuai data awal.
41

Pemindaian Data Otomatis
1. Optical
Bar codes (linear and 2-D), optical character recognition (OCR), optical mark recognition
(OMR), machine vision, image capture, video capture
2. Magnetic
Magnetic stripe, magnetic ink character recognition (MICR)
3. Electromagnetic
Radio frequency identification (RFID)
4. Smart Card
Small plastic cards imbedded with microchips (integrated circuits)
5. Touch Techniques
Touch screens
6. Biometric
Voice recognition, facial recognition, fingerprint analysis, retinal eye scans
43

Web Scraping
Web scraping atau “web harvesting” atau “web data
extraction” adalah konstruksi agent (object beralgoritma AI)
yang mempunyai fungsi mengunduh (download), mengurai
(parse), dan mengorganisasi (organize) data dari web secara
otomatis.
Atau dengan kata lain, mengunduh, menyalin dan merekam
banyak data dari laman web termasuk data aktivitas
pengunjung laman web tersebut ke spreadsheet atau
basisdata secara otomatis.
57

Web Scraping vs Web Crawling
60

61

62

Kesalahan dalam
Pengumpulan Data
76

Kesalahan Pemilihan Sumber Data
Random error : kesalahan sampling karena
sebaran sampel kurang merepresentasikan distribusi
populasi. → abandoned subset of population
Systematic error : kesalahan sampling karena
sampel terkumpul di sebagian populasi yang dibatasi
rentang waktu tertentu atau lokasi tertentu dan
melalaikan sebagian yang lain. → undercoverage
Illegitimate error : kesalahan sampling karena
sampel dari populasi yang berbeda → overcoverage
77

Kesalahan Pemilihan Sumber Data
78

Kesalahan Proses Pengukuran
Random error : kesalahan tak terkendali antar
pengukuran, karena faktor keacakan dari objek ukur,
operator, alat ukur, lingkungan atau noise lainnya.
Systematic error : kesalahan yang berulang dan
membiaskan hasil, karena kegagalan operator atau
alat ukur, kesalahan prosedur, pengaruh lingkungan
Illegitimate error : kesalahan insidental dan
menghasilkan outlier, karena keteledoran, keliru
kalkulasi, atau kesalahan lainnya
80

Kesalahan Proses Pengukuran
81

Kesalahan Konten Data
 Unusual value (outlier), data yang sangat jauh dari kumpulan data utama,
karena illegitimate error pengukuran atau mungkin sampel berasal dari populasi lain
(terdapat faktor yang berbeda).
 Missing value, data relevan yang kurang atau tidak lengkap, karena kealpaan
pengukuran atau pencatatannya, atau sebaran sampel kurang baik.
 Bias, pergeseran data dari nilai yang sebenarnya, karena systematic error
pengukuran.
 Fake data, data palsu, fiktif, manipulasi, dugaan, prediksi.
 Illegal data, data dari sumber yang belum/tidak terpercaya atau bahkan tidak
mempunyai akses pada data.
 Irrelevant data, data yang berbeda atau berubah karena diperoleh dari time frame
yang lain, atau perlakuan yang lain, atau tujuan studi yang lain, atau pendekatan yang
lain, atau faktor-faktor lainnya.
83

Problem Data
Data yang dikumpulkan dari banyak sumber berbeda
dengan banyak metode akan menyebabkan problem:
Heterogeneity and Diversity, data dengan format
dan struktur yang beragam dan berantakan.
Data Quality, data yang tercemar noise, error, outlier,
missing value, bias, fake data, illegal data dan irrelevant data.
Scale, data yang berskala besar yang membutuhkan upaya
ekstra untuk mengolahnya.
86

Kualitas Data
87
Do data reflect
the real value?
Are data values within
the specified value domains?
Are data available
at the time needed?
Are data integrity and
relationships definite?
Are data consistent
under certain condition?
Are all required
data present?

Kualitas Data
88
Degree to which data
represents the reality
Degree to which data are within defined
requirements like format, type and range
Degree to which data are
available at the time they
are needed
Degree to which data are
unique and cannot be
mistaken for other entries
Degree to which data
are equal within and
between datasets
Degree to which required
data are available for use

Memanggil Numpy dan Pandas
>>> import numpy as np
>>> import pandas as pd
94

Impor File ekstensi “txt”
>>> filename = '*********.txt'
>>> file = open(filename, mode = 'r' ) #Open the file for reading
>>> text = file.read() #Read a file’s contents
>>> print(file.closed) #Check whether file is closed
>>> file.close() #Close file
>>> print(text)
Using the context manager with
>>> with open('********.txt', 'r' ) as file:
print(file.readline()) #Read a single line
print(file.readline())
print(file.readline())
95

Impor File ekstensi “txt”
Using Numpy
>>> filename = '*********.txt'
>>> data = np.loadtxt(filename,
delimiter= ',', #String used to separate values
skiprows=2, #Skip the first 2 lines
usecols=[0,2], #Read the 1st and 3rd column
dtype=str) #The type of the resulting array
96

Impor File ekstensi “csv”
Using Numpy
>>> filename = '*********.csv'
>>> data = np. genfromtxt(filename,
delimiter= ‘,', #String used to separate values
names=True, #Look for column header
dtype=None)
>>> data_array = np.recfromcsv(filename) #The default dtype of the np.recfromcsv()
function is None
97

Impor File ekstensi “csv”
Using Pandas
>>> filename = '*********.csv'
>>> data = pd.read_csv(filename,
nrows=5, #Number of rows of file to read
header=None, #Row number to use as col names
sep=‘t', #Delimiter to use
comment=‘#', #Character to split comments
na_values=[“”]) #String to recognize as NA/NaN
>>> data_array = data.values #Convert a DataFrame to an a NumPy array
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
98

Impor File ekstensi “xls” or “xlsx”
Using Pandas
>>> filename = '*********.xls'
>>> data = pd.ExcelFile(filename)
>>> df_sheet2 = data.parse(sheet_name, #To access the sheet_name
skiprows=[0],
names=[ ])
>>> df_sheet1 = data.parse(0,
parse_cols=[0],
skiprows=[0],
names=[ ])
https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html
https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html
99

100
Terima kasih ...
... Ada pertanyaan ???

Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Analisis Data 03

Recommended

Recommended

More Related Content

Similar to Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Analisis Data 03

Similar to Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Analisis Data 03 (20)

More from Arif Rahman

More from Arif Rahman (20)

Recently uploaded

Recently uploaded (16)

Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Analisis Data 03