12. Penetapan Tujuan Analisis Data
Sesuai jenis risetnya, apakah eksploratif, deskriptif, atau
eksplanatif.
Sesuai metode risetnya, apakah metode ilmiah (scientific
method) atau metode rekayasa (engineering method).
Sesuai konteks aplikasinya terkait “system of interest” dan
“problem domain”-nya.
Diinisiasi oleh pertanyaan dari perspektif stakeholder dengan
analogi personifikasi atas permasalahan di sistem yang ingin
dievaluasi.
Disederhanakan dengan menyisakan elemen-elemen relevan
dan penting, agar fokus dan terarah
12
13. Jenis Riset Dasar
Riset Eksploratif (Exploratory Research). Riset yang menggali berbagai data untuk
menjabarkan permasalahan dan mengidentifikasi elemen-elemen relevan dan penting
Riset Deskriptif (Descriptive Research). Riset yang mengorganisasi data untuk
mendeskripsikan permasalahan dan mengilustrasikan status elemen-elemen relevan
dan penting
Riset Eksplanatif (Explanatory/Causal Research). Riset yang menggunakan data
untuk menguji hipotesa atas permasalahan dan mengevaluasi relasi elemen-elemen
relevan dan penting
13
17. Setting goals by asking good questions
Put ourself in the stakeholders’
shoes
Understand context of domain
Specify stakeholders’
requirements
Identify data needs
Encapsulate a problem in a
single question and break it
down into smaller parts
Ask specific and useful
questions
17
18. Penetapan Tujuan Diinisiasi Pertanyaan
18
apakah yang akan diselesaikan data science?
apakah hipotesa model pola datanya?
apa sajakah data-data yang diperlukan?
di manakah data science ini diterapkan?
di manakah sistem dan problem domain?
dari mana sajakah data-data diperoleh?
siapakah stakeholdernya?
apa peranan atau
keterkaitannya dengan
keputusan atas masalah?
siapa sajakah yang punya
otoritas atas data yang
diperlukan?
kapankah data science diterapkan?
kapankah data-data yang diperoleh?
kapankah perkiraan waktu dari
informasi yang diperlukan?
bagaimanakah data
science diterapkan?
bagaimanakah menggali
data-data relevan?
bagaimanakah model
pola data dianalisa?
mengapa data science diperlukan?
mengapa data-data relevan diperlukan?
mengapa terbentuk model pola data?
24. Penyederhanaan Tujuan dengan Prioritas
Lingkup “system of interest” dan “problem domain”
dibatasi sesuai prioritas.
Tidak semua kebutuhan stakeholder akan dipenuhi,
dibatasi yang relevan dan penting dalam
permasalahan.
Tidak semua elemen sistem akan dianalisis, dibatasi
yang relevan dan penting dalam permasalahan.
24
31. Pengumpulan Data
Pengumpulan data (data sourcing or acquisition or
extraction) adalah proses memilih sumber data (internal dan
eksternal), menggali data (metode dan kontinyuitas),
mengumpulkan data (klasifikasi dan relasi) dan
mengorganisasi data (terintegrasi dan terdistribusi) yang
relevan dengan tujuan studi.
Pengumpulan data dapat dilakukan dalam waktu terbatas
(berbentuk batch) atau berkelanjutan kontinyu (berbentuk
stream)
31
32. Pengumpulan Data
Pengumpulan data manual (data collection/gathering) yakni
pengumpulan data yang dilakukan oleh peneliti yang berinteraksi
secara langsung dengan sumber data tanpa/dengan bantuan alat.
Pemindaian data otomatis (data capture) yakni pengumpulan data
yang dilakukan oleh alat sensor yang memindai, mengidentifikasi,
menangkap, mengekstrak, mentransformasi dan merekam data dari
sumber data.
Absorpsi data (data ingestion) yakni pengumpulan data yang
dilakukan oleh algoritma komputasi yang menyerap berbagai tipe data
dari banyak sumber data dengan mengimpor dan mentransfernya, lalu
memuatnya ke sistem penyimpanan data target untuk penggunaan dan
pengolahan di masa mendatang
32
33. Pengumpulan Data Manual
Census untuk mengumpulkan data atau informasi dari semua anggota populasi.
Retrospective study untuk mengumpulkan data atau informasi yang terjadi di masa
lalu (historical data)
Observational study untuk mengumpulkan data atau informasi dengan pengamatan /
observasi di sistem aktual yang sedang terjadi
Designed experiment untuk mengumpulkan data atau informasi melalui
eksperimentasi di sistem dengan pengkondisian yang telah dirancang terlebih dahulu
Simulation study untuk mengumpulkan data atau informasi dengan observasi atau
eksperimentasi pada prototype atau model yang mewakili sistem
Survey study untuk mengumpulkan data atau informasi dari sangat banyak
stakeholder untuk menelusuri pendapat umum pada perkara terstruktur
Interview study untuk mengumpulkan data atau informasi dari banyak stakeholder
untuk menggali banyak pendapat pada perkara tak-terstruktur
Focus Group study untuk mengumpulkan data atau informasi dari beberapa orang
(6-10) yang mendiskusikan topik atau subtopik spesifik dari permasalahan.
33
41. Pemindaian Data Otomatis
Teknologi Pemindaian Data Otomatis terdiri dari tiga komponen
dasar, yaitu:
Encoded. Komponen yang mengubah data dalam format kode yang
berupa satu set simbol atau sinyal (biasanya dalam karakter
alfanumerik). Ketika data ter-encoded, data tersebut diterjemahkan
dalam machine-readable code.
Machine reader or scanner. Komponen yang membaca encoded
data, mengkonversikannya dalam format lain, biasanya dalam sinyal
elektrik.
Decoder. Komponen yang mentransformasikan sinyal elektrik menjadi
data digital yang selanjutnya dapat diolah untuk menjadi informasi yang
sesuai data awal.
41
43. Pemindaian Data Otomatis
1. Optical
Bar codes (linear and 2-D), optical character recognition (OCR), optical mark recognition
(OMR), machine vision, image capture, video capture
2. Magnetic
Magnetic stripe, magnetic ink character recognition (MICR)
3. Electromagnetic
Radio frequency identification (RFID)
4. Smart Card
Small plastic cards imbedded with microchips (integrated circuits)
5. Touch Techniques
Touch screens
6. Biometric
Voice recognition, facial recognition, fingerprint analysis, retinal eye scans
43
57. Web Scraping
Web scraping atau “web harvesting” atau “web data
extraction” adalah konstruksi agent (object beralgoritma AI)
yang mempunyai fungsi mengunduh (download), mengurai
(parse), dan mengorganisasi (organize) data dari web secara
otomatis.
Atau dengan kata lain, mengunduh, menyalin dan merekam
banyak data dari laman web termasuk data aktivitas
pengunjung laman web tersebut ke spreadsheet atau
basisdata secara otomatis.
57
77. Kesalahan Pemilihan Sumber Data
Random error : kesalahan sampling karena
sebaran sampel kurang merepresentasikan distribusi
populasi. → abandoned subset of population
Systematic error : kesalahan sampling karena
sampel terkumpul di sebagian populasi yang dibatasi
rentang waktu tertentu atau lokasi tertentu dan
melalaikan sebagian yang lain. → undercoverage
Illegitimate error : kesalahan sampling karena
sampel dari populasi yang berbeda → overcoverage
77
80. Kesalahan Proses Pengukuran
Random error : kesalahan tak terkendali antar
pengukuran, karena faktor keacakan dari objek ukur,
operator, alat ukur, lingkungan atau noise lainnya.
Systematic error : kesalahan yang berulang dan
membiaskan hasil, karena kegagalan operator atau
alat ukur, kesalahan prosedur, pengaruh lingkungan
Illegitimate error : kesalahan insidental dan
menghasilkan outlier, karena keteledoran, keliru
kalkulasi, atau kesalahan lainnya
80
83. Kesalahan Konten Data
Unusual value (outlier), data yang sangat jauh dari kumpulan data utama,
karena illegitimate error pengukuran atau mungkin sampel berasal dari populasi lain
(terdapat faktor yang berbeda).
Missing value, data relevan yang kurang atau tidak lengkap, karena kealpaan
pengukuran atau pencatatannya, atau sebaran sampel kurang baik.
Bias, pergeseran data dari nilai yang sebenarnya, karena systematic error
pengukuran.
Fake data, data palsu, fiktif, manipulasi, dugaan, prediksi.
Illegal data, data dari sumber yang belum/tidak terpercaya atau bahkan tidak
mempunyai akses pada data.
Irrelevant data, data yang berbeda atau berubah karena diperoleh dari time frame
yang lain, atau perlakuan yang lain, atau tujuan studi yang lain, atau pendekatan yang
lain, atau faktor-faktor lainnya.
83
86. Problem Data
Data yang dikumpulkan dari banyak sumber berbeda
dengan banyak metode akan menyebabkan problem:
Heterogeneity and Diversity, data dengan format
dan struktur yang beragam dan berantakan.
Data Quality, data yang tercemar noise, error, outlier,
missing value, bias, fake data, illegal data dan irrelevant data.
Scale, data yang berskala besar yang membutuhkan upaya
ekstra untuk mengolahnya.
86
87. Kualitas Data
87
Do data reflect
the real value?
Are data values within
the specified value domains?
Are data available
at the time needed?
Are data integrity and
relationships definite?
Are data consistent
under certain condition?
Are all required
data present?
88. Kualitas Data
88
Degree to which data
represents the reality
Degree to which data are within defined
requirements like format, type and range
Degree to which data are
available at the time they
are needed
Degree to which data are
unique and cannot be
mistaken for other entries
Degree to which data
are equal within and
between datasets
Degree to which required
data are available for use
94. Memanggil Numpy dan Pandas
>>> import numpy as np
>>> import pandas as pd
94
95. Impor File ekstensi “txt”
>>> filename = '*********.txt'
>>> file = open(filename, mode = 'r' ) #Open the file for reading
>>> text = file.read() #Read a file’s contents
>>> print(file.closed) #Check whether file is closed
>>> file.close() #Close file
>>> print(text)
Using the context manager with
>>> with open('********.txt', 'r' ) as file:
print(file.readline()) #Read a single line
print(file.readline())
print(file.readline())
95
96. Impor File ekstensi “txt”
Using Numpy
>>> filename = '*********.txt'
>>> data = np.loadtxt(filename,
delimiter= ',', #String used to separate values
skiprows=2, #Skip the first 2 lines
usecols=[0,2], #Read the 1st and 3rd column
dtype=str) #The type of the resulting array
96
97. Impor File ekstensi “csv”
Using Numpy
>>> filename = '*********.csv'
>>> data = np. genfromtxt(filename,
delimiter= ‘,', #String used to separate values
names=True, #Look for column header
dtype=None)
>>> data_array = np.recfromcsv(filename) #The default dtype of the np.recfromcsv()
function is None
97
98. Impor File ekstensi “csv”
Using Pandas
>>> filename = '*********.csv'
>>> data = pd.read_csv(filename,
nrows=5, #Number of rows of file to read
header=None, #Row number to use as col names
sep=‘t', #Delimiter to use
comment=‘#', #Character to split comments
na_values=[“”]) #String to recognize as NA/NaN
>>> data_array = data.values #Convert a DataFrame to an a NumPy array
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
98
99. Impor File ekstensi “xls” or “xlsx”
Using Pandas
>>> filename = '*********.xls'
>>> data = pd.ExcelFile(filename)
>>> df_sheet2 = data.parse(sheet_name, #To access the sheet_name
skiprows=[0],
names=[ ])
>>> df_sheet1 = data.parse(0,
parse_cols=[0],
skiprows=[0],
names=[ ])
https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html
https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html
99