ANALISIS DATA DIGITAL

Webinar Series DMfSS
Tahapan Analisis Data Digital
Hendro Subagyo, PDDI LIPI
Webinar Series Digital Method IPSK
Jakarta, 11 Juli 2020

Agenda
➢Urgensi data digital dan komputasi di bidang sosial
➢Tahapan analisis data digital
➢Data & Dataset

Textbook
https://lingfeiwu1.gitbooks.io/data
-mining-in-social-science/content/
ISBN-13: 978-0520280984
ISBN-10: 9780520280984
ISBN-13: 978-1449361327
ISBN-10: 1449361323
ISBN-13: 978-0128014608
ISBN-10: 0128014601

Urgensi Metode Digital dalam
bidang sosial dan humaniora

Urgensi Komputasi dalam Ilmu Sosial-Humaniora
“The capacity to collect and analyze massive amounts of data has
transformed such fields as biology and physics. But the emergence of a
data-driven ‘computational social science’ has been much slower.
[. . . ] But computational social science is occurring – in internet
companies such as Google and Yahoo, and in government agencies such
as the U.S. National Security Agency” (Lazer et al., 2009, p. 721 –
Journal Science).

Status Pengguna Mobile Internet dan medsos (2019)
133% Penduduk adalah pengguna mobile
internet
56% Penduduk adalah pengguna
media sosial
https://wearesocial.com/global-digital-report-2019
66% Penduduk adalah pengguna media
sosial kategori umur 18-34

Status Pengguna Mobile Internet dan medsos (2019)
133% Penduduk adalah pengguna mobile
internet
160jt Penduduk adalah pengguna
media sosial tahun 2020
66% Penduduk adalah pengguna media
sosial kategori umur 18-34
media sosial
media sosial tahun 2020

Komputasi Teks (Text Mining) dalam analisis
kuantitatif dan kualitatif
• Teks adalah tipe data yang paling
banyak dianalisis di bidang psikologi
dan juga ilmu sosial lainnya seperti
ilmu sosiologi dan politik.
• CATA (Computer Aided Text
Analysis) saat ini tidak hanya
tentang menghitung kata, tetapi
juga tentang makna dan konteks.
https://cdn.idntimes.com/content-images/post/20191029/sna-7d58f5594ee587fbe2497826b020e382.png

Digital life, social media, human behavior and beautiful data
Map of science derived from clickstream data.
Circles represent individual journals. The lines that connect journals
are the edges of the clickstream model in . Colors correspond to the
AAT classification of the journal. Labels have been assigned to local
clusters of journals that correspond to particular scientific disciplines.
Public sentiment map of the Manhattan and surrounding areas
according to analysis of over 600,000 tweets, organized by census
block. Cyan represents the most positive sentiment and magenta the
most negative. White represents areas with insufficient tweet density
for analysis. Areas of strong sentiment are labeled by A – F as follows:
A: Parks; B: Transportation Hubs; C: Cemeteries; D: Riker's Island ; E:
Maspeth Creek; F: Medical Centers.
https://necsi.edu/sentiment-in-new-york-cityhttps://journals.plos.org/plosone/article?id=10.1371/journal.pone.0004803
https://lingfeiwu1.gitbooks.io/data-mining-in-social-science/content/beautiful_data_and_human_behavior/

Komputasi Data untuk Pemetaan Perilaku Traveling
• Komputasi Data untuk Pemetaan Dampak Covid-19 kepada Perilaku
Traveling di US

Komputasi Data Teks dengan Teknologi
Knowledge Graph untuk Covid-19
• Pertemuan virtual pada 1 April 2020, “Knowledge
Graphs to Fight COVID-19“, yang menampilkan
tujuh pembicara yang mempresentasikan informasi
tentang inisiatif COVID-19.
• Bagi peneliti, pembuat kebijakan, dan pihak lain
yang mencoba memerangi penyebaran dan
mengurangi dampak COVID-19, mencoba
memahami data seputar virus adalah tugas yang
sangat berat.
• Bervolume besar dan diproduksi tanpa henti, data
ini berasal dari domain yang berbeda seperti
virologi dan ekonomi dan dihasilkan oleh banyak
orang dan organisasi, tanpa standar data yang
sama.
• Knowledge Graph dapat membantu memahami
data yang berantakan dari sumber yang berbeda
dan memungkinkan untuk memperoleh
pengetahuan baru dari informasi yang terhubung
secara cerdas yang berada di repositori data yang
berbeda tersebut.

Alat baru, wawasan baru
Tanpa teleskop, tidak ada peluang bagi
Tycho Brahe untuk mengumpulkan dan
menyatukan suatu kumpulan dataset yang
sangat besar dari posisi bintang dan
planet, yang meletakkan dasar dari
astronomi modern.
Data Mining in Social Sciences. https://lingfeiwu1.gitbooks.io/data-mining-in-social-science/content/
https://en.wikipedia.org/wiki/Tycho_Brahe
Begitu pula, meluasnya penggunaan internet memberikan kepada peneliti suatu
peluang:
• untuk mempelajari perilaku manusia dalam skala dan resolusi yang belum pernah
terjadi sebelumnya, dan
• untuk melihat melampaui teori-teori tradisional dalam ilmu sosial.

Big Data
dataset yang tidak dapat diproses oleh 1 mesin
• Ilmuwan sosial lebih akrab dengan kumpulan data yang dikumpulkan
dalam survei dan eksperimen, yang biasanya merupakan kumpulan
data pada level MB.
• Untuk dataset level MB ini, selama dekade terakhir, ilmuwan sosial
cenderung menyebut sebagai kumpulan data tidak kecil atau big data.
• Di sisi lain, ilmuwan fisika dan computer dalam beberapa dekade
berhadapan dengan dataset besar.
• Teleskope Hubble: 17 GB/hari
• Hadron Collider: 42 TB/hari
• Google Data Center: 1 PB/hari untuk dataset perilaku pengguna

Kebutuhan Tools: Software dan Hardware
• GB (Giga Byte) = 1000 MB = 1015 Byte
• TB (Tera Byte) = 1000 GB = 1018 Byte
• PB (Peta Byte) = 1000 TB = 1021 Byte
Kapasitas storage LIPI (cloud + HPC) = 5 PB → 12 PB
Jumlah CPU/GPU LIPI (HPC) = 6000 cores
• GOS: operasional dg GUI
• TOS: operasional dg terminal/command-line
• Machines: sama dengan CPU/GPU

Contoh-contoh artikel ilmiah
bidang sosial dengan metode
digital

Publikasi bidang Sosial Humaniora dengan memanfaatkan
teknik digital (Data Mining dan Machine Learning)
• Sumber: dimension.ai
• keyword: (social OR behavioral OR behavior) AND ("data mining" OR "machine learning")

Dominasi masih bidang
psikologi dan kesehatan

Tapahan Analisis Data Digital
Knowledge Discovery in Database and Data Mining

Data Mining
• Data Mining adalah proses analisis untuk menempukan pengetahuan
(pola dan relasi) yang sebelumnya tersembunyi (implisit) dari data
besar
• Data Mining selanjutnya digunakan untuk prediksi dan estimasi
berbasis pola dan relasi tersebut.
• Data Mining menggunakan metode statistik, database dan machine
learning, yang memungkinkan kita menjelajahi data besar, baik secara
otomatis, semi-otomatis atau bahkan manual.

Knowledge Discovery in Database

Data Mining & Business Intelligent

Data - Informasi – Pengetahuan
Data Kehadiran Pegawai
25
NIP TGL DATANG PULANG
1103 02/12/2004 07:20 15:40
1142 02/12/2004 07:45 15:33
1156 02/12/2004 07:51 16:00
1173 02/12/2004 08:00 15:15
1180 02/12/2004 07:01 16:31
1183 02/12/2004 07:49 17:00

Data - Informasi – Pengetahuan
Informasi Akumulasi Bulanan Kehadiran Pegawai
26
NIP Masuk Alpa Cuti Sakit Telat
1103 22
1142 18 2 2
1156 10 1 11
1173 12 5 5
1180 10 12

Data - Informasi – Pengetahuan - Kebijakan
• Kebijakan penataan jam kerja
karyawan khusus untuk hari
senin dan jumat
• Peraturan jam kerja:
• Hari Senin dimulai jam 10:00
• Hari Jumat diakhiri jam 14:00
• Sisa jam kerja dikompensasi ke
hari lain

Perbedaan metode Statistik vs Data Mining
Aspek Data Mining Statistik
Proses Pertama mengumpulkan dan mengeksplorasi data, baru
kemudian membangun model untuk mendeteksi pola dan
membuat teori
Konfirmatif. Pertama menyusun teori, baru kemudian
mengujinya dengan teknik statistik
Proses induktif Proses deduktif
Algoritma yang belajar dari data, tanpa aturan
pemrograman tertentu
Formalisasi relasi di dalam data, dalam bentuk
persamaan matematis
Menggunakan metode heuristik Tidak terkait metode heuristik
Validasi model memerlukan sedikit interaksi dengan
pengguna, sehingga mudah di-otomasi
Validasi model memerlukan interaksi dengan
pengguna, sehingga sulit di-otomasi
Jenis
metode
Klasifikasi, klastering, neural network, asosiasi, estimasi,
analisis berbasis sekuens, visualisasi
Statistik deskriptif, statistik inferensial
Data Tipe data numerik dan non-numerik Tipe data numerik
Data cleaning diselesaikan dalam Data Mining Data yang sudah bersih digunakan untuk penerapan
metode statistik
Cocok untuk data besar Cocok untuk data kecil
Koleksi data tidak terlalu penting Koleksi data lebih penting
Jenis
Data
Analisis data finansial, industri ritel, telekomunikasi, analisis
data biologi, aplikasi ilmiah tertentu dll
Demografi, riset operasi, biostatistik, QC dll

Siklus Data Mining: CRISP-DM Model
CRoss-Industry Standard Process for Data Mining

Tahapan Utama Proses Data Mining (sederhana)
Dataset
(Menyiapkan
data)
Metode
(Algoritma
Data Mining)
Knowledge
(Pola/Model)
Evaluation
(Akurasi, AUC,
RMSE, etc)
Business
Understanding
Data
Understanding
Data
Preparation
Pemodelan
dengan
Algoritma Data
Mining
Data Training Data Test
Evaluasi
performa model
Deployment

1. Dataset (Data Preprocessing)
a. Memahami bisnis
1) Memahami tujuan, problem dan
konteks
2) Subject area
b. Memahami data
1) Akuisisi data
2) Eksplorasi data (EDA: exploratory
data analysis)
3) Kualitas data
c. Menyiapkan data
1) Data cleaning
missing value, smoothing data
(noise), outlier, dan menghapus
inkonsistensi
2) Integrasi data
Integrasi beberapa databases, data
cubes, atau file
3) Reduksi data
Reduksi dimensi, jumlah, dan
kompresi data
4) Transformasi dan diskritasi data
normalisasi, hirarki konsep
5) Sampling data

Akuisisi data: cara susah, fleksibilitas tinggi

Akuisisi data: cara mudah, fleksibilitas rendah

Perbandingan Tools untuk Platform DS/ML
• Sebagian besar tidak free.
• KNIME memiliki keunggulan open
platform dan free
• Lingkungan akademik/ universitas
banyak menggunakan:
• R, SPSS → background statistik
• Matlab → background teknik
• Python, Weka/RapidMiner → komputer

Data & Dataset (himpunan data)
Dataset Iris (Ronald Fisher 1936)

Data & Dataset
• Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
• Jenis dataset ada dua: Private dan Public
• Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
• Public Dataset: data set dapat diambil dari repositori publik yang disepakati oleh para
peneliti data mining
• UCI Repository https://archive.ics.uci.edu/ml/index.php
• ACM KDD Cup https://www.kdd.org/kdd-cup
• Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh
peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable,
repeatable dan verifiable

lipiindonesia lipiindonesia lipiindonesiawww.lipi.go.id
Referensi Ilmiah Open Access
Data/Dataset Ilmiah (global)
▪ World Bank Open Data
https://data.worldbank.org/
▪ WHO - Open data repository
https://www.who.int/gho/database/en/
▪ Google Public Data Explorer
https://www.google.com/publicdata/directory
▪ RODA https://registry.opendata.aws/
▪ Dbpedia
https://wiki.dbpedia.org/
▪ UNICEF Dataset
https://data.unicef.org/
▪ data.world
https://data.world/
▪ Humanitarian Data Exchange (HDX)
https://data.humdata.org/
▪ DataPlanet https://data-
planet.libguides.com/datasetsandsources
▪ UCI Machine Learning Repository
https://archive.ics.uci.edu/ml/index.php
▪ Kaggle
https://www.kaggle.com/datasets
▪ IEEEDataport
https://ieee-dataport.org/datasets
▪ Open Data Impact Map
https://opendataimpactmap.org/

▪ Academic Torrent
http://academictorrents.com/
▪ r3data.org
http://re3data.org/search
▪ Dryad
https://datadryad.org/stash
▪ Waymo Open Dataset
https://waymo.com/open/
▪ Google Image Dataset
https://ai.googleblog.com/2016/09/introducing-open-
images-dataset.html
▪ ImageNet
http://image-net.org/
▪ Berkeley Segmentation Dataset
and Benchmark
https://www2.eecs.berkeley.edu/Research/Projects/CS
/vision/bsds/

Dataverse Network Project
▪ Harvard
https://dataverse.harvard.edu/
▪ RIN Dataset (LIPI Indonesia)
https://data.lipi.go.id/dataverse/lipi
▪ CIFOR Indonesia
https://data.cifor.org/dataverse/s
▪ NIE Singapore
https://researchdata.nie.edu.sg/
▪ DataverseNL (Netherland)
https://dataverse.nl/

Data/Dataset Ilmiah (lokal)
▪ RIN Dataset (LIPI)
https://data.lipi.go.id/dataverse/lipi
▪ Satu Data Indonesia
https://data.go.id/dataset
▪ Jakarta Open Data
https://data.jakarta.go.id/dataset
Sebagian website dataset global
memiliki koleksi khusus dengan
topik Indonesia (data.world,
HDX, World Bank, WHO, UNICEF
dll)

Data/Dataset Ilmiah (terkait COVID-19)
Sebagian database dataset ilmiah yang telah disebut di atas, juga memberikan
informasi data terkait Covid-19. Berikut adalah website yang menyediakan koleksi
khusus artikel dan database terkait COVID-19.
▪ Kawal Covid-19 @kawalcovid19
https://docs.google.com/spreadsheets/d/1ma1T9hWbec1pXlwZ89WakRk-
OfVUQZsOCFl4FwZxzVw/edit#gid=335196895
▪ Kaggle’s Indonesia Corona Virus data https://www.kaggle.com/ardisragen/indonesia-
coronavirus-cases
▪ CORD-19 Semantic Scholar
http://pages.semanticscholar.org/coronavirus-research

Tipe DataJenis Atribut Deskripsi Contoh Operasi
Ratio
(Mutlak)
• Data yang diperoleh dengan cara pengukuran,
dimana jarak dua titik pada skala sudah
diketahui
• Mempunyai titik nol yang absolut
(*, /)
• Umur
• Berat badan
• Tinggi badan
• Jumlah uang
geometric mean,
harmonic mean,
percent variation
Interval
(Jarak)
• Data yang diperoleh dengan cara pengukuran,
dimana jarak dua titik pada skala sudah
diketahui
• Tidak mempunyai titik nol yang absolut
(+, - )
• Suhu 0°c-100°c,
• Umur 20-30 tahun
mean, standard
deviation, Pearson's
correlation, t and F
tests
Ordinal
(Peringkat)
• Data yang diperoleh dengan cara kategorisasi
atau klasifikasi
• Tetapi diantara data tersebut terdapat
hubungan atau berurutan
(<, >)
• Tingkat kepuasan
pelanggan (puas, sedang,
tidak puas)
median, percentiles,
rank correlation, run
tests, sign tests
Nominal
(Label)
• Data yang diperoleh dengan cara kategorisasi
atau klasifikasi
• Menunjukkan beberapa object yang berbeda
(=, )
• Kode pos
• Jenis kelamin
• Nomer id karyawan
• Nama kota
mode, entropy,
contingency
correlation, 2 test

Data: Terstruktur vs Tidak Terstruktur
• Tipe data teks yang
paling banyak dianalisis
di bidang sosial adalah
salah contoh data tidak
terstruktur.
•
https://lawtomated.com/wp-content/uploads/2019/04/structuredVsUnstructuredIgneos.png

Eksplorasi Multivariate
• Analisis Korelasi

Eksplorasi data dengan visualisasi
Distribusi petal length Quartile plot dari dataset Iris

Eksplorasi data dengan visualisasi
• Visualisasi dimensi tinggi

2. Metode (Algoritma Data Mining)
1.Estimation (Estimasi):
•Linear Regression, Neural Network, Support Vector Machine, etc
2.Prediction/Forecasting (Prediksi/Peramalan):
•Linear Regression, Neural Network, Support Vector Machine, etc
3.Classification (Klasifikasi):
•Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Random Forest,
Linear Discriminant Analysis, Neural Network, etc
4.Clustering (Klastering):
•K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5.Association (Asosiasi):
•FP-Growth, A Priori, etc
6.Reinforcement Learning (penyesuaian tindakan):
•Swarm intelligence, genetic algorithm, Monte Carlo etc.

Algoritma: Supervised vs Unsupervised
Supervised Learning
• Pembelajaran dengan guru, data set
memiliki target/label/class
• Sebagian besar algoritma data mining
(estimation, prediction/forecasting,
classification) adalah supervised
learning
• Algoritma melakukan proses belajar
berdasarkan nilai dari variabel target
yang terasosiasi dengan nilai dari
variable prediktor
53

Algoritma: Supervised vs Unsupervised
Unsupervised Learning
• Algoritma data mining mencari pola
dari semua variable (atribut)
• Variable (atribut) yang menjadi
target/label/class tidak ditentukan
(tidak ada)
• Algoritma clustering adalah algoritma
unsupervised learning
54

1. Formula/Function (Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Rule (Aturan)
• IF ips3=2.8 THEN lulustepatwaktu
4. Cluster (Klaster)
3. Knowledge (Pola/Model)

4. Evaluasi: Training dan Testing
• Evaluasi dilalukan untuk
menentukan akurasi &
kehandalan model yang
telah dibuat.
• Untuk evaluasi, dataset
dibagi untuk dua
keperluan: training dan
testing.

4. Evaluasi (Akurasi, Error, etc)
1. Estimation:
• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
• Confusion Matrix: Accuracy
• ROC Curve: Area Under Curve (AUC)
4. Clustering:
• Internal Evaluation: Davies–Bouldin index, Dunn index,
• External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows
index, Confusion matrix
5. Association:
• Lift Charts: Lift Ratio
• Precision and Recall (F-measure)

Toward Open Science
• FAIR data (findable, accessible, interoperable, reusable)
• Reproducible Research
data citation
sharing pilihan,
deposit wajib
citizen science

Daftar Pustaka
Attewell, P. A., & Monaghan, D. B. (2015). Data mining for the social sciences: An introduction (First edition).
University of California Press.
Foster Provost, & Tom Fawcett. (2013). Data Science for Business. O’Reilly.
Kotu, V., & Deshpande, B. (2015). Predictive analytics and data mining: Concepts and practice with RapidMiner.
Elsevier/Morgan Kaufmann, Morgan Kaufmann is an imprint of Elsevier.
lingfeiwu. (2017). Data Mining in Social Science. https://lingfeiwu1.gitbooks.io/data-mining-in-social-
science/content/beautiful_data_and_human_behavior/

ANALISIS DATA DIGITAL

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ANALISIS DATA DIGITAL

Similar to ANALISIS DATA DIGITAL (20)

More from Hendro Subagyo

More from Hendro Subagyo (20)

Recently uploaded

Recently uploaded (14)

ANALISIS DATA DIGITAL