Tahapan Analysis Data Digital: mengenal Data Mining. Paparan pada Webinar Series Digital Method for Social Sciences, Kedeputian IPSK LIPI. 11 Agustus 2020.
5. Urgensi Komputasi dalam Ilmu Sosial-Humaniora
“The capacity to collect and analyze massive amounts of data has
transformed such fields as biology and physics. But the emergence of a
data-driven ‘computational social science’ has been much slower.
[. . . ] But computational social science is occurring – in internet
companies such as Google and Yahoo, and in government agencies such
as the U.S. National Security Agency” (Lazer et al., 2009, p. 721 –
Journal Science).
6. Status Pengguna Mobile Internet dan medsos (2019)
133% Penduduk adalah pengguna mobile
internet
56% Penduduk adalah pengguna
media sosial
https://wearesocial.com/global-digital-report-2019
66% Penduduk adalah pengguna media
sosial kategori umur 18-34
7. Status Pengguna Mobile Internet dan medsos (2019)
133% Penduduk adalah pengguna mobile
internet
160jt Penduduk adalah pengguna
media sosial tahun 2020
66% Penduduk adalah pengguna media
sosial kategori umur 18-34
56% Penduduk adalah pengguna
media sosial
59% Penduduk adalah pengguna
media sosial tahun 2020
8. Komputasi Teks (Text Mining) dalam analisis
kuantitatif dan kualitatif
• Teks adalah tipe data yang paling
banyak dianalisis di bidang psikologi
dan juga ilmu sosial lainnya seperti
ilmu sosiologi dan politik.
• CATA (Computer Aided Text
Analysis) saat ini tidak hanya
tentang menghitung kata, tetapi
juga tentang makna dan konteks.
https://cdn.idntimes.com/content-images/post/20191029/sna-7d58f5594ee587fbe2497826b020e382.png
9. Digital life, social media, human behavior and beautiful data
Map of science derived from clickstream data.
Circles represent individual journals. The lines that connect journals
are the edges of the clickstream model in . Colors correspond to the
AAT classification of the journal. Labels have been assigned to local
clusters of journals that correspond to particular scientific disciplines.
Public sentiment map of the Manhattan and surrounding areas
according to analysis of over 600,000 tweets, organized by census
block. Cyan represents the most positive sentiment and magenta the
most negative. White represents areas with insufficient tweet density
for analysis. Areas of strong sentiment are labeled by A – F as follows:
A: Parks; B: Transportation Hubs; C: Cemeteries; D: Riker's Island ; E:
Maspeth Creek; F: Medical Centers.
https://necsi.edu/sentiment-in-new-york-cityhttps://journals.plos.org/plosone/article?id=10.1371/journal.pone.0004803
https://lingfeiwu1.gitbooks.io/data-mining-in-social-science/content/beautiful_data_and_human_behavior/
10. Komputasi Data untuk Pemetaan Perilaku Traveling
• Komputasi Data untuk Pemetaan Dampak Covid-19 kepada Perilaku
Traveling di US
11. Komputasi Data Teks dengan Teknologi
Knowledge Graph untuk Covid-19
• Pertemuan virtual pada 1 April 2020, “Knowledge
Graphs to Fight COVID-19“, yang menampilkan
tujuh pembicara yang mempresentasikan informasi
tentang inisiatif COVID-19.
• Bagi peneliti, pembuat kebijakan, dan pihak lain
yang mencoba memerangi penyebaran dan
mengurangi dampak COVID-19, mencoba
memahami data seputar virus adalah tugas yang
sangat berat.
• Bervolume besar dan diproduksi tanpa henti, data
ini berasal dari domain yang berbeda seperti
virologi dan ekonomi dan dihasilkan oleh banyak
orang dan organisasi, tanpa standar data yang
sama.
• Knowledge Graph dapat membantu memahami
data yang berantakan dari sumber yang berbeda
dan memungkinkan untuk memperoleh
pengetahuan baru dari informasi yang terhubung
secara cerdas yang berada di repositori data yang
berbeda tersebut.
12. Alat baru, wawasan baru
Tanpa teleskop, tidak ada peluang bagi
Tycho Brahe untuk mengumpulkan dan
menyatukan suatu kumpulan dataset yang
sangat besar dari posisi bintang dan
planet, yang meletakkan dasar dari
astronomi modern.
Data Mining in Social Sciences. https://lingfeiwu1.gitbooks.io/data-mining-in-social-science/content/
https://en.wikipedia.org/wiki/Tycho_Brahe
Begitu pula, meluasnya penggunaan internet memberikan kepada peneliti suatu
peluang:
• untuk mempelajari perilaku manusia dalam skala dan resolusi yang belum pernah
terjadi sebelumnya, dan
• untuk melihat melampaui teori-teori tradisional dalam ilmu sosial.
13. Big Data
dataset yang tidak dapat diproses oleh 1 mesin
• Ilmuwan sosial lebih akrab dengan kumpulan data yang dikumpulkan
dalam survei dan eksperimen, yang biasanya merupakan kumpulan
data pada level MB.
• Untuk dataset level MB ini, selama dekade terakhir, ilmuwan sosial
cenderung menyebut sebagai kumpulan data tidak kecil atau big data.
• Di sisi lain, ilmuwan fisika dan computer dalam beberapa dekade
berhadapan dengan dataset besar.
• Teleskope Hubble: 17 GB/hari
• Hadron Collider: 42 TB/hari
• Google Data Center: 1 PB/hari untuk dataset perilaku pengguna
16. Publikasi bidang Sosial Humaniora dengan memanfaatkan
teknik digital (Data Mining dan Machine Learning)
• Sumber: dimension.ai
• keyword: (social OR behavioral OR behavior) AND ("data mining" OR "machine learning")
21. Data Mining
• Data Mining adalah proses analisis untuk menempukan pengetahuan
(pola dan relasi) yang sebelumnya tersembunyi (implisit) dari data
besar
• Data Mining selanjutnya digunakan untuk prediksi dan estimasi
berbasis pola dan relasi tersebut.
• Data Mining menggunakan metode statistik, database dan machine
learning, yang memungkinkan kita menjelajahi data besar, baik secara
otomatis, semi-otomatis atau bahkan manual.
24. Data - Informasi – Pengetahuan
Data Kehadiran Pegawai
25
NIP TGL DATANG PULANG
1103 02/12/2004 07:20 15:40
1142 02/12/2004 07:45 15:33
1156 02/12/2004 07:51 16:00
1173 02/12/2004 08:00 15:15
1180 02/12/2004 07:01 16:31
1183 02/12/2004 07:49 17:00
25. Data - Informasi – Pengetahuan
Informasi Akumulasi Bulanan Kehadiran Pegawai
26
NIP Masuk Alpa Cuti Sakit Telat
1103 22
1142 18 2 2
1156 10 1 11
1173 12 5 5
1180 10 12
26. Data - Informasi – Pengetahuan - Kebijakan
• Kebijakan penataan jam kerja
karyawan khusus untuk hari
senin dan jumat
• Peraturan jam kerja:
• Hari Senin dimulai jam 10:00
• Hari Jumat diakhiri jam 14:00
• Sisa jam kerja dikompensasi ke
hari lain
27. Perbedaan metode Statistik vs Data Mining
Aspek Data Mining Statistik
Proses Pertama mengumpulkan dan mengeksplorasi data, baru
kemudian membangun model untuk mendeteksi pola dan
membuat teori
Konfirmatif. Pertama menyusun teori, baru kemudian
mengujinya dengan teknik statistik
Proses induktif Proses deduktif
Algoritma yang belajar dari data, tanpa aturan
pemrograman tertentu
Formalisasi relasi di dalam data, dalam bentuk
persamaan matematis
Menggunakan metode heuristik Tidak terkait metode heuristik
Validasi model memerlukan sedikit interaksi dengan
pengguna, sehingga mudah di-otomasi
Validasi model memerlukan interaksi dengan
pengguna, sehingga sulit di-otomasi
Jenis
metode
Klasifikasi, klastering, neural network, asosiasi, estimasi,
analisis berbasis sekuens, visualisasi
Statistik deskriptif, statistik inferensial
Data Tipe data numerik dan non-numerik Tipe data numerik
Data cleaning diselesaikan dalam Data Mining Data yang sudah bersih digunakan untuk penerapan
metode statistik
Cocok untuk data besar Cocok untuk data kecil
Koleksi data tidak terlalu penting Koleksi data lebih penting
Jenis
Data
Analisis data finansial, industri ritel, telekomunikasi, analisis
data biologi, aplikasi ilmiah tertentu dll
Demografi, riset operasi, biostatistik, QC dll
28. Siklus Data Mining: CRISP-DM Model
CRoss-Industry Standard Process for Data Mining
29. Tahapan Utama Proses Data Mining (sederhana)
Dataset
(Menyiapkan
data)
Metode
(Algoritma
Data Mining)
Knowledge
(Pola/Model)
Evaluation
(Akurasi, AUC,
RMSE, etc)
Business
Understanding
Data
Understanding
Data
Preparation
Pemodelan
dengan
Algoritma Data
Mining
Data Training Data Test
Evaluasi
performa model
Deployment
30. 1. Dataset (Data Preprocessing)
a. Memahami bisnis
1) Memahami tujuan, problem dan
konteks
2) Subject area
b. Memahami data
1) Akuisisi data
2) Eksplorasi data (EDA: exploratory
data analysis)
3) Kualitas data
c. Menyiapkan data
1) Data cleaning
missing value, smoothing data
(noise), outlier, dan menghapus
inkonsistensi
2) Integrasi data
Integrasi beberapa databases, data
cubes, atau file
3) Reduksi data
Reduksi dimensi, jumlah, dan
kompresi data
4) Transformasi dan diskritasi data
normalisasi, hirarki konsep
5) Sampling data
33. Perbandingan Tools untuk Platform DS/ML
• Sebagian besar tidak free.
• KNIME memiliki keunggulan open
platform dan free
• Lingkungan akademik/ universitas
banyak menggunakan:
• R, SPSS → background statistik
• Matlab → background teknik
• Python, Weka/RapidMiner → komputer
35. Data & Dataset
• Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
• Jenis dataset ada dua: Private dan Public
• Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
• Public Dataset: data set dapat diambil dari repositori publik yang disepakati oleh para
peneliti data mining
• UCI Repository https://archive.ics.uci.edu/ml/index.php
• ACM KDD Cup https://www.kdd.org/kdd-cup
• Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh
peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable,
repeatable dan verifiable
36. lipiindonesia lipiindonesia lipiindonesiawww.lipi.go.id
Referensi Ilmiah Open Access
Data/Dataset Ilmiah (global)
▪ World Bank Open Data
https://data.worldbank.org/
▪ WHO - Open data repository
https://www.who.int/gho/database/en/
▪ Google Public Data Explorer
https://www.google.com/publicdata/directory
▪ RODA https://registry.opendata.aws/
▪ Dbpedia
https://wiki.dbpedia.org/
▪ UNICEF Dataset
https://data.unicef.org/
▪ data.world
https://data.world/
▪ Humanitarian Data Exchange (HDX)
https://data.humdata.org/
▪ DataPlanet https://data-
planet.libguides.com/datasetsandsources
▪ UCI Machine Learning Repository
https://archive.ics.uci.edu/ml/index.php
▪ Kaggle
https://www.kaggle.com/datasets
▪ IEEEDataport
https://ieee-dataport.org/datasets
▪ Open Data Impact Map
https://opendataimpactmap.org/
38. lipiindonesia lipiindonesia lipiindonesiawww.lipi.go.id
Referensi Ilmiah Open Access
Data/Dataset Ilmiah (global)
Dataverse Network Project
▪ Harvard
https://dataverse.harvard.edu/
▪ RIN Dataset (LIPI Indonesia)
https://data.lipi.go.id/dataverse/lipi
▪ CIFOR Indonesia
https://data.cifor.org/dataverse/s
▪ NIE Singapore
https://researchdata.nie.edu.sg/
▪ DataverseNL (Netherland)
https://dataverse.nl/
39. lipiindonesia lipiindonesia lipiindonesiawww.lipi.go.id
Referensi Ilmiah Open Access
Data/Dataset Ilmiah (lokal)
▪ RIN Dataset (LIPI)
https://data.lipi.go.id/dataverse/lipi
▪ Satu Data Indonesia
https://data.go.id/dataset
▪ Jakarta Open Data
https://data.jakarta.go.id/dataset
Sebagian website dataset global
memiliki koleksi khusus dengan
topik Indonesia (data.world,
HDX, World Bank, WHO, UNICEF
dll)
40. lipiindonesia lipiindonesia lipiindonesiawww.lipi.go.id
Referensi Ilmiah Open Access
Data/Dataset Ilmiah (terkait COVID-19)
Sebagian database dataset ilmiah yang telah disebut di atas, juga memberikan
informasi data terkait Covid-19. Berikut adalah website yang menyediakan koleksi
khusus artikel dan database terkait COVID-19.
▪ Kawal Covid-19 @kawalcovid19
https://docs.google.com/spreadsheets/d/1ma1T9hWbec1pXlwZ89WakRk-
OfVUQZsOCFl4FwZxzVw/edit#gid=335196895
▪ Kaggle’s Indonesia Corona Virus data https://www.kaggle.com/ardisragen/indonesia-
coronavirus-cases
▪ CORD-19 Semantic Scholar
http://pages.semanticscholar.org/coronavirus-research
42. Tipe DataJenis Atribut Deskripsi Contoh Operasi
Ratio
(Mutlak)
• Data yang diperoleh dengan cara pengukuran,
dimana jarak dua titik pada skala sudah
diketahui
• Mempunyai titik nol yang absolut
(*, /)
• Umur
• Berat badan
• Tinggi badan
• Jumlah uang
geometric mean,
harmonic mean,
percent variation
Interval
(Jarak)
• Data yang diperoleh dengan cara pengukuran,
dimana jarak dua titik pada skala sudah
diketahui
• Tidak mempunyai titik nol yang absolut
(+, - )
• Suhu 0°c-100°c,
• Umur 20-30 tahun
mean, standard
deviation, Pearson's
correlation, t and F
tests
Ordinal
(Peringkat)
• Data yang diperoleh dengan cara kategorisasi
atau klasifikasi
• Tetapi diantara data tersebut terdapat
hubungan atau berurutan
(<, >)
• Tingkat kepuasan
pelanggan (puas, sedang,
tidak puas)
median, percentiles,
rank correlation, run
tests, sign tests
Nominal
(Label)
• Data yang diperoleh dengan cara kategorisasi
atau klasifikasi
• Menunjukkan beberapa object yang berbeda
(=, )
• Kode pos
• Jenis kelamin
• Nomer id karyawan
• Nama kota
mode, entropy,
contingency
correlation, 2 test
43. Data: Terstruktur vs Tidak Terstruktur
• Tipe data teks yang
paling banyak dianalisis
di bidang sosial adalah
salah contoh data tidak
terstruktur.
•
https://lawtomated.com/wp-content/uploads/2019/04/structuredVsUnstructuredIgneos.png
50. 2. Metode (Algoritma Data Mining)
1.Estimation (Estimasi):
•Linear Regression, Neural Network, Support Vector Machine, etc
2.Prediction/Forecasting (Prediksi/Peramalan):
•Linear Regression, Neural Network, Support Vector Machine, etc
3.Classification (Klasifikasi):
•Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Random Forest,
Linear Discriminant Analysis, Neural Network, etc
4.Clustering (Klastering):
•K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5.Association (Asosiasi):
•FP-Growth, A Priori, etc
6.Reinforcement Learning (penyesuaian tindakan):
•Swarm intelligence, genetic algorithm, Monte Carlo etc.
51. Algoritma: Supervised vs Unsupervised
Supervised Learning
• Pembelajaran dengan guru, data set
memiliki target/label/class
• Sebagian besar algoritma data mining
(estimation, prediction/forecasting,
classification) adalah supervised
learning
• Algoritma melakukan proses belajar
berdasarkan nilai dari variabel target
yang terasosiasi dengan nilai dari
variable prediktor
53
52. Algoritma: Supervised vs Unsupervised
Unsupervised Learning
• Algoritma data mining mencari pola
dari semua variable (atribut)
• Variable (atribut) yang menjadi
target/label/class tidak ditentukan
(tidak ada)
• Algoritma clustering adalah algoritma
unsupervised learning
54
53. 1. Formula/Function (Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Rule (Aturan)
• IF ips3=2.8 THEN lulustepatwaktu
4. Cluster (Klaster)
3. Knowledge (Pola/Model)
55. 4. Evaluasi: Training dan Testing
• Evaluasi dilalukan untuk
menentukan akurasi &
kehandalan model yang
telah dibuat.
• Untuk evaluasi, dataset
dibagi untuk dua
keperluan: training dan
testing.
57. Toward Open Science
• FAIR data (findable, accessible, interoperable, reusable)
• Reproducible Research
data citation
sharing pilihan,
deposit wajib
citizen science
58. Daftar Pustaka
Attewell, P. A., & Monaghan, D. B. (2015). Data mining for the social sciences: An introduction (First edition).
University of California Press.
Foster Provost, & Tom Fawcett. (2013). Data Science for Business. O’Reilly.
Kotu, V., & Deshpande, B. (2015). Predictive analytics and data mining: Concepts and practice with RapidMiner.
Elsevier/Morgan Kaufmann, Morgan Kaufmann is an imprint of Elsevier.
lingfeiwu. (2017). Data Mining in Social Science. https://lingfeiwu1.gitbooks.io/data-mining-in-social-
science/content/beautiful_data_and_human_behavior/