Data mining 1 pengantar

Pengantar Data Mining
Irwansyah Saputra, S.Kom., M.Kom., MTA
Founder of Multinity Indonesia

Tentang Saya
• Irwansyah Saputra
• Dosen Ilmu Komputer
• Mahasiswa S3 Ilmu Komputer IPB University
• Bidang Kajian: Computational Intelligence &
Optimization (Data mining, machine learning,
artificial intelligence)
Halo semuanya, saya suka belajar tentang segala
hal dan suka berbagi pengetahuan. Saya juga
sering menjadi pembicara di berbagai seminar.
Kontak yang bisa dihubungi:
WhatsApp: 0895323302241
Instagram: @irwansight_
Web: https://irw.one

Disclaimer
Materi ini digunakan sebagai bahan ajar Program Data Mining di
Multinity.id
Silakan gunakan, mohon untuk tidak mengubah template.
Jika Anda memiliki kesulitan dalam memahami materi pada slide
ini, silakan belajar di Multinity.id

Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques
Third Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine
Learning Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases
and Business Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data
Mining, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press,
2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques,
Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery
Handbook Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data
Mining of Enterprise Data: Algorithms and Applications, World Scientific,
2007

https://datareportal.com/reports/digital-2020-july-global-statshot

https://www.raconteur.net/infographics/a-day-in-data/

https://visual.ly/community/Infographics/technology/big-data

We are drowning in data but
starving for knowledge
John Naisbitt, 1982

Data Transformation
Perbedaan data, informasi, pengetahuan, kebijaksanaan?

Structured & Unstructred Data
Unstructured data is
approximately 80% of the data
that organizations process daily.
https://lawtomated.com/structured-data-vs-unstructured-data-what-are-they-and-why-care/

Tipe Data
• Variabel merupakan karakter
contoh atau populasi yang menarik
untuk diamati.
• Variabel tersebut dibagi kedalam 2,
yaitu kualitatif & kuantitatif.
• Kualitatif: observasi yang bersifat
data kategorial
• Kuantitatif: observasi yang bersifat
data numerik

Variabel Kualitatif
• Menjelaskan data karakteristik atau
sifat bukan dengan angka.
• Contoh: warna mata, nama negara
di asia, tempat lahir, ranking di
kelas, tingkat kepuasan
pengunjung, nomor hp, dan
lainnya.

Variabel Kuantitatif
• Menjelaskan data hasil dari
perhitungan atau pengukuran.
• Contoh: jumlah pasien yang
berkunjung, suhu ruangan, tekanan
angin pada ban mobil, jumlah gaji
yang dihasilkan, tingkat IQ, jumlah
penjualan mobil, jarak rumah ke
sekolah dan lain sebagainya.

Variabel Kuantitatif
• Dibagi ke dalam 2 jenis, Diskrit dan
Kontinu.
• Diskrit memiliki karakteristik nilai
bulat dan ada batasan antar nilai.
Contoh: jumlah pengunjung mall
dalam satu hari, jumlah mobil yang
terjual
• Kontinu memiliki karakteristik
bertolak belakang dengan diskrit.
Contoh: tekanan angin pada ban,
suhu tubuh orang demam, suhu di
kutub utara, tinggi badan siswa,
pajak yang mesti dibayar

Summary
Tipe Variabel
Merek Komputer
Jenis Kelamin
Warna mata
Diskrit
Jumlah anggota keluarga
Jumlah pasien yang datang
Kontinu
Jumlah pajak yang dibayarkan
Tinggi badan siswa
Suhu ruangan
Kualitatif Kuantitatif

Tingkatan Pengukuran
• Berdasarkan tingkatan
pengukuran, tipe data
dibagi ke dalam 4 jenis,
nominal, ordinal,
interval dan rasio

Tipe Data Nominal
• Data nominal tidak memiliki
urutan atau tingkatan.
• Bersifat kategorial dan tidak
dapat dihitung secara
matematis.
• Contoh: macam-macam warna,
jenis kelamin, nomor jersey,
merek laptop dan lainnya.
Mutually Exclusive dan Exhaustive*
Mutually Exclusive: Tidak boleh ada di lebih dari satu himpunan.
Exhaustive: harus masuk pada salah satu himpunan. Tidak boleh berada di luar himpunan.

Tipe Data Ordinal
• Data ordinal memiliki
urutan atau tingkatan.
• Bersifat kategorial dan tidak
dapat dihitung secara
matematis.
• Contoh: tingkat kepuasan
pelanggan, jenjang sekolah,
juara perlombaan dan
lainnya.

Tipe Data Interval
• Data interval mirip dengan ordinal
yaitu memiliki tingkatan.
• Perbedaannya adalah nilai pada
data interval dapat dijelaskan
secara matematis.
• Bersifat nominal dan dapat dihitung
secara matematis.
• Tidak dimulai dari nol.
• Contoh: suhu orang demam,
ukuran pakaian (M, L, XL)

Tipe Data Rasio
• Data Rasio mirip dengan interval.
• Perbedaannya adalah nilai pada
data rasio dimulai dari nol poin.
• Bersifat nominal dan dapat dihitung
secara matematis.
• Contoh: upah karyawan, jumlah
mobil yang terjual, berat badan,
tinggi badan

Data mining
• Ekstraksi pola yang menarik
dari data dalam jumlah besar.
• Suatu pola dikatakan menarik
apabila pola tersebut tidak
sepele, implisit, tidak diketahui
sebelumnya, dan berguna.
• Penggalian data diperlukan
saat data yang tersedia terlalu
banyak

Metode Data Mining
Estimasi
Klasifikasi
Prediksi
Klasterisasi
Asosiasi

Cara kerja Supervised Learning
• Dipandu oleh guru. Dataset memiliki label/target/class.
• Mayoritas algoritma data mining adalah SL.
• Algoritma bekerja sesuai dengan label/target/class yang dipengaruhi oleh atribut.

Cara kerja Unsupervised Learning
• Mencari kemiripan dalam kelompoknya, dan tidak mirip dengan kelompok lainnya.
• Tidak ada class/target/label pada dataset.
• Clustering dan asosiasi termasuk ke dalam UL

Reinforcement Learning
• Belajar dari kesalahan
• Terdiri dari agent, environment, reward.
• Agent mengenali lingkungan.
• Reward didapatkan saat benar. Reward = 0 jika salah. Sehingga tidak akan mengulangi kesalahan
yang sama.

Contoh Penerapan Data Mining
• Estimasi

Estimasi Produksi Cacat
Y = a + bX
Y = -27,02 + 1,56X
Gunakan algoritma
Regresi Linear

Estimasi Produksi Cacat
1. Prediksikan Jumlah Cacat Produksi jika suhu dalam keadaan tinggi
(Variabel X), contohnya: 30°C
Y = -27,02 + 1,56X
Y = -27,02 + 1,56(30)
=19,78
2. Jika Cacat Produksi (Variabel Y) yang ditargetkan hanya boleh 5
unit, maka berapakah suhu ruangan yang diperlukan untuk
mencapai target tersebut?
5= -27,02 + 1,56X
1,56X = 5+27,02
X= 32,02/1,56
X =20,52
Jadi Prediksi Suhu Ruangan yang paling sesuai untuk mencapai target Cacat Produksi
adalah sekitar 20,520C

• Prediksi

• Klasifikasi

Rekomendasi Main Golf
Pengetahuan berupa aturan
pohon, If Then Rules.

• Klasterisasi

Mengelompokkan Pelanggan
Dataset terkait memisahkan
pelanggan berdasarkan panggilan
lokal dan internasional.
Dataset tanpa label.
Jumlah cluster ditentukan dari awal. Pada
kasus ini cluster dibagi ke dalam 2.
Pengetahuan yang didapatkan berupa cluster

• Asosiasi

Kasus Market Basket Analysis
• Contoh dataset tidak semuanya dimunculkan.
• Setelah menerapkan algoritma asosiasi
seperti Apriori, muncul hasil seperti di kanan.

Penjelasan
• Algoritma association rule (aturan asosiasi) adalah algoritma yang
menemukan atribut yang “muncul bersamaan”
• Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan
belanja di supermaket ABC, dimana:
• 200 orang membeli Apel
• dari 200 orang yang membeli Apel, 50 orangnya membeli Pear
• Jadi, association rule menjadi, “Jika membeli apel, maka membeli
Pear”, dengan nilai support = 200/1000 = 20% dan nilai confidence
= 50/200 = 25%
• Algoritma association rule diantaranya adalah: A priori algorithm,
FP-Growth algorithm, GRI algorithm.

Algoritma Data Mining
1. Estimation (Estimasi):
• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,
Logistic Regression, etc
4. Clustering (Klastering):
• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):
• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

Penerapan Data Mining
• Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa
• Penerapan data mining untuk memprediksi kriteria nasabah kredit
• Penerapan Datamining Pada Ekspor Buah-Buahan Menurut Negara
Tujuan
• Penerapan Datamining Dalam Mengelompokkan Kunjungan
Wisatawan Ke Objek Wisata Unggulan Di Prov. Dki Jakarta
• Penerapan Data Mining Untuk Analisis Pola Pembelian Konsumen
Pada Data Transaksi Penjualan Spare Part Motor

Data mining 1 pengantar

More Related Content

What's hot

Similar to Data mining 1 pengantar

Data mining 1 pengantar