Presentation 2022
D-IV Rekayasa Perangkat Lunak - Teknik Informatika
DATA
MINING
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
“To find signals in data, we must learn to reduce the
noise - not just the noise that resides in the data, but
also the noise that resides in us. It is nearly impossible
for noisy minds to perceive anything but noise in data.”
Outline
Pengantar Data Mining
Presentation 2022
D-IV Rekayasa Perangkat Lunak - Teknik Informatika
Manfaat Data Mining
Bidang ilmu terkait Data Mining
Proses Data Mining
Task Data Mining
Penerapan Data Mining di Berbagai Bidang
Bahasa Pemrograman Untuk Data Mining
?
DATA MINING
DATA MINING
Pengantar Data Mining Presentation 2022
Data Mining adalah langkah analisis terhadap proses penemuan pengetahuan di
dalam basis data atau Knowledge Discovery in Databases (KDD).
(Fayyad et al. 1996)
Data Mining adalah sebuah proses untuk mengekstrak informasi atau
pengetahuan penting dari suatu set data berukuran besar dengan menggunakan
teknik tertentu.
Data Mining membantu memahami data dalam jumlah besar.
DATA, INFORMASI, KNOWLEDGE
Pengantar Data Mining Presentation 2022
Data adalah deskripsi dari sesuatu dan kejadian yang dihadapi. Data adalah
sumber informasi dan merupakan bentuk yang belum dapat memberikan
manfaat yang besar bagi penerimanya, sehingga perlu suatu model yang nantinya
akan dikelompokkan dan diproses untuk menghasilkan informasi.
Pengetahuan (knowledge) adalah kombinasi dari naluri, gagasan, aturan, dan
prosedur yang mengarahkan tindakan atau keputusan (Alter, 1992).
Sumber: www.netsuite.com
01 02
Mengapa Perlu Data Mining?
Perkembangan data yang semakin
heterogen dan kompleks dengan
volume yang meningkat cepat secara
eksponensial
Kebutuhan untuk
menemukan pengetahuan,
pola dan/atau relasi antar
data secara otomatis.
BIG DATA
Data
Mining
dan
Bidang
Ilmu
Terkait
Pengantar Data Mining
Proses Data
Mining
Pengantar Data Mining
Digunakan untuk mencari pola-
pola yang dapat dipahami
manusia yang menjelaskan
karakteristik data.
Deskriptif
Digunakan untuk membentuk
sebuah model pengetahuan
yang akan dilakukan untuk
melakukan prediksi.
Prediktif
Kegunaan Data Mining
Pengantar Data Mining Presentation 2022
01 Pengambilan sebuah keputusan yang cerdas dan tepat
02
Mendeteksi sebuah anomali atau perilaku yang
menyimpang dalam struktur bisnis
Kegunaan Data Mining
03 Meningkatkan sistem operasional bisnis
Contoh:
04 Membuat Prediksi Akurat untuk Perencanaan
.... ....
Mengeneralisasi struktur yang diketahui untuk
diaplikasikan pada data-data baru.
Misal:
Klasifikasi penyakit ke dalam sejumlah jenis.
01
Klasifikasi (Classification)
Menemukan suatu fungsi yang
memodelkan data dengan galat
(kesalahan prediksi) seminimal mungkin.
03
Regresi (Regression)
Mengelompokkan data yang tidak diketahui
label kelasnya ke dalam sejumlah kelompok
tertentu sesuai dengan ukuran kemiripannya.
02
Klasterisasi (Clustering)
Mengidentifikasi data yang tidak umum, bisa
berupa outlier, perubahan atau deviasi yang
mungkin sangat penting dan perlu investigasi
lebih lanjut.
04
Deteksi Anomali (Anomaly Detection)
Kegunaan Data Mining
Berdasarkan fungsionalitasnya, tugas-tugas Data Mining bisa dikelompokkan ke dalam enam kelompok:
(Fayyad et al. 1996)
05
Pembelajaran Aturan Asosiasi
(Association Rule Learning) atau
Pemodelan Kebergantungan
(Dependency Modeling)
Menyediakan representasi data yang lebih
sederhana, meliputi visualisasi dan
pembuatan laporan.
06
Perangkuman (Summarization)
Pencarian relasi antar variabel.
Konsep dalam Data Mining
yang berusaha menemukan
asosiasi atau keterkaitan data.
Market Basket Analysis
Penggunaan teknik
perangkingan yang pada
dasarnya menggunakan
teknik klasifikasi atau
klasterisasi.
Recommender System
Pembangunan untuk sistem
optimasi untuk CRM yang
lebih lengkap dan
menyeluruh. Sistem dibangun
menggunakan teknik
klasifikasi atau klasterisasi.
Churn Prediction
Pendeteksi kecurangan.
Sistem ini bisa dibangun
menggunakan teknik anomaly
detection.
Fraud Detection
Penerapan Data Mining
Marketing
dan Bisnis
Pembuatan sistem klasifikasi yang secara otomatis mengelompokkan ribuan bahkan jutaan lagu ke
dalam sejumlah genre.
Seni dan Hiburan
Penerapan Data Mining
Pemetaan hubungan darah antar manusia dengan menggunakan teknik sequence mining.
Sains dan Teknik
Data-Driven Journalism (DDJ), proses jurnalistik berbasis analisis dan penyaringan himpunan data
berukuran besar untuk membuat atau mengangkat berita.
Contoh: https://articlegenerator.org/
Jurnalistik
Penggunaan teknik klasifikasi dan klasterisasi data-data pribadi user sehingga dapat merancang strategi
dan membangun propaganda yang tepat untuk mempengaruhi persepsi pemilih.
Politik
01
Apakah
Software
Engineer
Butuh
Data
Mining?
Pengantar Data Mining
Repository OSS tersedia dengan data yang sangat
besar. Ekstraksi data tersebut berpotensi untuk
menghasilkan pengetahuan yang berguna untuk
peningkatan kualitas pengembangan perangkat
lunak.
02 Software engineer perlu menambahkan fitur-fitur
yang berkaitan data mining pada software yang
dibangun (jika dibutuhkan oleh client).
03 ....
Bahasa
Pemrograman
Pengantar Data Mining
C++, VB, Delphi, Java, Python, PHP, R, dan
lain-lain
Tool atau software Data Mining seperti
Weka, Orange, RapidMiner, dan lain-lain.
Presentation 2022
D-IV Rekayasa Perangkat Lunak - Teknik Informatika
Etika Dalam
Data Mining
Penggunaan Data Mining
Pemakaian Data
Pengguna
Filter Bubble
01 Data adalah sesuatu yang belum mempunyai arti bagi penerimanya dan
masih memerlukan adanya suatu pengolahan.
02 Catatan atas kumpulan fakta
DATA
03 Fakta dikumpulkan untuk menjadi data
04
Berkaitan dengan angka disebut data kuantitatif. Tidak berkaitan dengan angka
atau tidak dinyatakan dalam angka disebut kualitatif, contoh: data jenis kelamin,
hoby mahasiswa
DATA KUANTITATIF
Pengantar Data Mining Presentation 2022
Data Diskrit
Diperoleh dari hasil perhitungan
Contoh: Banyaknya Mahasiswa Kelas 5B D-IV Rekayasa Perangkat Lunak sebanyak
30 Orang.
Data kontinyu
Diperolah dari hasil pengukuran
Contoh: Jarak tempuh dari rumah ke kampus (km), Hasil Panen Petani A (ton).
Data berdasarkan skala pengukuran
Pengantar Data Mining Presentation 2022
Nominal
Skala yang hanya mempunyai ciri untuk membedakan skala ukur yang satu
dengan yang lain. Data pada suatu objek yang mana penomorannya tidak
melambangkan kedudukan atau tingkatan tertentu.
Ordinal
Skala yang selain mempunyai ciri untuk membedakan juga mempunyai ciri untuk
mengurutkan pada rentang tertentu .
Data berdasarkan skala pengukuran
Pengantar Data Mining Presentation 2022
Interval
Skala yang mempunyai ciri untuk membedakan, mengurutkan, dan mempunyai
ciri jarak yang sama.
Skala ratio
Data rasio merupakan data yang terurut dengan selisih yang sama di setiap
datanya.
LATIHAN!
Pengantar Data Mining Presentation 2022
Untuk praktek secara local: install python3
Untuk praktek secara online: gunakan google colab
Praktekan dasar-dasar pemograman python:
https://www.w3schools.com/python/default.asp

01 - Introduction to Data Mining - Original.pdf

  • 1.
    Presentation 2022 D-IV RekayasaPerangkat Lunak - Teknik Informatika DATA MINING Elvi Rahmi, S.T., M.Kom. elvizasri@gmail.com “To find signals in data, we must learn to reduce the noise - not just the noise that resides in the data, but also the noise that resides in us. It is nearly impossible for noisy minds to perceive anything but noise in data.”
  • 2.
    Outline Pengantar Data Mining Presentation2022 D-IV Rekayasa Perangkat Lunak - Teknik Informatika Manfaat Data Mining Bidang ilmu terkait Data Mining Proses Data Mining Task Data Mining Penerapan Data Mining di Berbagai Bidang Bahasa Pemrograman Untuk Data Mining
  • 3.
  • 4.
    DATA MINING Pengantar DataMining Presentation 2022 Data Mining adalah langkah analisis terhadap proses penemuan pengetahuan di dalam basis data atau Knowledge Discovery in Databases (KDD). (Fayyad et al. 1996) Data Mining adalah sebuah proses untuk mengekstrak informasi atau pengetahuan penting dari suatu set data berukuran besar dengan menggunakan teknik tertentu. Data Mining membantu memahami data dalam jumlah besar.
  • 5.
    DATA, INFORMASI, KNOWLEDGE PengantarData Mining Presentation 2022 Data adalah deskripsi dari sesuatu dan kejadian yang dihadapi. Data adalah sumber informasi dan merupakan bentuk yang belum dapat memberikan manfaat yang besar bagi penerimanya, sehingga perlu suatu model yang nantinya akan dikelompokkan dan diproses untuk menghasilkan informasi. Pengetahuan (knowledge) adalah kombinasi dari naluri, gagasan, aturan, dan prosedur yang mengarahkan tindakan atau keputusan (Alter, 1992).
  • 6.
  • 7.
    01 02 Mengapa PerluData Mining? Perkembangan data yang semakin heterogen dan kompleks dengan volume yang meningkat cepat secara eksponensial Kebutuhan untuk menemukan pengetahuan, pola dan/atau relasi antar data secara otomatis. BIG DATA
  • 8.
  • 9.
  • 10.
    Digunakan untuk mencaripola- pola yang dapat dipahami manusia yang menjelaskan karakteristik data. Deskriptif Digunakan untuk membentuk sebuah model pengetahuan yang akan dilakukan untuk melakukan prediksi. Prediktif Kegunaan Data Mining Pengantar Data Mining Presentation 2022
  • 11.
    01 Pengambilan sebuahkeputusan yang cerdas dan tepat 02 Mendeteksi sebuah anomali atau perilaku yang menyimpang dalam struktur bisnis Kegunaan Data Mining 03 Meningkatkan sistem operasional bisnis Contoh: 04 Membuat Prediksi Akurat untuk Perencanaan .... ....
  • 12.
    Mengeneralisasi struktur yangdiketahui untuk diaplikasikan pada data-data baru. Misal: Klasifikasi penyakit ke dalam sejumlah jenis. 01 Klasifikasi (Classification) Menemukan suatu fungsi yang memodelkan data dengan galat (kesalahan prediksi) seminimal mungkin. 03 Regresi (Regression) Mengelompokkan data yang tidak diketahui label kelasnya ke dalam sejumlah kelompok tertentu sesuai dengan ukuran kemiripannya. 02 Klasterisasi (Clustering) Mengidentifikasi data yang tidak umum, bisa berupa outlier, perubahan atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut. 04 Deteksi Anomali (Anomaly Detection) Kegunaan Data Mining Berdasarkan fungsionalitasnya, tugas-tugas Data Mining bisa dikelompokkan ke dalam enam kelompok: (Fayyad et al. 1996) 05 Pembelajaran Aturan Asosiasi (Association Rule Learning) atau Pemodelan Kebergantungan (Dependency Modeling) Menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan pembuatan laporan. 06 Perangkuman (Summarization) Pencarian relasi antar variabel.
  • 13.
    Konsep dalam DataMining yang berusaha menemukan asosiasi atau keterkaitan data. Market Basket Analysis Penggunaan teknik perangkingan yang pada dasarnya menggunakan teknik klasifikasi atau klasterisasi. Recommender System Pembangunan untuk sistem optimasi untuk CRM yang lebih lengkap dan menyeluruh. Sistem dibangun menggunakan teknik klasifikasi atau klasterisasi. Churn Prediction Pendeteksi kecurangan. Sistem ini bisa dibangun menggunakan teknik anomaly detection. Fraud Detection Penerapan Data Mining Marketing dan Bisnis
  • 14.
    Pembuatan sistem klasifikasiyang secara otomatis mengelompokkan ribuan bahkan jutaan lagu ke dalam sejumlah genre. Seni dan Hiburan Penerapan Data Mining Pemetaan hubungan darah antar manusia dengan menggunakan teknik sequence mining. Sains dan Teknik Data-Driven Journalism (DDJ), proses jurnalistik berbasis analisis dan penyaringan himpunan data berukuran besar untuk membuat atau mengangkat berita. Contoh: https://articlegenerator.org/ Jurnalistik Penggunaan teknik klasifikasi dan klasterisasi data-data pribadi user sehingga dapat merancang strategi dan membangun propaganda yang tepat untuk mempengaruhi persepsi pemilih. Politik
  • 15.
    01 Apakah Software Engineer Butuh Data Mining? Pengantar Data Mining RepositoryOSS tersedia dengan data yang sangat besar. Ekstraksi data tersebut berpotensi untuk menghasilkan pengetahuan yang berguna untuk peningkatan kualitas pengembangan perangkat lunak. 02 Software engineer perlu menambahkan fitur-fitur yang berkaitan data mining pada software yang dibangun (jika dibutuhkan oleh client). 03 ....
  • 16.
    Bahasa Pemrograman Pengantar Data Mining C++,VB, Delphi, Java, Python, PHP, R, dan lain-lain Tool atau software Data Mining seperti Weka, Orange, RapidMiner, dan lain-lain.
  • 17.
    Presentation 2022 D-IV RekayasaPerangkat Lunak - Teknik Informatika Etika Dalam Data Mining Penggunaan Data Mining Pemakaian Data Pengguna Filter Bubble
  • 18.
    01 Data adalahsesuatu yang belum mempunyai arti bagi penerimanya dan masih memerlukan adanya suatu pengolahan. 02 Catatan atas kumpulan fakta DATA 03 Fakta dikumpulkan untuk menjadi data 04 Berkaitan dengan angka disebut data kuantitatif. Tidak berkaitan dengan angka atau tidak dinyatakan dalam angka disebut kualitatif, contoh: data jenis kelamin, hoby mahasiswa
  • 19.
    DATA KUANTITATIF Pengantar DataMining Presentation 2022 Data Diskrit Diperoleh dari hasil perhitungan Contoh: Banyaknya Mahasiswa Kelas 5B D-IV Rekayasa Perangkat Lunak sebanyak 30 Orang. Data kontinyu Diperolah dari hasil pengukuran Contoh: Jarak tempuh dari rumah ke kampus (km), Hasil Panen Petani A (ton).
  • 20.
    Data berdasarkan skalapengukuran Pengantar Data Mining Presentation 2022 Nominal Skala yang hanya mempunyai ciri untuk membedakan skala ukur yang satu dengan yang lain. Data pada suatu objek yang mana penomorannya tidak melambangkan kedudukan atau tingkatan tertentu. Ordinal Skala yang selain mempunyai ciri untuk membedakan juga mempunyai ciri untuk mengurutkan pada rentang tertentu .
  • 21.
    Data berdasarkan skalapengukuran Pengantar Data Mining Presentation 2022 Interval Skala yang mempunyai ciri untuk membedakan, mengurutkan, dan mempunyai ciri jarak yang sama. Skala ratio Data rasio merupakan data yang terurut dengan selisih yang sama di setiap datanya.
  • 22.
    LATIHAN! Pengantar Data MiningPresentation 2022 Untuk praktek secara local: install python3 Untuk praktek secara online: gunakan google colab Praktekan dasar-dasar pemograman python: https://www.w3schools.com/python/default.asp