Arsitektur data mining terdiri dari data cleaning, data integration, data mining engine, pattern evaluation, dan graphical user interface. Metode data mining meliputi prediksi (seperti klasifikasi dan regresi), deskripsi (seperti clustering dan association rule discovery). Klasifikasi digunakan untuk memprediksi kelas data baru, sedangkan regresi memprediksi atribut bernilai riil. Clustering memecah data menjadi kelompok serupa dan association rule menemukan hubungan antar item yang sering dibeli bersama.
3. Arsitektur Data
Mining
Keterangan :
Data cleaning (Pembersihan Data) : untuk
membuang data yang tidak konsisten dan noise
Data integration : penggabungan data dari beberapa
sumber
Data Mining Engine : Mentranformasikan data
menjadi bentuk yang sesuai untuk di mining
Pattern evaluation: untuk menemukan pengetahuan
yang bernilai melalui knowledge base
Graphical User Interface (GUI) : untuk end user
4. Model Data
MiningMetode Prediksi
Dengan menggunakan beberapa
variabel, untuk memprediksi nilai yang
belum diketahui (unknown ) atau nilai
selanjutnya (future) dari variabel lain
Contoh:
Classification
Regression
Deviation Detection / DeviationAnalysis
6. Classificatio
nProses untuk menemukan model atau
fungsi yang membedakan kelas data,
dengan tujuan untuk dapat memprediksi
kelas dari suatu objek yang labelnya tidak
diketahui
7. Examples of Classification
Task
Memprediksi sel tumor apakah jinak
atau ganas
Klasifikasi transaksi kartu kredit apakah
sah atau penipuan
Mengkategorikan artikel berita
keuangan, cuaca, hiburan, olahraga, dll
8. Classification
Techniques Decision Tree based Methods
Neural Networks
Rule-based Methods
Memory based reasoning
Naïve Bayes and Bayesian Belief
Networks
Support Vector Machines
14. Regressio
n Metode Regression mirip dengan
metode Classification, bedanya adalah
regression tidak bisa mencari pola yang
dijabarkan sebagai class (kelas).
Digunakan untuk memetakan data
dengan prediksi atribut bernilai real
15. Contoh Regression
Task Memprediksi jumlah penjualan produk
baru pada advertising expenditure
(belanja iklan).
Memprediksi kecepatan memutar (wind
velocities) pada fungsi temperatur,
tekanan udara , dll
Memperkirakan metode distribusi dan
kapasitas distribusi
16. Teknik
RegressionTeknik :
Linear Regression
Logistic Regression
SQL Server Data Mining mendukung teknik :
Regression Trees (bagian Microsoft
Decission Trees)
Neural Network
Oracle Data Mining mendukung teknik :
Generalized Linear Models (GLM)
Support Vector Machines (SVM)
17. Deviation Detection / Deviation
Analysis
Digunakan untuk mencari kasus yang
bertindak sangat berbeda dari
normalnya
Mengidentifikasi kasus yang tidak
normal diantara jutaan transaksi
18. Contoh Deviation Analysis
Task
Pendeteksian penyalah gunaan Kartu
kredit.
Pendeteksian gangguan jaringan
komputer
Analisa kesalahan produksi, dll
20. Clusterin
g Disebut juga sebagai Segmentation
Clustering adalah suatu alat untuk
analisa data, yang memecahkan
permasalahan penggolongan
Clustering mendistribusikan obyek ke
dalam kelompok, sehingga :
Derajat tingkat keterhubungan antar
anggota cluster yang sama adalah kuat dan
Derajat tingkat keterhubungan antar
anggota cluster yang berbeda adalah lemah
23. Clusterin
gGambar dibawah ini menunjukkan kelompok data
pelanggan yang berisi dua atribut, yaitu
Age (Umur) dan Income (Pendapatan).
24. Clusterin
gAlgoritma Clustering mengelompokkan
kelompok data kedalam tiga segment
berdasarkan kedua atribut ini.
Cluster 1 berisi populasi berusia muda
dengan pendapatan rendah
Cluster 2 berisi populasi berusia
menengah dengan pendapatan yang
lebih tinggi
Cluster 3 berisi populasi berusia tua
dengan pendapatan yang relatif rendah.
26. Contoh Association Rule
TaskAnalisis pembelian barang di suatu pasar
swalayan yaitu :
Dapat diketahuinya besar kemungkinan
seorang pelanggan membeli suatu barang
dengan barang lainnya
27. Association Rule
TeknikTahap analisis asosiasi untuk
menghasilkan algoritma adalah pola
frekuensi tinggi (frequent pattern mining)
Analisis asosiasi sering juga disebut
market basket analysis