2. KID Lab
2
Presenter : Arwansyah Advisor : Prof. Jen-Wei Huang
Outline
Proses dan tahapan data mining.
Karakteristik data
Metode Data Mining
Persiapan data
Membuat dataset
3. Model Data Mining
Prediction Methods / Predictive / Prediski
Menggunakan beberapa variabel untuk memprediksi sesuatu
atau suatu nilai yang akan datang.
Description Methods / Deskriptif
Mendapatkan pola penafsiran (human- interpretable patterns)
untuk menjelaskan data.
3
5. 5
Himpunan Data (Dataset)
Atribut adalah faktor atau parameter yang menyebabkan
class/label/target terjadi
Jenis dataset ada dua: Private dan Public
Private Dataset: data set dapat diambil dari organisasi yang kita
jadikan obyek penelitian : Bank, Rumah Sakit, Industri, Pabrik,
Perusahaan Jasa, etc
Public Dataset : data set dapat diambil dari repositori pubik
yang disepakati oleh para peneliti data mining. UCI Repository
(http://www.ics.uci.edu/~mlearn/MLRepository.html) ACM
KDD Cup (http://www.sigkdd.org/kddcup/)
Proses dan Tahapan Data Mining(Lanj..)
8. Karakteristik Data 8
Jenis atribut atau nilai dari kolom ada beberapa, diantaranya adalah
Nominal yang merupakan kategori class yang tidak memiliki
perbedaan nilai atau rangking. Contoh pekerjaan (Dosen, PNS).
Binary merupakan atribut yang tidak memiliki perbedaan dan
hanya memiliki 2 states, contohnya seperti jenis kelamin
(perempuan, laki-laki).
Ordinal merupakan kategori class yang memiliki nilai rangking,
contohnya seperti jabatan, jenjang pendidikan, dll.
Numeric merupakan kuantitas yang memiliki ukuran nilai yang
memiliki jarak yang jelas, contohnya adalah umur. Numeric ini
memiliki 2 jenis, yaitu rasio dan interval.
9. 9
Karakteristik Data(Lanj..)
Dalam data mining terdapat karakteristik penting dari dataset yaitu:
Dimensionality adalah karakteristik dataset yang mengolah data
multidimensional sehingga menyebabkan data yang
diolahmemiliki dimensi yang besar dan usaha yang dilakukan
juga semakin besar.
Sparsity merupakan terjadinya titik jarang atau kekosongan
dalam data. Hal ini dapat terjadi pada data multidimensional.
Resolution merupakan skala pada data dan resolusi yang
berbeda.
Distribution merupakan sifat penyebaran data dan sejauh mana
renggang atau jarak dari data tersebut.
10. Metode Data Mining 10
Classification/Klasifikasi adalah sebuah proses menemukan
definisi kesamaan karakteristik dalam suatu kelompok atau kelas
(class). Klasifikasi data mining menjadi salah satu metode yang
paling umum untuk digunakan. Metode ini dilakukan bertujuan
untuk memperkirakan kelas dari suatu objek yang labelnya
belum diketahui. (Decision Tree (CART, ID3, C4.5, Credal DT,
Credal C4.5, DynamicCC4.5), Naive Bayes, K-Nearest
Neighbor, Linear Discriminant Analysis, Logistic Regression.)
12. 12
Association adalah Metode data mining yang kedua adalah
Market basket analysis (analisa keranjang pasar) atau
association. Berhubungan dengan pemasaran, metode ini
bertujuan untuk mengidentifikasi produk yang sering dibeli
bersamaan oleh pelanggan. (FP-Growth, A Priori, Coefficient of
Correlation, Chi Square, etc)
Metode Data Mining(Lanj..)
14. 14
Metode Data Mining(Lanj..)
Clustering data mining adalah nama lain untuk metode
segmentation. Tujuan dari segmentasi pada metode data mining
adalah mengelompokkan suatu class ke dalam beberapa segmen
berdasarkan atribut yang ditentukan. Penentuan atribut harus
sesuai kesamaan yang dimiliki beberapa class tadi. (K-Means,
K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means)
16. 7
16
Metode Data Mining(Lanj..)
Regression Metode keempat dari data mining adalah regression.
Metode yang satu ini sedikit mirip dengan klasifikasi data
mining. Bedanya, regresi merupakan metode yang bertujuan
untuk mencari pola nilai numerik, bukan kelas. Hasil dari
metode regression adalah sebuah fungsi sebagai penentu hasil
yang didasarkan nilai dari input (Linear Regression, Neural
Network)
18. 7
18
Metode Data Mining(Lanj..)
Forecasting data mining adalah metode yang digunakan untuk
memprediksi nilai yang akan dicapai pada satu periode. Dengan
menggunakan teknik ini, noise data dan nilai pada periode
sebelumnya dijadikan dasar bahan prediksi.
Sequence adalah sebuah urutan peristiwa. Tidak jauh dari
namanya, metode sequence analysis berfungsi untuk mencari
sebuah pola pada serangkaian kejadian atau sequence. Contoh
sederhananya dalam kehidupan sehari-hari adalah ketika makan.
Rangkaian yang umum dilakukan adalah mengambil piring,
sendok dan garpu, kemudian baru mengambil lauk pauk. Pola
seperti itu lah yang berusaha dicari tahu melalui sequencing.