Data Mining Pertemuan 3
1
Model Data Mining
KID Lab
2
Presenter : Arwansyah Advisor : Prof. Jen-Wei Huang
Outline
 Proses dan tahapan data mining.
 Karakteristik data
 Metode Data Mining
 Persiapan data
 Membuat dataset
Model Data Mining
 Prediction Methods / Predictive / Prediski
Menggunakan beberapa variabel untuk memprediksi sesuatu
atau suatu nilai yang akan datang.
 Description Methods / Deskriptif
Mendapatkan pola penafsiran (human- interpretable patterns)
untuk menjelaskan data.
3
4
Proses dan Tahapan Data Mining
5
Himpunan Data (Dataset)
 Atribut adalah faktor atau parameter yang menyebabkan
class/label/target terjadi
 Jenis dataset ada dua: Private dan Public
 Private Dataset: data set dapat diambil dari organisasi yang kita
jadikan obyek penelitian : Bank, Rumah Sakit, Industri, Pabrik,
Perusahaan Jasa, etc
 Public Dataset : data set dapat diambil dari repositori pubik
yang disepakati oleh para peneliti data mining. UCI Repository
(http://www.ics.uci.edu/~mlearn/MLRepository.html) ACM
KDD Cup (http://www.sigkdd.org/kddcup/)
Proses dan Tahapan Data Mining(Lanj..)
6
Proses dan Tahapan Data Mining(Lanj..)
7
Proses dan Tahapan Data Mining(Lanj..)
Karakteristik Data 8
Jenis atribut atau nilai dari kolom ada beberapa, diantaranya adalah
 Nominal yang merupakan kategori class yang tidak memiliki
perbedaan nilai atau rangking. Contoh pekerjaan (Dosen, PNS).
 Binary merupakan atribut yang tidak memiliki perbedaan dan
hanya memiliki 2 states, contohnya seperti jenis kelamin
(perempuan, laki-laki).
 Ordinal merupakan kategori class yang memiliki nilai rangking,
contohnya seperti jabatan, jenjang pendidikan, dll.
 Numeric merupakan kuantitas yang memiliki ukuran nilai yang
memiliki jarak yang jelas, contohnya adalah umur. Numeric ini
memiliki 2 jenis, yaitu rasio dan interval.
9
Karakteristik Data(Lanj..)
Dalam data mining terdapat karakteristik penting dari dataset yaitu:
 Dimensionality adalah karakteristik dataset yang mengolah data
multidimensional sehingga menyebabkan data yang
diolahmemiliki dimensi yang besar dan usaha yang dilakukan
juga semakin besar.
 Sparsity merupakan terjadinya titik jarang atau kekosongan
dalam data. Hal ini dapat terjadi pada data multidimensional.
 Resolution merupakan skala pada data dan resolusi yang
berbeda.
 Distribution merupakan sifat penyebaran data dan sejauh mana
renggang atau jarak dari data tersebut.
Metode Data Mining 10
 Classification/Klasifikasi adalah sebuah proses menemukan
definisi kesamaan karakteristik dalam suatu kelompok atau kelas
(class). Klasifikasi data mining menjadi salah satu metode yang
paling umum untuk digunakan. Metode ini dilakukan bertujuan
untuk memperkirakan kelas dari suatu objek yang labelnya
belum diketahui. (Decision Tree (CART, ID3, C4.5, Credal DT,
Credal C4.5, DynamicCC4.5), Naive Bayes, K-Nearest
Neighbor, Linear Discriminant Analysis, Logistic Regression.)
11
Metode Data Mining(Lanj..)
12
 Association adalah Metode data mining yang kedua adalah
Market basket analysis (analisa keranjang pasar) atau
association. Berhubungan dengan pemasaran, metode ini
bertujuan untuk mengidentifikasi produk yang sering dibeli
bersamaan oleh pelanggan. (FP-Growth, A Priori, Coefficient of
Correlation, Chi Square, etc)
Metode Data Mining(Lanj..)
13
14
Metode Data Mining(Lanj..)
 Clustering data mining adalah nama lain untuk metode
segmentation. Tujuan dari segmentasi pada metode data mining
adalah mengelompokkan suatu class ke dalam beberapa segmen
berdasarkan atribut yang ditentukan. Penentuan atribut harus
sesuai kesamaan yang dimiliki beberapa class tadi. (K-Means,
K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means)
7
15
Metode Data Mining(Lanj..)
7
16
Metode Data Mining(Lanj..)
 Regression Metode keempat dari data mining adalah regression.
Metode yang satu ini sedikit mirip dengan klasifikasi data
mining. Bedanya, regresi merupakan metode yang bertujuan
untuk mencari pola nilai numerik, bukan kelas. Hasil dari
metode regression adalah sebuah fungsi sebagai penentu hasil
yang didasarkan nilai dari input (Linear Regression, Neural
Network)
17
Metode Data Mining(Lanj..)
7
18
Metode Data Mining(Lanj..)
 Forecasting data mining adalah metode yang digunakan untuk
memprediksi nilai yang akan dicapai pada satu periode. Dengan
menggunakan teknik ini, noise data dan nilai pada periode
sebelumnya dijadikan dasar bahan prediksi.
 Sequence adalah sebuah urutan peristiwa. Tidak jauh dari
namanya, metode sequence analysis berfungsi untuk mencari
sebuah pola pada serangkaian kejadian atau sequence. Contoh
sederhananya dalam kehidupan sehari-hari adalah ketika makan.
Rangkaian yang umum dilakukan adalah mengambil piring,
sendok dan garpu, kemudian baru mengambil lauk pauk. Pola
seperti itu lah yang berusaha dicari tahu melalui sequencing.
19
Metode Data Mining(Lanj..)
20
Persiapan data & Membuat Data Set
21
Site Penyedia Datasets
 https://data.go.id/dataset
 https://www.kaggle.com/datasets?tags=12107-
Computer+Science
 https://data.jakarta.go.id/dataset
22

Pertemuan 3 Model Data Mining.pptx

  • 1.
    Data Mining Pertemuan3 1 Model Data Mining
  • 2.
    KID Lab 2 Presenter :Arwansyah Advisor : Prof. Jen-Wei Huang Outline  Proses dan tahapan data mining.  Karakteristik data  Metode Data Mining  Persiapan data  Membuat dataset
  • 3.
    Model Data Mining Prediction Methods / Predictive / Prediski Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang.  Description Methods / Deskriptif Mendapatkan pola penafsiran (human- interpretable patterns) untuk menjelaskan data. 3
  • 4.
  • 5.
    5 Himpunan Data (Dataset) Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi  Jenis dataset ada dua: Private dan Public  Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian : Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc  Public Dataset : data set dapat diambil dari repositori pubik yang disepakati oleh para peneliti data mining. UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html) ACM KDD Cup (http://www.sigkdd.org/kddcup/) Proses dan Tahapan Data Mining(Lanj..)
  • 6.
    6 Proses dan TahapanData Mining(Lanj..)
  • 7.
    7 Proses dan TahapanData Mining(Lanj..)
  • 8.
    Karakteristik Data 8 Jenisatribut atau nilai dari kolom ada beberapa, diantaranya adalah  Nominal yang merupakan kategori class yang tidak memiliki perbedaan nilai atau rangking. Contoh pekerjaan (Dosen, PNS).  Binary merupakan atribut yang tidak memiliki perbedaan dan hanya memiliki 2 states, contohnya seperti jenis kelamin (perempuan, laki-laki).  Ordinal merupakan kategori class yang memiliki nilai rangking, contohnya seperti jabatan, jenjang pendidikan, dll.  Numeric merupakan kuantitas yang memiliki ukuran nilai yang memiliki jarak yang jelas, contohnya adalah umur. Numeric ini memiliki 2 jenis, yaitu rasio dan interval.
  • 9.
    9 Karakteristik Data(Lanj..) Dalam datamining terdapat karakteristik penting dari dataset yaitu:  Dimensionality adalah karakteristik dataset yang mengolah data multidimensional sehingga menyebabkan data yang diolahmemiliki dimensi yang besar dan usaha yang dilakukan juga semakin besar.  Sparsity merupakan terjadinya titik jarang atau kekosongan dalam data. Hal ini dapat terjadi pada data multidimensional.  Resolution merupakan skala pada data dan resolusi yang berbeda.  Distribution merupakan sifat penyebaran data dan sejauh mana renggang atau jarak dari data tersebut.
  • 10.
    Metode Data Mining10  Classification/Klasifikasi adalah sebuah proses menemukan definisi kesamaan karakteristik dalam suatu kelompok atau kelas (class). Klasifikasi data mining menjadi salah satu metode yang paling umum untuk digunakan. Metode ini dilakukan bertujuan untuk memperkirakan kelas dari suatu objek yang labelnya belum diketahui. (Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, DynamicCC4.5), Naive Bayes, K-Nearest Neighbor, Linear Discriminant Analysis, Logistic Regression.)
  • 11.
  • 12.
    12  Association adalahMetode data mining yang kedua adalah Market basket analysis (analisa keranjang pasar) atau association. Berhubungan dengan pemasaran, metode ini bertujuan untuk mengidentifikasi produk yang sering dibeli bersamaan oleh pelanggan. (FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc) Metode Data Mining(Lanj..)
  • 13.
  • 14.
    14 Metode Data Mining(Lanj..) Clustering data mining adalah nama lain untuk metode segmentation. Tujuan dari segmentasi pada metode data mining adalah mengelompokkan suatu class ke dalam beberapa segmen berdasarkan atribut yang ditentukan. Penentuan atribut harus sesuai kesamaan yang dimiliki beberapa class tadi. (K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means)
  • 15.
  • 16.
    7 16 Metode Data Mining(Lanj..) Regression Metode keempat dari data mining adalah regression. Metode yang satu ini sedikit mirip dengan klasifikasi data mining. Bedanya, regresi merupakan metode yang bertujuan untuk mencari pola nilai numerik, bukan kelas. Hasil dari metode regression adalah sebuah fungsi sebagai penentu hasil yang didasarkan nilai dari input (Linear Regression, Neural Network)
  • 17.
  • 18.
    7 18 Metode Data Mining(Lanj..) Forecasting data mining adalah metode yang digunakan untuk memprediksi nilai yang akan dicapai pada satu periode. Dengan menggunakan teknik ini, noise data dan nilai pada periode sebelumnya dijadikan dasar bahan prediksi.  Sequence adalah sebuah urutan peristiwa. Tidak jauh dari namanya, metode sequence analysis berfungsi untuk mencari sebuah pola pada serangkaian kejadian atau sequence. Contoh sederhananya dalam kehidupan sehari-hari adalah ketika makan. Rangkaian yang umum dilakukan adalah mengambil piring, sendok dan garpu, kemudian baru mengambil lauk pauk. Pola seperti itu lah yang berusaha dicari tahu melalui sequencing.
  • 19.
  • 20.
    20 Persiapan data &Membuat Data Set
  • 21.
    21 Site Penyedia Datasets https://data.go.id/dataset  https://www.kaggle.com/datasets?tags=12107- Computer+Science  https://data.jakarta.go.id/dataset
  • 22.