3. Konsep Data Mining

Table of Index
1) Sekapur Sirih
2) Konsep Data Mining
› Konsep Menurut Para Ahli
3) Fungsi dan Kategori Data Mining
› Deskriptif
› Prediktif
4) Penutup

Sekapur Sirih
Teknologi database saat ini semakin
kompleks dan mampu menyimpan data
dalam jumlah yang sangat besar (big
data). Selama 2 decade terakhir ini telah
terjadi peningkatan yang sangat
signifikan pada data yang tersimpan
secara elektronis dan terus bertambah
sampai saat ini.

Sekapur Sirih
Manusia memproduksi
data dalam jumlah
besar untuk semua
bidang seperti
ekonomi, kedokteran,
astronomi, olah raga,
cuaca, keuangan,
bisnis, pertanian, dsb.

Sekapur Sirih
Saat ini ukuran data tidak
hanya dalam hitungan satuan,
belasan atau puluhan gigabyte,
saat ini sudah masuk ke dalam
terabytes, petabytes, exabytes,
zettabyte, yottabyte

Sekapur Sirih
Munculah
istilah

Sekapur Sirih
We are Drowning in Data,
BUT
starving for “Knowledge”
Maka
“apa yang harus kita lakukan terhadap
data-data yang besar tersebut…???”

Konsep Data Mining
•Menurut Para Ahli
Menurut David Hand, Heikki Maniila dan Padhraic Smyth
dari MIT dalam buku Prabowo (Prabowo,dkk, 2) yang
mengutip dari Larose menjelaskan :
“bahwa data mining merupakan Analisa terhadap
data (biasanya data dengan ukuran besar) yang
menemukan hubungan yang jelas, serta
menyimpulkannya yang belum diketahui sebelumnya
dengan cara terkini dan dipahami*, yang kemudian
berguna bagi pemilik data tersebut”.

Konsep Data Mining
•Menurut Para Ahli (cont’d)
Disebutkan dalam penjelasan sebelumnya bahwa di
sebutkan “menggunakan cara terkini” adalah karena
perkembangan teknologi dan database yang
semakin berkembang, maka dapat digunakan cara
terbaik dan terbarukan dalam mengelola database.

Konsep Data Mining
•Menurut Para Ahli (cont’d)
Menurut Santosa dalam bukunya menyebutkan bahwa definisi Data Mining
adalah :
“Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk
menemukan keteraturan, pola dan hubungan dalam set data
berukuran besar.”
Sedangkan menurut Witten, dkk menjelaskan Data Mining adalah :
“Melakukan ekstraksi untuk mendapatkan informasi yang penting
yang sifatnya implisit dan sebelumnya tidak diketahui dari suatu
data”.

Konsep Data Mining
•Sistem pemrosesan transaksi online (On Line
Transaction Processing-OLTP) tradisional
sudah sangat baik dalam menyimpan dan
mengelola database secara cepat, aman dan
efisien, namun dalam hal kemampuan “Analisa
Data” masih kurang baik .

Konsep Data Mining
• Solusi untuk penemuan pengetahuan dalam database
berukuran besar salah satunya adalah dengan menggunakan
metode Data mining. Disinilah kontribusi Data Mining dalam
membantu perusahaan untuk Menemukan Pengetahuan
(Knowledge Discovery) dan Pola (Pattern).
Data

Fungsi dan Kategori Data Mining
Kategori Data Mining
Secara umum data mining dapat dikelompokan menjadi 2
kategori, yaitu Deskriptif dan Prediktif.
1.Deskriptif yakni berkaitan dengan tugas data
mining untuk mengkarakterisasi sejumlah data
pada sekumpulan target.
Deskriptif menemukan bentuk yang mampu
diartikan oleh manusia yang dapat menjelaskan data
tertentu.

Kategori Data Mining
2. Prediktif adalah dimana data mining
digunakan untuk membuat suatu perkiraan
berdasarkan dari induksi data yang ada saat
ini.
Prediktif menggunakan beberapa variable
untuk memprediksi nilai yang tidak diketahui
atau nilai dimasa yang akan datang dari variable
yang lain.

Fungsionalitas Data Mining
Pada proses data mining fungsionalitas data dapat dibagi
menjadi beberapa jenis, antara lain :
› Karakterisasi dan Perbedaan (characterization and
discrimination
› Pola-pola berulang, asosiasi dan korelasi (frequent
pattern, association and correlations)
› Klasifikasi dan Regresi (classification and regretion)
› Analisis Klaster (cluster analysis)

› Karakterisasi dan Perbedaan (characterization and discrimination)
Karakterisasi merupakan proses sumarisasi dari karakterisitik atau
fitur yang bersifat umum dari sebuah class target. Biasanya
menggunakan query terhadap sejumlah data pada database.
Contoh Kasus :
Mengetahui karakterisitik dari penjualan smartphone yang mengalami
peningkatan atau penurunan penjualan tiap bulan, maka data produk
yang terkait dapat dikumpulkan dengan meng-eksekusi perintah SQL
pada database penjualan.
Hasil query dapat ditampilkan dalam bentuk pie, bar atau line.

Karakterisasi : Melihat karakteristik dan trend penjualan produk
Tampilan chart bentuk bar (batang) dan line (garis)
BULAN ANDROID
Januari 9
Februari 11
Maret 13
April 13
Mei 15
Juni 16
Juli 18
Agustus 25
September 19
Oktober 21
0
5
10
15
20
25
30
ANDROID
0
5
10
15
20
25
ANDROID

Diskriminasi merupakan proses yang dilakukan untuk
membandingkan fitur-fitur yang dimiliki data target class terhadap
fitur suatu objek data dari satu atau banyak class yang berbeda.
Target data dan class yang berbeda ditentukan oleh user, sedangkan
objek data yang cocok/sesuai diperoleh melalui query database.
Contoh Kasus :
Mengetahui proses membandingkan fitur-fitur general sebuah
penjualan smartphone yang mengalami peningkatan terhadap
penjualan yang mengalami penurunan pada periode yang sama.

Diskriminasi : Membandingkan android dengan smartphone lain
Tampilan chart bentuk bar (batang)
BULAN ANDROID iOS SYMBIAN WINDOWS
Januari 9 7 7 5
Februari 11 11 6 6
Maret 13 15 7 8
April 13 10 8 8
Mei 15 11 6 8
Juni 16 12 5 7
Juli 18 13 4 9
Agustus 25 15 5 7
September 19 17 3 6
Oktober 21 16 4 8
0
5
10
15
20
25
Penjualan Smart Phone
ANDROID iOS SYMBIAN WINDOWS

› Pola-pola berulang, asosiasi dan korelasi (frequent pattern,
association and correlations)
Frequent Pattern merupakan pola yang sering terjadi/muncul secara
berulang kali pada suatu data. Frequent Patterns dapat berupa
frequent item, subsequence (sequential pattern) dan substruktur.
Frequent Item biasanya terjadi jika suatu item sering muncul secara
bersamaan pada suatu data transaksi.
Contoh :
Jika orang membeli roti pasti akan membeli susu dan mentega
Jika orang membeli amplop, pasti akan membeli perangko
Jika orang membeli pensil, pasti akan membeli penghapus

› Pola-pola berulang, asosiasi dan korelasi (frequent pattern,
association and correlations)
Sub Sequence biasanya terjadi jika suatu barang yang
dibeli, maka barang lain akan menyusul secara
berurutan.
Contoh Kasus
i. Jika beli kamera, maka akan di ikuti dengan membeli tripod,
storage, lensa, dll
ii. Jika beli Kasur, maka akan diikuti dengan membeli bantal, guling,
sprei, dll

› Pola-pola berulang, asosiasi dan korelasi (frequent pattern, association
and correlations)
Sub Struktur biasanya berkaitan dengan perbedaan bentuk struktur
(misalnya : Grafik, pohon keputusan, dll) yang dapat di kombinasikan
dengan frequent item atau sub sequence.
Contoh Kasus

Klasifikasi merupakan proses yang dilakukan untuk
menemukan sebuah model (fungsi) yang menggambarkan dan
membedakan class data atau konsep berdasarkan hasil analisis
sekumpulan training data (objek data yang memiliki label class
yang diketahui).
Model yang dihasilkan kemudian digunakan untuk memprediksi
label class dari objek yang baru diketahui. Model tersebut dapat
direpresentasikan dalam bentuk aturan klasifikasi, pohon
keputusan, formula matematika atau jaringan syaraf tiruan.

› Contoh Kasus dengan ketentuan :
Nama Pangkat Dedikasi Bonus Umroh
Inne Lektor 4 Tidak
Sarah Lektor Kepala 6 Iya
Muttaqin Lektor 3 Tidak
Lathifah Asisten Ahli 7 Tidak
Zaenal Lektor Kepala 9 Iya
Kamil Asisten Ahli 6 Tidak
Avicenna Lektor Kepala 5 Iya
Yuliani Lektor 5 Iya
Pangkat
Dedikasi Tidak
Lektor, Lektor Kepala Asisten Ahli
Tidak
Iya
>5 tahun <5 tahun
Pangkat
Dedikasi
Asist. Ahli
Lektor
Lek. Kepala
Iya
Tidak
Pangkat(X, “Asisten Ahli”) and Dedikasi(X, “<5 tahun”) → class(X, “Tidak”)
Pangkat(X, “Asisten Ahli”) and Dedikasi(X, >5 tahun”) → class(X, “Tidak”)
Pangkat(X, “Lektor, Lektor Kepala”) and Dedikasi (X, “<5 tahun”) → class(X, “Tidak”)
Pangkat(X, “Lektor, Lektor Kepala”) and Dedikasi(X, “>5 tahun”) → class(X, “Iya”)Training Set Test Set

Regresi digunakan untuk mempredikasi nilai data numerik yang
hilang atau tidak tersedia. Analisis Regresi adalah metode statistic
yang digunakan untuk memprediksi data numerik beserta
identifikasi distribusi kecenderungan berdasarkan data yang ada.

Analisis Klaster digunakan untuk membentuk label class dari
suatu grup data, dimana data tidak memiliki label class
sebelumnya.
Suatu data dikumpulkan berdsasarkan prinsip similiarity dan
dissimiliarity suatu objek data. Data yang memiliki kesamaan yang
kuat akan dikelompokan ke dalam suatu klister, sedangkan data
dengan similiarity yang lemah (dissimiliarity) akan dikelompokan
ke dalam klister lainnya.

Dari data di bawah berikut dapat kita klasterisasikan berdasarkan pada
Asal Sekolah, Semester dan IPK.
NO NIM NAMA ASAL SEKOLAH JURUSAN SEMESTER IPK
1 a001 Tubagus SMAN 1 Pandeglang Sistem Informasi IV 2,7
2 a002 Sarah SMAN 1 Serang Sistem Informasi II 3,5
3 a003 Husen SMAN 1 Pandeglang Sistem Informasi IV 3,3
4 a004 Lathifah SMAN 1 Cilegon Sistem Informasi VI 2,4
5 a005 Zaenal SMAN 1 Serang Sistem Informasi VI 2,2
6 a006 Kamil SMAN 1 Pandeglang Sistem Informasi II 3,6
7 a007 Avicenna SMAN 1 Serang Sistem Informasi VI 3,4
8 a008 Yuliani SMAN 1 Cilegon Sistem Informasi II 2,8
9 a009 Muttaqin SMAN 1 Pandeglang Sistem Informasi IV 3,3
10 a010 Inne SMAN 1 Pandeglang Sistem Informasi VI 2,8
11 a011 Ratu SMAN 1 Serang Sistem Informasi IV 2,3
12 a012 Zein SMAN 1 Pandeglang Sistem Informasi VI 2,7
NAMA ASAL SEKOLAH JURUSAN SEMESTER IPK
Sarah SMAN 1 Serang Sistem Informasi II 3,5
Husen SMAN 1 Pandeglang Sistem Informasi IV 3,3
Kamil SMAN 1 Pandeglang Sistem Informasi II 3,6
Avicenna SMAN 1 Serang Sistem Informasi VI 3,4
Muttaqin SMAN 1 Pandeglang Sistem Informasi IV 3,3
NAMA ASAL SEKOLAH JURUSAN SEMESTER IPK
Husen SMAN 1 Pandeglang Sistem Informasi IV 3,3
Kamil SMAN 1 Pandeglang Sistem Informasi II 3,6
Muttaqin SMAN 1 Pandeglang Sistem Informasi IV 3,3
Hasil Klasterisasi Mahasiswa Dengan “IPK di Atas 3,0”
Hasil Klasterisasi Mahasiswa Dengan IPK di Atas 3,0, di Klasterisasi
kembali dengan “Asal Sekolah dari SMAN 1 Pandeglang”

3. Konsep Data Mining

More Related Content

What's hot

Similar to 3. Konsep Data Mining

Recently uploaded

3. Konsep Data Mining