SlideShare a Scribd company logo
1 of 34
Download to read offline
Pengantar Kuliah
Data Mining
Rizal Setya Perdana, S.Kom., M.Kom.
Email : rizalespe@ub.ac.id
COMPUTATIONAL AND INTELEGENT SYSTEM LABORATORY
Universitas Brawijaya
IFK15032– Data Mining
Penjelasan Mata Kuliah
1. Nama Mata Kuliah : Data Mining
2. Kode / SKS : IFK15032 / 3
3. Semester : Ganjil
4. Prasyarat : -
5. Status mata kuliah : Pilihan
Tujuan (utama) Pembelajaran
• Mahasiswa mampu memahami konsep,
proses, metode dan teknik dasar data mining
• Mahasiswa mampu mendeskripsikan dan
mendemonstrasikan konsep, proses, metode
dan teknik dasar data mining
Tujuan Pembelajaran (lanjutan)
 Memahami konsep data warehousing dan penyiapan
data (data preprosesing)
 Memahami konsep pengelompokkan data (clustering)
 Memahami konsep prediksi, rekomendasi (klasifikasi)
 Algoritma cara menangani mising value
 Memahami konsep Association Rule (mengetahui
keterkaitan antar data)
 Memahami konsep Squential Pattern (mengetahui
keterkaitan antar data dengan memperhatikan timeline)
Materi Mata Kuliah
1. Pengantar kuliah data mining
2. Data Warehousing dan persiapan data
3. Klastering : Hierarchical Method & K-Means
4. Klasifikasi : Instance Based (KNN)
5. Bayes
6. Algoritma Missing Value
7. Klasifikasi : Rule Based
8. Association Rule Mining
9. Sequential Pattern Mining
Evaluasi & Penilaian
• Point Keaktifan
• 30% Tugas
• 30% UTS
• 40% Projek/UAS
• Pembentukan Kelompok (5 org/per
kelompok) + rencana tugas masing-
masing anggota
Aturan di Kelas
• Kuliah hadir tepat waktu
• Kehadiran minimal 80%
• Tidak menggunakan HP/Smartphone/Laptop
sebelum ada instruksi
• Jujur dan bersungguh-sungguh dalam
mengerjakan setiap Tugas, Kuis maupun Ujian
• Menghindari plagiasi dalam setiap tugas
• Pelanggaran plagiasi akan memperoleh sanksi:
pekerjaan tidak diakui (nilai 0)
Pustaka
• Data Mining: Practical Machine Learning Tools and Techniques
(Carlos I. Degregori and I. H. Witten) Elsevier
• Data Mining: Concepts and Techniques (Jiawei Han)
• Gunakan SCIENCEDIRECT dan IEEE EXPLORE di UB
• Sumber apapun (Internet, Video dll)
Rencana Perkuliahan
Pertemuan Materi Kelas Tugas Projek
1 Pengantar Kuliah Pembentukkan kelompok tugas
2 Data Warehousing dan persiapan data Cari Paper Tentang Data Mining (science direct & ieee)
3 Clustering: Hierarchical Method dan K-Means Review Paper (Problem base, Metode dan Hasil)
4 Klasifikasi: Instance Base (KNN) Progress paper (untuk persetujuan paper final projek)
5 Bayes Fix Paper, Topik Final Project & Acc
6 Missing value Perhitungan Manual
7 Quiz
8 UTS
9 UTS Presentasi Bedah Paper Base Topik FP & Dataset, Desain
Interface
10 Klasifikasi: Rule Based
11 Association Rule Mining Progres Koding Preprocessing/Ekstraksi Fitur & Uraian
Algoritma
12 Association Rule Mining Progres Koding Algoritma & Hasil Uji Coba
13 Sequential Pattern Mining Progres Koding Algoritma & Hasil Uji Coba
14 Quiz Dok. Langsung berupa Paper
15 Presentasi I Dok. Langsung berupa Paper
16 Presentasi II (UAS) Dok. Langsung berupa Paper
Sarana Pendukung
• Komputer
 Laptop sendiri
• Blog:
 http://rizalespe.lecture.ub.ac.id
• Group Chat / Grup Sosial Media
• Wakil kelas
 Untuk komunikasi dengan dosen
 Secepatnya terpilih dan beritahukan dosen
Data rich, Information Poor
Data ?
Informasi ?
• Banyak data telah dikumpulkan
dan digudangkan (warehoused)
– Web data, e-commerce
– Pembelian pada pusat belanja
maupun grosir
– Transaksi Bank/Credit Card
• Komputer semakin murah dan berkemampuan tinggi
• Tingkat persaingan (Competitive Pressure) yang makin
kuat
– Menyediakan layanan yang lebih baik dan sesuai dengan
pelanggan
Why Mine Data? Commercial
Viewpoint
• Data terkumpul dan tersimpan
pada kecepatan yang luar biasa (GB/hour)
– Penginderaan jarak jauh pada satelit
– Pemindaian telescopes angkasa
– Larik mikro yang membangkitkan data genetik
– Simulasi ilmiah yang membangkitkan
data berukurang besar (terabytes of data)
• Cara kuno yang tidak layak untuk data-data mentah (raw
data)
• Data mining dapat membantu ilmuwan
– Dalam mengklasifikasikan dan mengelompokkan
data dalam proses pembentukan hipotesis
Why Mine Data? Scientific Viewpoint
• Kadang terdapat informasi yang
“tersembunyi” dalam data yang tidak tersedia
dengan jelas
• Seorang ahli analisa mungkin membutuhkan
waktu berminggu-minggu untuk menemukan
informasi yang bermanfaat dari sekumpulan
data yang besar
• Kebanyakan data tidak pernah dianalisis
secara keseluruhan
Mining Large Data Sets - Motivation
• Beragam definisi:
– Penguraian (yang tidak sederhana) informasi
potensi implicit (tidak nyata/jelas) yang
sebelumnya tidak diketahui dari sekumpulan data
– Penggalian dan analisis, dengan menggunakan
peranti otomatis atau semi otomatis, dari
sejumlah besar data yang bertujuan untuk
menemukan bentuk yang bermanfaat
Apa Data Mining?
• Apa yang tidak termasuk Data Mining?
– Mencari nomer telepon pada buku telepon
– Melalukan query pada suatu search engine untuk
informasi tentang “Amazon”
• Apa yang termasuk Data Mining?
– Nama tertentu lebih lazim dipakai di daerah Jawa (Sutinah,
Suliyem, Ngatini, Paijo… di Jawa Tengah)
– Mengelompokkan secara bersamaan dokumen-dokumen
yang dihasilkan oleh search engine menurut hubungan
kata-katanya (misal: Amazon rainforest, Amazon.com, etc)
Apa yang (tidak) termasuk Data
Mining?
• Menggambarkan ide dari machine learning/AI,
pattern recognition, statistics, dan database
systems
• Cara tradisional yang sesuai untuk
– Data yang amat besar
– Data dengan banyak dimensi
– Data yang heterogen
dan tersebarHeterogeneous,
Asal Data Mining
Database systems
Statistics/AI
Machine Learning/
Pattern
Recognition
Data Mining
• Prediction Methods
– Menggunakan beberapa variabel untuk
memprediksi nilai yang tidak diketahui atau nilai
di masa mendatang dari variabel lain.
• Description Methods
– Menemukan bentuk yang mampu diartikan
manusia (human-interpretable patterns) yang
dapat menjelaskan data tertentu.
Tugas Data Mining
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
• Classification [Predictive]
• Clustering [Descriptive]
• Association Rule Discovery [Descriptive]
• Sequential Pattern Discovery [Descriptive]
• Regression [Predictive]
• Deviation Detection [Predictive]
Data Mining Tasks...
• Jika terdapat sekumpulan record (training set )
– Setiap record terdiri dari sekumpulan attributes, satu dari
atribut bisa merupakan class.
• Tentukan suatu model untuk atribut class
sebagai suatu fungsi nilai dari atribut lain.
• Tujuan: previously unseen records should be
assigned a class as accurately as possible.
– Suatu test set digunakan untuk menentukan keakuratan suatu
model. Umumnya, data set yang diberikan dibagi ke dalam
training sets dan test sets, training set digunakan untuk
membentuk model dan test set digunakan untuk mengujinya.
Classification: Definition
Classification Example
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Refund Marital
Status
Taxable
Income Cheat
No Single 75K ?
Yes Married 50K ?
No Married 150K ?
Yes Divorced 90K ?
No Single 40K ?
No Married 80K ?
10
Test Set
Trainin
g Set
Model
Learn
Classifier
• Penjualan Langsung (Direct Marketing)
– Tujuan: Mengurangi biaya pengiriman promosi dengan hanya
membidik (targeting) sejumlah konsumen yang suka membeli
produk telepon selular baru.
– Pendekatan:
• Gunakan data untuk produk serupa yang telah ditawarkan
sebelumnya.
• Kita tahu konsumen mana yang memutuskan untuk membeli dan yang
tidak. Keputusan {membeli, tidak membeli} membentuk atribut class.
• Kumpulkan berbagai informasi demografi, gaya hidup, dan semua
informasi yang terkait dengan perusahaan (jenis usaha/pekerjaan, di
mana mereka tinggal, berapa pendapatann mereka, dsb.) dari
konsumen tersebut.
• Gunakan infomasi ini sebagai atribut masukan pada learn a classifier
model.
Classification: Application
Diambil dari [Berry & Linoff] Data Mining Techniques, 1997
• Diberikan sekumpulan data titik, masing-masing
memiliki sekumpulan atribut, dan kesamaan
ukuran diantaranya, temukan gugus (cluster)
sehingga
– Data titik dalam satu cluster lebih serupa kepada yang
lain.
– Data titik dalam satu cluster yang berbeda lebih
nampak kurang serupa kepada yang lain.
• Similarity Measures (Ukuran Kesamaan):
– Euclidean Distance jika atributnya kontinyu.
– Ukuran kesamaan lain yang khusus untuk problem
khusus (Problem-specific Measures).
Definisi Clustering
Illustrating Clustering
• Euclidean Distance Based Clustering in 3-D space.
Intracluster distances
are minimized
Intercluster distances
are maximized
• Document Clustering:
– Tujuan: Untuk menemukan kelompok dokumen yang
serupa dengan yang lain berdasar istilah penting yang
muncul di kedua dokumen yang dibandingkan.
– Pendekatan: Mengenali frekuensi kemunculan istilah
pada masing-masing dokumen. Membentuk ukuran
kesamaan berdasar frekuensi dari istilah yang
berbeda. Gunakan ukuran ini sebagai dasar
pengelompokkan.
– Pencapaian: Information Retrieval dapat
menggunakan cluster untuk menghubungkan suatu
dokumen baru atau mencari istilah pada dokumen
yang telah dikelompokkan.
Clustering: Application
• Titik-titik pengelompokan: 3204 Article dari Kompas.
• Ukuran kesamaan: Seberapa banyak kata yang umum berada dalam
dokumen-dokumen ini setelah dilakukan filter.
Illustrating Document Clustering
Category Total Articles Correctly
Placed
Financial 555 364
Foreign 341 260
National 273 36
Metro 943 746
Sports 738 573
Entertainment 354 278
• Diberikan sekumpulan record di mana masing-masing record terdiri dari
sejumlah item dari koleksi yang diberikan;
– Perlu dibuat dependency rules (aturan ketergantungan) yang akan
memprediksikan kemunculan item tersebut berdasarkan kemunculan
item yang lain.
Association Rule Discovery: Definition
TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Rules Discovered:
{Milk} --> {Coke}
{Diaper, Milk} --> {Beer}
• Marketing and Sales Promotion:
– Let the rule discovered be
{Bagels, … } --> {Potato Chips}
– Potato Chips as consequent => Can be used to determine
what should be done to boost its sales.
– Bagels in the antecedent => Can be used to see which
products would be affected if the store discontinues
selling bagels.
– Bagels in antecedent and Potato chips in consequent =>
Can be used to see what products should be sold with
Bagels to promote sale of Potato chips!
Association Rule Discovery: Application 1
• Supermarket shelf management.
– Tujuan: Menentukan item yang dibeli secara
bersamaan dan cukup oleh banyak konsumen.
– Approach: Proses data pembelian (point-of-sale)
yang dikumpulkan dengan barcode scanners untuk
menentukan ketergantungan antar item yang ada.
Association Rule Discovery:
Application 2
• Inventory Management:
– Goal: A consumer appliance repair company
wants to anticipate the nature of repairs on its
consumer products and keep the service vehicles
equipped with right parts to reduce on number of
visits to consumer households.
– Approach: Process the data on tools and parts
required in previous repairs at different consumer
locations and discover the co-occurrence patterns.
Association Rule Discovery:
Application 3
• Detect significant deviations from normal behavior
• Applications:
– Credit Card Fraud Detection
– Network Intrusion
Detection
Deviation/Anomaly Detection
Typical network traffic at University level may reach over 100 million connections per day
• Scalability
• Dimensionality
• Complex and Heterogeneous Data
• Data Quality
• Data Ownership and Distribution
• Privacy Preservation
• Streaming Data
Tantangan Data Mining
• Cari informasi mengenai suatu penerapan data
mining yang telah dikemas menjadi produk
perangkat lunak. Uraikan penjelasan mengenai
data mining task dari produk tersebut
• Cari informasi mengenai perangkat lunak yang
merupakan tools untuk melakukan data mining.
Uraikan penjelasan mengenai data mining task
yang didukung oleh tools tersebut!
Tugas
Terimakasih

More Related Content

Similar to DM-01-Pengantar-Perkuliahan-Data-mining.pdf

Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...Suhaili Hanafi
 
Pertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxPertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxArwansyahDipanegara
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsHendro Subagyo
 
educational research
educational researcheducational research
educational researchharjunode
 
BAB 4 PENELITIAN SOSIAL.ppt
BAB 4 PENELITIAN SOSIAL.pptBAB 4 PENELITIAN SOSIAL.ppt
BAB 4 PENELITIAN SOSIAL.pptratnapramudya
 
Materi Data Science Teknik Informatika Politeknik TEDC
Materi Data Science Teknik Informatika Politeknik TEDCMateri Data Science Teknik Informatika Politeknik TEDC
Materi Data Science Teknik Informatika Politeknik TEDCcastakaagussugianto
 
Teknik_analisis_dt.kual.ppt_[Compatibility_Mode].pdf
Teknik_analisis_dt.kual.ppt_[Compatibility_Mode].pdfTeknik_analisis_dt.kual.ppt_[Compatibility_Mode].pdf
Teknik_analisis_dt.kual.ppt_[Compatibility_Mode].pdfRizkyNolanSetyowati
 
Pertemuan 4 Konsep Dasar Data Mining dan Algoritma.pptx
Pertemuan 4 Konsep Dasar Data Mining dan Algoritma.pptxPertemuan 4 Konsep Dasar Data Mining dan Algoritma.pptx
Pertemuan 4 Konsep Dasar Data Mining dan Algoritma.pptxDanteHayashi
 
Data mining week 1 - pengantar data mining
Data mining   week 1 - pengantar data miningData mining   week 1 - pengantar data mining
Data mining week 1 - pengantar data miningLye Lazar
 
Pengenalan kepada penyelidikan
Pengenalan kepada penyelidikanPengenalan kepada penyelidikan
Pengenalan kepada penyelidikanrosniomar1
 
Pengenalan kepada penyelidikan
Pengenalan kepada penyelidikanPengenalan kepada penyelidikan
Pengenalan kepada penyelidikanMasitah Taib
 

Similar to DM-01-Pengantar-Perkuliahan-Data-mining.pdf (20)

Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...Penyelidikan kualitatif dalam pendidikan  (merekod mengurus dan menganalisis ...
Penyelidikan kualitatif dalam pendidikan (merekod mengurus dan menganalisis ...
 
Bab1.pptx
Bab1.pptxBab1.pptx
Bab1.pptx
 
Pertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxPertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptx
 
bds spatial data mining
bds spatial data miningbds spatial data mining
bds spatial data mining
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan Netlytics
 
3. Konsep Data Mining
3. Konsep Data Mining3. Konsep Data Mining
3. Konsep Data Mining
 
educational research
educational researcheducational research
educational research
 
BAB 4 PENELITIAN SOSIAL.ppt
BAB 4 PENELITIAN SOSIAL.pptBAB 4 PENELITIAN SOSIAL.ppt
BAB 4 PENELITIAN SOSIAL.ppt
 
Arsitektur dan model data mining
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data mining
 
Materi Data Science Teknik Informatika Politeknik TEDC
Materi Data Science Teknik Informatika Politeknik TEDCMateri Data Science Teknik Informatika Politeknik TEDC
Materi Data Science Teknik Informatika Politeknik TEDC
 
Teknik_analisis_dt.kual.ppt_[Compatibility_Mode].pdf
Teknik_analisis_dt.kual.ppt_[Compatibility_Mode].pdfTeknik_analisis_dt.kual.ppt_[Compatibility_Mode].pdf
Teknik_analisis_dt.kual.ppt_[Compatibility_Mode].pdf
 
Manajemen data kesehatan
Manajemen data kesehatanManajemen data kesehatan
Manajemen data kesehatan
 
Pro forma AR 3113
Pro forma  AR 3113 Pro forma  AR 3113
Pro forma AR 3113
 
Scientific Papers _ PPT.pptx
Scientific Papers _ PPT.pptxScientific Papers _ PPT.pptx
Scientific Papers _ PPT.pptx
 
1. Pengantar Objek.ppt
1. Pengantar Objek.ppt1. Pengantar Objek.ppt
1. Pengantar Objek.ppt
 
Pertemuan 4 Konsep Dasar Data Mining dan Algoritma.pptx
Pertemuan 4 Konsep Dasar Data Mining dan Algoritma.pptxPertemuan 4 Konsep Dasar Data Mining dan Algoritma.pptx
Pertemuan 4 Konsep Dasar Data Mining dan Algoritma.pptx
 
mengelola sumber data
mengelola sumber datamengelola sumber data
mengelola sumber data
 
Data mining week 1 - pengantar data mining
Data mining   week 1 - pengantar data miningData mining   week 1 - pengantar data mining
Data mining week 1 - pengantar data mining
 
Pengenalan kepada penyelidikan
Pengenalan kepada penyelidikanPengenalan kepada penyelidikan
Pengenalan kepada penyelidikan
 
Pengenalan kepada penyelidikan
Pengenalan kepada penyelidikanPengenalan kepada penyelidikan
Pengenalan kepada penyelidikan
 

Recently uploaded

415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompokelmalinda2
 
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAHKISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAHIrmaYanti71
 
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanVULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanBungaCitraNazwaAtin
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxAhmadSyajili
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Surveikustiyantidew94
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptAhmadSyajili
 
menghitung skewness dan kurtosis pada distribusi normal
menghitung skewness dan kurtosis pada distribusi normalmenghitung skewness dan kurtosis pada distribusi normal
menghitung skewness dan kurtosis pada distribusi normalHendriKurniawanP
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxrikosyahputra0173
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxnursariheldaseptiana
 
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaanANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaanamalaguswan1
 

Recently uploaded (10)

415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok
 
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAHKISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
KISI AKM BAHASA INGGRIS ASSESMENT MADRASAH
 
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanVULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptx
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Survei
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.ppt
 
menghitung skewness dan kurtosis pada distribusi normal
menghitung skewness dan kurtosis pada distribusi normalmenghitung skewness dan kurtosis pada distribusi normal
menghitung skewness dan kurtosis pada distribusi normal
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptx
 
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaanANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
ANALISA KASUS KECELAKAAN KERJA pada saat melakukan pekerjaan
 

DM-01-Pengantar-Perkuliahan-Data-mining.pdf

  • 1. Pengantar Kuliah Data Mining Rizal Setya Perdana, S.Kom., M.Kom. Email : rizalespe@ub.ac.id COMPUTATIONAL AND INTELEGENT SYSTEM LABORATORY Universitas Brawijaya IFK15032– Data Mining
  • 2. Penjelasan Mata Kuliah 1. Nama Mata Kuliah : Data Mining 2. Kode / SKS : IFK15032 / 3 3. Semester : Ganjil 4. Prasyarat : - 5. Status mata kuliah : Pilihan
  • 3. Tujuan (utama) Pembelajaran • Mahasiswa mampu memahami konsep, proses, metode dan teknik dasar data mining • Mahasiswa mampu mendeskripsikan dan mendemonstrasikan konsep, proses, metode dan teknik dasar data mining
  • 4. Tujuan Pembelajaran (lanjutan)  Memahami konsep data warehousing dan penyiapan data (data preprosesing)  Memahami konsep pengelompokkan data (clustering)  Memahami konsep prediksi, rekomendasi (klasifikasi)  Algoritma cara menangani mising value  Memahami konsep Association Rule (mengetahui keterkaitan antar data)  Memahami konsep Squential Pattern (mengetahui keterkaitan antar data dengan memperhatikan timeline)
  • 5. Materi Mata Kuliah 1. Pengantar kuliah data mining 2. Data Warehousing dan persiapan data 3. Klastering : Hierarchical Method & K-Means 4. Klasifikasi : Instance Based (KNN) 5. Bayes 6. Algoritma Missing Value 7. Klasifikasi : Rule Based 8. Association Rule Mining 9. Sequential Pattern Mining
  • 6. Evaluasi & Penilaian • Point Keaktifan • 30% Tugas • 30% UTS • 40% Projek/UAS • Pembentukan Kelompok (5 org/per kelompok) + rencana tugas masing- masing anggota
  • 7. Aturan di Kelas • Kuliah hadir tepat waktu • Kehadiran minimal 80% • Tidak menggunakan HP/Smartphone/Laptop sebelum ada instruksi • Jujur dan bersungguh-sungguh dalam mengerjakan setiap Tugas, Kuis maupun Ujian • Menghindari plagiasi dalam setiap tugas • Pelanggaran plagiasi akan memperoleh sanksi: pekerjaan tidak diakui (nilai 0)
  • 8. Pustaka • Data Mining: Practical Machine Learning Tools and Techniques (Carlos I. Degregori and I. H. Witten) Elsevier • Data Mining: Concepts and Techniques (Jiawei Han) • Gunakan SCIENCEDIRECT dan IEEE EXPLORE di UB • Sumber apapun (Internet, Video dll)
  • 9. Rencana Perkuliahan Pertemuan Materi Kelas Tugas Projek 1 Pengantar Kuliah Pembentukkan kelompok tugas 2 Data Warehousing dan persiapan data Cari Paper Tentang Data Mining (science direct & ieee) 3 Clustering: Hierarchical Method dan K-Means Review Paper (Problem base, Metode dan Hasil) 4 Klasifikasi: Instance Base (KNN) Progress paper (untuk persetujuan paper final projek) 5 Bayes Fix Paper, Topik Final Project & Acc 6 Missing value Perhitungan Manual 7 Quiz 8 UTS 9 UTS Presentasi Bedah Paper Base Topik FP & Dataset, Desain Interface 10 Klasifikasi: Rule Based 11 Association Rule Mining Progres Koding Preprocessing/Ekstraksi Fitur & Uraian Algoritma 12 Association Rule Mining Progres Koding Algoritma & Hasil Uji Coba 13 Sequential Pattern Mining Progres Koding Algoritma & Hasil Uji Coba 14 Quiz Dok. Langsung berupa Paper 15 Presentasi I Dok. Langsung berupa Paper 16 Presentasi II (UAS) Dok. Langsung berupa Paper
  • 10. Sarana Pendukung • Komputer  Laptop sendiri • Blog:  http://rizalespe.lecture.ub.ac.id • Group Chat / Grup Sosial Media • Wakil kelas  Untuk komunikasi dengan dosen  Secepatnya terpilih dan beritahukan dosen
  • 11. Data rich, Information Poor Data ? Informasi ?
  • 12. • Banyak data telah dikumpulkan dan digudangkan (warehoused) – Web data, e-commerce – Pembelian pada pusat belanja maupun grosir – Transaksi Bank/Credit Card • Komputer semakin murah dan berkemampuan tinggi • Tingkat persaingan (Competitive Pressure) yang makin kuat – Menyediakan layanan yang lebih baik dan sesuai dengan pelanggan Why Mine Data? Commercial Viewpoint
  • 13. • Data terkumpul dan tersimpan pada kecepatan yang luar biasa (GB/hour) – Penginderaan jarak jauh pada satelit – Pemindaian telescopes angkasa – Larik mikro yang membangkitkan data genetik – Simulasi ilmiah yang membangkitkan data berukurang besar (terabytes of data) • Cara kuno yang tidak layak untuk data-data mentah (raw data) • Data mining dapat membantu ilmuwan – Dalam mengklasifikasikan dan mengelompokkan data dalam proses pembentukan hipotesis Why Mine Data? Scientific Viewpoint
  • 14. • Kadang terdapat informasi yang “tersembunyi” dalam data yang tidak tersedia dengan jelas • Seorang ahli analisa mungkin membutuhkan waktu berminggu-minggu untuk menemukan informasi yang bermanfaat dari sekumpulan data yang besar • Kebanyakan data tidak pernah dianalisis secara keseluruhan Mining Large Data Sets - Motivation
  • 15. • Beragam definisi: – Penguraian (yang tidak sederhana) informasi potensi implicit (tidak nyata/jelas) yang sebelumnya tidak diketahui dari sekumpulan data – Penggalian dan analisis, dengan menggunakan peranti otomatis atau semi otomatis, dari sejumlah besar data yang bertujuan untuk menemukan bentuk yang bermanfaat Apa Data Mining?
  • 16. • Apa yang tidak termasuk Data Mining? – Mencari nomer telepon pada buku telepon – Melalukan query pada suatu search engine untuk informasi tentang “Amazon” • Apa yang termasuk Data Mining? – Nama tertentu lebih lazim dipakai di daerah Jawa (Sutinah, Suliyem, Ngatini, Paijo… di Jawa Tengah) – Mengelompokkan secara bersamaan dokumen-dokumen yang dihasilkan oleh search engine menurut hubungan kata-katanya (misal: Amazon rainforest, Amazon.com, etc) Apa yang (tidak) termasuk Data Mining?
  • 17. • Menggambarkan ide dari machine learning/AI, pattern recognition, statistics, dan database systems • Cara tradisional yang sesuai untuk – Data yang amat besar – Data dengan banyak dimensi – Data yang heterogen dan tersebarHeterogeneous, Asal Data Mining Database systems Statistics/AI Machine Learning/ Pattern Recognition Data Mining
  • 18. • Prediction Methods – Menggunakan beberapa variabel untuk memprediksi nilai yang tidak diketahui atau nilai di masa mendatang dari variabel lain. • Description Methods – Menemukan bentuk yang mampu diartikan manusia (human-interpretable patterns) yang dapat menjelaskan data tertentu. Tugas Data Mining From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
  • 19. • Classification [Predictive] • Clustering [Descriptive] • Association Rule Discovery [Descriptive] • Sequential Pattern Discovery [Descriptive] • Regression [Predictive] • Deviation Detection [Predictive] Data Mining Tasks...
  • 20. • Jika terdapat sekumpulan record (training set ) – Setiap record terdiri dari sekumpulan attributes, satu dari atribut bisa merupakan class. • Tentukan suatu model untuk atribut class sebagai suatu fungsi nilai dari atribut lain. • Tujuan: previously unseen records should be assigned a class as accurately as possible. – Suatu test set digunakan untuk menentukan keakuratan suatu model. Umumnya, data set yang diberikan dibagi ke dalam training sets dan test sets, training set digunakan untuk membentuk model dan test set digunakan untuk mengujinya. Classification: Definition
  • 21. Classification Example Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 Refund Marital Status Taxable Income Cheat No Single 75K ? Yes Married 50K ? No Married 150K ? Yes Divorced 90K ? No Single 40K ? No Married 80K ? 10 Test Set Trainin g Set Model Learn Classifier
  • 22. • Penjualan Langsung (Direct Marketing) – Tujuan: Mengurangi biaya pengiriman promosi dengan hanya membidik (targeting) sejumlah konsumen yang suka membeli produk telepon selular baru. – Pendekatan: • Gunakan data untuk produk serupa yang telah ditawarkan sebelumnya. • Kita tahu konsumen mana yang memutuskan untuk membeli dan yang tidak. Keputusan {membeli, tidak membeli} membentuk atribut class. • Kumpulkan berbagai informasi demografi, gaya hidup, dan semua informasi yang terkait dengan perusahaan (jenis usaha/pekerjaan, di mana mereka tinggal, berapa pendapatann mereka, dsb.) dari konsumen tersebut. • Gunakan infomasi ini sebagai atribut masukan pada learn a classifier model. Classification: Application Diambil dari [Berry & Linoff] Data Mining Techniques, 1997
  • 23. • Diberikan sekumpulan data titik, masing-masing memiliki sekumpulan atribut, dan kesamaan ukuran diantaranya, temukan gugus (cluster) sehingga – Data titik dalam satu cluster lebih serupa kepada yang lain. – Data titik dalam satu cluster yang berbeda lebih nampak kurang serupa kepada yang lain. • Similarity Measures (Ukuran Kesamaan): – Euclidean Distance jika atributnya kontinyu. – Ukuran kesamaan lain yang khusus untuk problem khusus (Problem-specific Measures). Definisi Clustering
  • 24. Illustrating Clustering • Euclidean Distance Based Clustering in 3-D space. Intracluster distances are minimized Intercluster distances are maximized
  • 25. • Document Clustering: – Tujuan: Untuk menemukan kelompok dokumen yang serupa dengan yang lain berdasar istilah penting yang muncul di kedua dokumen yang dibandingkan. – Pendekatan: Mengenali frekuensi kemunculan istilah pada masing-masing dokumen. Membentuk ukuran kesamaan berdasar frekuensi dari istilah yang berbeda. Gunakan ukuran ini sebagai dasar pengelompokkan. – Pencapaian: Information Retrieval dapat menggunakan cluster untuk menghubungkan suatu dokumen baru atau mencari istilah pada dokumen yang telah dikelompokkan. Clustering: Application
  • 26. • Titik-titik pengelompokan: 3204 Article dari Kompas. • Ukuran kesamaan: Seberapa banyak kata yang umum berada dalam dokumen-dokumen ini setelah dilakukan filter. Illustrating Document Clustering Category Total Articles Correctly Placed Financial 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278
  • 27. • Diberikan sekumpulan record di mana masing-masing record terdiri dari sejumlah item dari koleksi yang diberikan; – Perlu dibuat dependency rules (aturan ketergantungan) yang akan memprediksikan kemunculan item tersebut berdasarkan kemunculan item yang lain. Association Rule Discovery: Definition TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}
  • 28. • Marketing and Sales Promotion: – Let the rule discovered be {Bagels, … } --> {Potato Chips} – Potato Chips as consequent => Can be used to determine what should be done to boost its sales. – Bagels in the antecedent => Can be used to see which products would be affected if the store discontinues selling bagels. – Bagels in antecedent and Potato chips in consequent => Can be used to see what products should be sold with Bagels to promote sale of Potato chips! Association Rule Discovery: Application 1
  • 29. • Supermarket shelf management. – Tujuan: Menentukan item yang dibeli secara bersamaan dan cukup oleh banyak konsumen. – Approach: Proses data pembelian (point-of-sale) yang dikumpulkan dengan barcode scanners untuk menentukan ketergantungan antar item yang ada. Association Rule Discovery: Application 2
  • 30. • Inventory Management: – Goal: A consumer appliance repair company wants to anticipate the nature of repairs on its consumer products and keep the service vehicles equipped with right parts to reduce on number of visits to consumer households. – Approach: Process the data on tools and parts required in previous repairs at different consumer locations and discover the co-occurrence patterns. Association Rule Discovery: Application 3
  • 31. • Detect significant deviations from normal behavior • Applications: – Credit Card Fraud Detection – Network Intrusion Detection Deviation/Anomaly Detection Typical network traffic at University level may reach over 100 million connections per day
  • 32. • Scalability • Dimensionality • Complex and Heterogeneous Data • Data Quality • Data Ownership and Distribution • Privacy Preservation • Streaming Data Tantangan Data Mining
  • 33. • Cari informasi mengenai suatu penerapan data mining yang telah dikemas menjadi produk perangkat lunak. Uraikan penjelasan mengenai data mining task dari produk tersebut • Cari informasi mengenai perangkat lunak yang merupakan tools untuk melakukan data mining. Uraikan penjelasan mengenai data mining task yang didukung oleh tools tersebut! Tugas