3. 20 juta transaksi/hari
300 milyar item
(link, status, note, foto, dll)
600 juta tweet per hari
APA YANG DAPAT
KAMU SIMPULKAN ?
80 miliar web pages
1.2 TB per hari 2.6 TB per hari
"The great strength of computers is that they can reliably manipulate
vast amounts of data very quickly. Their great weakness is that they
don't have a clue as to what any of that data actually means”
“Kelebihan komputer adalah dapat dengan baik memanipulasi
sejumlah besar data dengan sangat cepat. Namun Kelemahan besar
nya adalah komputer tidak memiliki petunjuk tentang apa arti
sebenarnya dari data itu“
- S. Cass, IEEE Spectrum
4. APA ITU DATA?
Data (datum dalam bentuk tunggal) mengacu
pada kumpulan fakta yang biasanya diperoleh
sebagai hasil dari percobaan, observasi, transaksi,
atau pengalaman.
Data dapat terdiri dari angka, huruf, kata-kata,
gambar, rekaman suara, dan sebagainya, sebagai
ukuran dari sekumpulan variabel (karakteristik
subjek atau acara yang ingin dipelajari).
Dalam keilmuan (ilmiah), fakta dikumpulkan untuk
menjadi data. Data kemudian diola sehingga
dapat dikomunukasikan secara jelas dan tepat
sehingga dapat mudah dimengerti oleh orang lain.
5. PENGERTIAN DATA MINING
Data mining adalah adalah proses yang memperkerjakan satu atau lebih teknik
teknik pembelajaran komputer (machine learning) untuk menganalisis dan
mengekstraksi pengetahuan (knowledge) secara otomatis
Data mining adalah adalah proses pencarian suatu pola-pola
yang menarik dan tersembunyi (hidden pattern) dari suatu
kumpulan data yang berukuran sangat besar yang tersimpan di
dalam suatu basis data, data warehouse, atau tempat penyimpanan
data lainnya
Data mining merupakan serangkaian proses untuk menggali nilai tambah dari
suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui
secara manual dari suatu kumpulan data.
Data mining menggunakan berbagai perangkat lunak analisis data untuk
menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi
dengan tepat
6. WHY DATA MINING
• Pertumbuhan data yang meledak (terabyte petabyte)
• Sumber utama dari data yang melimpah
Bisnis : e-commerce, transaksi, saham, …
Sains : remote sensing, bio-informatics, scientific simulations, …
Masyarakat : berita, Youtube, digital cameras …
• “We are drowning in data, but starving for knowledge!”
“Kita tenggelam dalam data, tapi haus akan pengetahuan”
• Informasi yang penting melahirkan gudang data (data warehouse) yang
mengintegrasikan informasi dari sistem yang tersebar untuk mendukung
pengambilan keputusan
• Ketersediaan teknologi informasi yang terjangkau dan dapat diadopsi secara
luas
7. BIDANG ILMU DATA MINING
Database
Information Science
High Performance Computing
Visualization
Machine Learning
Statistics
Artificial Neural Networks
Mathematical Modelling
Information Retrieval
Information Extraction
Pattern Recognition
8. DATA MINING &
PROSES KDD
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
9. PROSES DATA MINING
Proses knowledge discovery in databases (KDD) umumnya
didefinisikan dengan tahapan sebagai berikut :
1. Selection
2. Pre-Processing
3. Transformation
4. Data mining
5. Interpretation/Evaluation
Dalam pendapat lainnya, Cross-Industry Standar Process for Data
Mining (CRISP-DM) menggolongkan kedalam enam tahap :
1. Business Understanding
2. Data Understanding
3. Data Preparation
4. Modeling
5. Evaluation
6. Deployment
10. JENIS DATA DALAM DATA MINING
DATA TRANSAKSI
Secara umum, setiap record dalam
database transaksional menangkap
transaksi, seperti pembelian pelanggan,
pemesanan tiket penerbangan, atau klik
pengguna di halaman web. Biasanya
transaksi menyertakan nomor identitas
(ID) dan daftar item transaksi, seperti
barang yang dibeli dalam transaksi.
DATA LAINNYA
Ada banyak jenis data lain yang
memiliki bentuk dan struktur yang agak
berbeda. Jenis data seperti itu dapat
dilihat di banyak aplikasi seperti: data
terkait waktu atau urutan, data aliran,
data spasial, data desain teknik, data
hypertext dan multimedia, data grafik
dan jaringan, serta data Web.
DATABASE
Sistem basis data, juga disebut sistem
manajemen basis data (DBMS), terdiri
dari kumpulan data yang saling terkait,
yang dikenal sebagai database, dan
sekumpulan program perangkat lunak
untuk mengelola dan mengakses data.
DATA WAREHOUSE
Sebuah data warehouse adalah gudang
informasi yang dikumpulkan dari
berbagai sumber, disimpan dalam satu
skema, dan biasanya berada di satu
situs. Gudang data dibangun melalui
proses pembersihan data, integrasi data,
transformasi data, pemuatan data, dan
berkala menyegarkan data.
11. CONTOH JENIS DATA
Data Warehouse pada Perusahaan AllElectronics
Data Transaksi pada Perusahaan AllElectronics
Skema Database Relasional Pada Perusahaan AllElectronics
Source : Data Mining, Concepts and Techniques
12. METODE – METODE DATA MINING
Supervised Learning merupakan proses pengelompokan data
yang telah memiliki label dan akan dikelompokkan
berdasarkan labelnya.
Untuk mendapatkan label tentunya harus melakukan proses
training terlebih dahulu
Contohnya, kita memiliki 3 kriteria dengan skalanya masing
masing. Misalkan Suhu tinggi (1), batuk (0), sesak napas (0)
maka corona (0), dimana angka 1 menunjukkan "ya" dan
angka 0 menujukkan "tidak".
Unsupervised Learning merupakan proses pengelompokan
data yang tidak memiliki label. Sehingga kita bebas
menentukan berapa jumlah kelompok data yang akan dibuat,
Misalnya menjadi 2, 3 atau seterusnya. Tentunya dalam
pengelompokan ini juga berdasarkan karakteristiknya yang
sama. Nah, untuk outputnya sendiri tentunya akan berbeda
dengan supervised learning. Karena outputnya belum
diketahui, maka kita dapat membuatnya sendiri dengan
mengelompokkannya.
13. BAGAIMANA DATA MINING BEKERJA
Menggunakan data yang ada dan relevan, data mining membangun model untuk mengidentifikasi pola diantara atribut yang disajikan
dalam kumpulan data. Model adalah representasi matematis yang mengidentifikasi pola diantara objek.
Beberapa pola ini bersifat eksplanatori (menjelaskan keterkaitan dan afinitas antar atribut), sedangkan lainnya bersifat prediktif
(memprediksi future values dari atribut tertentu). Secara umum data mining mengidentifikasi empat jenis pola utama yaitu :
Asosiasi yaitu menemukan pengelompokan hal-hal umum terjadi, seperti
beras dan minyak makan saling berada dalam market-basket analysis.
Prediksi yaitu menceritakan sifat kejadian masa depan dari peristiwa
tertentu berdasarkan apa yang telah terjadi di masa lalu, seperti
memprediksi cuaca atau meramalkan jumlah permintaan di suatu pasar.
Cluster yaitu mengidentifikasi pengelompokan alami dari hal-hal
berdasarkan karakteristik yang diketahui, seperti menetapka pelanggan di
segmen yang berbeda berdasarkan demografi dan prilaku histori
pembelian.
Sequential Relationship yaitu menemukan peristiwa yang bersifat time-
ordered, seperti memprediksi nasabah perbankan yang sudah memiliki
rekening gori akan membuka rekening tabungan diikuti dengan rekening
investasi dalam waktu satu tahun
14. PENERAPAN DATA MINING 4.0
ANALISA PASAR DAN MANAJEMEN
Menebak Target Pasar
Melihat Pola Beli Konsumen dari Waktu ke Waktu
Cross Market Analysis
Profil Customer
Identifikasi Kebutuhan Customer
Menilai Loyalitas Customer
Informasi Summary
ANALISA PERUSAHAN DAN MANAJEMEN RISIKO
Merencanakan Keuangan dan Evaluasi Aset
Merencanakan Sumber Data (Resource Planning)
TELEKOMUNIKASI
Memonitor Persaingan (Competition)
Melihat Jutaan Transaksi yang Masuk dengan Tujuan
Menambah Layanan Otomatis
KEUANGAN
Mendeteksi Transaksi-Transaksi Keuangan yang
Mencurigakan (akan susah jika menggunakan analisis
standar)
ASURANSI
Digunakan oleh AHIC (Australian Health Insurance
Commision) untuk mengidentifikasi layanan kesehatan
dan berhasil menghemat satu juta dollar pertahun
OLAHRAGA
Digunakan oleh IBM Advanced Scout untuk
menganalisis statistic permainan NBA dalam rangka
competitive advantage untuk tim New York Knicks
INTERNET WEB SURF AID
Digunakan IBM Surf-Aid untuk mendata akses halaman
web khususnya berkaitan dengan pemasarasn melalui
web