P1 data mining

DATA MINING
Dr. Ir. Meilita Tryana Sembiring, ST, MT, IPM
PERTEMUAN 1 :
PENDAHULUAN & KONSEP DASAR DATA MINING

20 juta transaksi/hari
300 milyar item
(link, status, note, foto, dll)
600 juta tweet per hari
APA YANG DAPAT
KAMU SIMPULKAN ?
80 miliar web pages
1.2 TB per hari 2.6 TB per hari
"The great strength of computers is that they can reliably manipulate
vast amounts of data very quickly. Their great weakness is that they
don't have a clue as to what any of that data actually means”
“Kelebihan komputer adalah dapat dengan baik memanipulasi
sejumlah besar data dengan sangat cepat. Namun Kelemahan besar
nya adalah komputer tidak memiliki petunjuk tentang apa arti
sebenarnya dari data itu“
- S. Cass, IEEE Spectrum

APA ITU DATA?
Data (datum dalam bentuk tunggal) mengacu
pada kumpulan fakta yang biasanya diperoleh
sebagai hasil dari percobaan, observasi, transaksi,
atau pengalaman.
Data dapat terdiri dari angka, huruf, kata-kata,
gambar, rekaman suara, dan sebagainya, sebagai
ukuran dari sekumpulan variabel (karakteristik
subjek atau acara yang ingin dipelajari).
Dalam keilmuan (ilmiah), fakta dikumpulkan untuk
menjadi data. Data kemudian diola sehingga
dapat dikomunukasikan secara jelas dan tepat
sehingga dapat mudah dimengerti oleh orang lain.

PENGERTIAN DATA MINING
Data mining adalah adalah proses yang memperkerjakan satu atau lebih teknik
teknik pembelajaran komputer (machine learning) untuk menganalisis dan
mengekstraksi pengetahuan (knowledge) secara otomatis
Data mining adalah adalah proses pencarian suatu pola-pola
yang menarik dan tersembunyi (hidden pattern) dari suatu
kumpulan data yang berukuran sangat besar yang tersimpan di
dalam suatu basis data, data warehouse, atau tempat penyimpanan
data lainnya
Data mining merupakan serangkaian proses untuk menggali nilai tambah dari
suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui
secara manual dari suatu kumpulan data.
Data mining menggunakan berbagai perangkat lunak analisis data untuk
menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi
dengan tepat

WHY DATA MINING
• Pertumbuhan data yang meledak (terabyte petabyte)
• Sumber utama dari data yang melimpah
Bisnis : e-commerce, transaksi, saham, …
Sains : remote sensing, bio-informatics, scientific simulations, …
Masyarakat : berita, Youtube, digital cameras …
• “We are drowning in data, but starving for knowledge!”
“Kita tenggelam dalam data, tapi haus akan pengetahuan”
• Informasi yang penting melahirkan gudang data (data warehouse) yang
mengintegrasikan informasi dari sistem yang tersebar untuk mendukung
pengambilan keputusan
• Ketersediaan teknologi informasi yang terjangkau dan dapat diadopsi secara
luas

BIDANG ILMU DATA MINING
Database
Information Science
High Performance Computing
Visualization
Machine Learning
Statistics
Artificial Neural Networks
Mathematical Modelling
Information Retrieval
Information Extraction
Pattern Recognition

DATA MINING &
PROSES KDD
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation

PROSES DATA MINING
Proses knowledge discovery in databases (KDD) umumnya
didefinisikan dengan tahapan sebagai berikut :
1. Selection
2. Pre-Processing
3. Transformation
4. Data mining
5. Interpretation/Evaluation
Dalam pendapat lainnya, Cross-Industry Standar Process for Data
Mining (CRISP-DM) menggolongkan kedalam enam tahap :
1. Business Understanding
2. Data Understanding
3. Data Preparation
4. Modeling
5. Evaluation
6. Deployment

JENIS DATA DALAM DATA MINING
DATA TRANSAKSI
Secara umum, setiap record dalam
database transaksional menangkap
transaksi, seperti pembelian pelanggan,
pemesanan tiket penerbangan, atau klik
pengguna di halaman web. Biasanya
transaksi menyertakan nomor identitas
(ID) dan daftar item transaksi, seperti
barang yang dibeli dalam transaksi.
DATA LAINNYA
Ada banyak jenis data lain yang
memiliki bentuk dan struktur yang agak
berbeda. Jenis data seperti itu dapat
dilihat di banyak aplikasi seperti: data
terkait waktu atau urutan, data aliran,
data spasial, data desain teknik, data
hypertext dan multimedia, data grafik
dan jaringan, serta data Web.
DATABASE
Sistem basis data, juga disebut sistem
manajemen basis data (DBMS), terdiri
dari kumpulan data yang saling terkait,
yang dikenal sebagai database, dan
sekumpulan program perangkat lunak
untuk mengelola dan mengakses data.
DATA WAREHOUSE
Sebuah data warehouse adalah gudang
informasi yang dikumpulkan dari
berbagai sumber, disimpan dalam satu
skema, dan biasanya berada di satu
situs. Gudang data dibangun melalui
proses pembersihan data, integrasi data,
transformasi data, pemuatan data, dan
berkala menyegarkan data.

CONTOH JENIS DATA
Data Warehouse pada Perusahaan AllElectronics
Data Transaksi pada Perusahaan AllElectronics
Skema Database Relasional Pada Perusahaan AllElectronics
Source : Data Mining, Concepts and Techniques

METODE – METODE DATA MINING
Supervised Learning merupakan proses pengelompokan data
yang telah memiliki label dan akan dikelompokkan
berdasarkan labelnya.
Untuk mendapatkan label tentunya harus melakukan proses
training terlebih dahulu
Contohnya, kita memiliki 3 kriteria dengan skalanya masing
masing. Misalkan Suhu tinggi (1), batuk (0), sesak napas (0)
maka corona (0), dimana angka 1 menunjukkan "ya" dan
angka 0 menujukkan "tidak".
Unsupervised Learning merupakan proses pengelompokan
data yang tidak memiliki label. Sehingga kita bebas
menentukan berapa jumlah kelompok data yang akan dibuat,
Misalnya menjadi 2, 3 atau seterusnya. Tentunya dalam
pengelompokan ini juga berdasarkan karakteristiknya yang
sama. Nah, untuk outputnya sendiri tentunya akan berbeda
dengan supervised learning. Karena outputnya belum
diketahui, maka kita dapat membuatnya sendiri dengan
mengelompokkannya.

BAGAIMANA DATA MINING BEKERJA
Menggunakan data yang ada dan relevan, data mining membangun model untuk mengidentifikasi pola diantara atribut yang disajikan
dalam kumpulan data. Model adalah representasi matematis yang mengidentifikasi pola diantara objek.
Beberapa pola ini bersifat eksplanatori (menjelaskan keterkaitan dan afinitas antar atribut), sedangkan lainnya bersifat prediktif
(memprediksi future values dari atribut tertentu). Secara umum data mining mengidentifikasi empat jenis pola utama yaitu :
 Asosiasi yaitu menemukan pengelompokan hal-hal umum terjadi, seperti
beras dan minyak makan saling berada dalam market-basket analysis.
 Prediksi yaitu menceritakan sifat kejadian masa depan dari peristiwa
tertentu berdasarkan apa yang telah terjadi di masa lalu, seperti
memprediksi cuaca atau meramalkan jumlah permintaan di suatu pasar.
 Cluster yaitu mengidentifikasi pengelompokan alami dari hal-hal
berdasarkan karakteristik yang diketahui, seperti menetapka pelanggan di
segmen yang berbeda berdasarkan demografi dan prilaku histori
pembelian.
 Sequential Relationship yaitu menemukan peristiwa yang bersifat time-
ordered, seperti memprediksi nasabah perbankan yang sudah memiliki
rekening gori akan membuka rekening tabungan diikuti dengan rekening
investasi dalam waktu satu tahun

PENERAPAN DATA MINING 4.0
ANALISA PASAR DAN MANAJEMEN
 Menebak Target Pasar
 Melihat Pola Beli Konsumen dari Waktu ke Waktu
 Cross Market Analysis
 Profil Customer
 Identifikasi Kebutuhan Customer
 Menilai Loyalitas Customer
 Informasi Summary
ANALISA PERUSAHAN DAN MANAJEMEN RISIKO
 Merencanakan Keuangan dan Evaluasi Aset
 Merencanakan Sumber Data (Resource Planning)
TELEKOMUNIKASI
 Memonitor Persaingan (Competition)
 Melihat Jutaan Transaksi yang Masuk dengan Tujuan
Menambah Layanan Otomatis
KEUANGAN
 Mendeteksi Transaksi-Transaksi Keuangan yang
Mencurigakan (akan susah jika menggunakan analisis
standar)
ASURANSI
 Digunakan oleh AHIC (Australian Health Insurance
Commision) untuk mengidentifikasi layanan kesehatan
dan berhasil menghemat satu juta dollar pertahun
OLAHRAGA
 Digunakan oleh IBM Advanced Scout untuk
menganalisis statistic permainan NBA dalam rangka
competitive advantage untuk tim New York Knicks
INTERNET WEB SURF AID
 Digunakan IBM Surf-Aid untuk mendata akses halaman
web khususnya berkaitan dengan pemasarasn melalui
web

TEKNOLOGI SOFTWARE DATA MINING
OPEN SOURCE PROPRIETARY

P1 data mining

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to P1 data mining

Similar to P1 data mining (20)

P1 data mining