DATA MINING
Dr. Ir. Meilita Tryana Sembiring, ST, MT, IPM
PERTEMUAN 1 :
PENDAHULUAN & KONSEP DASAR DATA MINING
REFERENSI
20 juta transaksi/hari
300 milyar item
(link, status, note, foto, dll)
600 juta tweet per hari
APA YANG DAPAT
KAMU SIMPULKAN ?
80 miliar web pages
1.2 TB per hari 2.6 TB per hari
"The great strength of computers is that they can reliably manipulate
vast amounts of data very quickly. Their great weakness is that they
don't have a clue as to what any of that data actually means”
“Kelebihan komputer adalah dapat dengan baik memanipulasi
sejumlah besar data dengan sangat cepat. Namun Kelemahan besar
nya adalah komputer tidak memiliki petunjuk tentang apa arti
sebenarnya dari data itu“
- S. Cass, IEEE Spectrum
APA ITU DATA?
Data (datum dalam bentuk tunggal) mengacu
pada kumpulan fakta yang biasanya diperoleh
sebagai hasil dari percobaan, observasi, transaksi,
atau pengalaman.
Data dapat terdiri dari angka, huruf, kata-kata,
gambar, rekaman suara, dan sebagainya, sebagai
ukuran dari sekumpulan variabel (karakteristik
subjek atau acara yang ingin dipelajari).
Dalam keilmuan (ilmiah), fakta dikumpulkan untuk
menjadi data. Data kemudian diola sehingga
dapat dikomunukasikan secara jelas dan tepat
sehingga dapat mudah dimengerti oleh orang lain.
PENGERTIAN DATA MINING
Data mining adalah adalah proses yang memperkerjakan satu atau lebih teknik
teknik pembelajaran komputer (machine learning) untuk menganalisis dan
mengekstraksi pengetahuan (knowledge) secara otomatis
Data mining adalah adalah proses pencarian suatu pola-pola
yang menarik dan tersembunyi (hidden pattern) dari suatu
kumpulan data yang berukuran sangat besar yang tersimpan di
dalam suatu basis data, data warehouse, atau tempat penyimpanan
data lainnya
Data mining merupakan serangkaian proses untuk menggali nilai tambah dari
suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui
secara manual dari suatu kumpulan data.
Data mining menggunakan berbagai perangkat lunak analisis data untuk
menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi
dengan tepat
WHY DATA MINING
• Pertumbuhan data yang meledak (terabyte petabyte)
• Sumber utama dari data yang melimpah
Bisnis : e-commerce, transaksi, saham, …
Sains : remote sensing, bio-informatics, scientific simulations, …
Masyarakat : berita, Youtube, digital cameras …
• “We are drowning in data, but starving for knowledge!”
“Kita tenggelam dalam data, tapi haus akan pengetahuan”
• Informasi yang penting melahirkan gudang data (data warehouse) yang
mengintegrasikan informasi dari sistem yang tersebar untuk mendukung
pengambilan keputusan
• Ketersediaan teknologi informasi yang terjangkau dan dapat diadopsi secara
luas
BIDANG ILMU DATA MINING
Database
Information Science
High Performance Computing
Visualization
Machine Learning
Statistics
Artificial Neural Networks
Mathematical Modelling
Information Retrieval
Information Extraction
Pattern Recognition
DATA MINING &
PROSES KDD
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
PROSES DATA MINING
Proses knowledge discovery in databases (KDD) umumnya
didefinisikan dengan tahapan sebagai berikut :
1. Selection
2. Pre-Processing
3. Transformation
4. Data mining
5. Interpretation/Evaluation
Dalam pendapat lainnya, Cross-Industry Standar Process for Data
Mining (CRISP-DM) menggolongkan kedalam enam tahap :
1. Business Understanding
2. Data Understanding
3. Data Preparation
4. Modeling
5. Evaluation
6. Deployment
JENIS DATA DALAM DATA MINING
DATA TRANSAKSI
Secara umum, setiap record dalam
database transaksional menangkap
transaksi, seperti pembelian pelanggan,
pemesanan tiket penerbangan, atau klik
pengguna di halaman web. Biasanya
transaksi menyertakan nomor identitas
(ID) dan daftar item transaksi, seperti
barang yang dibeli dalam transaksi.
DATA LAINNYA
Ada banyak jenis data lain yang
memiliki bentuk dan struktur yang agak
berbeda. Jenis data seperti itu dapat
dilihat di banyak aplikasi seperti: data
terkait waktu atau urutan, data aliran,
data spasial, data desain teknik, data
hypertext dan multimedia, data grafik
dan jaringan, serta data Web.
DATABASE
Sistem basis data, juga disebut sistem
manajemen basis data (DBMS), terdiri
dari kumpulan data yang saling terkait,
yang dikenal sebagai database, dan
sekumpulan program perangkat lunak
untuk mengelola dan mengakses data.
DATA WAREHOUSE
Sebuah data warehouse adalah gudang
informasi yang dikumpulkan dari
berbagai sumber, disimpan dalam satu
skema, dan biasanya berada di satu
situs. Gudang data dibangun melalui
proses pembersihan data, integrasi data,
transformasi data, pemuatan data, dan
berkala menyegarkan data.
CONTOH JENIS DATA
Data Warehouse pada Perusahaan AllElectronics
Data Transaksi pada Perusahaan AllElectronics
Skema Database Relasional Pada Perusahaan AllElectronics
Source : Data Mining, Concepts and Techniques
METODE – METODE DATA MINING
Supervised Learning merupakan proses pengelompokan data
yang telah memiliki label dan akan dikelompokkan
berdasarkan labelnya.
Untuk mendapatkan label tentunya harus melakukan proses
training terlebih dahulu
Contohnya, kita memiliki 3 kriteria dengan skalanya masing
masing. Misalkan Suhu tinggi (1), batuk (0), sesak napas (0)
maka corona (0), dimana angka 1 menunjukkan "ya" dan
angka 0 menujukkan "tidak".
Unsupervised Learning merupakan proses pengelompokan
data yang tidak memiliki label. Sehingga kita bebas
menentukan berapa jumlah kelompok data yang akan dibuat,
Misalnya menjadi 2, 3 atau seterusnya. Tentunya dalam
pengelompokan ini juga berdasarkan karakteristiknya yang
sama. Nah, untuk outputnya sendiri tentunya akan berbeda
dengan supervised learning. Karena outputnya belum
diketahui, maka kita dapat membuatnya sendiri dengan
mengelompokkannya.
BAGAIMANA DATA MINING BEKERJA
Menggunakan data yang ada dan relevan, data mining membangun model untuk mengidentifikasi pola diantara atribut yang disajikan
dalam kumpulan data. Model adalah representasi matematis yang mengidentifikasi pola diantara objek.
Beberapa pola ini bersifat eksplanatori (menjelaskan keterkaitan dan afinitas antar atribut), sedangkan lainnya bersifat prediktif
(memprediksi future values dari atribut tertentu). Secara umum data mining mengidentifikasi empat jenis pola utama yaitu :
 Asosiasi yaitu menemukan pengelompokan hal-hal umum terjadi, seperti
beras dan minyak makan saling berada dalam market-basket analysis.
 Prediksi yaitu menceritakan sifat kejadian masa depan dari peristiwa
tertentu berdasarkan apa yang telah terjadi di masa lalu, seperti
memprediksi cuaca atau meramalkan jumlah permintaan di suatu pasar.
 Cluster yaitu mengidentifikasi pengelompokan alami dari hal-hal
berdasarkan karakteristik yang diketahui, seperti menetapka pelanggan di
segmen yang berbeda berdasarkan demografi dan prilaku histori
pembelian.
 Sequential Relationship yaitu menemukan peristiwa yang bersifat time-
ordered, seperti memprediksi nasabah perbankan yang sudah memiliki
rekening gori akan membuka rekening tabungan diikuti dengan rekening
investasi dalam waktu satu tahun
PENERAPAN DATA MINING 4.0
ANALISA PASAR DAN MANAJEMEN
 Menebak Target Pasar
 Melihat Pola Beli Konsumen dari Waktu ke Waktu
 Cross Market Analysis
 Profil Customer
 Identifikasi Kebutuhan Customer
 Menilai Loyalitas Customer
 Informasi Summary
ANALISA PERUSAHAN DAN MANAJEMEN RISIKO
 Merencanakan Keuangan dan Evaluasi Aset
 Merencanakan Sumber Data (Resource Planning)
TELEKOMUNIKASI
 Memonitor Persaingan (Competition)
 Melihat Jutaan Transaksi yang Masuk dengan Tujuan
Menambah Layanan Otomatis
KEUANGAN
 Mendeteksi Transaksi-Transaksi Keuangan yang
Mencurigakan (akan susah jika menggunakan analisis
standar)
ASURANSI
 Digunakan oleh AHIC (Australian Health Insurance
Commision) untuk mengidentifikasi layanan kesehatan
dan berhasil menghemat satu juta dollar pertahun
OLAHRAGA
 Digunakan oleh IBM Advanced Scout untuk
menganalisis statistic permainan NBA dalam rangka
competitive advantage untuk tim New York Knicks
INTERNET WEB SURF AID
 Digunakan IBM Surf-Aid untuk mendata akses halaman
web khususnya berkaitan dengan pemasarasn melalui
web
TEKNOLOGI SOFTWARE DATA MINING
OPEN SOURCE PROPRIETARY
TERIMA KASIH


P1 data mining

  • 1.
    DATA MINING Dr. Ir.Meilita Tryana Sembiring, ST, MT, IPM PERTEMUAN 1 : PENDAHULUAN & KONSEP DASAR DATA MINING
  • 2.
  • 3.
    20 juta transaksi/hari 300milyar item (link, status, note, foto, dll) 600 juta tweet per hari APA YANG DAPAT KAMU SIMPULKAN ? 80 miliar web pages 1.2 TB per hari 2.6 TB per hari "The great strength of computers is that they can reliably manipulate vast amounts of data very quickly. Their great weakness is that they don't have a clue as to what any of that data actually means” “Kelebihan komputer adalah dapat dengan baik memanipulasi sejumlah besar data dengan sangat cepat. Namun Kelemahan besar nya adalah komputer tidak memiliki petunjuk tentang apa arti sebenarnya dari data itu“ - S. Cass, IEEE Spectrum
  • 4.
    APA ITU DATA? Data(datum dalam bentuk tunggal) mengacu pada kumpulan fakta yang biasanya diperoleh sebagai hasil dari percobaan, observasi, transaksi, atau pengalaman. Data dapat terdiri dari angka, huruf, kata-kata, gambar, rekaman suara, dan sebagainya, sebagai ukuran dari sekumpulan variabel (karakteristik subjek atau acara yang ingin dipelajari). Dalam keilmuan (ilmiah), fakta dikumpulkan untuk menjadi data. Data kemudian diola sehingga dapat dikomunukasikan secara jelas dan tepat sehingga dapat mudah dimengerti oleh orang lain.
  • 5.
    PENGERTIAN DATA MINING Datamining adalah adalah proses yang memperkerjakan satu atau lebih teknik teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis Data mining adalah adalah proses pencarian suatu pola-pola yang menarik dan tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran sangat besar yang tersimpan di dalam suatu basis data, data warehouse, atau tempat penyimpanan data lainnya Data mining merupakan serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Data mining menggunakan berbagai perangkat lunak analisis data untuk menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi dengan tepat
  • 6.
    WHY DATA MINING •Pertumbuhan data yang meledak (terabyte petabyte) • Sumber utama dari data yang melimpah Bisnis : e-commerce, transaksi, saham, … Sains : remote sensing, bio-informatics, scientific simulations, … Masyarakat : berita, Youtube, digital cameras … • “We are drowning in data, but starving for knowledge!” “Kita tenggelam dalam data, tapi haus akan pengetahuan” • Informasi yang penting melahirkan gudang data (data warehouse) yang mengintegrasikan informasi dari sistem yang tersebar untuk mendukung pengambilan keputusan • Ketersediaan teknologi informasi yang terjangkau dan dapat diadopsi secara luas
  • 7.
    BIDANG ILMU DATAMINING Database Information Science High Performance Computing Visualization Machine Learning Statistics Artificial Neural Networks Mathematical Modelling Information Retrieval Information Extraction Pattern Recognition
  • 8.
    DATA MINING & PROSESKDD Data Cleaning Data Integration Databases Data Warehouse Task-relevant Data Selection Data Mining Pattern Evaluation
  • 9.
    PROSES DATA MINING Prosesknowledge discovery in databases (KDD) umumnya didefinisikan dengan tahapan sebagai berikut : 1. Selection 2. Pre-Processing 3. Transformation 4. Data mining 5. Interpretation/Evaluation Dalam pendapat lainnya, Cross-Industry Standar Process for Data Mining (CRISP-DM) menggolongkan kedalam enam tahap : 1. Business Understanding 2. Data Understanding 3. Data Preparation 4. Modeling 5. Evaluation 6. Deployment
  • 10.
    JENIS DATA DALAMDATA MINING DATA TRANSAKSI Secara umum, setiap record dalam database transaksional menangkap transaksi, seperti pembelian pelanggan, pemesanan tiket penerbangan, atau klik pengguna di halaman web. Biasanya transaksi menyertakan nomor identitas (ID) dan daftar item transaksi, seperti barang yang dibeli dalam transaksi. DATA LAINNYA Ada banyak jenis data lain yang memiliki bentuk dan struktur yang agak berbeda. Jenis data seperti itu dapat dilihat di banyak aplikasi seperti: data terkait waktu atau urutan, data aliran, data spasial, data desain teknik, data hypertext dan multimedia, data grafik dan jaringan, serta data Web. DATABASE Sistem basis data, juga disebut sistem manajemen basis data (DBMS), terdiri dari kumpulan data yang saling terkait, yang dikenal sebagai database, dan sekumpulan program perangkat lunak untuk mengelola dan mengakses data. DATA WAREHOUSE Sebuah data warehouse adalah gudang informasi yang dikumpulkan dari berbagai sumber, disimpan dalam satu skema, dan biasanya berada di satu situs. Gudang data dibangun melalui proses pembersihan data, integrasi data, transformasi data, pemuatan data, dan berkala menyegarkan data.
  • 11.
    CONTOH JENIS DATA DataWarehouse pada Perusahaan AllElectronics Data Transaksi pada Perusahaan AllElectronics Skema Database Relasional Pada Perusahaan AllElectronics Source : Data Mining, Concepts and Techniques
  • 12.
    METODE – METODEDATA MINING Supervised Learning merupakan proses pengelompokan data yang telah memiliki label dan akan dikelompokkan berdasarkan labelnya. Untuk mendapatkan label tentunya harus melakukan proses training terlebih dahulu Contohnya, kita memiliki 3 kriteria dengan skalanya masing masing. Misalkan Suhu tinggi (1), batuk (0), sesak napas (0) maka corona (0), dimana angka 1 menunjukkan "ya" dan angka 0 menujukkan "tidak". Unsupervised Learning merupakan proses pengelompokan data yang tidak memiliki label. Sehingga kita bebas menentukan berapa jumlah kelompok data yang akan dibuat, Misalnya menjadi 2, 3 atau seterusnya. Tentunya dalam pengelompokan ini juga berdasarkan karakteristiknya yang sama. Nah, untuk outputnya sendiri tentunya akan berbeda dengan supervised learning. Karena outputnya belum diketahui, maka kita dapat membuatnya sendiri dengan mengelompokkannya.
  • 13.
    BAGAIMANA DATA MININGBEKERJA Menggunakan data yang ada dan relevan, data mining membangun model untuk mengidentifikasi pola diantara atribut yang disajikan dalam kumpulan data. Model adalah representasi matematis yang mengidentifikasi pola diantara objek. Beberapa pola ini bersifat eksplanatori (menjelaskan keterkaitan dan afinitas antar atribut), sedangkan lainnya bersifat prediktif (memprediksi future values dari atribut tertentu). Secara umum data mining mengidentifikasi empat jenis pola utama yaitu :  Asosiasi yaitu menemukan pengelompokan hal-hal umum terjadi, seperti beras dan minyak makan saling berada dalam market-basket analysis.  Prediksi yaitu menceritakan sifat kejadian masa depan dari peristiwa tertentu berdasarkan apa yang telah terjadi di masa lalu, seperti memprediksi cuaca atau meramalkan jumlah permintaan di suatu pasar.  Cluster yaitu mengidentifikasi pengelompokan alami dari hal-hal berdasarkan karakteristik yang diketahui, seperti menetapka pelanggan di segmen yang berbeda berdasarkan demografi dan prilaku histori pembelian.  Sequential Relationship yaitu menemukan peristiwa yang bersifat time- ordered, seperti memprediksi nasabah perbankan yang sudah memiliki rekening gori akan membuka rekening tabungan diikuti dengan rekening investasi dalam waktu satu tahun
  • 14.
    PENERAPAN DATA MINING4.0 ANALISA PASAR DAN MANAJEMEN  Menebak Target Pasar  Melihat Pola Beli Konsumen dari Waktu ke Waktu  Cross Market Analysis  Profil Customer  Identifikasi Kebutuhan Customer  Menilai Loyalitas Customer  Informasi Summary ANALISA PERUSAHAN DAN MANAJEMEN RISIKO  Merencanakan Keuangan dan Evaluasi Aset  Merencanakan Sumber Data (Resource Planning) TELEKOMUNIKASI  Memonitor Persaingan (Competition)  Melihat Jutaan Transaksi yang Masuk dengan Tujuan Menambah Layanan Otomatis KEUANGAN  Mendeteksi Transaksi-Transaksi Keuangan yang Mencurigakan (akan susah jika menggunakan analisis standar) ASURANSI  Digunakan oleh AHIC (Australian Health Insurance Commision) untuk mengidentifikasi layanan kesehatan dan berhasil menghemat satu juta dollar pertahun OLAHRAGA  Digunakan oleh IBM Advanced Scout untuk menganalisis statistic permainan NBA dalam rangka competitive advantage untuk tim New York Knicks INTERNET WEB SURF AID  Digunakan IBM Surf-Aid untuk mendata akses halaman web khususnya berkaitan dengan pemasarasn melalui web
  • 15.
    TEKNOLOGI SOFTWARE DATAMINING OPEN SOURCE PROPRIETARY
  • 16.