MODUL AJAR SENI TARI KELAS 6 KURIKULUM MERDEKA.pdf
Data Mining Diskusi 1.docx
1. 1
Data Mining
Diskusi Pertemuan 1
Nama : Hendro Gunawan
NIM : 200401072103
Kelas : IT501
Gambar 1. Introduction To Data Mining, AI, Big Data
Kata Pengantar
Data Mining mengalami pertumbuhan yang luar biasa, sebanding dengan kecepatan peningkatan ukuran
data di era big data saat ini, dengan volume data yang sudah mencapai zettabyte (satu trilyun gigabyte).
Pada banyak buku teks, artikel,makalah, dan beragam literatur lainnya, data mining digunakan untuk
enam fungsi: klasifikasi (clasification), klasterisasi (clustering), regresi (regression), deteksi anomali
(anomaly detection) pembelajaran aturan assosiasi (association rule learning) atau pemodelan
kebergantungan (dependency modeling), dan perangkuman (summarization). Mengingat area yang
sangat luas.
1.Pendahuluan
Sebagai ilmu yang relatif baru, saat ini data Mining menjadi salah satu pusat perhatian para akademisi
maupun praktisi. Beragam riset dan pengembangan Data Mining telah memberikan banyak produk yang
berguna bagi masyarakat luas, walaupun ada sebagian masyarakat yang merasa dirugikan atau kurang
nyaman dengan hadirnya Data Mining. Pada bab ini kita, Anda dan saya, akan mendiskusikan secara
singkat mengenai pengertian, kegunaan, aplikasi, dan etika dalam Data Mining. Kita musti memahami
semua itu secara benar sebelum membahas hal-hal yang lebih detail.
1.1 Apa Itu Data Mining?
Cara pandang dan pengetahuan yang berbeda membuat para ahli memberikan definisi berbeda tentang
Data Mining. Sebagian ahli menyatakan bahwa Data Mining adalah langkah analisis terhadap proses
penemuan pengetahuan di dalam basis data atau knowledge discovery in database yang disingkat KDD
2. 2
(Fayyad et al. 1996). Pengetahuan bisa berupa pola data atau relasi antar data yang valid (yang tidak
diketahui sebelumnya). Data Mining merupakan gabungan sejumlah disiplin ilmu komputer (ACM
2006), (Clifton 2010), yang didefinisikan sebagai proses penemuan pola-pola baru dari kumpulan-
kumpulan data sangat besar, meliputi metode-metode yang merupakan irisan dari artificial inteligence,
machine learning, statistic, dan database systems (ACM 2006).
Data Mining ditujukan untuk mengekstrak (mengambil intisari) pengetahuan dari sekumpulan data
sehingga didapatkan struktur yang dapat dimengerti manusia (ACM 2006) serta meliputi basis data dan
managemen data prapemrosesan data, pertimbangan model dan inferensi, ukuran ketertarikan,
pertimbangan kompleksitas, pasca pemrosesan terhadap struktur yang ditemukan, visualisasi, dan online
updating (ACM 2006).
1.2 Mengapa Perlu Data Mining?
Beberapa tahun terakhir, data semakin heterogen dan kompleks dengan volume yang meningkat cepat
secara eksponensial. Menurut John Gantz dan David Reinsel dalam investigasi yang dilakukan di IDC,
volume data pada tahun 2011 mencapai 1,8 zettabyte atau 1,8 trilyun gigabyte, pada tahun 2012
meningkat lebih dari 50% menjadi 2,8 zettabytes ( Gantz et al. 2012). Pada tahun 2013 volume data
sudah menjadi 4,4 zettabytes dan akan terus meningkat dengan cepat hingga diperkirakan mencapai 44
zettabytes di tahun 2020 (Turner 2014). Oleh karena itu, saat ini dikenal dengan istilah Big data
mempunyai empat karakteristik: berukuran sangat besar (high-volume), sangat bervariasi (high-variety),
kecepatan pertumbuhan tinggi (high-velocity), dan dan sangat tidak jelas (high veracity). Namun, big
data dapat dianalisis sehingga perusahaan dapat mengambil keputusan strategis bisnis dengan lebih baik.
Dalam big data, tentu saja Anda akan kesulitan membaca dan mengetahui pola-pola dan relasi-relasi
data jika dilakukan secara manual atau konvensional. Sebagai contoh, suatu perusahaan operator seluler
dengan ratusan juta pelanggan, dalam setahun bisa menghasilkan milyaran data penggunaan komunikasi
suara, SMS, dan internet. Dari milyaran data tersebut, bagaimana menemukan pola-pola pelanggan
dalam menggunakan komunikasi suara, SMS, dan internet? Pola tersebut bisa dilihat dalam suatu
periode tertentu, misalnya bulan, minggu, hari, bahkan jam. Bagaimana klasifikasi/segmentasi
pelanggan? Bagaimana relasi antara komunikasi suara, SMS, dan internet? Bagaimana pola komunikasi
antara pelanggan seluler di suatu operator dengan pelanggan operator lain? Semua pertanyaan tersebut
tentu saja sulit di jawab jika analisis data dilakukan secara konvensional.
Data Mining atau penambangan data adalah teknik yang relatif cepat dan mudah untuk menemukan
pengetahuan, pola dan/atau relasi antar data, secara otomatis. Dengan menggabungkan empat disiplin
ilmu komputer seperti pada definisi di atas, pengetahuan bisa ditemukan dalam lima proses berurutan:
seleksi, prapemrosesan, transformasi, data mining, dan interpretasi/evaluasi (Fayyad et al. 1996).
1.3 Kegunaan Data Mining
3. 3
Secara umum, kegunaan Data Mining dapat dibagi menjadi dua: deskriptif dan prediktif. Deskriptif
berarti data mining digunakan untuk mencari pola-pola yang dapat dipahami manusia yang menjelaskan
karakteristik data. Sedangkan prediktif berarti data mining digunakan untuk membentuk sebuah model
pengetahuan yang akan digunakan untuk melakukan prediksi.
Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa dikelompokkan ke dalam enam kelompok
berikut ini (Fayyad et al. 1996):
Klasifikasi (classificationi): men-generalisasi struktur yang diketahui untuk diaplikasikan pada data-
data baru. Misalkan, klasifikasi penyakit ke dalam sejumlah jenis, klasifikasi email ke dalam spam
atau bukan.
Klasterisasi (clustering): mengelompokkan data, yang tidak diketahui label kelasnya, ke dalam
sejumlah kelompok tertentu sesuai dengan ukuran kemiripannya.
Regresi (regression): menemukan suatu fungsi yang memodelkan data dengan galat (kesalahan
prediksi) seminimal mungkin.
Deteksi anomali (anomaly detection): mengidentifikasi data yang tidak umum, bisa berupa outlier
(pencilan), perubahan atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut.
Pembelajaran aturan asosiasi (association rule learning) atau pemodelan kebergantungan
(dependency modeling): mencari relasi antar variabel.
Perangkuman (summarization): menyediakan representasi data yang lebih sederhana, meliputi
visualisasi dan pembuatan laporan.
1.4 Aplikasi-aplikasi Data Mining
Saat ini data mining banyak diaplikasikan pada berbagai bidang, seperti bisnis, seni dan hiburan, sains,
dan teknik, jurnalistik, politik, dan lain-lain. Berikut ini sejumlah aplikasi yang dikelompokkan
berdasarkan bidang-bidang tersebut.
1.4.1 Marketing dan Bisnis
Pada suatu perusahaan, banyak proses bisnis dari hulu sampai hilir yang perlu didesain secara serius
untuk mendapatkan benefit dan/atau profit yang maksimal dengan biaya pengeluaran yang seminimal
mungkin. Misalkan, proses pemilihan vendor dan rekan bisnis yang paling baik, model promosi yang
efektif dan tepat sasaran, proses mendeteksi kecurangan pelanggan sehingga perusahaan tidak
mengalami kerugian besar, sistem CRM (customer relationship managemen) yang handal, dan banyak
lagi yang lain. Beriokut ini beberapa contoh aplikasi data mining dalam bidang marketing dan bisnis
secara luas:
A. Market Basket Analysis
Market basket analysis (analisis keranjang belanja) atau yang dikenal dengan association rule (aturan
asosiasi) adalah salah satu konsep menarik dalam data mining yang berusaha menemukan asosiasi atau
keterkaitan data. Diberi nama market basket analysis karena pada awal ditemukannya, konsep ini
4. 4
berkaitan dengan barang-barang yang berada di dalm keranjang belanjaan yang secara langsung
menunjukkan tingakah laku konsumen saat berbelanja. Misalkan, 90 dari 100 konsumen yang membeli
margarin, ternyata mereka juga membeli tepung. Hal ini berarti asosiasi antara margarin dan tepung
sangatlah kuat, misalnya dinatakan dalam ukuran prosentase sebesar 90%.
Konsep ini bisa digunakan untuk tujuan yang baik bagi pedagang maupun pelanggan, seperti
menempatkan barang-barang yang memiliki asosiasi kuat di tempat yang berdekatan sehingga pelanggan
lebih mudah menemukannya. Misalkan, margarin, tepung, dan gula diletakkan di posisi yang sangat
berdekatan karena ketiganya memiliki asosiasi yang kuat. Tetapi, konsep ini bisa disalahgunakan untuk
mencari keuntungan maksimal dan bahkan bisa membuat pelanggan merasa dirugikan. Misalkan
membuat promosi berupa potongan harga untuk barang A, tetapi diam-diam menaikkan harga untuk
barang B yang memiliki asosiasi sangat kuat dengan barang A. Maslah ini pernah muncul pada tahun
2001. Menjelang hari lebaran, ada seorang yang belanja bahan-bahan membuat kue di sebuah
supermarket besar yang menawarkan potongan harga (diskon) hingga 30% untuk produk margarin.
Tertarik dengan harga margarin yang sangat murah dan beramsumsi bahwa harga barang-barang lainnya
pasti murah, dia membeli tepung dalam jumlah banyak. Keesokan harinya, dia pergi ke supermarket lain
yang tidak menawarkan potongan harga. Dia terkejut ketika mengetahui harga tepung di situ 60% lebih
murah dari pada di supermarket pertama. Setelah dikalkulasi, total harga margarin dan tepung secara
keseluruhan lebih murah di supermarket yang tidak menawarkan potongan harga. Dia merasa terkecoh.
Beberapa bulan kemudian dia baru tahu bahwa teknik penjualan dengan potongan harga pada
supermarket pertama itu ternyata menggunakan konsep market basket atau association rule.
Secara hukum, jual beli seperti di atas adalah sah karena konsumen dianggap sudah melihat dan merasa
cocok denga label harga barang yang tertera. Pihak supermarket tentu saja merasa tidak bersalah dan
justru menyalahkan konsumen yang tidak bersikap kritis dan teliti. Di sisi supermarket, promosi yang
dibuat adalah sebuah strategi untuk mendapatkan keuntungan. Namun, di sisi konsumen, promosi yang
dibuat supermarket tersebut bisa membuat mereka merasa terkecoh dan merasa dirugikan.
Bagaimanapun, promosi yang jujur seperti “Margarin diskon 30% sedangkan tepung naik 40%” apakah
mungkin dilakukan? Tentu saja tidak. Jadi, yang sebaiknya dilakukan konsumen adalah bersikap kritis,
teliti, dan bijak dalam menilai segala bentuk promosi.
B. Recomender System
Ketika perusahaan harus memilih satu vendor atau rekan bisnis diantara banyak pilihan yang tersedia,
diperlukan usaha dan biaya cukup besar untuk melakukan proses ini. Maslah ini bisa diselesaikan dengan
mudah menggunakan recommender system (sistem perekomendasi). Sistem ini bisa dibangun
menggunakan teknik perangkingan yang pada dsarnya menggunakan teknik klasifikasi atau klasterisasi.
Hal lainnya adalah masalah pemilihan pegawai berdasarkan historinya. Misalkan, lulusan universitas
5. 5
mana yang sering kali menunjukkan performansi bagus. Sehingga perusahaan bisa memfokuskan
rekrutasi dari lulusan sejumlah universitas tertentu saja.
C. Churn Prediction
Suatu perusahaan telekomunikasi seluler dengan jumlah pelanggan yang mencapai 100 juta orang perlu
memprediksi pelanggan mana yang loyal dan tidak loyal sehingga bisa menentukan promosi yang tepat
sasaran kepada setiap kategori pelanggan. Misalkan, jika terdapat 60% pelanggan yang diprediksi
termasuk kategori tidak loyal dan mungkin berpindah (churn) ke operator lain, maka perusahaan ini bisa
membuat promosi yang lebih menarik dan tepat supaya tidak kehilangan sangat banyak pelanggan.
Promosi bisa difokuskan hanya untuk kategori pelanggan tersebut saja tanpa perlu promosi untuk
kategori pelanggan yang loyal. Dengan demikian, biaya promosi bisa ditekan. Hal yang sama juga bisa
dilakukan untuk perusahan lain yang bergerak dalam bisnis apapun. Lebih luas lagi, masalah ini
digunakan untuk membangun sistem optimasi untuk CRM yang lebih lengkap dan menyeluruh. Sistem
prediksi churn ini bisa dibangun menggunakan teknik klasifikasi atau klasterisasi.
D. Fraud Detection
Perusahaan telekomunikasi yang memiliki ratusan juta pelanggan akan menghasilkan basis data sangat
besar,. Dari sekian ratus juta pelanggan, mungkin saja terdapat sejumlah kecil pelanggan yang
melakukan kecurangan. Misalnya, tagihan telepon pelanggan pasca bayar biasanya dikisaran ratusan
ribu rupiah per bulan dan dibayar secara lancar. Tetapi, beberapa bulan terakhir tagihannya mencapai
puluhan juta rupiah per bulan. Pembayaran mulai tersendat, dan akhirnya tidak lagi membayar, sehingga
perusahaan dirugikan. Mengingat jumlah pelanggan yang mencapai jutaan, sulit dideteksi pola tagihan
pelanggan mana yang berpotensi melakukan kecurangan seperti di atas. Tetapi, dengan teknik data
mining, masalah ini bisa diselesaikan dengan mudah yaitu dengan membangun fraud detection (
pendeteksi kecurangan). Sistem ini bisa dibangun menggunakan teknik anomaly detection.
1.4.2 Seni dan Hiburan
Pada bidang seni musik, kita bisa membuat sistem klasifikasi yang secara otomatis mengelompokkan
ribuan atau bahkan jutaan lagu ke dalam sejumlah genre atau mood (suasana hati). Hal ini bisa
menghenmat banyak waktu dan biaya dalam proses pencarian serta dapat memudahkan pengguna dalam
menetukan pilihan lagu. Untuk dunia hiburan, kita bisa membangun aplikasi untuk memberikan
penilaian (rating), memprediksi nilai, atau bahkan merekomendasikan film. Dengan demikian, para
penikmat film dapat lebih mudah menentukan pilihan film yang disukai.
1.4.3 Sains dan Teknik
Saat ini, dunia sains dan teknik sangat banyak menggunakan teknik data mining untuk menyelesaikan
permasalahan yang sangat kompleks, seperti genetika, medis , teknik elektri, dan sebagainya. Pada ilmu
biologi, suatu masalah yang sangat dikenal adalah pencocokan susunan genetika manusia yang disebut
dengan dioxiribo nucleic acid (DNA). Suatu teknik yang disebut sequence mining bisa membantu kita
6. 6
memahami pemetaan hubungan darah antar manusia. Metode data mining yang bisa digunakan adalah
multifactor dimensionality reduction (Zhu et al. 2007).
Data mining juga digunakan pada bidang teknik tenaga listrik. Beberapa masalah yang bisa diselesikan
adalah bagaimana memonitor kondisi peralatan listrik tegangan tinggi, bagaimana memprediksi
kebutuhan daya per hari, per mingu atau per bulan. Sehingga daya listrik yang diproduksi bisa sesuai
dengan kebutuhan (Suyanto 2008). Selama ini, sistem prediksi beban listrik per jam yang berhasil dibuat
memiliki rata-rata galat atau tingkat kesalahan cukup besar, di atas 10%. Jika galat ini bisa direduksi
hingga di bawah 1%, maka perusahaan listrik bisa menghemat ribuan atau bahkan jtaan mega watt daya
yang selama ini terbuang percuma karena biaya penyimpanan listrik ke dalam baterai memang sangat
mahal. Teknik data mining yang bisa digunakan adalah klasterisasi dan prediksi.
1.4.4 Jurnalistik
Mereka yang bekerja di bidang jurnalistik telah lama tertarik menggunakan data mining untuk penulisan
artikel atau berita secara otomatis. Sejak tahun 2009 telah dikenal istilah Data-Driven Journalism (DDJ),
suatu proses jurnalistik berbasis analisis dan penyaringan himpunan data berukuran besar untuk
membuat atau mengangkat berita. Banyak aplikasi penulisan artikel otomatis telah dikembangkan. Jika
Anda membuka Google dan mengetikkan kat kunci article generator, article creator, news generator,
auto content generator, atau easy generator, maka Anda akan mendapati banyak situs yang menawarkan
aplikasi penulisan artikel otomatis, seperti http://articlegenerator.org dan http://articoolo.com. Dengan
aplikasi ini, Anda hanya perlu memasukkan kata-kata penting mengenai tema yang Anda inginkan,
misal tentang kenaikan harga sembako, maka dalam hitungan satu hingga dua menit Anda akan
mendapatkan sebuah artikel unik, yang belum pernah ditulis siapapun, tentang kenaikan harga sembako.
Tentu saja, aplikasi tersebut bisa saja disalahgunakan untuk menghasilkan ribuan berita palsu (fake news)
maupun berita bohong (hoax) yang sengaja disebarkan secara masif demi kepentingan tertentu. Oleh
karena itu, beberapa kalangan mencemaskan hal ini. Namun, bagi kalangna lain yang pro data mining
justru memiliki pemikiran sebaliknya. Mengapa tidak mengunakan data mining untuk membangun suatu
aplikasi pendeteksi berita palsu maupun berita bohong? Mudah kok. Tidak sulit sama sekali. Anda hanya
perlu teknik machine learning sederhana. Saat ini bahkan sudah banyak aplikasi pendeteksi berita palsu
maupun berita bohong. Anda bisa mencarinya sendiri di Google, bukan?
Selain aplikasi penulisan artikel otomatis dan pendeteksi berita palsu/bohong, data mining juga banyak
digunakan untuk aplikasi peringkasan teks (text summarization). Pernahkah Anda membaca suatu berita
yang di bagian akhirnya tercantum “Ditulis dari berbagai sumber”? Itu artinya Si Penulis membaca
bamyak artikel lain, kemudian merangkum dan menulis sebuah artikel unik yang benar-benar baru,
berbeda dari semua artikel yang dibacaya. Secara teknis, dalam data mining hal ini disebut multi-
document text summarization.
7. 7
1.4.5 Politik
Dunia politik telah lama menggunakan teknik-teknik data mining untuk menganalisis preferensi politik
masyarakat dalam pemilu partai politik, pemilu legislatif, hingga pemilihan presiden. Dengan data
mining, para konsultan politik dapat mengeksploitasi data-data pengguna media sosial. Mereka
mnganalisis aktivitas jutaan pengguna media sosial untuk memetakkan sentimen dan dukungan rakyat
pada calon presiden tertentu. Selain itu, mereka juga dapat melakukan klasifikasi dan klasterisasi data-
data pribadi pengguna sehingga dapat merancang strategi dan membangun propaganda yang tepat untuk
mempengaruhi persepsi pemilih.
1.5 Teknik-teknik Data Mining
Sebagian kalangna kesulitan membedakan data mining dengan machine learning. Hal ini dapat
dimaklumi mengingat kedua istilah tersebut memang memiliki tumpang tindih yang tinggi. Dalam
banyak literatur, sebagian ahli mendefinisikan data mining sebagai sains yang menggunakan berbagai
macam teknik, yang sebagian besar dipelajari dan ditemukan di bidang machine learning, untuk
mengekstrak pola-pola penting dan berguna dari kumpulan-kumpulan data berukuran besar (big data).
Dengan kata lain, pembelajaran mesin (machine learning) merupakan teknik-teknik yang mendukung
dan paling banyak digunakan dalam penggalian data (data mining). Sementara itu, machine learning
sring kali disebut-sebut secara berdampingan dengan istilah deep learning dan artificial inteligence. Hal
ini juga wajar saja karena posisinya yang juga tumpang tindih. Kita bisa menggambarkan relasi data
mining, big data, artificial inteligence, machine learning, dan deep learning secara sederhana dalam
sebuah diagram pada gambar 1.5.1 berikut ini.
Gambar 1.5.1 data mining, big data, artificial inteligence, machine learning, dan deep learning
8. 8
1.6 Etika Dalam Data Mining
Data mining bisa memberikan dampak negatif maupun positif bergantung pada penggunaannya. Jika
tidak memperhatikan etika pengguanaan data, khususnya yang berhubungan dengan data-data pribadi,
maka data mining bisa berdampak negatif. Misalkan, klasterisasi pelanggan berdasarkan suku bangsa,
agama, ras, golongan, usia, maupun gender bisa berujung pada masalah diskriminasi dan bisa merugikan
suatu kelompok tertentu. Tetapi, ketika data mining digunakan untuk masalah medis yang harus
membedakan gender atau usia tertentu, maka hal ini justru berefek positif. Misalkan, ada suatu jenis
penyakit yang peluamhnya lebih besar diderita oleh kaum wanita atau oleh kelompok usia tertentu, maka
sudah seharusnya pihak medis melakukan penanganan secara berbeda.
1.7 Latihan
1. Jelaskan dengan kalimat sendiri apa yang dimaksud dengan data mining?
2. Sebutkan konsep alur proses data mining!
Jawaban:
1. Data mining adalah proses menemukan pola, hubungan, atau informasi yang berharga dalam
kumpulan data yang besar dan kompleks. Ini melibatkan penggunaan berbagai teknik dan alat statistik,
matematika, dan kecerdasan buatan untuk menganalisis data yang telah dikumpulkan dan disimpan
dalam berbagai format.
Tujuan utama dari data mining adalah untuk mengungkap wawasan atau pengetahuan yang dapat
membantu pengambilan keputusan yang lebih baik dalam berbagai bidang, termasuk bisnis, ilmu
pengetahuan, kesehatan, keuangan, dan lainnya. Beberapa teknik umum yang digunakan dalam data
mining meliputi:
1. Clustering: Mengelompokkan data ke dalam kelompok-kelompok yang serupa berdasarkan
karakteristik atau atribut tertentu.
2. Classification: Mengklasifikasikan data ke dalam kategori atau kelas yang telah ditentukan
berdasarkan atribut yang ada.
3. Association Rule Mining: Mengidentifikasi hubungan atau asosiasi antara berbagai atribut dalam
data.
4. Regression Analysis: Mengidentifikasi hubungan antara variabel dependen dan variabel
independen dalam data.
5. Anomaly Detection: Mengidentifikasi data yang tidak biasa atau tidak sesuai dengan pola umum
dalam dataset.
6. Text Mining: Menggali informasi dari data teks, seperti dokumen, tweet, atau laporan.
Data mining sering digunakan dalam mendukung pengambilan keputusan strategis, peramalan,
pemasaran berbasis data, deteksi fraud, analisis risiko, dan banyak aplikasi lainnya. Dengan
9. 9
berkembangnya teknologi dan ketersediaan data yang melimpah, data mining telah menjadi alat yang
sangat penting dalam dunia bisnis dan penelitian.
2. Alur proses data mining melibatkan serangkaian langkah-langkah yang sistematis untuk
mengidentifikasi pola atau informasi berharga dalam kumpulan data. Berikut adalah konsep alur proses
data mining yang umum digunakan:
1. Pemahaman Masalah: Langkah awal dalam proses data mining adalah memahami masalah atau
tujuan yang ingin dicapai. Ini melibatkan berbicara dengan pemangku kepentingan dan
mengidentifikasi apa yang ingin dicapai dengan analisis data.
2. Pemahaman Data:Mengumpulkan data yang relevan untuk analisis. Ini melibatkan pemahaman
terhadap sumber data, jenis data yang ada, dan kualitas data.
3. Eksplorasi Data (Data Exploration): Mengeksplorasi data untuk memahami pola dasar, statistik
deskriptif, dan karakteristik umum. Tujuannya adalah mengidentifikasi potensi masalah dalam
data seperti missing values atau outliers.
4. Pemilihan Data (Data Selection): Memilih subset data yang relevan untuk analisis lebih lanjut.
Terkadang, tidak semua data dalam kumpulan data akan diperlukan untuk mencapai tujuan
analisis.
5. Pemrosesan Data (Data Preprocessing): Membersihkan data dengan mengatasi masalah seperti
data yang hilang, duplikasi, atau outlier. Ini juga mencakup normalisasi data jika diperlukan.
6. Pemilihan Model dan Teknik Data Mining: Memilih model atau teknik data mining yang paling
sesuai untuk masalah yang ada. Ini tergantung pada tujuan analisis, tipe data, dan karakteristik
masalah.
7. Transformasi Data: Melakukan transformasi pada data, jika diperlukan, untuk mempersiapkan
data untuk analisis. Ini mungkin melibatkan konversi data kategoris menjadi data numerik atau
pengurangan dimensi.
8. Penerapan Model Data Mining: Menerapkan teknik data mining yang dipilih pada data yang
telah diproses untuk mengekstrak pola atau informasi yang relevan.
9. Evaluasi Model: Mengevaluasi kualitas model dengan metrik yang sesuai. Tujuan adalah
memastikan model berfungsi dengan baik dalam mengungkap pola yang relevan dalam data.
10. Interpretasi Hasil: Menginterpretasikan hasil data mining untuk mendapatkan wawasan yang
berharga dan mendukung pengambilan keputusan.
11. Integrasi dengan Bisnis atau Penelitian: Mengintegrasikan wawasan dari data mining ke dalam
keputusan bisnis atau hasil penelitian. Ini adalah tahap akhir yang memungkinkan tindakan
berdasarkan temuan.
12. Penyajian Hasil: Menyajikan hasil analisis data dalam format yang mudah dimengerti, seperti
laporan, grafik, atau visualisasi.
10. 10
Setelah menyelesaikan alur proses data mining, langkah-langkah ini seringkali diulang dan ditingkatkan
seiring dengan perkembangan pemahaman masalah dan data yang lebih baik. Data mining adalah proses
iteratif yang memungkinkan organisasi untuk terus memperoleh wawasan baru dari data mereka.
Terima kasih
Referensi
Suyanto, D. (2018). Data Mining Untuk Klasifikasi Dan Klasterisasi. Bandung: Informatika.
Website
https://www.slideshare.net/HendroGunawan8/data-mining-diskusi-1docx