1. UTS_DATAMININGHNY_200401072103_HENDRO_GUNAWAN_IT-501.pdf

HALAMAN SAMPUL
YAYASAN MEMAJUKAN ILMU DAN KEBUDAYAAN
UNIVERSITAS SIBER ASIA
Kampus Menara, Jl. RM. Harsono, Ragunan - Jakarta Selatan.Daerah Khusus Ibukota Jakarta 12550.
Telp. (+6221) 27806189. asiacyberuni@acu.ac.id. Universitas Siber Asia | Official Website (unsia.ac.id)
Ujian Tengah Semester (UTS)
DATA MINING
Mata Kuliah : Data Mining
Kelas : IT-501
Prodi : PJJ Informatika
Nama Mahasiswa : Hendro Gunawan
NIM : 200401072103
Dosen : Ir. Henny Yulianti, M.M., M.Kom.
Bapak Riad Sahara, S.Si, M.T=
2023

Telp. (+6221) 27806189. asiacyberuni@acu.ac.id. www.unsia.ac.id
1
UJIAN TENGAH SEMESTER
SEMESTER GANJIL TAHUN AJARAN 2023/2024
Mata Kuliah : DATA MINING
Kelas : IT-501
Prodi : Informatika PJJ S1
Waktu : 04 Desember 2023 sampai dengan 17 Desember 2023
Dosen : Ir. Henny Yulianti, M.M., M.Kom
Sifat Ujian : Take home test
Petunjuk Pengerjaan Soal:
1. Jawaban langsung dituliskan di lembar jawaban
2. Dikerjakan secara individu
3. Dilarang keras copy-paste atau plagiat hasil tugas rekannya. (Saya cek meta file & history
file, jika copy-paste atau plagiat maka nilai 0.
4. Perhatikan waktu yang telah di-setting untuk mengerjakan UTS, jika lewat batas waktu
maka jawaban Anda tidak akan diterima.
5. Upload lembar jawaban di kolom komentar dengan nama file :
UTS_DATAMININGHNY_NIM_NAMA.pdf,
contoh : UTS_ DATAMININGHNY_R355ID07089_HNY.pdf
SOAL UJIAN
(Bobot : 10 point)
1. a. Jelaskan dengan kalimat sendiri apa yang dimaksud dengan data mining?
b. Sebutkan konsep alur proses data mining!
(Bobot : 15 point)
2. a. Gambarkan dan sebutkan serta jelaskan Peran Utama Data Mining (Roles Data Mining)
dengan lengkap?
b. Jelaskan dengan lengkap Kategorisasi Algoritma Data Mining, Supervised Learning,
UnSupervised learning dan Semi-Supervised Learning
(Bobot : 25 point)
3. Buatlah Schema/ Diagram atau gambar dan penjelasannya tentang Proses Utama Data Ming
dengan Lengkap
(Bobot : 50 point)
4. a. Lakukan training pada data pemilu (datapemilukpu.xls) dengan algoritma yang tepat
b. Data bisa ditarik dari Import Data atau operator Read Excel
c. Tampilkan himpunan data (dataset) dan pengetahuan (pola/model) yang terbentuk
d. Gunakan model yang dihasilkan untuk memprediksi datapemilukpu-testing.xls

2
HALAMAN FERIFIKASI
………………..Selamat Mengerjakan, Jangan lupa Berdoa……………
Diverifikasi Oleh : Disusun Oleh :
Penjaminan Mutu
Abdu Rahman, S.E.,
M.Ak
Ketua Program Studi
Ir. Henny Yulianti, M.M.,
M.Kom
Koordinator Mata
Kuliah
Ir. Henny Yulianti, M.M.,
M.Kom
Dosen Pengampu
Ir. Henny Yulianti,
M.M., M.Kom
Disahkan Tanggal : 02
Desember 2023
Dibuat Tanggal : 02
Desember 2023

3
LEMBAR JAWABAN UJIAN
BAB I
DATA MINING
1.a. Apa itu Data Mining?
Gambar 1.1. Text dan data mining
• Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari
suatu data yang besar.
• Data mining adalah proses menemukan pola, hubungan, atau informasi yang berharga dalam
kumpulan data yang besar dan kompleks. Ini melibatkan penggunaan berbagai teknik dan
alat statistik, matematika, dan kecerdasan buatan untuk menganalisis data yang telah
dikumpulkan dan disimpan dalam berbagai format.
1.a.1. Terminologi dan Nama Lain Data Mining
• Secara terminologi, data mining dapat diartikan sebagai disiplin ilmu yang mempelajari
metode untuk mengekstrak pengetahuan menemukan pola dari suatu data yang besar.
• Ekstraksi dari data ke pengetahuan:
1. Data: fakta yang terekam dan tidak membawa arti.
2. Informasi: Rekap, rangkuman, penjelasan, dan statistik dari data.
3. Pengetahuan: pola, rumus, aturan, atau model yang muncul dari data.
• Nama lain data mining:
1. Knowledge Discovery in Database (KDD)
2. Big data
3. Business Intelligence
4. Knowledge Extraction
5. Pattern Analysis
6. Information Harvesting

4
1.a.2. Konsep Proses Data Mining
Gamabar 1.2. Konsep Proses Data Mining
1.a.3. Definisi Data Mining
• Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan
sebelumnya tidak diketahui, dari suatu data. (Witten et all., 2011).
• Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan
keteraturan, pola, dan hubungan dalam set data berukuran besar. (Santoso, 2007).
• Extraction of interesting (non-trivial, implicit, previously unknown and potentially usefull)
pattern or knowledgw from huge ammount of data. (Han et al., 2011).
1.a.4. Tujuan Utama Data Mining
Tujuan utama dari data mining adalah untuk mengungkap wawasan atau pengetahuan yang dapat
membantu pengambilan keputusan yang lebih baik dalam berbagai bidang, termasuk bisnis, ilmu
pengetahuan, kesehatan, keuangan, dan lainnya. Beberapa teknik umum yang digunakan dalam data
mining meliputi:
1. Clustering: Mengelompokkan data ke dalam kelompok-kelompok yang serupa berdasarkan
karakteristik atau atribut tertentu.
2. Classification: Mengklasifikasikan data ke dalam kategori atau kelas yang telah ditentukan
berdasarkan atribut yang ada.
3. Association Rule Mining: Mengidentifikasi hubungan atau asosiasi antara berbagai atribut
dalam data.
4. Regression Analysis: Mengidentifikasi hubungan antara variabel dependen dan variabel
independen dalam data.

5
5. Anomaly Detection: Mengidentifikasi data yang tidak biasa atau tidak sesuai dengan pola
umum dalam dataset.
6. Text Mining: Menggali informasi dari data teks, seperti dokumen, tweet, atau laporan.
Data mining sering digunakan dalam mendukung pengambilan keputusan strategis, peramalan,
pemasaran berbasis data, deteksi fraud, analisis risiko, dan banyak aplikasi lainnya. Dengan
berkembangnya teknologi dan ketersediaan data yang melimpah, data mining telah menjadi alat yang
sangat penting dalam dunia bisnis dan penelitian.
1.a.5. Contoh Data di Komisi Pemilihan Umum
• Puluhan ribu data calon anggota legislatif di KPU
• Apakah pernah kita ubah menjadi pengetahuan yang bermanfaat?
Gambar 1.3. contoh data di Komisi Pemilihan Umum (KPU)

6
Gambar 1.4. Prediksi calon legislatif DKI Jakarta
1.b. Alur Proses Data Mining
Alur proses data mining melibatkan serangkaian langkah-langkah yang sistematis untuk
mengidentifikasi pola atau informasi berharga dalam kumpulan data. Berikut adalah konsep alur
proses data mining yang umum digunakan:
1. Pemahaman Masalah: Langkah awal dalam proses data mining adalah memahami masalah
atau tujuan yang ingin dicapai. Ini melibatkan berbicara dengan pemangku kepentingan dan
mengidentifikasi apa yang ingin dicapai dengan analisis data.
2. Pemahaman Data:Mengumpulkan data yang relevan untuk analisis. Ini melibatkan
pemahaman terhadap sumber data, jenis data yang ada, dan kualitas data.
3. Eksplorasi Data (Data Exploration): Mengeksplorasi data untuk memahami pola dasar,
statistik deskriptif, dan karakteristik umum. Tujuannya adalah mengidentifikasi potensi
masalah dalam data seperti missing values atau outliers.
4. Pemilihan Data (Data Selection): Memilih subset data yang relevan untuk analisis lebih lanjut.
Terkadang, tidak semua data dalam kumpulan data akan diperlukan untuk mencapai tujuan
analisis.
5. Pemrosesan Data (Data Preprocessing): Membersihkan data dengan mengatasi masalah
seperti data yang hilang, duplikasi, atau outlier. Ini juga mencakup normalisasi data jika
diperlukan.

7
6. Pemilihan Model dan Teknik Data Mining: Memilih model atau teknik data mining yang
paling sesuai untuk masalah yang ada. Ini tergantung pada tujuan analisis, tipe data, dan
karakteristik masalah.
7. Transformasi Data: Melakukan transformasi pada data, jika diperlukan, untuk mempersiapkan
data untuk analisis. Ini mungkin melibatkan konversi data kategoris menjadi data numerik atau
pengurangan dimensi.
8. Penerapan Model Data Mining: Menerapkan teknik data mining yang dipilih pada data yang
telah diproses untuk mengekstrak pola atau informasi yang relevan.
9. Evaluasi Model: Mengevaluasi kualitas model dengan metrik yang sesuai. Tujuan adalah
memastikan model berfungsi dengan baik dalam mengungkap pola yang relevan dalam data.
10. Interpretasi Hasil: Menginterpretasikan hasil data mining untuk mendapatkan wawasan
yang berharga dan mendukung pengambilan keputusan.
11. Integrasi dengan Bisnis atau Penelitian: Mengintegrasikan wawasan dari data mining ke
dalam keputusan bisnis atau hasil penelitian. Ini adalah tahap akhir yang memungkinkan
tindakan berdasarkan temuan.
12. Penyajian Hasil: Menyajikan hasil analisis data dalam format yang mudah dimengerti,
seperti laporan, grafik, atau visualisasi.
Setelah menyelesaikan alur proses data mining, langkah-langkah ini seringkali diulang dan
ditingkatkan seiring dengan perkembangan pemahaman masalah dan data yang lebih baik. Data
mining adalah proses iteratif yang memungkinkan organisasi untuk terus memperoleh wawasan baru
dari data mereka.
BAB II
PERAN UTAMA DATA MINING
Gambar 2.1. Peran utama data mining

8
2.a. Peran Utama Data Mining (Roles Data Mining)
Data mining memiliki peran utama dalam berbagai domain dan aplikasi. Berikut adalah lima peran utama data
mining:
1. Pengambilan Keputusan: Data mining membantu dalam pengambilan keputusan yang lebih
baik dan informasi berdasarkan pola dan tren yang ditemukan dalam data. Dengan analisis data
yang akurat, organisasi dapat membuat keputusan yang lebih efektif, mengidentifikasi peluang
bisnis, dan mengelola risiko.
2. Prediksi dan Peramalan: Data mining digunakan untuk memprediksi hasil masa depan
berdasarkan data historis. Ini berlaku untuk berbagai bidang, termasuk peramalan penjualan,
peramalan cuaca, peramalan permintaan, dan lainnya. Data mining membantu organisasi
meramalkan tren dan mengambil tindakan yang sesuai.
3. Identifikasi Pola dan Hubungan: Salah satu peran utama data mining adalah mengidentifikasi
pola dan hubungan dalam data yang mungkin tidak terlihat dengan mata telanjang. Ini
mencakup deteksi asosiasi antara atribut data, identifikasi kelompok atau segmen pelanggan,
dan pengenalan anomali atau perilaku yang tidak biasa.
4. Segmentasi Pelanggan: Data mining digunakan untuk mengelompokkan pelanggan ke dalam
segmen berdasarkan karakteristik mereka. Ini memungkinkan perusahaan untuk menyesuaikan
strategi pemasaran, layanan, dan produk mereka dengan lebih baik, meningkatkan kepuasan
pelanggan, dan meningkatkan retensi.
5. Deteksi Fraud: Data mining digunakan secara luas dalam deteksi fraud dalam berbagai
konteks, seperti perbankan, asuransi, dan e-commerce. Dengan menganalisis pola transaksi dan
perilaku yang mencurigakan, data mining membantu mengidentifikasi transaksi atau aktivitas
yang tidak sah.
Peran data mining dapat sangat bervariasi tergantung pada industri dan tujuan spesifik, tetapi secara
umum, data mining membantu mengungkap wawasan berharga, mendukung pengambilan keputusan,
dan meningkatkan efisiensi dalam berbagai bidang.
2.a.1. Estimasi
• Deskripsi: Estimasi melibatkan pengembangan model untuk memperkirakan nilai yang tidak
diketahui atau untuk mengisi nilai yang hilang dalam data.
• Contoh:
• Contoh 1 (Pendapatan): Sebuah perusahaan ingin memperkirakan pendapatan
tahunan calon pelanggan berdasarkan atribut seperti pendidikan, pekerjaan, dan
pengalaman kerja.

9
• Contoh 2 (Stok Barang): Seorang pedagang ingin memperkirakan jumlah stok barang
yang dibutuhkan untuk menghindari kekurangan atau kelebihan persediaan.
• Contoh 3 (Computer):Seorang programer ingin menguji berapa kecepatan
penyimpanan memori pada komputernya.
Gambar 2.2. Estimasi performa CPU
2.a.2. Forecasting
• Deskripsi: Forecasting (peramalan) melibatkan penggunaan model untuk memprediksi nilai
masa depan berdasarkan pola dan tren historis.
• Contoh:
• Contoh 1 (Cuaca): Seorang meteorolog menggunakan data historis cuaca untuk
meramalkan cuaca di masa depan.
• Contoh 2 (Penjualan): Sebuah toko menggunakan data penjualan sebelumnya untuk
meramalkan penjualan produk tertentu di masa depan.
• Contoh 3 (Harga saham): Memprediksi harga saham untuk masa yang akan datang.
Gambar 2.3. Forecasting harga saham

10
2.a.3. Klasifikasi
• Deskripsi: Klasifikasi melibatkan pembangunan model untuk mengkategorikan objek atau
data ke dalam kelas atau kelompok yang telah ditentukan.
• Contoh:
• Contoh 1 (Spam Detection): Mengklasifikasikan email sebagai spam atau bukan spam
berdasarkan pola teks dan karakteristik lainnya.
• Contoh 2 (Deteksi Penyakit): Mengklasifikasikan pasien berdasarkan gejala untuk
mendeteksi apakah mereka menderita penyakit tertentu atau tidak.
• Contoh 3 (Kelulusan mahasiswa): Mengklasifikasikan mahasiswa lulus tepat waktu
atau tidak.
Gambar 2.4. Klasifikasi kelulusan mahasiswa
2.a.4. Klastering
• Deskripsi: Klastering melibatkan pengelompokan objek atau data menjadi kelompok-
kelompok yang memiliki kesamaan dalam suatu dimensi atau fitur.
• Contoh:
• Contoh 1 (Pelanggan Segmentation): Mengelompokkan pelanggan berdasarkan
perilaku pembelian mereka untuk menyusun strategi pemasaran yang lebih tepat.
• Contoh 2 (Trafik Jalan): Mengelompokkan pola lalu lintas jalan berdasarkan waktu
untuk meningkatkan pengaturan lalu lintas.
• Contoh 3 (Bunga Iris): Mengelompokkan data yang digunakan untuk
mengkategorikan bunga iris ke dalam kelompok-kelompok yang berbeda berdasarkan
fitur-fitur tertentu seperti panjang dan lebar sepal dan panjang dan lebar kelopak.
•

11
Gambar 2.5. Klastering bunga iris
2.a.5. Asosiasi
• Deskripsi: Asosiasi melibatkan identifikasi hubungan atau keterkaitan antara item atau
kejadian dalam data.
• Contoh:
• Contoh 1 (Rekomendasi Produk): Menganalisis pembelian pelanggan untuk
menemukan asosiasi antara produk, memungkinkan penyusunan rekomendasi produk.
• Contoh 2 (Penyakit): Mengidentifikasi asosiasi antara gejala penyakit untuk
membantu diagnosis medis.
• Contoh (Pembelian): Membaca pola atau kecendrungan pembelian konsumen,
keperluan desain katalog promosi, proses pembuatan keputusan bisnis, segmentasi
konsumen, dan target pemasaran.
Gambar 2.6. Aturan asosiasi pembelian barang

12
Perlu dicatat bahwa banyak tugas data mining melibatkan kombinasi peran ini. Sebagai contoh, dalam
proyek klasifikasi, Kita mungkin juga melakukan estimasi atau forecasting tergantung pada
kebutuhan spesifik proyek tersebut.
2.b. Kategorisasi Algoritma Data Mining
Gambar 2.7. Kategorisasi algoritma data mining
Kategorisasi algoritma data mining melibatkan pengelompokan berbagai teknik dan metode
berdasarkan karakteristik dan tujuan penggunaannya. Kategori utama melibatkan Supervised
Learning, Unsupervised Learning, dan Semi-Supervised Learning. Berikut adalah penjelasan lengkap
untuk setiap kategori:
1. Supervised learning (Pembelajaran Terawasi):
• Definisi: Supervised learning adalah jenis pembelajaran mesin di mana model diajar dengan
menggunakan dataset yang sudah memiliki label atau target yang diketahui.
• Pembelajaran dengan guru, data set memiliki target/label/class.
• Sebagian besar algoritma data mining (estimation, prediction/forecasting, classification)
adalah supervised learning.
• Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang terasosiasi
dengan nilai dari variable prediktor.
Gambar 2.8. Dataset dengan class

13
• Tujuan: Model dilatih untuk mempelajari hubungan antara fitur (variabel independen) dan
label (variabel dependen) agar dapat membuat prediksi atau klasifikasi pada data baru yang
tidak memiliki label.
• Contoh Algoritma:
• Regresi Linier
• Regresi Logistik
• Pohon Keputusan
• Support Vector Machines (SVM)
• Neural Networks
2. UnSupervised learning (Pembelajaran Tanpa Pengawasan):
• Definisi: UnSupervised learning adalah jenis pembelajaran mesin di mana model harus
mengidentifikasi pola atau struktur dalam data tanpa panduan dari variabel target atau label.
• Algoritma data mining mencari pola dari semua variable (atribut).
• Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada).
• Algoritma clustering adalah algoritma unsupervised learning.
Gambar 2.9. Dataset tanpa class
• Tujuan: Model berusaha untuk memahami struktur dalam data, seperti pengelompokan
(klastering) atau reduksi dimensi, tanpa informasi eksternal tentang hasil yang diharapkan.
• K-Means Clustering
• Hierarchical Clustering
• Principal Component Analysis (PCA)
• t-Distributed Stochastic Neighbor Embedding (t-SNE)
• Association Rules

14
3. Semi-Supervised learning (Pembelajaran Semi-Terawasi):
• Definisi: Semi-Supervised learning adalah pendekatan yang mencoba memanfaatkan
sejumlah kecil data terlabel dan sejumlah besar data tak terlabel.
• Semi-Supervised learning adalah metode data mining yang menggunakan data dengan label
dan tidak berlabel sekaligus dalam proses pembelajarannya.
• Data yang memiliki kelas digunakan untuk membentuk model (pengetahuan), data tanpa label
digunakan untuk membuat batasan antara kelas.
Gambar 2.10. Semi-Supervised Learning
• Tujuan: Model dilatih dengan menggunakan data yang memiliki label, dan kemudian
diperluas untuk membuat prediksi pada data yang tidak memiliki label.
• Self-training
• Co-training
• Multi-view Learning
Ringkasan Perbedaan Utama:
• Supervised Learning: Membutuhkan dataset terlabel, dan tujuannya adalah membuat prediksi
atau klasifikasi.
• Unsupervised Learning: Tidak membutuhkan label pada data; tujuannya adalah mengungkap
struktur atau pola alamiah dalam data.
• Semi-Supervised Learning: Menggabungkan unsur dari supervised dan unsupervised
learning, memanfaatkan sejumlah kecil data terlabel dan sejumlah besar data tak terlabel.
Setiap jenis pembelajaran memiliki aplikasi dan kegunaannya masing-masing, tergantung pada sifat
dan karakteristik data yang dihadapi serta tujuan analisis yang ingin dicapai.

15
BAB III
PROSES UTAMA DATA MINING
Gambar 3.1. Schema (Diagram) Proses Utama Data Mining
Berikut adalah penjelasan untuk setiap langkah dalam proses utama data mining:
3.a. Schema (Diagram) Proses Utama Data Mining
1. Pemahaman Bisnis (Business Understanding):
• Deskripsi: Identifikasi tujuan bisnis, kebutuhan informasi, dan masalah yang ingin
dipecahkan melalui data mining.
• Langkah-Langkah:
• Identifikasi tujuan bisnis.
• Tentukan masalah atau peluang.
• Tentukan kriteria keberhasilan.
• Output: Pemahaman yang jelas tentang apa yang ingin dicapai dan diukur.
2. Pemahaman Data (Data Understanding):
• Deskripsi: Mengumpulkan data yang relevan untuk analisis, memahami sifat data, dan
mengeksplorasi karakteristiknya.
• Kumpulkan dataset yang tersedia.
1. Himpunan
Data
(Pahami dan
Persiapkan Data)
2. Metode Data
Mining
(Pilih Metode
Sesuai Karakter
Data)
3. Pengetahuan
(Pahami Model dan
Pengetahuan yg
Sesuai )
4. Evaluation
(Analisis Model
dan Kinerja
Metode)
DATA
PREPROCESSING
Data Cleaning
Data Integration
Data Reduction
Data
Transformation
MODELING
Estimation
Prediction
Classification
Clustering
Association
MODEL
Formula
Tree
Cluster
Rule
Correlatio
n
KINERJA
Akurasi
Tingkat
Error
Jumlah
Cluster
MODEL
Atribute/
Faktor
Korelasi
Bobot

16
• Analisis atribut dan karakteristik data.
• Identifikasi masalah kualitas data.
• Output: Pengetahuan yang lebih baik tentang data yang akan digunakan.
3. Pemilihan dan Pemfilteran Data (Data Selection):
• Deskripsi: Memilih subset data yang relevan untuk analisis lebih lanjut dan memfilter data
yang tidak diperlukan.
• Pilih subset data yang sesuai.
• Hapus data yang tidak relevan atau tidak diperlukan.
• Output: Dataset yang sudah dipilih dan siap untuk pemrosesan lebih lanjut.
4. Pemrosesan Data (Data Preprocessing):
• Deskripsi: Membersihkan data dari masalah seperti missing values, outlier, atau duplikasi.
• Tangani nilai yang hilang.
• Deteksi dan tangani outlier.
• Identifikasi dan hapus duplikasi.
• Output: Data yang sudah dibersihkan dan siap untuk tahap berikutnya.
5. Transformasi Data (Data Transformation):
• Deskripsi: Melakukan transformasi pada data, seperti normalisasi atau pengurangan
dimensi.
• Normalisasi data jika diperlukan.
• Lakukan pengurangan dimensi jika diperlukan.
• Output: Data yang telah diubah sesuai kebutuhan.
6. Pemilihan Model dan Teknik Data Mining (Model and Technique Selection):
• Deskripsi: Memilih model atau teknik data mining yang sesuai untuk tugas analisis.
• Pilih model atau teknik yang sesuai.
• Tentukan parameter model.
• Output: Model atau teknik yang akan digunakan untuk analisis.
7. Penerapan Model Data Mining (Data Mining Model Building):
• Deskripsi: Menerapkan model atau teknik data mining pada data yang telah diproses.
• Latih model pada data pelatihan.
• Validasi model menggunakan data validasi.

17
• Output: Model yang sudah dilatih dan divalidasi.
8. Evaluasi Model (Model Evaluation):
• Deskripsi: Mengevaluasi kualitas model dengan metrik yang sesuai.
• Hitung metrik evaluasi seperti akurasi, presisi, atau recall.
• Evaluasi performa model.
• Output: Penilaian kualitas model.
9. Interpretasi Hasil (Results Interpretation):
• Deskripsi: Menginterpretasikan hasil analisis untuk mendapatkan wawasan dan informasi
yang berharga.
• Analisis hasil model.
• Identifikasi pola atau tren.
• Output: Wawasan yang diperoleh dari hasil analisis.
10. Integrasi dengan Bisnis atau Penelitian (Business or Research Integration):
• Deskripsi: Mengintegrasikan wawasan dari data mining ke dalam pengambilan keputusan
bisnis atau penelitian.
• Terapkan wawasan dalam konteks bisnis atau penelitian.
• Ambil keputusan berdasarkan temuan.
• Output: Integrasi hasil ke dalam keputusan atau tindakan.
11. Penyajian Hasil (Results Presentation):
• Deskripsi: Menyajikan hasil analisis dengan cara yang mudah dimengerti, seperti laporan
atau visualisasi.
• Siapkan laporan atau presentasi.
• Sajikan temuan dengan cara yang efektif.
• Output: Laporan atau presentasi yang menyajikan temuan dengan jelas.
Proses utama data mining ini bersifat iteratif, dan langkah-langkah dapat diulang atau disesuaikan
berdasarkan hasil evaluasi atau perubahan kebutuhan bisnis atau penelitian.
BAB IV
PREDIKSI ELEKTABILITAS CALEG

18
Download dataset datapemilukpu.xls dan datapemilukpu-testing.xls di:
https://drive.google.com/drive/folders/1HDExi-spAemauMXBlGqhYkSnr94D4fJy?usp=sharing
Ukuran file kurang lebih sebesar 91 kb dan 25 kb. Gambar 4.1 berikut ini adalah print screen dari
dataset datapemilukpu.xls dan datapemilukpu-testing.xls.
Gambar 4.1. daftar isi dataset datapemilukpu.xls dan datapemilukpu-testing
4.a. Training Data Menggunakan Algoritma Decision Tree
Disini saya menggunakan algoritma Decision Tree untuk memproses dataset tersebut.

19
Gambar 4.2. Training data
4.b. Import Dataset
Langkah berikutnya yaitu import data dari folder yang ada di komputer dan kemudian menyimpannya
kedalam folder Local Repository → data.
Gambar 4.3. Import dataset
4.c. Tampilkan himpunan data (dataset) dan pengetahuan (pola/model) yang terbentuk
Selanjutnya kita masukkan file datapemilukpu.xls, Set Role, Decision Tree, datapemilukpu-testing.xls, dan
Applay model ke dalam jendela Process. Kemudian hubungkan kelima item tersebut menggunakan konektor.
Algoritma yang digunakan

20
Gambar 4.4. Menghubungkan dataset menggunakan konektor
Gambar 4.5. Tombol Start
Langkah selanjutnya yaitu klik tombol start yang ada di toolbar bagian kiri atas untuk menjalankan
eksekusi (running program). Kemudian kita lihat hasilnya pada Result , hasilnya terlihat seperti
gambar di bawah ini.
Gambar 4.6. Data

21
Gambar 4.7. Statistic
Terdapat pola-pola yang dihasilkan dari visualisasi data diantaranya yaitu:
Gambar 4.8. Kecamatan

22
Gambar 4.9. Nama calon legislatif
Gambar 4.10. Nama partai politik

23
Gambar 4.11. Suara sah caleg
4.d. Gunakan model yang dihasilkan untuk memprediksi datapemilukpu-testing.xls
Gambar 4.12. Menghitung accuracy mengunakan algoritma Decision Tree, KNN, dan Naïve Bayes
Berikut ini adalah nilai Performance Vector menggunakan 3 buah algoritma yaitu: algoritma Decision
Tree (DT), algoritma KNN, dan algoritma Naïve Bayes.

24
Gambar 4.13. Proses Training dan Testing
Untuk proses Training saya menggunakan algoritma Decision Tree, kemudian untuk proses Testing
menggunakan operator Applay Model dan Performance, setelah itu kita hubungkan menggunakan
konektor.
Gambar 4.14. Performa accuracy menggunakan algoritma Decision Tree
Gambar 4.15./ Performa accuracy menggunakan algoritma KNN
Gambar 4.16. Performa accuracy menggunakan algoritma Naïve Bayes
Jadi dapat disimpulkan bahwa yang menang adalah KNN, karena memiliki nilai accuracy dengan

25
nilai tertinggi yaitu sebesar 90,82%.
Kemudian untuk mengetahui apakah hasil accuracy tersebut valid atau tidak kita bisa menggunakan
operator T-Test.
Gambar 4.17. Uji Valid menggunakan T-Test
Gambar 4.18. Hasil uji T-Test significance

26
Gambar 4.19. Pairwise t-Test
KESIMPULAN
Jadi dapat disimpulkan bahwa nilai accuracy yang paling baik adalah yang dihasilkan oleh algoritma
KNN, karena memiliki nilai accuracy dengan nilai tertinggi yaitu sebesar 90,82%.
Significancy test akan diterima jika nilai alpha-nya ≤ 0,050. Di sini terlihat bahwa hasil dari nilai T-
Testnya tidak ada yang lebih kecil sama dengan 0,050 sehingga antara algoritma satu dengan
algoritma yang lain perbedaannya tidak signifikan (tidak saling mempengaruhi), oleh karena itu maka
bisa didasarkan pada nilai accuracy-nya saja.
DAFTAR PUSTAKA
Ir. Henny Yulianti, M. M. (2023, Oktober 23). Data Mining. Diambil kembali dari Edlink Universitas
Siber Asia: https://kuliah.unsia.ac.id/panel/classes/563096
Suyanto, D. (2018). Data Mining Untuk Klasifikasi Dan Klasterisasi. Bandung: Informatika.
Video penjelasan jawaban soal no. 4
1. https://youtu.be/wgmT-OuPrZU
2. https://youtu.be/4BLXscd57DI
Tabel Nilai
Nilai Tanda Tangan Dosen Pengampu / Tutor
Tanda Tangan
Mahasiswa
(Ir. Henny Yulianti, M.M., M.Kom.) (Hendro Gunawan)
Diserahkan pada Tanggal: Tanggal Mengumpulkan:
06/12/2023

27

1. UTS_DATAMININGHNY_200401072103_HENDRO_GUNAWAN_IT-501.pdf

Recommended

Recommended

More Related Content

Similar to 1. UTS_DATAMININGHNY_200401072103_HENDRO_GUNAWAN_IT-501.pdf

Similar to 1. UTS_DATAMININGHNY_200401072103_HENDRO_GUNAWAN_IT-501.pdf (20)

More from HendroGunawan8

More from HendroGunawan8 (20)

Recently uploaded

Recently uploaded (20)

1. UTS_DATAMININGHNY_200401072103_HENDRO_GUNAWAN_IT-501.pdf