SlideShare a Scribd company logo
1 of 19
PENERAPAN K-MEANS CLUSTERING
UNTUK MENGETAHUI KARAKTERISTIK MAHASISWA
KELOMPOK 3
MATA KULIAH DATA MINING
ANGGOTA KELOMPOK
- Abdul Majid (311810693)
- Ema Suhaemah (311910029)
- Alimudin (311910057)
- Nadya Fadhilah (311910147)
- Desi Amalia (311910180)
- Suryana (311910219)
- Khusna Nur Zakia (311910349)
- Laili Septi Amalia (311910350)
- Rinaldy Hudan P (311910482)
- Steven Ryan D (311910524)
- Taofik Safrudin (311910527)
- Dhea Tara Monika (311910611)
- Anzela Hasan Thalia Putri (311910663)
- Lutfhi Eka Naufal (311910730)
PETA KONSEP PEMBAHASAN
Knowledge Discovery in Database (KDD)
Data Mining
Teknik – teknik Data Mining
Predictive Descriptive
Algoritma K-Means Clustering
KNOWLEDGE DISCOVERY IN DATABASE (KDD)
Knowledge Discovery in Database (KDD) adalah proses menemukan pengetahuan yang
berguna dari sebuah data yang bervolume besar, dan sering disebut sebagai data mining.
KDD adalah proses yang terorganisir untuk mengidentifikasi pola-pola yang berlaku,
berguna dan mudah dipahami dari kumpulan data yang besar dan kompleks. Data mining
adalah inti dari proses KDD, yang melibatkan dalam menyimpulkan algoritma yang
menjelajahi data, mengembangkan model dan menemukan pola-pola yang sebelumnya tidak
diketahui. Model ini digunakan untuk memahami fenomena dari data, analisis dan prediksi.
Proses dalam Knowledge Discovery in Database (KDD) dapat diilustrasikan pada gambar
berikut :
PROSES KNOWLEDGE DISCOVERY IN DATABASE (KDD)
Data yang dikumpulkan dari berbagai sumber heterogen yang terintegrasi ke dalam
penyimpanan data tunggal yang disebut sebagai data target. Data yang relevan diputuskan
untuk dianalisis dan diperoleh dari pengumpulan data. Kemudian, itu adalah pra-diproses dan
berubah menjadi format standar yang sesuai. Data mining adalah langkah yang paling inti dalam
algoritma/teknik intelligensi yang diterapkan untuk mengekstrak pola atau aturan yang
bermakna. Akhirnya, pola dan aturan yang ditafsirkan tersebut menjadi pengetahuan atau
informasi yang baru dan berguna.
DATA MINING
Secara sederhana, data mining dapat diartikan sebagai proses mengekstrak atau menggali
knowledge yang ada pada sekumpulan data. Informasi dan knowledge yang didapat tersebut
dapat digunakan pada banyak bidang, seperti manajemen bisnis, pendidikan, kesehatan dan
sebagainya.
Proses menggali informasi dalam data mining melibatkan integrasi teknik dari berbagai disiplin
ilmu, seperti teknologi database dan data warehouse, statistik, machine learning, komputasi
dengan kinerja tinggi, pattern recognition, neural network, visualisasi data dan sebagainya.
TAHAPAN DALAM DATA MINING
a. Pembersihan data (data cleaning): Merupakan proses menghilangkan noise dan data yang
tidak konsisten atau data tidak relevan.
b. Integrasi data (data integration): Merupakan penggabungan data dari berbagai database ke
dalam satu database baru.
c. Seleksi data (data selection): Data yang ada pada database sering kali tidak semuanya
dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari
database.
d. Transformasi data (data transformation): Data diubah atau digabung ke dalam format yang
sesuai untuk diproses dalam data mining.
e. Proses mining: Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data.
f. Evaluasi pola (pattern evaluation): Untuk mengidentifikasi pola-pola menarik ke dalam
knowledge based yang ditemukan.
g. Presentasi pengetahuan (knowledge presentation): Merupakan visualisasi dan penyajian
pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang
diperoleh pengguna.
TEKNIK-TEKNIK DATA MINING
ALGORITMA K-MEANS CLUSTERING
K-means clustering merupakan salah satu metode cluster analysis non hirarki yang berusaha
untuk mempartisi objek yang ada kedalam satu atau lebih cluster atau kelompok objek
berdasarkan karakteristiknya, sehingga objek yang mempunyai karakteristik yang sama
dikelompokan dalam satu cluster yang sama dan objek yang mempunyai karakteristik yang
berbeda dikelompokan kedalam cluster yang lain.
ALGORITMA K-MEANS CLUSTERING
Langkah-langkah algoritma K-Means adalah sebagai berikut:
a. Pilih secara acak k buah data sebagai pusat cluster.
b. Jarak antara data dan pusat cluster dihitung menggunakan Euclidian Distance. Untuk
menghitung jarak semua data ke setiap titik pusat cluster dapat menggunakan teori jarak
Euclidean yang dirumuskan sebagai berikut:
dimana:
D (i,j) = Jarak data ke i ke pusat cluster j
Xki = Data ke i pada atribut data ke k
Xkj = Titik pusat ke j pada atribut ke k
a. Data ditempatkan dalam cluster yang terdekat, dihitung dari tengah cluster.
b. Pusat cluster baru akan ditentukan bila semua data telah ditetapkan dalam cluster terdekat.
c. Proses penentuan pusat cluster dan penempatan data dalam cluster diulangi sampai nilai
centroid tidak berubah lagi.
PENERAPAN K-MEANS CLUSTERING
UNTUK MENGETAHUI KARAKTERISTIK MAHASISWA
Berikut adalah table data mahasiswa:
Transformasi Data:
Agar data di atas dapat diolah dengan menggunakan metode k-means clustering, maka data yang berjenis
data nominal seperti kota asal dan jurusan harus diinisialisasikan terlebih dahulu dalam bentuk angka.
Tabel Inisialisasi Data Wilayah Kota Asal
Tabel Inisialisasi Data Jurusan
Pengolahan Data:
Setelah semua data mahasiswa ditransformasi ke dalam bentuk angka, maka data-data tersebut telah
dapat dikelompokan dengan menggunakan algoritma K-Means Clustering. Untuk dapat melakukan
pengelompokan data-data tersebut menjadi beberapa cluster perlu dilakukan beberapa langkah, yaitu:
1. Tentukan jumlah cluster yang diinginkan. Dalam penelitian ini data-data yang ada akan dikelompokkan
mejadi tiga cluster.
2. Tentukan titik pusat awal dari setiap cluster. Dalam penelitian ini titik pusat awal ditentukan secara
random dan didapat titik pusat dari setiap cluster dapat dilihat pada tabel berikut:
Tabel Titik Pusat Awal Setiap Cluster
3. Tempatkan setiap data pada cluster. Dalam penelitian ini digunakan metode hard k-means untuk
mengalokasikan setiap data ke dalam suatu cluster, sehingga data akan dimasukan dalam suatu cluster
yang memiliki jarak paling dekat dengan titik pusat dari setiap cluster. Untuk mengetahui cluster mana
yang paling dekat dengan data, maka perlu dihitung jarak setiap data dengan titik pusat setiap cluster.
Sebagai contoh, akan dihitung jarak dari data mahasiswa pertama ke pusat cluster pertama:
Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat
cluster pertama adalah 5,390.
Jarak data mahasiswa pertama ke pusat cluster kedua:
Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat
cluster kedua adalah 13.
Jarak data mahasiswa pertama ke pusat cluster ketiga:
Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat
cluster ketiga adalah 13.038. Berdasarkan hasil ketiga perhitungan di atas dapat disimpulkan bahwa
jarak data mahasiswa pertama yang paling dekat adalah dengan cluster 1, sehingga data mahasiswa
pertama dimasukkan ke dalam cluster 1.
Hasil perhitungan selengkapnya untuk 5 data mahasiswa pertama dapat di lihat pada tabel berikut:
4. Setelah semua data ditempat ke dalam cluster yang terdekat, kemudian hitung kembali pusat cluster
yang baru berdasarkan rata-rata angggota yang ada pada cluster tersebut.
5. Setelah didapatkan titik pusat yang baru dari setiap cluster, lakukan kembali dari langkah ketiga hingga
titik pusat dari setiap cluster tidak berubah lagi dan tidak ada lagi data yang berpindah dari satu cluster
ke cluster yang lain.
Dalam contoh ini, iterasi clustering data mahasiswa terjadi sebanyak 7 kali iterasi. Pada iterasi ke-7 ini, titik
pusat dari setiap cluster sudah tidak berubah dan tidak ada lagi data yang berpindah dari satu cluster ke
cluster yang lain.
Hasil Analisa Clustering:
Dari hasil cluster 1, terlihat bahwa karakteristik mahasiswa pada cluster 1 didominasi oleh
mahasiswa yang berasal dari jurusan Information Technology dan Marketing. Sedangkan,
berdasarkan kota asal didominasi oleh mahasiswa yang berasal dari wilayah kota asal DKI Jakarta
dan Jawa Barat, sehingga dapat disimpulkan bahwa ratarata mahasiswa pada cluster 1 yang
berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat mengambil jurusan Infromation
Technology dan Marketing.
Kemudian, dari hasil cluster 2 di atas dapat dilihat bahwa karakteristik mahasiswa pada cluster 2
didominasi oleh mahasiswa yang berasal dari jurusan Accounting dan International Business.
Sedangkan, berdasarkan kota asal didominasi oleh mahasiswa yang berasal dari wilayah kota
asal DKI Jakarta dan Jawa Barat, sehingga dapat disimpulkan bahwa rata-rata mahasiswa pada
cluster 2 yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat mengambil jurusan
Infromation Technology dan Marketing.
Sedangkan, dari hasil cluster 3 di atas dapat dilihat bahwa karakteristik mahasiswa pada cluster
3 didominasi oleh mahasiswa yang berasal dari jurusan Public Relation, Accounting dan
International Business. Sedangkan, berdasarkan kota asal didominasi oleh mahasiswa yang
berasal dari wilayah kota asal Sulawesi, Jawa Timur dan Sumatera Selatan, sehingga dapat
disimpulkan bahwa rata-rata mahasiswa pada cluster 3 yang berasal dari wilayah kota asal
Sulawesi, Jawa Timur dan Sumatera Selatan mengambil jurusan Public Relation, Accounting dan
International Business.
ADA YANG INGIN DITANYAKAN?

More Related Content

Similar to PPT_Data_Mining_Kel_3.pptx

Dasar Dasar Statistika
Dasar Dasar StatistikaDasar Dasar Statistika
Dasar Dasar Statistikaformatik
 
Algoritma Klasifikasi K-Means Clustering.pptx
Algoritma Klasifikasi K-Means Clustering.pptxAlgoritma Klasifikasi K-Means Clustering.pptx
Algoritma Klasifikasi K-Means Clustering.pptxanirmakandidagtg15
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
 
Ppt singkat kel 8 pengantar statistika
Ppt singkat kel 8 pengantar statistikaPpt singkat kel 8 pengantar statistika
Ppt singkat kel 8 pengantar statistikasintia 67
 
clustering
clusteringclustering
clusteringdewi2093
 
Ppt singkat statistika kelompok 10
Ppt singkat statistika kelompok 10Ppt singkat statistika kelompok 10
Ppt singkat statistika kelompok 10SistaAngginiSaputri
 
Ppt makalah konsep dasar_matematika[1]
Ppt makalah konsep dasar_matematika[1]Ppt makalah konsep dasar_matematika[1]
Ppt makalah konsep dasar_matematika[1]Maysy Maysy
 
Clustering _IgedeAris.ppt
Clustering _IgedeAris.pptClustering _IgedeAris.ppt
Clustering _IgedeAris.pptPandeKadek3
 
Ppt singkat Pengantar Statistika kelompok 4
Ppt singkat Pengantar Statistika kelompok 4Ppt singkat Pengantar Statistika kelompok 4
Ppt singkat Pengantar Statistika kelompok 4Maysy Maysy
 
Ppt singkat pengantar statistika
Ppt singkat pengantar statistikaPpt singkat pengantar statistika
Ppt singkat pengantar statistikaRirinRin2
 
HibahProdi Genap 2012/2013
HibahProdi Genap 2012/2013HibahProdi Genap 2012/2013
HibahProdi Genap 2012/2013achmad fauzan
 
Teknik analisis data kuantitatif dan kualitatif
Teknik analisis data kuantitatif dan kualitatifTeknik analisis data kuantitatif dan kualitatif
Teknik analisis data kuantitatif dan kualitatifNastiti Rahajeng
 
Ppt singkat pengantar statistika
Ppt singkat pengantar statistikaPpt singkat pengantar statistika
Ppt singkat pengantar statistikaRizki Novaldi
 

Similar to PPT_Data_Mining_Kel_3.pptx (20)

LN s10-machine vision-s2
LN s10-machine vision-s2LN s10-machine vision-s2
LN s10-machine vision-s2
 
Dasar Dasar Statistika
Dasar Dasar StatistikaDasar Dasar Statistika
Dasar Dasar Statistika
 
Algoritma Klasifikasi K-Means Clustering.pptx
Algoritma Klasifikasi K-Means Clustering.pptxAlgoritma Klasifikasi K-Means Clustering.pptx
Algoritma Klasifikasi K-Means Clustering.pptx
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
 
Ppt singkat kel 8 pengantar statistika
Ppt singkat kel 8 pengantar statistikaPpt singkat kel 8 pengantar statistika
Ppt singkat kel 8 pengantar statistika
 
17 statistika
17 statistika17 statistika
17 statistika
 
clustering
clusteringclustering
clustering
 
Ppt singkat statistika kelompok 10
Ppt singkat statistika kelompok 10Ppt singkat statistika kelompok 10
Ppt singkat statistika kelompok 10
 
Data mining 7
Data mining 7Data mining 7
Data mining 7
 
Ppt makalah konsep dasar_matematika[1]
Ppt makalah konsep dasar_matematika[1]Ppt makalah konsep dasar_matematika[1]
Ppt makalah konsep dasar_matematika[1]
 
Clustering _IgedeAris.ppt
Clustering _IgedeAris.pptClustering _IgedeAris.ppt
Clustering _IgedeAris.ppt
 
A2 paper DM.pdf
A2 paper DM.pdfA2 paper DM.pdf
A2 paper DM.pdf
 
A2 paper DM.pdf
A2 paper DM.pdfA2 paper DM.pdf
A2 paper DM.pdf
 
Ppt singkat Pengantar Statistika kelompok 4
Ppt singkat Pengantar Statistika kelompok 4Ppt singkat Pengantar Statistika kelompok 4
Ppt singkat Pengantar Statistika kelompok 4
 
10
1010
10
 
Ppt singkat pengantar statistika
Ppt singkat pengantar statistikaPpt singkat pengantar statistika
Ppt singkat pengantar statistika
 
HibahProdi Genap 2012/2013
HibahProdi Genap 2012/2013HibahProdi Genap 2012/2013
HibahProdi Genap 2012/2013
 
K-MEANS CLUSTERING.pptx
K-MEANS CLUSTERING.pptxK-MEANS CLUSTERING.pptx
K-MEANS CLUSTERING.pptx
 
Teknik analisis data kuantitatif dan kualitatif
Teknik analisis data kuantitatif dan kualitatifTeknik analisis data kuantitatif dan kualitatif
Teknik analisis data kuantitatif dan kualitatif
 
Ppt singkat pengantar statistika
Ppt singkat pengantar statistikaPpt singkat pengantar statistika
Ppt singkat pengantar statistika
 

Recently uploaded

283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.pptmumtaza6
 
5e6a9e119c2fedec04b90d50fcb7700901916.pdf
5e6a9e119c2fedec04b90d50fcb7700901916.pdf5e6a9e119c2fedec04b90d50fcb7700901916.pdf
5e6a9e119c2fedec04b90d50fcb7700901916.pdfFendryGustianVandell
 
Persyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. KebumenPersyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. KebumenPemdes Wonoyoso
 
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...ssupi412
 
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasissupi412
 
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan KonsultasiJual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasissupi412
 
PPT usaha Air Minum masak untuk jualan- Umum fix.pptx
PPT usaha Air Minum masak untuk jualan- Umum fix.pptxPPT usaha Air Minum masak untuk jualan- Umum fix.pptx
PPT usaha Air Minum masak untuk jualan- Umum fix.pptxfirbadian97
 
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di SemarangWA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di SemarangKelas Online Pra Nikah Nikah
 
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasissupi412
 

Recently uploaded (11)

283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
283649986-MATERI-RISIKO-DAN-TK-PENGEMBALIAN-ppt.ppt
 
5e6a9e119c2fedec04b90d50fcb7700901916.pdf
5e6a9e119c2fedec04b90d50fcb7700901916.pdf5e6a9e119c2fedec04b90d50fcb7700901916.pdf
5e6a9e119c2fedec04b90d50fcb7700901916.pdf
 
Persyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. KebumenPersyaratan Adminduk - Disdukcapil Kab. Kebumen
Persyaratan Adminduk - Disdukcapil Kab. Kebumen
 
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
Jual Obat Cytotec Di Palembang 0823.2222.3014 Pusat Pelancar Haid Ampuh Berga...
 
Obat Aborsi Medan 082223109953 Klinik Jual Obat Aborsi Di Medan
Obat Aborsi Medan 082223109953 Klinik Jual Obat Aborsi Di MedanObat Aborsi Medan 082223109953 Klinik Jual Obat Aborsi Di Medan
Obat Aborsi Medan 082223109953 Klinik Jual Obat Aborsi Di Medan
 
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sumba Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
 
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
Obat Aborsi Bandung ( Ampuh ) 082223109953 Jual Cytotec Asli Obat Telat Bulan...
 
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan KonsultasiJual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Blora 👗082322223014👗Pusat Peluntur Kandungan Konsultasi
 
PPT usaha Air Minum masak untuk jualan- Umum fix.pptx
PPT usaha Air Minum masak untuk jualan- Umum fix.pptxPPT usaha Air Minum masak untuk jualan- Umum fix.pptx
PPT usaha Air Minum masak untuk jualan- Umum fix.pptx
 
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di SemarangWA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
WA 0821-2636-0569, Sekolah Pra Nikah Janda Duda Di Semarang
 
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan KonsultasiJual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
Jual Cytotec Di Sinjai Ori 👙082122229359👙Pusat Peluntur Kandungan Konsultasi
 

PPT_Data_Mining_Kel_3.pptx

  • 1. PENERAPAN K-MEANS CLUSTERING UNTUK MENGETAHUI KARAKTERISTIK MAHASISWA KELOMPOK 3 MATA KULIAH DATA MINING
  • 2. ANGGOTA KELOMPOK - Abdul Majid (311810693) - Ema Suhaemah (311910029) - Alimudin (311910057) - Nadya Fadhilah (311910147) - Desi Amalia (311910180) - Suryana (311910219) - Khusna Nur Zakia (311910349) - Laili Septi Amalia (311910350) - Rinaldy Hudan P (311910482) - Steven Ryan D (311910524) - Taofik Safrudin (311910527) - Dhea Tara Monika (311910611) - Anzela Hasan Thalia Putri (311910663) - Lutfhi Eka Naufal (311910730)
  • 3. PETA KONSEP PEMBAHASAN Knowledge Discovery in Database (KDD) Data Mining Teknik – teknik Data Mining Predictive Descriptive Algoritma K-Means Clustering
  • 4. KNOWLEDGE DISCOVERY IN DATABASE (KDD) Knowledge Discovery in Database (KDD) adalah proses menemukan pengetahuan yang berguna dari sebuah data yang bervolume besar, dan sering disebut sebagai data mining. KDD adalah proses yang terorganisir untuk mengidentifikasi pola-pola yang berlaku, berguna dan mudah dipahami dari kumpulan data yang besar dan kompleks. Data mining adalah inti dari proses KDD, yang melibatkan dalam menyimpulkan algoritma yang menjelajahi data, mengembangkan model dan menemukan pola-pola yang sebelumnya tidak diketahui. Model ini digunakan untuk memahami fenomena dari data, analisis dan prediksi. Proses dalam Knowledge Discovery in Database (KDD) dapat diilustrasikan pada gambar berikut :
  • 5. PROSES KNOWLEDGE DISCOVERY IN DATABASE (KDD) Data yang dikumpulkan dari berbagai sumber heterogen yang terintegrasi ke dalam penyimpanan data tunggal yang disebut sebagai data target. Data yang relevan diputuskan untuk dianalisis dan diperoleh dari pengumpulan data. Kemudian, itu adalah pra-diproses dan berubah menjadi format standar yang sesuai. Data mining adalah langkah yang paling inti dalam algoritma/teknik intelligensi yang diterapkan untuk mengekstrak pola atau aturan yang bermakna. Akhirnya, pola dan aturan yang ditafsirkan tersebut menjadi pengetahuan atau informasi yang baru dan berguna.
  • 6. DATA MINING Secara sederhana, data mining dapat diartikan sebagai proses mengekstrak atau menggali knowledge yang ada pada sekumpulan data. Informasi dan knowledge yang didapat tersebut dapat digunakan pada banyak bidang, seperti manajemen bisnis, pendidikan, kesehatan dan sebagainya. Proses menggali informasi dalam data mining melibatkan integrasi teknik dari berbagai disiplin ilmu, seperti teknologi database dan data warehouse, statistik, machine learning, komputasi dengan kinerja tinggi, pattern recognition, neural network, visualisasi data dan sebagainya.
  • 7. TAHAPAN DALAM DATA MINING a. Pembersihan data (data cleaning): Merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. b. Integrasi data (data integration): Merupakan penggabungan data dari berbagai database ke dalam satu database baru. c. Seleksi data (data selection): Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. d. Transformasi data (data transformation): Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. e. Proses mining: Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. f. Evaluasi pola (pattern evaluation): Untuk mengidentifikasi pola-pola menarik ke dalam knowledge based yang ditemukan. g. Presentasi pengetahuan (knowledge presentation): Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna.
  • 9. ALGORITMA K-MEANS CLUSTERING K-means clustering merupakan salah satu metode cluster analysis non hirarki yang berusaha untuk mempartisi objek yang ada kedalam satu atau lebih cluster atau kelompok objek berdasarkan karakteristiknya, sehingga objek yang mempunyai karakteristik yang sama dikelompokan dalam satu cluster yang sama dan objek yang mempunyai karakteristik yang berbeda dikelompokan kedalam cluster yang lain.
  • 10. ALGORITMA K-MEANS CLUSTERING Langkah-langkah algoritma K-Means adalah sebagai berikut: a. Pilih secara acak k buah data sebagai pusat cluster. b. Jarak antara data dan pusat cluster dihitung menggunakan Euclidian Distance. Untuk menghitung jarak semua data ke setiap titik pusat cluster dapat menggunakan teori jarak Euclidean yang dirumuskan sebagai berikut: dimana: D (i,j) = Jarak data ke i ke pusat cluster j Xki = Data ke i pada atribut data ke k Xkj = Titik pusat ke j pada atribut ke k a. Data ditempatkan dalam cluster yang terdekat, dihitung dari tengah cluster. b. Pusat cluster baru akan ditentukan bila semua data telah ditetapkan dalam cluster terdekat. c. Proses penentuan pusat cluster dan penempatan data dalam cluster diulangi sampai nilai centroid tidak berubah lagi.
  • 11. PENERAPAN K-MEANS CLUSTERING UNTUK MENGETAHUI KARAKTERISTIK MAHASISWA Berikut adalah table data mahasiswa:
  • 12. Transformasi Data: Agar data di atas dapat diolah dengan menggunakan metode k-means clustering, maka data yang berjenis data nominal seperti kota asal dan jurusan harus diinisialisasikan terlebih dahulu dalam bentuk angka. Tabel Inisialisasi Data Wilayah Kota Asal
  • 14. Pengolahan Data: Setelah semua data mahasiswa ditransformasi ke dalam bentuk angka, maka data-data tersebut telah dapat dikelompokan dengan menggunakan algoritma K-Means Clustering. Untuk dapat melakukan pengelompokan data-data tersebut menjadi beberapa cluster perlu dilakukan beberapa langkah, yaitu: 1. Tentukan jumlah cluster yang diinginkan. Dalam penelitian ini data-data yang ada akan dikelompokkan mejadi tiga cluster. 2. Tentukan titik pusat awal dari setiap cluster. Dalam penelitian ini titik pusat awal ditentukan secara random dan didapat titik pusat dari setiap cluster dapat dilihat pada tabel berikut: Tabel Titik Pusat Awal Setiap Cluster
  • 15. 3. Tempatkan setiap data pada cluster. Dalam penelitian ini digunakan metode hard k-means untuk mengalokasikan setiap data ke dalam suatu cluster, sehingga data akan dimasukan dalam suatu cluster yang memiliki jarak paling dekat dengan titik pusat dari setiap cluster. Untuk mengetahui cluster mana yang paling dekat dengan data, maka perlu dihitung jarak setiap data dengan titik pusat setiap cluster. Sebagai contoh, akan dihitung jarak dari data mahasiswa pertama ke pusat cluster pertama: Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat cluster pertama adalah 5,390. Jarak data mahasiswa pertama ke pusat cluster kedua: Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat cluster kedua adalah 13. Jarak data mahasiswa pertama ke pusat cluster ketiga: Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat cluster ketiga adalah 13.038. Berdasarkan hasil ketiga perhitungan di atas dapat disimpulkan bahwa jarak data mahasiswa pertama yang paling dekat adalah dengan cluster 1, sehingga data mahasiswa pertama dimasukkan ke dalam cluster 1.
  • 16. Hasil perhitungan selengkapnya untuk 5 data mahasiswa pertama dapat di lihat pada tabel berikut: 4. Setelah semua data ditempat ke dalam cluster yang terdekat, kemudian hitung kembali pusat cluster yang baru berdasarkan rata-rata angggota yang ada pada cluster tersebut. 5. Setelah didapatkan titik pusat yang baru dari setiap cluster, lakukan kembali dari langkah ketiga hingga titik pusat dari setiap cluster tidak berubah lagi dan tidak ada lagi data yang berpindah dari satu cluster ke cluster yang lain. Dalam contoh ini, iterasi clustering data mahasiswa terjadi sebanyak 7 kali iterasi. Pada iterasi ke-7 ini, titik pusat dari setiap cluster sudah tidak berubah dan tidak ada lagi data yang berpindah dari satu cluster ke cluster yang lain.
  • 18. Dari hasil cluster 1, terlihat bahwa karakteristik mahasiswa pada cluster 1 didominasi oleh mahasiswa yang berasal dari jurusan Information Technology dan Marketing. Sedangkan, berdasarkan kota asal didominasi oleh mahasiswa yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat, sehingga dapat disimpulkan bahwa ratarata mahasiswa pada cluster 1 yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat mengambil jurusan Infromation Technology dan Marketing. Kemudian, dari hasil cluster 2 di atas dapat dilihat bahwa karakteristik mahasiswa pada cluster 2 didominasi oleh mahasiswa yang berasal dari jurusan Accounting dan International Business. Sedangkan, berdasarkan kota asal didominasi oleh mahasiswa yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat, sehingga dapat disimpulkan bahwa rata-rata mahasiswa pada cluster 2 yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat mengambil jurusan Infromation Technology dan Marketing. Sedangkan, dari hasil cluster 3 di atas dapat dilihat bahwa karakteristik mahasiswa pada cluster 3 didominasi oleh mahasiswa yang berasal dari jurusan Public Relation, Accounting dan International Business. Sedangkan, berdasarkan kota asal didominasi oleh mahasiswa yang berasal dari wilayah kota asal Sulawesi, Jawa Timur dan Sumatera Selatan, sehingga dapat disimpulkan bahwa rata-rata mahasiswa pada cluster 3 yang berasal dari wilayah kota asal Sulawesi, Jawa Timur dan Sumatera Selatan mengambil jurusan Public Relation, Accounting dan International Business.
  • 19. ADA YANG INGIN DITANYAKAN?