data mining

Kumpulan Makalah Seminar Semirata 2013
Fakultas MIPA Universitas Lampung
PROSES DATA MINING DALAM MENINGKATKAN
Hal 209
SISTEM PEMBELAJARAN PADA PENDIDIKAN
SEKOLAH MENENGAH PERTAMA
Fatayat1 , Joko Risanto2
FMIPA Matematika - Universitas Riau
E-mail : fatayat79@gmail.com
Abstrak. Dunia Pendidikan memiliki data yang berlimpah dan berkesinambungan
mengenai sistem Pembelajaran dan Pendidikan, siswa yang di bina dan alumni yang
dihasilkan. Hal ini membuka peluang diterapkannya data mining untuk mengolah
Pendidikan lebih baik. Kumpulan dari data tersebut dapat diproses lebih lanjut dengan
data mining, untuk memperoleh pola baru yang dapat digunakan untuk meningkatkan
efektifitas dalam proses pembelajaran, semua data yang dikelola pada bagian
Administrasi merupakan sebuah sumber informasi yang bisa diekstrak kembali untuk
mendapatkan suatu pengetahuan yang bisa digunakan untuk meningkatkan mutu dunia
Pendidikan pada umumnya dan disekolah khususnya. Metode yang digunakan dalam
penelitian ini adalah menggunakan metode Decision Tree. Dalam proses pembelajaran
selama jangka waktu tertentu, maka akan terkumpul sejumlah data yang bisa dikelola
disekolah untuk proses data mining .
Kata Kunci : Data Mining, sistem pembelajaran pada Pendidikan Sekolah menengah
Pertama
PENDAHULUAN
Dalam proses pembelajaran selama
jangka waktu tertentu, maka akan
terkumpul sejumlah besar data. Kumpulan
data tersebut dapat diproses lebih lanjut
dengan data mining untuk memperoleh
pola baru yang dapat digunakan untuk
meningkatkan efektifitas dalam proses
pembelajaran.. Hal ini tentu saja sangat
berpengaruh pada peningkatan mutu
siswa yang dihasilkan oleh sekolah, dan
pada sekala yang lebih besar lagi akan
meningkatkan kecerdasan dan intelektual
bangsa. Aspek-aspek yang bisa digunakan
untuk data mining adalah latar belakang
siswa antara lain, Pekerjaan orang tua,
pendidikan orang tua, lingkungan tempat
tinggal,jarak tempat tinggal, jumlah
saudara, nilai siswa dan lain-lain. Hal
tersebuat bisa dijadikan sebagai suatu
kelompok data yang bisa diolah dan
diekstrak kembali untuk mendapat suatu
informasi tersembunyi dengan algoritma
data mining.
Banyak data yang bisa dikelola
disekolah untuk proses data mining maka
diperlukan batasan masalah agar
penelitian ini bisa lebih terfokus dan tidak
mengambang, adapun yang menjadi
pembatasan masalah adalah proses nilai-nilai
siswa yang meliputi nilai kognitif,
psikomotorik, afektif, kehadiran dan
remedi. Data-data yang diambil dari nilai
siswa yang ada disekolah yang diambil
dari beberapa kelas dan metode yang
digunakan adalah Decision Tree.
Data Mining
Data mining mengacu pada proses
untuk menambang (mining) pengetahuan
dari sekumpulan data yang sangat besat [
Jiawei, 2001]. Sebenarnya data mining
merupakan suatu langkah dalam
knowlegde discovery in database (KDD).
Knowledge discovery sebagai suatu
proses terdidri atas pembersihan data
(data cleaning), integrasi data ( data
integration), pemilihan data ( data
selection ), transformasi data (data

FatayatDan Joko Risanto: Proses Data Mining Dalam Meningkatkan Sistem
Pembelajaran Pada Pendidikan Sekolah Menengah Pertama
transformation), data mining,evaluasi pola
(pattern evaluation) dan penyajian
pengetahuan (knowledge presentation).
Kerangka proses data mining yang akan
dibahas tersusun atas tiga tahapan, yaitu
pengumpulan data (data collection),
transformasi data (data
transformation),dan analisis data (data
analysis) [ Nilakant].
Proses tersebut diwakili dengan
preprocessing yang terdidri atas
pengumpulan data untuk menghasilkan
data mentah (raw data) yang dibutuhkan
oleh data mining, yang kemudian
dilanjutkan dengan transformasi data
untuk mengubah data mentah menjadi
format yang dapat diproses oleh data
mining, misalnya melalui filtrasi atau
agregasi. Hasil transformasi data akan
digunakan oleh analisis data untuk
membangkitkan pengetahuan dengan
menggunakan teknik seperti analisis
statistik, machine learning, dan visualisasi
informasi seperti terlihat pada gambar 2.1
Pohon Keputusan
Gambar 2.2 Pohon keputusan adalah
model prediksi menggunakan struktur
pohon atau struktur berhirarki. Contoh
dari pohon keputusan dapat dilihat di
Gambar 2.2. Disini setiap percabangan
menyatakan kondisi yang harus dipenuhi
dan tiap ujung pohon menyatakan kelas
data. Contoh di Gambar 2.2 adalah
identifikasi pembeli komputer, dari pohon
keputusan tersebut diketahui bahwa salah
satu kelompok yang potensial membeli
komputer adalah orang yang berusia
dibawah 30 tahun dan juga pelajar.
Hal 210
Gambar 2.2 Pohon Keputusan
Pohon keputusan merupakan metode
klasifikasi metode klasifikasi dan prediksi
yang sangat kuwat dan terkenal. Metode
pohon keputusan mengubah fakta yang
sangat besar menjadi pohon keputusan
yang mempersentasikan aturan. Pohon
keputusan juga berguna untuk
mengeksplorasi data, menemukan
hubungan tersembunyi antara jumlah
calon variabel input dengan variabel
target. Pohon keputusan adalah sebuah
struktur yang dapat digunakan untuk
membagi kumpulan data yang besar
menjadi himpunan-himpunan record yang
lebih kecil dengan menerapkan
serangkaian aturan keputusan. Dengan
masing-masing rangkaian pembagian,
anggota himpunan hasil mirip satu dengan
yang lain ( Berry dan Linoff, 2004)
METODE PENELITIAN
Salah satu Algoritma induksi
keputusan yaitu ID3 (Iterative
Dichotomister 3). ID3 dikembangkan oleh
J. Ross Quinlan. Dalam prosedur
algoritma ID3, input berupa sampel
training, label training dan atribut.
Algoritma C4.5 merupakan
perkembangan dari ID3. Sedangkan pada
perangkat lunak open source WEKA
mempunyai versi sendiri C4.5 yang
dikenal sebagai J48.
Pohon dibangun dengan cara membagi
data secara rekursif hingga tiap bagian
terdiri dari data yang berasal dari kelas
yang sama. Bentuk pemecahan (split)

Hal 211
yang digunakan untuk membagi data
tergantung dari jenis atribut yang
digunakan dalam split. Algoritma C4.5
dapat menangani data numerik (kontinyu)
dan diskret. Split untuk atribut numerik
yaitu mengurutkan contoh berdasarkan
atribut kontiyu A, kemudian membentuk
minimum permulaan (threshold) M dari
contoh-contoh yang ada dari kelas
mayoritas pada setiap partisi yang
bersebelahan, lalu menggabungkan
partisi-partisi yang bersebelahan tersebut
dengan kelas mayoritas yang sama. Split
untuk atribut disket A mempunyai bentuk
value
ε X dimana X ⊂ domain(A).
Untuk melakukan pemisahan obyek
(split) dilakukan tes terhadap atribut
dengan mengukur tingkat ketidakmurnian
pada sebuah simpul (node). Pada
algoritma C4.5 menggunakan rasio
perolehan (gain ratio). Sebelum
menghitung rasio perolehan, perlu
menghitung dulu nilai informasi dalam
satuan bits dari suatu kumpulan objek.
Cara menghitungnya dilakukan dengan
menggunakan konsep entropi
E (S) = -P+ log2 P+ - P-log2 P-S
adalah ruang (data) sampel yang
digunakan untuk pelatihan, p+ adalah
jumlah yang bersolusi positif atau
mendukung pada data sampel untuk
kriteria tertentu dan p- adalah jumlah
yang bersolusi negatif atau tidak
mendukung pada data sampel untuk
kriteria tertentu. Entropi(S) sama dengan
0, jika sama contoh pada S berada dalam
kelas yamg sama. Entropi(S) sama dengan
1, jika jumlah contoh positf sama negative
dalam S tidak sama [Mitchell,1997].
Entropi split yang membagi S dengan n
record memjadi himpunan-himpunan S1
dengan n l baris dan S2 dengan n2 baris
adalah :
Entropi split yang membagi S dengan n
record memjadi himpunan-himpunan S1
dengan n l baris dan S2 dengan n2 baris
adalah :
Kemudian menghitung perolehan
informasi dari output data atau variabel
dependent y yang dikelompokkan
berdasarkan atribut A, dinotasikan dengan
gain (S,A). Perolehan informasi, gain
(S,A), dari atribut A relative terhadap
output data S adalah:
Dengan:
S :Himpunan Kasus
A :Atribut
n :Jumlah partisi atribut A
IsiI :Jumlah kasus pada partisi ke i
ISI :Jumlah kasus dalam S
Nilai (A) adalah semua nilai yang
mungkin dari atribut A, dan Si adalah
subset dari S dimana A mempunyai nilai
i. Term pertama dalam persamaan diatas
adalah entropy total S dan term kedua
adalah entropy sesudah dilakukan
pemisahan data berdasarkan atribut A.
Untuk menghitung rasio perolehan perlu
diketahui suatu term baru yang disebut
pemisahan informasi (Split
Info).Pemisahan info dihitung dengan
cara:
Bahwa S1 sampai Sc adalah n subset
yang dihasilkan dari pemecahan S dengan
menggunakan atribut A yang mempunyai
sebanyak n nilai. Selanjutnya rasio
perolehan (gaain ratio) dihitung dengan
cara:
Metode Penelitian
Dalam penelitian ini digunakan data
hasil evaluasi Siswa,sofware WEKA,Nilai
Kognitif, Nilai Psikomotorik,N ilai
Afektif, Kehadiran dan Remedi.
Bahan/Materi Penelitian
Buku textbook yang terkait dengan
analisa dan perancangan dengan
mengunakan software weka dan Buku

manual tool yang digunakan dalam
pengembangan perangkat lunak.sistem
data mining yang mengumpulkan semua
data hasil evaluasi belajar siswa dan di
ekstrak
Uji Coba
Penelitian dan pengujian yang
dilakukan pada metode sarana pendukung
yaitu berupa peralatan yang sangat
berperan dalam menunjang penggunaan
aplikasi dalam mengolah data. Pengujian
apalikasi ada dua, yaitu lingkungan
perangkat keras komputer dn perangkat
lunak komputer.
Hardware:
1. Laptop Tosiba Intel Pentium –
Hal 212
Core Processor T3400.
2. Harddisk 160 GB.
3. Memori 512 MB DDR2
Software:
1. Microsoft Excel 2007.
2. WEKA
3. Sistem Operasi Windows XP
ProfesionalService Pack 2.
HASIL DAN PEMBAHASAN
Hasil Pengujian Metode Algoritma
a. Decision Tree
Data awal yang digunakan pada tahap
pengujian dengan menggunakan aplikasi
WEKA disimpan dalam file Microsoft
Excel simpan dengan format CVS (
Comman Separated Value),kemudian
buka di Notepad, kemudian ambil
Replace pada menu edit, ganti titik koma
dengan koma lalu tekan Replace All dan
kemudian simpan fail tersebut.
Data Hasil Evaluasi
DATA HASIL EVALUASI SISWA
NAMA KOGNITIF PSIKOMOTORIK AFEKTIF KEHADIRAN REMEDI NAIK
Andi Firmasari 43 47 Baik Kurang Hadir Tidak
Budi Setiawan 53 90 Baik Kurang Hadir Tidak
Cicilia Dewita 63 40 Buruk Kurang Tidak Tidak
Diky Ramadan 86 69 Baik Kurang Tidak Tidak
Fatmawati 40 62 Buruk Sedang Hadir Ya
Linda 51 52 Baik Sedang Hadir Ya
Mawar Rianai 66 44 Baik Sedang Hadir Tidak
Rini Angraini 73 58 Baik Kurang Hadir Ya
Yosi Amoliya 77 64 Buruk Kurang Tidak Ya
Asril 78 87 Baik Sedang Tidak Ya
Analisa Data Mining Metode C$.5
Sistem yang dirancang adalah untuk
menentukan kenaikan siswa ketingkat
yang lebih tinggi. Data awal baik
numberik atau non numberik akan dibagi
perkelas supaya memudahkan dalam
proses analisa selanjutnya. Setelah semua
data yang akan dimasukan dibagi
perkelas, maka akan dilakukan proses
klasifikasi untuk kenaikan siswa dengan
membuat sebuah pohon keputusan untuk
menghasilkan output.
Proses pengambilan keputusan dalam
klasifikasi kenaikan siswa dibagi menjadi
beberapa kriteria penilaian yaitu:
1. Nilai Kognitif
2. Nilai Psikomotorik
3. Nilai Efektif
4. Kehadiran
5. Remedi
Melakukan Pra-Proses
Dari tabel Diagram Alir Data Level 1
kita bisa mengetahui bahwa data-data
yang akan dijadikan sebagai input untuk
proses adalah Nilai Kognitif, Nilai
Psikomotorik, nilai Afektif, Kehadiran
dan Remedi. Setelah data dalam format
diatas, kemudian dilakukan pra- proses
mengelompokkan data-data kedalam klas
(K) dengan Stugers ( DRs.Riduwan
M.B.A) dengan menggunkan rumus.
Jumlah Kelas ( K) = 1+ 3.3 log n
Dimana : n = Jumlah data
K = 1 + 3.3 log (50)
K= 1 + 3.3 (1,69897)
K= 1 + 5.606601

Hal 213
K= 6.606601
Dengan jumlah data 50 kelas yang
didapat 7 kelas, tapi yang memakai 7
kelas ini adalah data-data yang berupa
nilai angka yaitu nilai Kognitif, nilai
Psikometrik. Nilai-nilai tersebut
dikelompokkan berdasarkan atribut
sebagai berikut:
Mengelompokan Nilai Kognitif
Mengelompokkan Nilai Kognitif,
pengelomokan nilai berdasarkan dari hasil
ujian yang didapat oleh siswa. Dan nilai
tersebut dikelompokkan kedalam 7 kelas
pada Tabel 1.1
Tabel 1.1 Klasifikasi Nilai Kognitif
Nilai Kongnitif Klasifikasi
0-13 1
14-27 2
28-41 3
42-55 4
56-79 5
80-93 6
>94 7
Tabel 1.2 Klasifikasi Nilai Psikomotorik
Nilai Psikomotorik Klasifikasi
0-13 1
14-27 2
28-41 3
42-55 4
56-79 5
80-93 6
>94 7
Mengelompokan nilai Psikomotorik
berdasarkan hasil ujian Praktek atau pun
karya yang dibuat dan nilai tersebut
dikelompokan kedalam 7 kelas seperti
terlihat pada tabel 1.2
Mengelompokan Nilai efektif
berdasarkan tingkah laku, kesopanan,
kerajinan, dan lain-lain. Nilai efektif
tersebut dikelompokan kedalam 3 kelas
seperti terlihat pada Tabel 1.3
Tabel 1.3 Klasifikasi Nilai Afektif
NilEfektif
Baik
Cukup
Buruk
Mengelompokan Nilai kehadiran
berdasarkan persentase kehadiran siswa.
Nilai kehadiran tersebut dikelompokan
kedalam 3 kelas seperti terlihat pada tabel
1.4
Tabel 1.4 Klasifikasi Nilai kehadiran
Kehadiran
Tinggi
Sedang
Kurang
Mengelompokan Nilai Remedi atau
nilai perbaikan berdasarkan hadir tidak
hadirnya siswa pada saat remedi . Nilai
remedi tersebut dikelompokan kedalam 2
kelas seperti terlihat pada Tabel 1.5
Tabel 1.5 Klasifikasi Nilai Remedi
Nilai Remedi
Hadir
Tidak Hadir
Mengelompokan atribut Kenaikan
berdasarkan atribut-atribut sebelumnya
yang berfungsi sebagai input . Kenaikan
merupakan atribut tujuan yang dihasilkan
dari proses klasifikasi. Kenaikan
dikelompokan kedalam 2 kelas seperti
terlihat pada Tabel 1.6
Tabel 1.6 Klasifikasi Nilai Remedi
Nilai Kenaikan
Ya
Tidak
Tabel 1.7 Format data akhir setelah dilakukan pra-proses
Kognitif Psikomotorik Afektif Kehadiran Remedi Kenaikan
3 5 Baik Kurang Hadir Tidak
3 5 Baik Kurang Tidak Tidak
3 5 Baik Kurang Tidak Tidak
4 4 Baik Tinggi Hadir Ya
4 4 Baik Sedang Hadir Ya

Pohon Keputusan
Dari format data akhir kenaikan siswa
maka akan dilakukan klasifikasi data
algoritma C4.5 dengan membuat pohon
keputusan. Seperti yang telah dijelaskan
sebelumnya, algoritma C4.5 untuk
membangun pohon keputusan adalah
sebagai berikut;
1. Pilih atribut sebagai akar.
2. Buat cabang untuk tiap-tiap nilai.
3. Bagi kasus dalam cabang.
Ulangi proses untuk setiap cabang
sampai semau kasus pada cabang
memeiliki kelas yang sama.Dalam kasus
yang tertera pada tabel diatas, akan dibuat
pohon keputusan untuk menentukan
klsaifikasi kenaikan sisiwa baru (ya dan
tidak) dengan melihat Nilai Kognitif,
Nilai Psikometrik, Nilai Efektif,
Kehadiran dan kenaikan.Untuk memilih
atribut sebagai akar, didasarkan pada nilai
Gain tertinggi dari atribut-atribut yang
ada. Untuk menghitung Gain digunakan
rumus.
Perhitungan Gain dan Entrophy
Keterangan :
S : Himpunan Kasus
A : Atribut
N : Jumlah partisi atribut A
ISiI : Jumlah kasus pada partisi ke-i
ISI : Jumlah kasus dalam S
Sedangkan untuk menghitung nilai
entrophy dapat dilihat pada rumus
Hal 214
Dengan menggunakan data dua
persamaan diatas maka akan didapatkan
entrophy dan Gain yang digunakan
sebagai akar dalam membuat pohon
keputusan.
Menghitung jumlah kasus, jumlah
k sus untuk keputus n “Y ”, juml h
kasus untk keputus n “Tid k”, d n k sus
yang dibagi berdasarkan atribut Nilai
Kognitif, Nilai Psikomotorik, Nilai
Afektif, Kehadiran dan Kenaikan. Setelah
itu, lakukan perhitungan Gain untuk
setiap atribut.
Perhitungan Node
Dengan menghitung nilai entrophy dari
atribut yang tersisa setelah dihitung
entrophy, kemudian menghitung Gain
untuk tiap-tiap atribut.
Nilai Entrophy Total
Merupakan Nilai Entrophy yang
mewakili dari seluruh jumlah total
Variabel atribut yang ada. Dengan
Rumus:
= ( 7 X log2 ( 7 )) + ( 3 log2(3 ))
10 10 10 10
= 0,881290899
Tabel 1.8 Tabel Hasil Perhitungan
KENAIKAN
Atribut Jumlah Ya Tidak Entrophy Gain Total
Kognitif
1 0 0 0 0 0,78419584
2 0 0 0 0
3 0 0 0 0
4 5 3 2 0,970950594
5 1 1 0 0
6 1 0 1 0
7 3 3 0 0
Psikomotorik
1 0 0 0 0
2 0 0 0 0

Hal 215
3 1 1 0 0
4 8 6 2 0,8112778124
5 0 0 0 0
6 0 0 0 0
7 1 0 1 0
Afektif
Baik 6 4 2 0,918295834 0,706193149
Cukup 4 3 1 0,811278124
Kehadiran
Tinggi 7 7 0 0
Sedang 3 0 3 0
Remedi
Hadir 0 0 0 0 0,705032719
Tidak Hadir 10 7 3 0,881290899
Total 10 7 3 0,881290899
Dari tabel di atas dapat kita ketahui
bahwa atribut yang memiliki Gain paling
besar adalah atribut Kognitif, yaitu
sebesar 0,78419584. Dengan demikian,
atribut Kognitifi bisa menjadi node 4. Ada
3 atribut dari Kognetif yaitu: 5,6,7 Atribut
5 dan 7 sudah mengklasifikasikan kasus
menjadi 1 dengan keputusan Tidak naik,
sedangkan 6 sudah mengklasifikasikan
kasus menjadi 1 dengan keputusan Naik
sehingga tidak perlu dilakukan
perhitungan lebih lanjut, tetapi untuk nilai
atribut lain masih perlu dilakukan
perhitungan lain. Dari hasil perhitungan
tersebut dapat digambarkan pohon
keputusan sementara tampak pada gambar
2.3
KESIMPULAN
Dari penelitian yang penulis lakukan
dapat disimpulkan bahwa proses yang
dilakukan secara manual dapat juga
memberikan keputusan yang diharapkan,
tetapi dengan rentang waktu yang lebih
lama dalam proses penggalian
informasinya dan kapasitas data yang bisa
dihitung sangat kecil. Dengan
menggunakan metode algoritma
Decision Tree dengan bantuan software
WEKA proses pengalian informasi bisa
lebih cepat dan bisa dengan kapasitas data
yang besar dan pengambilan keputusan
lebih optimal dan kesalahan dalam
mengambil keputusan dapat dioptimalkan.
DAFTAR PUSTAKA
H n Ji wei “ D t Minig Concept nd
Technique‟, Presnt tion
http://www.ilmukomputer.com
Iko Pramudiono. 2003. Pengantar Data
Mining : Menambang Permata
Pengetahuan di Gunung Data.
www.ilmukomputer.com
Kusri & Emh T ufq Luthfi (2009), “
Algoritm D t Mining”,
Andi Yogyakarta, Yogyakarta
Kadarsiah Suryadi, DR dan Ali Ramdhani
, M.t, “ Sistem pendukung keputus n”,
PT Remaja Rosdakarya, Bandung,
2002
Sani Susanto, Ph.D dan Dedy Suryadi, S,
T, M.S (2010), “Peng nt r D t
Mining”, Andi Yog k rt .

data mining

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (8)

Similar to data mining

Similar to data mining (20)

More from dewi2093

More from dewi2093 (7)

Recently uploaded

Recently uploaded (8)

data mining