SlideShare a Scribd company logo
1 of 6
Download to read offline
Jurnal Cybermatika | Vol. 2 No. 1 | Juni 2014 | Artikel 1 1
Aplikasi Text Mining untuk Automasi
Penentuan Tren Topik Skripsi
dengan Metode K-Means Clustering
Kestrilia Rega Prilianti
Program Studi Teknik Informatika Universitas
MaChung
kestrilia@machung.ac.id
Hendra Wijaya
Program Studi Teknik Informatika Universitas
MaChung
310910022@student.machung.ac.id
ABSTRAK
Pengetahuan tentang tren topik skripsi mahasiswa di sebuah
Universitas pada umumnya maupun di program studi tertentu
pada khususnya dapat membawa manfaat yang sangat positif
bagi pengembangan kurikulum maupun perencanaan roadmap
penelitian skala institusi. Namun, teknologi untuk dapat secara
cepat mendapatkan pengetahuan secara menyeluruh dari
penelitian-penelitian yang telah dilakukan mahasiswa melalui
proyek skripsinya sangatlah terbatas jika dibandingkan dengan
teknologi penyimpanan dokumen yang tersedia. Melalui
penelitian ini dikembangkan sebuah aplikasi untuk menggali
pengetahuan dari topik-topik skripsi mahasiswa yang biasanya
terkumpul melalui repository digital perpustakaan Universitas.
Proses tersebut dilakukan secara semi-otomatis dengan
memanfaatkan teknologi text mining dan algoritma k-means
clustering terhadap kumpulan dokumen digital abstrak dari
buku skripsi. Uji coba dilakukan dengan melibatkan beberapa
kepala progran studi dan dosen penanggungjawab skripsi. Dari
uji coba tersebut diperoleh hasil yang baik yaitu 89% responden
manyatakan tren topik skripsi yang dihasilkan oleh aplikasi
telah sesuai dengan kondisi yang sesungguhnya.
Kata Kunci
Skripsi, Dokumen, Text Mining, K-Means Clustering.
1. PENDAHULUAN
Semakin pesat dan murahnya perkembangan teknologi media
penyimpanan digital telah mendorong terjadinya ledakan
jumlah dokumen elektronik yang tersimpan dalam repository
perpustakaan Universitas. Berbagai karya ilmiah dari sivitas
akademika seperti skripsi, laporan penelitian, laporan kerja
praktek dan lain sebagainya telah tersedia dalam versi digital.
Namun, pada umumnya fenomena ini tidak disertai dengan
pertumbuhan jumlah informasi atau pengetahuan yang dapat
disarikan dari dokumen-dokumen elektronik tersebut (Gupta,
2011). Metode text mining merupakan pengembangan dari
metode data mining yang dapat diterapkan untuk mengatasi
masalah tersebut. Algoritma-algoritma dalam text mining dibuat
untuk dapat mengenali data yang sifatnya semi terstruktur
misalnya sinopsis, abstrak maupun isi dari dokumen-dokumen
(Gupta & Lehal, 2009).
Beberapa aplikasi text mining telah diterapkan di perpustakaan
terutamanya untuk pencarian bahan pustaka berbasis teks
(Yuwono, 2005; Santoso, 2012; Sari, 2012). Meskipun
demikian belum banyak aplikasi dikembangkan untuk tujuan
analisis. Sehingga sangatlah sulit untuk dapat dengan segera
mengetahui topik penelitian populer pada tahun tertentu
ataupun kecenderungan minat penelitian mahasiswa program
studi tertentu misalnya. Oleh karena itu pada penelitian ini
dikembangkan aplikasi berbasis text mining dengan
menerapkan algoritma k-means clustering yang dapat
membantu para pengambil kebijakan seperti kepala program
studi, dekan ataupun kepala perpustakaan untuk dapat dengan
cepat menganalisis tren topik skripsi pada program studi dan
tahun tertentu yang dikehendaki. Adapun beberapa kemanfaatan
strategis yang didapat melalui analisis tentang tren topik skripsi
adalah: (1) Sebagai petunjuk untuk menyusun rencana
penelitian jangka panjang Universitas; (2) Sebagai bahan
evaluasi untuk menentukan strategi pengembangan teknologi
tepat guna yang dapat dipatenkan; (3) Sebagai bahan kajian
untuk pengembangan kurikulum.
Pembahasan pada artikel ini dimulai dengan pendahuluan yang
disusul dengan kajian yang terkait dengan konsep dasar dari
metode yang digunakan. Berikutnya adalah pemaparan desain
dari sistem yang dibangun yang kemudian didiskusikan pada
bagian hasil dan pembahasan dan akhirnya ditutup dengan
kesimpulan.
2. KAJIAN TERKAIT
2.1 Text Mining
Text mining adalah satu langkah dari analisis teks yang
dilakukan secara otomatis oleh komputer untuk menggali
informasi yang berkualitas dari suatu rangkaian teks yang
terangkum dalam sebuah dokumen (Han & Kamber, 2006).
Prosedur utama dalam metode ini terkait dengan menemukan
kata-kata yang dapat mewakili isi dari dokumen untuk
selanjutnya dilakukan analisis keterhubungan antar dokumen
dengan menggunakan metode statistik tertentu seperti analisis
kelompok, klasifikasi dan asosiasi. Tahapan dalam text mining
secara umum adalah tokenizing, filtering, stemming, tagging,
dan analyzing (Michael, 2004). Tokenizing merupakan tahapan
untuk memisah-misahkan setiap kata (token) pada dokumen
input. Filtering merupakan proses seleksi terhadap kata-kata
yang dihasilkan dari proses tokenizing, dapat dilakukan dengan
algoritma stop list maupun word list. Algoritma stop list akan
membuang kata-kata yang tidak penting seperti kata ganti, kata
keterangan, kata sambung, kata depan dan kata sandang.
Sebaliknya, algoritma word list akan menyimpan kata-kata yang
penting. Proses stemming kemudian dilakukan untuk mencari
kata dasar dari setiap kata yang telah lolos proses filtering.
Terdapat 4 varian algoritma untuk proses stemming ini, yaitu:
(1) Table lookup, seluruh kata dasar disimpan dalam memori
untuk selanjutnya dijadikan acuan dalam pemeriksaan dokumen
input. Kelemahan metode ini adalah membutuhkan ruang
penyimpanan yang besar; (2) Successor variety, setiap kata
dalam dokumen input yang akan diperiksa dipecah secara
bertahap menjadi awalan-awalan (prefiks). Untuk setiap awalan
kemudian dicari kemungkinan bentuk lainnya (variasinya)
didalam corpus, pencarian dihentikan jika jumlah temuan telah
melampaui nilai batas tertentu; (3) N-gram, pemeriksaan setiap
kata dalam dokumen input dilakukan dengan menerapkan
2 Kestrilia Rega Prilianti, Hendra Wijaya
konsep clustering. Setiap kata dicari nilai kedekatannya dengan
kata-kata yang lain dan disimpan dalam sebuah matriks. Matriks
tersebut kemudian dijadikan acuan untuk melakukan
pengelompokan kata-kata; (4) Affix removal, untuk setiap kata
pada dokumen input dihilangkan awalan dan akhirannya
dengan mengacu kepada action rules. Pada dokumen yang
berbahasa Indonesia, proses filtering secara sederhana
dilakukan dengan menghilangkan awalan dan akhiran dari
setiap kata. Jika dokumen berbahasa Inggris, maka diperlukan
proses lanjutan yang disebut sebagai tagging. Proses tagging
dilakukan untuk mencari bentuk awal dari setiap kata lampau.
Setelah semua kata penting berhasil dikoleksi dari rangkaian
proses tersebut, maka tahap berikutnya adalah analyzing yaitu
menentukan keterhubungan antar dokumen dengan mengamati
frekuensi kemunculan tiap kata yang ada pada tiap dokumen.
2.2 K-Means Clustering
K-means clustering merupakan metode yang populer digunakan
untuk mendapatkan dekripsi dari sekumpulan data dengan cara
mengungkapkan kecenderungan setiap individu data untuk
berkelompok dengan individu-individu data lainnya.
Kecenderungan pengelompokan tersebut didasarkan pada
kemiripan karakteristik individu-individu data yang ada. Ide
dasar dari teknik ini adalah menemukan pusat dari setiap
kelompok data yang mungkin ada untuk kemudian
mengelompokkan setiap data individul kedalam salah satu dari
kelompok-kelompok tersebut berdasarkan jaraknya (Turban
dkk, 2005). Semakin dekat jarak data individual, sebut saja X1
dengan salah satu pusat dari kelompok yang ada , sebut saja A,
maka semakin jelas bahwa X1 tersebut merupakan anggota dari
kelompok yang berpusat di A dan semakin jelas pula bahwa X1
bukan anggota dari kelompok-kelompok yang lainnya (ilustrasi
dapat dilihat pada gambar 1). Secara kuantitatif hal ini
ditunjukkan melalui fakta bahwa d1A yaitu jarak dari X1 ke A
mempunyai nilai yang paling kecil jika dibandingankan dengan
d1B dan d1C.
Gambar 1. Ilustrasi penentuan keanggotaan kelompok
berdasarkan jarak
Untuk menemukan pusat yang paling sesuai sebagai upaya
merepresentasikan posisi dari sebuah kelompok data terhadap
kelompok data yang lainnya dilakukan sebuah proses
perulangan. Proses perulangan ini dimulai dengan menentukan
secara sembarang posisi dari pusat-pusat kelompok yang telah
ditetapkan. Selanjutnya ditentukan keanggotaan setiap individu
data berdasarkan jarak terpendek terhadap pusat-pusat tersebut.
Pada iterasi kedua dan seterusnya dilakukan pembaharuan
posisi pusat untuk semua kelompok. Selanjutnya dilakukan
pembaharuan keanggotaan untuk setiap kelompok. Sebuah data
yang semula adalah anggota kelompok C misalnya, dapat
menjadi anggota kelompok B pada akhirnya. Proses perulangan
ini akan berhenti setelah tidak terjadi lagi perubahan anggota
kelompok, yang artinya jarak dari setiap anggota kelompok
terhadap pusatnya masing-masing telah mencapai minimal dan
jarak antara kelompok yang satu dengan kelompok yang lainnya
telah mencapai maksimal. Pembaharuan pusat kelompok
dilakukan dengan menghitung nilai rata-rata yang baru setelah
adanya penambahan ataupun pengurangan anggota kelompok
dari proses sebelumnya.
3. DESAIN SISTEM
Desain dari sistem automasi penentuan tren topik skripsi dapat
dilihat pada gambar 2. Desain tersebut meliputi pemilihan
dokumen input, proses awal, pangkalan data dokumen,
penemuan pola dengan algoritma k-means clustering dan
bentuk output dari sistem.
Gambar 2. Bagan desain sistem automasi penentuan tren
topik skripsi
3.1 Dokumen Input
Input dari sistem adalah bagian abstrak dari buku skripsi. Tipe
file yang digunakan dapat berupa .txt, .doc maupun .pdf.
3.2 Proses Awal
Proses awal meliputi tahapan tokenizing, filtering, stemming
dan tagging. Algoritma yang dipilih untuk tahap filtering
adalah stop list. Algoritma word list tidak dipilih mengingat
tujuan dari aplikasi ini adalah untuk mengungkapkan
kecenderungan topik dari berbagai macam skripsi tanpa
memberi batasan apapun pada isi dari skripsinya. Dengan
menerapkan word list akan banyak informasi baru yang tidak
dapat direkam oleh sistem. Pada tahap filtering, atas
pertimbangan efisiensi memori dan kecepatan eksekusi
dipilihlah algoritma porter yang berbasikan pada konsep affix
removal. Seluruh kata yang telah lolos proses filtering,
stemming dan tagging selanjutnya disebut sebagai term. Untuk
setiap term, dihitung kemunculannya pada setiap dokumen
input dan hasilnya disimpan dalam pangkalan data dokumen
untuk kemudian digunakan pada proses penemuan pola.
Dengan demikian hasil dari tahap proses awal ini adalah sebuah
matriks dua dimensi yang memuat informasi distribusi term-
term dalam setiap dokumen yang menjadi target analisis.
3.3 Pangkalan Data Dokumen
Gambar 3 menunjukkan bentuk dari matriks distribusi term
yang diperoleh dari tahap proses awal. Setiap sel pada matriks
berisi frekuensi kemunculan term (direpresentasikan sebagai
baris) pada dokumen tertentu (direpresentasikan sebagai
kolom). Untuk efisiensi memori dan akurasi penemuan pola,
Jurnal Cybermatika | Vol. 2 No. 1 | Juni 2014 | Artikel 1 3
ya
tidak
Selesai
Mulai
Jumlah
kelompok
Pusat
kelompok
Jarak setiap
dokumen ke pusat
kelompok
Pengelompokan
dokumen
berdasarkan jarak
terdekat
Ada dokumen
berpindah
kelompok ?
selanjutnya ditetapkan batasan (threshold) jumlah term yang
akan dipertahankan di dalam matriks. Semua term yang
frekuensi kemunculannya kurang dari 6 kali di semua dokumen
yang diolah dianggap tidak representatif. Term-term tersebut
selanjutnya dikeluarkan dari koleksi term yang ada. Dengan
demikian hanya term-term yang berpotensi kuat untuk
mengkarakterisasi kelompok saja yang akan dijadikan bahan
pada tahap selanjutnya yaitu penemuan pola.
Gambar 3. Cuplikan matriks distribusi term hasil dari
proses awal seluruh dokumen
3.4 Penemuan Pola
Dalam upaya mendapatkan kecenderungan topik skripsi, maka
salah satu cara yang dapat ditempuh adalah dengan melakukan
eksplorasi terhadap kecenderungan kemiripan dari tiap topik
skripsi terhadap topik-topik skripsi lainnya. Kecenderungan
semacam ini dapat dilihat dengan melakukan pemetaan
kedekatan dari sebuah topik skripsi dengan topik-topik skripsi
lainnya sehingga pada akhirnya akan terungkap kelompok-
kelompok topik skripsi. Analisis kelompok adalah teknik yang
paling sesuai untuk mendapatkan kelompok-kelompok besar
dari topik-topik skripsi yang ada. Algoritma k-means clustering
kemudian digunakan dalam penelitian ini untuk memfasilitasi
analisis kelompok tersebut. Algoritma k-means clustering
dimulai dengan penentuan jumlah kelompok (cluster) yang
akan dibentuk (lihat gambar 4). Tahap selanjutnya adalah
penentuan pusat dari setiap kelompok yang akan dibentuk.
Untuk pertama kalinya pusat kelompok ini ditentukan secara
acak. Namun, untuk mengurangi jumlah iterasi dan sekaligus
mendapatkan hasil yang konvergen, maka dapat dilakukan
modifikasi pada teknik inisialisasi pusat kelompok tersebut.
Dengan menggunakan persamaan(1) penentuan pusat kelompok
untuk yang pertama kalinya tidaklah sepenuhnya acak
melainkan memperhatikan distribusi kemunculan term yang
ada.
(1)
nr dan nt berturut-turut adalah frekuensi terendah dan tertinggi
yang terdapat pada matriks distribusi kemunculan term. R(1,2)
adalah bilangan acak yang nilainya terletak diantara 1 sampai
dengan 2 dan R.ND adalah sembarang bilangan acak.
Selanjutnya dihitung jarak dari semua dokumen yang ada ke
setiap pusat kelompok. Dokumen akan dikelompokkan ke pusat
yang terdekat dengan menggunakan formula cosine similarity
sebagaimana pada persamaan(2), d1 adalah vektor yang
merepresentasikan kemunculan term pada dokumen 1 dan d2
adalah vektor yang merepresentasikan kemunculan term pada
dokumen 2.
(2)
Untuk setiap kelompok yang terbentuk, pusat disesuaikan.
Pusat yang baru diperoleh dengan menghitung rata-rata
frekuensi setiap term dari seluruh dokumen yang ada pada
kelompok tersebut. Proses berulang terus sampai tidak satupun
dokumen berpindah keanggotaan.
Gambar 4. Diagram alir proses k-means clustering
Untuk melakukan evaluasi terhadap hasil pengelompokan,
maka dilakukan pengukuran purity. Purity menghitung rasio
antara jumlah dokumen yang pengelompokannya benar dengan
total dokumen yang dianalisis. Nilainya berkisar dari 0 sampai
dengan 1. Semakin mendekati 1 mengindikasikan bahwa
semakin banyak dokumen yang telah sesuai atau benar
pengelompokannya. Sebaliknya, semakin mendekati 0
menunjukkan semakin sedikit dokumen yang benar
pengelompokannya. Nilai purity diukur dengan menggunakan
persamaan(3), Ω adalah himpunan dari dokumen-dokumen ωk
sedangkan C adalah himpunan dari kelompok-kelompok cj.
(3)
3.5 Output
Hasil pengelompokan dari tahap k-means clustering selanjutnya
dilaporkan dengan menggunakan teknik pareto. Untuk setiap
kelompok dibuat satu diagram pareto. Konsep dari diagram ini
adalah melaporkan urutan kemunculan term secara menurun.
Artinya term yang paling banyak muncul pada suatu kelompok
tertentu akan diletakkan paling awal. Untuk mempermudah
penarikan kesimpulan, jumlah term yang dimunculkan dalam
diagram pareto dibatasi sesuai dengan kehendak pengguna.
Pada gambar 5. ditampilkan contoh diagram pareto untuk
sebuah kelompok yang term-nya dibatasi 5 saja. Selain laporan
kemunculan term, ditampilkan juga data statistik dari proses k-
4 Kestrilia Rega Prilianti, Hendra Wijaya
means clustering seperti jumlah dokumen dalam tiap kelompok
dan banyak iterasi yang diperlukan.
Gambar 5. Contoh diagram pareto untuk sebuah kelompok
4. HASIL DAN PEMBAHASAN
4.1 Perangkat Lunak
Untuk memfasilitasi pengguna berinteraksi dengan sistem
automasi penentuan tren topik skripsi ini, dikembangkan
sebuah antarmuka berupa aplikasi desktop yang dibangun
dengan VB.Net. Secara umum fasilitas yang terdapat di dalam
aplikasi ini dapat dilihat pada Gambar 6.
Gambar 6. Diagram fasilitas sistem automasi penentuan
tren topik skripsi
Pertama kali pengguna akan berinteraksi dengan form login
(Gambar 7). Terdapat dua aturan pengguna yaitu sebagai
administrator atau sebagai pengguna biasa (user).
Administrator mempunyai hak untuk melakukan pengaturan
hak akses pengguna biasa, mengunggah data kedalam
pengkalan data, serta melakukan pengaturan untuk proses
filtering dan clustering.
Gambar 7. Tampilan awal aplikasi
Gambar 8 menunjukkan halaman awal (home) aplikasi bagi
administrator untuk dapat memulai pengaturan yang
diperlukan. Melalui halaman tersebut administrator dapat
menambahkan menu tahun masuk dari penulis skripsi (NEW
ANGKATAN) dan juga jurusan atau program studinya (NEW
JURUSAN). Fungsinya adalah untuk mempermudah pengguna
menentukan batasan-batasan pada analisis tren yang akan
dilakukannya. Misalkan ingin dilihat tren topik skripsi di
program studi Teknik Informatika khusus mahasiswa angkatan
2007 saja, maka pengguna cukup memberi centang pada
angkatan 2007 dan program studi Teknik Informatika. Melalui
halaman ini pula administrator dapat menambahkan koleksi
abstrak skripsi (INPUT ABSTRAK) kedalam pangkalan data
yang akan menjadi bahan untuk analisis tren nantinya.
Gambar 8. Tampilan halaman awal saat login sebagai
administrator
Pengaturan proses filtering dilakukan melalui sub menu
StopWord (lihat gambar 9). Melalui halaman tersebut
administrator dapat menambahkan maupun mengurangi kata-
kata yang dijadikan stop list pada proses filtering dokumen.
Proses clustering dilakukan dengan menekan tombol
ANALISIS pada halaman awal. Pengguna kemudian akan
diarahkan menuju halaman cluster sebagaimana yang dapat
dilihat pada gambar 10.
Gambar 9. Tampilan halaman untuk pengaturan stop list
Beberapa pengaturan yang dapat dilakukan adalah penentuan
jumlah kelompok yang akan dibentuk dan nilai ambang
pergeseran posisi pusat kelompok untuk menghentikan iterasi.
Hasil proses clustering akan muncul di halaman yang sama
dalam bentuk grafik batang. Statistik deskriptif yang
ditampilkan untuk setiap kelompok adalah term terbanyak,
jumlah dokumen, susunan lima term terbanyak dan jumlah
iterasi.
Form Login
Form
Stopword
Form
Cluster
Form
User
Form Admin
Form Detail
Term
Form
Terbaik
Jurnal Cybermatika | Vol. 2 No. 1 | Juni 2014 | Artikel 1 5
Gambar 10. Tampilan halaman untuk proses clustering
Untuk mempermudah interpretasi, di akhir proses clustering
ditampilkan halaman konklusi sebagaimana yang tampak pada
Gambar 11. Setelah pengguna melihat informasi pada halaman
konklusi dan dirasa kelompok yang dibentuk tidak representatif,
maka proses clustering dapat diulangi kembali. Untuk kembali
ke halaman cluster pengguna cukup menekan tombol BACK
pada halaman konklusi.
Gambar 11. Tampilan halaman konklusi
Sampai dengan tahapan ini proses automasi dapat dikatakan
berhenti, berikutnya diperlukan justifikasi dari pengguna untuk
mempertimbangkan apakah konklusi yang diberikan oleh
aplikasi telah cukup layak dan dapat digunakan untuk
pengambilan kebijakan maupun analisis lanjutan. Oleh karena
itu dapat dikatakan proses penentuan tren topik skripsi tidak
sepenuhnya berjalan otomatis, namun semi-otomatis karena
pada tahap akhir masih diperlukan justifikasi dari pengguna
untuk menetapkan konklusinya.
4.2 Uji Coba
Uji coba pada aplikasi dilakukan baik dalam hal kinerja
algoritma k-means clustering dalam melakukan
pengelompokan, kemudahan dan kecepatan penggunaan
aplikasi serata keakuratan konklusi yang diberikan. Uji coba
dilakukan di Universitas Ma Chung. Bahan analisis adalah
seluruh skripsi yang tersimpan di repository digital
perpustakaan Universitas. Responden adalah beberapa kepala
program studi dan dosen-dosen yang bertanggungjawab untuk
skripsi di program studinya masing-masing.
Untuk memantau kinerja algoritma k-means clustering dalam
melakukan pengelompokan terhadap dokumen-dokumen skripsi
yang ada, telah dilakukan uji coba terhadap dokumen skripsi
dari 6 program studi yang ada di Universitas Ma Chung.
Hasilnya diperoleh rata-rata nilai purity sebesar 0.76 yang
artinya sekitar 76% dokumen yang diolah telah berhasil
dikelompokkan dengan benar oleh sistem. Ringkasan dari hasil
uji coba tersebut dapat dilihat pada Tabel 1.
Tabel 1. Ringkasan nilai purity dari uji coba kinerja
algoritma k-means clustering
Gambar 12 menunjukkan pendapat responden terhadap aspek
kecepatan dan kemudahan penggunaan. Dari kedua aspek
tersebut lebih dari 80% responden menyatakan baik. Dengan
kata lain selama menggunakan aplikasi, pengguna merasa
proses untuk menghasilkan konklusi relatif cepat dan penataan
feature pada halaman-halaman aplikasi sangat mudah dipahami
sehingga tidak diperlukan bantuan lebih lanjut dari
pengembang aplikasi untuk memahaminya. Untuk uji coba
aspek akurasi konklusi, responden diminta menilai apakah
rekomendasi tren topik skripsi yang dihasilkan oleh aplikasi
telah sesuai dengan kondisi yang sebenarnya ditemui di
Universitas. Metode yang diterapkan adalah responden diminta
membandingkan tren topik skripsi berdasarkan pengalaman dan
pemantauannya selama bergabung dengan Universitas Ma
Chung dengan tren topik skripsi yang diperoleh melalui
aplikasi. Sekitar 89% responden menyatakan tren topik skripsi
yang diperoleh melalui aplikasi sesuai dengan tren topik skripsi
berdasarkan pengalaman dan pemantauannya.
Gambar 12. Grafik hasil uji coba aspek kecepatan dan
kemudahan penggunaan
Beberapa masukan lain dari responden adalah hendaknya
performa dari algoritma yang digunakan ditingkatkan sehingga
aplikasi dapat secara otomatis mengetahui apakah dokumen
input berbahasa Inggris atau Indonesia. Untuk saat ini,
informasi tersebut harus diberikan oleh pengguna saat
mengunggah dokumen kedalam pangkalan data yang terhubung
dengan aplikasi. Adapun tujuan menginformasikan bahasa yang
digunakan adalah untuk kepentingan pemilihan kelompok stop
list yang sesuai dan penentuan algoritma yang akan diterapkan
saat proses filtering dan tagging.
Program Studi Asal Dokumen Purity
Teknik Informatika 0.83
Sistem Informasi 0.89
Teknik Industri 0.77
Manajemen 0.64
Akuntansi 0.82
Bahasa Inggris 0.66
Rata-Rata 0.76
6 Kestrilia Rega Prilianti, Hendra Wijaya
5. KESIMPULAN
Proses automasi penentuan tren topik skripsi dapat dilakukan
dengan menerapkan metode text mining. Dengan metode
tersebut analisis tren topik skripsi dapat dilakukan dengan cepat
karena meminimalkan keterlibatan dari pengguna. Melalui
penelitian ini ditunjukkan bahwa algoritma k-means clustering
yang digunakan dalam proses penemuan pola tebukti dapat
membantu proses pengelompokan berbagai topik skripsi yang
ada sehingga diperoleh informasi yang bermakna dalam
menentukan tren penelitian Universitas dari tahun ke tahun. Uji
coba terhadap aplikasi yang dikembangkan juga menunjukkan
hasil yang positif baik dalam aspek kinerja algoritma k-means
clustering, kemudahan dan kecepatan penggunaan aplikasi
maupun akurasi konklusi.
6. REFERENSI
Gupta, N., “Text Mining for Information Retreival,” Ph.D.
thesis, Jaypee Institute of Information Technology
University, India, May 2011.
Gupta, V., Lehal, G.S., “A Survey of Text Mining Techniques
and Application,” Journal of Emerging Technologies in
Web Intelligence, Vol. 1, pp. 60-75, 2009.
Han, J., Kamber, M., Data Mining Concept and Technique, 2nd
Ed, Elsevier, 2006.
Michael, B., “Automatic Discovery of Similar Words,” Survey
of Text Mining: Clustering, Classification and Retrieval,
LLC, pp. 24-43, 2004.
Santoso R., “Aplikasi Katalog Online untuk Pencarian Konten
Buku dengan Metode Text mining pada Perpustakaan
STIKOM Surabaya,” Skripsi, STIKOM, Surabaya, 2012.
Sari, O.Y., “Aplikasi Text Mining untuk Pencarian Buku
Menggunakan Metode Association Rules Analysis Guna
Meningkatkan Pelayanan Perpustakaan pada SMP Negeri
1 Plaosan Magetan,” Skripsi, Universitas Muhammadiyah
Ponorogo, 2012.
Turban, E., Aronson, J.E., Liang, T.P., Introduction to Data
Mining, Pearson, 2005.
Yuwono, F., “Pembuatan Aplikasi Text Mining untuk
Pencarian Buku Koleksi Skripsi dengan Menggunakan
Association Rules Analysis,” Skripsi, Universitas Kristen
Petra, Surabaya, 2005.

More Related Content

Viewers also liked

101830804 laporan-tugas-stabilitas-lereng (1)
101830804 laporan-tugas-stabilitas-lereng (1)101830804 laporan-tugas-stabilitas-lereng (1)
101830804 laporan-tugas-stabilitas-lereng (1)Faizin Mahfudz
 
4. jurnal budi pradana implementasi metode low pass filtering untuk mereduks...
4. jurnal budi pradana  implementasi metode low pass filtering untuk mereduks...4. jurnal budi pradana  implementasi metode low pass filtering untuk mereduks...
4. jurnal budi pradana implementasi metode low pass filtering untuk mereduks...ym.ygrex@comp
 
Algoritma fuzzy c means fcm java c++ contoh program
Algoritma fuzzy c means fcm java c++   contoh programAlgoritma fuzzy c means fcm java c++   contoh program
Algoritma fuzzy c means fcm java c++ contoh programym.ygrex@comp
 
Fuzzy Encoding For Image Classification Using Gustafson-Kessel Aglorithm
Fuzzy Encoding For Image Classification Using Gustafson-Kessel AglorithmFuzzy Encoding For Image Classification Using Gustafson-Kessel Aglorithm
Fuzzy Encoding For Image Classification Using Gustafson-Kessel AglorithmAshish Gupta
 
Using kalman filter for object tracking matlab & simulink example r
Using kalman filter for object tracking   matlab & simulink example rUsing kalman filter for object tracking   matlab & simulink example r
Using kalman filter for object tracking matlab & simulink example rym.ygrex@comp
 
Tutorial zulfa mengenal menu home menggunakan keyboard
Tutorial zulfa mengenal menu home menggunakan keyboardTutorial zulfa mengenal menu home menggunakan keyboard
Tutorial zulfa mengenal menu home menggunakan keyboardym.ygrex@comp
 
Visual Object Category Recognition
Visual Object Category RecognitionVisual Object Category Recognition
Visual Object Category RecognitionAshish Gupta
 
Clustering skripsi teknik informatikac
Clustering   skripsi teknik informatikacClustering   skripsi teknik informatikac
Clustering skripsi teknik informatikacym.ygrex@comp
 
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t...
17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t...ym.ygrex@comp
 
Petunjuk sikronisasi unbk_smk_dan_sma
Petunjuk sikronisasi unbk_smk_dan_smaPetunjuk sikronisasi unbk_smk_dan_sma
Petunjuk sikronisasi unbk_smk_dan_smaym.ygrex@comp
 
Selayang pandang ygrex
Selayang pandang ygrexSelayang pandang ygrex
Selayang pandang ygrexym.ygrex@comp
 
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-meansJurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-meansym.ygrex@comp
 
Troubleshooting unbk 20170303
Troubleshooting unbk 20170303Troubleshooting unbk 20170303
Troubleshooting unbk 20170303ym.ygrex@comp
 
Sejarah bem stkip subang
Sejarah bem stkip subangSejarah bem stkip subang
Sejarah bem stkip subangym.ygrex@comp
 
Tracking pedestrians from a moving car matlab & simulink example hg
Tracking pedestrians from a moving car   matlab & simulink example hgTracking pedestrians from a moving car   matlab & simulink example hg
Tracking pedestrians from a moving car matlab & simulink example hgym.ygrex@comp
 
Divide a data set into sub data sets matlab answers - matlab central
Divide a data set into sub data sets   matlab answers - matlab centralDivide a data set into sub data sets   matlab answers - matlab central
Divide a data set into sub data sets matlab answers - matlab centralym.ygrex@comp
 
Selayang pandang kiki rusdyanto
Selayang pandang kiki rusdyantoSelayang pandang kiki rusdyanto
Selayang pandang kiki rusdyantoym.ygrex@comp
 
Pengumuman unbk di ubk 2017
Pengumuman unbk di ubk 2017Pengumuman unbk di ubk 2017
Pengumuman unbk di ubk 2017ym.ygrex@comp
 

Viewers also liked (20)

101830804 laporan-tugas-stabilitas-lereng (1)
101830804 laporan-tugas-stabilitas-lereng (1)101830804 laporan-tugas-stabilitas-lereng (1)
101830804 laporan-tugas-stabilitas-lereng (1)
 
4. jurnal budi pradana implementasi metode low pass filtering untuk mereduks...
4. jurnal budi pradana  implementasi metode low pass filtering untuk mereduks...4. jurnal budi pradana  implementasi metode low pass filtering untuk mereduks...
4. jurnal budi pradana implementasi metode low pass filtering untuk mereduks...
 
Algoritma fuzzy c means fcm java c++ contoh program
Algoritma fuzzy c means fcm java c++   contoh programAlgoritma fuzzy c means fcm java c++   contoh program
Algoritma fuzzy c means fcm java c++ contoh program
 
Fuzzy Encoding For Image Classification Using Gustafson-Kessel Aglorithm
Fuzzy Encoding For Image Classification Using Gustafson-Kessel AglorithmFuzzy Encoding For Image Classification Using Gustafson-Kessel Aglorithm
Fuzzy Encoding For Image Classification Using Gustafson-Kessel Aglorithm
 
Using kalman filter for object tracking matlab & simulink example r
Using kalman filter for object tracking   matlab & simulink example rUsing kalman filter for object tracking   matlab & simulink example r
Using kalman filter for object tracking matlab & simulink example r
 
Tutorial zulfa mengenal menu home menggunakan keyboard
Tutorial zulfa mengenal menu home menggunakan keyboardTutorial zulfa mengenal menu home menggunakan keyboard
Tutorial zulfa mengenal menu home menggunakan keyboard
 
Visual Object Category Recognition
Visual Object Category RecognitionVisual Object Category Recognition
Visual Object Category Recognition
 
Clustering skripsi teknik informatikac
Clustering   skripsi teknik informatikacClustering   skripsi teknik informatikac
Clustering skripsi teknik informatikac
 
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t...
17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t...
 
Petunjuk sikronisasi unbk_smk_dan_sma
Petunjuk sikronisasi unbk_smk_dan_smaPetunjuk sikronisasi unbk_smk_dan_sma
Petunjuk sikronisasi unbk_smk_dan_sma
 
Pengolahan citra
Pengolahan citraPengolahan citra
Pengolahan citra
 
Selayang pandang ygrex
Selayang pandang ygrexSelayang pandang ygrex
Selayang pandang ygrex
 
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-meansJurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
 
Troubleshooting unbk 20170303
Troubleshooting unbk 20170303Troubleshooting unbk 20170303
Troubleshooting unbk 20170303
 
Sejarah bem stkip subang
Sejarah bem stkip subangSejarah bem stkip subang
Sejarah bem stkip subang
 
Revisi jadwal gladi
Revisi jadwal gladiRevisi jadwal gladi
Revisi jadwal gladi
 
Tracking pedestrians from a moving car matlab & simulink example hg
Tracking pedestrians from a moving car   matlab & simulink example hgTracking pedestrians from a moving car   matlab & simulink example hg
Tracking pedestrians from a moving car matlab & simulink example hg
 
Divide a data set into sub data sets matlab answers - matlab central
Divide a data set into sub data sets   matlab answers - matlab centralDivide a data set into sub data sets   matlab answers - matlab central
Divide a data set into sub data sets matlab answers - matlab central
 
Selayang pandang kiki rusdyanto
Selayang pandang kiki rusdyantoSelayang pandang kiki rusdyanto
Selayang pandang kiki rusdyanto
 
Pengumuman unbk di ubk 2017
Pengumuman unbk di ubk 2017Pengumuman unbk di ubk 2017
Pengumuman unbk di ubk 2017
 

Similar to Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metode k means clustering

PENERAPAN METODE TEXT MINING UNTUK MENDETEKSI KESAMAAN JUDUL TUGAS AKHIR PADA...
PENERAPAN METODE TEXT MINING UNTUK MENDETEKSI KESAMAAN JUDUL TUGAS AKHIR PADA...PENERAPAN METODE TEXT MINING UNTUK MENDETEKSI KESAMAAN JUDUL TUGAS AKHIR PADA...
PENERAPAN METODE TEXT MINING UNTUK MENDETEKSI KESAMAAN JUDUL TUGAS AKHIR PADA...frengkysanctuary
 
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.pptPPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.pptYogiPermadi6
 
educational research
educational researcheducational research
educational researchharjunode
 
Perancangan
PerancanganPerancangan
Perancanganjondhy
 
Modul praktikum 3 cluster
Modul praktikum 3   clusterModul praktikum 3   cluster
Modul praktikum 3 clusterDeiHart DeiHart
 
Contoh Persentasi untuk Skripsi S1, S2, S3 Free download
Contoh Persentasi untuk Skripsi S1, S2, S3 Free downloadContoh Persentasi untuk Skripsi S1, S2, S3 Free download
Contoh Persentasi untuk Skripsi S1, S2, S3 Free downloadAzhar Eka P, ST. AGEN PROPERTI
 
data mining
data miningdata mining
data miningdewi2093
 
Knowledge management tools
Knowledge management toolsKnowledge management tools
Knowledge management toolsdiniwidyani
 
Sistematika penulisan penelitian kualitatif
Sistematika penulisan penelitian kualitatifSistematika penulisan penelitian kualitatif
Sistematika penulisan penelitian kualitatifAlorka 114114
 
Pertemuan 1 riset teknologi informasi
Pertemuan 1 riset teknologi informasiPertemuan 1 riset teknologi informasi
Pertemuan 1 riset teknologi informasiErmanto Ermanto
 
Sistem pendukung-keputusan-untuk-penentuan-lokasi-tempat-pembuangan-akhir-tpa...
Sistem pendukung-keputusan-untuk-penentuan-lokasi-tempat-pembuangan-akhir-tpa...Sistem pendukung-keputusan-untuk-penentuan-lokasi-tempat-pembuangan-akhir-tpa...
Sistem pendukung-keputusan-untuk-penentuan-lokasi-tempat-pembuangan-akhir-tpa...SMK IT Marinah Al-Hidayah
 
Contoh analisis dan interpretasi data pada penelitian kualitatif
Contoh analisis dan interpretasi data pada penelitian kualitatifContoh analisis dan interpretasi data pada penelitian kualitatif
Contoh analisis dan interpretasi data pada penelitian kualitatifMuhammad Alfiansyah Alfi
 
Pertimbangan dalam perumusan masalah
Pertimbangan dalam perumusan masalahPertimbangan dalam perumusan masalah
Pertimbangan dalam perumusan masalah20012011
 

Similar to Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metode k means clustering (20)

10
1010
10
 
Manajemen data kesehatan
Manajemen data kesehatanManajemen data kesehatan
Manajemen data kesehatan
 
PENERAPAN METODE TEXT MINING UNTUK MENDETEKSI KESAMAAN JUDUL TUGAS AKHIR PADA...
PENERAPAN METODE TEXT MINING UNTUK MENDETEKSI KESAMAAN JUDUL TUGAS AKHIR PADA...PENERAPAN METODE TEXT MINING UNTUK MENDETEKSI KESAMAAN JUDUL TUGAS AKHIR PADA...
PENERAPAN METODE TEXT MINING UNTUK MENDETEKSI KESAMAAN JUDUL TUGAS AKHIR PADA...
 
Kuliah ke 5
Kuliah ke 5Kuliah ke 5
Kuliah ke 5
 
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.pptPPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
PPT-UEU-Metodologi-Penelitian-Pertemuan-11.ppt
 
Bab ii
Bab iiBab ii
Bab ii
 
Critical review4
Critical review4Critical review4
Critical review4
 
educational research
educational researcheducational research
educational research
 
Perancangan
PerancanganPerancangan
Perancangan
 
Modul praktikum 3 cluster
Modul praktikum 3   clusterModul praktikum 3   cluster
Modul praktikum 3 cluster
 
Contoh Persentasi untuk Skripsi S1, S2, S3 Free download
Contoh Persentasi untuk Skripsi S1, S2, S3 Free downloadContoh Persentasi untuk Skripsi S1, S2, S3 Free download
Contoh Persentasi untuk Skripsi S1, S2, S3 Free download
 
data mining
data miningdata mining
data mining
 
Knowledge management tools
Knowledge management toolsKnowledge management tools
Knowledge management tools
 
Sistematika penulisan penelitian kualitatif
Sistematika penulisan penelitian kualitatifSistematika penulisan penelitian kualitatif
Sistematika penulisan penelitian kualitatif
 
Bab v dan vi
Bab v dan viBab v dan vi
Bab v dan vi
 
Pertemuan 1 riset teknologi informasi
Pertemuan 1 riset teknologi informasiPertemuan 1 riset teknologi informasi
Pertemuan 1 riset teknologi informasi
 
Sistem pendukung-keputusan-untuk-penentuan-lokasi-tempat-pembuangan-akhir-tpa...
Sistem pendukung-keputusan-untuk-penentuan-lokasi-tempat-pembuangan-akhir-tpa...Sistem pendukung-keputusan-untuk-penentuan-lokasi-tempat-pembuangan-akhir-tpa...
Sistem pendukung-keputusan-untuk-penentuan-lokasi-tempat-pembuangan-akhir-tpa...
 
Contoh analisis dan interpretasi data pada penelitian kualitatif
Contoh analisis dan interpretasi data pada penelitian kualitatifContoh analisis dan interpretasi data pada penelitian kualitatif
Contoh analisis dan interpretasi data pada penelitian kualitatif
 
Bab 1
Bab 1Bab 1
Bab 1
 
Pertimbangan dalam perumusan masalah
Pertimbangan dalam perumusan masalahPertimbangan dalam perumusan masalah
Pertimbangan dalam perumusan masalah
 

More from ym.ygrex@comp

Using kalman filter for object tracking matlab & simulink example
Using kalman filter for object tracking   matlab & simulink exampleUsing kalman filter for object tracking   matlab & simulink example
Using kalman filter for object tracking matlab & simulink exampleym.ygrex@comp
 
Tracking pedestrians from a moving car matlab & simulink example g
Tracking pedestrians from a moving car   matlab & simulink example gTracking pedestrians from a moving car   matlab & simulink example g
Tracking pedestrians from a moving car matlab & simulink example gym.ygrex@comp
 
Motion based multiple object tracking - matlab & simulink example
Motion based multiple object tracking - matlab & simulink exampleMotion based multiple object tracking - matlab & simulink example
Motion based multiple object tracking - matlab & simulink exampleym.ygrex@comp
 
Foreground detection using gaussian mixture models matlab
Foreground detection using gaussian mixture models   matlabForeground detection using gaussian mixture models   matlab
Foreground detection using gaussian mixture models matlabym.ygrex@comp
 
Teknik pengumpulan data teknologi pendidikan
Teknik pengumpulan data   teknologi pendidikanTeknik pengumpulan data   teknologi pendidikan
Teknik pengumpulan data teknologi pendidikanym.ygrex@comp
 
Pengertian field, record, table, file, data dan basis data lengkap pengerti...
Pengertian field, record, table, file, data dan basis data lengkap   pengerti...Pengertian field, record, table, file, data dan basis data lengkap   pengerti...
Pengertian field, record, table, file, data dan basis data lengkap pengerti...ym.ygrex@comp
 
16. afrisawati implementasi data mining pemilihan pelanggan potensial menggu...
16. afrisawati  implementasi data mining pemilihan pelanggan potensial menggu...16. afrisawati  implementasi data mining pemilihan pelanggan potensial menggu...
16. afrisawati implementasi data mining pemilihan pelanggan potensial menggu...ym.ygrex@comp
 
11. sri rahayu implementasi data mining pada penjualan tiket pesawat menggu...
11. sri rahayu   implementasi data mining pada penjualan tiket pesawat menggu...11. sri rahayu   implementasi data mining pada penjualan tiket pesawat menggu...
11. sri rahayu implementasi data mining pada penjualan tiket pesawat menggu...ym.ygrex@comp
 
Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...
Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...
Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...ym.ygrex@comp
 
20. implementasi data mining pada penjualan produk elektronik dengan algoritm...
20. implementasi data mining pada penjualan produk elektronik dengan algoritm...20. implementasi data mining pada penjualan produk elektronik dengan algoritm...
20. implementasi data mining pada penjualan produk elektronik dengan algoritm...ym.ygrex@comp
 
6. monika sianipar (1011493) perancangan aplikasi forecasting persediaan baha...
6. monika sianipar (1011493) perancangan aplikasi forecasting persediaan baha...6. monika sianipar (1011493) perancangan aplikasi forecasting persediaan baha...
6. monika sianipar (1011493) perancangan aplikasi forecasting persediaan baha...ym.ygrex@comp
 
5. jurnal jones pandiangan perancangan aplikasi segmentasi citra dengan metod...
5. jurnal jones pandiangan perancangan aplikasi segmentasi citra dengan metod...5. jurnal jones pandiangan perancangan aplikasi segmentasi citra dengan metod...
5. jurnal jones pandiangan perancangan aplikasi segmentasi citra dengan metod...ym.ygrex@comp
 
2. jurnal dessy purwandani implementasi metode gaussian smoothing untuk peng...
2. jurnal dessy purwandani  implementasi metode gaussian smoothing untuk peng...2. jurnal dessy purwandani  implementasi metode gaussian smoothing untuk peng...
2. jurnal dessy purwandani implementasi metode gaussian smoothing untuk peng...ym.ygrex@comp
 
12. jaka putra implementasi histogram equalization untuk perbaikan noise pad...
12. jaka putra  implementasi histogram equalization untuk perbaikan noise pad...12. jaka putra  implementasi histogram equalization untuk perbaikan noise pad...
12. jaka putra implementasi histogram equalization untuk perbaikan noise pad...ym.ygrex@comp
 
Ruu bem unma subang 2013 ygrex
Ruu bem unma subang 2013 ygrexRuu bem unma subang 2013 ygrex
Ruu bem unma subang 2013 ygrexym.ygrex@comp
 

More from ym.ygrex@comp (16)

Using kalman filter for object tracking matlab & simulink example
Using kalman filter for object tracking   matlab & simulink exampleUsing kalman filter for object tracking   matlab & simulink example
Using kalman filter for object tracking matlab & simulink example
 
Tracking pedestrians from a moving car matlab & simulink example g
Tracking pedestrians from a moving car   matlab & simulink example gTracking pedestrians from a moving car   matlab & simulink example g
Tracking pedestrians from a moving car matlab & simulink example g
 
Motion based multiple object tracking - matlab & simulink example
Motion based multiple object tracking - matlab & simulink exampleMotion based multiple object tracking - matlab & simulink example
Motion based multiple object tracking - matlab & simulink example
 
Foreground detection using gaussian mixture models matlab
Foreground detection using gaussian mixture models   matlabForeground detection using gaussian mixture models   matlab
Foreground detection using gaussian mixture models matlab
 
Teknik pengumpulan data teknologi pendidikan
Teknik pengumpulan data   teknologi pendidikanTeknik pengumpulan data   teknologi pendidikan
Teknik pengumpulan data teknologi pendidikan
 
Pengertian field, record, table, file, data dan basis data lengkap pengerti...
Pengertian field, record, table, file, data dan basis data lengkap   pengerti...Pengertian field, record, table, file, data dan basis data lengkap   pengerti...
Pengertian field, record, table, file, data dan basis data lengkap pengerti...
 
16. afrisawati implementasi data mining pemilihan pelanggan potensial menggu...
16. afrisawati  implementasi data mining pemilihan pelanggan potensial menggu...16. afrisawati  implementasi data mining pemilihan pelanggan potensial menggu...
16. afrisawati implementasi data mining pemilihan pelanggan potensial menggu...
 
11. sri rahayu implementasi data mining pada penjualan tiket pesawat menggu...
11. sri rahayu   implementasi data mining pada penjualan tiket pesawat menggu...11. sri rahayu   implementasi data mining pada penjualan tiket pesawat menggu...
11. sri rahayu implementasi data mining pada penjualan tiket pesawat menggu...
 
Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...
Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...
Jurnal 15398 ilmplementasi k-nearest neighbor untuk mengenali pola citra dala...
 
20. implementasi data mining pada penjualan produk elektronik dengan algoritm...
20. implementasi data mining pada penjualan produk elektronik dengan algoritm...20. implementasi data mining pada penjualan produk elektronik dengan algoritm...
20. implementasi data mining pada penjualan produk elektronik dengan algoritm...
 
6. monika sianipar (1011493) perancangan aplikasi forecasting persediaan baha...
6. monika sianipar (1011493) perancangan aplikasi forecasting persediaan baha...6. monika sianipar (1011493) perancangan aplikasi forecasting persediaan baha...
6. monika sianipar (1011493) perancangan aplikasi forecasting persediaan baha...
 
5. jurnal jones pandiangan perancangan aplikasi segmentasi citra dengan metod...
5. jurnal jones pandiangan perancangan aplikasi segmentasi citra dengan metod...5. jurnal jones pandiangan perancangan aplikasi segmentasi citra dengan metod...
5. jurnal jones pandiangan perancangan aplikasi segmentasi citra dengan metod...
 
2. jurnal dessy purwandani implementasi metode gaussian smoothing untuk peng...
2. jurnal dessy purwandani  implementasi metode gaussian smoothing untuk peng...2. jurnal dessy purwandani  implementasi metode gaussian smoothing untuk peng...
2. jurnal dessy purwandani implementasi metode gaussian smoothing untuk peng...
 
12. jaka putra implementasi histogram equalization untuk perbaikan noise pad...
12. jaka putra  implementasi histogram equalization untuk perbaikan noise pad...12. jaka putra  implementasi histogram equalization untuk perbaikan noise pad...
12. jaka putra implementasi histogram equalization untuk perbaikan noise pad...
 
Ruu bem unma subang 2013 ygrex
Ruu bem unma subang 2013 ygrexRuu bem unma subang 2013 ygrex
Ruu bem unma subang 2013 ygrex
 
Buku ppl stkip 2011
Buku ppl stkip 2011Buku ppl stkip 2011
Buku ppl stkip 2011
 

Recently uploaded

Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptxSesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptxSovyOktavianti
 
POWER POINT MODUL 1 PEBI4223 (PENDIDIKAN LINGKUNGAN HIDUP)
POWER POINT MODUL 1 PEBI4223 (PENDIDIKAN LINGKUNGAN HIDUP)POWER POINT MODUL 1 PEBI4223 (PENDIDIKAN LINGKUNGAN HIDUP)
POWER POINT MODUL 1 PEBI4223 (PENDIDIKAN LINGKUNGAN HIDUP)PUNGKYBUDIPANGESTU1
 
Refleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptx
Refleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptxRefleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptx
Refleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptxIrfanAudah1
 
Modul Ajar Pendidikan Pancasila Kelas 5 Fase C
Modul Ajar Pendidikan Pancasila Kelas 5 Fase CModul Ajar Pendidikan Pancasila Kelas 5 Fase C
Modul Ajar Pendidikan Pancasila Kelas 5 Fase CAbdiera
 
PEMANASAN GLOBAL - MATERI KELAS X MA.pptx
PEMANASAN GLOBAL - MATERI KELAS X MA.pptxPEMANASAN GLOBAL - MATERI KELAS X MA.pptx
PEMANASAN GLOBAL - MATERI KELAS X MA.pptxsukmakarim1998
 
vIDEO kelayakan berita untuk mahasiswa.ppsx
vIDEO kelayakan berita untuk mahasiswa.ppsxvIDEO kelayakan berita untuk mahasiswa.ppsx
vIDEO kelayakan berita untuk mahasiswa.ppsxsyahrulutama16
 
MATEMATIKA EKONOMI MATERI ANUITAS DAN NILAI ANUITAS
MATEMATIKA EKONOMI MATERI ANUITAS DAN NILAI ANUITASMATEMATIKA EKONOMI MATERI ANUITAS DAN NILAI ANUITAS
MATEMATIKA EKONOMI MATERI ANUITAS DAN NILAI ANUITASbilqisizzati
 
aksi nyata penyebaran pemahaman merdeka belajar
aksi nyata penyebaran pemahaman merdeka belajaraksi nyata penyebaran pemahaman merdeka belajar
aksi nyata penyebaran pemahaman merdeka belajarHafidRanggasi
 
2 KISI-KISI Ujian Sekolah Dasar mata pelajaranPPKn 2024.pdf
2 KISI-KISI Ujian Sekolah Dasar  mata pelajaranPPKn 2024.pdf2 KISI-KISI Ujian Sekolah Dasar  mata pelajaranPPKn 2024.pdf
2 KISI-KISI Ujian Sekolah Dasar mata pelajaranPPKn 2024.pdfsdn3jatiblora
 
Integrasi nasional dalam bingkai bhinneka tunggal ika
Integrasi nasional dalam bingkai bhinneka tunggal ikaIntegrasi nasional dalam bingkai bhinneka tunggal ika
Integrasi nasional dalam bingkai bhinneka tunggal ikaAtiAnggiSupriyati
 
aksi nyata sosialisasi Profil Pelajar Pancasila.pdf
aksi nyata sosialisasi  Profil Pelajar Pancasila.pdfaksi nyata sosialisasi  Profil Pelajar Pancasila.pdf
aksi nyata sosialisasi Profil Pelajar Pancasila.pdfsdn3jatiblora
 
PELAKSANAAN + Link-Link MATERI Training_ "Effective INVENTORY & WAREHOUSING M...
PELAKSANAAN + Link-Link MATERI Training_ "Effective INVENTORY & WAREHOUSING M...PELAKSANAAN + Link-Link MATERI Training_ "Effective INVENTORY & WAREHOUSING M...
PELAKSANAAN + Link-Link MATERI Training_ "Effective INVENTORY & WAREHOUSING M...Kanaidi ken
 
Sosialisasi PPDB SulSel tahun 2024 di Sulawesi Selatan
Sosialisasi PPDB SulSel tahun 2024 di Sulawesi SelatanSosialisasi PPDB SulSel tahun 2024 di Sulawesi Selatan
Sosialisasi PPDB SulSel tahun 2024 di Sulawesi Selatanssuser963292
 
MODUL P5 KEWIRAUSAHAAN SMAN 2 SLAWI 2023.pptx
MODUL P5 KEWIRAUSAHAAN SMAN 2 SLAWI 2023.pptxMODUL P5 KEWIRAUSAHAAN SMAN 2 SLAWI 2023.pptx
MODUL P5 KEWIRAUSAHAAN SMAN 2 SLAWI 2023.pptxSlasiWidasmara1
 
Modul Projek - Batik Ecoprint - Fase B.pdf
Modul Projek  - Batik Ecoprint - Fase B.pdfModul Projek  - Batik Ecoprint - Fase B.pdf
Modul Projek - Batik Ecoprint - Fase B.pdfanitanurhidayah51
 
RENCANA + Link2 Materi Pelatihan/BimTek "PTK 007 Rev-5 Thn 2023 (PENGADAAN) &...
RENCANA + Link2 Materi Pelatihan/BimTek "PTK 007 Rev-5 Thn 2023 (PENGADAAN) &...RENCANA + Link2 Materi Pelatihan/BimTek "PTK 007 Rev-5 Thn 2023 (PENGADAAN) &...
RENCANA + Link2 Materi Pelatihan/BimTek "PTK 007 Rev-5 Thn 2023 (PENGADAAN) &...Kanaidi ken
 
Pendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptx
Pendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptxPendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptx
Pendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptxdeskaputriani1
 
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdfREFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdfirwanabidin08
 
AKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMM
AKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMMAKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMM
AKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMMIGustiBagusGending
 
Modul Ajar Bahasa Indonesia Kelas 4 Fase B
Modul Ajar Bahasa Indonesia Kelas 4 Fase BModul Ajar Bahasa Indonesia Kelas 4 Fase B
Modul Ajar Bahasa Indonesia Kelas 4 Fase BAbdiera
 

Recently uploaded (20)

Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptxSesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
 
POWER POINT MODUL 1 PEBI4223 (PENDIDIKAN LINGKUNGAN HIDUP)
POWER POINT MODUL 1 PEBI4223 (PENDIDIKAN LINGKUNGAN HIDUP)POWER POINT MODUL 1 PEBI4223 (PENDIDIKAN LINGKUNGAN HIDUP)
POWER POINT MODUL 1 PEBI4223 (PENDIDIKAN LINGKUNGAN HIDUP)
 
Refleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptx
Refleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptxRefleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptx
Refleksi Mandiri Modul 1.3 - KANVAS BAGJA.pptx.pptx
 
Modul Ajar Pendidikan Pancasila Kelas 5 Fase C
Modul Ajar Pendidikan Pancasila Kelas 5 Fase CModul Ajar Pendidikan Pancasila Kelas 5 Fase C
Modul Ajar Pendidikan Pancasila Kelas 5 Fase C
 
PEMANASAN GLOBAL - MATERI KELAS X MA.pptx
PEMANASAN GLOBAL - MATERI KELAS X MA.pptxPEMANASAN GLOBAL - MATERI KELAS X MA.pptx
PEMANASAN GLOBAL - MATERI KELAS X MA.pptx
 
vIDEO kelayakan berita untuk mahasiswa.ppsx
vIDEO kelayakan berita untuk mahasiswa.ppsxvIDEO kelayakan berita untuk mahasiswa.ppsx
vIDEO kelayakan berita untuk mahasiswa.ppsx
 
MATEMATIKA EKONOMI MATERI ANUITAS DAN NILAI ANUITAS
MATEMATIKA EKONOMI MATERI ANUITAS DAN NILAI ANUITASMATEMATIKA EKONOMI MATERI ANUITAS DAN NILAI ANUITAS
MATEMATIKA EKONOMI MATERI ANUITAS DAN NILAI ANUITAS
 
aksi nyata penyebaran pemahaman merdeka belajar
aksi nyata penyebaran pemahaman merdeka belajaraksi nyata penyebaran pemahaman merdeka belajar
aksi nyata penyebaran pemahaman merdeka belajar
 
2 KISI-KISI Ujian Sekolah Dasar mata pelajaranPPKn 2024.pdf
2 KISI-KISI Ujian Sekolah Dasar  mata pelajaranPPKn 2024.pdf2 KISI-KISI Ujian Sekolah Dasar  mata pelajaranPPKn 2024.pdf
2 KISI-KISI Ujian Sekolah Dasar mata pelajaranPPKn 2024.pdf
 
Integrasi nasional dalam bingkai bhinneka tunggal ika
Integrasi nasional dalam bingkai bhinneka tunggal ikaIntegrasi nasional dalam bingkai bhinneka tunggal ika
Integrasi nasional dalam bingkai bhinneka tunggal ika
 
aksi nyata sosialisasi Profil Pelajar Pancasila.pdf
aksi nyata sosialisasi  Profil Pelajar Pancasila.pdfaksi nyata sosialisasi  Profil Pelajar Pancasila.pdf
aksi nyata sosialisasi Profil Pelajar Pancasila.pdf
 
PELAKSANAAN + Link-Link MATERI Training_ "Effective INVENTORY & WAREHOUSING M...
PELAKSANAAN + Link-Link MATERI Training_ "Effective INVENTORY & WAREHOUSING M...PELAKSANAAN + Link-Link MATERI Training_ "Effective INVENTORY & WAREHOUSING M...
PELAKSANAAN + Link-Link MATERI Training_ "Effective INVENTORY & WAREHOUSING M...
 
Sosialisasi PPDB SulSel tahun 2024 di Sulawesi Selatan
Sosialisasi PPDB SulSel tahun 2024 di Sulawesi SelatanSosialisasi PPDB SulSel tahun 2024 di Sulawesi Selatan
Sosialisasi PPDB SulSel tahun 2024 di Sulawesi Selatan
 
MODUL P5 KEWIRAUSAHAAN SMAN 2 SLAWI 2023.pptx
MODUL P5 KEWIRAUSAHAAN SMAN 2 SLAWI 2023.pptxMODUL P5 KEWIRAUSAHAAN SMAN 2 SLAWI 2023.pptx
MODUL P5 KEWIRAUSAHAAN SMAN 2 SLAWI 2023.pptx
 
Modul Projek - Batik Ecoprint - Fase B.pdf
Modul Projek  - Batik Ecoprint - Fase B.pdfModul Projek  - Batik Ecoprint - Fase B.pdf
Modul Projek - Batik Ecoprint - Fase B.pdf
 
RENCANA + Link2 Materi Pelatihan/BimTek "PTK 007 Rev-5 Thn 2023 (PENGADAAN) &...
RENCANA + Link2 Materi Pelatihan/BimTek "PTK 007 Rev-5 Thn 2023 (PENGADAAN) &...RENCANA + Link2 Materi Pelatihan/BimTek "PTK 007 Rev-5 Thn 2023 (PENGADAAN) &...
RENCANA + Link2 Materi Pelatihan/BimTek "PTK 007 Rev-5 Thn 2023 (PENGADAAN) &...
 
Pendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptx
Pendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptxPendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptx
Pendidikan-Bahasa-Indonesia-di-SD MODUL 3 .pptx
 
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdfREFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
 
AKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMM
AKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMMAKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMM
AKSI NYATA BERBAGI PRAKTIK BAIK MELALUI PMM
 
Modul Ajar Bahasa Indonesia Kelas 4 Fase B
Modul Ajar Bahasa Indonesia Kelas 4 Fase BModul Ajar Bahasa Indonesia Kelas 4 Fase B
Modul Ajar Bahasa Indonesia Kelas 4 Fase B
 

Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metode k means clustering

  • 1. Jurnal Cybermatika | Vol. 2 No. 1 | Juni 2014 | Artikel 1 1 Aplikasi Text Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering Kestrilia Rega Prilianti Program Studi Teknik Informatika Universitas MaChung kestrilia@machung.ac.id Hendra Wijaya Program Studi Teknik Informatika Universitas MaChung 310910022@student.machung.ac.id ABSTRAK Pengetahuan tentang tren topik skripsi mahasiswa di sebuah Universitas pada umumnya maupun di program studi tertentu pada khususnya dapat membawa manfaat yang sangat positif bagi pengembangan kurikulum maupun perencanaan roadmap penelitian skala institusi. Namun, teknologi untuk dapat secara cepat mendapatkan pengetahuan secara menyeluruh dari penelitian-penelitian yang telah dilakukan mahasiswa melalui proyek skripsinya sangatlah terbatas jika dibandingkan dengan teknologi penyimpanan dokumen yang tersedia. Melalui penelitian ini dikembangkan sebuah aplikasi untuk menggali pengetahuan dari topik-topik skripsi mahasiswa yang biasanya terkumpul melalui repository digital perpustakaan Universitas. Proses tersebut dilakukan secara semi-otomatis dengan memanfaatkan teknologi text mining dan algoritma k-means clustering terhadap kumpulan dokumen digital abstrak dari buku skripsi. Uji coba dilakukan dengan melibatkan beberapa kepala progran studi dan dosen penanggungjawab skripsi. Dari uji coba tersebut diperoleh hasil yang baik yaitu 89% responden manyatakan tren topik skripsi yang dihasilkan oleh aplikasi telah sesuai dengan kondisi yang sesungguhnya. Kata Kunci Skripsi, Dokumen, Text Mining, K-Means Clustering. 1. PENDAHULUAN Semakin pesat dan murahnya perkembangan teknologi media penyimpanan digital telah mendorong terjadinya ledakan jumlah dokumen elektronik yang tersimpan dalam repository perpustakaan Universitas. Berbagai karya ilmiah dari sivitas akademika seperti skripsi, laporan penelitian, laporan kerja praktek dan lain sebagainya telah tersedia dalam versi digital. Namun, pada umumnya fenomena ini tidak disertai dengan pertumbuhan jumlah informasi atau pengetahuan yang dapat disarikan dari dokumen-dokumen elektronik tersebut (Gupta, 2011). Metode text mining merupakan pengembangan dari metode data mining yang dapat diterapkan untuk mengatasi masalah tersebut. Algoritma-algoritma dalam text mining dibuat untuk dapat mengenali data yang sifatnya semi terstruktur misalnya sinopsis, abstrak maupun isi dari dokumen-dokumen (Gupta & Lehal, 2009). Beberapa aplikasi text mining telah diterapkan di perpustakaan terutamanya untuk pencarian bahan pustaka berbasis teks (Yuwono, 2005; Santoso, 2012; Sari, 2012). Meskipun demikian belum banyak aplikasi dikembangkan untuk tujuan analisis. Sehingga sangatlah sulit untuk dapat dengan segera mengetahui topik penelitian populer pada tahun tertentu ataupun kecenderungan minat penelitian mahasiswa program studi tertentu misalnya. Oleh karena itu pada penelitian ini dikembangkan aplikasi berbasis text mining dengan menerapkan algoritma k-means clustering yang dapat membantu para pengambil kebijakan seperti kepala program studi, dekan ataupun kepala perpustakaan untuk dapat dengan cepat menganalisis tren topik skripsi pada program studi dan tahun tertentu yang dikehendaki. Adapun beberapa kemanfaatan strategis yang didapat melalui analisis tentang tren topik skripsi adalah: (1) Sebagai petunjuk untuk menyusun rencana penelitian jangka panjang Universitas; (2) Sebagai bahan evaluasi untuk menentukan strategi pengembangan teknologi tepat guna yang dapat dipatenkan; (3) Sebagai bahan kajian untuk pengembangan kurikulum. Pembahasan pada artikel ini dimulai dengan pendahuluan yang disusul dengan kajian yang terkait dengan konsep dasar dari metode yang digunakan. Berikutnya adalah pemaparan desain dari sistem yang dibangun yang kemudian didiskusikan pada bagian hasil dan pembahasan dan akhirnya ditutup dengan kesimpulan. 2. KAJIAN TERKAIT 2.1 Text Mining Text mining adalah satu langkah dari analisis teks yang dilakukan secara otomatis oleh komputer untuk menggali informasi yang berkualitas dari suatu rangkaian teks yang terangkum dalam sebuah dokumen (Han & Kamber, 2006). Prosedur utama dalam metode ini terkait dengan menemukan kata-kata yang dapat mewakili isi dari dokumen untuk selanjutnya dilakukan analisis keterhubungan antar dokumen dengan menggunakan metode statistik tertentu seperti analisis kelompok, klasifikasi dan asosiasi. Tahapan dalam text mining secara umum adalah tokenizing, filtering, stemming, tagging, dan analyzing (Michael, 2004). Tokenizing merupakan tahapan untuk memisah-misahkan setiap kata (token) pada dokumen input. Filtering merupakan proses seleksi terhadap kata-kata yang dihasilkan dari proses tokenizing, dapat dilakukan dengan algoritma stop list maupun word list. Algoritma stop list akan membuang kata-kata yang tidak penting seperti kata ganti, kata keterangan, kata sambung, kata depan dan kata sandang. Sebaliknya, algoritma word list akan menyimpan kata-kata yang penting. Proses stemming kemudian dilakukan untuk mencari kata dasar dari setiap kata yang telah lolos proses filtering. Terdapat 4 varian algoritma untuk proses stemming ini, yaitu: (1) Table lookup, seluruh kata dasar disimpan dalam memori untuk selanjutnya dijadikan acuan dalam pemeriksaan dokumen input. Kelemahan metode ini adalah membutuhkan ruang penyimpanan yang besar; (2) Successor variety, setiap kata dalam dokumen input yang akan diperiksa dipecah secara bertahap menjadi awalan-awalan (prefiks). Untuk setiap awalan kemudian dicari kemungkinan bentuk lainnya (variasinya) didalam corpus, pencarian dihentikan jika jumlah temuan telah melampaui nilai batas tertentu; (3) N-gram, pemeriksaan setiap kata dalam dokumen input dilakukan dengan menerapkan
  • 2. 2 Kestrilia Rega Prilianti, Hendra Wijaya konsep clustering. Setiap kata dicari nilai kedekatannya dengan kata-kata yang lain dan disimpan dalam sebuah matriks. Matriks tersebut kemudian dijadikan acuan untuk melakukan pengelompokan kata-kata; (4) Affix removal, untuk setiap kata pada dokumen input dihilangkan awalan dan akhirannya dengan mengacu kepada action rules. Pada dokumen yang berbahasa Indonesia, proses filtering secara sederhana dilakukan dengan menghilangkan awalan dan akhiran dari setiap kata. Jika dokumen berbahasa Inggris, maka diperlukan proses lanjutan yang disebut sebagai tagging. Proses tagging dilakukan untuk mencari bentuk awal dari setiap kata lampau. Setelah semua kata penting berhasil dikoleksi dari rangkaian proses tersebut, maka tahap berikutnya adalah analyzing yaitu menentukan keterhubungan antar dokumen dengan mengamati frekuensi kemunculan tiap kata yang ada pada tiap dokumen. 2.2 K-Means Clustering K-means clustering merupakan metode yang populer digunakan untuk mendapatkan dekripsi dari sekumpulan data dengan cara mengungkapkan kecenderungan setiap individu data untuk berkelompok dengan individu-individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan pada kemiripan karakteristik individu-individu data yang ada. Ide dasar dari teknik ini adalah menemukan pusat dari setiap kelompok data yang mungkin ada untuk kemudian mengelompokkan setiap data individul kedalam salah satu dari kelompok-kelompok tersebut berdasarkan jaraknya (Turban dkk, 2005). Semakin dekat jarak data individual, sebut saja X1 dengan salah satu pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1 tersebut merupakan anggota dari kelompok yang berpusat di A dan semakin jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya (ilustrasi dapat dilihat pada gambar 1). Secara kuantitatif hal ini ditunjukkan melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang paling kecil jika dibandingankan dengan d1B dan d1C. Gambar 1. Ilustrasi penentuan keanggotaan kelompok berdasarkan jarak Untuk menemukan pusat yang paling sesuai sebagai upaya merepresentasikan posisi dari sebuah kelompok data terhadap kelompok data yang lainnya dilakukan sebuah proses perulangan. Proses perulangan ini dimulai dengan menentukan secara sembarang posisi dari pusat-pusat kelompok yang telah ditetapkan. Selanjutnya ditentukan keanggotaan setiap individu data berdasarkan jarak terpendek terhadap pusat-pusat tersebut. Pada iterasi kedua dan seterusnya dilakukan pembaharuan posisi pusat untuk semua kelompok. Selanjutnya dilakukan pembaharuan keanggotaan untuk setiap kelompok. Sebuah data yang semula adalah anggota kelompok C misalnya, dapat menjadi anggota kelompok B pada akhirnya. Proses perulangan ini akan berhenti setelah tidak terjadi lagi perubahan anggota kelompok, yang artinya jarak dari setiap anggota kelompok terhadap pusatnya masing-masing telah mencapai minimal dan jarak antara kelompok yang satu dengan kelompok yang lainnya telah mencapai maksimal. Pembaharuan pusat kelompok dilakukan dengan menghitung nilai rata-rata yang baru setelah adanya penambahan ataupun pengurangan anggota kelompok dari proses sebelumnya. 3. DESAIN SISTEM Desain dari sistem automasi penentuan tren topik skripsi dapat dilihat pada gambar 2. Desain tersebut meliputi pemilihan dokumen input, proses awal, pangkalan data dokumen, penemuan pola dengan algoritma k-means clustering dan bentuk output dari sistem. Gambar 2. Bagan desain sistem automasi penentuan tren topik skripsi 3.1 Dokumen Input Input dari sistem adalah bagian abstrak dari buku skripsi. Tipe file yang digunakan dapat berupa .txt, .doc maupun .pdf. 3.2 Proses Awal Proses awal meliputi tahapan tokenizing, filtering, stemming dan tagging. Algoritma yang dipilih untuk tahap filtering adalah stop list. Algoritma word list tidak dipilih mengingat tujuan dari aplikasi ini adalah untuk mengungkapkan kecenderungan topik dari berbagai macam skripsi tanpa memberi batasan apapun pada isi dari skripsinya. Dengan menerapkan word list akan banyak informasi baru yang tidak dapat direkam oleh sistem. Pada tahap filtering, atas pertimbangan efisiensi memori dan kecepatan eksekusi dipilihlah algoritma porter yang berbasikan pada konsep affix removal. Seluruh kata yang telah lolos proses filtering, stemming dan tagging selanjutnya disebut sebagai term. Untuk setiap term, dihitung kemunculannya pada setiap dokumen input dan hasilnya disimpan dalam pangkalan data dokumen untuk kemudian digunakan pada proses penemuan pola. Dengan demikian hasil dari tahap proses awal ini adalah sebuah matriks dua dimensi yang memuat informasi distribusi term- term dalam setiap dokumen yang menjadi target analisis. 3.3 Pangkalan Data Dokumen Gambar 3 menunjukkan bentuk dari matriks distribusi term yang diperoleh dari tahap proses awal. Setiap sel pada matriks berisi frekuensi kemunculan term (direpresentasikan sebagai baris) pada dokumen tertentu (direpresentasikan sebagai kolom). Untuk efisiensi memori dan akurasi penemuan pola,
  • 3. Jurnal Cybermatika | Vol. 2 No. 1 | Juni 2014 | Artikel 1 3 ya tidak Selesai Mulai Jumlah kelompok Pusat kelompok Jarak setiap dokumen ke pusat kelompok Pengelompokan dokumen berdasarkan jarak terdekat Ada dokumen berpindah kelompok ? selanjutnya ditetapkan batasan (threshold) jumlah term yang akan dipertahankan di dalam matriks. Semua term yang frekuensi kemunculannya kurang dari 6 kali di semua dokumen yang diolah dianggap tidak representatif. Term-term tersebut selanjutnya dikeluarkan dari koleksi term yang ada. Dengan demikian hanya term-term yang berpotensi kuat untuk mengkarakterisasi kelompok saja yang akan dijadikan bahan pada tahap selanjutnya yaitu penemuan pola. Gambar 3. Cuplikan matriks distribusi term hasil dari proses awal seluruh dokumen 3.4 Penemuan Pola Dalam upaya mendapatkan kecenderungan topik skripsi, maka salah satu cara yang dapat ditempuh adalah dengan melakukan eksplorasi terhadap kecenderungan kemiripan dari tiap topik skripsi terhadap topik-topik skripsi lainnya. Kecenderungan semacam ini dapat dilihat dengan melakukan pemetaan kedekatan dari sebuah topik skripsi dengan topik-topik skripsi lainnya sehingga pada akhirnya akan terungkap kelompok- kelompok topik skripsi. Analisis kelompok adalah teknik yang paling sesuai untuk mendapatkan kelompok-kelompok besar dari topik-topik skripsi yang ada. Algoritma k-means clustering kemudian digunakan dalam penelitian ini untuk memfasilitasi analisis kelompok tersebut. Algoritma k-means clustering dimulai dengan penentuan jumlah kelompok (cluster) yang akan dibentuk (lihat gambar 4). Tahap selanjutnya adalah penentuan pusat dari setiap kelompok yang akan dibentuk. Untuk pertama kalinya pusat kelompok ini ditentukan secara acak. Namun, untuk mengurangi jumlah iterasi dan sekaligus mendapatkan hasil yang konvergen, maka dapat dilakukan modifikasi pada teknik inisialisasi pusat kelompok tersebut. Dengan menggunakan persamaan(1) penentuan pusat kelompok untuk yang pertama kalinya tidaklah sepenuhnya acak melainkan memperhatikan distribusi kemunculan term yang ada. (1) nr dan nt berturut-turut adalah frekuensi terendah dan tertinggi yang terdapat pada matriks distribusi kemunculan term. R(1,2) adalah bilangan acak yang nilainya terletak diantara 1 sampai dengan 2 dan R.ND adalah sembarang bilangan acak. Selanjutnya dihitung jarak dari semua dokumen yang ada ke setiap pusat kelompok. Dokumen akan dikelompokkan ke pusat yang terdekat dengan menggunakan formula cosine similarity sebagaimana pada persamaan(2), d1 adalah vektor yang merepresentasikan kemunculan term pada dokumen 1 dan d2 adalah vektor yang merepresentasikan kemunculan term pada dokumen 2. (2) Untuk setiap kelompok yang terbentuk, pusat disesuaikan. Pusat yang baru diperoleh dengan menghitung rata-rata frekuensi setiap term dari seluruh dokumen yang ada pada kelompok tersebut. Proses berulang terus sampai tidak satupun dokumen berpindah keanggotaan. Gambar 4. Diagram alir proses k-means clustering Untuk melakukan evaluasi terhadap hasil pengelompokan, maka dilakukan pengukuran purity. Purity menghitung rasio antara jumlah dokumen yang pengelompokannya benar dengan total dokumen yang dianalisis. Nilainya berkisar dari 0 sampai dengan 1. Semakin mendekati 1 mengindikasikan bahwa semakin banyak dokumen yang telah sesuai atau benar pengelompokannya. Sebaliknya, semakin mendekati 0 menunjukkan semakin sedikit dokumen yang benar pengelompokannya. Nilai purity diukur dengan menggunakan persamaan(3), Ω adalah himpunan dari dokumen-dokumen ωk sedangkan C adalah himpunan dari kelompok-kelompok cj. (3) 3.5 Output Hasil pengelompokan dari tahap k-means clustering selanjutnya dilaporkan dengan menggunakan teknik pareto. Untuk setiap kelompok dibuat satu diagram pareto. Konsep dari diagram ini adalah melaporkan urutan kemunculan term secara menurun. Artinya term yang paling banyak muncul pada suatu kelompok tertentu akan diletakkan paling awal. Untuk mempermudah penarikan kesimpulan, jumlah term yang dimunculkan dalam diagram pareto dibatasi sesuai dengan kehendak pengguna. Pada gambar 5. ditampilkan contoh diagram pareto untuk sebuah kelompok yang term-nya dibatasi 5 saja. Selain laporan kemunculan term, ditampilkan juga data statistik dari proses k-
  • 4. 4 Kestrilia Rega Prilianti, Hendra Wijaya means clustering seperti jumlah dokumen dalam tiap kelompok dan banyak iterasi yang diperlukan. Gambar 5. Contoh diagram pareto untuk sebuah kelompok 4. HASIL DAN PEMBAHASAN 4.1 Perangkat Lunak Untuk memfasilitasi pengguna berinteraksi dengan sistem automasi penentuan tren topik skripsi ini, dikembangkan sebuah antarmuka berupa aplikasi desktop yang dibangun dengan VB.Net. Secara umum fasilitas yang terdapat di dalam aplikasi ini dapat dilihat pada Gambar 6. Gambar 6. Diagram fasilitas sistem automasi penentuan tren topik skripsi Pertama kali pengguna akan berinteraksi dengan form login (Gambar 7). Terdapat dua aturan pengguna yaitu sebagai administrator atau sebagai pengguna biasa (user). Administrator mempunyai hak untuk melakukan pengaturan hak akses pengguna biasa, mengunggah data kedalam pengkalan data, serta melakukan pengaturan untuk proses filtering dan clustering. Gambar 7. Tampilan awal aplikasi Gambar 8 menunjukkan halaman awal (home) aplikasi bagi administrator untuk dapat memulai pengaturan yang diperlukan. Melalui halaman tersebut administrator dapat menambahkan menu tahun masuk dari penulis skripsi (NEW ANGKATAN) dan juga jurusan atau program studinya (NEW JURUSAN). Fungsinya adalah untuk mempermudah pengguna menentukan batasan-batasan pada analisis tren yang akan dilakukannya. Misalkan ingin dilihat tren topik skripsi di program studi Teknik Informatika khusus mahasiswa angkatan 2007 saja, maka pengguna cukup memberi centang pada angkatan 2007 dan program studi Teknik Informatika. Melalui halaman ini pula administrator dapat menambahkan koleksi abstrak skripsi (INPUT ABSTRAK) kedalam pangkalan data yang akan menjadi bahan untuk analisis tren nantinya. Gambar 8. Tampilan halaman awal saat login sebagai administrator Pengaturan proses filtering dilakukan melalui sub menu StopWord (lihat gambar 9). Melalui halaman tersebut administrator dapat menambahkan maupun mengurangi kata- kata yang dijadikan stop list pada proses filtering dokumen. Proses clustering dilakukan dengan menekan tombol ANALISIS pada halaman awal. Pengguna kemudian akan diarahkan menuju halaman cluster sebagaimana yang dapat dilihat pada gambar 10. Gambar 9. Tampilan halaman untuk pengaturan stop list Beberapa pengaturan yang dapat dilakukan adalah penentuan jumlah kelompok yang akan dibentuk dan nilai ambang pergeseran posisi pusat kelompok untuk menghentikan iterasi. Hasil proses clustering akan muncul di halaman yang sama dalam bentuk grafik batang. Statistik deskriptif yang ditampilkan untuk setiap kelompok adalah term terbanyak, jumlah dokumen, susunan lima term terbanyak dan jumlah iterasi. Form Login Form Stopword Form Cluster Form User Form Admin Form Detail Term Form Terbaik
  • 5. Jurnal Cybermatika | Vol. 2 No. 1 | Juni 2014 | Artikel 1 5 Gambar 10. Tampilan halaman untuk proses clustering Untuk mempermudah interpretasi, di akhir proses clustering ditampilkan halaman konklusi sebagaimana yang tampak pada Gambar 11. Setelah pengguna melihat informasi pada halaman konklusi dan dirasa kelompok yang dibentuk tidak representatif, maka proses clustering dapat diulangi kembali. Untuk kembali ke halaman cluster pengguna cukup menekan tombol BACK pada halaman konklusi. Gambar 11. Tampilan halaman konklusi Sampai dengan tahapan ini proses automasi dapat dikatakan berhenti, berikutnya diperlukan justifikasi dari pengguna untuk mempertimbangkan apakah konklusi yang diberikan oleh aplikasi telah cukup layak dan dapat digunakan untuk pengambilan kebijakan maupun analisis lanjutan. Oleh karena itu dapat dikatakan proses penentuan tren topik skripsi tidak sepenuhnya berjalan otomatis, namun semi-otomatis karena pada tahap akhir masih diperlukan justifikasi dari pengguna untuk menetapkan konklusinya. 4.2 Uji Coba Uji coba pada aplikasi dilakukan baik dalam hal kinerja algoritma k-means clustering dalam melakukan pengelompokan, kemudahan dan kecepatan penggunaan aplikasi serata keakuratan konklusi yang diberikan. Uji coba dilakukan di Universitas Ma Chung. Bahan analisis adalah seluruh skripsi yang tersimpan di repository digital perpustakaan Universitas. Responden adalah beberapa kepala program studi dan dosen-dosen yang bertanggungjawab untuk skripsi di program studinya masing-masing. Untuk memantau kinerja algoritma k-means clustering dalam melakukan pengelompokan terhadap dokumen-dokumen skripsi yang ada, telah dilakukan uji coba terhadap dokumen skripsi dari 6 program studi yang ada di Universitas Ma Chung. Hasilnya diperoleh rata-rata nilai purity sebesar 0.76 yang artinya sekitar 76% dokumen yang diolah telah berhasil dikelompokkan dengan benar oleh sistem. Ringkasan dari hasil uji coba tersebut dapat dilihat pada Tabel 1. Tabel 1. Ringkasan nilai purity dari uji coba kinerja algoritma k-means clustering Gambar 12 menunjukkan pendapat responden terhadap aspek kecepatan dan kemudahan penggunaan. Dari kedua aspek tersebut lebih dari 80% responden menyatakan baik. Dengan kata lain selama menggunakan aplikasi, pengguna merasa proses untuk menghasilkan konklusi relatif cepat dan penataan feature pada halaman-halaman aplikasi sangat mudah dipahami sehingga tidak diperlukan bantuan lebih lanjut dari pengembang aplikasi untuk memahaminya. Untuk uji coba aspek akurasi konklusi, responden diminta menilai apakah rekomendasi tren topik skripsi yang dihasilkan oleh aplikasi telah sesuai dengan kondisi yang sebenarnya ditemui di Universitas. Metode yang diterapkan adalah responden diminta membandingkan tren topik skripsi berdasarkan pengalaman dan pemantauannya selama bergabung dengan Universitas Ma Chung dengan tren topik skripsi yang diperoleh melalui aplikasi. Sekitar 89% responden menyatakan tren topik skripsi yang diperoleh melalui aplikasi sesuai dengan tren topik skripsi berdasarkan pengalaman dan pemantauannya. Gambar 12. Grafik hasil uji coba aspek kecepatan dan kemudahan penggunaan Beberapa masukan lain dari responden adalah hendaknya performa dari algoritma yang digunakan ditingkatkan sehingga aplikasi dapat secara otomatis mengetahui apakah dokumen input berbahasa Inggris atau Indonesia. Untuk saat ini, informasi tersebut harus diberikan oleh pengguna saat mengunggah dokumen kedalam pangkalan data yang terhubung dengan aplikasi. Adapun tujuan menginformasikan bahasa yang digunakan adalah untuk kepentingan pemilihan kelompok stop list yang sesuai dan penentuan algoritma yang akan diterapkan saat proses filtering dan tagging. Program Studi Asal Dokumen Purity Teknik Informatika 0.83 Sistem Informasi 0.89 Teknik Industri 0.77 Manajemen 0.64 Akuntansi 0.82 Bahasa Inggris 0.66 Rata-Rata 0.76
  • 6. 6 Kestrilia Rega Prilianti, Hendra Wijaya 5. KESIMPULAN Proses automasi penentuan tren topik skripsi dapat dilakukan dengan menerapkan metode text mining. Dengan metode tersebut analisis tren topik skripsi dapat dilakukan dengan cepat karena meminimalkan keterlibatan dari pengguna. Melalui penelitian ini ditunjukkan bahwa algoritma k-means clustering yang digunakan dalam proses penemuan pola tebukti dapat membantu proses pengelompokan berbagai topik skripsi yang ada sehingga diperoleh informasi yang bermakna dalam menentukan tren penelitian Universitas dari tahun ke tahun. Uji coba terhadap aplikasi yang dikembangkan juga menunjukkan hasil yang positif baik dalam aspek kinerja algoritma k-means clustering, kemudahan dan kecepatan penggunaan aplikasi maupun akurasi konklusi. 6. REFERENSI Gupta, N., “Text Mining for Information Retreival,” Ph.D. thesis, Jaypee Institute of Information Technology University, India, May 2011. Gupta, V., Lehal, G.S., “A Survey of Text Mining Techniques and Application,” Journal of Emerging Technologies in Web Intelligence, Vol. 1, pp. 60-75, 2009. Han, J., Kamber, M., Data Mining Concept and Technique, 2nd Ed, Elsevier, 2006. Michael, B., “Automatic Discovery of Similar Words,” Survey of Text Mining: Clustering, Classification and Retrieval, LLC, pp. 24-43, 2004. Santoso R., “Aplikasi Katalog Online untuk Pencarian Konten Buku dengan Metode Text mining pada Perpustakaan STIKOM Surabaya,” Skripsi, STIKOM, Surabaya, 2012. Sari, O.Y., “Aplikasi Text Mining untuk Pencarian Buku Menggunakan Metode Association Rules Analysis Guna Meningkatkan Pelayanan Perpustakaan pada SMP Negeri 1 Plaosan Magetan,” Skripsi, Universitas Muhammadiyah Ponorogo, 2012. Turban, E., Aronson, J.E., Liang, T.P., Introduction to Data Mining, Pearson, 2005. Yuwono, F., “Pembuatan Aplikasi Text Mining untuk Pencarian Buku Koleksi Skripsi dengan Menggunakan Association Rules Analysis,” Skripsi, Universitas Kristen Petra, Surabaya, 2005.