Ringkasan dokumen tersebut adalah:
1. Penelitian ini membandingkan dua algoritma stemming, yaitu algoritma Arifin-Setiono dan algoritma Enhanced Confix Stripping, untuk mendeteksi plagiatisme dokumen teks.
2. Hasil pengujian menunjukkan bahwa algoritma Enhanced Confix Stripping menghasilkan nilai similaritas rata-rata yang lebih tinggi dibandingkan algoritma Arifin-Setiono, meskipun membutuhkan waktu yang lebih lama.
1. 1
PENGEMBANGAN MODEL APLIKASI PENGUKURAN TINGKAT KEMIRIPAN
TEKS DOKUMEN DENGAN MEMBANDINGKAN ALGORITMA ARIFIN-
SETIONO DAN ALGORITMA ENHANCED CONFIX STRIPPING
Alvin Adama Putra
Teknik Informatika, Fakultas Ilmu Komputer
Universitas Pembangunan Nasional “Veteran” Jakarta
Jl. RS. Fatmawati No. 1, Jakarta Selatan 12450 – Jakarta, Indonesia
Email : poetraalvinz@gmail.com
Abstract
This study was conducted to detect plagiarism of text documents to find the value of
similarity. The system uses a combination of algorithms Arifin-Setiono and enhanced confix
stripping stemmer with Jaro-Winkler algorithm Distance to search similarity value. The
technology is growing with the times already more modern, and with easy access to information
to a broad network, increase the odds of a person to commit acts of plagiarism. Distance Jaro-
Winkler algorithm that will measure the similarity between the documents, the higher the value
of Jaro-Winkler Distance hence the higher the degree of similarity which means that indicates
the document indicated as plagiarism. By using Arifin-Setiono stemming algorithm produces a
similarity score average 62.04% and took approximately 21.66 seconds. By using algorithms
stemming enhanced confix stripping produces an average similarity value 66.06% and took
approximately 72.62 seconds. Arifin-Setiono algorithm had a very fast compared Enhanced
algorithms stemming confix stripping but the accuracy is lower.
Keyword : Enhanced Confix Stripping, Stemming, Arifin-Setiono, Jaro-Winkler Distance,
Plagiarism.
PENDAHULUAN
Perkembangan teknologi informasi
yang semakin berkembang pesat, membuat
proses pembuatan karya tulis semakin
mudah dan cepat. Hal tersebut tidak hanya
membawa dampak positif bagi kemajuan
teknologi, tetapi juga membawa dampak
negatif yang hampir tidak dapat dihindari
yaitu plagiarisme.
Untuk mempermudah penulisan
laporan skripsi ini dan agar lebih terarah
dan berjalan dengan baik, maka dibuat
suatu batasan masalah, adapun ruang
lingkup permasalahan yang akan dibahas
dalam penulisan laporan skripsi, yaitu :
a. Data yang di olah memiliki format .pdf
(unsecured).
b. Aplikasi yang dikembangkan
menggunakan algoritma stemming
Enhanced Confix Stripping dan
algoritma stemming arifin setiono.
2. 2
c. Pemrosesan yang dilakukan hanya data
bertipe teks (string).
d. Teks dokumen yang di proses adalah
teks bahasa indonesia(d). Kamus yang
digunakan adalah kamus kata-dasar
bahasa indonesia dengan banyak kata
28.530(e).
Adapun tujuan dari penelitian ini
adalah :
a. Membandingkan algoritma stemming
Enhanced Confix Stripping dengan
algoritma Arifin-Setiono untuk
mengetahui nilai similaritas yang lebih
baik.
b. Mengetahui persentase similaritas suatu
teks dokumen untuk deteksi plagiarisme.
LANDASAN TEORI
Stemming merupakan salah satu
proses dari pembuatan sistem temu
kembali, dimana proses stemming akan
dilakukan setelah proses filtering. Proses
stemming ini membuat term yang ada pada
tabel filtering menjadi kata dasar, dengan
menghilangkan semua imbuhan yang ada
pada kata tersebut ( imbuhan meng-, me-,
kan-, di- , i, pe, peng-, a-, dll.). Berdasarkan
penelitian Ade Chania pada tahun 2014
yang juga bersumber dari penelitian
terdahulu I Putu Mahendra pada tahun 2008
algoritma ini dapat mereduksi jumlah term
menjadi lebih baik.
Algoritma stemming Arifin Setiono
ini didahului dengan pembacaan tiap kata
dari file sampel (Zainal, Arifin & Novan,
Setiono : 2000, hlm 2) . Sehingga input dari
algoritma ini adalah sebuah kata yang
kemudian dilakukan pemeriksaan semua
kemungkinan bentuk kata. Setiap kata
diasumsikan memiliki 2 Awalan (prefiks)
dan 3 Akhiran (sufiks). Sehingga
bentuknya menjadi : Prefiks 1 + Prefiks 2 +
Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks
1 Seandainya kata tersebut tidak memiliki
imbuhan sebanyak imbuhan di atas, maka
imbuhan yang kosong diberi tanda x untuk
prefiks dan diberi tanda xx untuk sufiks(a).
Pemotongan dilakukan secara
berurutan sebagai berikut:
AW : Awalan
AK : Akhiran
KD : Kata Dasar
P : Prefix
S : Suffix
a. AW I, hasilnya disimpan pada P1
b. AW II, hasilnya disimpan pada P2
c. AK I, hasilnya disimpan pada S1
d. AK II, hasilnya disimpan pada S2
e. AK III, hasilnya disimpan pada S3
Pada setiap tahap pemotongan di atas
diikuti dengan pemeriksaan di kamus
apakah hasil pemotongan itu sudah berada
dalam bentuk dasar(b).
Berdasarkan penelitian Sonasa
Rinusantoro pada tahun 2014 yang juga
bersumber pada penelitian terdahulu,
Kurniawati Anna pada tahun 2010,
algoritma Jaro-Winkler distance yaitu
3. 3
sebuah algoritma untuk mengukur
kesamaan antara dua string, biasanya
algoritma ini digunakan di dalam
pendeteksian duplikat. Semakin tinggi Jaro-
Winkler distance untuk dua string maka
semakin mirip dengan string tersebut. Nilai
normalnya ialah 0 menandakan tidak ada
kesamaan dan 1 yang menandakan adanya
kesamaan.
Dasar dari algoritma ini memiliki tiga
bagian:
Menghitung panjang string(a).
Menemukan jumlah karakter yang sama di
dalam dua string(b).
Menemukan jumlah transposisi(c).
Pada algoritma Jaro digunakan rumus
untuk menghitung jarak (dj) antara dua
string yaitu s1 dan s2 adalah :
Keterangan :
m = jumlah karakter yang sama persis.
|s1| = panjang string pertama.
|s2| = panjang string kedua.
t = jumlah transposisi.
Jarak teoritis dua buah karakter yang
dikatakan sama dapat dibenarkan jika tidak
melebihi :
Jika mengacu pada nilai yang dihasilkan
algoritma Jaro-winkler distance maka nilai
jarak maksimalnya adalah 1, nilai ini
menandakan kesamaan string yang
dibandingkan mencapai seratus persen atau
sama persis.
PEMBAHASAN
Mudahnya mengakses informasi ke
media online seperti internet membuat
sebagian akademisi menggunakan cara
tersebut untuk melakukan tindakan plagiat.
Tidak diragukan lagi para civitas akademisi
melakukan tindakan plagiat dengan meng-
copy paste informasi yang didapat tanpa
mencantumkan sumbernya. Dengan adanya
sistem deteksi kemiripan teks dokumen
menggunakan algoritma Jaro-Winkler
Distance dapat meneliti kesamaan
informasi publikasi berupa artikel dengan
artikel publikasi lainnya dengan persentase
similaritas. Dibutuhkan form desain
aplikasi yang membantu peneliti dalam
pembuatan aplikasi.
Desain Tampilan Home
Desain tampilan antarmuka pada saat
pertama menjalankan aplikasi. Pada desain
tampillan home terdapat beberapa menu
seperti Beranda, Scan , dan Tentang.
Berikut adalah gambar 1 rancangan
tampilan home.
4. 4
Gambar 1 Desain Tampilan Home
Desain Tampilan Scan
Desain ini adalah tampilan input
teks dokumen untuk mencari nilai
similaritas dengan stemming yang ingin
digunakan. Pada menu scan terdapat 2
pilihan algoritma stemming, yaitu algoritma
enhanced confix stripping dan algoritma
jaro-winkler distance yang bertujuan untuk
melihat perbandingan algoritma stemming
yang lebih baik. Berikut adalah gambar 2
rancangan tampilan scan.
Gambar 2 Desain Tampilan Scan
Desain Output Sistem
Desain ini merupakan hasil keluaran
pada sistem yang dijalankan. Hasil tersebut
berupa nilai persentase kemiripan dokumen
berdasarkan perhitungan jaro-winkler
distance. Berikut adalah gambar 3
rancangan output aplikasi.
Gambar 3 Desain Output
Desain Tampilan Tentang
Desain ini berisi 2 sub menu yaitu,
Plagiarisme dan Profil. Plagiarisme
berisikan tentang informasi mengenai
persentase untuk mengukur tindakan
plagiat yang telah dilakukan. Profil
berisikan informasi mengenai peneliti.
Berikut adalah gambar 4 rancangan
tampilan tentang.
Gambar 4 Desain Tampilan Tentang
5. 5
Tahap Implementasi Sistem
Berdasarkan perancangan desain
aplikasi yang telah dirancang sebelumnya
maka pada tahap ini akan dilakukan
implementasi tampilan.
Implementasi Tampilan Home
Tampilan home merupakan tampilan
pertama kali saat menjalankan aplikasi.
Pada tampilan home berisi beranda untuk
kembali ke tampilan pertama. Lalu ada
menu scan untuk memilih algoritma
stemming yang ingin digunakan. kemudian
ada menu tentang yang berisi sedikit
pengetahuan tentang plagiarisme dan profil
peneliti. Tampilan home dapat dilihat
seperti pada gambar 5
Gambar 5 Tampilan Home
Implementasi Tampilan Scan
Pada menu scan ini bertujuan untuk
mengupload file teks dokumen yang akan
dicari nilai similaritasnya. Teks dokumen
yang dapat di proses hanyalah teks yang
berformat .PDF seperti yang tertera pada
ruang lingkup. Tampilan halaman scan
dapat dilihat seperti pada gambar 6
Gambar 6 Tampilan Scan
Implementasi Output Sistem
Pada output sistem terdapat jumlah
banyak kata dari teks dokumen yang
diujikan, transpose kata, jumlah kata sama,
serta nilai jaro-winkler distance sebagai
hasil untuk mendapat nilai kemiripan teks
dokumen. Output sistem dapat dilihat
seperti pada gambar 7
Gambar 7 Output Sistem
Implementasi Tampilan Tentang
Pada menu tentang yang bertujuan
untuk memberi informasi terkait
6. 6
plagiarisme. Besar tidaknya tindakan
plagiarisme dalam bentuk persentasenya
menurut sastroasmoro sudigdo. Juga berisi
informasi data diri peneliti. Tampilan
tentang dapat dilihat seperti pada gambar 8
Gambar 8 Tampilan Tentang
Hasil Uji Coba dan Pembahasan Sistem
Pengujian ini menerapkan algoritma
jaro-winkler distance untuk menghitung
nilai similaritas dengan mengkombinasikan
dengan beberapa algoritma stemming. Data
yang akan diuji berupa jurnal yang
berformat .PDF dan dibagi menjadi
kedalam 2 tabel. Tabel yang pertama
berisikan daftar data jurnal yang akan di uji.
Dan tabel yang kedua berisikan daftar jurnal
sebagai pembanding terhadap data yang di
uji. Setiap data uji akan dilakukan
percobaan terhadap data pembanding. Data
tersebut di lampirkan pada tabel 1 dan tabel
2.
Tabel 1 Daftar Data Uji
No Judul Jurnal Ukuran
1 Analisa Psnr Pada Teknik
Steganografi Menggunakan
Spread Spectrum
296kb
2 Implementasi Steganografi
Menggunakan Metode Least
Significant Bit (Lsb) Pada
Mobile Phone Berbasis Symbian
Os
453kb
Tabel 2 Daftar Data Pembanding
No Judul Jurnal Ukuran
A Implementasi Steganografi Pesan
Text Ke Dalam File Sound
(.Wav) Dengan Modifikasi Jarak
Byte Pada Algoritma Least
Significant Bit (Lsb)
534kb
B Perancangan Perangkat Lunak
Steganografi Audio Mp3
Menggunakan Metode Least
Significant Bit (Lsb) Dengan
Visual Basic 6.0
456kb
C Implementasi Sistem Keamanan
Data Dengan Menggunakan
Teknik Steganografi End Of File
(Eof) Dan Rabin Public Key
Cryptosystem
1051kb
Berikut adalah hasil uji coba yang
dapat dilihat pada gambar 9 :
Gambar 9 Hasil Uji Coba
Pembahasan Hasil Uji Coba
Setelah melakukan total 12 kali
percobaan terhadap data yang diuji, 6 kali
menggunakan algoritma stemming arifin
7. 7
setiono, dan 6 kali menggunakan algoritma
stemming enhanced confix stripping. Dapat
diketahui dengan menggunakan algoritma
stemming arifin setiono menghasilkan nilai
similaritas dengan rata – rata 62.04% dan
membutuhkan waktu sekitar 21.66 detik.
Jika dengan menggunakan algoritma
stemming enhanced confix stripping
menghasilkan nilai similaritas dengan rata –
rata 66.06% dan membutuhkan waktu
sekitar 72.62 detik. Terjadi peningkatan
nilai similaritas saat menggunakan
algoritma stemming enhanced confix
stripping dan juga membutuhkan waktu
proses yang lebih lama. Terlihat dari segi
waktu algoritma stemming arifin setiono
memiliki waktu yang lebih cepat dalam
pemrosesan dengan selisih waktu 50.9
detik. Berikut adalah gambar grafik
terhadap data yang telah diuji :
Gambar 10 Grafik Perbandingan
KESIMPULAN
Kesimpulan yang bisa diambil dari
penelitian ini adalah sebagai berikut :
a. Dari data yang telah di uji, sistem ini
dapat mendeteksi suatu tindakan plagiat
teks dokumen dengan menghasilkan
nilai persentase similaritas.
b. Dari hasil uji coba yang telah dilakukan
algoritma stemming arifin setiono
memiliki waktu yang lebih cepat
dibandingkan algoritma stemming
enhanced confix stripping dengan selisih
waktu 50.9 detik.
c. Stemming dengan menggunakan
Algoritma Enhanced Confix Stripping
menghasilkan nilai rata-rata similaritas
yang lebih tinggi jika dibandingkan
dengan Algoritma Arifin-Setiono.
Saran yang dapat diberikan oleh
penulis pada penelitian ini adalah sebagai
berikut :
a. Mengembangkan Algoritma Enhanced
Confix Stripping dengan menambahkan
kamus sinonim untuk menambahkan
tingkat akurasi stemming.
b. Pengembangan lebih lanjut untuk
deteksi kemiripan teks dokumen dilihat
dari makna yang terkandung dalam
dokumen tersebut.
DAFTAR PUSTAKA
Chania, Ade. 2014. Pendeteksian
Kesamaan Pada Dokumen Teks
Menggunakan Kombinasi Algoritma
62.04
21.66
66.06
72.62
0.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
80.00
Similaritas Waktu
Grafik Perbandingan
AS ECS
8. 8
Enhanced Confix Stripping Dan
Algoritma Winnowing. Skripsi.
Universitas Sumatera Utara.
Haristia Sari, D. 2013. Penerapan Metode
Porter Stemmer Untuk Penerapan
Sistem Temu Kembali Informasi
Artikel Berbahasa Inggris. Skripsi.
Universitas Pembangunan Nasional
Veteran Jakarta.
Kamus Kata Dasar Bahasa Indonesia.2010.
Kurniawati, A. 2010. Implementasi
Algoritma Jaro-Winkler Distance
untuk Membandingkan Kesamaan
Dokumen Berbahasa Indonesia.
Mahendra, I P. A. K., Arifin, A. Z., &
Ciptaningtyas, H. T. 2008. Enhanced
Confix Stripping Stemmer And Ants
Algorithm For Classifying News
Document In Indonesian
Language. International Conference
on Information &
Communication Technology and
System (ICTS) ISSN 2085-1944:149-
157.
Moleong, Lexy J. 2000. Metodologi
Penelitian Kualitatif.
Nawi, Mukani. 2015. Sistem Pengukuran
Tingkat Similaritas Dokumen
Menggunakan Algoritma Rabin-Karp
dan Enhanced Confix Stripping.
Nugroho, Eko. 2011. Perancangan Sistem
Deteksi Plagiarisme Dokumen Teks
Dengan Menggunakan Algoritma
Rabin-Karp. Skripsi. Universitas
Brawijaya.
Peraturan Menteri Pendidikan Nasional
Republik Indonesia Nomor 17 Tahun
2010.
Purwaningsih, E. 2005. Perkembangan
Hukum Intellectual Property Rights:
Kajian Hukum Terhadap Hak Atas
Kekayaan Intelektual dan Kajian
Komparatif Hukum Paten.
Artikel Jurnal. Ghalian Indonesia
Rinusantoro, Sonasa. 2014. Aplikasi
Deteksi Kemiripan Dokumen Teks.
Thesis. Universitas Gadjah Mada
Yogyakarta.
Sastroasmoro, Sudigdo. 2007. “Few Notes
on Plagiarism.” Journal of the
Indonesian Medical Association 57
(08).
Kamus Stopword Bahasa Indonesia.2010.
Undang-Undang Republik Indonesia
Nomor 19 Tahun 2002.
William E. Winkler. 1985. String
Comparator Metrics and Enhanced
Decision Rules in the Felligi-Sunter
Model of Record Linkage. Bureau of
the Cencus Stat. Research Div., Rm.,
3000-4,
Washington, DC 20223.