SlideShare a Scribd company logo
1 of 8
Download to read offline
1
PENGEMBANGAN MODEL APLIKASI PENGUKURAN TINGKAT KEMIRIPAN
TEKS DOKUMEN DENGAN MEMBANDINGKAN ALGORITMA ARIFIN-
SETIONO DAN ALGORITMA ENHANCED CONFIX STRIPPING
Alvin Adama Putra
Teknik Informatika, Fakultas Ilmu Komputer
Universitas Pembangunan Nasional “Veteran” Jakarta
Jl. RS. Fatmawati No. 1, Jakarta Selatan 12450 – Jakarta, Indonesia
Email : poetraalvinz@gmail.com
Abstract
This study was conducted to detect plagiarism of text documents to find the value of
similarity. The system uses a combination of algorithms Arifin-Setiono and enhanced confix
stripping stemmer with Jaro-Winkler algorithm Distance to search similarity value. The
technology is growing with the times already more modern, and with easy access to information
to a broad network, increase the odds of a person to commit acts of plagiarism. Distance Jaro-
Winkler algorithm that will measure the similarity between the documents, the higher the value
of Jaro-Winkler Distance hence the higher the degree of similarity which means that indicates
the document indicated as plagiarism. By using Arifin-Setiono stemming algorithm produces a
similarity score average 62.04% and took approximately 21.66 seconds. By using algorithms
stemming enhanced confix stripping produces an average similarity value 66.06% and took
approximately 72.62 seconds. Arifin-Setiono algorithm had a very fast compared Enhanced
algorithms stemming confix stripping but the accuracy is lower.
Keyword : Enhanced Confix Stripping, Stemming, Arifin-Setiono, Jaro-Winkler Distance,
Plagiarism.
PENDAHULUAN
Perkembangan teknologi informasi
yang semakin berkembang pesat, membuat
proses pembuatan karya tulis semakin
mudah dan cepat. Hal tersebut tidak hanya
membawa dampak positif bagi kemajuan
teknologi, tetapi juga membawa dampak
negatif yang hampir tidak dapat dihindari
yaitu plagiarisme.
Untuk mempermudah penulisan
laporan skripsi ini dan agar lebih terarah
dan berjalan dengan baik, maka dibuat
suatu batasan masalah, adapun ruang
lingkup permasalahan yang akan dibahas
dalam penulisan laporan skripsi, yaitu :
a. Data yang di olah memiliki format .pdf
(unsecured).
b. Aplikasi yang dikembangkan
menggunakan algoritma stemming
Enhanced Confix Stripping dan
algoritma stemming arifin setiono.
2
c. Pemrosesan yang dilakukan hanya data
bertipe teks (string).
d. Teks dokumen yang di proses adalah
teks bahasa indonesia(d). Kamus yang
digunakan adalah kamus kata-dasar
bahasa indonesia dengan banyak kata
28.530(e).
Adapun tujuan dari penelitian ini
adalah :
a. Membandingkan algoritma stemming
Enhanced Confix Stripping dengan
algoritma Arifin-Setiono untuk
mengetahui nilai similaritas yang lebih
baik.
b. Mengetahui persentase similaritas suatu
teks dokumen untuk deteksi plagiarisme.
LANDASAN TEORI
Stemming merupakan salah satu
proses dari pembuatan sistem temu
kembali, dimana proses stemming akan
dilakukan setelah proses filtering. Proses
stemming ini membuat term yang ada pada
tabel filtering menjadi kata dasar, dengan
menghilangkan semua imbuhan yang ada
pada kata tersebut ( imbuhan meng-, me-,
kan-, di- , i, pe, peng-, a-, dll.). Berdasarkan
penelitian Ade Chania pada tahun 2014
yang juga bersumber dari penelitian
terdahulu I Putu Mahendra pada tahun 2008
algoritma ini dapat mereduksi jumlah term
menjadi lebih baik.
Algoritma stemming Arifin Setiono
ini didahului dengan pembacaan tiap kata
dari file sampel (Zainal, Arifin & Novan,
Setiono : 2000, hlm 2) . Sehingga input dari
algoritma ini adalah sebuah kata yang
kemudian dilakukan pemeriksaan semua
kemungkinan bentuk kata. Setiap kata
diasumsikan memiliki 2 Awalan (prefiks)
dan 3 Akhiran (sufiks). Sehingga
bentuknya menjadi : Prefiks 1 + Prefiks 2 +
Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks
1 Seandainya kata tersebut tidak memiliki
imbuhan sebanyak imbuhan di atas, maka
imbuhan yang kosong diberi tanda x untuk
prefiks dan diberi tanda xx untuk sufiks(a).
Pemotongan dilakukan secara
berurutan sebagai berikut:
AW : Awalan
AK : Akhiran
KD : Kata Dasar
P : Prefix
S : Suffix
a. AW I, hasilnya disimpan pada P1
b. AW II, hasilnya disimpan pada P2
c. AK I, hasilnya disimpan pada S1
d. AK II, hasilnya disimpan pada S2
e. AK III, hasilnya disimpan pada S3
Pada setiap tahap pemotongan di atas
diikuti dengan pemeriksaan di kamus
apakah hasil pemotongan itu sudah berada
dalam bentuk dasar(b).
Berdasarkan penelitian Sonasa
Rinusantoro pada tahun 2014 yang juga
bersumber pada penelitian terdahulu,
Kurniawati Anna pada tahun 2010,
algoritma Jaro-Winkler distance yaitu
3
sebuah algoritma untuk mengukur
kesamaan antara dua string, biasanya
algoritma ini digunakan di dalam
pendeteksian duplikat. Semakin tinggi Jaro-
Winkler distance untuk dua string maka
semakin mirip dengan string tersebut. Nilai
normalnya ialah 0 menandakan tidak ada
kesamaan dan 1 yang menandakan adanya
kesamaan.
Dasar dari algoritma ini memiliki tiga
bagian:
Menghitung panjang string(a).
Menemukan jumlah karakter yang sama di
dalam dua string(b).
Menemukan jumlah transposisi(c).
Pada algoritma Jaro digunakan rumus
untuk menghitung jarak (dj) antara dua
string yaitu s1 dan s2 adalah :
Keterangan :
m = jumlah karakter yang sama persis.
|s1| = panjang string pertama.
|s2| = panjang string kedua.
t = jumlah transposisi.
Jarak teoritis dua buah karakter yang
dikatakan sama dapat dibenarkan jika tidak
melebihi :
Jika mengacu pada nilai yang dihasilkan
algoritma Jaro-winkler distance maka nilai
jarak maksimalnya adalah 1, nilai ini
menandakan kesamaan string yang
dibandingkan mencapai seratus persen atau
sama persis.
PEMBAHASAN
Mudahnya mengakses informasi ke
media online seperti internet membuat
sebagian akademisi menggunakan cara
tersebut untuk melakukan tindakan plagiat.
Tidak diragukan lagi para civitas akademisi
melakukan tindakan plagiat dengan meng-
copy paste informasi yang didapat tanpa
mencantumkan sumbernya. Dengan adanya
sistem deteksi kemiripan teks dokumen
menggunakan algoritma Jaro-Winkler
Distance dapat meneliti kesamaan
informasi publikasi berupa artikel dengan
artikel publikasi lainnya dengan persentase
similaritas. Dibutuhkan form desain
aplikasi yang membantu peneliti dalam
pembuatan aplikasi.
Desain Tampilan Home
Desain tampilan antarmuka pada saat
pertama menjalankan aplikasi. Pada desain
tampillan home terdapat beberapa menu
seperti Beranda, Scan , dan Tentang.
Berikut adalah gambar 1 rancangan
tampilan home.
4
Gambar 1 Desain Tampilan Home
Desain Tampilan Scan
Desain ini adalah tampilan input
teks dokumen untuk mencari nilai
similaritas dengan stemming yang ingin
digunakan. Pada menu scan terdapat 2
pilihan algoritma stemming, yaitu algoritma
enhanced confix stripping dan algoritma
jaro-winkler distance yang bertujuan untuk
melihat perbandingan algoritma stemming
yang lebih baik. Berikut adalah gambar 2
rancangan tampilan scan.
Gambar 2 Desain Tampilan Scan
Desain Output Sistem
Desain ini merupakan hasil keluaran
pada sistem yang dijalankan. Hasil tersebut
berupa nilai persentase kemiripan dokumen
berdasarkan perhitungan jaro-winkler
distance. Berikut adalah gambar 3
rancangan output aplikasi.
Gambar 3 Desain Output
Desain Tampilan Tentang
Desain ini berisi 2 sub menu yaitu,
Plagiarisme dan Profil. Plagiarisme
berisikan tentang informasi mengenai
persentase untuk mengukur tindakan
plagiat yang telah dilakukan. Profil
berisikan informasi mengenai peneliti.
Berikut adalah gambar 4 rancangan
tampilan tentang.
Gambar 4 Desain Tampilan Tentang
5
Tahap Implementasi Sistem
Berdasarkan perancangan desain
aplikasi yang telah dirancang sebelumnya
maka pada tahap ini akan dilakukan
implementasi tampilan.
Implementasi Tampilan Home
Tampilan home merupakan tampilan
pertama kali saat menjalankan aplikasi.
Pada tampilan home berisi beranda untuk
kembali ke tampilan pertama. Lalu ada
menu scan untuk memilih algoritma
stemming yang ingin digunakan. kemudian
ada menu tentang yang berisi sedikit
pengetahuan tentang plagiarisme dan profil
peneliti. Tampilan home dapat dilihat
seperti pada gambar 5
Gambar 5 Tampilan Home
Implementasi Tampilan Scan
Pada menu scan ini bertujuan untuk
mengupload file teks dokumen yang akan
dicari nilai similaritasnya. Teks dokumen
yang dapat di proses hanyalah teks yang
berformat .PDF seperti yang tertera pada
ruang lingkup. Tampilan halaman scan
dapat dilihat seperti pada gambar 6
Gambar 6 Tampilan Scan
Implementasi Output Sistem
Pada output sistem terdapat jumlah
banyak kata dari teks dokumen yang
diujikan, transpose kata, jumlah kata sama,
serta nilai jaro-winkler distance sebagai
hasil untuk mendapat nilai kemiripan teks
dokumen. Output sistem dapat dilihat
seperti pada gambar 7
Gambar 7 Output Sistem
Implementasi Tampilan Tentang
Pada menu tentang yang bertujuan
untuk memberi informasi terkait
6
plagiarisme. Besar tidaknya tindakan
plagiarisme dalam bentuk persentasenya
menurut sastroasmoro sudigdo. Juga berisi
informasi data diri peneliti. Tampilan
tentang dapat dilihat seperti pada gambar 8
Gambar 8 Tampilan Tentang
Hasil Uji Coba dan Pembahasan Sistem
Pengujian ini menerapkan algoritma
jaro-winkler distance untuk menghitung
nilai similaritas dengan mengkombinasikan
dengan beberapa algoritma stemming. Data
yang akan diuji berupa jurnal yang
berformat .PDF dan dibagi menjadi
kedalam 2 tabel. Tabel yang pertama
berisikan daftar data jurnal yang akan di uji.
Dan tabel yang kedua berisikan daftar jurnal
sebagai pembanding terhadap data yang di
uji. Setiap data uji akan dilakukan
percobaan terhadap data pembanding. Data
tersebut di lampirkan pada tabel 1 dan tabel
2.
Tabel 1 Daftar Data Uji
No Judul Jurnal Ukuran
1 Analisa Psnr Pada Teknik
Steganografi Menggunakan
Spread Spectrum
296kb
2 Implementasi Steganografi
Menggunakan Metode Least
Significant Bit (Lsb) Pada
Mobile Phone Berbasis Symbian
Os
453kb
Tabel 2 Daftar Data Pembanding
No Judul Jurnal Ukuran
A Implementasi Steganografi Pesan
Text Ke Dalam File Sound
(.Wav) Dengan Modifikasi Jarak
Byte Pada Algoritma Least
Significant Bit (Lsb)
534kb
B Perancangan Perangkat Lunak
Steganografi Audio Mp3
Menggunakan Metode Least
Significant Bit (Lsb) Dengan
Visual Basic 6.0
456kb
C Implementasi Sistem Keamanan
Data Dengan Menggunakan
Teknik Steganografi End Of File
(Eof) Dan Rabin Public Key
Cryptosystem
1051kb
Berikut adalah hasil uji coba yang
dapat dilihat pada gambar 9 :
Gambar 9 Hasil Uji Coba
Pembahasan Hasil Uji Coba
Setelah melakukan total 12 kali
percobaan terhadap data yang diuji, 6 kali
menggunakan algoritma stemming arifin
7
setiono, dan 6 kali menggunakan algoritma
stemming enhanced confix stripping. Dapat
diketahui dengan menggunakan algoritma
stemming arifin setiono menghasilkan nilai
similaritas dengan rata – rata 62.04% dan
membutuhkan waktu sekitar 21.66 detik.
Jika dengan menggunakan algoritma
stemming enhanced confix stripping
menghasilkan nilai similaritas dengan rata –
rata 66.06% dan membutuhkan waktu
sekitar 72.62 detik. Terjadi peningkatan
nilai similaritas saat menggunakan
algoritma stemming enhanced confix
stripping dan juga membutuhkan waktu
proses yang lebih lama. Terlihat dari segi
waktu algoritma stemming arifin setiono
memiliki waktu yang lebih cepat dalam
pemrosesan dengan selisih waktu 50.9
detik. Berikut adalah gambar grafik
terhadap data yang telah diuji :
Gambar 10 Grafik Perbandingan
KESIMPULAN
Kesimpulan yang bisa diambil dari
penelitian ini adalah sebagai berikut :
a. Dari data yang telah di uji, sistem ini
dapat mendeteksi suatu tindakan plagiat
teks dokumen dengan menghasilkan
nilai persentase similaritas.
b. Dari hasil uji coba yang telah dilakukan
algoritma stemming arifin setiono
memiliki waktu yang lebih cepat
dibandingkan algoritma stemming
enhanced confix stripping dengan selisih
waktu 50.9 detik.
c. Stemming dengan menggunakan
Algoritma Enhanced Confix Stripping
menghasilkan nilai rata-rata similaritas
yang lebih tinggi jika dibandingkan
dengan Algoritma Arifin-Setiono.
Saran yang dapat diberikan oleh
penulis pada penelitian ini adalah sebagai
berikut :
a. Mengembangkan Algoritma Enhanced
Confix Stripping dengan menambahkan
kamus sinonim untuk menambahkan
tingkat akurasi stemming.
b. Pengembangan lebih lanjut untuk
deteksi kemiripan teks dokumen dilihat
dari makna yang terkandung dalam
dokumen tersebut.
DAFTAR PUSTAKA
Chania, Ade. 2014. Pendeteksian
Kesamaan Pada Dokumen Teks
Menggunakan Kombinasi Algoritma
62.04
21.66
66.06
72.62
0.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
80.00
Similaritas Waktu
Grafik Perbandingan
AS ECS
8
Enhanced Confix Stripping Dan
Algoritma Winnowing. Skripsi.
Universitas Sumatera Utara.
Haristia Sari, D. 2013. Penerapan Metode
Porter Stemmer Untuk Penerapan
Sistem Temu Kembali Informasi
Artikel Berbahasa Inggris. Skripsi.
Universitas Pembangunan Nasional
Veteran Jakarta.
Kamus Kata Dasar Bahasa Indonesia.2010.
Kurniawati, A. 2010. Implementasi
Algoritma Jaro-Winkler Distance
untuk Membandingkan Kesamaan
Dokumen Berbahasa Indonesia.
Mahendra, I P. A. K., Arifin, A. Z., &
Ciptaningtyas, H. T. 2008. Enhanced
Confix Stripping Stemmer And Ants
Algorithm For Classifying News
Document In Indonesian
Language. International Conference
on Information &
Communication Technology and
System (ICTS) ISSN 2085-1944:149-
157.
Moleong, Lexy J. 2000. Metodologi
Penelitian Kualitatif.
Nawi, Mukani. 2015. Sistem Pengukuran
Tingkat Similaritas Dokumen
Menggunakan Algoritma Rabin-Karp
dan Enhanced Confix Stripping.
Nugroho, Eko. 2011. Perancangan Sistem
Deteksi Plagiarisme Dokumen Teks
Dengan Menggunakan Algoritma
Rabin-Karp. Skripsi. Universitas
Brawijaya.
Peraturan Menteri Pendidikan Nasional
Republik Indonesia Nomor 17 Tahun
2010.
Purwaningsih, E. 2005. Perkembangan
Hukum Intellectual Property Rights:
Kajian Hukum Terhadap Hak Atas
Kekayaan Intelektual dan Kajian
Komparatif Hukum Paten.
Artikel Jurnal. Ghalian Indonesia
Rinusantoro, Sonasa. 2014. Aplikasi
Deteksi Kemiripan Dokumen Teks.
Thesis. Universitas Gadjah Mada
Yogyakarta.
Sastroasmoro, Sudigdo. 2007. “Few Notes
on Plagiarism.” Journal of the
Indonesian Medical Association 57
(08).
Kamus Stopword Bahasa Indonesia.2010.
Undang-Undang Republik Indonesia
Nomor 19 Tahun 2002.
William E. Winkler. 1985. String
Comparator Metrics and Enhanced
Decision Rules in the Felligi-Sunter
Model of Record Linkage. Bureau of
the Cencus Stat. Research Div., Rm.,
3000-4,
Washington, DC 20223.

More Related Content

Similar to JURNAL

01_Pengenalan_Algoritma_ppt.ppt
01_Pengenalan_Algoritma_ppt.ppt01_Pengenalan_Algoritma_ppt.ppt
01_Pengenalan_Algoritma_ppt.pptJournalJPMN
 
Pengenalan_Algoritma_ppt.ppt
Pengenalan_Algoritma_ppt.pptPengenalan_Algoritma_ppt.ppt
Pengenalan_Algoritma_ppt.pptNoerisEkaBudiarti
 
DDP_ProgramHitung_Ni Kadek Lia Mastika Dewi.pptx
DDP_ProgramHitung_Ni Kadek Lia Mastika Dewi.pptxDDP_ProgramHitung_Ni Kadek Lia Mastika Dewi.pptx
DDP_ProgramHitung_Ni Kadek Lia Mastika Dewi.pptxNi Kadek Lia Mastika Dewi
 
Pengenalan algoritma.ppt
Pengenalan algoritma.pptPengenalan algoritma.ppt
Pengenalan algoritma.ppteriekorlando3
 
Perkembangan Metodologi Steganografi
Perkembangan Metodologi SteganografiPerkembangan Metodologi Steganografi
Perkembangan Metodologi SteganografiAgung Sulistyanto
 
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptxWeek 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptxMuhamadGilang15
 
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket JaringanOptimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket JaringanIgun
 
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...ym.ygrex@comp
 
Bab ii isolehfix 1
Bab ii isolehfix 1Bab ii isolehfix 1
Bab ii isolehfix 1Ody Widodo
 
analisis data kualitatif
analisis data kualitatifanalisis data kualitatif
analisis data kualitatifingawiras
 
6.1.4.08.09 copy
6.1.4.08.09   copy6.1.4.08.09   copy
6.1.4.08.09 copyrusmawanto
 
listiati univ bung hata (1110013211051) Algoritma dan flowchart
listiati univ bung hata (1110013211051) Algoritma dan flowchartlistiati univ bung hata (1110013211051) Algoritma dan flowchart
listiati univ bung hata (1110013211051) Algoritma dan flowchartMaryanto Sumringah SMA 9 Tebo
 
PPT-Wildan Nadiyal Ahsan Thesis Python Graph.pptx
PPT-Wildan Nadiyal Ahsan Thesis Python Graph.pptxPPT-Wildan Nadiyal Ahsan Thesis Python Graph.pptx
PPT-Wildan Nadiyal Ahsan Thesis Python Graph.pptx20206052011
 
MAKALAH TENTANG ALGORITMA GENETIKA
MAKALAH TENTANG ALGORITMA GENETIKAMAKALAH TENTANG ALGORITMA GENETIKA
MAKALAH TENTANG ALGORITMA GENETIKAImanSihaloho
 
PRESENTASI DATA ANALYS.pptx
PRESENTASI DATA ANALYS.pptxPRESENTASI DATA ANALYS.pptx
PRESENTASI DATA ANALYS.pptxEdiSum1
 
ANALISIS PENCARIAN RUTE TERPENDEK PADA JARINGAN KOMPUTER DENGAN MENGGUNAKAN ...
ANALISIS  PENCARIAN RUTE TERPENDEK PADA JARINGAN KOMPUTER DENGAN MENGGUNAKAN ...ANALISIS  PENCARIAN RUTE TERPENDEK PADA JARINGAN KOMPUTER DENGAN MENGGUNAKAN ...
ANALISIS PENCARIAN RUTE TERPENDEK PADA JARINGAN KOMPUTER DENGAN MENGGUNAKAN ...Simon Patabang
 

Similar to JURNAL (20)

01_Pengenalan_Algoritma_ppt.ppt
01_Pengenalan_Algoritma_ppt.ppt01_Pengenalan_Algoritma_ppt.ppt
01_Pengenalan_Algoritma_ppt.ppt
 
Pengenalan_Algoritma_ppt.ppt
Pengenalan_Algoritma_ppt.pptPengenalan_Algoritma_ppt.ppt
Pengenalan_Algoritma_ppt.ppt
 
DDP_ProgramHitung_Ni Kadek Lia Mastika Dewi.pptx
DDP_ProgramHitung_Ni Kadek Lia Mastika Dewi.pptxDDP_ProgramHitung_Ni Kadek Lia Mastika Dewi.pptx
DDP_ProgramHitung_Ni Kadek Lia Mastika Dewi.pptx
 
Bahan 2.pptx
Bahan 2.pptxBahan 2.pptx
Bahan 2.pptx
 
Pengenalan algoritma.ppt
Pengenalan algoritma.pptPengenalan algoritma.ppt
Pengenalan algoritma.ppt
 
Perkembangan Metodologi Steganografi
Perkembangan Metodologi SteganografiPerkembangan Metodologi Steganografi
Perkembangan Metodologi Steganografi
 
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptxWeek 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
 
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket JaringanOptimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
Optimasi Model Artificial Neural Network Untuk Klasifikasi Paket Jaringan
 
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
Aplikasi text mining untuk automasi penentuan tren topik skripsi dengan metod...
 
Bab ii isolehfix 1
Bab ii isolehfix 1Bab ii isolehfix 1
Bab ii isolehfix 1
 
analisis data kualitatif
analisis data kualitatifanalisis data kualitatif
analisis data kualitatif
 
6.1.4.08.09 copy
6.1.4.08.09   copy6.1.4.08.09   copy
6.1.4.08.09 copy
 
listiati univ bung hata (1110013211051) Algoritma dan flowchart
listiati univ bung hata (1110013211051) Algoritma dan flowchartlistiati univ bung hata (1110013211051) Algoritma dan flowchart
listiati univ bung hata (1110013211051) Algoritma dan flowchart
 
PPT-Wildan Nadiyal Ahsan Thesis Python Graph.pptx
PPT-Wildan Nadiyal Ahsan Thesis Python Graph.pptxPPT-Wildan Nadiyal Ahsan Thesis Python Graph.pptx
PPT-Wildan Nadiyal Ahsan Thesis Python Graph.pptx
 
6.1.4.08.09
6.1.4.08.096.1.4.08.09
6.1.4.08.09
 
327232515
327232515327232515
327232515
 
MAKALAH TENTANG ALGORITMA GENETIKA
MAKALAH TENTANG ALGORITMA GENETIKAMAKALAH TENTANG ALGORITMA GENETIKA
MAKALAH TENTANG ALGORITMA GENETIKA
 
PRESENTASI DATA ANALYS.pptx
PRESENTASI DATA ANALYS.pptxPRESENTASI DATA ANALYS.pptx
PRESENTASI DATA ANALYS.pptx
 
ANALISIS PENCARIAN RUTE TERPENDEK PADA JARINGAN KOMPUTER DENGAN MENGGUNAKAN ...
ANALISIS  PENCARIAN RUTE TERPENDEK PADA JARINGAN KOMPUTER DENGAN MENGGUNAKAN ...ANALISIS  PENCARIAN RUTE TERPENDEK PADA JARINGAN KOMPUTER DENGAN MENGGUNAKAN ...
ANALISIS PENCARIAN RUTE TERPENDEK PADA JARINGAN KOMPUTER DENGAN MENGGUNAKAN ...
 
Jasa Olah Data Statistik
Jasa Olah Data StatistikJasa Olah Data Statistik
Jasa Olah Data Statistik
 

JURNAL

  • 1. 1 PENGEMBANGAN MODEL APLIKASI PENGUKURAN TINGKAT KEMIRIPAN TEKS DOKUMEN DENGAN MEMBANDINGKAN ALGORITMA ARIFIN- SETIONO DAN ALGORITMA ENHANCED CONFIX STRIPPING Alvin Adama Putra Teknik Informatika, Fakultas Ilmu Komputer Universitas Pembangunan Nasional “Veteran” Jakarta Jl. RS. Fatmawati No. 1, Jakarta Selatan 12450 – Jakarta, Indonesia Email : poetraalvinz@gmail.com Abstract This study was conducted to detect plagiarism of text documents to find the value of similarity. The system uses a combination of algorithms Arifin-Setiono and enhanced confix stripping stemmer with Jaro-Winkler algorithm Distance to search similarity value. The technology is growing with the times already more modern, and with easy access to information to a broad network, increase the odds of a person to commit acts of plagiarism. Distance Jaro- Winkler algorithm that will measure the similarity between the documents, the higher the value of Jaro-Winkler Distance hence the higher the degree of similarity which means that indicates the document indicated as plagiarism. By using Arifin-Setiono stemming algorithm produces a similarity score average 62.04% and took approximately 21.66 seconds. By using algorithms stemming enhanced confix stripping produces an average similarity value 66.06% and took approximately 72.62 seconds. Arifin-Setiono algorithm had a very fast compared Enhanced algorithms stemming confix stripping but the accuracy is lower. Keyword : Enhanced Confix Stripping, Stemming, Arifin-Setiono, Jaro-Winkler Distance, Plagiarism. PENDAHULUAN Perkembangan teknologi informasi yang semakin berkembang pesat, membuat proses pembuatan karya tulis semakin mudah dan cepat. Hal tersebut tidak hanya membawa dampak positif bagi kemajuan teknologi, tetapi juga membawa dampak negatif yang hampir tidak dapat dihindari yaitu plagiarisme. Untuk mempermudah penulisan laporan skripsi ini dan agar lebih terarah dan berjalan dengan baik, maka dibuat suatu batasan masalah, adapun ruang lingkup permasalahan yang akan dibahas dalam penulisan laporan skripsi, yaitu : a. Data yang di olah memiliki format .pdf (unsecured). b. Aplikasi yang dikembangkan menggunakan algoritma stemming Enhanced Confix Stripping dan algoritma stemming arifin setiono.
  • 2. 2 c. Pemrosesan yang dilakukan hanya data bertipe teks (string). d. Teks dokumen yang di proses adalah teks bahasa indonesia(d). Kamus yang digunakan adalah kamus kata-dasar bahasa indonesia dengan banyak kata 28.530(e). Adapun tujuan dari penelitian ini adalah : a. Membandingkan algoritma stemming Enhanced Confix Stripping dengan algoritma Arifin-Setiono untuk mengetahui nilai similaritas yang lebih baik. b. Mengetahui persentase similaritas suatu teks dokumen untuk deteksi plagiarisme. LANDASAN TEORI Stemming merupakan salah satu proses dari pembuatan sistem temu kembali, dimana proses stemming akan dilakukan setelah proses filtering. Proses stemming ini membuat term yang ada pada tabel filtering menjadi kata dasar, dengan menghilangkan semua imbuhan yang ada pada kata tersebut ( imbuhan meng-, me-, kan-, di- , i, pe, peng-, a-, dll.). Berdasarkan penelitian Ade Chania pada tahun 2014 yang juga bersumber dari penelitian terdahulu I Putu Mahendra pada tahun 2008 algoritma ini dapat mereduksi jumlah term menjadi lebih baik. Algoritma stemming Arifin Setiono ini didahului dengan pembacaan tiap kata dari file sampel (Zainal, Arifin & Novan, Setiono : 2000, hlm 2) . Sehingga input dari algoritma ini adalah sebuah kata yang kemudian dilakukan pemeriksaan semua kemungkinan bentuk kata. Setiap kata diasumsikan memiliki 2 Awalan (prefiks) dan 3 Akhiran (sufiks). Sehingga bentuknya menjadi : Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1 Seandainya kata tersebut tidak memiliki imbuhan sebanyak imbuhan di atas, maka imbuhan yang kosong diberi tanda x untuk prefiks dan diberi tanda xx untuk sufiks(a). Pemotongan dilakukan secara berurutan sebagai berikut: AW : Awalan AK : Akhiran KD : Kata Dasar P : Prefix S : Suffix a. AW I, hasilnya disimpan pada P1 b. AW II, hasilnya disimpan pada P2 c. AK I, hasilnya disimpan pada S1 d. AK II, hasilnya disimpan pada S2 e. AK III, hasilnya disimpan pada S3 Pada setiap tahap pemotongan di atas diikuti dengan pemeriksaan di kamus apakah hasil pemotongan itu sudah berada dalam bentuk dasar(b). Berdasarkan penelitian Sonasa Rinusantoro pada tahun 2014 yang juga bersumber pada penelitian terdahulu, Kurniawati Anna pada tahun 2010, algoritma Jaro-Winkler distance yaitu
  • 3. 3 sebuah algoritma untuk mengukur kesamaan antara dua string, biasanya algoritma ini digunakan di dalam pendeteksian duplikat. Semakin tinggi Jaro- Winkler distance untuk dua string maka semakin mirip dengan string tersebut. Nilai normalnya ialah 0 menandakan tidak ada kesamaan dan 1 yang menandakan adanya kesamaan. Dasar dari algoritma ini memiliki tiga bagian: Menghitung panjang string(a). Menemukan jumlah karakter yang sama di dalam dua string(b). Menemukan jumlah transposisi(c). Pada algoritma Jaro digunakan rumus untuk menghitung jarak (dj) antara dua string yaitu s1 dan s2 adalah : Keterangan : m = jumlah karakter yang sama persis. |s1| = panjang string pertama. |s2| = panjang string kedua. t = jumlah transposisi. Jarak teoritis dua buah karakter yang dikatakan sama dapat dibenarkan jika tidak melebihi : Jika mengacu pada nilai yang dihasilkan algoritma Jaro-winkler distance maka nilai jarak maksimalnya adalah 1, nilai ini menandakan kesamaan string yang dibandingkan mencapai seratus persen atau sama persis. PEMBAHASAN Mudahnya mengakses informasi ke media online seperti internet membuat sebagian akademisi menggunakan cara tersebut untuk melakukan tindakan plagiat. Tidak diragukan lagi para civitas akademisi melakukan tindakan plagiat dengan meng- copy paste informasi yang didapat tanpa mencantumkan sumbernya. Dengan adanya sistem deteksi kemiripan teks dokumen menggunakan algoritma Jaro-Winkler Distance dapat meneliti kesamaan informasi publikasi berupa artikel dengan artikel publikasi lainnya dengan persentase similaritas. Dibutuhkan form desain aplikasi yang membantu peneliti dalam pembuatan aplikasi. Desain Tampilan Home Desain tampilan antarmuka pada saat pertama menjalankan aplikasi. Pada desain tampillan home terdapat beberapa menu seperti Beranda, Scan , dan Tentang. Berikut adalah gambar 1 rancangan tampilan home.
  • 4. 4 Gambar 1 Desain Tampilan Home Desain Tampilan Scan Desain ini adalah tampilan input teks dokumen untuk mencari nilai similaritas dengan stemming yang ingin digunakan. Pada menu scan terdapat 2 pilihan algoritma stemming, yaitu algoritma enhanced confix stripping dan algoritma jaro-winkler distance yang bertujuan untuk melihat perbandingan algoritma stemming yang lebih baik. Berikut adalah gambar 2 rancangan tampilan scan. Gambar 2 Desain Tampilan Scan Desain Output Sistem Desain ini merupakan hasil keluaran pada sistem yang dijalankan. Hasil tersebut berupa nilai persentase kemiripan dokumen berdasarkan perhitungan jaro-winkler distance. Berikut adalah gambar 3 rancangan output aplikasi. Gambar 3 Desain Output Desain Tampilan Tentang Desain ini berisi 2 sub menu yaitu, Plagiarisme dan Profil. Plagiarisme berisikan tentang informasi mengenai persentase untuk mengukur tindakan plagiat yang telah dilakukan. Profil berisikan informasi mengenai peneliti. Berikut adalah gambar 4 rancangan tampilan tentang. Gambar 4 Desain Tampilan Tentang
  • 5. 5 Tahap Implementasi Sistem Berdasarkan perancangan desain aplikasi yang telah dirancang sebelumnya maka pada tahap ini akan dilakukan implementasi tampilan. Implementasi Tampilan Home Tampilan home merupakan tampilan pertama kali saat menjalankan aplikasi. Pada tampilan home berisi beranda untuk kembali ke tampilan pertama. Lalu ada menu scan untuk memilih algoritma stemming yang ingin digunakan. kemudian ada menu tentang yang berisi sedikit pengetahuan tentang plagiarisme dan profil peneliti. Tampilan home dapat dilihat seperti pada gambar 5 Gambar 5 Tampilan Home Implementasi Tampilan Scan Pada menu scan ini bertujuan untuk mengupload file teks dokumen yang akan dicari nilai similaritasnya. Teks dokumen yang dapat di proses hanyalah teks yang berformat .PDF seperti yang tertera pada ruang lingkup. Tampilan halaman scan dapat dilihat seperti pada gambar 6 Gambar 6 Tampilan Scan Implementasi Output Sistem Pada output sistem terdapat jumlah banyak kata dari teks dokumen yang diujikan, transpose kata, jumlah kata sama, serta nilai jaro-winkler distance sebagai hasil untuk mendapat nilai kemiripan teks dokumen. Output sistem dapat dilihat seperti pada gambar 7 Gambar 7 Output Sistem Implementasi Tampilan Tentang Pada menu tentang yang bertujuan untuk memberi informasi terkait
  • 6. 6 plagiarisme. Besar tidaknya tindakan plagiarisme dalam bentuk persentasenya menurut sastroasmoro sudigdo. Juga berisi informasi data diri peneliti. Tampilan tentang dapat dilihat seperti pada gambar 8 Gambar 8 Tampilan Tentang Hasil Uji Coba dan Pembahasan Sistem Pengujian ini menerapkan algoritma jaro-winkler distance untuk menghitung nilai similaritas dengan mengkombinasikan dengan beberapa algoritma stemming. Data yang akan diuji berupa jurnal yang berformat .PDF dan dibagi menjadi kedalam 2 tabel. Tabel yang pertama berisikan daftar data jurnal yang akan di uji. Dan tabel yang kedua berisikan daftar jurnal sebagai pembanding terhadap data yang di uji. Setiap data uji akan dilakukan percobaan terhadap data pembanding. Data tersebut di lampirkan pada tabel 1 dan tabel 2. Tabel 1 Daftar Data Uji No Judul Jurnal Ukuran 1 Analisa Psnr Pada Teknik Steganografi Menggunakan Spread Spectrum 296kb 2 Implementasi Steganografi Menggunakan Metode Least Significant Bit (Lsb) Pada Mobile Phone Berbasis Symbian Os 453kb Tabel 2 Daftar Data Pembanding No Judul Jurnal Ukuran A Implementasi Steganografi Pesan Text Ke Dalam File Sound (.Wav) Dengan Modifikasi Jarak Byte Pada Algoritma Least Significant Bit (Lsb) 534kb B Perancangan Perangkat Lunak Steganografi Audio Mp3 Menggunakan Metode Least Significant Bit (Lsb) Dengan Visual Basic 6.0 456kb C Implementasi Sistem Keamanan Data Dengan Menggunakan Teknik Steganografi End Of File (Eof) Dan Rabin Public Key Cryptosystem 1051kb Berikut adalah hasil uji coba yang dapat dilihat pada gambar 9 : Gambar 9 Hasil Uji Coba Pembahasan Hasil Uji Coba Setelah melakukan total 12 kali percobaan terhadap data yang diuji, 6 kali menggunakan algoritma stemming arifin
  • 7. 7 setiono, dan 6 kali menggunakan algoritma stemming enhanced confix stripping. Dapat diketahui dengan menggunakan algoritma stemming arifin setiono menghasilkan nilai similaritas dengan rata – rata 62.04% dan membutuhkan waktu sekitar 21.66 detik. Jika dengan menggunakan algoritma stemming enhanced confix stripping menghasilkan nilai similaritas dengan rata – rata 66.06% dan membutuhkan waktu sekitar 72.62 detik. Terjadi peningkatan nilai similaritas saat menggunakan algoritma stemming enhanced confix stripping dan juga membutuhkan waktu proses yang lebih lama. Terlihat dari segi waktu algoritma stemming arifin setiono memiliki waktu yang lebih cepat dalam pemrosesan dengan selisih waktu 50.9 detik. Berikut adalah gambar grafik terhadap data yang telah diuji : Gambar 10 Grafik Perbandingan KESIMPULAN Kesimpulan yang bisa diambil dari penelitian ini adalah sebagai berikut : a. Dari data yang telah di uji, sistem ini dapat mendeteksi suatu tindakan plagiat teks dokumen dengan menghasilkan nilai persentase similaritas. b. Dari hasil uji coba yang telah dilakukan algoritma stemming arifin setiono memiliki waktu yang lebih cepat dibandingkan algoritma stemming enhanced confix stripping dengan selisih waktu 50.9 detik. c. Stemming dengan menggunakan Algoritma Enhanced Confix Stripping menghasilkan nilai rata-rata similaritas yang lebih tinggi jika dibandingkan dengan Algoritma Arifin-Setiono. Saran yang dapat diberikan oleh penulis pada penelitian ini adalah sebagai berikut : a. Mengembangkan Algoritma Enhanced Confix Stripping dengan menambahkan kamus sinonim untuk menambahkan tingkat akurasi stemming. b. Pengembangan lebih lanjut untuk deteksi kemiripan teks dokumen dilihat dari makna yang terkandung dalam dokumen tersebut. DAFTAR PUSTAKA Chania, Ade. 2014. Pendeteksian Kesamaan Pada Dokumen Teks Menggunakan Kombinasi Algoritma 62.04 21.66 66.06 72.62 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 Similaritas Waktu Grafik Perbandingan AS ECS
  • 8. 8 Enhanced Confix Stripping Dan Algoritma Winnowing. Skripsi. Universitas Sumatera Utara. Haristia Sari, D. 2013. Penerapan Metode Porter Stemmer Untuk Penerapan Sistem Temu Kembali Informasi Artikel Berbahasa Inggris. Skripsi. Universitas Pembangunan Nasional Veteran Jakarta. Kamus Kata Dasar Bahasa Indonesia.2010. Kurniawati, A. 2010. Implementasi Algoritma Jaro-Winkler Distance untuk Membandingkan Kesamaan Dokumen Berbahasa Indonesia. Mahendra, I P. A. K., Arifin, A. Z., & Ciptaningtyas, H. T. 2008. Enhanced Confix Stripping Stemmer And Ants Algorithm For Classifying News Document In Indonesian Language. International Conference on Information & Communication Technology and System (ICTS) ISSN 2085-1944:149- 157. Moleong, Lexy J. 2000. Metodologi Penelitian Kualitatif. Nawi, Mukani. 2015. Sistem Pengukuran Tingkat Similaritas Dokumen Menggunakan Algoritma Rabin-Karp dan Enhanced Confix Stripping. Nugroho, Eko. 2011. Perancangan Sistem Deteksi Plagiarisme Dokumen Teks Dengan Menggunakan Algoritma Rabin-Karp. Skripsi. Universitas Brawijaya. Peraturan Menteri Pendidikan Nasional Republik Indonesia Nomor 17 Tahun 2010. Purwaningsih, E. 2005. Perkembangan Hukum Intellectual Property Rights: Kajian Hukum Terhadap Hak Atas Kekayaan Intelektual dan Kajian Komparatif Hukum Paten. Artikel Jurnal. Ghalian Indonesia Rinusantoro, Sonasa. 2014. Aplikasi Deteksi Kemiripan Dokumen Teks. Thesis. Universitas Gadjah Mada Yogyakarta. Sastroasmoro, Sudigdo. 2007. “Few Notes on Plagiarism.” Journal of the Indonesian Medical Association 57 (08). Kamus Stopword Bahasa Indonesia.2010. Undang-Undang Republik Indonesia Nomor 19 Tahun 2002. William E. Winkler. 1985. String Comparator Metrics and Enhanced Decision Rules in the Felligi-Sunter Model of Record Linkage. Bureau of the Cencus Stat. Research Div., Rm., 3000-4, Washington, DC 20223.