Bab ii

  • 419 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
419
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
21
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. BAB II LANDASAN TEORI Sistem manajemen arsip digital pada tugas akhir ini adalah mengelompokkandokumen-dokumen arsip yang berbentuk file menjadi sebuah kelompok-kelompoktertentu sehingga dapat diambil informasi yang lebih baik dari pengelompokkantersebut. Sistem pengelompokkannya (klasterisasi) menggunakan algoritma DIG(Document Index Graph) untuk mencari keterkaitan antar dokumen dandikelompokkan menjadi beberapa kategori tertentu. Pada tahap ini terlebih dahuluakan dipaparkan mengenai beberapa teori yang mendasari tugas akhir ini diantaranyaadalah konsep klusterisasi document, text mining, analisa struktur dokumen dankesamaan antar dokumen, konsep graph, konsep algoritma DIG (Document IndexGraph), dan metode evaluasi untuk mengukur kinerja sistem.2.1 Konsep Klasterisasi Dokumen Secara umum document clustering adalah proses mengelompokkan dokumenberdasarkan kemiripan antara satu dengan yang lain dalam satu gugus [3, 4].Tujuannya adalah untuk memisahkan dokumen yang relevan dari dokumen yangtidak relevan [5]. Pengelompokan ini didasarkan pada hipotesa yang dikemukakanoleh Van Rijsbergen bahwa dokumen-dokumen yang berkaitan erat cenderung sesuaidengan permintaan informasi yang sama [6, 7]. Atau dengan kata lain, dokumen-dokumen yang relevan dengan suatu query cenderung memiliki kemiripan satu samalain dari pada dokumen yang tidak relevan, sehingga dapat dikelompokkan ke dalamsuatu gugus [4]. Oleh karena itu, suatu gugus berisi kelompok dokumen homogenyang saling berkaitan antara satu dengan yang lain. Document Clustering dapat dilakukan sebelum atau sesudah proses temukembali [8]. Pada document clustering yang dilakukan sebelum proses temu kembaliinformasi, koleksi dokumen dikelompokkan ke dalam gugus berdasarkan kemiripan(similarity) antar dokumen.Selanjutnya dalam proses temu kembali informasi, apabilasuatu dokumen ditemukan maka seluruh dokumen yang berada dalam gugus yang
  • 2. sama dengan dokumen tersebut juga dapat ditemukan. Sedangkan documentclustering yang dilakukan setelah proses temu kembali informasi, dokumen-dokumenyang dihasilkan disajikan dalam gugus yang terbentuk berdasar kemiripan antardokumen tersebut, sehingga mempermudah pencari informasi untuk memberikaninterpretasi terhadap hasil penelusuran sesuai dengan kebutuhannya [9]. Dalam sistem temu kembali informasi, document clustering memberikanbeberapa manfaat, antara lain: • Mempercepat pemrosesan query dengan menelusur hanya pada sejumlah kecil anggota atau wakil gugus, sehingga dapat mempercepat proses temu kembali informasi [5]. • Membantu melokalisir dokumen yang relevan [9]. • Membentuk kelas-kelas dokumen sehingga mempermudah penjelajahan dan pemberian interpretasi terhadap hasil penelusuran [4]. • Meningkatkan efektivitas dan efisiensi temu kembali informasi dan memberikan alternatif metode penelusuran [10]. Selain itu, penggabungan antara penelusuran secara menyeluruh (full search)dengan penelusuran berbasis gugus (cluster-based retrieval) dapat meningkatkanketelitian sampai dengan 25% [6]. Hal senada dikemukakan oleh Jian Zhang, et al.[8] bahwa penggabungan antara metode penggugusan dengan fusion (pemberianperingkat terdadap dokumen secara keseluruhan) akan meningkatkan efektivitas temukembali informasi. Adapun dalam hal penyajian hasil penelusuran, penggabunganantara gugus dan daftar peringkat dapat membantu pemakai dalam menemukaninformasi yang relevan [11].2.1.1 Pembentukan gugus dokumen klusterisasi Pembentukan gugus dokumen dalam sistem temu kembali informasimerupakan proses yang kompleks, karena melibatkan pemilihan unsur yang dapatmewakili sekelompok dokumen, penetapan fungsi untuk menghubungkan satudokumen dengan dokumen yang lain, penetapan fungsi untuk menghubungkan
  • 3. dokumen dengan query dan membangun metode atau algoritma penggugusan [12].Prinsip dasar dalam document clustering adalah menentukan ukuran kemiripan antardokumen yang akan dikelompokkan dan menjadikannya sebagai dasar untukmenghasilkan gugus. Kemiripan antar dokumen dapat didasarkan pada beberapa variabel sepertijournal intercitation, co-citation (journal co-citation, document co-citation, authorco-citation), biblioGraphic coupling, co-descriptor, dan co-classification. Adapunkemiripan antara dua dokumen X dan Y dapat diukur dengan beberapa cara, yaitu: 1. Simple matching : |X Y| 2. Dice’s coefficient : 2 | X Y|/|X|+|Y| 3. Jaccard’s coefficient : | X Y |/|X Y| 4. Cosine coefficient : |X Y|/|X|1/2.|Y|1/2. 5. Overlap coefficient : |X Y|/min(X,Y) pembentukan gugus biasanya dikategorikan menurut tipe dari struktur gugusyang dihasilkan. Secara umum metode penggugusan terbagi menjadi dua, yaitumetode non-hirarkhis dan metode hirarkhis.2.1.2 Metode Non-Hirarkhis Metode non-hirarkhis disebut juga metode partisi, yaitu membagi serangkaiandata yang terdiri dari N obyek ke dalam M gugus yang tidak saling tumpang-tindih(overlap) [10]. Secara lebih rinci, Salton [13] mengemukakan bahwa pembentukangugus dokumen dalam sistem temu kembali informasi dengan metode non-hirarkhisadalah sebagi berikut: a. Membandingkan ciri-ciri identifikasi (identifier) suatu dokumen dengan dokumen lain yang ada dalam koleksi dan mengelompokkan dokumen- dokumen yang memiliki serangkaian ciri-ciri identifikasi yang serupa ke dalam satu gugus.
  • 4. b. Pada setiap gugus dokumen yang dihasilkan, dipilih sebuah unsur yang dapat mewakili seluruh dokumen yang ada dalam gugus yang bersangkutan yang disebut centroid. Menurut Rasmussen [10] centroid atau perwakilan gugus adalah sebuah record yang dapat mewakili ciri -ciri atau karakteristik dokumen dalam sebuah gugus. c. Proses penelusuran dilakukan dalam dua tahap, yaitu: 1) membandingkan query dengan centroid pada masing-masing gugus dokumen; 2) mencocokkan query dengan masing-masing dokumen dalam gugus yang mengandung centroid yang paling sesuai.Proses pembentukan gugus dokumen dan penelusuran tersebut dapat diilustrasikanseperti pada Gambar 2.1Gambar 2.1 Pembentukan gugus dokumen dengan metode non-hirarkhis dan proses penelusurannya [13]. Seiring dengan perkembangan teknologi komputer, metode penggugusan non-hirarkhis ini juga menggunakan algoritma yang semakin kompleks. Sebagai contohadalah penerapan algoritma genetik [14] dan metode iterative clustering [15].2.1.3 Metode Hirarkhis
  • 5. Pembentukan gugus dokumen dalam sistem temu kembali informasi denganmetode hirarkhis adalah sebagi berikut: a. Mengidentifikasi dua dokumen yang paling mirip dan menggabungkannya menjadi sebuah gugus. b. Mengidentifikasi dan menggabungkan dua dokumen yang paling mirip berikutnya menjadi sebuah gugus sampai semua dokumen tergabung dalam gugus-gugus yang terbentuk. Struktur gugus yang dihasilkan oleh metode hirarkhis ini biasanyadiperlihatkan struktur dendrogram atau diagram pohon seperti terlihat pada Gambar2.2 dan 2.3 Gambar 2.2 Dendrogram dari Hierarchical Clustering [16]
  • 6. Gambar 2.3 Pohon dari Hierarchical Clustering [13] Kemiripan antar dokumen ditentukan dengan mengukur jarak antar dokumen.Dua dokumen yang mempunyai jarak paling kecil dikatakan mempunyai kemiripanpaling tinggi dan dikelompokkan ke dalam satu gugus yang sama. Sebaliknya duadokumen yang mempunyai jarak paling besar dikatakan mempunyai kemiripan palingrendah, dan dimasukkan ke dalam gugus yang berbeda. Beberapa metode yang dapatdigunakan untuk menentukan jarak antar dua dokumen antara lain: single link,complete link, group average link, ward’s method, centroid method dan medianmethod [10].2.2 Text Mining Text mining merupakan salah satu bentuk eksplorasi dan analisis data teksyang bertujuan untuk mendapatkan pengetahuan baru baik itu melalui cara otomatismaupun semi otomatis [16]. Text mining bisa dianggap subjek riset yang tergolongbaru. Text mining dapat memberikan solusi dari permasalahan seperti pemrosesan,pengorganisasian/pengelompokkan dan menganalisa unstructured text dalam jumlahbesar. Menurut Candra [17], text mining adalah salah satu bidang khusus dari datamining. Text mining dapat didefinisikan sebagai suatu proses menggali informasi
  • 7. dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan toolsanalisis yang merupakan komponen-komponen dalam data mining yang salah satunyaadalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan informasiyang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada textmining adalah kumpulan teks yang memiliki format yang tidak terstruktur atauminimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitupengkategorisasian teks (text categorization) dan pengelompokan teks (textclustering). Menurut Hilda [18] text mining adalah data mining dengan input data berupateks. Text mining muncul karena sekitar 90% data di dunia dalam bentuk format tidakterstruktur, adanya kebutuhan bisnis, yang asalnya document retrieval menjadiknowledge discovery. Dari definisi menurut Candra T. dan Hilda W, peneliti dapatmenyimpulkan bahwa text mining bisa disimpulakan menjadi sebuah teknik dimanainputan text dapat mewakili untuk memanggil beberapa dokumen dengan keterkaitanyang sudah disusun dalam sebuah algoritma. Dalam memberikan solusi, text mining mengadopsi dan mengembangkanbanyak teknik dari bidang lain, seperti data mining, information retrieval, statistikdan matematik, machine learning, linguistic, natural languange processing, danvisualization. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpananteks, preprocessing akan isi (content) teks, pengumpulan data statistik dan indexing,dan analisa konten. Menurut Tatas wicaksono [19], permasalahan yang dihadapi pada text miningsama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yangbesar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise.Perbedaan di antara keduanya adalah pada data yang digunakan. Pada data mining,data yang digunakan adalah structured data, sedangkan pada text mining data yangdigunakan text mining pada umumnya adalah unstructured data atau minimalsemistructured. Hal ini menyebabkan adanya tantangan tambahan pada text miningyaitu struktur teks yang kompleks dan tidak lengkap, arti yang tidak jelas dan tidakstandard, dan bahasa yang berbeda ditambah translasi yang tidak akurat. Salah satu
  • 8. elemen kunci dari text mining adalah kumpulan dokumen yang berbasis teks. Padaprakteknya, text mining ditujukan untuk menemukan pola dari sekumpulan dokumenyang jumlahnya sangat besar dan bisa mencapai jumlah ribuan bahkan sampai jutaan.Koleksi dokumen bisa statis, dimana dokumen tidak berubah atau dinamis, dimanadokumen selalu di update sepanjang waktu. Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukanperhitungan hanya pada dokumen, tetapi pada juga feature. Menurut Hilda [18], adaempat macam feature yang sering digunakan:a) Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan spasi, merupakan blok pembangun pada level paling tinggi pembentuk semantik feature, seperti kata, term dan concept. Pada umumnya, representasi character-based ini jarang digunakan pada beberapa teknik pemrosesan teks.b) Words, tiap-tiap kata dalam dokumen.c) Terms merupakan single word dan phrase multiword yang terpilih secara langsung dari corpus. Representasi term-based dari dokumen tersusun dari subset term dalam dokumen.d) Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual, rule-based, atau metodologi lain. Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis. Pada text mining, informasi yang akan digali berisi informasi-informasi yang strukturnya sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan menjadi nilai-nilai numerik. Proses ini sering disebut text preprocessing. Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat diolah lebih lanjut.2.3 Analisis Struktur Dokumen Setiap dokumen memiliki struktur tersendiri, umumnya sebuah dokumenmemiliki bagian judul dan isi dokumen. Idenya, beberapa bagian dari sebuah
  • 9. dokumen mempunyai nilai informasi yang lebih tinggi dari bagian lainnya. Olehkarena itu bagian tersebut mempunyai tingkat kepentingan yang berbeda sesuaiposisinya dalam sebuah dokumen [20]. Misalnya sebuah dokumen teks, yang terdiridari judul dan isi dokumen. Dari dokumen tersebut mempunyai beberapa kata yangterletak pada bagian judul dan pada bagian isi dokumen. Tentunya kata-kata yangterletak pada bagian judul akan memiliki nilai kepentingan yang lebih tinggi daripada kata-kata yang berada pada bagian isi dokumen. Biasanya, tingkat kepentingan sebuah kata yang terdapat di dalam suatudokumen dibagi menjadi tiga tingkat, yaitu; tinggi, sedang, dan rendah. Contohbagian dari dokumen yang mempunyai tingkat kepentingan tinggi adalah judul.Contoh bagian dokumen yang mempunyai tingkat kepentingan sedang adalah kata-kata yang dicetak tebal, kata-kata yang dicetak miring, atau kata-kata yang diberiwarna. Sedangkan tingkat kepentingan rendah biasanya isi dokumen yang tidaktermasuk ke dalam tingkat kepentingan tinggi maupun tingkat kepentingan sedang. Sehingga dalam kita mengelompokkan sebuah document hal ini menjadipertimbangan yang penting untuk menentukan proses yang akan dijalankan nantinyamengenai struktur dokumen apakah digunakan seluruhnya atau dipilih pada bagiantertentu, pemilihan fokus mengenai struktur tersebut disesuaikan dengan tingkatkebutuhan sistem.2.4 Konsep Graph dan Penerapannya Pada bagian ini akan dijelaskan konsep dasar teori Graph dan penerapannyapada pengelompokkan dokumen yang akan menggambarkan proses penggunaanyadan contoh kasusnya.2.4.1 Dasar Teori Graph Graph adalah sekumpulan benda-benda yang disebut simpul (node/vertex)yang dihubungkan oleh sisi (edge). Biasanya Graph digambarkan sebagai kumpulantitik-titik (sebagai simpul) yang dihubungkan oleh garis-garis (sebagai sisi). Suatu
  • 10. graph G dapat dinyatakan sebagai G = <V,E> dimana V merupakan himpunan darisimpul yang berada pada G dan E merupakan himpunan sisi pada G [21] Selainsimpul dan sisi, terdapat pula lintasan (path). Lintasan merupakan jalur yang harusditempuh untuk mencapai suatu simpul dari simpul lain. Panjang lintasan merupakanbanyaknya sisi yang terdapat pada lintasan tersebut [22].Berikut adalah salah satu contoh dari graph yang diperlihatkan pada gambar 2.4: 6 4 5 1 3 2 Gambar 2.4 Contoh GraphDari gambar graph di atas, dapat dilihat bahwa: 1. Simpul pada graph dituliskan sebagai V = {1,2,3,4,5,6} 2. Sisi pada graph dituliskan sebagai E = {(1,2),(1,5),(2,3),(2,5),(3,4),(4,5),(4,6)} 3. Salah satu lintasan untuk mencapai simpul 3 dari simpul 1 adalah 1-2-3 dimana panjang lintasannya adalah 2. Berdasarkan orientasi arah pada sisi, secara umum graph dapat dibagi menjadi2 jenis, yaitu graph berarah dan graph tak berarah. graph berarah merupakan graphdimana setiap sisinya memiliki arah sehingga simpul (1,2) dan (2,1) tidaklah sama.Sebaliknya, pada graph tak berarah, simpul (1,2) dan (2,1) dianggap sama. Gambar 1di atas merupakan contoh graph tak berarah. Sedangkan contoh dari graph berarahsebagaimana ditunjukkan pada gambar 2.5 adalah sebagai berikut.
  • 11. Gambar 2.5 Graph Berarah Simpul yang terdapat pada graph berarah di atas adalah V = {1,2,3,4,5,6} dansisinya adalah E = {(1,2), (1,3), (1,4), (1,5), (2,3), (2,5), (3,1), (3,4), (4,2), (4,5), (5,4),(6,4)}. Dapat dilihat dari gambar bahwa sisi (1,3) dan (3,1) tidaklah sama karenakeduanya memiliki asal dan arah simpul yang berbeda. Karena sisinya berbeda, makalintasan yang dihasilkan pun berbeda. Bila graph di atas bukan merupakan graphberarah, maka untuk mencapai simpul 6 dari simpul 1 dapat melewati simpul 4,sehingga lintasan yang dibentuk adalah 1-4-6. Namun karena graph tersebutmerupakan graph, maka tidak ada lintasan yang dapat dilalui untuk mencapai simpul6 dari simpul 1. Ini disebabkan tidak ada satu sisi pun yang mengarah ke simpul 6.2.4.2 Aplikasi Graph dalam pengelompokan dokumen Dalam penggunaan algoritma DIG, graph yang dibangun adalah graphberarah. Dalam graph ini, arah dari setiap sisi menunjukkan struktur kalimat yangada pada setiap dokumen. graph ini dibangun dari :1. Simpul Simpul merupakan kata unik yang ada pada setiap dokumen. Setiap kata yang terdapat pada dua buah dokumen yang sedang dibandingkan harus terdapat pada himpunan simpul graph.2. Sisi
  • 12. Sisi merupakan penghubung antarsimpul. Pada sisi terdapat informasi berupa nomor sisi yang menunjukkan posisi kata dalam kalimat dan dalam dokumen. Karena graph ini merupakan graph berarah, maka sisi dalam graph ini pun memiliki arah. Arah yang ditunjukkan menunjukkan urutan kata pada dokumen.3. Lintasan Lintasan yang dibentuk dari simpul dan sisi merupakan representasi sebuah kalimat tertentu. Pada algoritma DIG, setiap kalimat pada setiap dokumen akan diproses satu per satu. Setiap kata yang belum ada di dalam kumpulan graph akan ditambahkan sebagai simpul. Sedangkan jika kata tersebut sudah ada dalam kumpulan graph, maka akan ditambahkan sisi baru. Untuk setiap kata yang bertetangga dihubungkan dengan sisi. Untuk mendapatkan matching phrase, dibuatkan daftar data dokumen-dokumen yang mempunyai sisi serupa ke dalam sebuah tabel. Jika matching phrase berikutnya mempunyai sisi yang merupakan kelanjutan dari sisi sebelumnya, maka matching phrase tersebut digabungkan dengan matching phrase sebelumnya. Begitu seterusnya sampai seluruh dokumen selesai diproses [23]. Berikut adalah ilustrasi pembentukan graph menggunakan algoritma DIG. Pada ilustrasi ini hanya digunakan tiga buah dokumen saja, yaitu dokumen A, dokumen B, dan dokumen C, dimana masing-masing dokumen memiliki kalimat yang terdiri dari dua atau lebih kata. Ilustrasinya adalah sebagai berikut: Dokumen A : Pada dokumen A, terdapat kalimat-kalimat: mengerjakan tugas mengerjakan tugas makalah tugas makalah pelajaran strukdis Dokumen B : Pada dokumen B terdapat kalimat-kalimat: tugas laporan tugas makalah wajib Dokumen C :
  • 13. Pada dokumen C terdapat kalimat-kalimat: laporan praktikum praktikum kimia anggota kelompok praktikum pelajaran kimia Langkah pertama yang dilakukan adalah membuat graph berdasarkankalimat-kalimat pada dokumen A dimana setiap kata yang terdapat pada dokumen Amenjadi simpul dalam GRAPH .Graph yang dibentuk dari dokumen A adalah seperti yang ditunjukkan pada gambar2.6 : mengerjakan makalah tugas pelajaran strukdis Gambar 2.6 Graph A yang dibentuk dari dokumen ADari gambar graph di atas, terlihat bahwa graph tersebut memiliki:1. Simpul Simpul yang terdapat pada graph A adalah seluruh kata yang terdapat pada dokumen A, yaitu V = {mengerjakan,tugas,makalah,pelajaran,strukdis}.2. Sisi Sisi yang terdapat pada graph A adalah kata-kata yang letaknya bersebelahan pada dokumen, yaitu E = {(mengerjakan,tugas), (tugas,makalah), (makalah,pelajaran), (pelajaran,strukdis)}.3. Lintasan Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu : a. mengerjakan – tugas b. mengerjakan – tugas – makalah c. tugas – makalah – pelajaran – strukdis
  • 14. Setelah mendapatkan graph A, maka langkah selanjutnya adalah membuat graph yang meliputi dokumen A dan dokumen B, yaitu graph B. Penggambaran dari graph B seperti yang ditunjukkan pada gambar 2.7 dalah sebagai berikut: mengerjakan makalah pelajaran tugas strukdis laporan wajibGambar 2.7 Graph B yang dibentuk dari dokumen A dan dokumen B Dari gambar graph B di atas, terlihat bahwa graph tersebut memiliki: 1. Simpul Simpul yang terdapat pada graph B adalah seluruh kata yang terdapat pada dokuman A dan dokumen B, yaitu V = {mengerjakan, tugas, makalah, pelajaran, strukdis, laporan, wajib}. 2. Sisi Sisi yang terdapat pada graph B adalah E = {(mengerjakan,tugas), (tugas,makalah), (makalah,pelajaran), (pelajaran,strukdis), (tugas, laporan), (makalah wajib)}. 3. Lintasan Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu : a. mengerjakan – tugas b. mengerjakan – tugas – makalah c. tugas – makalah – pelajaran – strukdis d. tugas – laporan e. tugas – makalah - wajib Dari gambar graph B pula, terlihat adanya keterkaitan antara dokumen A dan dokumen B, yaitu pada sisi (tugas laporan) dan (makalah wajib). mengerjakan Setelah mendapatkan graph A makalah dan Graph B, langkah selanjutnya adalah tugas membuat graph yang meliputi dokumen A, dokumen B, dan dokumen C, yaitu pelajaran strukdis laporan wajib kimia Kelompok wajib anggota
  • 15. graph C. Penggambaran dari Graph C seperti yang ditunjukkan pada gambar 2.8adalah sebagai berikut: Gambar 2.8 Graph C yang dibentuk dari dokumen A, dokumen B, dan dokumen CDari gambar graph C di atas, terlihat bahwa graph tersebut memiliki:1. Simpul Simpul yang terdapat pada graph A adalah V= mengerjakan, tugas, makalah, pelajaran, strukdis, laporan, wajib, praktikum, kimia, anggota, kelompok}2. Sisi Sisi yang terdapat pada graph A adalah E = {(mengerjakan, tugas), (tugas, makalah), (makalah, pelajaran), (pelajaran, strukdis), (tugas laporan), (makalah wajib), (laporan, praktikum), (praktikum, kimia), (anggota, kelompok), (kelompok, praktikum) , (pelajaran kimia)}.3. Lintasan Lintasan yang terbentuk pada graph A berjumlah 3 buah, yaitu : a. mengerjakan – tugas b. mengerjakan – tugas – makalah c. tugas – makalah – pelajaran – strukdis d. tugas – laporan e. tugas – makalah – wajib f. laporan – praktikum g. praktikum – kimia h. anggota – kelompok – praktikum i. pelajaran – kimia
  • 16. Dari gambar graph C pula, terlihat adanya keterkaitan antara dokumen A, dokumenB dan dokumen C. Keterkaitan antara dokumen A dan dokumen B terdapat pada sisi (tugaslaporan) dan (makalah wajib). Keterkaitan antara dokumen B dan dokumen Cterdapat pada sisi (laporan,praktikum). Terakhir, keterkaitan antara dokumen A dandokumen C terdapat pada sisi (pelajaran,kimia). Contoh kasus di atas merupakan contoh kasus yang mencari keterkaitan antara3 buah dokumen. Jumlah kata dan frasa dalam setiap dokumen pun hanya sedikit.Padahal dalam kenyataannya, jumlah dokumen yang ada di dunia ini sangatlahbanyak, tidak sekadar 10 atau 100 buah. Dalam setiap dokumen pun jumlah kata danfrasanya bisa mencapai ribuan bahkan lebih. Akan sangat sulit dilakukan bila graphdibuat secara manual. Perlu ada penanganan yang lebih baik agar setiap dokumenyang ada dapat tergambarkan keterkaitannya. Untuk itulah dibuat algoritma DIG iniagar proses mengaitkan dokumen-dokumen dapat dilakukan dengan lebih cepat danmudah.2.5 Algoritma DIG (Document Index Graph) Document Index Graph (Selanjutnya disingkat DIG) menyusun dokumendengan memperbaiki struktur kalimat pada dokumen asli. Hal ini mengijinkan kitauntuk menggunakannya dalam mencari informasi yang lebih untuk menemukan frasadari pada kata. Selain itu, DIG juga menangkap level yang berbeda dan lebihsignifikan pada kalimat aslinya, hal itu mengijinkan kita untuk menggunakan kalimattersebut secara lebih signifikan dan lebih baik.2.5.1 Struktur DIG DIG secara langsung tersusun dari sebuah graph (digraph) G – (V,E) DimanaV : kumpulan dari nodes {v1, v2, …….., vN}, dimana tiap node v merepresentasikansebuah kata yang unik pada seluruh dokumen yang sudah ditentukan.
  • 17. E :Kumpulan dari edges {e1,e2,……., eM}, seperti tiap-tiap edge merupakan susunan dari pasangan tiap node (vi,vj). Edge (vi,vj) berasal dari vi ke vj, dan vj adalah berdekatan dengan vi. dari vi ke vj ada ujungnya, dan jika dalam proses selanjutnya kata vj muncul kebali maka tidak ditulis kembali melainkan mengacu pada sebelumnya yang sudah ada yaitu vi dalam dokumen apapun. Definisi diatas merupakan gambara penyusun graph yang terdiri dari beberapanode yang terdiri dari berbagai macam kata-kata unik pada setiap dokumen yangditentukan. Jalur atau path yang dibentuk oleh node dan edge merupakan representasidari sebuah kalimat tertentu dari seluruh dokumen. Node pada graph membawa informasi tentang dokumen yang nampak,sepanjang informasi yang terdapat dalam sebuah kalimat. Struktur kalimat selaludiperbaharui ujungnya selama proses clustering. Akan dibentuk informasi daftar katadari kalimat pada tiap dokumen yang di kluster. Berikut contoh gambar DIG. Gambar 2.9 Contoh Dokumen Index Graph
  • 18. Pada contoh diatas menggambarkan susunan dokumen graph denganmenggunakan 3 dokumen. Tiap-tipa dokumen terdapat nomor dari kalimat denganbeberapa kesamaan diantara dokumen-dokumennya. Jika kita liat graph diatas, tiapujung dibuat hanya diantara dua node dan hal itu digambarkan dengan dua nodediantara dokumen yang lainnya. Hal ini menggambarkan susunan path pada graph.Garis putus-putus menggambarkan kalimat dari dokumen 1, garis putus-putus ke-2mewakili kalimat dari dokumen 2, dan garis putus-putus ke-3 mewakili kalimat daridokumen 3. Jika frasa ditampilkan lebihdari sekali dalam dokumen, jumlah tiap kata-kata yang membentuk frase meningkat maka kalimat informasi dalam nodemencerminkan terjadinya beberapa frasa tersebut. Seperti disebutkan sebelumnya,pencocokan frase menjadi dokumen menjadi tugas tersendiri untuk mencari kesamaandiantara dokumen yang berbeda. Contoh yang disajikan di sini adalah salah sat yang sederhana. Padakenyataannya banyak dokumen akan berisi ratusan atau ribuan kata-kata. Denganmengatur dokumen yang sangat besar, graph bisa menjadi lebih kompleks dalam halpenggunaan memori. Biasanya, graph jumlah node akan persis sama dengan jumlahdari kata-kata unik dalam kumpulan data.
  • 19. Gambar 2.10 Penambahan penyusunan Algoritma DIG2.5.2 Membangun Graph DIG dibangun secara bertahap dengan memproses satu dokumen pada suatuwaktu. Ketika sebuah dokumen baru diperkenalkan, maka dokumen itu akan di scansecara berurutan, dan graph akan diperbarui dengan informasi terbaru pada setiap
  • 20. kalimat yang diperlukan. Kata-kata baru yang ditambahkan ke graph yang diperlukandan terhubung dengan node yang lain sehingga mencerminkan struktur kalimat.Proses membangun graph akan mengurangi penggunaan memori ketika tidak adayang baru, kata-kata yang diperkenalkan oleh dokumen baru (atau sangat sedikit kata-kata baru yang diperkenalkan). Pada titik ini graph menjadi lebih stabil, dan operasihanya diperlukan adalah untuk memperbarui struktur kalimat dalam graph ik untukmengakomodasi kalimat baru yang diperkenalkan. Hal ini sangat penting untukdicatat bahwa sebagai pengenalan dokumen baru hanya akan memerlukanpemeriksaan (atau Selain itu) dari kata-kata yang muncul dalam dokumen itu, dantidak setiap node dalam graph. Di sinilah efisiensi model berasal. Seiring dengan penyusunan struktur kalimat, tingkat signifikansi dari setiapkalimat juga dicatat dalam graph. Hal ini memungkinkan kita untuk mengingatinformasi seperti saat kita mencocokkan kalimat dari dokumen lain. Melanjutkan daricontoh diperkenalkan sebelumnya, berikut algoritma proses membangun graph yangmewakili tiga dokumen yang diilustrasikan pada Gambar 2.11
  • 21. Gambar 2.11 Algoritma Pembangun Graph dan penyamaan frasa Penekanan di sini adalah pada proses inkremental konstruksi, di mana nodebaru ditambahkan dan tepi baru akan dibuat bertahap pada pengenalan dokumen baru.Tidak seperti teknik pencocokan frasa tradisional yang biasanya digunakan dalamliteratur temu kembali informasi, yang DIG menyediakan informasi lengkap tentangpencocokan frasa penuh terjadi diantara setiap pasangan dokumen. Sementara carapencocokan frasa metode tradisional yang cocok ditujukan untuk mencari danpengambilan frase dokumen yang cocok untuk query tertentu, DIG ini ditujukanuntuk memberikan informasi tentang kesamaan dokumen dan mengijinkan overlapclustering antara setiap pasangan dokumen. Hal ini akan membantu dalammenentukan tingkat kesamaan antara dokumen.
  • 22. 2.6 Analisa Kesamaan Dokumen dan Evaluasi KlusterisasiNilai kesamaan dokumen dapat dihitung melalui beberapa pendekatan :2.6.1 Single Term Single term atau kesamaan dokumen berbasis kata, merupakan nilai kesamaandokumen yang dilihat berdasarkan term-term yang berada di antara dua dokumenyang sedang dibandingkan. Metode Cosine Based Similarity dapat digunakan untukmemperoleh nilai kesamaan dokumen berbasis kata. Dengan mengukur dua vektorberdimensi n dengan menemukan sudut diantara keduanya. Untuk text-matching,atribut yang biasa dipakai adalah vektor TF-IDF. Ukuran kesamaan dokumen d1dengan dokumen d2 dapat dihitung dengan persamaan 2.1 : (2.1)TF atau term frequency merupakan banyaknya term dalam sebuah dokumen.Pembobotan TF diperoleh dari perhitungan dengan persamaan 2.2 : (2.2)f = frekuensi term dalam sebuah dokumenm = frekuensi maksimum dari suatu term yang terdapat dalam sebuah dokumenSedangkan IDF atau Inverse Document Frequency merupakan banyaknya termtertentu dalam keseluruhan dokumen. Pembobotan IDF dapat dihitung dengan rumus2.3 : (2.3)n = jumlah seluruh dokumennj = jumlah dokumen yang mempunyai term j
  • 23. 2.6.2 Phrase Based Similarity Metode ini akan menggunakan frasa sebagai tolok ukur kesamaan dokumen.Persamaan dokumen yang diukur berdasarkan term dianggap belum memberikanhasil yang terbaik [3]. Dengan memperhatikan urutan dari beberapa kata yangterdapat di antara dua dokumen yang sedang dibandingkan diharapkan dapatmeningkatkan nilai akurasi pengelompokan dokumen.Ukuran kesamaan dokumen dihitung berdasarkan shared phrase pada masing-masingpasangan dokumen.Faktor –faktor shared phrase dalam menentukan kesamaan dokumen : a. jumlah matching phrase, b. panjang matching phrase, c. frekuensi matching phrase di kedua dokumen d. level signifikan (weight) dari matching phrase di kedua dokumen tersebut.Kesamaan berbasis frasa antara 2 dokumen, d1 dan d2 dapat dihitung denganpersamaan : (2.4) (2.5)2.6.3 Gabungan antara Single Term dan Phrase Based Similarity Kesamaan dokumen akhir dihitung dari kombinasi antara kesamaan berbasiskata dengan kesamaaan berbasis frasa dengan persamaan berikut: Sim ( ) = , sim ( + (1 – ) , sim ( ) (2.6)
  • 24. 2.6.4 Evaluasi Klusterisasi Evaluasi ini dilakukan untuk mengetahui kinerja dari algoritma klusterisasidalam tahap uji coba. Pengukuran ini didasarkan pada 2 ukuran kualitas kluster yangbiasa digunakan dalam literatur pengukuran klusterisasi dokumen. • F-measure R= (2.7) = (2.8) Nij = jumlah anggota kelas ke-i pada kluster ke-j Ni = jumlah anggota kelas ke-i Nj = jumlah anggota kluster ke-j F-measure dari kluster Cj dan kelas Ki dapat didefinisikan sebagai : F (i) = (2.9) Untuk histogram klustering, F-measure dari setiap kelasnya merupakan rata- rata nilai F-measure dari tiap kelas pada keseluruhan kluster yang terbentuk. F (C) = (2.10) |i| = jumlah anggota masing-masing kelas ke-i • Entropy Entropy mengukur kemurnian dari kluster yang dihasilkan dengan memperhatikan pada kategori yang ada. Nilai Entropy yang lebih kecil menghasilkan kluster yang lebih bagus kualitasnya. = (2.11) Total entropy dihitung sebagai jumlah dari nilai entropy tiap-tiap kluster yang terbentuk. (2.12) Nj = jumlah dokumen yang diklusterkan dalam satu kategori
  • 25. N = total jumlah dokumenpij = peluang dokumen kluster j masuk ke kelas i