Klasifikasi Teks

TUGAS DATA MINING
Algoritma Covering dan Penerapannya
Khairul Sani ( 13/359750/PTK/9462)
Syamsul Mujahidin (13/359465/PTK/9440)
S2 Teknologi Informasi
Teknik Elektro dan Teknologi Informasi
Universitas Gadjah Mada
Dalam teknik klasifikasi ada banyak pendekatan yang dapat dilakukan, antara lain separate and conquer, divide and conquer, dan covering and statistical. Algoritma covering memiliki karakteristik yaitu mepertimbangkan hubungan antara nilai atribut dan spesifikasi klasifikasinya. Algoritma ini akan mengklasifikasi data berdasarkan nilai maksimal dari tiap kemungkinan nilai atribut. Nilai maksimal antribut didapat dari banyak data dalam tiap katagori dibagi dengan banyak data keseluruhan. Prolehan nilai maksimal dari tiap atribut kemudian akan dikombinasikan. Hasil yang didapatkan berupa kumpulan aturan-aturan dari atribut yang diproses.
Algortima ini digunakan karena memiliki tingkat akurasi yang bagus, daya belajar yang cepat, kapasitas dalam hal proses data secara masif, dan kemudahan dalam menganalisis aturan-aturan yang dibentuk sehingga sering digunakan untuk menangani kasus tertentu. Salah satu bentuk penerapan dari algoritma covering adalah penangan pada masalah klasifikasi teks. Klasifikasi teks merupakan kegiatan mengurutkan kumpulan dokumen secara otomatis ke dalam kategori yang sudah didefinisikan. Dalam hal ini metode yang biasa digunakan adalah metode machine learning dan statistical learning. Metode tersebut memiliki keunggulan efektif dalam menangani noise data. Namun demikian, algoritma ini masih lemah dalam hal pembentukan aturan-aturan yang kuat dari domain pengetahuan sehingga digunakanlah algoritma covering untuk mengatasi masalah tersebut.
Prosedur dari algoritma covering untuk mengatasi masalah klasifikasi teks adalah ekstrasi dari sejumlah prase yang akan menjadi calon aturan. Kemudian

melakukan klasifikasi terhadap prase tersebut, apakah masuk dalam sempel positif atau negatif. Sempel positif akan dimaksukkan dalam data latihan, sementara negatif sempel akan dibuang. Masing - masing data training (prase) akan dihitung frekuensi kenampakannya dalam dokumen kemudian dibagi dengan jumlah dokumen yang ada. Nilai maksimum dari perhitungan tersebut akan digunakan sebagai dasar untuk membentu aturan - aturan. Aturan – aturan tersebut nantinya akan digunakan untuk klasifikasi teks pada data yang baru.
Pada jurnal lainnya yang berjudul Cross Covering Algorithm Based on Simulated Annealing mendeskripsikan terkait algoritma untuk untuk optimisasi yang bersifat generic. Simulated annealing (SA) adalah salah satu algoritma untuk untuk optimisasi yang bersifat generik. Berbasiskan probabilitas dan mekanika statistik, algoritma ini dapat digunakan untuk mencari pendekatan terhadap solusi optimum global dari suatu permasalahan. Masalah yang membutuhkan pendekatan SA adalah masalah-masalah optimisasi kombinatorial, di mana ruang pencarian solusi yang ada terlalu besar, sehingga hampir tidak mungkin ditemukan solusi eksak terhadap permasalahan itu. Publikasi tentang pendekatan ini pertama kali dilakukan oleh S. Kirkpatrick, C. D. Gelatt dan M. P. Vecchi, diaplikasikan pada desain optimal hardware komputer, dan juga pada salah satu masalah klasik ilmu komputer yaitu Traveling Salesman Problem. Annealing adalah satu teknik yang dikenal dalam bidang metalurgi, digunakan dalam mempelajari proses pembentukan kristal dalam suatu materi. Agar dapat terbentuk susunan kristal yang sempurna, diperlukan pemanasan sampai suatu tingkat tertentu, kemudian dilanjutkan dengan pendinginan yang perlahan-lahan dan terkendali dari materi tersebut. Pemanasan materi di awal proses annealing, memberikan kesempatan pada atom-atom dalam materi itu untuk bergerak secara bebas, mengingat tingkat energi dalam kondisi panas ini cukup tinggi. Proses pendinginan yang perlahan-lahan memungkinkan atom-atom yang tadinya bergerak bebas itu, pada akhirnya menemukan tempat yang optimum, di mana energi internal

yang dibutuhkan atom itu untuk mempertahankan posisinya adalah minimum, Metropolis et al. pada tahun 1953.
Profesor Zhang menyatakan bahwa arti geometri M-Ps neuron, dan menunjukkan bahwa tiga lapis saraf pada jaringan untuk membangun classifier yang sama dengan mencari dan mengumpulkan domain yang mampu untuk dipartisi dari berbagai jenis masukan seperti vektor, dan disediakan covering algoritma yang lebih lanjut: Inti dari covering algoritma adalah menggunakan covering domain sebagai lapisan tersembunyi dari tiga lapisan jaringan saraf, yang diinput pada lapisan sampel set, hasil output berdasarkan hasil klasifikasi. Oleh karena itu, keutamaan dari covering algoritma adalah untuk membangun covering cluster. Adapun konsep dari covering model sebagai berikut :
Pada penelitian tersebut menggunakan suatu algoritma covering karena memiliki kecepatan lebih rendah, dengan kompleksitas lebih rendah, tetapi dengan presisi yang tinggi. Tetapi pada construction berat pusat neuron biasanya domainnya memiliki kriteria sendiri, dan tidak dapat mengikuti distribusi sample untuk mencapai solusi yang omptimal. Pada penelitian tersebut membuat suatu algoritma baru menggabungkan antara cross covering algorithm dan penyajian dalam simulated annealing. Pada tahapan ini didapat pusat covering berdasarkan pencarian teori simulasi annealing. Hasil penelitian ini menampilkan algoritma dapat mengurangi jumlah dari covering dengan pengenalan akurasi yang lebih tinggi.

Pada penelitian ini untuk mengevaluasi kinerja algortima, mengambil empat data set dari University of california untuk repository mechine learning yang diterapkan.
Dalam simulasi komputer, semua nilai atribut dalam set data linear berubah menjadi interval satuan. Dengan demikian, kita dapat menangani setiap set data sebagai masalah klasifikasi pola dalam n-dimensi satuan kubus [0,1] n. Pada exsperiment ini menggunakan sepuluh kali lipat crossvalidation (10-CV) teknik untuk setiap data set 10 kali, dengan menggunakan partisi yang berbeda dari kumpulan data. Dalam 10-CV, kumpulan data dibagi menjadi 10 subset dari ukuran yang sama. Sembilan subset digunakan sebagai pola pelatihan, dan bagian lainnya digunakan sebagai pola uji. Hasilnya ditunjukkan pada Gambar dibawah. Akurasi pengenalan pada Gambar dibawah ini menunjukan rata-rata dari sepuluh kali pelatihan dan pengujian.
Hal ini dapat dilihat dari Gambar tersebut bahwa akurasi pengenalan rata-rata Sacca jelas lebih baik daripada CCA dan LIBSVM. Terutama pada dataset Kaca, kinerja Sacca ditingkatkan 9.55 poin persentase dari CCA, dan 10.91 persen dibanding classifier LIBSVM terkenal. Ini menunjukkan bahwa dengan titik yang mendapatkan dari penelusuran dari teori simulated annealing untuk pusat meliputi bisa memberikan perintah yang lebih baik untuk studi sampel, dan membuat pusat sampel keterwakilan sehingga domain meliputi dapat mencakup informasi lebih lanjut tentang predikasi. Pada penelitian mendapatkan kesimpulan dari data publik

hanya set, pada percobaan berikutnya, kita akan membuktikan algoritma praktis meskipun memilih data yang memiliki nilai lebih praktis. Dengan menggunakan data, kita akan menunjukkan keuntungan dari Sacca dalam aplikasi praktis.
Gambar : results for LIBSVM, CCA and SACCA
Kesimpulan:
Dalam jurnal tersebut, konstruktif algoritma, cross covering algoritma dan berdasarkan simulasi annealing (Sacca) menunjukkan, hasil pada beberapa UCI database dan teks kategorisasi menunjukkan bahwa Sacca adalah performas yang bagus untuk classifier. Dapat digunakan simulasi annealing algoritma untuk mencari pusat covering, secara efektif dapat meningkatkan daerah covering serta mengurangi jumlah covering.
Algoritma ini mengurangi kompleksitas dan meningkatkan kemampuan generalisasi dan menjaga kinerja pada tingkat tinggi. Penelitian tersebut dapat digunakan pada search enggine untuk melakukan penelitian serta pengembangan pada masa depan.

Referensi :
[1] Cheng-Gang He, Yan-ping Zhang, Hui Sun, and Jin-Wei Gen, “A Novel Regression Method Research Based on Covering Algorithm,” Intell. Inf. Process. Trust. Comput. IPTC 2010 Int. Symp. On, pp. 41–44, Oct. 2010.
[2] Jin-Hong Liu and Yu-Liang Lu, “Strong Rules Learning Algorithm for Ensemble Text Classification,” Mach. Learn. Cybern. 2007 Int. Conf. On, vol. 6, pp. 3601– 3606, Aug. 2007.
[3] Zhang Yanping , Liu Chao,"Cross covering algoritma based on Simulated annealing," School of Computer Science and Technology, Anhui University, Hefei, China,2010.

Klasifikasi Teks

Recommended

Recommended

More Related Content

Similar to Klasifikasi Teks

Similar to Klasifikasi Teks (20)

More from Universitas Gadjah Mada

More from Universitas Gadjah Mada (6)

Recently uploaded

Recently uploaded (20)

Klasifikasi Teks