Topic Modeling adalah proses untuk secara otomatis mengidentifikasi topik yang ada dalam objek teks dan untuk mendapatkan pola tersembunyi yang ditunjukkan oleh korpus teks. Dengan demikian, membantu pengambilan keputusan yang lebih baik.
2. Permodelan Topik
Topic Modeling adalah proses untuk
secara otomatis mengidentifikasi
topik yang ada dalam objek teks dan
untuk mendapatkan pola tersembunyi
yang ditunjukkan oleh korpus[1]
teks. Dengan demikian, membantu
pengambilan keputusan yang lebih
baik.
[1]Korpus (corpus) adalah bagian dari pustaka teks elektronik, tetapi korpus dibangun dengan
kreteria untuk tujuan khusus. Korpus dalam bentuk jamak disebut korpora (corpora)
4. Latent Dirichlet Allocation (LDA)
Latent Dirichlet Allocation atau LDA merupakan algoritma
untuk mendeteksi topik melalui permodelan probabilistik dalam
sekumpulan data. LDA mengasumsikan setiap dokumen memiliki
topik dan dibentuk dari kata-kata yang berkaitan dengan topik
tersebut, sehingga suatu dokumen dapat direpresentasikan
sebagai campuran dari topik topik tersembunyi dengan proporsi
yang berbeda-beda.
5. Latent Dirichlet Allocation
Algoritme pertama adalah
menginisiasi parameter, seperti:
jumlah dokumen, banyak kata dalam
sebuah dokumen, jumlah topik,
jumlah iterasi, dan koefisien LDA.
6. Inisialisasi Parameter
Langkah selanjutnya adalah menandai
sebuah kata dengan topik yang telah
ditentukan secara semi random
distribution yang berdasarkan
distribusi dirichlet. Dalam sebuah
dokumen terdapat semua topik.
7. Inisialisasi pemberian topic secara acak
Selanjutnya adalah tahap iterasi,
di mana akan dihasilkan parameter
yang dapat menentukan distribusi
dari jumlah topik dalam dokumen dan
juga distribusi kata dari topik.
Hal inilah yang akan terus
dievaluasi untuk mengukur seberapa
lazim sebuah kata terhadap topik
tersebut. Selain itu juga untuk
melihat seberapa lazim topik
tersebut berada dalam sebuah
dokumen.
Jika kita lihat, ada tiga karakteristik yaitu: Exploratory, dimana topic modeling dapat mencari apa yang ada dalam sebuah corpus besar.
Karakteristik yang kedua adalah clustering, topic modeling dapat mengumpulkan dokumen-dokumen yang memiliki arti yang sama.
Karakteristik ketiga adalah latent variables. Karakteristik ini dapat mengetahui struktur tematik dari sebuah corpus yang besar.
Ketiga karakteristik tersebut memperlihatkan bagaimana topic modeling menghasilkan informasi tentang topik apa yang dibicarakan
Algoritme pertama adalah menginisiasi parameter, seperti: jumlah dokumen, banyak kata dalam sebuah dokumen, jumlah topik, jumlah iterasi, dan koefisien LDA.
Dalam LDA, jumlah topik harus ditentukan, jadi jika jumlah topik lebih banyak dari dari topik yang sesungguhnya, akan ada topik yang sama. Sebaliknya, jika jumlah topik lebih sedikit dari topik yang sesungguhnya maka ada satu topik yang mengandung lebih dari satu topik.