Riset ini membahas masalah rendahnya kinerja sistem pencarian dalam meranking dokumen untuk query yang berisi angka. Peneliti mengembangkan algoritma baru yang mampu mengidentifikasi query sensitif terhadap angka dan memperhitungkan fitur khusus angka untuk meranking dokumen. Metode ini dilatih menggunakan RankNet dan evaluasi menunjukkan kinerja lebih baik dibanding baseline dalam meranking dokumen untuk query angka dan query sensitif angka.
2. Latar Belakang Riset
APA SALAHKU (google) ??
Query : SPSS 20
Masalah :
doc ranking teratas kurang sesuai dengan
maksud query dan cenderung hanya
menjelaskan tentang ‘SPSS’ saja.
NUMERIC QUERY : SPSS 20, ironman 3,
Naruto 461, Netbeans 7.0.1 , dsb
3. Latar Belakang Riset
Query : netbeans 7.0.1
Masalah :
Pada 5 ranking teratas, terdapat doc
yang kurang terkait / dan cenderung
hanya menjelaskan ‘netbeans’ saja.
APA SALAHKU (google) ??
4. Latar Belakang Riset
Terdiri dari13.920
queries
942
Numeric queries
docs
Searching masing2
numeric queri
Hasil searching
masing2 numeric
query
Rata-rata NDCG
rendah
POOR RANKING
PERFORMANCE
AT NUMERIC
QUERIES
mengindikasikan
EKSPERIMEN
PENULIS
5. Latar Belakang Riset
POOR RANKING
PERFORMANCE AT
NUMERIC QUERIES
A
Feature value (makna) dari
numeric term amat rendah
B
Numeric term pada dokumen
amatlah berantakan dan
bervariasi
WHY?
6. Latar Belakang Riset
Kenapa isu A bisa terjadi ?
Misal, numeric query : SPSS 20
Term ’20’ terdapat pada banyak dokumen.
Sehingga memiliki DF (Document
Frequency) yang tinggi, sehingga nilai TF-
IDF dari term ‘20’ menjadi rendah.
A
Feature value (makna) dari
numeric term amat rendah
7. Latar Belakang Riset
Kenapa isu B bisa terjadi ?
Tingginya DF dari numeric term yang
didiskusikan pada isu A.
B
Numeric term pada dokumen
amatlah berantakan dan
bervariasi
Makna/arti yang berbeda-beda dan
bervariasi pada numeric term yang sama
pada kumpulan dokumen.
8. PERMASALAHAN RISET
• Bagaimana algoritma/metode yang
memberikan hasil pemeringkatan yang lebih
baik untuk numeric sensitive queries ?
9. Teknologi/Istilah Penting
• Numeric query : query yang minimal terdiri dari
1 term berupa angka.
– Misal : SPSS 20, ironman 3, windows 7, makan 2 apel,
sehari 4 kali, harganya 10.000 , dsb
• Numeric sensitive queries : subset dari numeric
query, numeric term-nya amat berkaitan dengan
non stopword term yang terletak sebelum
numeric term.
contoh : pada query 'harry potter 6', karena banyak pattern seperti 'harry
potter x' di top docs, sehingga '6' penting di query.
10. Teknologi/Istilah Penting
• NDCG (Normalized Discounted Cumulative
Gain) Ukuran keefektifan dari algoritma web
search engine, yang dilihat dari kegunaan
dokumen didasarkan pada ranking. Ex : hasil
pencarian ‘SPSS 20’ pada latar belakang
11. Kontribusi Utama Riset
• Pengembangan algoritma web search engine
yang lebih baik untuk query yang
mengandung angka (numeric query). Sehingga
memperoleh hasil pencarian yang lebih baik.
12. Metode Pemecahan Masalah
• Mengidentifikasi numeric sensitive queries.
• Memperingkat dokumen
• Melatih model Pemeringkatan
13. Metode Pemecahan Masalah
Mengidentifikasi numeric sensitive queries
“download firefox 4” “number 1 cameras on the market"
Sensitive Non-Sensitive
Boosting feature values No Boosting feature values
Apa yang terjadi apabila proses ini tidak dilakukan ?
14. Metode Pemecahan Masalah
Mengidentifikasi numeric sensitive queries
Menunjukkan Numeric distribution dari query q pada
kumpulan dokumen s
: numeric term pada query q
: non stopword term sebelum pada q
: numeric term pada kumpulan dokumen s
: jumlah munculnya x bersamaan dengan pada s
: measure similarity dari x dan
16. Metode Pemecahan Masalah
Memperingkat dokumen
Ekstrak Reliable Numeric Term
: stream (s) dari title, body, anchor, dan url
Sehingga didapat numeric term x (pada doc) yang paling
reliable terhadap numeric query q. Output itu untuk dipakai
pada
17. Metode Pemecahan Masalah
Memperingkat dokumen
dengan bantuan numeric-related features
NMatch
NSimilarity
Binary match
L1 Distance
Ukuran kesamaan antara numeric term pada dokumen
d dengan yang ada pada query q.
18. Metode Pemecahan Masalah
Memperingkat dokumen
dengan bantuan numeric-related features
Numeric Term NMatch NSimilarity
query Docs
20 20 1 0
20 40 0 20
20 15 0 5
20 20 1 0
19. Metode Pemecahan Masalah
• Dilakukan dengan menggunakan RankNet.
• RankNet merupakan suatu implementasi dari
neural network untuk memodelkan fungsi
pemeringkatan.
• RankNet memberikan performa yang baik
pada permasalahan nyata proses pencarian,
walaupun pada data yang amat besar.
Melatih Model Pemeringkatan
21. Ide Pengembangan Riset
• Mengembangkan algoritma pencarian yang
lebih baik untuk non numeric sensitive queries.
• Pengembangan website search engine data
BPS (yang banyak mengandung numeric term)
yang lebih baik. Misal : Searching “inflasi 7”
22. Kesimpulan
• Penggunaan numeric model memberikan hasil
pemeringkatan yang lebih baik daripada
baseline dan boostN model dalam pencarian
untuk numeric query dan numeric sensitive
query.
• Bisa menjadi alternatif algoritma pencarian
selain algoritma yang tradisional seperti TF-IDF.