Your SlideShare is downloading. ×
Wir Schiavinato 170608
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Wir Schiavinato 170608

562
views

Published on

Andrea Schiavinato

Andrea Schiavinato

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
562
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Transcript

    • 1. ALTRI MODELLI PER L’INFORMATION RETRIEVAL : BM25 QUERY LIKELIHOOD RANKING CONFRONTO FRA LANGUAGES MODELS Andrea Schiavinato, Giugno 2008
    • 2. IL MODELLO PROBABILISTICO
      • Peggio del modello vettoriale in assenza di relevance feedback (simile a modello vettoriale limitato ad ifd)
      • Non considera la componente tf
    • 3. IL MODELLO BM25 (BEST MATCH 25, 1994) Valori tipici dei parametri: α =1.2; β =100; b=0.75
    • 4. IL MODELLO BM25 – QUALCHE ESEMPIO
      • Esempio visto a lezione:
        • Q = “gold silver truck”
        • D1 = “Shipment of gold damaged in a fire”
        • D2 = “Delivery of silver arrived in a silver truck”
        • D3= “Shipment of gold arrived in a truck”
      • Ranking coincidente con quello del modello vettoriale e probabilistico
      gold silver truck TOT D1 -log(2)*1.02 0 0 -0.71 D2 0 log(2)*1.33 -log(2)*0.96 0.26 D3 -log(2)*1.02 0 -log(2)*1.02 -1.42
    • 5. IL MODELLO BM25 – QUALCHE ESEMPIO
      • Valutiamo un documento sapendo che:
        • Ha un rapporto lunghezza/lunghezza media documenti = 0.9
        • Collezione di 500.000 documenti
        • La query contiene solo la parola “lincoln”
      Lincoln appare in 300 documenti Lincoln appare 25 volte nel documento
    • 6. IL MODELLO BM25 – QUALCHE ESEMPIO
      • Risultati per la query “president lincoln”
        • “ president” appare “spesso” nella collezione (40.000 doc)
        • “ lincoln” appare più raramente (300 doc)
      Frequenza “president” Frequenza “lincoln” Punteggio 15 25 20.66 25 15 20.36 1 25 18.2 0 25 15.66 25 1 12.95 15 1 12.74 15 0 5
    • 7. IL MODELLO BM25 – COMMENTI
      • Parte del calcolo può essere svolta ad tempo di indicizzazione
      • Ha ottenuto buoni risultati negli esperimenti su TREC
      • E’ stato molto preso in considerazione dai motori di ricerca sul web commerciali
    • 8. LANGUAGES MODELS – ESEMPIO 1
      • Language model associato un documento:
      • Potrebbe includere anche parole non usate nel testo e rappresentarne il topic
      • Ciò è più utile nell’IR
      Parola Prob white 0.2 house 0.19 USA 0.10 president 0.09 golf 0.05 …
    • 9. LANGUAGES MODELS – ESEMPIO 2
      • Langauge model associato ad una query (o ad un bisogno informativo):
      • Lo chiamiamo relevance model
      Query: Bisogno informativo dell’utente (reale/percepito/esplicitato) Parola Prob lincoln 0.3 president 0.3 america 0.15 president 0.15 war 0.15 …
    • 10. LANGUAGES MODELS
      • E’ un insieme di parole , ad ognuna delle quali è associata una probabilità
      • Può essere usato per generare un testo
      • Rappresenta un modello di un testo, un topic o un bisogno informativo (in quest’ultimo caso lo chiamiamo relevance model)
      • Portano a nuovi approcci per l’information retrieval :
        • Calcolare la probabilità di generare una query dato un language model corrispondente ad un documento (topic model)
        • Calcolare la probabilità di generare il testo di un dato documento a partire da un language model derivato dalla query
        • Calcolare la differenza fra il language model di un dato documento e quello della query
    • 11. QUERY LIKELIHOOD RANKING - IDEA
      • Valuto la probabilità che un documento generi la query data:
      Documento Language model ricavato dal documento Query: RANK DEL DOCUMENTO Parola Prob america 0.2 lincoln 0.19 USA 0.10 president 0.09 golf 0.05 …
    • 12. QUERY LIKELIHOOD RANKING - FORMULA
      • Valuto la probabilità che un documento generi la query data:
      • P(x|D) è la probabilità che il language model dato dal documento D associa alla parola x
      • Problema : se un termine della query non appartiene al documento, sim(Q,D) è nullo (-∞)
    • 13. MIGLIORIA: SMOOTHING
      • Per risolvere il problema citato, calcolo il valore P(q i |D) combinando:
        • La probabilità data dalla sua frequenza in D
        • La probabilità data dalla sua frequenza nell’intera collezione
      • α = costante (Jelinek-Mercer smoothing)
      • α = f(|Q|) (0.1 per query corte, 0.9 per query lunghe)
      • α = (Dirichlet smoothing, µ=1000-2000)
    • 14. QUERY LIKELIHOOD RANKING – QUALCHE ESEMPIO
      • Di nuovo l’esempio visto a lezione:
        • Q = “gold silver truck”
        • D1 = “Shipment of gold damaged in a fire”
        • D2 = “Delivery of silver arrived in a silver truck”
        • D3= “Shipment of gold arrived in a truck”
        • α = 0.1
      • Ranking differente da BM25!
      • I termini che non compaiono nel documento ora hanno un peso negativo (non nullo)
      gold silver truck TOT D1 -1.98 -4.70 -4.70 -11.38 D2 -4.70 -1.45 -2.10 -8.25 D3 -1.98 -4.70 -1.98 -8.66
    • 15. QUERY LIKELIHOOD RANKING - COMMENTI
      • Prestazioni simili a BM25
      • Si possono usare criteri di smoothing più sofisticati
      • Esempio “president lincoln”
        • Collezione con 10^9 parole (500.000doc da 2.000parole)
        • Il documento considerato ha 1.800 parole
        • “ president” appare 160.000 volte, “lincoln” solo 2.400
      Frequenza “president” Frequenza “lincoln” Punteggio Punteggio BM25 15 25 -10.53 20.66 25 15 -10.55 20.36 1 25 -12.99 18.2 25 1 -13.25 12.95 0 25 -14.40 15.66 15 0 -19.05 5.00
    • 16. IR CONFRONTANDO LANGUAGES MODELS
      • Il ranking corrisponde alla divergenza negativa fra il relevance model (R) ed il document model (D):
      Documento DIVERGENZA Query RANK DEL DOCUMENTO Insieme di documenti relevant Parola Prob america 0.2 lincoln 0.19 USA 0.10 president 0.09 … Parola Prob lincoln 0.3 president 0.3 america 0.15 president 0.15 …
    • 17. CONFRONTO FRA LANGUAGES MODELS
      • E’ possibile confrontare due distribuzioni di probabilità, e quindi due language model, mediante la divergenza informazionale (di Kullback-Leiber):
      • Per convenzione 0 log(0) = 0
      • La divergenza non è simmetrica
      • La divergenza è sempre positiva , può essere ∞
        • nulla se P=Q
        • maggiore proporzionalmente alla “distanza” fra P e Q
    • 18. IR CONFRONTANDO LANGUAGES MODELS
      • Il ranking corrisponde alla divergenza negativa fra il relevance model (R) ed il document model (D):
      • P(w|D) sappiamo calcolarlo.
      • Ma come calcolare P(w|R) ?
    • 19. COME CALCOLARE IL RELEVANCE MODEL?
      • Stimiamo il relevance model usando le parole della query :
      • Otteniamo una funzione di similitudine coincidente con quella vista nel query likelihood ranking:
      • Ma il relavance model calcolato in questo modo è un po’ povero : dovrebbe includere altre parole…
    • 20. COME CALCOLARE IL RELEVANCE MODEL (MEGLIO)?
      • Vediamo P(w|R) come la probabilità di scegliere w, sapendo che abbiamo già scelto i termini della query
      • L’obiettivo ora è trovare la probabilità congiunta P(w,q1…qn). Supponiamo di avere un insieme di documenti relevant C e la calcoliamo sulla base di questi documenti:
      Query likelihood ranking per il documento D (senza il logaritmo)
    • 21. COME ORDINARE I DOCUMENTI?
      • In conclusione:
      • In pratica occorre:
        • Ordinare i documenti usando query likelihood
        • Scegliere i primi n documenti che formeranno l’insieme C ( n =15-20, ma si potrebbe anche prendere l’intera collezione)
        • Calcolare le probabilità del relevance model, usando la formula scritta sopra
        • Calcolo la formula della slide 17, per trovare sim(Q,D) (considerando eventualmente solo le 10-25 parole più probabili)
    • 22. CALCOLO DEL RELEVANCE MODEL -ESEMPIO w P(w|D1)*peso(D1) P(w|D2)*peso(D2) P(w|D3)*peso(D3) Tot Tot norm silver 0,000 -1,939 -0,808 -2,748 0,148 a -0,615 -0,970 -0,808 -2,393 0,129 in -0,615 -0,970 -0,808 -2,393 0,129 of -0,615 -0,970 -0,808 -2,393 0,129 arrived 0,000 -0,970 -0,808 -1,778 0,096 truck 0,000 -0,970 -0,808 -1,778 0,096 gold -0,615 0,000 -0,808 -1,423 0,077 Shipment -0,615 0,000 -0,808 -1,423 0,077 delivery 0,000 -0,970 0,000 -0,970 0,052 damaged -0,615 0,000 0,000 -0,615 0,033 fire -0,615 0,000 0,000 -0,615 0,033
    • 23. PUNTEGGIO DELLA DIVERGENZA
      • Gli altri punteggi:
      • D2 = 34,956
      • D3 = 41.239
      w P(w|R) P(w|D1) Log(P(w|R))*Log(P(w|D1)) silver 0,148 0,143 3,714 a 0,129 0,000 0,000 in 0,129 0,143 3,983 of 0,129 0,000 0,000 arrived 0,096 0,143 4,561 truck 0,096 0,143 4,561 gold 0,077 0,143 4,994 Shipment 0,077 0,143 4,994 delivery 0,052 0,143 5,741 damaged 0,033 0,000 0,000 fire 0,033 0,000 0,000 TOT 32,547
    • 24. CONFRONTO FRA LANGUAGES MODELS - COMMENTI
      • Una generalizzazione del query likelihood ranking
      • Prevede una forma di espansione della query basata su pesudo-relevance feedback
      • Efficace
      • Ma le parole aggiunte alla query dipendono dalla collezione dei documenti e non è detto che riflettano pienamente il BI dell’utente
    • 25. RIFERIMENTI
      • B. Croft, D. Metzler, T. Strohman. Information retrieval in practice , Addison Wesley, in preparazione (2009?)
      • Approfondimenti:
        • http://en.wikipedia.org/wiki/Okapi_BM25
        • Language models for information retrieval , http://nlp.stanford.edu/IR-book/html/htmledition/language-models-for-information-retrieval-1.html
        • Fun with Kullback-Leibler Divergence: Result Reranking and Index runing http://www.ir.uwaterloo.ca/slides/buettcher_kld.pdf
    • 26. COME VARIA IL PUNTEGGIO IN FUNZIONE DELLA LUNGHEZZA DEL DOCUMENTO (BM25) L=0.5 L=0.9 L=1.4

    ×