1. Università degli Studi dell’Aquila
Master in Web Technology
WEB MINING
Confronto tra Terrier e Lucene
A. A. 2013/2014
Docente: Alessandro Celi
Studente Matricola Email
Silvio D’Orazio 234422 silvio.dorazio@gmail.com
Alessandra Ponis 234457 alessandra.ponis@gmail.com
2. MWT: Web Mining – 2013/14
2 | P a g i n a
Indice
Introduzione ...................................................................................................................................................... 4
Specifiche del progetto.................................................................................................................................. 4
Tecnologie utilizzate...................................................................................................................................... 4
Terrier................................................................................................................................................................ 5
Introduzione .................................................................................................................................................. 5
Indexing ......................................................................................................................................................... 5
Query processing........................................................................................................................................... 7
Installazione ed esecuzione di Terrier............................................................................................................... 9
Installazione................................................................................................................................................... 9
Struttura delle cartelle di Terrier................................................................................................................... 9
Le fasi di Terrier............................................................................................................................................. 9
Setup (indicizzazione: passo 1).................................................................................................................... 10
Indexing (indicizzazione: passo 2) ............................................................................................................... 11
Retrieval (recupero)..................................................................................................................................... 11
Evaluation (valutazione).............................................................................................................................. 12
I modelli di pesatura........................................................................................................................................ 14
Confronto tra modelli...................................................................................................................................... 14
Collezione Original........................................................................................................................................... 16
Confronto tra modelli di pesatura............................................................................................................... 16
Opzioni attivate e/o disattivate sul modello migliore e peggiore............................................................... 19
Applicazione dei modelli di Query Expansion ............................................................................................. 20
Valorizzazione del parametro “c” sul modello DLH13................................................................................. 22
Valorizzazione del parametro “c” sul modello PL2 ..................................................................................... 23
Collezione Degrade5........................................................................................................................................ 25
Confronto tra modelli di pesatura............................................................................................................... 25
3. MWT: Web Mining – 2013/14
3 | P a g i n a
Opzioni attivate e/o disattivate sul modello migliore e peggiore............................................................... 28
Applicazione dei modelli di Query Expansion ............................................................................................. 29
Valorizzazione del parametro “c” sul modello LGD..................................................................................... 31
Valorizzazione del parametro “c” sul modello BB2..................................................................................... 33
Collezione Degrade20...................................................................................................................................... 35
Confronto tra modelli di pesatura............................................................................................................... 35
Opzioni attivate e/o disattivate sul modello migliore e peggiore............................................................... 38
Applicazione dei modelli di Query Expansion ............................................................................................. 39
Valorizzazione del parametro “c” sul modello Ln2 ..................................................................................... 41
Valorizzazione del parametro “c” sul modello LGD..................................................................................... 43
Riassumendo ................................................................................................................................................... 45
Collezione Original....................................................................................................................................... 45
Collezione Degrade5.................................................................................................................................... 46
Collezione Degrade20.................................................................................................................................. 47
Apache Lucene................................................................................................................................................. 48
Overview...................................................................................................................................................... 48
Progetto Lucene .......................................................................................................................................... 48
Collezione Original........................................................................................................................................... 51
Collezione Degrade5........................................................................................................................................ 52
Collezione Degrade20...................................................................................................................................... 53
Confronto tra Terrier e Lucene........................................................................................................................ 54
Conclusioni ...................................................................................................................................................... 55
Riferimenti....................................................................................................................................................... 56
4. MWT: Web Mining – 2013/14
4 | P a g i n a
Introduzione
Specifiche del progetto
Attraverso i tools di Terrier e di Lucene, indicizzare ed eseguire il recupero su tutte e tre le collezioni della
Confusion Trec utilizzando, per Terrier almeno tre modelli di pesatura differenti a vostra scelta.
Effettuare un report dei risultati ottenuti che evidenzi i differenti comportamenti dei tools e dei modelli a
seconda delle collezioni utilizzate.
Effettuare il recupero testando tutte le varie tipologie di Q.E., StopWords e Stemming presenti su Terrier.
Tecnologie utilizzate
Nome Descrizione
Windows/Linux Sistemi operativi
Java JRE 1.6.0 + Il Java Runtime Environment è un ambiente di
esecuzione per applicazioni scritte in linguaggio Java
Terrier versione 3.5 Piattaforma di Information Retrieval, software
utilizzato per scopi accademici destinato allo studio
e all’apprendimento dei motori di ricerca. Il tool può
essere scaricato all’indirizzo riportato di seguito:
http://terrier.org/download/ .
TREC-5 Confusion Track In riferimento ad essa lavoreremo su:
confusion_track: collezione contenenti i
documenti da indicizzare (Original, Degrade5 e
Degrade20)
topics.confusion: file in cui si trovano le query
confusion.known_items: file in cui si trovano i
risultati ottenuti
Link di riferimento:
http://trec.nist.gov/data/t5_confusion.html
IDE eclipse versione Kepler SR2 ambiente di sviluppo integrato multi-linguaggio e
multipiattaforma utilizzato, nel nostro caso, per
programmare in linguaggio Java
Apache Lucene E’ una API (Application Programming Interface)
sviluppata in Java utilizzata in ambito dell’IR
trec_eval Strumento di valutazione su sistemi IR-based
5. MWT: Web Mining – 2013/14
5 | P a g i n a
Terrier
Introduzione
Terrier è una piattaforma di Information Retrieval implementata in Java e un motore di ricerca open source
che può facilmente lavorare su collezioni di documenti a larga scala. Questo sistema opera su dei
documenti che inizialmente vengono considerati come un insieme di stringhe e, prima di essere elaborate
dal tool, subiscono una fase di “tokenizzazione” o analisi lessicale dei singoli lessemi che compongono il
corpo del documento. Dopo questa fase preliminare, ogni termine viene inserito in una “Term Pipeline”
dove vengono effettuati un insieme di meccanismi preliminari alla costruzione dell’indice. In questa fase i
principali task svolti da un motore di IR sono la rimozione delle stop words, lo stemming, ecc… Una volta
che i termini sono stati processati attraverso la TermPipeline, vengono aggregati per creare le strutture dati
che compongono l’indice. Successivamente alla costruzione dell’indice si passa alle fasi di query processing
e di valutazione. I processi appena accennati verranno presentati più approfonditamente nei successivi
paragrafi.
Indexing
Come detto, il processo di indicizzazione, schematizzato nella figura sottostante, crea in output un insieme
di strutture dati atte a favorire un recupero efficace ed efficiente dei documenti. Basandosi su un approccio
di tipo “bag of words” e sfruttando modelli di tipo DFR (ovvero di tipo Divergence-from-Randomness),
Terrier considera i termini come singoli elementi costitutivi dei documenti e, conseguentemente, dei suoi
indici. L’intero processo di indicizzazione è quindi incentrato sulla ricerca, individuazione e catalogazione
dei termini in relazione ai documenti in cui compaiono e alle frequenze con le quali si presentano al loro
interno.
Le strutture generate al termine di tale processo sono le seguenti:
il lessico che è costituito dall’elenco dei termini presenti nell’intera collezione insieme alle
frequenze degli stessi e il numero di documenti in cui compaiono;
l’indice diretto che memorizza per ogni documento della collezione i termini che contiene e le
frequenze in cui compaiono i termini stessi;
6. MWT: Web Mining – 2013/14
6 | P a g i n a
l’indice inverso che memorizza per ogni termine l’elenco dei documenti in cui compare con le
annesse frequenze. Di fatto si tratta di un indice speculare a quello diretto;
l’indice dei documenti che stabilisce una connessione tra i documenti e le statistiche relative alla
presenza dei termini al loro interno.
La creazione di questi indici prevede, qualora l’utente ne senta la necessità, anche l’utilizzo di processi di
stemming e stop-words removal atti a consentire una più semplice ed efficiente indicizzazione dei termini.
La figura riportata di seguito mostra i processi coinvolti nella fase di indicizzazione:
7. MWT: Web Mining – 2013/14
7 | P a g i n a
Query processing
La ricerca dei documenti all’interno della collezione è resa possibile tramite la sottomissione di una query
da parte dell’utente. Per via della sua natura di strumento di ausilio per la ricerca in ambito
dell’InformationRetrieval, Terrier è fortemente collegato alle competizioni TREC [1].
Esistono due modalità di interrogazione: una prima interattiva, che permette all’utente di inserire
manualmente una query attraverso un’interfaccia, come avviene per qualunque motore di ricerca. La
seconda modalità invece prevede l’immissione automatica di topics strutturati secondo gli standard
rappresentativi della TREC.
La figura di seguito mostra graficamente in cosa consiste il processo si interrogazione:
8. MWT: Web Mining – 2013/14
8 | P a g i n a
A prescindere dalla natura dell’interrogazione viene offerta all’utente la possibilità di scegliere se effettuare
operazioni di pre-processing e post-processing.
Tipicamente, nella fase di pre-processing vengono attuate operazioni di stemming e stop-words removal,
comuni anche in fase di indicizzazione.
Nella fase di post-processing, invece, l’utente può scegliere se elaborare o filtrare i risultati delle
interrogazioni applicando diverse tecniche e, tipicamente, a tal fine viene utilizzata la Query Expansion. In
questa fase è possibile anche intercettare i documenti restituiti da un primo recupero e tramite questi
attuare tecniche di local feedback.
L’intero processo di interrogazione, con l’individuazione delle diverse componenti che ne fanno parte, è
evidenziato nella figura riportata precedentemente in questo paragrafo.
9. MWT: Web Mining – 2013/14
9 | P a g i n a
Installazione ed esecuzione di Terrier
Installazione
Il sito [2] offre implementazioni precompilate delle più recenti versioni di Terrier, sia per l’ambiente
Unix/Linux che per l’ambiente Windows. Per poter usare Terrier è sufficiente estrarre i contenuti del file
.zip scaricandolo in una directory a propria scelta nel File System. L’unico requisito per l’utilizzo di Terrier è
l’installazione del Java JRE versione 1.6.0 o più recente.
La versione di Terrier utilizzata in questa relazione è la 3.5, che rispetto alla 2.2.1 aggiunge nuove
funzionalità significative che possono essere consultate al seguente link [3].
Struttura delle cartelle di Terrier
Terrier, dopo esser stato estratto, presenta al suo interno una serie di directory:
bin/, contiene gli script per l’esecuzione dei comandi di Terrier
doc/, contiene la documentazione
etc/, contiene i file di configurazione (lavoreremo su questi file per configurare il sistema)
lib/, contiene un insieme di classi di Terrier e di librerie esterne
share/, presenta una lista di stop words e altri file utili
src/, presenta i sorgenti java dell’applicazione
var/, contiene due sottocartelle:
o index/, all’interno viene inserito l’indice che viene creato dal programma
o results/, presenta i risultati ottenuti dall’elaborazione delle query (ogni file dei risultati avrà un
nome con estensione .eval che identifica il tipo di elaborazione che è stata effettuata).
Le fasi di Terrier
Le fasi principali per un utilizzo efficace della piattaforma di Terrier sono:
SETUP;
INDEXING;
RECUPERO;
10. MWT: Web Mining – 2013/14
10 | P a g i n a
VALUTAZIONE.
Setup (indicizzazione: passo 1)
Prima di effettuare l’indicizzazione vera e propria, è necessario fare un setup preliminare di configurazione
del sistema per indicare a Terrier qual è la collezione che dovrà indicizzare. Il processo di setup necessita
che le cartelle etc e var/index siano vuote.
Per prima cosa bisogna posizionarsi all’interno della cartella in cui abbiamo memorizzato Terrier ed entrare
dentro la cartella /bin.
I comandi da indicare sono i seguenti:
trec_setup.sh /Path/To/Collection
Dove /Path/To/Collection conterrà l’indirizzo dove abbiamo posizionato la collezione da indicizzare.
Se l’operazione va a buon fine, nella cartella /etc vengono creati i seguenti file:
collection.spec: contiene l’elenco dei file su cui verrà creato l’indice.
terrier.properties: contiene le opzioni di configurazione. Tra le opzioni disponibili abbiamo le “query
tags specification” dove verranno opportunamente settati i valori di:
o TrecQueryTags.doctag
o TrecQueryTags.idtag
o TrecQueryTags.process
o TrecQueryTags.skip.
Nella sezione “query tags specification” del file terrier.properties si avrà una struttura come la seguente:
Invece, nella figura sottostante, viene riportata una parte della struttura del file topics.confusion
combaciante con quella riportata sopra:
11. MWT: Web Mining – 2013/14
11 | P a g i n a
terrier-log.xml
Indexing (indicizzazione: passo 2)
Per effettuare l’indicizzazione vera e propria, utilizzeremo come sistema operativo Linux (quindi gli script
che lanceremo saranno file con estensione .sh, ma per fare lo stesso con Windows basta lanciare i file con
estensione .bat) e indicizzeremo la collezione TREC-5 Confusion Track, che è possibile reperire al sito [4].
La fase di indicizzazione, ovvero quella in cui l’indice viene scritto su appropriate strutture dati, popola la
cartella var/index e viene effettuata lanciando questo comando:
trec_terrier.sh –i
Viene, così, creato sia l’indice inverso che quello diretto.
Per effettuare l’indicizzazione in un singolo passo, creando l’indice inverso ma non quello diretto, basta
lanciare quest’altro comando:
trec_terrier.sh –i -j
Retrieval (recupero)
Il processo di recupero con Terrier può essere di due tipologie:
Interactive Retrieval;
TREC-like, anche detto batch-retrieval.
12. MWT: Web Mining – 2013/14
12 | P a g i n a
Visto che ci troviamo di fronte ad una situazione di sperimentazione, verrà nel nostro caso utilizzata la
seconda tecnica, la quale richiede l’esecuzione della seguente istruzione dal terminale:
trec_terrier.bat –r –Dtrec.model=… –Dtrec.topics=…
Dove:
Dtrec.model indica il modello utilizzato;
Dtrec.topics contiene il percorso del file dove si trovano le query (topics.confusion).
N.B. aggiungere l’opzione –q qualora si voglia abilitare la Query Expansion.
Evaluation (valutazione)
Per ogni recupero di un insieme di documenti sarà eseguita una valutazione qualitativa, mediante il
comando:
trec_terrier.sh –e /Path/al/file/da/confrontare/confusion.known_items
verrà confrontato quanto ottenuto nel file con estensione .res con i risultati attesi specificati nel file
confusion.known_items (che vengono specificati dalla shell tramite il percorso
/Path/al/file/da/confrontare/confusion.known_items).
Ciò genererà un file con estensione .eval per ogni file .res contenuto nella cartella var/results, il quale
conterrà i risultati del confronto quali l’Average Precision, la R-Precision, le varie Pecision at ecc.
Di seguito viene presentata la struttura di un file .eval di esempio, che sarà il nostro principale punto di
riferimento per svolgere un’analisi di confronto:
____________________________________
Number of queries = 50
Retrieved = 44540
Relevant = 50
Relevant retrieved = 50
____________________________________
Average Precision: 0.8585
R Precision : 0.8000
13. MWT: Web Mining – 2013/14
13 | P a g i n a
____________________________________
Precision at 1 : 0.8000
Precision at 2 : 0.4400
Precision at 3 : 0.3000
Precision at 4 : 0.2300
Precision at 5 : 0.1880
Precision at 10 : 0.0940
Precision at 15 : 0.0640
Precision at 20 : 0.0490
Precision at 30 : 0.0327
Precision at 50 : 0.0200
Precision at 100 : 0.0100
Precision at 200 : 0.0050
Precision at 500 : 0.0020
Precision at 1000 : 0.0010
____________________________________
14. MWT: Web Mining – 2013/14
14 | P a g i n a
I modelli di pesatura
Terrier è una piattaforma open source di InformationRetrieval contenente svariati modelli di pesatura di
tipo DivergenceFromRandomness (DFR), così come altri modelli statistici di recupero moderni, tra cui il TF-
IDF, BM25 e LanguageModelling.
Il paradigma Divergence from Randomness costituisce una generalizzazione di uno dei primi modelli
primordiali di InformationRetrieval, ovvero il modello di indicizzazione 2-Poisson di Harter.
Il modello 2-Poisson si basa sull’ipotesi secondo cui il livello di trattamento delle parole informative è
testimoniato da un solo set di documenti, all’interno dei quali tali parole occorrono in misura relativamente
maggiore rispetto al resto dei documeti.
Confronto tra modelli
L’analisi che verrà effettuata di seguito servirà a confrontare i risultati ottenuti lavorando sulle diverse
collezioni della Confusion_Track, ovvero:
1. Original;
2. Degrade5 (degrade del 5 %);
3. Degrade20 (degrade del 20%).
Queste ultime due collezioni, a differenza della collezione originale, presentano un diverso margine di
errore e verranno utilizzate per comprendere se Terrier funziona bene in quanto sistema di IR anche in
presenza di errori nei documenti.
I modelli di pesatura messi di volta in volta a confronto sono tutti quelli di tipo DFR, il paradigma già
presentato nel paragrafo precedente, ovvero:
BB2: il modello di Bernoulli-Einstein con l’after-effect di Bernoulli e la normalizzazione 2.
BM25: un modello probabilistico di successo.
DFI0: il primo modello Divergence from Independence.
DFR_BM25: la versione DFR di BM25.
15. MWT: Web Mining – 2013/14
15 | P a g i n a
DLH: il modello DFR hyper-geometric DLH.
DLH13: una versione migliorata del modello DLH.
DPH: un modello diverso DFR hyper-geometric che utilizza la normalizzazione di Popper.
DFRee: un altro modello hyper-geometric che fa una media tra due misure informative.
Hiemstra_LM: il modello linguistico di Hiemstra.
IFB2: modello inverse term frequency con l’after-effect di Bernoulli e la normalizzazione 2.
In_expB2: modello inverse expected document frequency con l’after effect di Bernoulli e la
normalizzazione 2, in questo caso il logaritmo è in base 2.
In_expC2: modello inverse expected document frequency con l’after effect di Bernoulli e la
normalizzazione 2, il logaritmo è in base e.
InL2: modello inverse document frequency con l’after-effect di Laplace e la normalizzazione 2, il
logaritmo è in base e.
LemurTF_IDF: la versione di Lemur del modello tf*idf.
LGD: un modello logaritmico.
PL2: modello di base Poisson con probabilità di rischio calcolata usando il modello di Laplace e
normalizzazione 2.
TF_IDF: il popolare modello tf*idf, ovvero term frequency*inverse document frequency.
Su questi modelli verranno valutate e messe a confronto l’ “Average Precision”, “R-Precision”, le varie
“Precision at” e il numero di documenti rilevanti restituiti per le query immesse.
Dai risultati ottenuti verrà poi valutato il modello che ha prodotto un livello di precisione complessivo
migliore e quello che invece ha prodotto i risultati peggiori. Su tali modelli, saranno poi attivate o
disattivate secondo i casi le seguenti funzionalità, per valutare se è possibile ottenere una precisione
migliore rispetto all’IR di base:
Stop Words;
Stemming;
Query Expansion (applicando i vari modelli disponibili di Q.E.);
L’opzione c, ovvero il parametro per la normalizzazione della term frequency.
Di seguito viene riportata l’analisi che abbiamo presentato a grandi linee in questo paragrafo.
16. MWT: Web Mining – 2013/14
16 | P a g i n a
Collezione Original
Confronto tra modelli di pesatura
BB2 BM25 DFI0 DFR_BM25 DLH DLH13 DPH
Number of queries 50 50 50 50 50 50 50
Retrieved 44540 44540 44540 44540 44539 44540 44540
Relevant 50 50 50 50 50 50 50
Relevant retrieved 49 50 49 50 50 50 50
Average precision 0.7835 0.8197 0.8649 0.8141 0.8700 0.8976 0.8743
R-Precision 0.7200 0.7600 0.8000 0.7400 0.8200 0.8400 0.8000
Precision at 1 0.7200 0.7600 0.8000 0.7400 0.8200 0.8400 0.8000
Precision at 2 0.4000 0.4200 0.4500 0.4300 0.4400 0.4700 0.4600
Precision at 3 0.2800 0.2867 0.3067 0.2867 0.3000 0.3133 0.3133
Precision at 4 0.2100 0.2150 0.2300 0.2150 0.2250 0.2350 0.2350
Precision at 5 0.1720 0.1760 0.1880 0.1760 0.1840 0.1920 0.1920
Precision at 10 0.0880 0.0920 0.0980 0.0920 0.0960 0.0960 0.0980
Precision at 15 0.0600 0.0627 0.0653 0.0627 0.0667 0.0667 0.0667
Precision at 20 0.0450 0.0470 0.0490 0.0470 0.0500 0.0500 0.0500
Precision at 30 0.0307 0.0320 0.0327 0.0327 0.0333 0.0333 0.0333
Precision at 50 0.0192 0.0200 0.0196 0.0200 0.0200 0.0200 0.0200
Precision at 100 0.0096 0.0100 0.0098 0.0100 0.0100 0.0100 0.0100
Precision at 200 0.0049 0.0050 0.0049 0.0050 0.0050 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
17. MWT: Web Mining – 2013/14
17 | P a g i n a
DFRee Hiemstra_LM DirichletLM IFB2 In_expB2 In_expC2 InL2
Number of
queries
50 50 50 50 50 50 50
Retrieved 44540 44540 44540 44540 44540 44540 44540
Relevant 50 50 50 50 50 50 50
Relevant
retrieved
50 50 50 50 50 50 50
Average
precision
0.8975 0.8579 0.8687 0.8137 0.8135 0.8135 0.8358
R-Precision 0.8400 0.8000 0.8000 0.7400 0.7400 0.7400 0.7800
Precision at 1 0.8400 0.8000 0.8000 0.7400 0.7400 0.7400 0.7800
Precision at 2 0.4700 0.4400 0.4400 0.4200 0.4200 0.4200 0.4300
Precision at 3 0.3133 0.3000 0.3133 0.2933 0.2933 0.2933 0.2867
Precision at 4 0.2350 0.2250 0.2350 0.2200 0.2200 0.2200 0.2150
Precision at 5 0.1920 0.1840 0.1920 0.1800 0.1800 0.1800 0.1800
Precision at 10 0.0960 0.0960 0.0980 0.0920 0.0920 0.0920 0.0940
Precision at 15 0.0667 0.0667 0.0667 0.0627 0.0627 0.0627 0.0640
Precision at 20 0.0500 0.0500 0.0500 0.0480 0.0470 0.0470 0.0480
Precision at 30 0.0333 0.0333 0.0333 0.0327 0.0327 0.0327 0.0320
Precision at 50 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200
Precision at 100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100
Precision at 200 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
18. MWT: Web Mining – 2013/14
18 | P a g i n a
LemurTF_IDF LGD PL2 TF_IDF
Number of
queries
50 50 50 50
Retrieved 44540 44540 44527 44540
Relevant 50 50 50 50
Relevant
retrieved
50 50 49 50
Average
precision
0.8081 0.8937 0.7773 0.8324
R-Precision 0.7200 0.8400 0.7000 0.7800
Precision at 1 0.7200 0.8400 0.7000 0.7800
Precision at 2 0.4300 0.4600 0.4100 0.4300
Precision at 3 0.2867 0.3133 0.2733 0.2867
Precision at 4 0.2200 0.2350 0.2050 0.2150
Precision at 5 0.1840 0.1920 0.1680 0.1760
Precision at 10 0.0940 0.0960 0.0900 0.0920
Precision at 15 0.0640 0.0667 0.0627 0.0627
Precision at 20 0.0480 0.0500 0.0480 0.0470
Precision at 30 0.0327 0.0333 0.0320 0.0313
Precision at 50 0.0200 0.0200 0.0192 0.0200
Precision at 100 0.0100 0.0100 0.0098 0.0100
Precision at 200 0.0050 0.0050 0.0049 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010
In base ai risultati ottenuti, è possibile valutare quali sono i documenti che rappresentano la nostra baseline
e le valutazioni effettuate sui risultati delle query permettono di concludere che:
DLH13 (una versione migliorata del modello DLH) costituisce il modello di pesatura che restituisce
i risultati migliori;
PL2 (il modello di Poisson con probabilità di rischio calcolata usando il modello di Laplace e la
normalizzazione a 2) costituisce il modello di pesatura che restituisce i risultati peggiori.
Il resto dei test verranno effettuati su questi due modelli.
19. MWT: Web Mining – 2013/14
19 | P a g i n a
Opzioni attivate e/o disattivate sul modello migliore e peggiore
Stop Words +
Stemming
Stop Words Stemming No Stop Words +
No Stemming
Modelli DLH13 PL2 DLH13 PL2 DLH13 PL2 DLH13 PL2
Number of
queries
50 50 48 48 50 50 49 49
Retrieved 44540 44527 35933 35889 44540 44527 38449 38392
Relevant 50 50 48 48 50 50 49 49
Relevant
retrieved
50 49 43 42 50 49 43 42
Average
precision
0.8976 0.7773 0.5711 0.5089 0.8783 0.7714 0.5154 0.4266
R-Precision 0.8400 0.7000 0.5000 0.4375 0.8200 0.7000 0.4490 0.3469
Precision at 1 0.8400 0.7000 0.5000 0.4375 0.8200 0.7000 0.4490 0.3469
Precision at 2 0.4700 0.4100 0.2812 0.2500 0.4500 0.4000 0.2551 0.2143
Precision at 3 0.3133 0.2733 0.1944 0.1806 0.3067 0.2733 0.1701 0.1565
Precision at 4 0.2350 0.2050 0.1615 0.1354 0.2350 0.2050 0.1429 0.1173
Precision at 5 0.1920 0.1680 0.1292 0.1125 0.1920 0.1680 0.1224 0.1020
Precision at 10 0.0960 0.0900 0.0750 0.0708 0.0960 0.0900 0.0653 0.0612
Precision at 15 0.0667 0.0627 0.0514 0.0486 0.0653 0.0613 0.0463 0.0422
Precision at 20 0.0500 0.0480 0.0385 0.0365 0.0500 0.0470 0.0347 0.0316
Precision at 30 0.0333 0.0320 0.0257 0.0250 0.0333 0.0313 0.0245 0.0218
Precision at 50 0.0200 0.0192 0.0154 0.0154 0.0200 0.0192 0.0151 0.0135
Precision at 100 0.0100 0.0098 0.0088 0.0079 0.0100 0.0096 0.0082 0.0076
Precision at 200 0.0050 0.0049 0.0044 0.0041 0.0050 0.0049 0.0041 0.0040
Precision at 500 0.0020 0.0020 0.0018 0.0017 0.0020 0.0020 0.0017 0.0017
Precision at
1000
0.0010 0.0010 0.0009 0.0009 0.0010 0.0010 0.0009 0.0009
Sono stati effettuati dei test provando ad applicare le varie combinazioni risultanti dall’attivazione e la
disattivazione di una serie di Stop Words specificate all’interno di un apposito file e dello Stemming,
applicato sulla base dell’algoritmo di Porter.
Tali test dimostrano che la combinazione che porta ad ottenere i risultati migliori è quella che unisce
l’eliminazione delle Stop Words all’applicazione dello Stemming.
20. MWT: Web Mining – 2013/14
20 | P a g i n a
Applicazione dei modelli di Query Expansion
Modelli di Q.E. Bo1 Bo2 CS CSCorrect
DLH13 PL2 DLH13 PL2 DLH13 PL2 DLH13 PL2
Number of
queries
50 50 50 50 50 50 50 50
Retrieved 50000 50000 50000 50000 50000 50000 50000 50000
Relevant 50 50 50 50 50 50 50 50
Relevant
retrieved
50 49 50 50 49 48 49 48
Average
precision
0.7776 0.6612 0.7589 0.6176 0.4527 0.3702 0.4527 0.3702
R-Precision 0.6800 0.5600 0.6800 0.5000 0.2600 0.2200 0.2600 0.2200
Precision at 1 0.6800 0.5600 0.6800 0.5000 0.2600 0.2200 0.2600 0.2200
Precision at 2 0.4100 0.3300 0.3800 0.3200 0.2600 0.2000 0.2600 0.2000
Precision at 3 0.2800 0.2467 0.2667 0.2333 0.2000 0.1533 0.2000 0.1533
Precision at 4 0.2100 0.1850 0.2000 0.1750 0.1550 0.1250 0.1550 0.1250
Precision at 5 0.1720 0.1520 0.1680 0.1480 0.1320 0.1040 0.1320 0.1040
Precision at 10 0.0960 0.0880 0.0940 0.0860 0.0780 0.0640 0.0780 0.0640
Precision at 15 0.0667 0.0587 0.0627 0.0573 0.0533 0.0480 0.0533 0.0480
Precision at 20 0.0500 0.0460 0.0490 0.0430 0.0400 0.0370 0.0400 0.0370
Precision at 30 0.0333 0.0313 0.0333 0.0307 0.0300 0.0260 0.0300 0.0253
Precision at 50 0.0200 0.0192 0.0200 0.0188 0.0184 0.0164 0.0184 0.0164
Precision at 100 0.0100 0.0096 0.0100 0.0096 0.0096 0.0090 0.0096 0.0090
Precision at 200 0.0050 0.0049 0.0050 0.0049 0.0049 0.0046 0.0049 0.0046
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0019 0.0020 0.0019
Precision at
1000
0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
21. MWT: Web Mining – 2013/14
21 | P a g i n a
Modelli di Q.E. Information KL KLComplete KLCorrect
DLH13 PL2 DLH13 PL2 DLH13 PL2 DLH13 PL2
Number of
queries
50 50 50 50 50 50 50 50
Retrieved 50000 50000 50000 50000 50000 50000 50000 50000
Relevant 50 50 50 50 50 50 50 50
Relevant
retrieved
38 32 50 49 49 48 50 49
Average
precision
0.2436 0.1492 0.7723 0.6600 0.4524 0.3701 0.8672 0.7564
R-Precision 0.1600 0.0800 0.6800 0.5600 0.2600 0.2200 0.8000 0.6800
Precision at 1 0.1600 0.0800 0.6800 0.5600 0.2600 0.2200 0.8000 0.6800
Precision at 2 0.1300 0.0700 0.4000 0.3400 0.2600 0.2000 0.4400 0.3900
Precision at 3 0.1000 0.0600 0.2800 0.2400 0.2000 0.1533 0.3067 0.2667
Precision at 4 0.0800 0.0500 0.2100 0.1850 0.1550 0.1250 0.2300 0.2050
Precision at 5 0.0640 0.0480 0.1720 0.1520 0.1320 0.1040 0.1920 0.1680
Precision at 10 0.0360 0.0280 0.0940 0.0860 0.0760 0.0640 0.1000 0.0900
Precision at 15 0.0267 0.0213 0.0667 0.0587 0.0533 0.0480 0.0667 0.0613
Precision at 20 0.0220 0.0160 0.0500 0.0450 0.0400 0.0370 0.0500 0.0480
Precision at 30 0.0153 0.0113 0.0333 0.0313 0.0300 0.0253 0.0333 0.0480
Precision at 50 0.0096 0.0076 0.0200 0.0192 0.0184 0.0164 0.0200 0.0192
Precision at 100 0.0058 0.0046 0.0100 0.0098 0.0096 0.0090 0.0200 0.0098
Precision at 200 0.0033 0.0025 0.0050 0.0049 0.0049 0.0046 0.0050 0.0049
Precision at 500 0.0014 0.0012 0.0020 0.0020 0.0020 0.0019 0.0020 0.0020
Precision at
1000
0.0008 0.0006 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
E’ possibile espandere una o più query con la lista dei termini più informativi dei documenti meglio
classificati tramite l’applicazione del meccanismo di Query Expansion. Esistono svariati modelli di pesatura
dei termini che possono essere usati per espandere le query e sono stati in questo caso applicati ai due
modelli DFR ottenuti dalla precedente analisi.
Dai risultati della tabella è possibile osservare che, per quanto riguarda la collezione Original, non riusciamo
ad ottenere una migliore precisione.
Per questo motivo, il lavoro a seguito verrà effettuato disattivando la Query Expansion per valutare se sarà
possibile stavolta ottenere una precisione migliore cambiando l’opzione di normalizzazione della term
frequency.
22. MWT: Web Mining – 2013/14
22 | P a g i n a
Valorizzazione del parametro “c” sul modello DLH13
Modello
DLH13
c
1-16
Number of
queries
50
Retrieved 44540
Relevant 50
Relevant
retrieved
50
Average
precision
0.8976
R-Precision 0.8400
Precision at 1 0.8400
Precision at 2 0.4700
Precision at 3 0.3133
Precision at 4 0.2350
Precision at 5 0.1920
Precision at 10 0.0960
Precision at 15 0.0667
Precision at 20 0.0500
Precision at 30 0.0333
Precision at 50 0.0200
Precision at 100 0.0100
Precision at 200 0.0050
Precision at 500 0.0020
Precision at
1000
0.0010
Abbiamo effettuato una serie di test applicando il parametro c (ricordiamo che c seguito da un numero che
nel nostro caso va da 1.0 a 16.0 specifica il valore del parametro per la normalizzazione della term
frequency) al modello che ha prodotto i risultati migliori per la collezione Original, ovvero DLH13. E’ stato
osservato che i risultati rimangono invariati per tutto il range di valori di c.
23. MWT: Web Mining – 2013/14
23 | P a g i n a
Valorizzazione del parametro “c” sul modello PL2
Modello
PL2
c
1 2 3 4 5 6 7 8
Number of
queries
50 50 50 50 50 50 50 50
Retrieved 44527 44534 44536 44536 44536 44536 44536 44536
Relevant 50 50 50 50 50 50 50 50
Relevant retrieved 49 50 50 50 50 50 50 50
Average precision 0.7773 0.8206 0.8467 0.8789 0.8892 0.8896 0.8903 0.8910
R-Precision 0.7000 0.7600 0.7800 0.8200 0.8400 0.8400 0.8400 0.8400
Precision at 1 0.7000 0.7600 0.7800 0.8200 0.8400 0.8400 0.8400 0.8400
Precision at 2 0.4100 0.4100 0.4300 0.4600 0.4600 0.4600 0.4600 0.4600
Precision at 3 0.2733 0.2800 0.3000 0.3067 0.3067 0.3067 0.3067 0.3067
Precision at 4 0.2050 0.2200 0.2300 0.2300 0.2300 0.2300 0.2300 0.2300
Precision at 5 0.1680 0.1800 0.1880 0.1880 0.1880 0.1880 0.1880 0.1880
Precision at 10 0.0900 0.0960 0.0980 0.0980 0.0980 0.0980 0.0980 0.1000
Precision at 15 0.0627 0.0653 0.0653 0.0653 0.0653 0.0653 0.0667 0.0667
Precision at 20 0.0480 0.0490 0.0490 0.0490 0.0490 0.0500 0.0500 0.0500
Precision at 30 0.0320 0.0327 0.0327 0.0327 0.0333 0.0333 0.0333 0.0333
Precision at 50 0.0192 0.0196 0.0196 0.0200 0.0200 0.0200 0.0200 0.0200
Precision at 100 0.0098 0.0098 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100
Precision at 200 0.0049 0.0049 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
24. MWT: Web Mining – 2013/14
24 | P a g i n a
Modello
PL2
c
9 10 11 12 13 14 15 16
Number of
queries
50 50 50 50 50 50 50 50
Retrieved 44536 44537 44538 44538 44538 44538 44538 44539
Relevant 50 50 50 50 50 50 50 50
Relevant retrieved 49 50 50 50 50 50 50 50
Average precision 0.8933 0.8943 0.8960 0.8960 0.8960 0.8960 0.8860 0.8900
R-Precision 0.8400 0.8400 0.8400 0.8400 0.8400 0.8400 0.8200 0.8200
Precision at 1 0.8400 0.8400 0.8400 0.8400 0.8400 0.8400 0.8200 0.8200
Precision at 2 0.4600 0.4600 0.4600 0.4600 0.4600 0.4600 0.4600 0.4700
Precision at 3 0.3067 0.3067 0.3133 0.3133 0.3133 0.3133 0.3133 0.3133
Precision at 4 0.2300 0.2350 0.2350 0.2350 0.2350 0.2350 0.2350 0.2350
Precision at 5 0.1920 0.1920 0.1920 0.1920 0.1920 0.1920 0.1920 0.1960
Precision at 10 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000
Precision at 15 0.0667 0.0667 0.0667 0.0667 0.0667 0.0667 0.0667 0.0667
Precision at 20 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500
Precision at 30 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333
Precision at 50 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200
Precision at 100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100
Precision at 200 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
Sono stati effettuati dei test anche sul modello di pesatura che ha prodotto risultati peggiori per la
collezione Original, ovvero PL2. E’ stato osservato che i risultati migliorano al crescere del valore di c,
portando così ad una differenza importante tra la normalizzazione della tf pari a 1.0 e quella pari a 16.0.
Possiamo, dunque, concludere che applicare un alto valore di normalizzazione della term frequency nel suo
calcolo algoritmico ci permette di ottenere dei risultati nettamente migliori rispetto alla precisione che si
raggiunge senza aumentare di valore tale parametro.
Tuttavia, possiamo osservare che già impostando c=15.0 i valori ricominciano ad abbassarsi.
25. MWT: Web Mining – 2013/14
25 | P a g i n a
Collezione Degrade5
Confronto tra modelli di pesatura
BB2 BM25 DFI0 DFR_BM25 DLH DLH13 DPH
Number of queries 49 49 49 49 49 49 49
Retrieved 42664 42664 42663 42664 42661 42662 42662
Relevant 49 49 49 49 49 49 49
Relevant retrieved 46 48 48 48 48 48 48
Average precision 0.5280 0.6364 0.7076 0.6482 0.6491 0.6759 0.6444
R-Precision 0.4286 0.5510 0.6327 0.5714 0.5510 0.5714 0.5306
Precision at 1 0.4286 0.5510 0.6327 0.5714 0.5510 0.5714 0.5306
Precision at 2 0.2551 0.3163 0.3469 0.3163 0.3469 0.3571 0.3367
Precision at 3 0.2109 0.2381 0.2517 0.2381 0.2313 0.2517 0.2381
Precision at 4 0.1582 0.1786 0.1990 0.1786 0.1786 0.1888 0.1888
Precision at 5 0.1306 0.1469 0.1673 0.1551 0.1469 0.1592 0.1551
Precision at 10 0.0714 0.0776 0.0857 0.0776 0.0796 0.0837 0.0837
Precision at 15 0.0476 0.0544 0.0571 0.0531 0.0558 0.0571 0.0571
Precision at 20 0.0357 0.0408 0.0439 0.0408 0.0449 0.0449 0.0439
Precision at 30 0.0265 0.0286 0.0306 0.0286 0.0306 0.0306 0.0306
Precision at 50 0.0163 0.0180 0.0184 0.0184 0.0184 0.0184 0.0184
Precision at 100 0.0088 0.0094 0.0092 0.0094 0.0094 0.0094 0.0094
Precision at 200 0.0046 0.0048 0.0048 0.0048 0.0047 0.0048 0.0048
Precision at 500 0.0019 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at 1000 0.0009 0.0010 0.0010 0.0020 0.0010 0.0010 0.0010
26. MWT: Web Mining – 2013/14
26 | P a g i n a
DFRee Hiemstra_LM DirichletLM IFB2 In_expB2 In_expC2 InL2
Number of
queries
49 49 49 49 49 49 49
Retrieved 42662 42664 42661 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49
Relevant
retrieved
48 48 48 48 48 48 48
Average
precision
0.6899 0.6428 0.6710 0.5722 0.5859 0. 5748 0.6355
R-Precision 0.5918 0.5510 0.5714 0.4694 0.4898 0.4898 0.5306
Precision at 1 0.5918 0.5510 0.5714 0.4694 0.4898 0. 4898 0.5306
Precision at 2 0.3571 0.3265 0.3367 0.2755 0.2755 0. 2755 0.3367
Precision at 3 0.2517 0.2381 0.2517 0.2177 0.2313 0. 2041 0.2381
Precision at 4 0.1990 0.1837 0.1990 0.1735 0.1735 0. 1633 0.1786
Precision at 5 0.1673 0.1551 0.1592 0.1429 0.1429 0. 1429 0.1551
Precision at 10 0.0837 0.0776 0.0837 0.0755 0.0776 0. 0755 0.0796
Precision at 15 0.0571 0.0531 0.0585 0.0517 0.0517 0. 0503 0.0531
Precision at 20 0.0449 0.0418 0.0449 0.0388 0.0388 0. 0398 0.0408
Precision at 30 0.0306 0.0293 0.0299 0.0299 0.0286 0. 0279 0.0286
Precision at 50 0.0184 0.0184 0.0188 0.0184 0.0184 0. 0184 0.0184
Precision at 100 0.0094 0.0094 0.0094 0.0094 0.0094 0. 0094 0.0094
Precision at 200 0.0047 0.0047 0.0047 0.0048 0.0048 0. 0048 0.0048
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
27. MWT: Web Mining – 2013/14
27 | P a g i n a
LemurTF_IDF LGD PL2 TF_IDF
Number of
queries
49 49 49 49
Retrieved 42664 42664 42643 42664
Relevant 49 49 49 49
Relevant
retrieved
48 48 47 48
Average
precision
0.5800 0.7167 0.5619 0.6264
R-Precision 0.4694 0.6327 0.4286 0.5306
Precision at 1 0.4694 0.6327 0.5306 0.5306
Precision at 2 0.2959 0.3673 0.3061 0.3163
Precision at 3 0.2177 0.2653 0.2109 0.2381
Precision at 4 0.1735 0.1990 0.1684 0.1786
Precision at 5 0.1469 0.1673 0.1469 0.1510
Precision at 10 0.0776 0.0837 0.0776 0.0776
Precision at 15 0.0517 0.0571 0.0531 0.0531
Precision at 20 0.0398 0.0429 0.0418 0.0408
Precision at 30 0.0279 0.0306 0.0286 0.0286
Precision at 50 0.0188 0.0184 0.0180 0.0176
Precision at 100 0.0094 0.0094 0.0090 0.0094
Precision at 200 0.0047 0.0047 0.0047 0.0048
Precision at 500 0.0020 0.0020 0.0019 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010
Anche per questa collezione abbiamo raggiunto una baseline di documenti e, in base ai risultati ottenuti,
possiamo stavolta concludere che:
Il modello che ha generato i risultati di precisione migliori è LGD (un modello logaritmico);
Il modello che ha generato i risultati di precisione peggiori è BB2 (il modello di casualità Bose-
Einstein).
Anche in questo caso verranno effettuati dei test sui due modelli più rilevanti ai fini della nostra analisi, che
esporremo di seguito.
28. MWT: Web Mining – 2013/14
28 | P a g i n a
Opzioni attivate e/o disattivate sul modello migliore e peggiore
Stop Words +
Stemming
Stop Words Stemming No Stop Words +
No Stemming
LGD BB2 LGD BB2 LGD BB2 LGD BB2
Number of
queries
49 49 44 48 49 49 47 47
Retrieved 42664 42664 31815 31815 42692 42692 33385 33385
Relevant 49 49 44 44 49 49 47 47
Relevant
retrieved
48 46 35 33 48 46 35 33
Average
precision
0.7167 0.5280 0.4101 0.3228 0.6892 0.4822 0.3247 0.2134
R-Precision 0.6327 0.4286 0.3409 0.2727 0.5918 0.3878 0.2766 0.1702
Precision at 1 0.6327 0.4286 0.3409 0.2727 0.5918 0.3878 0.2766 0.1702
Precision at 2 0.3673 0.2551 0.1932 0.1477 0.3571 0.2245 0.1489 0.0851
Precision at 3 0.2653 0.2109 0.1515 0.0985 0.2653 0.1905 0.1064 0.0709
Precision at 4 0.1990 0.1582 0.1250 0.0739 0.1990 0.1429 0.1011 0.0585
Precision at 5 0.1673 0.1306 0.1000 0.0727 0.1633 0.1265 0.0809 0.0553
Precision at 10 0.0837 0.0714 0.0545 0.0477 0.0816 0.0653 0.0426 0.0319
Precision at 15 0.0571 0.0476 0.0379 0.0348 0.0544 0.0449 0.0298 0.0241
Precision at 20 0.0429 0.0357 0.0284 0.0261 0.0429 0.0347 0.0223 0.0191
Precision at 30 0.0306 0.0265 0.0212 0.0205 0.0299 0.0245 0.0163 0.0142
Precision at 50 0.0184 0.0163 0.0136 0.0123 0.0184 0.0159 0.0111 0.0094
Precision at 100 0.0094 0.0088 0.0073 0.0068 0.0092 0.0084 0.0064 0.0057
Precision at 200 0.0047 0.0046 0.0039 0.0036 0.0047 0.0044 0.0034 0.0032
Precision at 500 0.0020 0.0019 0.0016 0.0015 0.0019 0.0019 0.0015 0.0014
Precision at
1000
0.0010 0.0009 0.0008 0.0008 0.0010 0.0009 0.0007 0.0007
Anche stavolta abbiamo provato a verificare se è possibile ottenere una migliore precisione rispettivamente
attivando e/o disattivando le due opzioni di Stop Words e Stemming in base all’algoritmo di Porter.
Come è possibile notare, anche in questo caso la combinazione che ci permette di ottenere risultati migliori
è quella che unisce l’eliminazione delle Stop Words all’applicazione dello Stemming.
29. MWT: Web Mining – 2013/14
29 | P a g i n a
Applicazione dei modelli di Query Expansion
Modelli di Q.E. Bo1 Bo2 CS CSCorrect
LGD BB2 LGD BB2 LGD BB2 LGD BB2
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 49000 49000 49000 49000 49000 49000 49000 49000
Relevant 49 49 49 49 49 49 49 49
Relevant
retrieved
48 44 48 43 47 43 47 43
Average
precision
0.6762 0.4693 0.6844 0.4637 0.4385 0.2721 0.4385 0.2721
R-Precision 0.5918 0.3673 0.6122 0.3878 0.3061 0.1224 0.3061 0.1224
Precision at 1 0.5918 0.3673 0.6122 0.3878 0.3061 0.1224 0.3061 0.1224
Precision at 2 0.3367 0.2449 0.3367 0.2245 0.2245 0.1531 0.2245 0.1531
Precision at 3 0.2517 0.1769 0.2449 0.1633 0.1701 0.1224 0.1701 0.1224
Precision at 4 0.1939 0.1429 0.1939 0.1378 0.1480 0.0969 0.1480 0.0969
Precision at 5 0.1551 0.1143 0.1592 0.1143 0.1184 0.0939 0.1184 0.0939
Precision at 10 0.0796 0.0633 0.0796 0.0633 0.0694 0.0551 0.0694 0.0551
Precision at 15 0.0571 0.0449 0.0558 0.0435 0.0476 0.0367 0.0476 0.0367
Precision at 20 0.0439 0.0347 0.0429 0.0327 0.0367 0.0306 0.0367 0.0306
Precision at 30 0.0299 0.0245 0.0293 0.0231 0.0259 0.0211 0.0259 0.0211
Precision at 50 0.0188 0.0151 0.0184 0.0151 0.0163 0.0131 0.0163 0.0131
Precision at 100 0.0096 0.0084 0.0094 0.0080 0.0088 0.0071 0.0088 0.0071
Precision at 200 0.0049 0.0042 0.0049 0.0043 0.0047 0.0041 0.0047 0.0041
Precision at 500 0.0020 0.0018 0.0020 0.0018 0.0019 0.0018 0.0019 0.0018
Precision at
1000
0.0010 0.0009 0.0010 0.0009 0.0010 0.0009 0.0010 0.0009
30. MWT: Web Mining – 2013/14
30 | P a g i n a
Modelli di Q.E. Information KL KLComplete KLCorrect
LGD BB2 LGD BB2 LGD BB2 LGD BB2
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 49000 49000 49000 49000 49000 49000 49000 49000
Relevant 49 49 49 49 49 49 49 49
Relevant
retrieved
36 29 48 44 47 43 48 44
Average
precision
0.2301 0.0973 0.6697 0.4681 0.4385 0.2702 0.7069 0.4821
R-Precision 0.1429 0.0204 0.5714 0.3673 0.3061 0.1224 0.6122 0.3878
Precision at 1 0.1429 0.0204 0.5714 0.3673 0.3061 0.1224 0.6122 0.3878
Precision at 2 0.1224 0.0510 0.3571 0.2449 0.2245 0.1531 0.3673 0.2347
Precision at 3 0.0884 0.0408 0.2449 0.1769 0.1701 0.1156 0.2653 0.1837
Precision at 4 0.0714 0.0306 0.1888 0.1378 0.1480 0.0969 0.1990 0.1378
Precision at 5 0.0653 0.0327 0.1551 0.1143 0.1184 0.0939 0.1633 0.1184
Precision at 10 0.0388 0.0224 0.0796 0.0633 0.0694 0.0531 0.0837 0.0673
Precision at 15 0.0286 0.0190 0.0558 0.0449 0.0476 0.0367 0.0585 0.0463
Precision at 20 0.0224 0.0184 0.0439 0.0337 0.0367 0.0306 0.0439 0.0367
Precision at 30 0.0163 0.0129 0.0299 0.0238 0.0259 0.0211 0.0313 0.0252
Precision at 50 0.0106 0.0086 0.0188 0.0151 0.0163 0.0131 0.0188 0.0163
Precision at 100 0.0059 0.0047 0.0094 0.0086 0.0088 0.0069 0.0094 0.0084
Precision at 200 0.0034 0.0026 0.0049 0.0043 0.0047 0.0041 0.0048 0.0043
Precision at 500 0.0015 0.0012 0.0020 0.0018 0.0019 0.0018 0.0020 0.0018
Precision at
1000
0.0007 0.0006 0.0010 0.0009 0.0010 0.0009 0.0010 0.0009
Analizzando la tabella possiamo concludere che sulla collezione Degrade5, applicando i vari modelli di
Query Expansion, otteniamo una precisione peggiore rispetto ai risultati che abbiamo raggiunto senza
applicarli, per entrambi i modelli di pesatura LGD e BB2.
In base a questa valutazione, ne consegue che conviene effettuare il lavoro di seguito disattivando la Query
Expansion di modo da osservare se è possibile raggiungere una precisione migliore aumentando il valore
del parametro di normalizzazione della term frequency.
31. MWT: Web Mining – 2013/14
31 | P a g i n a
Valorizzazione del parametro “c” sul modello LGD
Modello
LGD
c
1 2 3 4 5 6 7 8
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42664 42664 42664 42664 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 48 48 48 48 48 48 48 48
Average precision 0.7167 0.7185 0.7186 0.7183 0.7081 0.7082 0.7081 0.7079
R-Precision 0.6327 0.6327 0.6327 0.6327 0.6122 0.6122 0.6122 0.6122
Precision at 1 0.6327 0.6327 0.6327 0.6327 0.6122 0.6122 0.6122 0.6122
Precision at 2 0.3673 0.3776 0.3776 0.3776 0.3776 0.3776 0.3776 0.3776
Precision at 3 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653
Precision at 4 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990
Precision at 5 0.1673 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633
Precision at 10 0.0837 0.0837 0.0837 0.0816 0.0816 0.0837 0.0837 0.0837
Precision at 15 0.0571 0.0571 0.0571 0.0571 0.0571 0.0571 0.0571 0.0571
Precision at 20 0.0429 0.0439 0.0439 0.0439 0.0439 0.0439 0.0439 0.0439
Precision at 30 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306
Precision at 50 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184
Precision at 100 0.0094 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092
Precision at 200 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0019 0.0019
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
32. MWT: Web Mining – 2013/14
32 | P a g i n a
Modello
LGD
c
9 10 11 12 13 14 15 16
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42664 42664 42664 42664 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 48 48 48 48 48 48 48 48
Average precision 0.7079 0.6979 0.6979 0.6843 0.6843 0.6842 0.6854 0.6855
R-Precision 0.6122 0.5918 0.5918 0.5714 0.5714 0.5714 0.5714 0.5714
Precision at 1 0.6122 0.5918 0.5918 0.5714 0.5714 0.5714 0.5714 0.5714
Precision at 2 0.3776 0.3776 0.3776 0.3673 0.3673 0.3673 0.3673 0.3673
Precision at 3 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653
Precision at 4 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 0.2041 0.2041
Precision at 5 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633
Precision at 10 0.0837 0.0837 0.0837 0.0837 0.0837 0.0837 0.0837 0.0837
Precision at 15 0.0558 0.0558 0.0558 0.0558 0.0558 0.0558 0.0558 0.0571
Precision at 20 0.0449 0.0449 0.0449 0.0449 0.0449 0.0449 0.0449 0.0449
Precision at 30 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306
Precision at 50 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184
Precision at 100 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092
Precision at 200 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047
Precision at 500 0.0019 0.0019 0.0019 0.0019 0.0019 0.0019 0.0019 0.0019
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
Anche per la collezione Degrade5 abbiamo provato ad effettuare dei test specificando il parametro c ed
aumentandone il valore fino a 16.0, per valutare se facendo crescere il peso della term frequency è
possibile ottenere dei risultati di precisione migliori.
Tali test, per quanto riguarda il modello LGD che ha prodotto in precedenza i valori di precisione più alti,
permettono di concludere che nel caso di questa collezione aumentare il parametro c consente di ottenere
dei risultati solo lievemente migliori, impostando soprattutto c=3.0.
33. MWT: Web Mining – 2013/14
33 | P a g i n a
Valorizzazione del parametro “c” sul modello BB2
Modello
BB2
c
1 2 3 4 5 6 7 8
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42664 42664 42664 42664 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 46 45 45 42 41 40 40 40
Average precision 0.5280 0.5004 0.4715 0.4616 0.4639 0.4412 0.4555 0.4557
R-Precision 0.4286 0.3878 0.3673 0.3673 0.3878 0.3673 0.3878 0.3878
Precision at 1 0.4286 0.3878 0.3673 0.3673 0.3878 0.3673 0.3878 0.3878
Precision at 2 0.2551 0.2755 0.2551 0.2449 0.2347 0.2143 0.2143 0.2143
Precision at 3 0.2109 0.1905 0.1769 0.1701 0.1633 0.1565 0.1633 0.1633
Precision at 4 0.1582 0.1531 0.1429 0.1327 0.1276 0.1224 0.1327 0.1327
Precision at 5 0.1306 0.1265 0.1224 0.1184 0.1184 0.1102 0.1143 0.1143
Precision at 10 0.0714 0.0653 0.0612 0.0612 0.0592 0.0592 0.0592 0.0592
Precision at 15 0.0476 0.0435 0.0422 0.0408 0.0408 0.0395 0.0408 0.0408
Precision at 20 0.0357 0.0337 0.0327 0.0316 0.0316 0.0316 0.0316 0.0316
Precision at 30 0.0265 0.0245 0.0231 0.0231 0.0224 0.0224 0.0224 0.0224
Precision at 50 0.0163 0.0163 0.0155 0.0151 0.0147 0.0143 0.0143 0.0143
Precision at 100 0.0088 0.0084 0.0080 0.0078 0.0076 0.0073 0.0073 0.0073
Precision at 200 0.0046 0.0045 0.0042 0.0041 0.0040 0.0039 0.0039 0.0039
Precision at 500 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0016 0.0016
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008
34. MWT: Web Mining – 2013/14
34 | P a g i n a
Modello
BB2
c
9 10 11 12 13 14 15 16
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42664 42664 42664 42664 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 48 39 39 39 39 39 39 39
Average precision 0.4554 0.4355 0.4368 0.4368 0.4368 0.4364 0.4363 0.4160
R-Precision 0.3878 0.3673 0.3673 0.3673 0.3673 0.3673 0.3469 0.3469
Precision at 1 0.3878 0.3673 0.3673 0.3673 0.3673 0.3673 0.3469 0.3469
Precision at 2 0.2143 0.2041 0.2041 0.2041 0.2041 0.2041 0.1939 0.1939
Precision at 3 0.1633 0.1565 0.1633 0.1633 0.1633 0.1633 0.1565 0.1565
Precision at 4 0.1327 0.1276 0.1276 0.1276 0.1276 0.1276 0.1224 0.1224
Precision at 5 0.1143 0.1102 0.1061 0.1061 0.1061 0.1061 0.1020 0.1020
Precision at 10 0.0592 0.0571 0.0571 0.0571 0.0571 0.0571 0.0551 0.0551
Precision at 15 0.0408 0.0395 0.0408 0.0408 0.0408 0.0408 0.0395 0.0395
Precision at 20 0.0327 0.0327 0.0327 0.0327 0.0327 0.0327 0.0316 0.0316
Precision at 30 0.0224 0.0218 0.0218 0.0218 0.0218 0.0218 0.0211 0.0211
Precision at 50 0.0143 0.0139 0.0139 0.0139 0.0139 0.0139 0.0135 0.0135
Precision at 100 0.0073 0.0071 0.0071 0.0071 0.0071 0.0071 0.0069 0.0069
Precision at 200 0.0039 0.0038 0.0038 0.0038 0.0038 0.0038 0.0037 0.0037
Precision at 500 0.0016 0.0016 0.0016 0.0016 0.0016 0.0016 0.0015 0.0015
Precision at 1000 0.0008 0.0008 0.0008 0.0008 0.0008 0.0008 0.0008 0.0008
Gli stessi test sono stati effettuati sul modello che ha prodotto in precedenza i valori di precisione più bassi
per la collezione Degrade5. Applicando il parametro c ed aumentandone il valore fino a 16.0, è possibile
concludere che in questo contesto aumentare il valore di c porta ad un graduale abbassamento della
precisione.
35. MWT: Web Mining – 2013/14
35 | P a g i n a
Collezione Degrade20
Confronto tra modelli di pesatura
BB2 BM25 DFI0 DFR_BM25 DLH DLH13 DPH
Number of queries 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49
Relevant retrieved 44 45 42 45 43 45 44
Average precision 0.2841 0. 3141 0.2906 0. 3147 0.2838 0.2890 0.3170
R-Precision 0. 1633 0.1837 0.1633 0.1837 0.1633 0.1633 0.2041
Precision at 1 0.4286 0.1837 0.1633 0.1837 0.1633 0.1633 0.2041
Precision at 2 0. 1429 0. 1633 0.1531 0. 1633 0.1327 0.1327 0.1531
Precision at 3 0. 1224 0.1293 0.1156 0.1293 0.1020 0.1088 0.1156
Precision at 4 0. 0969 0.1173 0.1020 0.1173 0.0918 0.1020 0.1071
Precision at 5 0. 0898 0.0980 0.0898 0.0980 0.0898 0.0898 0.0939
Precision at 10 0. 0469 0.0531 0.0469 0.0531 0.0551 0.0571 0.0551
Precision at 15 0. 0354 0.0354 0.0395 0.0354 0.0408 0.0408 0.0395
Precision at 20 0. 0286 0.0276 0.0316 0.0276 0.0316 0.0337 0.0316
Precision at 30 0. 0211 0.0218 0.0224 0.0218 0.0231 0.0231 0.0224
Precision at 50 0. 0139 0.0147 0.0143 0.0147 0.0147 0.0155 0.0151
Precision at 100 0. 0071 0.0076 0.0080 0.0076 0.0082 0.0078 0.0078
Precision at 200 0. 0040 0.0040 0.0041 0.0041 0.0042 0.0042 0.0042
Precision at 500 0. 0017 0.0017 0.0017 0.0018 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
36. MWT: Web Mining – 2013/14
36 | P a g i n a
DFRee Hiemstra_LM DirichletLM IFB2 In_expB2 In_expC2 InL2
Number of
queries
49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49
Relevant
retrieved
43 45 45 45 45 48 45
Average
precision
0.2838 0.2978 0.3240 0.5722 0. 3236 0.3106 0.3292
R-Precision 0.1633 0.1633 0.2041 0.4694 0. 2041 0.2041 0.2041
Precision at 1 0.1633 0.1633 0.2041 0.4694 0. 2041 0.2041 0.2041
Precision at 2 0.1327 0.1531 0.1633 0.2755 0. 1633 0.1531 0.1735
Precision at 3 0.1020 0.1361 0.1361 0.2177 0. 1361 0.1224 0.1293
Precision at 4 0.0918 0.1071 0.1173 0.1735 0. 1173 0.1020 0.1173
Precision at 5 0.0898 0.0898 0.0980 0.1429 0. 0980 0.0898 0.0980
Precision at 10 0.0551 0.0510 0.0490 0.0755 0. 0490 0.0490 0.0531
Precision at 15 0.0408 0.0354 0.0367 0.0517 0. 0367 0.0354 0.0354
Precision at 20 0.0316 0.0306 0.0306 0.0388 0. 0296 0.0286 0.0296
Precision at 30 0.0231 0.0231 0.0296 0.0299 0. 0218 0.0211 0.0224
Precision at 50 0.0147 0.0147 0.0143 0.0184 0. 0143 0.0139 0.0147
Precision at 100 0.0082 0.0078 0.0076 0.0094 0. 0073 0.0076 0.0076
Precision at 200 0.0042 0.0040 0.0042 0.0048 0. 0041 0.0041 0.0040
Precision at 500 0.0017 0.0017 0.0018 0.0020 0. 0018 0.0017 0.0018
Precision at
1000
0.0009 0.0009 0.0009 0.0010 0. 0009 0.0009 0.0009
37. MWT: Web Mining – 2013/14
37 | P a g i n a
LemurTF_IDF LGD PL2 TF_IDF
Number of
queries
49 49 49 49
Retrieved 42575 42575 42567 42575
Relevant 49 49 49 49
Relevant
retrieved
45 44 44 45
Average
precision
0.2894 0.2803 0.3047 0.3108
R-Precision 0.1837 0.1633 0.1837 0.1837
Precision at 1 0.1837 0.1633 0.1837 0.1837
Precision at 2 0.1429 0.1122 0.1633 0.1633
Precision at 3 0.1156 0.1088 0.1156 0.1293
Precision at 4 0.0969 0.0918 0.1071 0.1071
Precision at 5 0.0816 0.0816 0.0898 0.0939
Precision at 10 0.0469 0.0571 0.0531 0.0531
Precision at 15 0.0327 0.0422 0.0381 0.0354
Precision at 20 0.0255 0.0347 0.0286 0.0286
Precision at 30 0.0204 0.0238 0.0218 0.0218
Precision at 50 0.0147 0.0151 0.0143 0.0147
Precision at 100 0.0078 0.0084 0.0076 0.0076
Precision at 200 0.0039 0.0042 0.0038 0.0039
Precision at 500 0.0017 0.0017 0.0017 0.0017
Precision at
1000
0.0009 0.0009 0.0009 0.0009
Anche nel caso della collezione Degrade20 abbiamo raggiunto una baseline di documenti. Osservando i
risultati della tabella possiamo concludere che:
Il modello che ha generato i risultati migliori è InL2 (il modello di casualità basato sulla Inverse
document frequency);
Il modello che ha generato i risultati peggiori è LGD (un modello logaritmico).
Anche in questo caso continueremo ad effettuare il resto dei test solo su tali modelli.
38. MWT: Web Mining – 2013/14
38 | P a g i n a
Opzioni attivate e/o disattivate sul modello migliore e peggiore
Stop Words +
Stemming
Stop Words Stemming No Stop Words +
No Stemming
InL2 LGD InL2 LGD InL2 LGD InL2 LGD
Number of
queries
49 49 44 44 49 49 47 47
Retrieved 42575 42575 29798 29798 44340 44340 42772 42772
Relevant 49 49 44 44 49 49 47 47
Relevant
retrieved
45 44 28 28 41 41 25 23
Average
precision
0.3292 0.2803 0.1921 0.1746 0.2802 0.2732 0.1360 0.1171
R-Precision 0.2041 0.1633 0.1364 0.1136 0.1633 0.1633 0.1064 0.0851
Precision at 1 0.2041 0.1633 0.1364 0.1136 0.1633 0.1633 0.1064 0.0851
Precision at 2 0.1735 0.1122 0.1023 0.0909 0.1429 0.1122 0.0532 0.0426
Precision at 3 0.1293 0.1088 0.0682 0.0682 0.1088 0.1088 0.0496 0.0355
Precision at 4 0.1173 0.0918 0.0568 0.0511 0.0918 0.0918 0.0372 0.0319
Precision at 5 0.0980 0.0816 0.0455 0.0455 0.0816 0.0898 0.0298 0.0298
Precision at 10 0.0531 0.0571 0.0273 0.0273 0.0490 0.0510 0.0191 0.0191
Precision at 15 0.0354 0.0422 0.0197 0.0182 0.0340 0.0367 0.0142 0.0156
Precision at 20 0.0296 0.0347 0.0182 0.0170 0.0286 0.0296 0.0149 0.0138
Precision at 30 0.0224 0.0238 0.0136 0.0129 0.0224 0.0204 0.0106 0.0113
Precision at 50 0.0147 0.0151 0.0086 0.0091 0.0147 0.0147 0.0068 0.0068
Precision at 100 0.0076 0.0084 0.0048 0.0050 0.0078 0.0080 0.0036 0.0036
Precision at 200 0.0040 0.0042 0.0027 0.0026 0.0040 0.0042 0.0022 0.0022
Precision at 500 0.0018 0.0017 0.0013 0.0012 0.0016 0.0017 0.0009 0.0009
Precision at
1000
0.0009 0.0009 0.0006 0.0006 0.0008 0.0008 0.0005 0.0005
Anche nel caso della collezione Degrade20 abbiamo provato ad applicare le varie combinazioni di
attivazione e/o disattivazione della lista di Stop Words e dello Stemming di Porter.
Tale analisi dimostra che, ancora una volta, la combinazione che consente di ottenere una precisione più
alta è quella che unisce l’eliminazione delle Stop Words all’applicazione dello Stemming process.
39. MWT: Web Mining – 2013/14
39 | P a g i n a
Applicazione dei modelli di Query Expansion
Modelli di Q.E. Bo1 Bo2 CS CSCorrect
InL2 LGD InL2 LGD InL2 LGD InL2 LGD
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 49000 49000 49000 49000 49000 49000 49000 49000
Relevant 49 49 49 49 49 49 49 49
Relevant
retrieved
44 44 44 44 42 37 42 37
Average
precision
0.2978 0.2643 0.2926 0.2614 0.2371 0.1985 0.2371 0.1985
R-Precision 0.1837 0.1429 0.1837 0.1429 0.1224 0.0816 0.1224 0.0816
Precision at 1 0.1837 0.1429 0.1837 0.1429 0.1224 0.0816 0.1224 0.0816
Precision at 2 0.1531 0.1122 0.1633 0.1327 0.1327 0.0918 0.1327 0.0918
Precision at 3 0.1088 0.1088 0.1156 0.1088 0.1020 0.0884 0.1020 0.0884
Precision at 4 0.0918 0.0969 0.0969 0.0918 0.0867 0.0816 0.0867 0.0816
Precision at 5 0.0857 0.0857 0.0816 0.0776 0.0776 0.0735 0.0776 0.0735
Precision at 10 0.0531 0.0510 0.0429 0.0490 0.0429 0.0429 0.0429 0.0429
Precision at 15 0.0381 0.0395 0.0313 0.0327 0.0299 0.0299 0.0299 0.0299
Precision at 20 0.0296 0.0306 0.0276 0.0265 0.0224 0.0235 0.0224 0.0235
Precision at 30 0.0204 0.0224 0.0197 0.0184 0.0156 0.0163 0.0156 0.0163
Precision at 50 0.0139 0.0151 0.0131 0.0127 0.0102 0.0102 0.0102 0.0102
Precision at 100 0.0078 0.0084 0.0076 0.0076 0.0061 0.0059 0.0061 0.0059
Precision at 200 0.0043 0.0045 0.0042 0.0040 0.0034 0.0033 0.0034 0.0033
Precision at 500 0.0018 0.0018 0.0018 0.0018 0.0016 0.0014 0.0016 0.0014
Precision at
1000
0.0009 0.0009 0.0009 0.0009 0.0009 0.0008 0.0009 0.0008
40. MWT: Web Mining – 2013/14
40 | P a g i n a
Modelli di Q.E. Information KL KLComplete KLCorrect
InL2 LGD InL2 LGD InL2 LGD InL2 LGD
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 49000 49000 49000 49000 49000 49000 49000 49000
Relevant 49 49 49 49 49 49 49 49
Relevant
retrieved
26 22 45 44 41 37 45 45
Average
precision
0.1780 0.1572 0.3025 0.2749 0.2500 0.1982 0.3137 0.2809
R-Precision 0.1224 0.0816 0.1837 0.1633 0.1429 0.0816 0.1837 0.1633
Precision at 1 0.1224 0.0816 0.1837 0.1633 0.1429 0.0816 0.1837 0.1633
Precision at 2 0.0714 0.0816 0.1531 0.1122 0.1429 0.0918 0.1633 0.1224
Precision at 3 0.0680 0.0680 0.1224 0.1156 0.1020 0.0884 0.1293 0.1088
Precision at 4 0.0663 0.0561 0.1020 0.0969 0.0867 0.0816 0.1071 0.0867
Precision at 5 0.0612 0.0531 0.0898 0.0857 0.0776 0.0776 0.0898 0.0857
Precision at 10 0.0306 0.0306 0.0510 0.0510 0.0408 0.0429 0.0551 0.0551
Precision at 15 0.0204 0.0218 0.0381 0.0367 0.0299 0.0299 0.0381 0.0408
Precision at 20 0.0153 0.0163 0.0306 0.0306 0.0224 0.0224 0.0296 0.0337
Precision at 30 0.0102 0.0116 0.0204 0.0224 0.0156 0.0163 0.0218 0.0238
Precision at 50 0.0061 0.0069 0.0135 0.0151 0.0102 0.0102 0.0143 0.0151
Precision at 100 0.0035 0.0037 0.0080 0.0082 0.0061 0.0057 0.0076 0.0084
Precision at 200 0.0020 0.0018 0.0042 0.0044 0.0034 0.0033 0.0041 0.0042
Precision at 500 0.0009 0.0009 0.0018 0.0018 0.0016 0.0014 0.0018 0.0018
Precision at
1000
0.0005 0.0004 0.0009 0.0009 0.0008 0.0008 0.0009 0.0009
Anche per la collezione Degrade20 abbiamo applicato la Query Expansion tramite i vari modelli disponibili e
possiamo concludere che il livello di precisione anche stavolta non migliora rispetto ai risultati ottenuti
senza utilizzare la Query Expansion per quanto riguarda il modello InL2, mentre otteniamo un leggero
miglioramento per quanto riguarda il modello LGD.
Siccome il miglioramento per il modello LGD è lieve, in base all’analisi effettuata abbiamo ritenuto
opportuno anche stavolta aumentare il parametro di normalizzazione della term frequency senza
adoperare la Query Expansion, come vedremo di seguito.
41. MWT: Web Mining – 2013/14
41 | P a g i n a
Valorizzazione del parametro “c” sul modello Ln2
Modello
Ln2
c
1 2 3 4 5 6 7 8
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 45 45 45 45 45 45 45 45
Average precision 0.3292 0.3197 0.2987 0.2873 0.2824 0.2879 0.2897 0.2868
R-Precision 0.2041 0.1837 0.1429 0.1224 0.1224 0.1429 0.1429 0.1429
Precision at 1 0.2041 0.1837 0.1429 0.1224 0.1224 0.1429 0.1429 0.1429
Precision at 2 0.1735 0.1633 0.1633 0.1633 0.1531 0.1429 0.1429 0.1327
Precision at 3 0.1293 0.1361 0.1224 0.1224 0.1156 0.1156 0.1156 0.1156
Precision at 4 0.1173 0.1122 0.1173 0.1122 0.1122 0.1071 0.1122 0.1122
Precision at 5 0.0980 0.0939 0.0980 0.0939 0.0939 0.0939 0.0939 0.0939
Precision at 10 0.0531 0.0551 0.0592 0.0571 0.0592 0.0592 0.0592 0.0612
Precision at 15 0.0354 0.0395 0.0408 0.0408 0.0408 0.0408 0.0422 0.0408
Precision at 20 0.0296 0.0316 0.0327 0.0316 0.0316 0.0327 0.0327 0.0327
Precision at 30 0.0224 0.0224 0.0224 0.0224 0.0231 0.0231 0.0231 0.0231
Precision at 50 0.0147 0.0147 0.0147 0.0151 0.0151 0.0151 0.0151 0.0151
Precision at 100 0.0076 0.0078 0.0080 0.0080 0.0080 0.0082 0.0082 0.0082
Precision at 200 0.0040 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042
Precision at 500 0.0018 0.0018 0.0018 0.0018 0.0017 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
42. MWT: Web Mining – 2013/14
42 | P a g i n a
Modello
InL2
c
9 10 11 12 13 14 15 16
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 44 44 44 44 44 44 44 44
Average precision 0.2856 0.2829 0.2857 0.2886 0.2869 0.2864 0.2859 0.2866
R-Precision 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429
Precision at 1 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429
Precision at 2 0.1327 0.1224 0.1224 0.1327 0.1327 0.1327 0.1327 0.1327
Precision at 3 0.1088 0.1088 0.1224 0.1224 0.1224 0.1224 0.1224 0.1224
Precision at 4 0.1122 0.1122 0.1122 0.1122 0.1071 0.1071 0.1071 0.1071
Precision at 5 0.0939 0.0980 0.0980 0.0980 0.0939 0.0939 0.0939 0.0980
Precision at 10 0.0592 0.0592 0.0592 0.0592 0.0592 0.0571 0.0571 0.0571
Precision at 15 0.0408 0.0408 0.0408 0.0408 0.0408 0.0408 0.0408 0.0408
Precision at 20 0.0327 0.0327 0.0327 0.0327 0.0316 0.0316 0.0316 0.0316
Precision at 30 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231
Precision at 50 0.0151 0.0151 0.0151 0.0151 0.0151 0.0151 0.0151 0.0151
Precision at 100 0.0082 0.0082 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080
Precision at 200 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042
Precision at 500 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
Abbiamo testato il modello di pesatura InL2 che ha rilevato i risultati migliori di precisione per la collezione
Degrade20 applicandogli il parametro di normalizzazione della term frequency e aumentandolo di valore
fino a 16.0. L’analisi condotta ci porta a concludere che aumentare il parametro c porta ad ottenere dei
risultati gradualmente peggiori, e dunque ad una degradazione del livello di precisione.
43. MWT: Web Mining – 2013/14
43 | P a g i n a
Valorizzazione del parametro “c” sul modello LGD
Modello
LGD
c
1 2 3 4 5 6 7 8
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 44 43 43 43 43 43 43 43
Average precision 0.2803 0.2866 0.2848 0.2882 0.2882 0.2843 0.2864 0.2860
R-Precision 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633
Precision at 1 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633
Precision at 2 0.1122 0.1327 0.1327 0.1327 0.1327 0.1224 0.1327 0.1327
Precision at 3 0.1088 0.1088 0.1020 0.1088 0.1088 0.1088 0.1088 0.1088
Precision at 4 0.0918 0.0918 0.0918 0.1020 0.1020 0.1020 0.1020 0.1020
Precision at 5 0.0816 0.0776 0.0816 0.0857 0.0857 0.0857 0.0898 0.0898
Precision at 10 0.0571 0.0571 0.0571 0.0571 0.0571 0.0551 0.0531 0.0531
Precision at 15 0.0422 0.0408 0.0408 0.0408 0.0395 0.0395 0.0395 0.0395
Precision at 20 0.0347 0.0337 0.0327 0.0327 0.0327 0.0327 0.0316 0.0316
Precision at 30 0.0238 0.0238 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231
Precision at 50 0.0151 0.0151 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147
Precision at 100 0.0084 0.0084 0.0084 0.0084 0.0082 0.0080 0.0080 0.0080
Precision at 200 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042
Precision at 500 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
44. MWT: Web Mining – 2013/14
44 | P a g i n a
Modello
LGD
c
9 10 11 12 13 14 15 16
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 43 43 43 43 43 43 43 43
Average precision 0.2965 0.2963 0.2962 0.2960 0.2960 0.2973 0.2971 0.3006
R-Precision 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837
Precision at 1 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837
Precision at 2 0.1327 0.1327 0.1327 0.1327 0.1327 0.1327 0.1327 0.1429
Precision at 3 0.1088 0.1088 0.1088 0.1088 0.1088 0.1156 0.1156 0.1156
Precision at 4 0.1071 0.1071 0.1071 0.1071 0.1071 0.1071 0.1071 0.1071
Precision at 5 0.0898 0.0898 0.0898 0.0898 0.0898 0.0898 0.0898 0.0898
Precision at 10 0.0531 0.0531 0.0531 0.0531 0.0531 0.0531 0.0531 0.0531
Precision at 15 0.0381 0.0381 0.0367 0.0367 0.0367 0.0367 0.0367 0.0367
Precision at 20 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306
Precision at 30 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 0.0224 0.0224
Precision at 50 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147
Precision at 100 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080
Precision at 200 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042
Precision at 500 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
Abbiamo provato a verificare anche se aumentando il valore del parametro c per il modello di pesatura che
produce i risultati peggiori, nel caso della collezione Degrade20, riusciamo ad arrivare ad una precisione
migliore. Dai risultati ottenuti, possiamo concludere che aumentare il valore del peso di tf nel caso del
modello LGD porta ad un buon miglioramento complessivo.
45. MWT: Web Mining – 2013/14
45 | P a g i n a
Riassumendo
Collezione Original
I risultati di precisione migliori ottenuti applicando le varie opzioni che abbiamo analizzato in precedenza,
per i modelli di pesatura che restituiscono rispettivamente un esito migliore e peggiore di precisione per la
collezione Original, sono:
Funzionalità
attivate
Stop Words +
Stemming
Q.E.: KLCorrect c
Modelli DLH13 PL2 DLH13 PL2 DLH13 PL2
Number of
queries
50 50 50 50 50 50
Retrieved 44540 44527 50000 50000 44540 44538
Relevant 50 50 50 50 50 50
Relevant
retrieved
50 49 50 49 50 50
Average
precision
0.8976 0.7773 0.8672 0.7564 0.8976 0.8960
R-Precision 0.8400 0.7000 0.8000 0.6800 0.8400 0.8400
Precision at 1 0.8400 0.7000 0.8000 0.6800 0.8400 0.8400
Precision at 2 0.4700 0.4100 0.4400 0.3900 0.4700 0.4600
Precision at 3 0.3133 0.2733 0.3067 0.2667 0.3133 0.3133
Precision at 4 0.2350 0.2050 0.2300 0.2050 0.2350 0.2350
Precision at 5 0.1920 0.1680 0.1920 0.1680 0.1920 0.1920
Precision at 10 0.0960 0.0900 0.1000 0.0900 0.0960 0.1000
Precision at 15 0.0667 0.0627 0.0667 0.0613 0.0667 0.0667
Precision at 20 0.0500 0.0480 0.0500 0.0480 0.0500 0.0500
Precision at 30 0.0333 0.0320 0.0333 0.0480 0.0333 0.0333
Precision at 50 0.0200 0.0192 0.0200 0.0192 0.0200 0.0200
Precision at 100 0.0100 0.0098 0.0200 0.0098 0.0100 0.0100
Precision at 200 0.0050 0.0049 0.0050 0.0049 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
46. MWT: Web Mining – 2013/14
46 | P a g i n a
Collezione Degrade5
I risultati migliori che abbiamo invece ottenuto svolgendo dei test e applicando le varie funzionalità
disponibili sui modelli che hanno restituito rispettivamente i risultati migliori e peggiori di precisione sulla
collezione Degrade5, sono:
Funzionalità
attivate
Stop Words +
Stemming
Q.E.: KLCorrect c
Modelli LGD BB2 LGD BB2 LGD BB2
Number of
queries
49 49 49 49 49 49
Retrieved 42664 42664 49000 49000 42664 42664
Relevant 49 49 49 49 49 49
Relevant
retrieved
48 46 48 44 48 46
Average
precision
0.7167 0.5280 0.7069 0.4821 0.7186 0.5280
R-Precision 0.6327 0.4286 0.6122 0.3878 0.6327 0.4286
Precision at 1 0.6327 0.4286 0.6122 0.3878 0.6327 0.4286
Precision at 2 0.3673 0.2551 0.3673 0.2347 0.3776 0.2551
Precision at 3 0.2653 0.2109 0.2653 0.1837 0.2653 0.2109
Precision at 4 0.1990 0.1582 0.1990 0.1378 0.1990 0.1582
Precision at 5 0.1673 0.1306 0.1633 0.1184 0.1633 0.1306
Precision at 10 0.0837 0.0714 0.0837 0.0673 0.0837 0.0714
Precision at 15 0.0571 0.0476 0.0585 0.0463 0.0571 0.0476
Precision at 20 0.0429 0.0357 0.0439 0.0367 0.0439 0.0357
Precision at 30 0.0306 0.0265 0.0313 0.0252 0.0306 0.0265
Precision at 50 0.0184 0.0163 0.0188 0.0163 0.0184 0.0163
Precision at 100 0.0094 0.0088 0.0094 0.0084 0.0092 0.0088
Precision at 200 0.0047 0.0046 0.0048 0.0043 0.0047 0.0046
Precision at 500 0.0020 0.0019 0.0020 0.0018 0.0020 0.0019
Precision at
1000
0.0010 0.0009 0.0010 0.0009 0.0010 0.0009
47. MWT: Web Mining – 2013/14
47 | P a g i n a
Collezione Degrade20
Per quanto riguarda la collezione Degrade20, i risultati migliori di precisione che abbiamo invece ottenuto
applicando le varie funzionalità disponibili sui modelli di pesatura che hanno restituito rispettivamente i
risultati migliori e peggiori, sono:
Funzionalità
attivate
Stop Words +
Stemming
Q.E.: KLCorrect c
Modelli InL2 LGD InL2 LGD InL2 LGD
Number of
queries
49 49 49 49 49 49
Retrieved 42575 42575 49000 49000 42575 42575
Relevant 49 49 49 49 49 49
Relevant
retrieved
45 44 45 45 45 43
Average
precision
0.3292 0.2803 0.3137 0.2809 0.3292 0.3006
R-Precision 0.2041 0.1633 0.1837 0.1633 0.2041 0.1837
Precision at 1 0.2041 0.1633 0.1837 0.1633 0.2041 0.1837
Precision at 2 0.1735 0.1122 0.1633 0.1224 0.1735 0.1429
Precision at 3 0.1293 0.1088 0.1293 0.1088 0.1293 0.1156
Precision at 4 0.1173 0.0918 0.1071 0.0867 0.1173 0.1071
Precision at 5 0.0980 0.0816 0.0898 0.0857 0.0980 0.0898
Precision at 10 0.0531 0.0571 0.0551 0.0551 0.0531 0.0531
Precision at 15 0.0354 0.0422 0.0381 0.0408 0.0354 0.0367
Precision at 20 0.0296 0.0347 0.0296 0.0337 0.0296 0.0306
Precision at 30 0.0224 0.0238 0.0218 0.0238 0.0224 0.0224
Precision at 50 0.0147 0.0151 0.0143 0.0151 0.0147 0.0147
Precision at 100 0.0076 0.0084 0.0076 0.0084 0.0076 0.0080
Precision at 200 0.0040 0.0042 0.0041 0.0042 0.0040 0.0042
Precision at 500 0.0018 0.0017 0.0018 0.0018 0.0018 0.0017
Precision at
1000
0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
48. MWT: Web Mining – 2013/14
48 | P a g i n a
Apache Lucene
Overview
Apache Lucene è una API open source che ha una funzione di motore di ricerca testuale ed è scritta
interamente nel linguaggio Java. Si tratta di una tecnologia adattabile all’incirca a qualsiasi applicazione che
richieda una ricerca full-text, specialmente se cross-platform.
E’ attualmente supportata dall’Apache Software Foundation ed è resa open source tramite l’Apache
License.
Le caratteristiche principali di Lucene sono le seguenti:
Indicizzazione scalabile e ad alte performance;
supporto di algoritmi di ricerca efficienti;
cross-platform;
supporto fornito dall’Apache Software all’Apache Community e ai progetti open source.
Per ulteriori informazioni, basta consultare il sito [5].
Progetto Lucene
Per il nostro progetto abbiamo deciso di creare un’applicazione Java che sia capace di creare un indice e di
eseguire delle query sull’indice creato, per poi generare dei risultati.
L’esecuzione dell’intero processo di interrogazione restituisce in output un file con estensione .out, così
formattato:
numero_query Q0 <DOCNO> i-esimo_DOCNO score_doc nome_modello_utilizzatoA
All’interno del file, per ogni query vengono specificati i documenti ordinati in maniera decrescente di
score_doc, ponendo in testa il documento più rilevante.
Il file .out sarà poi oggetto di valutazione da parte del tool trec_eval, che descriveremo successivamente.
49. MWT: Web Mining – 2013/14
49 | P a g i n a
Il progetto Java consiste di tre classi:
1. IndexTREC: che insieme alla classe TrecDocIterator si occupa dell’indicizzazione;
2. TrecDocIterator: che itera sui documenti;
3. BatchSearch: che si occupa della ricerca.
Per far funzionare tali classi, nel progetto abbiamo bisogno delle seguenti librerie:
JDK 1.7;
lucene-analyzer-common-4.9.0.jar;
lucene-core-4.9.0.jar;
lucene-queryparser-4.9.0.jar.
I modelli previsti per la ricerca sono:
1) default: modello di default di Lucene, corrisponde al TF_IFD;
2) BM25: modello di valutazione probabilistico BM25;
3) DFR: Divergence from Randomness, paradigma di standardizzazione di Harter’s 2-poisson;
4) LM: modello di valutazione linguistico con Dirichlet smoothing, anche detto Language Model.
Di seguito mostriamo la struttura del progetto Java SE:
Supponendo di avere a disposizione un file contenente i risultati attesi, che nel nostro caso è chiamato
confusion.known_items_marco, è possibile procedere alla valutazione dei risultati prodotti nel file .out
generato dal programma. Dato che i modelli disponibili per Lucene sono 4 e le collezioni sono 3, il sistema
genera complessivamente 12 file con estensione .out.
Questo processo di valutazione è stato effettuato per ogni collezione della Confusion TREC (Original,
Degrade5 e Degrade20) e a tal fine è stato utilizzato il tool trec_eval reperibile all’indirizzo [6].
50. MWT: Web Mining – 2013/14
50 | P a g i n a
Per utilizzare trec_eval è stato necessario compilare i sorgenti contenuti nell’archivio utilizzando il
compilatore GCC (un compilatore multi-target creato inizialmente dal fondatore della Free Software
Foundation come parte del Progetto GNU) mediate il comando “make” lanciato da terminale.
A livello pratico per comparare i file con estensione .out con i risultati attesi abbiamo utilizzato l’eseguibile
trec_eval ottenuto, appunto, dopo il lancio del comando “make”.
Nei paragrafi successivi riporteremo i risultati mostrati a video restituiti dall’interfaccia del terminale.
51. MWT: Web Mining – 2013/14
51 | P a g i n a
Collezione Original
L’esecuzione dei comandi accennati nel paragrafo precedente, ha portato a generare i seguenti risultati:
Modelli di pesatura DEFAULT
(TF_IDF)
BM25 DFR LM
num_q 49 49 49 49
num_ret 44162 44162 44162 44162
num_rel 49 49 49 49
num_rel_ret 48 46 45 47
MAP 0.5088 0.5232 0.2726 0.5744
Rprec 0.4082 0.4490 0.0816 0.4898
Precision at 5 0.1388 0.1388 0.1020 0.1306
Precision at 10 0.0714 0.0714 0.0735 0.0735
Precision at 15 0.0503 0.0476 0.0503 0.0503
Precision at 20 0.0378 0.0378 0.0388 0.0388
Precision at 30 0.0259 0.0265 0.0272 0.0265
Precision at 100 0.0086 0.0086 0.0086 0.0090
Precision at 200 0.0045 0.0044 0.0044 0.0046
Precision at 500 0.0019 0.0018 0.0018 0.0019
Precision at 1000 0.0010 0.0009 0.0009 0.0010
Come è possibile notare Lucene, a differenza di Terrier, mette a disposizione per la ricerca dei documenti
soltanto 4 modelli diversi di pesatura.
La valutazione permette di concludere che:
LM è il modello di pesatura che ha restituito una precisione migliore;
DFR è il paradigma che ha restituito una precisione peggiore.
52. MWT: Web Mining – 2013/14
52 | P a g i n a
Collezione Degrade5
Per la collezione Degrade5 è stato rieseguito da capo il programma, il quale ha portato a questi nuovi
risultati:
Modelli di pesatura DEFAULT
(TF_IDF)
BM25 DFR LM
num_q 49 49 49 49
num_ret 42486 42486 42486 42486
num_rel 49 49 49 49
num_rel_ret 45 44 44 45
MAP 0.4250 0.4158 0.3345 0.4128
Rprec 0.3265 0.3061 0.1837 0.3061
Precision at 5 0.1143 0.1061 0.1061 0.1061
Precision at 10 0.0612 0.0612 0.0592 0.0612
Precision at 15 0.0408 0.0408 0.0408 0.0463
Precision at 20 0.0316 0.0316 0.0316 0.0388
Precision at 30 0.0231 0.0245 0.0231 0.0265
Precision at 100 0.0080 0.0080 0.0082 0.0086
Precision at 200 0.0043 0.0044 0.0043 0.0044
Precision at 500 0.0018 0.0018 0.0018 0.0018
Precision at 1000 0.0009 0.0009 0.0009 0.0009
Stavolta è possibile osservare che:
TF_IDF è il modello di pesatura che ha restituito una precisione migliore;
DFR è il paradigma che ha restituito una precisione peggiore, ancora una volta.
53. MWT: Web Mining – 2013/14
53 | P a g i n a
Collezione Degrade20
Per la collezione Degrade20, il programma ha generato questi altri risultati:
Modelli di pesatura DEFAULT
(TF_IDF)
BM25 DFR LM
num_q 49 49 49 49
num_ret 40989 40989 40989 40989
num_rel 49 49 49 49
num_rel_ret 34 33 32 33
MAP 0.2344 0.2553 0.1763 0.2320
Rprec 0.1633 0.1837 0.0816 0.1429
Precision at 5 0.0571 0.0571 0.0571 0.0653
Precision at 10 0.0367 0.0408 0.0367 0.0408
Precision at 15 0.0259 0.0272 0.0259 0.0313
Precision at 20 0.0214 0.0235 0.0235 0.0245
Precision at 30 0.0163 0.0177 0.0170 0.0177
Precision at 100 0.0057 0.0059 0.0059 0.0063
Precision at 200 0.0031 0.0031 0.0030 0.0032
Precision at 500 0.0013 0.0013 0.0013 0.0013
Precision at 1000 0.0007 0.0007 0.0007 0.0007
Nel caso della collezione Degrade20 osserviamo, invece, che:
BM25 è il modello di pesatura che ha restituito una precisione migliore;
DFR è il paradigma che ha restituito una precisione peggiore, di nuovo.
54. MWT: Web Mining – 2013/14
54 | P a g i n a
Confronto tra Terrier e Lucene
Collezioni Tool
MODELLO MIGLIORE MODELLO PEGGIORE
Nome
modello
Average
Precision
R-
Precision
Nome
modello
Average
Precision
R-Precision
Original
Terrier DLH13 0.8976 0.8400 PL2
(c=11-14)
0.8960 0.8400
Lucene LM 0.5744 0.4898 DFR 0.2726 0.0816
Degrade5
Terrier LGD
(c=3)
0.7186 0.6327 BB2 0.5280 0.4286
Lucene TF_IDF 0.4250 0.3265 DFR 0.3345 0.1837
Degrade20
Terrier InL2 0.3292 0.2041 LGD
(c=16)
0.3006 0.1837
Lucene BM25 0.2553 0.1837 DFR 0.1763 0.0816
In questa tabella vengono riportati i valori di precisione migliori e peggiori ottenuti applicando i modelli di
pesatura messi a disposizione dai due tool, rilevati analizzando le 3 collezioni della TREC. Come possiamo
notare, abbiamo riscontrato un comportamento nettamente migliore da parte del tool Terrier 3.5 rispetto
al tool Lucene.
55. MWT: Web Mining – 2013/14
55 | P a g i n a
Conclusioni
L’analisi effettuata ci permette di concludere che, per le 3 collezioni della Confusion Track, la piattaforma di
Terrier ha una performance nettamente migliore rispetto alla API Java Lucene.
E’ bene ad ogni modo ricordare che le varie interrogazioni sulle 3 collezioni hanno tenuto in considerazione
anche una query che restituisce 0 documenti rilevanti, la quale ha portato ad un abbassamento
complessivo dei risultati finali. Per questo motivo, i risultati che abbiamo riportato nelle varie tabelle vanno
considerati come valori relativi la cui utilità è finalizzata al semplice confronto tra i due tool.
Infine, pensando ad uno sviluppo futuro per ciò che abbiamo creato ai fini di questa relazione, possiamo
concludere che il progetto Java presentato può essere integrato facilmente in qualsiasi applicazione web
che necessita una funzionalità di ricerca su collezioni di documenti di grandi dimensioni.
56. MWT: Web Mining – 2013/14
56 | P a g i n a
Riferimenti
[1] Text Retrieval Conference’s website, http://trec.nist.gov/
[2] Terrier’s web site, http://terrier.org/
[3] What’s news in Terrier 3.5, http://terrier.org/docs/v3.5/whats_new.html
[4] TREC-5 Confusion Track’s web site, http://trec.nist.gov/data/t5_confusion.html
[5] Lucene Core, http://lucene.apache.org/
[6] trec_eval, http://trec.nist.gov/trec_eval/