SlideShare a Scribd company logo
1 of 56
Università degli Studi dell’Aquila
Master in Web Technology
WEB MINING
Confronto tra Terrier e Lucene
A. A. 2013/2014
Docente: Alessandro Celi
Studente Matricola Email
Silvio D’Orazio 234422 silvio.dorazio@gmail.com
Alessandra Ponis 234457 alessandra.ponis@gmail.com
MWT: Web Mining – 2013/14
2 | P a g i n a
Indice
Introduzione ...................................................................................................................................................... 4
Specifiche del progetto.................................................................................................................................. 4
Tecnologie utilizzate...................................................................................................................................... 4
Terrier................................................................................................................................................................ 5
Introduzione .................................................................................................................................................. 5
Indexing ......................................................................................................................................................... 5
Query processing........................................................................................................................................... 7
Installazione ed esecuzione di Terrier............................................................................................................... 9
Installazione................................................................................................................................................... 9
Struttura delle cartelle di Terrier................................................................................................................... 9
Le fasi di Terrier............................................................................................................................................. 9
Setup (indicizzazione: passo 1).................................................................................................................... 10
Indexing (indicizzazione: passo 2) ............................................................................................................... 11
Retrieval (recupero)..................................................................................................................................... 11
Evaluation (valutazione).............................................................................................................................. 12
I modelli di pesatura........................................................................................................................................ 14
Confronto tra modelli...................................................................................................................................... 14
Collezione Original........................................................................................................................................... 16
Confronto tra modelli di pesatura............................................................................................................... 16
Opzioni attivate e/o disattivate sul modello migliore e peggiore............................................................... 19
Applicazione dei modelli di Query Expansion ............................................................................................. 20
Valorizzazione del parametro “c” sul modello DLH13................................................................................. 22
Valorizzazione del parametro “c” sul modello PL2 ..................................................................................... 23
Collezione Degrade5........................................................................................................................................ 25
Confronto tra modelli di pesatura............................................................................................................... 25
MWT: Web Mining – 2013/14
3 | P a g i n a
Opzioni attivate e/o disattivate sul modello migliore e peggiore............................................................... 28
Applicazione dei modelli di Query Expansion ............................................................................................. 29
Valorizzazione del parametro “c” sul modello LGD..................................................................................... 31
Valorizzazione del parametro “c” sul modello BB2..................................................................................... 33
Collezione Degrade20...................................................................................................................................... 35
Confronto tra modelli di pesatura............................................................................................................... 35
Opzioni attivate e/o disattivate sul modello migliore e peggiore............................................................... 38
Applicazione dei modelli di Query Expansion ............................................................................................. 39
Valorizzazione del parametro “c” sul modello Ln2 ..................................................................................... 41
Valorizzazione del parametro “c” sul modello LGD..................................................................................... 43
Riassumendo ................................................................................................................................................... 45
Collezione Original....................................................................................................................................... 45
Collezione Degrade5.................................................................................................................................... 46
Collezione Degrade20.................................................................................................................................. 47
Apache Lucene................................................................................................................................................. 48
Overview...................................................................................................................................................... 48
Progetto Lucene .......................................................................................................................................... 48
Collezione Original........................................................................................................................................... 51
Collezione Degrade5........................................................................................................................................ 52
Collezione Degrade20...................................................................................................................................... 53
Confronto tra Terrier e Lucene........................................................................................................................ 54
Conclusioni ...................................................................................................................................................... 55
Riferimenti....................................................................................................................................................... 56
MWT: Web Mining – 2013/14
4 | P a g i n a
Introduzione
Specifiche del progetto
Attraverso i tools di Terrier e di Lucene, indicizzare ed eseguire il recupero su tutte e tre le collezioni della
Confusion Trec utilizzando, per Terrier almeno tre modelli di pesatura differenti a vostra scelta.
Effettuare un report dei risultati ottenuti che evidenzi i differenti comportamenti dei tools e dei modelli a
seconda delle collezioni utilizzate.
Effettuare il recupero testando tutte le varie tipologie di Q.E., StopWords e Stemming presenti su Terrier.
Tecnologie utilizzate
Nome Descrizione
Windows/Linux Sistemi operativi
Java JRE 1.6.0 + Il Java Runtime Environment è un ambiente di
esecuzione per applicazioni scritte in linguaggio Java
Terrier versione 3.5 Piattaforma di Information Retrieval, software
utilizzato per scopi accademici destinato allo studio
e all’apprendimento dei motori di ricerca. Il tool può
essere scaricato all’indirizzo riportato di seguito:
http://terrier.org/download/ .
TREC-5 Confusion Track In riferimento ad essa lavoreremo su:
 confusion_track: collezione contenenti i
documenti da indicizzare (Original, Degrade5 e
Degrade20)
 topics.confusion: file in cui si trovano le query
 confusion.known_items: file in cui si trovano i
risultati ottenuti
Link di riferimento:
http://trec.nist.gov/data/t5_confusion.html
IDE eclipse versione Kepler SR2 ambiente di sviluppo integrato multi-linguaggio e
multipiattaforma utilizzato, nel nostro caso, per
programmare in linguaggio Java
Apache Lucene E’ una API (Application Programming Interface)
sviluppata in Java utilizzata in ambito dell’IR
trec_eval Strumento di valutazione su sistemi IR-based
MWT: Web Mining – 2013/14
5 | P a g i n a
Terrier
Introduzione
Terrier è una piattaforma di Information Retrieval implementata in Java e un motore di ricerca open source
che può facilmente lavorare su collezioni di documenti a larga scala. Questo sistema opera su dei
documenti che inizialmente vengono considerati come un insieme di stringhe e, prima di essere elaborate
dal tool, subiscono una fase di “tokenizzazione” o analisi lessicale dei singoli lessemi che compongono il
corpo del documento. Dopo questa fase preliminare, ogni termine viene inserito in una “Term Pipeline”
dove vengono effettuati un insieme di meccanismi preliminari alla costruzione dell’indice. In questa fase i
principali task svolti da un motore di IR sono la rimozione delle stop words, lo stemming, ecc… Una volta
che i termini sono stati processati attraverso la TermPipeline, vengono aggregati per creare le strutture dati
che compongono l’indice. Successivamente alla costruzione dell’indice si passa alle fasi di query processing
e di valutazione. I processi appena accennati verranno presentati più approfonditamente nei successivi
paragrafi.
Indexing
Come detto, il processo di indicizzazione, schematizzato nella figura sottostante, crea in output un insieme
di strutture dati atte a favorire un recupero efficace ed efficiente dei documenti. Basandosi su un approccio
di tipo “bag of words” e sfruttando modelli di tipo DFR (ovvero di tipo Divergence-from-Randomness),
Terrier considera i termini come singoli elementi costitutivi dei documenti e, conseguentemente, dei suoi
indici. L’intero processo di indicizzazione è quindi incentrato sulla ricerca, individuazione e catalogazione
dei termini in relazione ai documenti in cui compaiono e alle frequenze con le quali si presentano al loro
interno.
Le strutture generate al termine di tale processo sono le seguenti:
 il lessico che è costituito dall’elenco dei termini presenti nell’intera collezione insieme alle
frequenze degli stessi e il numero di documenti in cui compaiono;
 l’indice diretto che memorizza per ogni documento della collezione i termini che contiene e le
frequenze in cui compaiono i termini stessi;
MWT: Web Mining – 2013/14
6 | P a g i n a
 l’indice inverso che memorizza per ogni termine l’elenco dei documenti in cui compare con le
annesse frequenze. Di fatto si tratta di un indice speculare a quello diretto;
 l’indice dei documenti che stabilisce una connessione tra i documenti e le statistiche relative alla
presenza dei termini al loro interno.
La creazione di questi indici prevede, qualora l’utente ne senta la necessità, anche l’utilizzo di processi di
stemming e stop-words removal atti a consentire una più semplice ed efficiente indicizzazione dei termini.
La figura riportata di seguito mostra i processi coinvolti nella fase di indicizzazione:
MWT: Web Mining – 2013/14
7 | P a g i n a
Query processing
La ricerca dei documenti all’interno della collezione è resa possibile tramite la sottomissione di una query
da parte dell’utente. Per via della sua natura di strumento di ausilio per la ricerca in ambito
dell’InformationRetrieval, Terrier è fortemente collegato alle competizioni TREC [1].
Esistono due modalità di interrogazione: una prima interattiva, che permette all’utente di inserire
manualmente una query attraverso un’interfaccia, come avviene per qualunque motore di ricerca. La
seconda modalità invece prevede l’immissione automatica di topics strutturati secondo gli standard
rappresentativi della TREC.
La figura di seguito mostra graficamente in cosa consiste il processo si interrogazione:
MWT: Web Mining – 2013/14
8 | P a g i n a
A prescindere dalla natura dell’interrogazione viene offerta all’utente la possibilità di scegliere se effettuare
operazioni di pre-processing e post-processing.
Tipicamente, nella fase di pre-processing vengono attuate operazioni di stemming e stop-words removal,
comuni anche in fase di indicizzazione.
Nella fase di post-processing, invece, l’utente può scegliere se elaborare o filtrare i risultati delle
interrogazioni applicando diverse tecniche e, tipicamente, a tal fine viene utilizzata la Query Expansion. In
questa fase è possibile anche intercettare i documenti restituiti da un primo recupero e tramite questi
attuare tecniche di local feedback.
L’intero processo di interrogazione, con l’individuazione delle diverse componenti che ne fanno parte, è
evidenziato nella figura riportata precedentemente in questo paragrafo.
MWT: Web Mining – 2013/14
9 | P a g i n a
Installazione ed esecuzione di Terrier
Installazione
Il sito [2] offre implementazioni precompilate delle più recenti versioni di Terrier, sia per l’ambiente
Unix/Linux che per l’ambiente Windows. Per poter usare Terrier è sufficiente estrarre i contenuti del file
.zip scaricandolo in una directory a propria scelta nel File System. L’unico requisito per l’utilizzo di Terrier è
l’installazione del Java JRE versione 1.6.0 o più recente.
La versione di Terrier utilizzata in questa relazione è la 3.5, che rispetto alla 2.2.1 aggiunge nuove
funzionalità significative che possono essere consultate al seguente link [3].
Struttura delle cartelle di Terrier
Terrier, dopo esser stato estratto, presenta al suo interno una serie di directory:
 bin/, contiene gli script per l’esecuzione dei comandi di Terrier
 doc/, contiene la documentazione
 etc/, contiene i file di configurazione (lavoreremo su questi file per configurare il sistema)
 lib/, contiene un insieme di classi di Terrier e di librerie esterne
 share/, presenta una lista di stop words e altri file utili
 src/, presenta i sorgenti java dell’applicazione
 var/, contiene due sottocartelle:
o index/, all’interno viene inserito l’indice che viene creato dal programma
o results/, presenta i risultati ottenuti dall’elaborazione delle query (ogni file dei risultati avrà un
nome con estensione .eval che identifica il tipo di elaborazione che è stata effettuata).
Le fasi di Terrier
Le fasi principali per un utilizzo efficace della piattaforma di Terrier sono:
 SETUP;
 INDEXING;
 RECUPERO;
MWT: Web Mining – 2013/14
10 | P a g i n a
 VALUTAZIONE.
Setup (indicizzazione: passo 1)
Prima di effettuare l’indicizzazione vera e propria, è necessario fare un setup preliminare di configurazione
del sistema per indicare a Terrier qual è la collezione che dovrà indicizzare. Il processo di setup necessita
che le cartelle etc e var/index siano vuote.
Per prima cosa bisogna posizionarsi all’interno della cartella in cui abbiamo memorizzato Terrier ed entrare
dentro la cartella /bin.
I comandi da indicare sono i seguenti:
trec_setup.sh /Path/To/Collection
Dove /Path/To/Collection conterrà l’indirizzo dove abbiamo posizionato la collezione da indicizzare.
Se l’operazione va a buon fine, nella cartella /etc vengono creati i seguenti file:
 collection.spec: contiene l’elenco dei file su cui verrà creato l’indice.
 terrier.properties: contiene le opzioni di configurazione. Tra le opzioni disponibili abbiamo le “query
tags specification” dove verranno opportunamente settati i valori di:
o TrecQueryTags.doctag
o TrecQueryTags.idtag
o TrecQueryTags.process
o TrecQueryTags.skip.
Nella sezione “query tags specification” del file terrier.properties si avrà una struttura come la seguente:
Invece, nella figura sottostante, viene riportata una parte della struttura del file topics.confusion
combaciante con quella riportata sopra:
MWT: Web Mining – 2013/14
11 | P a g i n a
 terrier-log.xml
Indexing (indicizzazione: passo 2)
Per effettuare l’indicizzazione vera e propria, utilizzeremo come sistema operativo Linux (quindi gli script
che lanceremo saranno file con estensione .sh, ma per fare lo stesso con Windows basta lanciare i file con
estensione .bat) e indicizzeremo la collezione TREC-5 Confusion Track, che è possibile reperire al sito [4].
La fase di indicizzazione, ovvero quella in cui l’indice viene scritto su appropriate strutture dati, popola la
cartella var/index e viene effettuata lanciando questo comando:
trec_terrier.sh –i
Viene, così, creato sia l’indice inverso che quello diretto.
Per effettuare l’indicizzazione in un singolo passo, creando l’indice inverso ma non quello diretto, basta
lanciare quest’altro comando:
trec_terrier.sh –i -j
Retrieval (recupero)
Il processo di recupero con Terrier può essere di due tipologie:
 Interactive Retrieval;
 TREC-like, anche detto batch-retrieval.
MWT: Web Mining – 2013/14
12 | P a g i n a
Visto che ci troviamo di fronte ad una situazione di sperimentazione, verrà nel nostro caso utilizzata la
seconda tecnica, la quale richiede l’esecuzione della seguente istruzione dal terminale:
trec_terrier.bat –r –Dtrec.model=… –Dtrec.topics=…
Dove:
 Dtrec.model indica il modello utilizzato;
 Dtrec.topics contiene il percorso del file dove si trovano le query (topics.confusion).
N.B. aggiungere l’opzione –q qualora si voglia abilitare la Query Expansion.
Evaluation (valutazione)
Per ogni recupero di un insieme di documenti sarà eseguita una valutazione qualitativa, mediante il
comando:
trec_terrier.sh –e /Path/al/file/da/confrontare/confusion.known_items
verrà confrontato quanto ottenuto nel file con estensione .res con i risultati attesi specificati nel file
confusion.known_items (che vengono specificati dalla shell tramite il percorso
/Path/al/file/da/confrontare/confusion.known_items).
Ciò genererà un file con estensione .eval per ogni file .res contenuto nella cartella var/results, il quale
conterrà i risultati del confronto quali l’Average Precision, la R-Precision, le varie Pecision at ecc.
Di seguito viene presentata la struttura di un file .eval di esempio, che sarà il nostro principale punto di
riferimento per svolgere un’analisi di confronto:
____________________________________
Number of queries = 50
Retrieved = 44540
Relevant = 50
Relevant retrieved = 50
____________________________________
Average Precision: 0.8585
R Precision : 0.8000
MWT: Web Mining – 2013/14
13 | P a g i n a
____________________________________
Precision at 1 : 0.8000
Precision at 2 : 0.4400
Precision at 3 : 0.3000
Precision at 4 : 0.2300
Precision at 5 : 0.1880
Precision at 10 : 0.0940
Precision at 15 : 0.0640
Precision at 20 : 0.0490
Precision at 30 : 0.0327
Precision at 50 : 0.0200
Precision at 100 : 0.0100
Precision at 200 : 0.0050
Precision at 500 : 0.0020
Precision at 1000 : 0.0010
____________________________________
MWT: Web Mining – 2013/14
14 | P a g i n a
I modelli di pesatura
Terrier è una piattaforma open source di InformationRetrieval contenente svariati modelli di pesatura di
tipo DivergenceFromRandomness (DFR), così come altri modelli statistici di recupero moderni, tra cui il TF-
IDF, BM25 e LanguageModelling.
Il paradigma Divergence from Randomness costituisce una generalizzazione di uno dei primi modelli
primordiali di InformationRetrieval, ovvero il modello di indicizzazione 2-Poisson di Harter.
Il modello 2-Poisson si basa sull’ipotesi secondo cui il livello di trattamento delle parole informative è
testimoniato da un solo set di documenti, all’interno dei quali tali parole occorrono in misura relativamente
maggiore rispetto al resto dei documeti.
Confronto tra modelli
L’analisi che verrà effettuata di seguito servirà a confrontare i risultati ottenuti lavorando sulle diverse
collezioni della Confusion_Track, ovvero:
1. Original;
2. Degrade5 (degrade del 5 %);
3. Degrade20 (degrade del 20%).
Queste ultime due collezioni, a differenza della collezione originale, presentano un diverso margine di
errore e verranno utilizzate per comprendere se Terrier funziona bene in quanto sistema di IR anche in
presenza di errori nei documenti.
I modelli di pesatura messi di volta in volta a confronto sono tutti quelli di tipo DFR, il paradigma già
presentato nel paragrafo precedente, ovvero:
 BB2: il modello di Bernoulli-Einstein con l’after-effect di Bernoulli e la normalizzazione 2.
 BM25: un modello probabilistico di successo.
 DFI0: il primo modello Divergence from Independence.
 DFR_BM25: la versione DFR di BM25.
MWT: Web Mining – 2013/14
15 | P a g i n a
 DLH: il modello DFR hyper-geometric DLH.
 DLH13: una versione migliorata del modello DLH.
 DPH: un modello diverso DFR hyper-geometric che utilizza la normalizzazione di Popper.
 DFRee: un altro modello hyper-geometric che fa una media tra due misure informative.
 Hiemstra_LM: il modello linguistico di Hiemstra.
 IFB2: modello inverse term frequency con l’after-effect di Bernoulli e la normalizzazione 2.
 In_expB2: modello inverse expected document frequency con l’after effect di Bernoulli e la
normalizzazione 2, in questo caso il logaritmo è in base 2.
 In_expC2: modello inverse expected document frequency con l’after effect di Bernoulli e la
normalizzazione 2, il logaritmo è in base e.
 InL2: modello inverse document frequency con l’after-effect di Laplace e la normalizzazione 2, il
logaritmo è in base e.
 LemurTF_IDF: la versione di Lemur del modello tf*idf.
 LGD: un modello logaritmico.
 PL2: modello di base Poisson con probabilità di rischio calcolata usando il modello di Laplace e
normalizzazione 2.
 TF_IDF: il popolare modello tf*idf, ovvero term frequency*inverse document frequency.
Su questi modelli verranno valutate e messe a confronto l’ “Average Precision”, “R-Precision”, le varie
“Precision at” e il numero di documenti rilevanti restituiti per le query immesse.
Dai risultati ottenuti verrà poi valutato il modello che ha prodotto un livello di precisione complessivo
migliore e quello che invece ha prodotto i risultati peggiori. Su tali modelli, saranno poi attivate o
disattivate secondo i casi le seguenti funzionalità, per valutare se è possibile ottenere una precisione
migliore rispetto all’IR di base:
 Stop Words;
 Stemming;
 Query Expansion (applicando i vari modelli disponibili di Q.E.);
 L’opzione c, ovvero il parametro per la normalizzazione della term frequency.
Di seguito viene riportata l’analisi che abbiamo presentato a grandi linee in questo paragrafo.
MWT: Web Mining – 2013/14
16 | P a g i n a
Collezione Original
Confronto tra modelli di pesatura
BB2 BM25 DFI0 DFR_BM25 DLH DLH13 DPH
Number of queries 50 50 50 50 50 50 50
Retrieved 44540 44540 44540 44540 44539 44540 44540
Relevant 50 50 50 50 50 50 50
Relevant retrieved 49 50 49 50 50 50 50
Average precision 0.7835 0.8197 0.8649 0.8141 0.8700 0.8976 0.8743
R-Precision 0.7200 0.7600 0.8000 0.7400 0.8200 0.8400 0.8000
Precision at 1 0.7200 0.7600 0.8000 0.7400 0.8200 0.8400 0.8000
Precision at 2 0.4000 0.4200 0.4500 0.4300 0.4400 0.4700 0.4600
Precision at 3 0.2800 0.2867 0.3067 0.2867 0.3000 0.3133 0.3133
Precision at 4 0.2100 0.2150 0.2300 0.2150 0.2250 0.2350 0.2350
Precision at 5 0.1720 0.1760 0.1880 0.1760 0.1840 0.1920 0.1920
Precision at 10 0.0880 0.0920 0.0980 0.0920 0.0960 0.0960 0.0980
Precision at 15 0.0600 0.0627 0.0653 0.0627 0.0667 0.0667 0.0667
Precision at 20 0.0450 0.0470 0.0490 0.0470 0.0500 0.0500 0.0500
Precision at 30 0.0307 0.0320 0.0327 0.0327 0.0333 0.0333 0.0333
Precision at 50 0.0192 0.0200 0.0196 0.0200 0.0200 0.0200 0.0200
Precision at 100 0.0096 0.0100 0.0098 0.0100 0.0100 0.0100 0.0100
Precision at 200 0.0049 0.0050 0.0049 0.0050 0.0050 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
MWT: Web Mining – 2013/14
17 | P a g i n a
DFRee Hiemstra_LM DirichletLM IFB2 In_expB2 In_expC2 InL2
Number of
queries
50 50 50 50 50 50 50
Retrieved 44540 44540 44540 44540 44540 44540 44540
Relevant 50 50 50 50 50 50 50
Relevant
retrieved
50 50 50 50 50 50 50
Average
precision
0.8975 0.8579 0.8687 0.8137 0.8135 0.8135 0.8358
R-Precision 0.8400 0.8000 0.8000 0.7400 0.7400 0.7400 0.7800
Precision at 1 0.8400 0.8000 0.8000 0.7400 0.7400 0.7400 0.7800
Precision at 2 0.4700 0.4400 0.4400 0.4200 0.4200 0.4200 0.4300
Precision at 3 0.3133 0.3000 0.3133 0.2933 0.2933 0.2933 0.2867
Precision at 4 0.2350 0.2250 0.2350 0.2200 0.2200 0.2200 0.2150
Precision at 5 0.1920 0.1840 0.1920 0.1800 0.1800 0.1800 0.1800
Precision at 10 0.0960 0.0960 0.0980 0.0920 0.0920 0.0920 0.0940
Precision at 15 0.0667 0.0667 0.0667 0.0627 0.0627 0.0627 0.0640
Precision at 20 0.0500 0.0500 0.0500 0.0480 0.0470 0.0470 0.0480
Precision at 30 0.0333 0.0333 0.0333 0.0327 0.0327 0.0327 0.0320
Precision at 50 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200
Precision at 100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100
Precision at 200 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
MWT: Web Mining – 2013/14
18 | P a g i n a
LemurTF_IDF LGD PL2 TF_IDF
Number of
queries
50 50 50 50
Retrieved 44540 44540 44527 44540
Relevant 50 50 50 50
Relevant
retrieved
50 50 49 50
Average
precision
0.8081 0.8937 0.7773 0.8324
R-Precision 0.7200 0.8400 0.7000 0.7800
Precision at 1 0.7200 0.8400 0.7000 0.7800
Precision at 2 0.4300 0.4600 0.4100 0.4300
Precision at 3 0.2867 0.3133 0.2733 0.2867
Precision at 4 0.2200 0.2350 0.2050 0.2150
Precision at 5 0.1840 0.1920 0.1680 0.1760
Precision at 10 0.0940 0.0960 0.0900 0.0920
Precision at 15 0.0640 0.0667 0.0627 0.0627
Precision at 20 0.0480 0.0500 0.0480 0.0470
Precision at 30 0.0327 0.0333 0.0320 0.0313
Precision at 50 0.0200 0.0200 0.0192 0.0200
Precision at 100 0.0100 0.0100 0.0098 0.0100
Precision at 200 0.0050 0.0050 0.0049 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010
In base ai risultati ottenuti, è possibile valutare quali sono i documenti che rappresentano la nostra baseline
e le valutazioni effettuate sui risultati delle query permettono di concludere che:
 DLH13 (una versione migliorata del modello DLH) costituisce il modello di pesatura che restituisce
i risultati migliori;
 PL2 (il modello di Poisson con probabilità di rischio calcolata usando il modello di Laplace e la
normalizzazione a 2) costituisce il modello di pesatura che restituisce i risultati peggiori.
Il resto dei test verranno effettuati su questi due modelli.
MWT: Web Mining – 2013/14
19 | P a g i n a
Opzioni attivate e/o disattivate sul modello migliore e peggiore
Stop Words +
Stemming
Stop Words Stemming No Stop Words +
No Stemming
Modelli DLH13 PL2 DLH13 PL2 DLH13 PL2 DLH13 PL2
Number of
queries
50 50 48 48 50 50 49 49
Retrieved 44540 44527 35933 35889 44540 44527 38449 38392
Relevant 50 50 48 48 50 50 49 49
Relevant
retrieved
50 49 43 42 50 49 43 42
Average
precision
0.8976 0.7773 0.5711 0.5089 0.8783 0.7714 0.5154 0.4266
R-Precision 0.8400 0.7000 0.5000 0.4375 0.8200 0.7000 0.4490 0.3469
Precision at 1 0.8400 0.7000 0.5000 0.4375 0.8200 0.7000 0.4490 0.3469
Precision at 2 0.4700 0.4100 0.2812 0.2500 0.4500 0.4000 0.2551 0.2143
Precision at 3 0.3133 0.2733 0.1944 0.1806 0.3067 0.2733 0.1701 0.1565
Precision at 4 0.2350 0.2050 0.1615 0.1354 0.2350 0.2050 0.1429 0.1173
Precision at 5 0.1920 0.1680 0.1292 0.1125 0.1920 0.1680 0.1224 0.1020
Precision at 10 0.0960 0.0900 0.0750 0.0708 0.0960 0.0900 0.0653 0.0612
Precision at 15 0.0667 0.0627 0.0514 0.0486 0.0653 0.0613 0.0463 0.0422
Precision at 20 0.0500 0.0480 0.0385 0.0365 0.0500 0.0470 0.0347 0.0316
Precision at 30 0.0333 0.0320 0.0257 0.0250 0.0333 0.0313 0.0245 0.0218
Precision at 50 0.0200 0.0192 0.0154 0.0154 0.0200 0.0192 0.0151 0.0135
Precision at 100 0.0100 0.0098 0.0088 0.0079 0.0100 0.0096 0.0082 0.0076
Precision at 200 0.0050 0.0049 0.0044 0.0041 0.0050 0.0049 0.0041 0.0040
Precision at 500 0.0020 0.0020 0.0018 0.0017 0.0020 0.0020 0.0017 0.0017
Precision at
1000
0.0010 0.0010 0.0009 0.0009 0.0010 0.0010 0.0009 0.0009
Sono stati effettuati dei test provando ad applicare le varie combinazioni risultanti dall’attivazione e la
disattivazione di una serie di Stop Words specificate all’interno di un apposito file e dello Stemming,
applicato sulla base dell’algoritmo di Porter.
Tali test dimostrano che la combinazione che porta ad ottenere i risultati migliori è quella che unisce
l’eliminazione delle Stop Words all’applicazione dello Stemming.
MWT: Web Mining – 2013/14
20 | P a g i n a
Applicazione dei modelli di Query Expansion
Modelli di Q.E. Bo1 Bo2 CS CSCorrect
DLH13 PL2 DLH13 PL2 DLH13 PL2 DLH13 PL2
Number of
queries
50 50 50 50 50 50 50 50
Retrieved 50000 50000 50000 50000 50000 50000 50000 50000
Relevant 50 50 50 50 50 50 50 50
Relevant
retrieved
50 49 50 50 49 48 49 48
Average
precision
0.7776 0.6612 0.7589 0.6176 0.4527 0.3702 0.4527 0.3702
R-Precision 0.6800 0.5600 0.6800 0.5000 0.2600 0.2200 0.2600 0.2200
Precision at 1 0.6800 0.5600 0.6800 0.5000 0.2600 0.2200 0.2600 0.2200
Precision at 2 0.4100 0.3300 0.3800 0.3200 0.2600 0.2000 0.2600 0.2000
Precision at 3 0.2800 0.2467 0.2667 0.2333 0.2000 0.1533 0.2000 0.1533
Precision at 4 0.2100 0.1850 0.2000 0.1750 0.1550 0.1250 0.1550 0.1250
Precision at 5 0.1720 0.1520 0.1680 0.1480 0.1320 0.1040 0.1320 0.1040
Precision at 10 0.0960 0.0880 0.0940 0.0860 0.0780 0.0640 0.0780 0.0640
Precision at 15 0.0667 0.0587 0.0627 0.0573 0.0533 0.0480 0.0533 0.0480
Precision at 20 0.0500 0.0460 0.0490 0.0430 0.0400 0.0370 0.0400 0.0370
Precision at 30 0.0333 0.0313 0.0333 0.0307 0.0300 0.0260 0.0300 0.0253
Precision at 50 0.0200 0.0192 0.0200 0.0188 0.0184 0.0164 0.0184 0.0164
Precision at 100 0.0100 0.0096 0.0100 0.0096 0.0096 0.0090 0.0096 0.0090
Precision at 200 0.0050 0.0049 0.0050 0.0049 0.0049 0.0046 0.0049 0.0046
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0019 0.0020 0.0019
Precision at
1000
0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
MWT: Web Mining – 2013/14
21 | P a g i n a
Modelli di Q.E. Information KL KLComplete KLCorrect
DLH13 PL2 DLH13 PL2 DLH13 PL2 DLH13 PL2
Number of
queries
50 50 50 50 50 50 50 50
Retrieved 50000 50000 50000 50000 50000 50000 50000 50000
Relevant 50 50 50 50 50 50 50 50
Relevant
retrieved
38 32 50 49 49 48 50 49
Average
precision
0.2436 0.1492 0.7723 0.6600 0.4524 0.3701 0.8672 0.7564
R-Precision 0.1600 0.0800 0.6800 0.5600 0.2600 0.2200 0.8000 0.6800
Precision at 1 0.1600 0.0800 0.6800 0.5600 0.2600 0.2200 0.8000 0.6800
Precision at 2 0.1300 0.0700 0.4000 0.3400 0.2600 0.2000 0.4400 0.3900
Precision at 3 0.1000 0.0600 0.2800 0.2400 0.2000 0.1533 0.3067 0.2667
Precision at 4 0.0800 0.0500 0.2100 0.1850 0.1550 0.1250 0.2300 0.2050
Precision at 5 0.0640 0.0480 0.1720 0.1520 0.1320 0.1040 0.1920 0.1680
Precision at 10 0.0360 0.0280 0.0940 0.0860 0.0760 0.0640 0.1000 0.0900
Precision at 15 0.0267 0.0213 0.0667 0.0587 0.0533 0.0480 0.0667 0.0613
Precision at 20 0.0220 0.0160 0.0500 0.0450 0.0400 0.0370 0.0500 0.0480
Precision at 30 0.0153 0.0113 0.0333 0.0313 0.0300 0.0253 0.0333 0.0480
Precision at 50 0.0096 0.0076 0.0200 0.0192 0.0184 0.0164 0.0200 0.0192
Precision at 100 0.0058 0.0046 0.0100 0.0098 0.0096 0.0090 0.0200 0.0098
Precision at 200 0.0033 0.0025 0.0050 0.0049 0.0049 0.0046 0.0050 0.0049
Precision at 500 0.0014 0.0012 0.0020 0.0020 0.0020 0.0019 0.0020 0.0020
Precision at
1000
0.0008 0.0006 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
E’ possibile espandere una o più query con la lista dei termini più informativi dei documenti meglio
classificati tramite l’applicazione del meccanismo di Query Expansion. Esistono svariati modelli di pesatura
dei termini che possono essere usati per espandere le query e sono stati in questo caso applicati ai due
modelli DFR ottenuti dalla precedente analisi.
Dai risultati della tabella è possibile osservare che, per quanto riguarda la collezione Original, non riusciamo
ad ottenere una migliore precisione.
Per questo motivo, il lavoro a seguito verrà effettuato disattivando la Query Expansion per valutare se sarà
possibile stavolta ottenere una precisione migliore cambiando l’opzione di normalizzazione della term
frequency.
MWT: Web Mining – 2013/14
22 | P a g i n a
Valorizzazione del parametro “c” sul modello DLH13
Modello
DLH13
c
1-16
Number of
queries
50
Retrieved 44540
Relevant 50
Relevant
retrieved
50
Average
precision
0.8976
R-Precision 0.8400
Precision at 1 0.8400
Precision at 2 0.4700
Precision at 3 0.3133
Precision at 4 0.2350
Precision at 5 0.1920
Precision at 10 0.0960
Precision at 15 0.0667
Precision at 20 0.0500
Precision at 30 0.0333
Precision at 50 0.0200
Precision at 100 0.0100
Precision at 200 0.0050
Precision at 500 0.0020
Precision at
1000
0.0010
Abbiamo effettuato una serie di test applicando il parametro c (ricordiamo che c seguito da un numero che
nel nostro caso va da 1.0 a 16.0 specifica il valore del parametro per la normalizzazione della term
frequency) al modello che ha prodotto i risultati migliori per la collezione Original, ovvero DLH13. E’ stato
osservato che i risultati rimangono invariati per tutto il range di valori di c.
MWT: Web Mining – 2013/14
23 | P a g i n a
Valorizzazione del parametro “c” sul modello PL2
Modello
PL2
c
1 2 3 4 5 6 7 8
Number of
queries
50 50 50 50 50 50 50 50
Retrieved 44527 44534 44536 44536 44536 44536 44536 44536
Relevant 50 50 50 50 50 50 50 50
Relevant retrieved 49 50 50 50 50 50 50 50
Average precision 0.7773 0.8206 0.8467 0.8789 0.8892 0.8896 0.8903 0.8910
R-Precision 0.7000 0.7600 0.7800 0.8200 0.8400 0.8400 0.8400 0.8400
Precision at 1 0.7000 0.7600 0.7800 0.8200 0.8400 0.8400 0.8400 0.8400
Precision at 2 0.4100 0.4100 0.4300 0.4600 0.4600 0.4600 0.4600 0.4600
Precision at 3 0.2733 0.2800 0.3000 0.3067 0.3067 0.3067 0.3067 0.3067
Precision at 4 0.2050 0.2200 0.2300 0.2300 0.2300 0.2300 0.2300 0.2300
Precision at 5 0.1680 0.1800 0.1880 0.1880 0.1880 0.1880 0.1880 0.1880
Precision at 10 0.0900 0.0960 0.0980 0.0980 0.0980 0.0980 0.0980 0.1000
Precision at 15 0.0627 0.0653 0.0653 0.0653 0.0653 0.0653 0.0667 0.0667
Precision at 20 0.0480 0.0490 0.0490 0.0490 0.0490 0.0500 0.0500 0.0500
Precision at 30 0.0320 0.0327 0.0327 0.0327 0.0333 0.0333 0.0333 0.0333
Precision at 50 0.0192 0.0196 0.0196 0.0200 0.0200 0.0200 0.0200 0.0200
Precision at 100 0.0098 0.0098 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100
Precision at 200 0.0049 0.0049 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
MWT: Web Mining – 2013/14
24 | P a g i n a
Modello
PL2
c
9 10 11 12 13 14 15 16
Number of
queries
50 50 50 50 50 50 50 50
Retrieved 44536 44537 44538 44538 44538 44538 44538 44539
Relevant 50 50 50 50 50 50 50 50
Relevant retrieved 49 50 50 50 50 50 50 50
Average precision 0.8933 0.8943 0.8960 0.8960 0.8960 0.8960 0.8860 0.8900
R-Precision 0.8400 0.8400 0.8400 0.8400 0.8400 0.8400 0.8200 0.8200
Precision at 1 0.8400 0.8400 0.8400 0.8400 0.8400 0.8400 0.8200 0.8200
Precision at 2 0.4600 0.4600 0.4600 0.4600 0.4600 0.4600 0.4600 0.4700
Precision at 3 0.3067 0.3067 0.3133 0.3133 0.3133 0.3133 0.3133 0.3133
Precision at 4 0.2300 0.2350 0.2350 0.2350 0.2350 0.2350 0.2350 0.2350
Precision at 5 0.1920 0.1920 0.1920 0.1920 0.1920 0.1920 0.1920 0.1960
Precision at 10 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000
Precision at 15 0.0667 0.0667 0.0667 0.0667 0.0667 0.0667 0.0667 0.0667
Precision at 20 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500
Precision at 30 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333
Precision at 50 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200
Precision at 100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100
Precision at 200 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
Sono stati effettuati dei test anche sul modello di pesatura che ha prodotto risultati peggiori per la
collezione Original, ovvero PL2. E’ stato osservato che i risultati migliorano al crescere del valore di c,
portando così ad una differenza importante tra la normalizzazione della tf pari a 1.0 e quella pari a 16.0.
Possiamo, dunque, concludere che applicare un alto valore di normalizzazione della term frequency nel suo
calcolo algoritmico ci permette di ottenere dei risultati nettamente migliori rispetto alla precisione che si
raggiunge senza aumentare di valore tale parametro.
Tuttavia, possiamo osservare che già impostando c=15.0 i valori ricominciano ad abbassarsi.
MWT: Web Mining – 2013/14
25 | P a g i n a
Collezione Degrade5
Confronto tra modelli di pesatura
BB2 BM25 DFI0 DFR_BM25 DLH DLH13 DPH
Number of queries 49 49 49 49 49 49 49
Retrieved 42664 42664 42663 42664 42661 42662 42662
Relevant 49 49 49 49 49 49 49
Relevant retrieved 46 48 48 48 48 48 48
Average precision 0.5280 0.6364 0.7076 0.6482 0.6491 0.6759 0.6444
R-Precision 0.4286 0.5510 0.6327 0.5714 0.5510 0.5714 0.5306
Precision at 1 0.4286 0.5510 0.6327 0.5714 0.5510 0.5714 0.5306
Precision at 2 0.2551 0.3163 0.3469 0.3163 0.3469 0.3571 0.3367
Precision at 3 0.2109 0.2381 0.2517 0.2381 0.2313 0.2517 0.2381
Precision at 4 0.1582 0.1786 0.1990 0.1786 0.1786 0.1888 0.1888
Precision at 5 0.1306 0.1469 0.1673 0.1551 0.1469 0.1592 0.1551
Precision at 10 0.0714 0.0776 0.0857 0.0776 0.0796 0.0837 0.0837
Precision at 15 0.0476 0.0544 0.0571 0.0531 0.0558 0.0571 0.0571
Precision at 20 0.0357 0.0408 0.0439 0.0408 0.0449 0.0449 0.0439
Precision at 30 0.0265 0.0286 0.0306 0.0286 0.0306 0.0306 0.0306
Precision at 50 0.0163 0.0180 0.0184 0.0184 0.0184 0.0184 0.0184
Precision at 100 0.0088 0.0094 0.0092 0.0094 0.0094 0.0094 0.0094
Precision at 200 0.0046 0.0048 0.0048 0.0048 0.0047 0.0048 0.0048
Precision at 500 0.0019 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at 1000 0.0009 0.0010 0.0010 0.0020 0.0010 0.0010 0.0010
MWT: Web Mining – 2013/14
26 | P a g i n a
DFRee Hiemstra_LM DirichletLM IFB2 In_expB2 In_expC2 InL2
Number of
queries
49 49 49 49 49 49 49
Retrieved 42662 42664 42661 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49
Relevant
retrieved
48 48 48 48 48 48 48
Average
precision
0.6899 0.6428 0.6710 0.5722 0.5859 0. 5748 0.6355
R-Precision 0.5918 0.5510 0.5714 0.4694 0.4898 0.4898 0.5306
Precision at 1 0.5918 0.5510 0.5714 0.4694 0.4898 0. 4898 0.5306
Precision at 2 0.3571 0.3265 0.3367 0.2755 0.2755 0. 2755 0.3367
Precision at 3 0.2517 0.2381 0.2517 0.2177 0.2313 0. 2041 0.2381
Precision at 4 0.1990 0.1837 0.1990 0.1735 0.1735 0. 1633 0.1786
Precision at 5 0.1673 0.1551 0.1592 0.1429 0.1429 0. 1429 0.1551
Precision at 10 0.0837 0.0776 0.0837 0.0755 0.0776 0. 0755 0.0796
Precision at 15 0.0571 0.0531 0.0585 0.0517 0.0517 0. 0503 0.0531
Precision at 20 0.0449 0.0418 0.0449 0.0388 0.0388 0. 0398 0.0408
Precision at 30 0.0306 0.0293 0.0299 0.0299 0.0286 0. 0279 0.0286
Precision at 50 0.0184 0.0184 0.0188 0.0184 0.0184 0. 0184 0.0184
Precision at 100 0.0094 0.0094 0.0094 0.0094 0.0094 0. 0094 0.0094
Precision at 200 0.0047 0.0047 0.0047 0.0048 0.0048 0. 0048 0.0048
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
MWT: Web Mining – 2013/14
27 | P a g i n a
LemurTF_IDF LGD PL2 TF_IDF
Number of
queries
49 49 49 49
Retrieved 42664 42664 42643 42664
Relevant 49 49 49 49
Relevant
retrieved
48 48 47 48
Average
precision
0.5800 0.7167 0.5619 0.6264
R-Precision 0.4694 0.6327 0.4286 0.5306
Precision at 1 0.4694 0.6327 0.5306 0.5306
Precision at 2 0.2959 0.3673 0.3061 0.3163
Precision at 3 0.2177 0.2653 0.2109 0.2381
Precision at 4 0.1735 0.1990 0.1684 0.1786
Precision at 5 0.1469 0.1673 0.1469 0.1510
Precision at 10 0.0776 0.0837 0.0776 0.0776
Precision at 15 0.0517 0.0571 0.0531 0.0531
Precision at 20 0.0398 0.0429 0.0418 0.0408
Precision at 30 0.0279 0.0306 0.0286 0.0286
Precision at 50 0.0188 0.0184 0.0180 0.0176
Precision at 100 0.0094 0.0094 0.0090 0.0094
Precision at 200 0.0047 0.0047 0.0047 0.0048
Precision at 500 0.0020 0.0020 0.0019 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010
Anche per questa collezione abbiamo raggiunto una baseline di documenti e, in base ai risultati ottenuti,
possiamo stavolta concludere che:
 Il modello che ha generato i risultati di precisione migliori è LGD (un modello logaritmico);
 Il modello che ha generato i risultati di precisione peggiori è BB2 (il modello di casualità Bose-
Einstein).
Anche in questo caso verranno effettuati dei test sui due modelli più rilevanti ai fini della nostra analisi, che
esporremo di seguito.
MWT: Web Mining – 2013/14
28 | P a g i n a
Opzioni attivate e/o disattivate sul modello migliore e peggiore
Stop Words +
Stemming
Stop Words Stemming No Stop Words +
No Stemming
LGD BB2 LGD BB2 LGD BB2 LGD BB2
Number of
queries
49 49 44 48 49 49 47 47
Retrieved 42664 42664 31815 31815 42692 42692 33385 33385
Relevant 49 49 44 44 49 49 47 47
Relevant
retrieved
48 46 35 33 48 46 35 33
Average
precision
0.7167 0.5280 0.4101 0.3228 0.6892 0.4822 0.3247 0.2134
R-Precision 0.6327 0.4286 0.3409 0.2727 0.5918 0.3878 0.2766 0.1702
Precision at 1 0.6327 0.4286 0.3409 0.2727 0.5918 0.3878 0.2766 0.1702
Precision at 2 0.3673 0.2551 0.1932 0.1477 0.3571 0.2245 0.1489 0.0851
Precision at 3 0.2653 0.2109 0.1515 0.0985 0.2653 0.1905 0.1064 0.0709
Precision at 4 0.1990 0.1582 0.1250 0.0739 0.1990 0.1429 0.1011 0.0585
Precision at 5 0.1673 0.1306 0.1000 0.0727 0.1633 0.1265 0.0809 0.0553
Precision at 10 0.0837 0.0714 0.0545 0.0477 0.0816 0.0653 0.0426 0.0319
Precision at 15 0.0571 0.0476 0.0379 0.0348 0.0544 0.0449 0.0298 0.0241
Precision at 20 0.0429 0.0357 0.0284 0.0261 0.0429 0.0347 0.0223 0.0191
Precision at 30 0.0306 0.0265 0.0212 0.0205 0.0299 0.0245 0.0163 0.0142
Precision at 50 0.0184 0.0163 0.0136 0.0123 0.0184 0.0159 0.0111 0.0094
Precision at 100 0.0094 0.0088 0.0073 0.0068 0.0092 0.0084 0.0064 0.0057
Precision at 200 0.0047 0.0046 0.0039 0.0036 0.0047 0.0044 0.0034 0.0032
Precision at 500 0.0020 0.0019 0.0016 0.0015 0.0019 0.0019 0.0015 0.0014
Precision at
1000
0.0010 0.0009 0.0008 0.0008 0.0010 0.0009 0.0007 0.0007
Anche stavolta abbiamo provato a verificare se è possibile ottenere una migliore precisione rispettivamente
attivando e/o disattivando le due opzioni di Stop Words e Stemming in base all’algoritmo di Porter.
Come è possibile notare, anche in questo caso la combinazione che ci permette di ottenere risultati migliori
è quella che unisce l’eliminazione delle Stop Words all’applicazione dello Stemming.
MWT: Web Mining – 2013/14
29 | P a g i n a
Applicazione dei modelli di Query Expansion
Modelli di Q.E. Bo1 Bo2 CS CSCorrect
LGD BB2 LGD BB2 LGD BB2 LGD BB2
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 49000 49000 49000 49000 49000 49000 49000 49000
Relevant 49 49 49 49 49 49 49 49
Relevant
retrieved
48 44 48 43 47 43 47 43
Average
precision
0.6762 0.4693 0.6844 0.4637 0.4385 0.2721 0.4385 0.2721
R-Precision 0.5918 0.3673 0.6122 0.3878 0.3061 0.1224 0.3061 0.1224
Precision at 1 0.5918 0.3673 0.6122 0.3878 0.3061 0.1224 0.3061 0.1224
Precision at 2 0.3367 0.2449 0.3367 0.2245 0.2245 0.1531 0.2245 0.1531
Precision at 3 0.2517 0.1769 0.2449 0.1633 0.1701 0.1224 0.1701 0.1224
Precision at 4 0.1939 0.1429 0.1939 0.1378 0.1480 0.0969 0.1480 0.0969
Precision at 5 0.1551 0.1143 0.1592 0.1143 0.1184 0.0939 0.1184 0.0939
Precision at 10 0.0796 0.0633 0.0796 0.0633 0.0694 0.0551 0.0694 0.0551
Precision at 15 0.0571 0.0449 0.0558 0.0435 0.0476 0.0367 0.0476 0.0367
Precision at 20 0.0439 0.0347 0.0429 0.0327 0.0367 0.0306 0.0367 0.0306
Precision at 30 0.0299 0.0245 0.0293 0.0231 0.0259 0.0211 0.0259 0.0211
Precision at 50 0.0188 0.0151 0.0184 0.0151 0.0163 0.0131 0.0163 0.0131
Precision at 100 0.0096 0.0084 0.0094 0.0080 0.0088 0.0071 0.0088 0.0071
Precision at 200 0.0049 0.0042 0.0049 0.0043 0.0047 0.0041 0.0047 0.0041
Precision at 500 0.0020 0.0018 0.0020 0.0018 0.0019 0.0018 0.0019 0.0018
Precision at
1000
0.0010 0.0009 0.0010 0.0009 0.0010 0.0009 0.0010 0.0009
MWT: Web Mining – 2013/14
30 | P a g i n a
Modelli di Q.E. Information KL KLComplete KLCorrect
LGD BB2 LGD BB2 LGD BB2 LGD BB2
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 49000 49000 49000 49000 49000 49000 49000 49000
Relevant 49 49 49 49 49 49 49 49
Relevant
retrieved
36 29 48 44 47 43 48 44
Average
precision
0.2301 0.0973 0.6697 0.4681 0.4385 0.2702 0.7069 0.4821
R-Precision 0.1429 0.0204 0.5714 0.3673 0.3061 0.1224 0.6122 0.3878
Precision at 1 0.1429 0.0204 0.5714 0.3673 0.3061 0.1224 0.6122 0.3878
Precision at 2 0.1224 0.0510 0.3571 0.2449 0.2245 0.1531 0.3673 0.2347
Precision at 3 0.0884 0.0408 0.2449 0.1769 0.1701 0.1156 0.2653 0.1837
Precision at 4 0.0714 0.0306 0.1888 0.1378 0.1480 0.0969 0.1990 0.1378
Precision at 5 0.0653 0.0327 0.1551 0.1143 0.1184 0.0939 0.1633 0.1184
Precision at 10 0.0388 0.0224 0.0796 0.0633 0.0694 0.0531 0.0837 0.0673
Precision at 15 0.0286 0.0190 0.0558 0.0449 0.0476 0.0367 0.0585 0.0463
Precision at 20 0.0224 0.0184 0.0439 0.0337 0.0367 0.0306 0.0439 0.0367
Precision at 30 0.0163 0.0129 0.0299 0.0238 0.0259 0.0211 0.0313 0.0252
Precision at 50 0.0106 0.0086 0.0188 0.0151 0.0163 0.0131 0.0188 0.0163
Precision at 100 0.0059 0.0047 0.0094 0.0086 0.0088 0.0069 0.0094 0.0084
Precision at 200 0.0034 0.0026 0.0049 0.0043 0.0047 0.0041 0.0048 0.0043
Precision at 500 0.0015 0.0012 0.0020 0.0018 0.0019 0.0018 0.0020 0.0018
Precision at
1000
0.0007 0.0006 0.0010 0.0009 0.0010 0.0009 0.0010 0.0009
Analizzando la tabella possiamo concludere che sulla collezione Degrade5, applicando i vari modelli di
Query Expansion, otteniamo una precisione peggiore rispetto ai risultati che abbiamo raggiunto senza
applicarli, per entrambi i modelli di pesatura LGD e BB2.
In base a questa valutazione, ne consegue che conviene effettuare il lavoro di seguito disattivando la Query
Expansion di modo da osservare se è possibile raggiungere una precisione migliore aumentando il valore
del parametro di normalizzazione della term frequency.
MWT: Web Mining – 2013/14
31 | P a g i n a
Valorizzazione del parametro “c” sul modello LGD
Modello
LGD
c
1 2 3 4 5 6 7 8
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42664 42664 42664 42664 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 48 48 48 48 48 48 48 48
Average precision 0.7167 0.7185 0.7186 0.7183 0.7081 0.7082 0.7081 0.7079
R-Precision 0.6327 0.6327 0.6327 0.6327 0.6122 0.6122 0.6122 0.6122
Precision at 1 0.6327 0.6327 0.6327 0.6327 0.6122 0.6122 0.6122 0.6122
Precision at 2 0.3673 0.3776 0.3776 0.3776 0.3776 0.3776 0.3776 0.3776
Precision at 3 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653
Precision at 4 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990
Precision at 5 0.1673 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633
Precision at 10 0.0837 0.0837 0.0837 0.0816 0.0816 0.0837 0.0837 0.0837
Precision at 15 0.0571 0.0571 0.0571 0.0571 0.0571 0.0571 0.0571 0.0571
Precision at 20 0.0429 0.0439 0.0439 0.0439 0.0439 0.0439 0.0439 0.0439
Precision at 30 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306
Precision at 50 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184
Precision at 100 0.0094 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092
Precision at 200 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0019 0.0019
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
MWT: Web Mining – 2013/14
32 | P a g i n a
Modello
LGD
c
9 10 11 12 13 14 15 16
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42664 42664 42664 42664 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 48 48 48 48 48 48 48 48
Average precision 0.7079 0.6979 0.6979 0.6843 0.6843 0.6842 0.6854 0.6855
R-Precision 0.6122 0.5918 0.5918 0.5714 0.5714 0.5714 0.5714 0.5714
Precision at 1 0.6122 0.5918 0.5918 0.5714 0.5714 0.5714 0.5714 0.5714
Precision at 2 0.3776 0.3776 0.3776 0.3673 0.3673 0.3673 0.3673 0.3673
Precision at 3 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653
Precision at 4 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 0.2041 0.2041
Precision at 5 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633
Precision at 10 0.0837 0.0837 0.0837 0.0837 0.0837 0.0837 0.0837 0.0837
Precision at 15 0.0558 0.0558 0.0558 0.0558 0.0558 0.0558 0.0558 0.0571
Precision at 20 0.0449 0.0449 0.0449 0.0449 0.0449 0.0449 0.0449 0.0449
Precision at 30 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306
Precision at 50 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184
Precision at 100 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092
Precision at 200 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047
Precision at 500 0.0019 0.0019 0.0019 0.0019 0.0019 0.0019 0.0019 0.0019
Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
Anche per la collezione Degrade5 abbiamo provato ad effettuare dei test specificando il parametro c ed
aumentandone il valore fino a 16.0, per valutare se facendo crescere il peso della term frequency è
possibile ottenere dei risultati di precisione migliori.
Tali test, per quanto riguarda il modello LGD che ha prodotto in precedenza i valori di precisione più alti,
permettono di concludere che nel caso di questa collezione aumentare il parametro c consente di ottenere
dei risultati solo lievemente migliori, impostando soprattutto c=3.0.
MWT: Web Mining – 2013/14
33 | P a g i n a
Valorizzazione del parametro “c” sul modello BB2
Modello
BB2
c
1 2 3 4 5 6 7 8
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42664 42664 42664 42664 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 46 45 45 42 41 40 40 40
Average precision 0.5280 0.5004 0.4715 0.4616 0.4639 0.4412 0.4555 0.4557
R-Precision 0.4286 0.3878 0.3673 0.3673 0.3878 0.3673 0.3878 0.3878
Precision at 1 0.4286 0.3878 0.3673 0.3673 0.3878 0.3673 0.3878 0.3878
Precision at 2 0.2551 0.2755 0.2551 0.2449 0.2347 0.2143 0.2143 0.2143
Precision at 3 0.2109 0.1905 0.1769 0.1701 0.1633 0.1565 0.1633 0.1633
Precision at 4 0.1582 0.1531 0.1429 0.1327 0.1276 0.1224 0.1327 0.1327
Precision at 5 0.1306 0.1265 0.1224 0.1184 0.1184 0.1102 0.1143 0.1143
Precision at 10 0.0714 0.0653 0.0612 0.0612 0.0592 0.0592 0.0592 0.0592
Precision at 15 0.0476 0.0435 0.0422 0.0408 0.0408 0.0395 0.0408 0.0408
Precision at 20 0.0357 0.0337 0.0327 0.0316 0.0316 0.0316 0.0316 0.0316
Precision at 30 0.0265 0.0245 0.0231 0.0231 0.0224 0.0224 0.0224 0.0224
Precision at 50 0.0163 0.0163 0.0155 0.0151 0.0147 0.0143 0.0143 0.0143
Precision at 100 0.0088 0.0084 0.0080 0.0078 0.0076 0.0073 0.0073 0.0073
Precision at 200 0.0046 0.0045 0.0042 0.0041 0.0040 0.0039 0.0039 0.0039
Precision at 500 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0016 0.0016
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008
MWT: Web Mining – 2013/14
34 | P a g i n a
Modello
BB2
c
9 10 11 12 13 14 15 16
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42664 42664 42664 42664 42664 42664 42664 42664
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 48 39 39 39 39 39 39 39
Average precision 0.4554 0.4355 0.4368 0.4368 0.4368 0.4364 0.4363 0.4160
R-Precision 0.3878 0.3673 0.3673 0.3673 0.3673 0.3673 0.3469 0.3469
Precision at 1 0.3878 0.3673 0.3673 0.3673 0.3673 0.3673 0.3469 0.3469
Precision at 2 0.2143 0.2041 0.2041 0.2041 0.2041 0.2041 0.1939 0.1939
Precision at 3 0.1633 0.1565 0.1633 0.1633 0.1633 0.1633 0.1565 0.1565
Precision at 4 0.1327 0.1276 0.1276 0.1276 0.1276 0.1276 0.1224 0.1224
Precision at 5 0.1143 0.1102 0.1061 0.1061 0.1061 0.1061 0.1020 0.1020
Precision at 10 0.0592 0.0571 0.0571 0.0571 0.0571 0.0571 0.0551 0.0551
Precision at 15 0.0408 0.0395 0.0408 0.0408 0.0408 0.0408 0.0395 0.0395
Precision at 20 0.0327 0.0327 0.0327 0.0327 0.0327 0.0327 0.0316 0.0316
Precision at 30 0.0224 0.0218 0.0218 0.0218 0.0218 0.0218 0.0211 0.0211
Precision at 50 0.0143 0.0139 0.0139 0.0139 0.0139 0.0139 0.0135 0.0135
Precision at 100 0.0073 0.0071 0.0071 0.0071 0.0071 0.0071 0.0069 0.0069
Precision at 200 0.0039 0.0038 0.0038 0.0038 0.0038 0.0038 0.0037 0.0037
Precision at 500 0.0016 0.0016 0.0016 0.0016 0.0016 0.0016 0.0015 0.0015
Precision at 1000 0.0008 0.0008 0.0008 0.0008 0.0008 0.0008 0.0008 0.0008
Gli stessi test sono stati effettuati sul modello che ha prodotto in precedenza i valori di precisione più bassi
per la collezione Degrade5. Applicando il parametro c ed aumentandone il valore fino a 16.0, è possibile
concludere che in questo contesto aumentare il valore di c porta ad un graduale abbassamento della
precisione.
MWT: Web Mining – 2013/14
35 | P a g i n a
Collezione Degrade20
Confronto tra modelli di pesatura
BB2 BM25 DFI0 DFR_BM25 DLH DLH13 DPH
Number of queries 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49
Relevant retrieved 44 45 42 45 43 45 44
Average precision 0.2841 0. 3141 0.2906 0. 3147 0.2838 0.2890 0.3170
R-Precision 0. 1633 0.1837 0.1633 0.1837 0.1633 0.1633 0.2041
Precision at 1 0.4286 0.1837 0.1633 0.1837 0.1633 0.1633 0.2041
Precision at 2 0. 1429 0. 1633 0.1531 0. 1633 0.1327 0.1327 0.1531
Precision at 3 0. 1224 0.1293 0.1156 0.1293 0.1020 0.1088 0.1156
Precision at 4 0. 0969 0.1173 0.1020 0.1173 0.0918 0.1020 0.1071
Precision at 5 0. 0898 0.0980 0.0898 0.0980 0.0898 0.0898 0.0939
Precision at 10 0. 0469 0.0531 0.0469 0.0531 0.0551 0.0571 0.0551
Precision at 15 0. 0354 0.0354 0.0395 0.0354 0.0408 0.0408 0.0395
Precision at 20 0. 0286 0.0276 0.0316 0.0276 0.0316 0.0337 0.0316
Precision at 30 0. 0211 0.0218 0.0224 0.0218 0.0231 0.0231 0.0224
Precision at 50 0. 0139 0.0147 0.0143 0.0147 0.0147 0.0155 0.0151
Precision at 100 0. 0071 0.0076 0.0080 0.0076 0.0082 0.0078 0.0078
Precision at 200 0. 0040 0.0040 0.0041 0.0041 0.0042 0.0042 0.0042
Precision at 500 0. 0017 0.0017 0.0017 0.0018 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
MWT: Web Mining – 2013/14
36 | P a g i n a
DFRee Hiemstra_LM DirichletLM IFB2 In_expB2 In_expC2 InL2
Number of
queries
49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49
Relevant
retrieved
43 45 45 45 45 48 45
Average
precision
0.2838 0.2978 0.3240 0.5722 0. 3236 0.3106 0.3292
R-Precision 0.1633 0.1633 0.2041 0.4694 0. 2041 0.2041 0.2041
Precision at 1 0.1633 0.1633 0.2041 0.4694 0. 2041 0.2041 0.2041
Precision at 2 0.1327 0.1531 0.1633 0.2755 0. 1633 0.1531 0.1735
Precision at 3 0.1020 0.1361 0.1361 0.2177 0. 1361 0.1224 0.1293
Precision at 4 0.0918 0.1071 0.1173 0.1735 0. 1173 0.1020 0.1173
Precision at 5 0.0898 0.0898 0.0980 0.1429 0. 0980 0.0898 0.0980
Precision at 10 0.0551 0.0510 0.0490 0.0755 0. 0490 0.0490 0.0531
Precision at 15 0.0408 0.0354 0.0367 0.0517 0. 0367 0.0354 0.0354
Precision at 20 0.0316 0.0306 0.0306 0.0388 0. 0296 0.0286 0.0296
Precision at 30 0.0231 0.0231 0.0296 0.0299 0. 0218 0.0211 0.0224
Precision at 50 0.0147 0.0147 0.0143 0.0184 0. 0143 0.0139 0.0147
Precision at 100 0.0082 0.0078 0.0076 0.0094 0. 0073 0.0076 0.0076
Precision at 200 0.0042 0.0040 0.0042 0.0048 0. 0041 0.0041 0.0040
Precision at 500 0.0017 0.0017 0.0018 0.0020 0. 0018 0.0017 0.0018
Precision at
1000
0.0009 0.0009 0.0009 0.0010 0. 0009 0.0009 0.0009
MWT: Web Mining – 2013/14
37 | P a g i n a
LemurTF_IDF LGD PL2 TF_IDF
Number of
queries
49 49 49 49
Retrieved 42575 42575 42567 42575
Relevant 49 49 49 49
Relevant
retrieved
45 44 44 45
Average
precision
0.2894 0.2803 0.3047 0.3108
R-Precision 0.1837 0.1633 0.1837 0.1837
Precision at 1 0.1837 0.1633 0.1837 0.1837
Precision at 2 0.1429 0.1122 0.1633 0.1633
Precision at 3 0.1156 0.1088 0.1156 0.1293
Precision at 4 0.0969 0.0918 0.1071 0.1071
Precision at 5 0.0816 0.0816 0.0898 0.0939
Precision at 10 0.0469 0.0571 0.0531 0.0531
Precision at 15 0.0327 0.0422 0.0381 0.0354
Precision at 20 0.0255 0.0347 0.0286 0.0286
Precision at 30 0.0204 0.0238 0.0218 0.0218
Precision at 50 0.0147 0.0151 0.0143 0.0147
Precision at 100 0.0078 0.0084 0.0076 0.0076
Precision at 200 0.0039 0.0042 0.0038 0.0039
Precision at 500 0.0017 0.0017 0.0017 0.0017
Precision at
1000
0.0009 0.0009 0.0009 0.0009
Anche nel caso della collezione Degrade20 abbiamo raggiunto una baseline di documenti. Osservando i
risultati della tabella possiamo concludere che:
 Il modello che ha generato i risultati migliori è InL2 (il modello di casualità basato sulla Inverse
document frequency);
 Il modello che ha generato i risultati peggiori è LGD (un modello logaritmico).
Anche in questo caso continueremo ad effettuare il resto dei test solo su tali modelli.
MWT: Web Mining – 2013/14
38 | P a g i n a
Opzioni attivate e/o disattivate sul modello migliore e peggiore
Stop Words +
Stemming
Stop Words Stemming No Stop Words +
No Stemming
InL2 LGD InL2 LGD InL2 LGD InL2 LGD
Number of
queries
49 49 44 44 49 49 47 47
Retrieved 42575 42575 29798 29798 44340 44340 42772 42772
Relevant 49 49 44 44 49 49 47 47
Relevant
retrieved
45 44 28 28 41 41 25 23
Average
precision
0.3292 0.2803 0.1921 0.1746 0.2802 0.2732 0.1360 0.1171
R-Precision 0.2041 0.1633 0.1364 0.1136 0.1633 0.1633 0.1064 0.0851
Precision at 1 0.2041 0.1633 0.1364 0.1136 0.1633 0.1633 0.1064 0.0851
Precision at 2 0.1735 0.1122 0.1023 0.0909 0.1429 0.1122 0.0532 0.0426
Precision at 3 0.1293 0.1088 0.0682 0.0682 0.1088 0.1088 0.0496 0.0355
Precision at 4 0.1173 0.0918 0.0568 0.0511 0.0918 0.0918 0.0372 0.0319
Precision at 5 0.0980 0.0816 0.0455 0.0455 0.0816 0.0898 0.0298 0.0298
Precision at 10 0.0531 0.0571 0.0273 0.0273 0.0490 0.0510 0.0191 0.0191
Precision at 15 0.0354 0.0422 0.0197 0.0182 0.0340 0.0367 0.0142 0.0156
Precision at 20 0.0296 0.0347 0.0182 0.0170 0.0286 0.0296 0.0149 0.0138
Precision at 30 0.0224 0.0238 0.0136 0.0129 0.0224 0.0204 0.0106 0.0113
Precision at 50 0.0147 0.0151 0.0086 0.0091 0.0147 0.0147 0.0068 0.0068
Precision at 100 0.0076 0.0084 0.0048 0.0050 0.0078 0.0080 0.0036 0.0036
Precision at 200 0.0040 0.0042 0.0027 0.0026 0.0040 0.0042 0.0022 0.0022
Precision at 500 0.0018 0.0017 0.0013 0.0012 0.0016 0.0017 0.0009 0.0009
Precision at
1000
0.0009 0.0009 0.0006 0.0006 0.0008 0.0008 0.0005 0.0005
Anche nel caso della collezione Degrade20 abbiamo provato ad applicare le varie combinazioni di
attivazione e/o disattivazione della lista di Stop Words e dello Stemming di Porter.
Tale analisi dimostra che, ancora una volta, la combinazione che consente di ottenere una precisione più
alta è quella che unisce l’eliminazione delle Stop Words all’applicazione dello Stemming process.
MWT: Web Mining – 2013/14
39 | P a g i n a
Applicazione dei modelli di Query Expansion
Modelli di Q.E. Bo1 Bo2 CS CSCorrect
InL2 LGD InL2 LGD InL2 LGD InL2 LGD
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 49000 49000 49000 49000 49000 49000 49000 49000
Relevant 49 49 49 49 49 49 49 49
Relevant
retrieved
44 44 44 44 42 37 42 37
Average
precision
0.2978 0.2643 0.2926 0.2614 0.2371 0.1985 0.2371 0.1985
R-Precision 0.1837 0.1429 0.1837 0.1429 0.1224 0.0816 0.1224 0.0816
Precision at 1 0.1837 0.1429 0.1837 0.1429 0.1224 0.0816 0.1224 0.0816
Precision at 2 0.1531 0.1122 0.1633 0.1327 0.1327 0.0918 0.1327 0.0918
Precision at 3 0.1088 0.1088 0.1156 0.1088 0.1020 0.0884 0.1020 0.0884
Precision at 4 0.0918 0.0969 0.0969 0.0918 0.0867 0.0816 0.0867 0.0816
Precision at 5 0.0857 0.0857 0.0816 0.0776 0.0776 0.0735 0.0776 0.0735
Precision at 10 0.0531 0.0510 0.0429 0.0490 0.0429 0.0429 0.0429 0.0429
Precision at 15 0.0381 0.0395 0.0313 0.0327 0.0299 0.0299 0.0299 0.0299
Precision at 20 0.0296 0.0306 0.0276 0.0265 0.0224 0.0235 0.0224 0.0235
Precision at 30 0.0204 0.0224 0.0197 0.0184 0.0156 0.0163 0.0156 0.0163
Precision at 50 0.0139 0.0151 0.0131 0.0127 0.0102 0.0102 0.0102 0.0102
Precision at 100 0.0078 0.0084 0.0076 0.0076 0.0061 0.0059 0.0061 0.0059
Precision at 200 0.0043 0.0045 0.0042 0.0040 0.0034 0.0033 0.0034 0.0033
Precision at 500 0.0018 0.0018 0.0018 0.0018 0.0016 0.0014 0.0016 0.0014
Precision at
1000
0.0009 0.0009 0.0009 0.0009 0.0009 0.0008 0.0009 0.0008
MWT: Web Mining – 2013/14
40 | P a g i n a
Modelli di Q.E. Information KL KLComplete KLCorrect
InL2 LGD InL2 LGD InL2 LGD InL2 LGD
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 49000 49000 49000 49000 49000 49000 49000 49000
Relevant 49 49 49 49 49 49 49 49
Relevant
retrieved
26 22 45 44 41 37 45 45
Average
precision
0.1780 0.1572 0.3025 0.2749 0.2500 0.1982 0.3137 0.2809
R-Precision 0.1224 0.0816 0.1837 0.1633 0.1429 0.0816 0.1837 0.1633
Precision at 1 0.1224 0.0816 0.1837 0.1633 0.1429 0.0816 0.1837 0.1633
Precision at 2 0.0714 0.0816 0.1531 0.1122 0.1429 0.0918 0.1633 0.1224
Precision at 3 0.0680 0.0680 0.1224 0.1156 0.1020 0.0884 0.1293 0.1088
Precision at 4 0.0663 0.0561 0.1020 0.0969 0.0867 0.0816 0.1071 0.0867
Precision at 5 0.0612 0.0531 0.0898 0.0857 0.0776 0.0776 0.0898 0.0857
Precision at 10 0.0306 0.0306 0.0510 0.0510 0.0408 0.0429 0.0551 0.0551
Precision at 15 0.0204 0.0218 0.0381 0.0367 0.0299 0.0299 0.0381 0.0408
Precision at 20 0.0153 0.0163 0.0306 0.0306 0.0224 0.0224 0.0296 0.0337
Precision at 30 0.0102 0.0116 0.0204 0.0224 0.0156 0.0163 0.0218 0.0238
Precision at 50 0.0061 0.0069 0.0135 0.0151 0.0102 0.0102 0.0143 0.0151
Precision at 100 0.0035 0.0037 0.0080 0.0082 0.0061 0.0057 0.0076 0.0084
Precision at 200 0.0020 0.0018 0.0042 0.0044 0.0034 0.0033 0.0041 0.0042
Precision at 500 0.0009 0.0009 0.0018 0.0018 0.0016 0.0014 0.0018 0.0018
Precision at
1000
0.0005 0.0004 0.0009 0.0009 0.0008 0.0008 0.0009 0.0009
Anche per la collezione Degrade20 abbiamo applicato la Query Expansion tramite i vari modelli disponibili e
possiamo concludere che il livello di precisione anche stavolta non migliora rispetto ai risultati ottenuti
senza utilizzare la Query Expansion per quanto riguarda il modello InL2, mentre otteniamo un leggero
miglioramento per quanto riguarda il modello LGD.
Siccome il miglioramento per il modello LGD è lieve, in base all’analisi effettuata abbiamo ritenuto
opportuno anche stavolta aumentare il parametro di normalizzazione della term frequency senza
adoperare la Query Expansion, come vedremo di seguito.
MWT: Web Mining – 2013/14
41 | P a g i n a
Valorizzazione del parametro “c” sul modello Ln2
Modello
Ln2
c
1 2 3 4 5 6 7 8
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 45 45 45 45 45 45 45 45
Average precision 0.3292 0.3197 0.2987 0.2873 0.2824 0.2879 0.2897 0.2868
R-Precision 0.2041 0.1837 0.1429 0.1224 0.1224 0.1429 0.1429 0.1429
Precision at 1 0.2041 0.1837 0.1429 0.1224 0.1224 0.1429 0.1429 0.1429
Precision at 2 0.1735 0.1633 0.1633 0.1633 0.1531 0.1429 0.1429 0.1327
Precision at 3 0.1293 0.1361 0.1224 0.1224 0.1156 0.1156 0.1156 0.1156
Precision at 4 0.1173 0.1122 0.1173 0.1122 0.1122 0.1071 0.1122 0.1122
Precision at 5 0.0980 0.0939 0.0980 0.0939 0.0939 0.0939 0.0939 0.0939
Precision at 10 0.0531 0.0551 0.0592 0.0571 0.0592 0.0592 0.0592 0.0612
Precision at 15 0.0354 0.0395 0.0408 0.0408 0.0408 0.0408 0.0422 0.0408
Precision at 20 0.0296 0.0316 0.0327 0.0316 0.0316 0.0327 0.0327 0.0327
Precision at 30 0.0224 0.0224 0.0224 0.0224 0.0231 0.0231 0.0231 0.0231
Precision at 50 0.0147 0.0147 0.0147 0.0151 0.0151 0.0151 0.0151 0.0151
Precision at 100 0.0076 0.0078 0.0080 0.0080 0.0080 0.0082 0.0082 0.0082
Precision at 200 0.0040 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042
Precision at 500 0.0018 0.0018 0.0018 0.0018 0.0017 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
MWT: Web Mining – 2013/14
42 | P a g i n a
Modello
InL2
c
9 10 11 12 13 14 15 16
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 44 44 44 44 44 44 44 44
Average precision 0.2856 0.2829 0.2857 0.2886 0.2869 0.2864 0.2859 0.2866
R-Precision 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429
Precision at 1 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429
Precision at 2 0.1327 0.1224 0.1224 0.1327 0.1327 0.1327 0.1327 0.1327
Precision at 3 0.1088 0.1088 0.1224 0.1224 0.1224 0.1224 0.1224 0.1224
Precision at 4 0.1122 0.1122 0.1122 0.1122 0.1071 0.1071 0.1071 0.1071
Precision at 5 0.0939 0.0980 0.0980 0.0980 0.0939 0.0939 0.0939 0.0980
Precision at 10 0.0592 0.0592 0.0592 0.0592 0.0592 0.0571 0.0571 0.0571
Precision at 15 0.0408 0.0408 0.0408 0.0408 0.0408 0.0408 0.0408 0.0408
Precision at 20 0.0327 0.0327 0.0327 0.0327 0.0316 0.0316 0.0316 0.0316
Precision at 30 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231
Precision at 50 0.0151 0.0151 0.0151 0.0151 0.0151 0.0151 0.0151 0.0151
Precision at 100 0.0082 0.0082 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080
Precision at 200 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042
Precision at 500 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
Abbiamo testato il modello di pesatura InL2 che ha rilevato i risultati migliori di precisione per la collezione
Degrade20 applicandogli il parametro di normalizzazione della term frequency e aumentandolo di valore
fino a 16.0. L’analisi condotta ci porta a concludere che aumentare il parametro c porta ad ottenere dei
risultati gradualmente peggiori, e dunque ad una degradazione del livello di precisione.
MWT: Web Mining – 2013/14
43 | P a g i n a
Valorizzazione del parametro “c” sul modello LGD
Modello
LGD
c
1 2 3 4 5 6 7 8
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 44 43 43 43 43 43 43 43
Average precision 0.2803 0.2866 0.2848 0.2882 0.2882 0.2843 0.2864 0.2860
R-Precision 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633
Precision at 1 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633
Precision at 2 0.1122 0.1327 0.1327 0.1327 0.1327 0.1224 0.1327 0.1327
Precision at 3 0.1088 0.1088 0.1020 0.1088 0.1088 0.1088 0.1088 0.1088
Precision at 4 0.0918 0.0918 0.0918 0.1020 0.1020 0.1020 0.1020 0.1020
Precision at 5 0.0816 0.0776 0.0816 0.0857 0.0857 0.0857 0.0898 0.0898
Precision at 10 0.0571 0.0571 0.0571 0.0571 0.0571 0.0551 0.0531 0.0531
Precision at 15 0.0422 0.0408 0.0408 0.0408 0.0395 0.0395 0.0395 0.0395
Precision at 20 0.0347 0.0337 0.0327 0.0327 0.0327 0.0327 0.0316 0.0316
Precision at 30 0.0238 0.0238 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231
Precision at 50 0.0151 0.0151 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147
Precision at 100 0.0084 0.0084 0.0084 0.0084 0.0082 0.0080 0.0080 0.0080
Precision at 200 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042
Precision at 500 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
MWT: Web Mining – 2013/14
44 | P a g i n a
Modello
LGD
c
9 10 11 12 13 14 15 16
Number of
queries
49 49 49 49 49 49 49 49
Retrieved 42575 42575 42575 42575 42575 42575 42575 42575
Relevant 49 49 49 49 49 49 49 49
Relevant retrieved 43 43 43 43 43 43 43 43
Average precision 0.2965 0.2963 0.2962 0.2960 0.2960 0.2973 0.2971 0.3006
R-Precision 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837
Precision at 1 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837
Precision at 2 0.1327 0.1327 0.1327 0.1327 0.1327 0.1327 0.1327 0.1429
Precision at 3 0.1088 0.1088 0.1088 0.1088 0.1088 0.1156 0.1156 0.1156
Precision at 4 0.1071 0.1071 0.1071 0.1071 0.1071 0.1071 0.1071 0.1071
Precision at 5 0.0898 0.0898 0.0898 0.0898 0.0898 0.0898 0.0898 0.0898
Precision at 10 0.0531 0.0531 0.0531 0.0531 0.0531 0.0531 0.0531 0.0531
Precision at 15 0.0381 0.0381 0.0367 0.0367 0.0367 0.0367 0.0367 0.0367
Precision at 20 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306
Precision at 30 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 0.0224 0.0224
Precision at 50 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147
Precision at 100 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080
Precision at 200 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042
Precision at 500 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017
Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
Abbiamo provato a verificare anche se aumentando il valore del parametro c per il modello di pesatura che
produce i risultati peggiori, nel caso della collezione Degrade20, riusciamo ad arrivare ad una precisione
migliore. Dai risultati ottenuti, possiamo concludere che aumentare il valore del peso di tf nel caso del
modello LGD porta ad un buon miglioramento complessivo.
MWT: Web Mining – 2013/14
45 | P a g i n a
Riassumendo
Collezione Original
I risultati di precisione migliori ottenuti applicando le varie opzioni che abbiamo analizzato in precedenza,
per i modelli di pesatura che restituiscono rispettivamente un esito migliore e peggiore di precisione per la
collezione Original, sono:
Funzionalità
attivate
Stop Words +
Stemming
Q.E.: KLCorrect c
Modelli DLH13 PL2 DLH13 PL2 DLH13 PL2
Number of
queries
50 50 50 50 50 50
Retrieved 44540 44527 50000 50000 44540 44538
Relevant 50 50 50 50 50 50
Relevant
retrieved
50 49 50 49 50 50
Average
precision
0.8976 0.7773 0.8672 0.7564 0.8976 0.8960
R-Precision 0.8400 0.7000 0.8000 0.6800 0.8400 0.8400
Precision at 1 0.8400 0.7000 0.8000 0.6800 0.8400 0.8400
Precision at 2 0.4700 0.4100 0.4400 0.3900 0.4700 0.4600
Precision at 3 0.3133 0.2733 0.3067 0.2667 0.3133 0.3133
Precision at 4 0.2350 0.2050 0.2300 0.2050 0.2350 0.2350
Precision at 5 0.1920 0.1680 0.1920 0.1680 0.1920 0.1920
Precision at 10 0.0960 0.0900 0.1000 0.0900 0.0960 0.1000
Precision at 15 0.0667 0.0627 0.0667 0.0613 0.0667 0.0667
Precision at 20 0.0500 0.0480 0.0500 0.0480 0.0500 0.0500
Precision at 30 0.0333 0.0320 0.0333 0.0480 0.0333 0.0333
Precision at 50 0.0200 0.0192 0.0200 0.0192 0.0200 0.0200
Precision at 100 0.0100 0.0098 0.0200 0.0098 0.0100 0.0100
Precision at 200 0.0050 0.0049 0.0050 0.0049 0.0050 0.0050
Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020
Precision at
1000
0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
MWT: Web Mining – 2013/14
46 | P a g i n a
Collezione Degrade5
I risultati migliori che abbiamo invece ottenuto svolgendo dei test e applicando le varie funzionalità
disponibili sui modelli che hanno restituito rispettivamente i risultati migliori e peggiori di precisione sulla
collezione Degrade5, sono:
Funzionalità
attivate
Stop Words +
Stemming
Q.E.: KLCorrect c
Modelli LGD BB2 LGD BB2 LGD BB2
Number of
queries
49 49 49 49 49 49
Retrieved 42664 42664 49000 49000 42664 42664
Relevant 49 49 49 49 49 49
Relevant
retrieved
48 46 48 44 48 46
Average
precision
0.7167 0.5280 0.7069 0.4821 0.7186 0.5280
R-Precision 0.6327 0.4286 0.6122 0.3878 0.6327 0.4286
Precision at 1 0.6327 0.4286 0.6122 0.3878 0.6327 0.4286
Precision at 2 0.3673 0.2551 0.3673 0.2347 0.3776 0.2551
Precision at 3 0.2653 0.2109 0.2653 0.1837 0.2653 0.2109
Precision at 4 0.1990 0.1582 0.1990 0.1378 0.1990 0.1582
Precision at 5 0.1673 0.1306 0.1633 0.1184 0.1633 0.1306
Precision at 10 0.0837 0.0714 0.0837 0.0673 0.0837 0.0714
Precision at 15 0.0571 0.0476 0.0585 0.0463 0.0571 0.0476
Precision at 20 0.0429 0.0357 0.0439 0.0367 0.0439 0.0357
Precision at 30 0.0306 0.0265 0.0313 0.0252 0.0306 0.0265
Precision at 50 0.0184 0.0163 0.0188 0.0163 0.0184 0.0163
Precision at 100 0.0094 0.0088 0.0094 0.0084 0.0092 0.0088
Precision at 200 0.0047 0.0046 0.0048 0.0043 0.0047 0.0046
Precision at 500 0.0020 0.0019 0.0020 0.0018 0.0020 0.0019
Precision at
1000
0.0010 0.0009 0.0010 0.0009 0.0010 0.0009
MWT: Web Mining – 2013/14
47 | P a g i n a
Collezione Degrade20
Per quanto riguarda la collezione Degrade20, i risultati migliori di precisione che abbiamo invece ottenuto
applicando le varie funzionalità disponibili sui modelli di pesatura che hanno restituito rispettivamente i
risultati migliori e peggiori, sono:
Funzionalità
attivate
Stop Words +
Stemming
Q.E.: KLCorrect c
Modelli InL2 LGD InL2 LGD InL2 LGD
Number of
queries
49 49 49 49 49 49
Retrieved 42575 42575 49000 49000 42575 42575
Relevant 49 49 49 49 49 49
Relevant
retrieved
45 44 45 45 45 43
Average
precision
0.3292 0.2803 0.3137 0.2809 0.3292 0.3006
R-Precision 0.2041 0.1633 0.1837 0.1633 0.2041 0.1837
Precision at 1 0.2041 0.1633 0.1837 0.1633 0.2041 0.1837
Precision at 2 0.1735 0.1122 0.1633 0.1224 0.1735 0.1429
Precision at 3 0.1293 0.1088 0.1293 0.1088 0.1293 0.1156
Precision at 4 0.1173 0.0918 0.1071 0.0867 0.1173 0.1071
Precision at 5 0.0980 0.0816 0.0898 0.0857 0.0980 0.0898
Precision at 10 0.0531 0.0571 0.0551 0.0551 0.0531 0.0531
Precision at 15 0.0354 0.0422 0.0381 0.0408 0.0354 0.0367
Precision at 20 0.0296 0.0347 0.0296 0.0337 0.0296 0.0306
Precision at 30 0.0224 0.0238 0.0218 0.0238 0.0224 0.0224
Precision at 50 0.0147 0.0151 0.0143 0.0151 0.0147 0.0147
Precision at 100 0.0076 0.0084 0.0076 0.0084 0.0076 0.0080
Precision at 200 0.0040 0.0042 0.0041 0.0042 0.0040 0.0042
Precision at 500 0.0018 0.0017 0.0018 0.0018 0.0018 0.0017
Precision at
1000
0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
MWT: Web Mining – 2013/14
48 | P a g i n a
Apache Lucene
Overview
Apache Lucene è una API open source che ha una funzione di motore di ricerca testuale ed è scritta
interamente nel linguaggio Java. Si tratta di una tecnologia adattabile all’incirca a qualsiasi applicazione che
richieda una ricerca full-text, specialmente se cross-platform.
E’ attualmente supportata dall’Apache Software Foundation ed è resa open source tramite l’Apache
License.
Le caratteristiche principali di Lucene sono le seguenti:
 Indicizzazione scalabile e ad alte performance;
 supporto di algoritmi di ricerca efficienti;
 cross-platform;
 supporto fornito dall’Apache Software all’Apache Community e ai progetti open source.
Per ulteriori informazioni, basta consultare il sito [5].
Progetto Lucene
Per il nostro progetto abbiamo deciso di creare un’applicazione Java che sia capace di creare un indice e di
eseguire delle query sull’indice creato, per poi generare dei risultati.
L’esecuzione dell’intero processo di interrogazione restituisce in output un file con estensione .out, così
formattato:
numero_query Q0 <DOCNO> i-esimo_DOCNO score_doc nome_modello_utilizzatoA
All’interno del file, per ogni query vengono specificati i documenti ordinati in maniera decrescente di
score_doc, ponendo in testa il documento più rilevante.
Il file .out sarà poi oggetto di valutazione da parte del tool trec_eval, che descriveremo successivamente.
MWT: Web Mining – 2013/14
49 | P a g i n a
Il progetto Java consiste di tre classi:
1. IndexTREC: che insieme alla classe TrecDocIterator si occupa dell’indicizzazione;
2. TrecDocIterator: che itera sui documenti;
3. BatchSearch: che si occupa della ricerca.
Per far funzionare tali classi, nel progetto abbiamo bisogno delle seguenti librerie:
 JDK 1.7;
 lucene-analyzer-common-4.9.0.jar;
 lucene-core-4.9.0.jar;
 lucene-queryparser-4.9.0.jar.
I modelli previsti per la ricerca sono:
1) default: modello di default di Lucene, corrisponde al TF_IFD;
2) BM25: modello di valutazione probabilistico BM25;
3) DFR: Divergence from Randomness, paradigma di standardizzazione di Harter’s 2-poisson;
4) LM: modello di valutazione linguistico con Dirichlet smoothing, anche detto Language Model.
Di seguito mostriamo la struttura del progetto Java SE:
Supponendo di avere a disposizione un file contenente i risultati attesi, che nel nostro caso è chiamato
confusion.known_items_marco, è possibile procedere alla valutazione dei risultati prodotti nel file .out
generato dal programma. Dato che i modelli disponibili per Lucene sono 4 e le collezioni sono 3, il sistema
genera complessivamente 12 file con estensione .out.
Questo processo di valutazione è stato effettuato per ogni collezione della Confusion TREC (Original,
Degrade5 e Degrade20) e a tal fine è stato utilizzato il tool trec_eval reperibile all’indirizzo [6].
MWT: Web Mining – 2013/14
50 | P a g i n a
Per utilizzare trec_eval è stato necessario compilare i sorgenti contenuti nell’archivio utilizzando il
compilatore GCC (un compilatore multi-target creato inizialmente dal fondatore della Free Software
Foundation come parte del Progetto GNU) mediate il comando “make” lanciato da terminale.
A livello pratico per comparare i file con estensione .out con i risultati attesi abbiamo utilizzato l’eseguibile
trec_eval ottenuto, appunto, dopo il lancio del comando “make”.
Nei paragrafi successivi riporteremo i risultati mostrati a video restituiti dall’interfaccia del terminale.
MWT: Web Mining – 2013/14
51 | P a g i n a
Collezione Original
L’esecuzione dei comandi accennati nel paragrafo precedente, ha portato a generare i seguenti risultati:
Modelli di pesatura DEFAULT
(TF_IDF)
BM25 DFR LM
num_q 49 49 49 49
num_ret 44162 44162 44162 44162
num_rel 49 49 49 49
num_rel_ret 48 46 45 47
MAP 0.5088 0.5232 0.2726 0.5744
Rprec 0.4082 0.4490 0.0816 0.4898
Precision at 5 0.1388 0.1388 0.1020 0.1306
Precision at 10 0.0714 0.0714 0.0735 0.0735
Precision at 15 0.0503 0.0476 0.0503 0.0503
Precision at 20 0.0378 0.0378 0.0388 0.0388
Precision at 30 0.0259 0.0265 0.0272 0.0265
Precision at 100 0.0086 0.0086 0.0086 0.0090
Precision at 200 0.0045 0.0044 0.0044 0.0046
Precision at 500 0.0019 0.0018 0.0018 0.0019
Precision at 1000 0.0010 0.0009 0.0009 0.0010
Come è possibile notare Lucene, a differenza di Terrier, mette a disposizione per la ricerca dei documenti
soltanto 4 modelli diversi di pesatura.
La valutazione permette di concludere che:
 LM è il modello di pesatura che ha restituito una precisione migliore;
 DFR è il paradigma che ha restituito una precisione peggiore.
MWT: Web Mining – 2013/14
52 | P a g i n a
Collezione Degrade5
Per la collezione Degrade5 è stato rieseguito da capo il programma, il quale ha portato a questi nuovi
risultati:
Modelli di pesatura DEFAULT
(TF_IDF)
BM25 DFR LM
num_q 49 49 49 49
num_ret 42486 42486 42486 42486
num_rel 49 49 49 49
num_rel_ret 45 44 44 45
MAP 0.4250 0.4158 0.3345 0.4128
Rprec 0.3265 0.3061 0.1837 0.3061
Precision at 5 0.1143 0.1061 0.1061 0.1061
Precision at 10 0.0612 0.0612 0.0592 0.0612
Precision at 15 0.0408 0.0408 0.0408 0.0463
Precision at 20 0.0316 0.0316 0.0316 0.0388
Precision at 30 0.0231 0.0245 0.0231 0.0265
Precision at 100 0.0080 0.0080 0.0082 0.0086
Precision at 200 0.0043 0.0044 0.0043 0.0044
Precision at 500 0.0018 0.0018 0.0018 0.0018
Precision at 1000 0.0009 0.0009 0.0009 0.0009
Stavolta è possibile osservare che:
 TF_IDF è il modello di pesatura che ha restituito una precisione migliore;
 DFR è il paradigma che ha restituito una precisione peggiore, ancora una volta.
MWT: Web Mining – 2013/14
53 | P a g i n a
Collezione Degrade20
Per la collezione Degrade20, il programma ha generato questi altri risultati:
Modelli di pesatura DEFAULT
(TF_IDF)
BM25 DFR LM
num_q 49 49 49 49
num_ret 40989 40989 40989 40989
num_rel 49 49 49 49
num_rel_ret 34 33 32 33
MAP 0.2344 0.2553 0.1763 0.2320
Rprec 0.1633 0.1837 0.0816 0.1429
Precision at 5 0.0571 0.0571 0.0571 0.0653
Precision at 10 0.0367 0.0408 0.0367 0.0408
Precision at 15 0.0259 0.0272 0.0259 0.0313
Precision at 20 0.0214 0.0235 0.0235 0.0245
Precision at 30 0.0163 0.0177 0.0170 0.0177
Precision at 100 0.0057 0.0059 0.0059 0.0063
Precision at 200 0.0031 0.0031 0.0030 0.0032
Precision at 500 0.0013 0.0013 0.0013 0.0013
Precision at 1000 0.0007 0.0007 0.0007 0.0007
Nel caso della collezione Degrade20 osserviamo, invece, che:
 BM25 è il modello di pesatura che ha restituito una precisione migliore;
 DFR è il paradigma che ha restituito una precisione peggiore, di nuovo.
MWT: Web Mining – 2013/14
54 | P a g i n a
Confronto tra Terrier e Lucene
Collezioni Tool
MODELLO MIGLIORE MODELLO PEGGIORE
Nome
modello
Average
Precision
R-
Precision
Nome
modello
Average
Precision
R-Precision
Original
Terrier DLH13 0.8976 0.8400 PL2
(c=11-14)
0.8960 0.8400
Lucene LM 0.5744 0.4898 DFR 0.2726 0.0816
Degrade5
Terrier LGD
(c=3)
0.7186 0.6327 BB2 0.5280 0.4286
Lucene TF_IDF 0.4250 0.3265 DFR 0.3345 0.1837
Degrade20
Terrier InL2 0.3292 0.2041 LGD
(c=16)
0.3006 0.1837
Lucene BM25 0.2553 0.1837 DFR 0.1763 0.0816
In questa tabella vengono riportati i valori di precisione migliori e peggiori ottenuti applicando i modelli di
pesatura messi a disposizione dai due tool, rilevati analizzando le 3 collezioni della TREC. Come possiamo
notare, abbiamo riscontrato un comportamento nettamente migliore da parte del tool Terrier 3.5 rispetto
al tool Lucene.
MWT: Web Mining – 2013/14
55 | P a g i n a
Conclusioni
L’analisi effettuata ci permette di concludere che, per le 3 collezioni della Confusion Track, la piattaforma di
Terrier ha una performance nettamente migliore rispetto alla API Java Lucene.
E’ bene ad ogni modo ricordare che le varie interrogazioni sulle 3 collezioni hanno tenuto in considerazione
anche una query che restituisce 0 documenti rilevanti, la quale ha portato ad un abbassamento
complessivo dei risultati finali. Per questo motivo, i risultati che abbiamo riportato nelle varie tabelle vanno
considerati come valori relativi la cui utilità è finalizzata al semplice confronto tra i due tool.
Infine, pensando ad uno sviluppo futuro per ciò che abbiamo creato ai fini di questa relazione, possiamo
concludere che il progetto Java presentato può essere integrato facilmente in qualsiasi applicazione web
che necessita una funzionalità di ricerca su collezioni di documenti di grandi dimensioni.
MWT: Web Mining – 2013/14
56 | P a g i n a
Riferimenti
[1] Text Retrieval Conference’s website, http://trec.nist.gov/
[2] Terrier’s web site, http://terrier.org/
[3] What’s news in Terrier 3.5, http://terrier.org/docs/v3.5/whats_new.html
[4] TREC-5 Confusion Track’s web site, http://trec.nist.gov/data/t5_confusion.html
[5] Lucene Core, http://lucene.apache.org/
[6] trec_eval, http://trec.nist.gov/trec_eval/

More Related Content

Viewers also liked

Design e Sviluppo di una Web Application per Smart TV
Design e Sviluppo di una Web Application per Smart TVDesign e Sviluppo di una Web Application per Smart TV
Design e Sviluppo di una Web Application per Smart TVSilvio D'Orazio
 
[MWT] Il web e la Pubblica Amministrazione
[MWT] Il web e la Pubblica Amministrazione[MWT] Il web e la Pubblica Amministrazione
[MWT] Il web e la Pubblica AmministrazioneSilvio D'Orazio
 
โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์patrio94
 
งานคอม
งานคอมงานคอม
งานคอมpatrio94
 
AWMN Services And Cloud First Steps ISCWN Presentation 2012
AWMN Services And Cloud First Steps ISCWN Presentation 2012AWMN Services And Cloud First Steps ISCWN Presentation 2012
AWMN Services And Cloud First Steps ISCWN Presentation 2012Joseph Bonicioli
 
โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์patrio94
 
Michigan Meetings Expo - Emergency Action Planning
Michigan Meetings Expo - Emergency Action PlanningMichigan Meetings Expo - Emergency Action Planning
Michigan Meetings Expo - Emergency Action PlanningDestination Michigan
 

Viewers also liked (10)

Design e Sviluppo di una Web Application per Smart TV
Design e Sviluppo di una Web Application per Smart TVDesign e Sviluppo di una Web Application per Smart TV
Design e Sviluppo di una Web Application per Smart TV
 
Operating on a Shoestring Budget
Operating on a Shoestring BudgetOperating on a Shoestring Budget
Operating on a Shoestring Budget
 
[MWT] Il web e la Pubblica Amministrazione
[MWT] Il web e la Pubblica Amministrazione[MWT] Il web e la Pubblica Amministrazione
[MWT] Il web e la Pubblica Amministrazione
 
โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์
 
งานคอม
งานคอมงานคอม
งานคอม
 
AWMN Services And Cloud First Steps ISCWN Presentation 2012
AWMN Services And Cloud First Steps ISCWN Presentation 2012AWMN Services And Cloud First Steps ISCWN Presentation 2012
AWMN Services And Cloud First Steps ISCWN Presentation 2012
 
[MWT] XML - SOA
[MWT] XML - SOA[MWT] XML - SOA
[MWT] XML - SOA
 
[MWT] JEE
[MWT] JEE[MWT] JEE
[MWT] JEE
 
โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์
 
Michigan Meetings Expo - Emergency Action Planning
Michigan Meetings Expo - Emergency Action PlanningMichigan Meetings Expo - Emergency Action Planning
Michigan Meetings Expo - Emergency Action Planning
 

Similar to [MWT] Web mining

Sviluppo e realizzazione di un sistema per la manipolazione di superfici trid...
Sviluppo e realizzazione di un sistema per la manipolazione di superfici trid...Sviluppo e realizzazione di un sistema per la manipolazione di superfici trid...
Sviluppo e realizzazione di un sistema per la manipolazione di superfici trid...Raffaele Bernardi
 
Art Everywhere: progetto per workshop Google. Sviluppo di sistemi di pattern ...
Art Everywhere: progetto per workshop Google. Sviluppo di sistemi di pattern ...Art Everywhere: progetto per workshop Google. Sviluppo di sistemi di pattern ...
Art Everywhere: progetto per workshop Google. Sviluppo di sistemi di pattern ...Francesco Cucari
 
Openfisca Managing Tool: a tool to manage fiscal sistems
Openfisca Managing Tool: a tool to manage fiscal sistemsOpenfisca Managing Tool: a tool to manage fiscal sistems
Openfisca Managing Tool: a tool to manage fiscal sistemsLorenzo Stacchio
 
Analisi e realizzazione di uno strumento per la verifica di conformità su sis...
Analisi e realizzazione di uno strumento per la verifica di conformità su sis...Analisi e realizzazione di uno strumento per la verifica di conformità su sis...
Analisi e realizzazione di uno strumento per la verifica di conformità su sis...Davide Bravin
 
Tesi: Progetto e realizzazione di un sistema robusto di gestione dei dati per...
Tesi: Progetto e realizzazione di un sistema robusto di gestione dei dati per...Tesi: Progetto e realizzazione di un sistema robusto di gestione dei dati per...
Tesi: Progetto e realizzazione di un sistema robusto di gestione dei dati per...Paolo Morandini
 
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...daniel_zotti
 
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...Davide Ciambelli
 
Rilevamento di attacchi di rete tramite protocolli di monitoraggio per router...
Rilevamento di attacchi di rete tramite protocolli di monitoraggio per router...Rilevamento di attacchi di rete tramite protocolli di monitoraggio per router...
Rilevamento di attacchi di rete tramite protocolli di monitoraggio per router...Ce.Se.N.A. Security
 
Tesi di Laurea sulla Sicurezza delle Reti Informatiche: Le vulnerabilità
Tesi di Laurea sulla Sicurezza delle Reti Informatiche: Le vulnerabilitàTesi di Laurea sulla Sicurezza delle Reti Informatiche: Le vulnerabilità
Tesi di Laurea sulla Sicurezza delle Reti Informatiche: Le vulnerabilitàRiccardo Melioli
 
Estrazione automatica di informazioni da documenti cartacei: progetto e reali...
Estrazione automatica di informazioni da documenti cartacei: progetto e reali...Estrazione automatica di informazioni da documenti cartacei: progetto e reali...
Estrazione automatica di informazioni da documenti cartacei: progetto e reali...Luca Bressan
 
Il tutorial di Python
Il tutorial di PythonIl tutorial di Python
Il tutorial di PythonAmmLibera AL
 
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...Francesco Komauli
 
Publish/Subscribe EDI with Content-Based Routing
Publish/Subscribe EDI with Content-Based RoutingPublish/Subscribe EDI with Content-Based Routing
Publish/Subscribe EDI with Content-Based RoutingNicola Mezzetti
 
Profilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiProfilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiPietro Corona
 
Inoltro di pacchetti ip in sistemi linux
Inoltro di pacchetti ip in sistemi linuxInoltro di pacchetti ip in sistemi linux
Inoltro di pacchetti ip in sistemi linuxCe.Se.N.A. Security
 

Similar to [MWT] Web mining (20)

Sviluppo e realizzazione di un sistema per la manipolazione di superfici trid...
Sviluppo e realizzazione di un sistema per la manipolazione di superfici trid...Sviluppo e realizzazione di un sistema per la manipolazione di superfici trid...
Sviluppo e realizzazione di un sistema per la manipolazione di superfici trid...
 
Art Everywhere: progetto per workshop Google. Sviluppo di sistemi di pattern ...
Art Everywhere: progetto per workshop Google. Sviluppo di sistemi di pattern ...Art Everywhere: progetto per workshop Google. Sviluppo di sistemi di pattern ...
Art Everywhere: progetto per workshop Google. Sviluppo di sistemi di pattern ...
 
Openfisca Managing Tool: a tool to manage fiscal sistems
Openfisca Managing Tool: a tool to manage fiscal sistemsOpenfisca Managing Tool: a tool to manage fiscal sistems
Openfisca Managing Tool: a tool to manage fiscal sistems
 
Analisi e realizzazione di uno strumento per la verifica di conformità su sis...
Analisi e realizzazione di uno strumento per la verifica di conformità su sis...Analisi e realizzazione di uno strumento per la verifica di conformità su sis...
Analisi e realizzazione di uno strumento per la verifica di conformità su sis...
 
Tesi Tamiazzo09
Tesi Tamiazzo09Tesi Tamiazzo09
Tesi Tamiazzo09
 
Tesi: Progetto e realizzazione di un sistema robusto di gestione dei dati per...
Tesi: Progetto e realizzazione di un sistema robusto di gestione dei dati per...Tesi: Progetto e realizzazione di un sistema robusto di gestione dei dati per...
Tesi: Progetto e realizzazione di un sistema robusto di gestione dei dati per...
 
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
 
LEARNING OBJECT MODELLO DI RIFERIMENTO SCORM E AUTHORING APPLICATIONS
LEARNING OBJECT MODELLO DI RIFERIMENTO SCORM E AUTHORING APPLICATIONSLEARNING OBJECT MODELLO DI RIFERIMENTO SCORM E AUTHORING APPLICATIONS
LEARNING OBJECT MODELLO DI RIFERIMENTO SCORM E AUTHORING APPLICATIONS
 
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
 
LEARNING OBJECT MODELLO DI RIFERIMENTO SCORM E AUTHORING APPLICATIONS
LEARNING OBJECT MODELLO DI RIFERIMENTO SCORM E AUTHORING APPLICATIONSLEARNING OBJECT MODELLO DI RIFERIMENTO SCORM E AUTHORING APPLICATIONS
LEARNING OBJECT MODELLO DI RIFERIMENTO SCORM E AUTHORING APPLICATIONS
 
Rilevamento di attacchi di rete tramite protocolli di monitoraggio per router...
Rilevamento di attacchi di rete tramite protocolli di monitoraggio per router...Rilevamento di attacchi di rete tramite protocolli di monitoraggio per router...
Rilevamento di attacchi di rete tramite protocolli di monitoraggio per router...
 
Dynamic Scheduling
Dynamic SchedulingDynamic Scheduling
Dynamic Scheduling
 
Algoritmo di Dijkstra
Algoritmo di DijkstraAlgoritmo di Dijkstra
Algoritmo di Dijkstra
 
Tesi di Laurea sulla Sicurezza delle Reti Informatiche: Le vulnerabilità
Tesi di Laurea sulla Sicurezza delle Reti Informatiche: Le vulnerabilitàTesi di Laurea sulla Sicurezza delle Reti Informatiche: Le vulnerabilità
Tesi di Laurea sulla Sicurezza delle Reti Informatiche: Le vulnerabilità
 
Estrazione automatica di informazioni da documenti cartacei: progetto e reali...
Estrazione automatica di informazioni da documenti cartacei: progetto e reali...Estrazione automatica di informazioni da documenti cartacei: progetto e reali...
Estrazione automatica di informazioni da documenti cartacei: progetto e reali...
 
Il tutorial di Python
Il tutorial di PythonIl tutorial di Python
Il tutorial di Python
 
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
Implementazione in Java di plugin Maven per algoritmi di addestramento per re...
 
Publish/Subscribe EDI with Content-Based Routing
Publish/Subscribe EDI with Content-Based RoutingPublish/Subscribe EDI with Content-Based Routing
Publish/Subscribe EDI with Content-Based Routing
 
Profilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiProfilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzati
 
Inoltro di pacchetti ip in sistemi linux
Inoltro di pacchetti ip in sistemi linuxInoltro di pacchetti ip in sistemi linux
Inoltro di pacchetti ip in sistemi linux
 

[MWT] Web mining

  • 1. Università degli Studi dell’Aquila Master in Web Technology WEB MINING Confronto tra Terrier e Lucene A. A. 2013/2014 Docente: Alessandro Celi Studente Matricola Email Silvio D’Orazio 234422 silvio.dorazio@gmail.com Alessandra Ponis 234457 alessandra.ponis@gmail.com
  • 2. MWT: Web Mining – 2013/14 2 | P a g i n a Indice Introduzione ...................................................................................................................................................... 4 Specifiche del progetto.................................................................................................................................. 4 Tecnologie utilizzate...................................................................................................................................... 4 Terrier................................................................................................................................................................ 5 Introduzione .................................................................................................................................................. 5 Indexing ......................................................................................................................................................... 5 Query processing........................................................................................................................................... 7 Installazione ed esecuzione di Terrier............................................................................................................... 9 Installazione................................................................................................................................................... 9 Struttura delle cartelle di Terrier................................................................................................................... 9 Le fasi di Terrier............................................................................................................................................. 9 Setup (indicizzazione: passo 1).................................................................................................................... 10 Indexing (indicizzazione: passo 2) ............................................................................................................... 11 Retrieval (recupero)..................................................................................................................................... 11 Evaluation (valutazione).............................................................................................................................. 12 I modelli di pesatura........................................................................................................................................ 14 Confronto tra modelli...................................................................................................................................... 14 Collezione Original........................................................................................................................................... 16 Confronto tra modelli di pesatura............................................................................................................... 16 Opzioni attivate e/o disattivate sul modello migliore e peggiore............................................................... 19 Applicazione dei modelli di Query Expansion ............................................................................................. 20 Valorizzazione del parametro “c” sul modello DLH13................................................................................. 22 Valorizzazione del parametro “c” sul modello PL2 ..................................................................................... 23 Collezione Degrade5........................................................................................................................................ 25 Confronto tra modelli di pesatura............................................................................................................... 25
  • 3. MWT: Web Mining – 2013/14 3 | P a g i n a Opzioni attivate e/o disattivate sul modello migliore e peggiore............................................................... 28 Applicazione dei modelli di Query Expansion ............................................................................................. 29 Valorizzazione del parametro “c” sul modello LGD..................................................................................... 31 Valorizzazione del parametro “c” sul modello BB2..................................................................................... 33 Collezione Degrade20...................................................................................................................................... 35 Confronto tra modelli di pesatura............................................................................................................... 35 Opzioni attivate e/o disattivate sul modello migliore e peggiore............................................................... 38 Applicazione dei modelli di Query Expansion ............................................................................................. 39 Valorizzazione del parametro “c” sul modello Ln2 ..................................................................................... 41 Valorizzazione del parametro “c” sul modello LGD..................................................................................... 43 Riassumendo ................................................................................................................................................... 45 Collezione Original....................................................................................................................................... 45 Collezione Degrade5.................................................................................................................................... 46 Collezione Degrade20.................................................................................................................................. 47 Apache Lucene................................................................................................................................................. 48 Overview...................................................................................................................................................... 48 Progetto Lucene .......................................................................................................................................... 48 Collezione Original........................................................................................................................................... 51 Collezione Degrade5........................................................................................................................................ 52 Collezione Degrade20...................................................................................................................................... 53 Confronto tra Terrier e Lucene........................................................................................................................ 54 Conclusioni ...................................................................................................................................................... 55 Riferimenti....................................................................................................................................................... 56
  • 4. MWT: Web Mining – 2013/14 4 | P a g i n a Introduzione Specifiche del progetto Attraverso i tools di Terrier e di Lucene, indicizzare ed eseguire il recupero su tutte e tre le collezioni della Confusion Trec utilizzando, per Terrier almeno tre modelli di pesatura differenti a vostra scelta. Effettuare un report dei risultati ottenuti che evidenzi i differenti comportamenti dei tools e dei modelli a seconda delle collezioni utilizzate. Effettuare il recupero testando tutte le varie tipologie di Q.E., StopWords e Stemming presenti su Terrier. Tecnologie utilizzate Nome Descrizione Windows/Linux Sistemi operativi Java JRE 1.6.0 + Il Java Runtime Environment è un ambiente di esecuzione per applicazioni scritte in linguaggio Java Terrier versione 3.5 Piattaforma di Information Retrieval, software utilizzato per scopi accademici destinato allo studio e all’apprendimento dei motori di ricerca. Il tool può essere scaricato all’indirizzo riportato di seguito: http://terrier.org/download/ . TREC-5 Confusion Track In riferimento ad essa lavoreremo su:  confusion_track: collezione contenenti i documenti da indicizzare (Original, Degrade5 e Degrade20)  topics.confusion: file in cui si trovano le query  confusion.known_items: file in cui si trovano i risultati ottenuti Link di riferimento: http://trec.nist.gov/data/t5_confusion.html IDE eclipse versione Kepler SR2 ambiente di sviluppo integrato multi-linguaggio e multipiattaforma utilizzato, nel nostro caso, per programmare in linguaggio Java Apache Lucene E’ una API (Application Programming Interface) sviluppata in Java utilizzata in ambito dell’IR trec_eval Strumento di valutazione su sistemi IR-based
  • 5. MWT: Web Mining – 2013/14 5 | P a g i n a Terrier Introduzione Terrier è una piattaforma di Information Retrieval implementata in Java e un motore di ricerca open source che può facilmente lavorare su collezioni di documenti a larga scala. Questo sistema opera su dei documenti che inizialmente vengono considerati come un insieme di stringhe e, prima di essere elaborate dal tool, subiscono una fase di “tokenizzazione” o analisi lessicale dei singoli lessemi che compongono il corpo del documento. Dopo questa fase preliminare, ogni termine viene inserito in una “Term Pipeline” dove vengono effettuati un insieme di meccanismi preliminari alla costruzione dell’indice. In questa fase i principali task svolti da un motore di IR sono la rimozione delle stop words, lo stemming, ecc… Una volta che i termini sono stati processati attraverso la TermPipeline, vengono aggregati per creare le strutture dati che compongono l’indice. Successivamente alla costruzione dell’indice si passa alle fasi di query processing e di valutazione. I processi appena accennati verranno presentati più approfonditamente nei successivi paragrafi. Indexing Come detto, il processo di indicizzazione, schematizzato nella figura sottostante, crea in output un insieme di strutture dati atte a favorire un recupero efficace ed efficiente dei documenti. Basandosi su un approccio di tipo “bag of words” e sfruttando modelli di tipo DFR (ovvero di tipo Divergence-from-Randomness), Terrier considera i termini come singoli elementi costitutivi dei documenti e, conseguentemente, dei suoi indici. L’intero processo di indicizzazione è quindi incentrato sulla ricerca, individuazione e catalogazione dei termini in relazione ai documenti in cui compaiono e alle frequenze con le quali si presentano al loro interno. Le strutture generate al termine di tale processo sono le seguenti:  il lessico che è costituito dall’elenco dei termini presenti nell’intera collezione insieme alle frequenze degli stessi e il numero di documenti in cui compaiono;  l’indice diretto che memorizza per ogni documento della collezione i termini che contiene e le frequenze in cui compaiono i termini stessi;
  • 6. MWT: Web Mining – 2013/14 6 | P a g i n a  l’indice inverso che memorizza per ogni termine l’elenco dei documenti in cui compare con le annesse frequenze. Di fatto si tratta di un indice speculare a quello diretto;  l’indice dei documenti che stabilisce una connessione tra i documenti e le statistiche relative alla presenza dei termini al loro interno. La creazione di questi indici prevede, qualora l’utente ne senta la necessità, anche l’utilizzo di processi di stemming e stop-words removal atti a consentire una più semplice ed efficiente indicizzazione dei termini. La figura riportata di seguito mostra i processi coinvolti nella fase di indicizzazione:
  • 7. MWT: Web Mining – 2013/14 7 | P a g i n a Query processing La ricerca dei documenti all’interno della collezione è resa possibile tramite la sottomissione di una query da parte dell’utente. Per via della sua natura di strumento di ausilio per la ricerca in ambito dell’InformationRetrieval, Terrier è fortemente collegato alle competizioni TREC [1]. Esistono due modalità di interrogazione: una prima interattiva, che permette all’utente di inserire manualmente una query attraverso un’interfaccia, come avviene per qualunque motore di ricerca. La seconda modalità invece prevede l’immissione automatica di topics strutturati secondo gli standard rappresentativi della TREC. La figura di seguito mostra graficamente in cosa consiste il processo si interrogazione:
  • 8. MWT: Web Mining – 2013/14 8 | P a g i n a A prescindere dalla natura dell’interrogazione viene offerta all’utente la possibilità di scegliere se effettuare operazioni di pre-processing e post-processing. Tipicamente, nella fase di pre-processing vengono attuate operazioni di stemming e stop-words removal, comuni anche in fase di indicizzazione. Nella fase di post-processing, invece, l’utente può scegliere se elaborare o filtrare i risultati delle interrogazioni applicando diverse tecniche e, tipicamente, a tal fine viene utilizzata la Query Expansion. In questa fase è possibile anche intercettare i documenti restituiti da un primo recupero e tramite questi attuare tecniche di local feedback. L’intero processo di interrogazione, con l’individuazione delle diverse componenti che ne fanno parte, è evidenziato nella figura riportata precedentemente in questo paragrafo.
  • 9. MWT: Web Mining – 2013/14 9 | P a g i n a Installazione ed esecuzione di Terrier Installazione Il sito [2] offre implementazioni precompilate delle più recenti versioni di Terrier, sia per l’ambiente Unix/Linux che per l’ambiente Windows. Per poter usare Terrier è sufficiente estrarre i contenuti del file .zip scaricandolo in una directory a propria scelta nel File System. L’unico requisito per l’utilizzo di Terrier è l’installazione del Java JRE versione 1.6.0 o più recente. La versione di Terrier utilizzata in questa relazione è la 3.5, che rispetto alla 2.2.1 aggiunge nuove funzionalità significative che possono essere consultate al seguente link [3]. Struttura delle cartelle di Terrier Terrier, dopo esser stato estratto, presenta al suo interno una serie di directory:  bin/, contiene gli script per l’esecuzione dei comandi di Terrier  doc/, contiene la documentazione  etc/, contiene i file di configurazione (lavoreremo su questi file per configurare il sistema)  lib/, contiene un insieme di classi di Terrier e di librerie esterne  share/, presenta una lista di stop words e altri file utili  src/, presenta i sorgenti java dell’applicazione  var/, contiene due sottocartelle: o index/, all’interno viene inserito l’indice che viene creato dal programma o results/, presenta i risultati ottenuti dall’elaborazione delle query (ogni file dei risultati avrà un nome con estensione .eval che identifica il tipo di elaborazione che è stata effettuata). Le fasi di Terrier Le fasi principali per un utilizzo efficace della piattaforma di Terrier sono:  SETUP;  INDEXING;  RECUPERO;
  • 10. MWT: Web Mining – 2013/14 10 | P a g i n a  VALUTAZIONE. Setup (indicizzazione: passo 1) Prima di effettuare l’indicizzazione vera e propria, è necessario fare un setup preliminare di configurazione del sistema per indicare a Terrier qual è la collezione che dovrà indicizzare. Il processo di setup necessita che le cartelle etc e var/index siano vuote. Per prima cosa bisogna posizionarsi all’interno della cartella in cui abbiamo memorizzato Terrier ed entrare dentro la cartella /bin. I comandi da indicare sono i seguenti: trec_setup.sh /Path/To/Collection Dove /Path/To/Collection conterrà l’indirizzo dove abbiamo posizionato la collezione da indicizzare. Se l’operazione va a buon fine, nella cartella /etc vengono creati i seguenti file:  collection.spec: contiene l’elenco dei file su cui verrà creato l’indice.  terrier.properties: contiene le opzioni di configurazione. Tra le opzioni disponibili abbiamo le “query tags specification” dove verranno opportunamente settati i valori di: o TrecQueryTags.doctag o TrecQueryTags.idtag o TrecQueryTags.process o TrecQueryTags.skip. Nella sezione “query tags specification” del file terrier.properties si avrà una struttura come la seguente: Invece, nella figura sottostante, viene riportata una parte della struttura del file topics.confusion combaciante con quella riportata sopra:
  • 11. MWT: Web Mining – 2013/14 11 | P a g i n a  terrier-log.xml Indexing (indicizzazione: passo 2) Per effettuare l’indicizzazione vera e propria, utilizzeremo come sistema operativo Linux (quindi gli script che lanceremo saranno file con estensione .sh, ma per fare lo stesso con Windows basta lanciare i file con estensione .bat) e indicizzeremo la collezione TREC-5 Confusion Track, che è possibile reperire al sito [4]. La fase di indicizzazione, ovvero quella in cui l’indice viene scritto su appropriate strutture dati, popola la cartella var/index e viene effettuata lanciando questo comando: trec_terrier.sh –i Viene, così, creato sia l’indice inverso che quello diretto. Per effettuare l’indicizzazione in un singolo passo, creando l’indice inverso ma non quello diretto, basta lanciare quest’altro comando: trec_terrier.sh –i -j Retrieval (recupero) Il processo di recupero con Terrier può essere di due tipologie:  Interactive Retrieval;  TREC-like, anche detto batch-retrieval.
  • 12. MWT: Web Mining – 2013/14 12 | P a g i n a Visto che ci troviamo di fronte ad una situazione di sperimentazione, verrà nel nostro caso utilizzata la seconda tecnica, la quale richiede l’esecuzione della seguente istruzione dal terminale: trec_terrier.bat –r –Dtrec.model=… –Dtrec.topics=… Dove:  Dtrec.model indica il modello utilizzato;  Dtrec.topics contiene il percorso del file dove si trovano le query (topics.confusion). N.B. aggiungere l’opzione –q qualora si voglia abilitare la Query Expansion. Evaluation (valutazione) Per ogni recupero di un insieme di documenti sarà eseguita una valutazione qualitativa, mediante il comando: trec_terrier.sh –e /Path/al/file/da/confrontare/confusion.known_items verrà confrontato quanto ottenuto nel file con estensione .res con i risultati attesi specificati nel file confusion.known_items (che vengono specificati dalla shell tramite il percorso /Path/al/file/da/confrontare/confusion.known_items). Ciò genererà un file con estensione .eval per ogni file .res contenuto nella cartella var/results, il quale conterrà i risultati del confronto quali l’Average Precision, la R-Precision, le varie Pecision at ecc. Di seguito viene presentata la struttura di un file .eval di esempio, che sarà il nostro principale punto di riferimento per svolgere un’analisi di confronto: ____________________________________ Number of queries = 50 Retrieved = 44540 Relevant = 50 Relevant retrieved = 50 ____________________________________ Average Precision: 0.8585 R Precision : 0.8000
  • 13. MWT: Web Mining – 2013/14 13 | P a g i n a ____________________________________ Precision at 1 : 0.8000 Precision at 2 : 0.4400 Precision at 3 : 0.3000 Precision at 4 : 0.2300 Precision at 5 : 0.1880 Precision at 10 : 0.0940 Precision at 15 : 0.0640 Precision at 20 : 0.0490 Precision at 30 : 0.0327 Precision at 50 : 0.0200 Precision at 100 : 0.0100 Precision at 200 : 0.0050 Precision at 500 : 0.0020 Precision at 1000 : 0.0010 ____________________________________
  • 14. MWT: Web Mining – 2013/14 14 | P a g i n a I modelli di pesatura Terrier è una piattaforma open source di InformationRetrieval contenente svariati modelli di pesatura di tipo DivergenceFromRandomness (DFR), così come altri modelli statistici di recupero moderni, tra cui il TF- IDF, BM25 e LanguageModelling. Il paradigma Divergence from Randomness costituisce una generalizzazione di uno dei primi modelli primordiali di InformationRetrieval, ovvero il modello di indicizzazione 2-Poisson di Harter. Il modello 2-Poisson si basa sull’ipotesi secondo cui il livello di trattamento delle parole informative è testimoniato da un solo set di documenti, all’interno dei quali tali parole occorrono in misura relativamente maggiore rispetto al resto dei documeti. Confronto tra modelli L’analisi che verrà effettuata di seguito servirà a confrontare i risultati ottenuti lavorando sulle diverse collezioni della Confusion_Track, ovvero: 1. Original; 2. Degrade5 (degrade del 5 %); 3. Degrade20 (degrade del 20%). Queste ultime due collezioni, a differenza della collezione originale, presentano un diverso margine di errore e verranno utilizzate per comprendere se Terrier funziona bene in quanto sistema di IR anche in presenza di errori nei documenti. I modelli di pesatura messi di volta in volta a confronto sono tutti quelli di tipo DFR, il paradigma già presentato nel paragrafo precedente, ovvero:  BB2: il modello di Bernoulli-Einstein con l’after-effect di Bernoulli e la normalizzazione 2.  BM25: un modello probabilistico di successo.  DFI0: il primo modello Divergence from Independence.  DFR_BM25: la versione DFR di BM25.
  • 15. MWT: Web Mining – 2013/14 15 | P a g i n a  DLH: il modello DFR hyper-geometric DLH.  DLH13: una versione migliorata del modello DLH.  DPH: un modello diverso DFR hyper-geometric che utilizza la normalizzazione di Popper.  DFRee: un altro modello hyper-geometric che fa una media tra due misure informative.  Hiemstra_LM: il modello linguistico di Hiemstra.  IFB2: modello inverse term frequency con l’after-effect di Bernoulli e la normalizzazione 2.  In_expB2: modello inverse expected document frequency con l’after effect di Bernoulli e la normalizzazione 2, in questo caso il logaritmo è in base 2.  In_expC2: modello inverse expected document frequency con l’after effect di Bernoulli e la normalizzazione 2, il logaritmo è in base e.  InL2: modello inverse document frequency con l’after-effect di Laplace e la normalizzazione 2, il logaritmo è in base e.  LemurTF_IDF: la versione di Lemur del modello tf*idf.  LGD: un modello logaritmico.  PL2: modello di base Poisson con probabilità di rischio calcolata usando il modello di Laplace e normalizzazione 2.  TF_IDF: il popolare modello tf*idf, ovvero term frequency*inverse document frequency. Su questi modelli verranno valutate e messe a confronto l’ “Average Precision”, “R-Precision”, le varie “Precision at” e il numero di documenti rilevanti restituiti per le query immesse. Dai risultati ottenuti verrà poi valutato il modello che ha prodotto un livello di precisione complessivo migliore e quello che invece ha prodotto i risultati peggiori. Su tali modelli, saranno poi attivate o disattivate secondo i casi le seguenti funzionalità, per valutare se è possibile ottenere una precisione migliore rispetto all’IR di base:  Stop Words;  Stemming;  Query Expansion (applicando i vari modelli disponibili di Q.E.);  L’opzione c, ovvero il parametro per la normalizzazione della term frequency. Di seguito viene riportata l’analisi che abbiamo presentato a grandi linee in questo paragrafo.
  • 16. MWT: Web Mining – 2013/14 16 | P a g i n a Collezione Original Confronto tra modelli di pesatura BB2 BM25 DFI0 DFR_BM25 DLH DLH13 DPH Number of queries 50 50 50 50 50 50 50 Retrieved 44540 44540 44540 44540 44539 44540 44540 Relevant 50 50 50 50 50 50 50 Relevant retrieved 49 50 49 50 50 50 50 Average precision 0.7835 0.8197 0.8649 0.8141 0.8700 0.8976 0.8743 R-Precision 0.7200 0.7600 0.8000 0.7400 0.8200 0.8400 0.8000 Precision at 1 0.7200 0.7600 0.8000 0.7400 0.8200 0.8400 0.8000 Precision at 2 0.4000 0.4200 0.4500 0.4300 0.4400 0.4700 0.4600 Precision at 3 0.2800 0.2867 0.3067 0.2867 0.3000 0.3133 0.3133 Precision at 4 0.2100 0.2150 0.2300 0.2150 0.2250 0.2350 0.2350 Precision at 5 0.1720 0.1760 0.1880 0.1760 0.1840 0.1920 0.1920 Precision at 10 0.0880 0.0920 0.0980 0.0920 0.0960 0.0960 0.0980 Precision at 15 0.0600 0.0627 0.0653 0.0627 0.0667 0.0667 0.0667 Precision at 20 0.0450 0.0470 0.0490 0.0470 0.0500 0.0500 0.0500 Precision at 30 0.0307 0.0320 0.0327 0.0327 0.0333 0.0333 0.0333 Precision at 50 0.0192 0.0200 0.0196 0.0200 0.0200 0.0200 0.0200 Precision at 100 0.0096 0.0100 0.0098 0.0100 0.0100 0.0100 0.0100 Precision at 200 0.0049 0.0050 0.0049 0.0050 0.0050 0.0050 0.0050 Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
  • 17. MWT: Web Mining – 2013/14 17 | P a g i n a DFRee Hiemstra_LM DirichletLM IFB2 In_expB2 In_expC2 InL2 Number of queries 50 50 50 50 50 50 50 Retrieved 44540 44540 44540 44540 44540 44540 44540 Relevant 50 50 50 50 50 50 50 Relevant retrieved 50 50 50 50 50 50 50 Average precision 0.8975 0.8579 0.8687 0.8137 0.8135 0.8135 0.8358 R-Precision 0.8400 0.8000 0.8000 0.7400 0.7400 0.7400 0.7800 Precision at 1 0.8400 0.8000 0.8000 0.7400 0.7400 0.7400 0.7800 Precision at 2 0.4700 0.4400 0.4400 0.4200 0.4200 0.4200 0.4300 Precision at 3 0.3133 0.3000 0.3133 0.2933 0.2933 0.2933 0.2867 Precision at 4 0.2350 0.2250 0.2350 0.2200 0.2200 0.2200 0.2150 Precision at 5 0.1920 0.1840 0.1920 0.1800 0.1800 0.1800 0.1800 Precision at 10 0.0960 0.0960 0.0980 0.0920 0.0920 0.0920 0.0940 Precision at 15 0.0667 0.0667 0.0667 0.0627 0.0627 0.0627 0.0640 Precision at 20 0.0500 0.0500 0.0500 0.0480 0.0470 0.0470 0.0480 Precision at 30 0.0333 0.0333 0.0333 0.0327 0.0327 0.0327 0.0320 Precision at 50 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 Precision at 100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 Precision at 200 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
  • 18. MWT: Web Mining – 2013/14 18 | P a g i n a LemurTF_IDF LGD PL2 TF_IDF Number of queries 50 50 50 50 Retrieved 44540 44540 44527 44540 Relevant 50 50 50 50 Relevant retrieved 50 50 49 50 Average precision 0.8081 0.8937 0.7773 0.8324 R-Precision 0.7200 0.8400 0.7000 0.7800 Precision at 1 0.7200 0.8400 0.7000 0.7800 Precision at 2 0.4300 0.4600 0.4100 0.4300 Precision at 3 0.2867 0.3133 0.2733 0.2867 Precision at 4 0.2200 0.2350 0.2050 0.2150 Precision at 5 0.1840 0.1920 0.1680 0.1760 Precision at 10 0.0940 0.0960 0.0900 0.0920 Precision at 15 0.0640 0.0667 0.0627 0.0627 Precision at 20 0.0480 0.0500 0.0480 0.0470 Precision at 30 0.0327 0.0333 0.0320 0.0313 Precision at 50 0.0200 0.0200 0.0192 0.0200 Precision at 100 0.0100 0.0100 0.0098 0.0100 Precision at 200 0.0050 0.0050 0.0049 0.0050 Precision at 500 0.0020 0.0020 0.0020 0.0020 Precision at 1000 0.0010 0.0010 0.0010 0.0010 In base ai risultati ottenuti, è possibile valutare quali sono i documenti che rappresentano la nostra baseline e le valutazioni effettuate sui risultati delle query permettono di concludere che:  DLH13 (una versione migliorata del modello DLH) costituisce il modello di pesatura che restituisce i risultati migliori;  PL2 (il modello di Poisson con probabilità di rischio calcolata usando il modello di Laplace e la normalizzazione a 2) costituisce il modello di pesatura che restituisce i risultati peggiori. Il resto dei test verranno effettuati su questi due modelli.
  • 19. MWT: Web Mining – 2013/14 19 | P a g i n a Opzioni attivate e/o disattivate sul modello migliore e peggiore Stop Words + Stemming Stop Words Stemming No Stop Words + No Stemming Modelli DLH13 PL2 DLH13 PL2 DLH13 PL2 DLH13 PL2 Number of queries 50 50 48 48 50 50 49 49 Retrieved 44540 44527 35933 35889 44540 44527 38449 38392 Relevant 50 50 48 48 50 50 49 49 Relevant retrieved 50 49 43 42 50 49 43 42 Average precision 0.8976 0.7773 0.5711 0.5089 0.8783 0.7714 0.5154 0.4266 R-Precision 0.8400 0.7000 0.5000 0.4375 0.8200 0.7000 0.4490 0.3469 Precision at 1 0.8400 0.7000 0.5000 0.4375 0.8200 0.7000 0.4490 0.3469 Precision at 2 0.4700 0.4100 0.2812 0.2500 0.4500 0.4000 0.2551 0.2143 Precision at 3 0.3133 0.2733 0.1944 0.1806 0.3067 0.2733 0.1701 0.1565 Precision at 4 0.2350 0.2050 0.1615 0.1354 0.2350 0.2050 0.1429 0.1173 Precision at 5 0.1920 0.1680 0.1292 0.1125 0.1920 0.1680 0.1224 0.1020 Precision at 10 0.0960 0.0900 0.0750 0.0708 0.0960 0.0900 0.0653 0.0612 Precision at 15 0.0667 0.0627 0.0514 0.0486 0.0653 0.0613 0.0463 0.0422 Precision at 20 0.0500 0.0480 0.0385 0.0365 0.0500 0.0470 0.0347 0.0316 Precision at 30 0.0333 0.0320 0.0257 0.0250 0.0333 0.0313 0.0245 0.0218 Precision at 50 0.0200 0.0192 0.0154 0.0154 0.0200 0.0192 0.0151 0.0135 Precision at 100 0.0100 0.0098 0.0088 0.0079 0.0100 0.0096 0.0082 0.0076 Precision at 200 0.0050 0.0049 0.0044 0.0041 0.0050 0.0049 0.0041 0.0040 Precision at 500 0.0020 0.0020 0.0018 0.0017 0.0020 0.0020 0.0017 0.0017 Precision at 1000 0.0010 0.0010 0.0009 0.0009 0.0010 0.0010 0.0009 0.0009 Sono stati effettuati dei test provando ad applicare le varie combinazioni risultanti dall’attivazione e la disattivazione di una serie di Stop Words specificate all’interno di un apposito file e dello Stemming, applicato sulla base dell’algoritmo di Porter. Tali test dimostrano che la combinazione che porta ad ottenere i risultati migliori è quella che unisce l’eliminazione delle Stop Words all’applicazione dello Stemming.
  • 20. MWT: Web Mining – 2013/14 20 | P a g i n a Applicazione dei modelli di Query Expansion Modelli di Q.E. Bo1 Bo2 CS CSCorrect DLH13 PL2 DLH13 PL2 DLH13 PL2 DLH13 PL2 Number of queries 50 50 50 50 50 50 50 50 Retrieved 50000 50000 50000 50000 50000 50000 50000 50000 Relevant 50 50 50 50 50 50 50 50 Relevant retrieved 50 49 50 50 49 48 49 48 Average precision 0.7776 0.6612 0.7589 0.6176 0.4527 0.3702 0.4527 0.3702 R-Precision 0.6800 0.5600 0.6800 0.5000 0.2600 0.2200 0.2600 0.2200 Precision at 1 0.6800 0.5600 0.6800 0.5000 0.2600 0.2200 0.2600 0.2200 Precision at 2 0.4100 0.3300 0.3800 0.3200 0.2600 0.2000 0.2600 0.2000 Precision at 3 0.2800 0.2467 0.2667 0.2333 0.2000 0.1533 0.2000 0.1533 Precision at 4 0.2100 0.1850 0.2000 0.1750 0.1550 0.1250 0.1550 0.1250 Precision at 5 0.1720 0.1520 0.1680 0.1480 0.1320 0.1040 0.1320 0.1040 Precision at 10 0.0960 0.0880 0.0940 0.0860 0.0780 0.0640 0.0780 0.0640 Precision at 15 0.0667 0.0587 0.0627 0.0573 0.0533 0.0480 0.0533 0.0480 Precision at 20 0.0500 0.0460 0.0490 0.0430 0.0400 0.0370 0.0400 0.0370 Precision at 30 0.0333 0.0313 0.0333 0.0307 0.0300 0.0260 0.0300 0.0253 Precision at 50 0.0200 0.0192 0.0200 0.0188 0.0184 0.0164 0.0184 0.0164 Precision at 100 0.0100 0.0096 0.0100 0.0096 0.0096 0.0090 0.0096 0.0090 Precision at 200 0.0050 0.0049 0.0050 0.0049 0.0049 0.0046 0.0049 0.0046 Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0019 0.0020 0.0019 Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
  • 21. MWT: Web Mining – 2013/14 21 | P a g i n a Modelli di Q.E. Information KL KLComplete KLCorrect DLH13 PL2 DLH13 PL2 DLH13 PL2 DLH13 PL2 Number of queries 50 50 50 50 50 50 50 50 Retrieved 50000 50000 50000 50000 50000 50000 50000 50000 Relevant 50 50 50 50 50 50 50 50 Relevant retrieved 38 32 50 49 49 48 50 49 Average precision 0.2436 0.1492 0.7723 0.6600 0.4524 0.3701 0.8672 0.7564 R-Precision 0.1600 0.0800 0.6800 0.5600 0.2600 0.2200 0.8000 0.6800 Precision at 1 0.1600 0.0800 0.6800 0.5600 0.2600 0.2200 0.8000 0.6800 Precision at 2 0.1300 0.0700 0.4000 0.3400 0.2600 0.2000 0.4400 0.3900 Precision at 3 0.1000 0.0600 0.2800 0.2400 0.2000 0.1533 0.3067 0.2667 Precision at 4 0.0800 0.0500 0.2100 0.1850 0.1550 0.1250 0.2300 0.2050 Precision at 5 0.0640 0.0480 0.1720 0.1520 0.1320 0.1040 0.1920 0.1680 Precision at 10 0.0360 0.0280 0.0940 0.0860 0.0760 0.0640 0.1000 0.0900 Precision at 15 0.0267 0.0213 0.0667 0.0587 0.0533 0.0480 0.0667 0.0613 Precision at 20 0.0220 0.0160 0.0500 0.0450 0.0400 0.0370 0.0500 0.0480 Precision at 30 0.0153 0.0113 0.0333 0.0313 0.0300 0.0253 0.0333 0.0480 Precision at 50 0.0096 0.0076 0.0200 0.0192 0.0184 0.0164 0.0200 0.0192 Precision at 100 0.0058 0.0046 0.0100 0.0098 0.0096 0.0090 0.0200 0.0098 Precision at 200 0.0033 0.0025 0.0050 0.0049 0.0049 0.0046 0.0050 0.0049 Precision at 500 0.0014 0.0012 0.0020 0.0020 0.0020 0.0019 0.0020 0.0020 Precision at 1000 0.0008 0.0006 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 E’ possibile espandere una o più query con la lista dei termini più informativi dei documenti meglio classificati tramite l’applicazione del meccanismo di Query Expansion. Esistono svariati modelli di pesatura dei termini che possono essere usati per espandere le query e sono stati in questo caso applicati ai due modelli DFR ottenuti dalla precedente analisi. Dai risultati della tabella è possibile osservare che, per quanto riguarda la collezione Original, non riusciamo ad ottenere una migliore precisione. Per questo motivo, il lavoro a seguito verrà effettuato disattivando la Query Expansion per valutare se sarà possibile stavolta ottenere una precisione migliore cambiando l’opzione di normalizzazione della term frequency.
  • 22. MWT: Web Mining – 2013/14 22 | P a g i n a Valorizzazione del parametro “c” sul modello DLH13 Modello DLH13 c 1-16 Number of queries 50 Retrieved 44540 Relevant 50 Relevant retrieved 50 Average precision 0.8976 R-Precision 0.8400 Precision at 1 0.8400 Precision at 2 0.4700 Precision at 3 0.3133 Precision at 4 0.2350 Precision at 5 0.1920 Precision at 10 0.0960 Precision at 15 0.0667 Precision at 20 0.0500 Precision at 30 0.0333 Precision at 50 0.0200 Precision at 100 0.0100 Precision at 200 0.0050 Precision at 500 0.0020 Precision at 1000 0.0010 Abbiamo effettuato una serie di test applicando il parametro c (ricordiamo che c seguito da un numero che nel nostro caso va da 1.0 a 16.0 specifica il valore del parametro per la normalizzazione della term frequency) al modello che ha prodotto i risultati migliori per la collezione Original, ovvero DLH13. E’ stato osservato che i risultati rimangono invariati per tutto il range di valori di c.
  • 23. MWT: Web Mining – 2013/14 23 | P a g i n a Valorizzazione del parametro “c” sul modello PL2 Modello PL2 c 1 2 3 4 5 6 7 8 Number of queries 50 50 50 50 50 50 50 50 Retrieved 44527 44534 44536 44536 44536 44536 44536 44536 Relevant 50 50 50 50 50 50 50 50 Relevant retrieved 49 50 50 50 50 50 50 50 Average precision 0.7773 0.8206 0.8467 0.8789 0.8892 0.8896 0.8903 0.8910 R-Precision 0.7000 0.7600 0.7800 0.8200 0.8400 0.8400 0.8400 0.8400 Precision at 1 0.7000 0.7600 0.7800 0.8200 0.8400 0.8400 0.8400 0.8400 Precision at 2 0.4100 0.4100 0.4300 0.4600 0.4600 0.4600 0.4600 0.4600 Precision at 3 0.2733 0.2800 0.3000 0.3067 0.3067 0.3067 0.3067 0.3067 Precision at 4 0.2050 0.2200 0.2300 0.2300 0.2300 0.2300 0.2300 0.2300 Precision at 5 0.1680 0.1800 0.1880 0.1880 0.1880 0.1880 0.1880 0.1880 Precision at 10 0.0900 0.0960 0.0980 0.0980 0.0980 0.0980 0.0980 0.1000 Precision at 15 0.0627 0.0653 0.0653 0.0653 0.0653 0.0653 0.0667 0.0667 Precision at 20 0.0480 0.0490 0.0490 0.0490 0.0490 0.0500 0.0500 0.0500 Precision at 30 0.0320 0.0327 0.0327 0.0327 0.0333 0.0333 0.0333 0.0333 Precision at 50 0.0192 0.0196 0.0196 0.0200 0.0200 0.0200 0.0200 0.0200 Precision at 100 0.0098 0.0098 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 Precision at 200 0.0049 0.0049 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
  • 24. MWT: Web Mining – 2013/14 24 | P a g i n a Modello PL2 c 9 10 11 12 13 14 15 16 Number of queries 50 50 50 50 50 50 50 50 Retrieved 44536 44537 44538 44538 44538 44538 44538 44539 Relevant 50 50 50 50 50 50 50 50 Relevant retrieved 49 50 50 50 50 50 50 50 Average precision 0.8933 0.8943 0.8960 0.8960 0.8960 0.8960 0.8860 0.8900 R-Precision 0.8400 0.8400 0.8400 0.8400 0.8400 0.8400 0.8200 0.8200 Precision at 1 0.8400 0.8400 0.8400 0.8400 0.8400 0.8400 0.8200 0.8200 Precision at 2 0.4600 0.4600 0.4600 0.4600 0.4600 0.4600 0.4600 0.4700 Precision at 3 0.3067 0.3067 0.3133 0.3133 0.3133 0.3133 0.3133 0.3133 Precision at 4 0.2300 0.2350 0.2350 0.2350 0.2350 0.2350 0.2350 0.2350 Precision at 5 0.1920 0.1920 0.1920 0.1920 0.1920 0.1920 0.1920 0.1960 Precision at 10 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 Precision at 15 0.0667 0.0667 0.0667 0.0667 0.0667 0.0667 0.0667 0.0667 Precision at 20 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 Precision at 30 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 Precision at 50 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 0.0200 Precision at 100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 0.0100 Precision at 200 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 0.0050 Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 Sono stati effettuati dei test anche sul modello di pesatura che ha prodotto risultati peggiori per la collezione Original, ovvero PL2. E’ stato osservato che i risultati migliorano al crescere del valore di c, portando così ad una differenza importante tra la normalizzazione della tf pari a 1.0 e quella pari a 16.0. Possiamo, dunque, concludere che applicare un alto valore di normalizzazione della term frequency nel suo calcolo algoritmico ci permette di ottenere dei risultati nettamente migliori rispetto alla precisione che si raggiunge senza aumentare di valore tale parametro. Tuttavia, possiamo osservare che già impostando c=15.0 i valori ricominciano ad abbassarsi.
  • 25. MWT: Web Mining – 2013/14 25 | P a g i n a Collezione Degrade5 Confronto tra modelli di pesatura BB2 BM25 DFI0 DFR_BM25 DLH DLH13 DPH Number of queries 49 49 49 49 49 49 49 Retrieved 42664 42664 42663 42664 42661 42662 42662 Relevant 49 49 49 49 49 49 49 Relevant retrieved 46 48 48 48 48 48 48 Average precision 0.5280 0.6364 0.7076 0.6482 0.6491 0.6759 0.6444 R-Precision 0.4286 0.5510 0.6327 0.5714 0.5510 0.5714 0.5306 Precision at 1 0.4286 0.5510 0.6327 0.5714 0.5510 0.5714 0.5306 Precision at 2 0.2551 0.3163 0.3469 0.3163 0.3469 0.3571 0.3367 Precision at 3 0.2109 0.2381 0.2517 0.2381 0.2313 0.2517 0.2381 Precision at 4 0.1582 0.1786 0.1990 0.1786 0.1786 0.1888 0.1888 Precision at 5 0.1306 0.1469 0.1673 0.1551 0.1469 0.1592 0.1551 Precision at 10 0.0714 0.0776 0.0857 0.0776 0.0796 0.0837 0.0837 Precision at 15 0.0476 0.0544 0.0571 0.0531 0.0558 0.0571 0.0571 Precision at 20 0.0357 0.0408 0.0439 0.0408 0.0449 0.0449 0.0439 Precision at 30 0.0265 0.0286 0.0306 0.0286 0.0306 0.0306 0.0306 Precision at 50 0.0163 0.0180 0.0184 0.0184 0.0184 0.0184 0.0184 Precision at 100 0.0088 0.0094 0.0092 0.0094 0.0094 0.0094 0.0094 Precision at 200 0.0046 0.0048 0.0048 0.0048 0.0047 0.0048 0.0048 Precision at 500 0.0019 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 Precision at 1000 0.0009 0.0010 0.0010 0.0020 0.0010 0.0010 0.0010
  • 26. MWT: Web Mining – 2013/14 26 | P a g i n a DFRee Hiemstra_LM DirichletLM IFB2 In_expB2 In_expC2 InL2 Number of queries 49 49 49 49 49 49 49 Retrieved 42662 42664 42661 42664 42664 42664 42664 Relevant 49 49 49 49 49 49 49 Relevant retrieved 48 48 48 48 48 48 48 Average precision 0.6899 0.6428 0.6710 0.5722 0.5859 0. 5748 0.6355 R-Precision 0.5918 0.5510 0.5714 0.4694 0.4898 0.4898 0.5306 Precision at 1 0.5918 0.5510 0.5714 0.4694 0.4898 0. 4898 0.5306 Precision at 2 0.3571 0.3265 0.3367 0.2755 0.2755 0. 2755 0.3367 Precision at 3 0.2517 0.2381 0.2517 0.2177 0.2313 0. 2041 0.2381 Precision at 4 0.1990 0.1837 0.1990 0.1735 0.1735 0. 1633 0.1786 Precision at 5 0.1673 0.1551 0.1592 0.1429 0.1429 0. 1429 0.1551 Precision at 10 0.0837 0.0776 0.0837 0.0755 0.0776 0. 0755 0.0796 Precision at 15 0.0571 0.0531 0.0585 0.0517 0.0517 0. 0503 0.0531 Precision at 20 0.0449 0.0418 0.0449 0.0388 0.0388 0. 0398 0.0408 Precision at 30 0.0306 0.0293 0.0299 0.0299 0.0286 0. 0279 0.0286 Precision at 50 0.0184 0.0184 0.0188 0.0184 0.0184 0. 0184 0.0184 Precision at 100 0.0094 0.0094 0.0094 0.0094 0.0094 0. 0094 0.0094 Precision at 200 0.0047 0.0047 0.0047 0.0048 0.0048 0. 0048 0.0048 Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
  • 27. MWT: Web Mining – 2013/14 27 | P a g i n a LemurTF_IDF LGD PL2 TF_IDF Number of queries 49 49 49 49 Retrieved 42664 42664 42643 42664 Relevant 49 49 49 49 Relevant retrieved 48 48 47 48 Average precision 0.5800 0.7167 0.5619 0.6264 R-Precision 0.4694 0.6327 0.4286 0.5306 Precision at 1 0.4694 0.6327 0.5306 0.5306 Precision at 2 0.2959 0.3673 0.3061 0.3163 Precision at 3 0.2177 0.2653 0.2109 0.2381 Precision at 4 0.1735 0.1990 0.1684 0.1786 Precision at 5 0.1469 0.1673 0.1469 0.1510 Precision at 10 0.0776 0.0837 0.0776 0.0776 Precision at 15 0.0517 0.0571 0.0531 0.0531 Precision at 20 0.0398 0.0429 0.0418 0.0408 Precision at 30 0.0279 0.0306 0.0286 0.0286 Precision at 50 0.0188 0.0184 0.0180 0.0176 Precision at 100 0.0094 0.0094 0.0090 0.0094 Precision at 200 0.0047 0.0047 0.0047 0.0048 Precision at 500 0.0020 0.0020 0.0019 0.0020 Precision at 1000 0.0010 0.0010 0.0010 0.0010 Anche per questa collezione abbiamo raggiunto una baseline di documenti e, in base ai risultati ottenuti, possiamo stavolta concludere che:  Il modello che ha generato i risultati di precisione migliori è LGD (un modello logaritmico);  Il modello che ha generato i risultati di precisione peggiori è BB2 (il modello di casualità Bose- Einstein). Anche in questo caso verranno effettuati dei test sui due modelli più rilevanti ai fini della nostra analisi, che esporremo di seguito.
  • 28. MWT: Web Mining – 2013/14 28 | P a g i n a Opzioni attivate e/o disattivate sul modello migliore e peggiore Stop Words + Stemming Stop Words Stemming No Stop Words + No Stemming LGD BB2 LGD BB2 LGD BB2 LGD BB2 Number of queries 49 49 44 48 49 49 47 47 Retrieved 42664 42664 31815 31815 42692 42692 33385 33385 Relevant 49 49 44 44 49 49 47 47 Relevant retrieved 48 46 35 33 48 46 35 33 Average precision 0.7167 0.5280 0.4101 0.3228 0.6892 0.4822 0.3247 0.2134 R-Precision 0.6327 0.4286 0.3409 0.2727 0.5918 0.3878 0.2766 0.1702 Precision at 1 0.6327 0.4286 0.3409 0.2727 0.5918 0.3878 0.2766 0.1702 Precision at 2 0.3673 0.2551 0.1932 0.1477 0.3571 0.2245 0.1489 0.0851 Precision at 3 0.2653 0.2109 0.1515 0.0985 0.2653 0.1905 0.1064 0.0709 Precision at 4 0.1990 0.1582 0.1250 0.0739 0.1990 0.1429 0.1011 0.0585 Precision at 5 0.1673 0.1306 0.1000 0.0727 0.1633 0.1265 0.0809 0.0553 Precision at 10 0.0837 0.0714 0.0545 0.0477 0.0816 0.0653 0.0426 0.0319 Precision at 15 0.0571 0.0476 0.0379 0.0348 0.0544 0.0449 0.0298 0.0241 Precision at 20 0.0429 0.0357 0.0284 0.0261 0.0429 0.0347 0.0223 0.0191 Precision at 30 0.0306 0.0265 0.0212 0.0205 0.0299 0.0245 0.0163 0.0142 Precision at 50 0.0184 0.0163 0.0136 0.0123 0.0184 0.0159 0.0111 0.0094 Precision at 100 0.0094 0.0088 0.0073 0.0068 0.0092 0.0084 0.0064 0.0057 Precision at 200 0.0047 0.0046 0.0039 0.0036 0.0047 0.0044 0.0034 0.0032 Precision at 500 0.0020 0.0019 0.0016 0.0015 0.0019 0.0019 0.0015 0.0014 Precision at 1000 0.0010 0.0009 0.0008 0.0008 0.0010 0.0009 0.0007 0.0007 Anche stavolta abbiamo provato a verificare se è possibile ottenere una migliore precisione rispettivamente attivando e/o disattivando le due opzioni di Stop Words e Stemming in base all’algoritmo di Porter. Come è possibile notare, anche in questo caso la combinazione che ci permette di ottenere risultati migliori è quella che unisce l’eliminazione delle Stop Words all’applicazione dello Stemming.
  • 29. MWT: Web Mining – 2013/14 29 | P a g i n a Applicazione dei modelli di Query Expansion Modelli di Q.E. Bo1 Bo2 CS CSCorrect LGD BB2 LGD BB2 LGD BB2 LGD BB2 Number of queries 49 49 49 49 49 49 49 49 Retrieved 49000 49000 49000 49000 49000 49000 49000 49000 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 48 44 48 43 47 43 47 43 Average precision 0.6762 0.4693 0.6844 0.4637 0.4385 0.2721 0.4385 0.2721 R-Precision 0.5918 0.3673 0.6122 0.3878 0.3061 0.1224 0.3061 0.1224 Precision at 1 0.5918 0.3673 0.6122 0.3878 0.3061 0.1224 0.3061 0.1224 Precision at 2 0.3367 0.2449 0.3367 0.2245 0.2245 0.1531 0.2245 0.1531 Precision at 3 0.2517 0.1769 0.2449 0.1633 0.1701 0.1224 0.1701 0.1224 Precision at 4 0.1939 0.1429 0.1939 0.1378 0.1480 0.0969 0.1480 0.0969 Precision at 5 0.1551 0.1143 0.1592 0.1143 0.1184 0.0939 0.1184 0.0939 Precision at 10 0.0796 0.0633 0.0796 0.0633 0.0694 0.0551 0.0694 0.0551 Precision at 15 0.0571 0.0449 0.0558 0.0435 0.0476 0.0367 0.0476 0.0367 Precision at 20 0.0439 0.0347 0.0429 0.0327 0.0367 0.0306 0.0367 0.0306 Precision at 30 0.0299 0.0245 0.0293 0.0231 0.0259 0.0211 0.0259 0.0211 Precision at 50 0.0188 0.0151 0.0184 0.0151 0.0163 0.0131 0.0163 0.0131 Precision at 100 0.0096 0.0084 0.0094 0.0080 0.0088 0.0071 0.0088 0.0071 Precision at 200 0.0049 0.0042 0.0049 0.0043 0.0047 0.0041 0.0047 0.0041 Precision at 500 0.0020 0.0018 0.0020 0.0018 0.0019 0.0018 0.0019 0.0018 Precision at 1000 0.0010 0.0009 0.0010 0.0009 0.0010 0.0009 0.0010 0.0009
  • 30. MWT: Web Mining – 2013/14 30 | P a g i n a Modelli di Q.E. Information KL KLComplete KLCorrect LGD BB2 LGD BB2 LGD BB2 LGD BB2 Number of queries 49 49 49 49 49 49 49 49 Retrieved 49000 49000 49000 49000 49000 49000 49000 49000 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 36 29 48 44 47 43 48 44 Average precision 0.2301 0.0973 0.6697 0.4681 0.4385 0.2702 0.7069 0.4821 R-Precision 0.1429 0.0204 0.5714 0.3673 0.3061 0.1224 0.6122 0.3878 Precision at 1 0.1429 0.0204 0.5714 0.3673 0.3061 0.1224 0.6122 0.3878 Precision at 2 0.1224 0.0510 0.3571 0.2449 0.2245 0.1531 0.3673 0.2347 Precision at 3 0.0884 0.0408 0.2449 0.1769 0.1701 0.1156 0.2653 0.1837 Precision at 4 0.0714 0.0306 0.1888 0.1378 0.1480 0.0969 0.1990 0.1378 Precision at 5 0.0653 0.0327 0.1551 0.1143 0.1184 0.0939 0.1633 0.1184 Precision at 10 0.0388 0.0224 0.0796 0.0633 0.0694 0.0531 0.0837 0.0673 Precision at 15 0.0286 0.0190 0.0558 0.0449 0.0476 0.0367 0.0585 0.0463 Precision at 20 0.0224 0.0184 0.0439 0.0337 0.0367 0.0306 0.0439 0.0367 Precision at 30 0.0163 0.0129 0.0299 0.0238 0.0259 0.0211 0.0313 0.0252 Precision at 50 0.0106 0.0086 0.0188 0.0151 0.0163 0.0131 0.0188 0.0163 Precision at 100 0.0059 0.0047 0.0094 0.0086 0.0088 0.0069 0.0094 0.0084 Precision at 200 0.0034 0.0026 0.0049 0.0043 0.0047 0.0041 0.0048 0.0043 Precision at 500 0.0015 0.0012 0.0020 0.0018 0.0019 0.0018 0.0020 0.0018 Precision at 1000 0.0007 0.0006 0.0010 0.0009 0.0010 0.0009 0.0010 0.0009 Analizzando la tabella possiamo concludere che sulla collezione Degrade5, applicando i vari modelli di Query Expansion, otteniamo una precisione peggiore rispetto ai risultati che abbiamo raggiunto senza applicarli, per entrambi i modelli di pesatura LGD e BB2. In base a questa valutazione, ne consegue che conviene effettuare il lavoro di seguito disattivando la Query Expansion di modo da osservare se è possibile raggiungere una precisione migliore aumentando il valore del parametro di normalizzazione della term frequency.
  • 31. MWT: Web Mining – 2013/14 31 | P a g i n a Valorizzazione del parametro “c” sul modello LGD Modello LGD c 1 2 3 4 5 6 7 8 Number of queries 49 49 49 49 49 49 49 49 Retrieved 42664 42664 42664 42664 42664 42664 42664 42664 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 48 48 48 48 48 48 48 48 Average precision 0.7167 0.7185 0.7186 0.7183 0.7081 0.7082 0.7081 0.7079 R-Precision 0.6327 0.6327 0.6327 0.6327 0.6122 0.6122 0.6122 0.6122 Precision at 1 0.6327 0.6327 0.6327 0.6327 0.6122 0.6122 0.6122 0.6122 Precision at 2 0.3673 0.3776 0.3776 0.3776 0.3776 0.3776 0.3776 0.3776 Precision at 3 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 Precision at 4 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 Precision at 5 0.1673 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 Precision at 10 0.0837 0.0837 0.0837 0.0816 0.0816 0.0837 0.0837 0.0837 Precision at 15 0.0571 0.0571 0.0571 0.0571 0.0571 0.0571 0.0571 0.0571 Precision at 20 0.0429 0.0439 0.0439 0.0439 0.0439 0.0439 0.0439 0.0439 Precision at 30 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 Precision at 50 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 Precision at 100 0.0094 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 Precision at 200 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 0.0019 0.0019 Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
  • 32. MWT: Web Mining – 2013/14 32 | P a g i n a Modello LGD c 9 10 11 12 13 14 15 16 Number of queries 49 49 49 49 49 49 49 49 Retrieved 42664 42664 42664 42664 42664 42664 42664 42664 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 48 48 48 48 48 48 48 48 Average precision 0.7079 0.6979 0.6979 0.6843 0.6843 0.6842 0.6854 0.6855 R-Precision 0.6122 0.5918 0.5918 0.5714 0.5714 0.5714 0.5714 0.5714 Precision at 1 0.6122 0.5918 0.5918 0.5714 0.5714 0.5714 0.5714 0.5714 Precision at 2 0.3776 0.3776 0.3776 0.3673 0.3673 0.3673 0.3673 0.3673 Precision at 3 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 0.2653 Precision at 4 0.1990 0.1990 0.1990 0.1990 0.1990 0.1990 0.2041 0.2041 Precision at 5 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 Precision at 10 0.0837 0.0837 0.0837 0.0837 0.0837 0.0837 0.0837 0.0837 Precision at 15 0.0558 0.0558 0.0558 0.0558 0.0558 0.0558 0.0558 0.0571 Precision at 20 0.0449 0.0449 0.0449 0.0449 0.0449 0.0449 0.0449 0.0449 Precision at 30 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 Precision at 50 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 0.0184 Precision at 100 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 0.0092 Precision at 200 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 0.0047 Precision at 500 0.0019 0.0019 0.0019 0.0019 0.0019 0.0019 0.0019 0.0019 Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010 Anche per la collezione Degrade5 abbiamo provato ad effettuare dei test specificando il parametro c ed aumentandone il valore fino a 16.0, per valutare se facendo crescere il peso della term frequency è possibile ottenere dei risultati di precisione migliori. Tali test, per quanto riguarda il modello LGD che ha prodotto in precedenza i valori di precisione più alti, permettono di concludere che nel caso di questa collezione aumentare il parametro c consente di ottenere dei risultati solo lievemente migliori, impostando soprattutto c=3.0.
  • 33. MWT: Web Mining – 2013/14 33 | P a g i n a Valorizzazione del parametro “c” sul modello BB2 Modello BB2 c 1 2 3 4 5 6 7 8 Number of queries 49 49 49 49 49 49 49 49 Retrieved 42664 42664 42664 42664 42664 42664 42664 42664 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 46 45 45 42 41 40 40 40 Average precision 0.5280 0.5004 0.4715 0.4616 0.4639 0.4412 0.4555 0.4557 R-Precision 0.4286 0.3878 0.3673 0.3673 0.3878 0.3673 0.3878 0.3878 Precision at 1 0.4286 0.3878 0.3673 0.3673 0.3878 0.3673 0.3878 0.3878 Precision at 2 0.2551 0.2755 0.2551 0.2449 0.2347 0.2143 0.2143 0.2143 Precision at 3 0.2109 0.1905 0.1769 0.1701 0.1633 0.1565 0.1633 0.1633 Precision at 4 0.1582 0.1531 0.1429 0.1327 0.1276 0.1224 0.1327 0.1327 Precision at 5 0.1306 0.1265 0.1224 0.1184 0.1184 0.1102 0.1143 0.1143 Precision at 10 0.0714 0.0653 0.0612 0.0612 0.0592 0.0592 0.0592 0.0592 Precision at 15 0.0476 0.0435 0.0422 0.0408 0.0408 0.0395 0.0408 0.0408 Precision at 20 0.0357 0.0337 0.0327 0.0316 0.0316 0.0316 0.0316 0.0316 Precision at 30 0.0265 0.0245 0.0231 0.0231 0.0224 0.0224 0.0224 0.0224 Precision at 50 0.0163 0.0163 0.0155 0.0151 0.0147 0.0143 0.0143 0.0143 Precision at 100 0.0088 0.0084 0.0080 0.0078 0.0076 0.0073 0.0073 0.0073 Precision at 200 0.0046 0.0045 0.0042 0.0041 0.0040 0.0039 0.0039 0.0039 Precision at 500 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0016 0.0016 Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008
  • 34. MWT: Web Mining – 2013/14 34 | P a g i n a Modello BB2 c 9 10 11 12 13 14 15 16 Number of queries 49 49 49 49 49 49 49 49 Retrieved 42664 42664 42664 42664 42664 42664 42664 42664 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 48 39 39 39 39 39 39 39 Average precision 0.4554 0.4355 0.4368 0.4368 0.4368 0.4364 0.4363 0.4160 R-Precision 0.3878 0.3673 0.3673 0.3673 0.3673 0.3673 0.3469 0.3469 Precision at 1 0.3878 0.3673 0.3673 0.3673 0.3673 0.3673 0.3469 0.3469 Precision at 2 0.2143 0.2041 0.2041 0.2041 0.2041 0.2041 0.1939 0.1939 Precision at 3 0.1633 0.1565 0.1633 0.1633 0.1633 0.1633 0.1565 0.1565 Precision at 4 0.1327 0.1276 0.1276 0.1276 0.1276 0.1276 0.1224 0.1224 Precision at 5 0.1143 0.1102 0.1061 0.1061 0.1061 0.1061 0.1020 0.1020 Precision at 10 0.0592 0.0571 0.0571 0.0571 0.0571 0.0571 0.0551 0.0551 Precision at 15 0.0408 0.0395 0.0408 0.0408 0.0408 0.0408 0.0395 0.0395 Precision at 20 0.0327 0.0327 0.0327 0.0327 0.0327 0.0327 0.0316 0.0316 Precision at 30 0.0224 0.0218 0.0218 0.0218 0.0218 0.0218 0.0211 0.0211 Precision at 50 0.0143 0.0139 0.0139 0.0139 0.0139 0.0139 0.0135 0.0135 Precision at 100 0.0073 0.0071 0.0071 0.0071 0.0071 0.0071 0.0069 0.0069 Precision at 200 0.0039 0.0038 0.0038 0.0038 0.0038 0.0038 0.0037 0.0037 Precision at 500 0.0016 0.0016 0.0016 0.0016 0.0016 0.0016 0.0015 0.0015 Precision at 1000 0.0008 0.0008 0.0008 0.0008 0.0008 0.0008 0.0008 0.0008 Gli stessi test sono stati effettuati sul modello che ha prodotto in precedenza i valori di precisione più bassi per la collezione Degrade5. Applicando il parametro c ed aumentandone il valore fino a 16.0, è possibile concludere che in questo contesto aumentare il valore di c porta ad un graduale abbassamento della precisione.
  • 35. MWT: Web Mining – 2013/14 35 | P a g i n a Collezione Degrade20 Confronto tra modelli di pesatura BB2 BM25 DFI0 DFR_BM25 DLH DLH13 DPH Number of queries 49 49 49 49 49 49 49 Retrieved 42575 42575 42575 42575 42575 42575 42575 Relevant 49 49 49 49 49 49 49 Relevant retrieved 44 45 42 45 43 45 44 Average precision 0.2841 0. 3141 0.2906 0. 3147 0.2838 0.2890 0.3170 R-Precision 0. 1633 0.1837 0.1633 0.1837 0.1633 0.1633 0.2041 Precision at 1 0.4286 0.1837 0.1633 0.1837 0.1633 0.1633 0.2041 Precision at 2 0. 1429 0. 1633 0.1531 0. 1633 0.1327 0.1327 0.1531 Precision at 3 0. 1224 0.1293 0.1156 0.1293 0.1020 0.1088 0.1156 Precision at 4 0. 0969 0.1173 0.1020 0.1173 0.0918 0.1020 0.1071 Precision at 5 0. 0898 0.0980 0.0898 0.0980 0.0898 0.0898 0.0939 Precision at 10 0. 0469 0.0531 0.0469 0.0531 0.0551 0.0571 0.0551 Precision at 15 0. 0354 0.0354 0.0395 0.0354 0.0408 0.0408 0.0395 Precision at 20 0. 0286 0.0276 0.0316 0.0276 0.0316 0.0337 0.0316 Precision at 30 0. 0211 0.0218 0.0224 0.0218 0.0231 0.0231 0.0224 Precision at 50 0. 0139 0.0147 0.0143 0.0147 0.0147 0.0155 0.0151 Precision at 100 0. 0071 0.0076 0.0080 0.0076 0.0082 0.0078 0.0078 Precision at 200 0. 0040 0.0040 0.0041 0.0041 0.0042 0.0042 0.0042 Precision at 500 0. 0017 0.0017 0.0017 0.0018 0.0017 0.0017 0.0017 Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
  • 36. MWT: Web Mining – 2013/14 36 | P a g i n a DFRee Hiemstra_LM DirichletLM IFB2 In_expB2 In_expC2 InL2 Number of queries 49 49 49 49 49 49 49 Retrieved 42575 42575 42575 42575 42575 42575 42575 Relevant 49 49 49 49 49 49 49 Relevant retrieved 43 45 45 45 45 48 45 Average precision 0.2838 0.2978 0.3240 0.5722 0. 3236 0.3106 0.3292 R-Precision 0.1633 0.1633 0.2041 0.4694 0. 2041 0.2041 0.2041 Precision at 1 0.1633 0.1633 0.2041 0.4694 0. 2041 0.2041 0.2041 Precision at 2 0.1327 0.1531 0.1633 0.2755 0. 1633 0.1531 0.1735 Precision at 3 0.1020 0.1361 0.1361 0.2177 0. 1361 0.1224 0.1293 Precision at 4 0.0918 0.1071 0.1173 0.1735 0. 1173 0.1020 0.1173 Precision at 5 0.0898 0.0898 0.0980 0.1429 0. 0980 0.0898 0.0980 Precision at 10 0.0551 0.0510 0.0490 0.0755 0. 0490 0.0490 0.0531 Precision at 15 0.0408 0.0354 0.0367 0.0517 0. 0367 0.0354 0.0354 Precision at 20 0.0316 0.0306 0.0306 0.0388 0. 0296 0.0286 0.0296 Precision at 30 0.0231 0.0231 0.0296 0.0299 0. 0218 0.0211 0.0224 Precision at 50 0.0147 0.0147 0.0143 0.0184 0. 0143 0.0139 0.0147 Precision at 100 0.0082 0.0078 0.0076 0.0094 0. 0073 0.0076 0.0076 Precision at 200 0.0042 0.0040 0.0042 0.0048 0. 0041 0.0041 0.0040 Precision at 500 0.0017 0.0017 0.0018 0.0020 0. 0018 0.0017 0.0018 Precision at 1000 0.0009 0.0009 0.0009 0.0010 0. 0009 0.0009 0.0009
  • 37. MWT: Web Mining – 2013/14 37 | P a g i n a LemurTF_IDF LGD PL2 TF_IDF Number of queries 49 49 49 49 Retrieved 42575 42575 42567 42575 Relevant 49 49 49 49 Relevant retrieved 45 44 44 45 Average precision 0.2894 0.2803 0.3047 0.3108 R-Precision 0.1837 0.1633 0.1837 0.1837 Precision at 1 0.1837 0.1633 0.1837 0.1837 Precision at 2 0.1429 0.1122 0.1633 0.1633 Precision at 3 0.1156 0.1088 0.1156 0.1293 Precision at 4 0.0969 0.0918 0.1071 0.1071 Precision at 5 0.0816 0.0816 0.0898 0.0939 Precision at 10 0.0469 0.0571 0.0531 0.0531 Precision at 15 0.0327 0.0422 0.0381 0.0354 Precision at 20 0.0255 0.0347 0.0286 0.0286 Precision at 30 0.0204 0.0238 0.0218 0.0218 Precision at 50 0.0147 0.0151 0.0143 0.0147 Precision at 100 0.0078 0.0084 0.0076 0.0076 Precision at 200 0.0039 0.0042 0.0038 0.0039 Precision at 500 0.0017 0.0017 0.0017 0.0017 Precision at 1000 0.0009 0.0009 0.0009 0.0009 Anche nel caso della collezione Degrade20 abbiamo raggiunto una baseline di documenti. Osservando i risultati della tabella possiamo concludere che:  Il modello che ha generato i risultati migliori è InL2 (il modello di casualità basato sulla Inverse document frequency);  Il modello che ha generato i risultati peggiori è LGD (un modello logaritmico). Anche in questo caso continueremo ad effettuare il resto dei test solo su tali modelli.
  • 38. MWT: Web Mining – 2013/14 38 | P a g i n a Opzioni attivate e/o disattivate sul modello migliore e peggiore Stop Words + Stemming Stop Words Stemming No Stop Words + No Stemming InL2 LGD InL2 LGD InL2 LGD InL2 LGD Number of queries 49 49 44 44 49 49 47 47 Retrieved 42575 42575 29798 29798 44340 44340 42772 42772 Relevant 49 49 44 44 49 49 47 47 Relevant retrieved 45 44 28 28 41 41 25 23 Average precision 0.3292 0.2803 0.1921 0.1746 0.2802 0.2732 0.1360 0.1171 R-Precision 0.2041 0.1633 0.1364 0.1136 0.1633 0.1633 0.1064 0.0851 Precision at 1 0.2041 0.1633 0.1364 0.1136 0.1633 0.1633 0.1064 0.0851 Precision at 2 0.1735 0.1122 0.1023 0.0909 0.1429 0.1122 0.0532 0.0426 Precision at 3 0.1293 0.1088 0.0682 0.0682 0.1088 0.1088 0.0496 0.0355 Precision at 4 0.1173 0.0918 0.0568 0.0511 0.0918 0.0918 0.0372 0.0319 Precision at 5 0.0980 0.0816 0.0455 0.0455 0.0816 0.0898 0.0298 0.0298 Precision at 10 0.0531 0.0571 0.0273 0.0273 0.0490 0.0510 0.0191 0.0191 Precision at 15 0.0354 0.0422 0.0197 0.0182 0.0340 0.0367 0.0142 0.0156 Precision at 20 0.0296 0.0347 0.0182 0.0170 0.0286 0.0296 0.0149 0.0138 Precision at 30 0.0224 0.0238 0.0136 0.0129 0.0224 0.0204 0.0106 0.0113 Precision at 50 0.0147 0.0151 0.0086 0.0091 0.0147 0.0147 0.0068 0.0068 Precision at 100 0.0076 0.0084 0.0048 0.0050 0.0078 0.0080 0.0036 0.0036 Precision at 200 0.0040 0.0042 0.0027 0.0026 0.0040 0.0042 0.0022 0.0022 Precision at 500 0.0018 0.0017 0.0013 0.0012 0.0016 0.0017 0.0009 0.0009 Precision at 1000 0.0009 0.0009 0.0006 0.0006 0.0008 0.0008 0.0005 0.0005 Anche nel caso della collezione Degrade20 abbiamo provato ad applicare le varie combinazioni di attivazione e/o disattivazione della lista di Stop Words e dello Stemming di Porter. Tale analisi dimostra che, ancora una volta, la combinazione che consente di ottenere una precisione più alta è quella che unisce l’eliminazione delle Stop Words all’applicazione dello Stemming process.
  • 39. MWT: Web Mining – 2013/14 39 | P a g i n a Applicazione dei modelli di Query Expansion Modelli di Q.E. Bo1 Bo2 CS CSCorrect InL2 LGD InL2 LGD InL2 LGD InL2 LGD Number of queries 49 49 49 49 49 49 49 49 Retrieved 49000 49000 49000 49000 49000 49000 49000 49000 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 44 44 44 44 42 37 42 37 Average precision 0.2978 0.2643 0.2926 0.2614 0.2371 0.1985 0.2371 0.1985 R-Precision 0.1837 0.1429 0.1837 0.1429 0.1224 0.0816 0.1224 0.0816 Precision at 1 0.1837 0.1429 0.1837 0.1429 0.1224 0.0816 0.1224 0.0816 Precision at 2 0.1531 0.1122 0.1633 0.1327 0.1327 0.0918 0.1327 0.0918 Precision at 3 0.1088 0.1088 0.1156 0.1088 0.1020 0.0884 0.1020 0.0884 Precision at 4 0.0918 0.0969 0.0969 0.0918 0.0867 0.0816 0.0867 0.0816 Precision at 5 0.0857 0.0857 0.0816 0.0776 0.0776 0.0735 0.0776 0.0735 Precision at 10 0.0531 0.0510 0.0429 0.0490 0.0429 0.0429 0.0429 0.0429 Precision at 15 0.0381 0.0395 0.0313 0.0327 0.0299 0.0299 0.0299 0.0299 Precision at 20 0.0296 0.0306 0.0276 0.0265 0.0224 0.0235 0.0224 0.0235 Precision at 30 0.0204 0.0224 0.0197 0.0184 0.0156 0.0163 0.0156 0.0163 Precision at 50 0.0139 0.0151 0.0131 0.0127 0.0102 0.0102 0.0102 0.0102 Precision at 100 0.0078 0.0084 0.0076 0.0076 0.0061 0.0059 0.0061 0.0059 Precision at 200 0.0043 0.0045 0.0042 0.0040 0.0034 0.0033 0.0034 0.0033 Precision at 500 0.0018 0.0018 0.0018 0.0018 0.0016 0.0014 0.0016 0.0014 Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0008 0.0009 0.0008
  • 40. MWT: Web Mining – 2013/14 40 | P a g i n a Modelli di Q.E. Information KL KLComplete KLCorrect InL2 LGD InL2 LGD InL2 LGD InL2 LGD Number of queries 49 49 49 49 49 49 49 49 Retrieved 49000 49000 49000 49000 49000 49000 49000 49000 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 26 22 45 44 41 37 45 45 Average precision 0.1780 0.1572 0.3025 0.2749 0.2500 0.1982 0.3137 0.2809 R-Precision 0.1224 0.0816 0.1837 0.1633 0.1429 0.0816 0.1837 0.1633 Precision at 1 0.1224 0.0816 0.1837 0.1633 0.1429 0.0816 0.1837 0.1633 Precision at 2 0.0714 0.0816 0.1531 0.1122 0.1429 0.0918 0.1633 0.1224 Precision at 3 0.0680 0.0680 0.1224 0.1156 0.1020 0.0884 0.1293 0.1088 Precision at 4 0.0663 0.0561 0.1020 0.0969 0.0867 0.0816 0.1071 0.0867 Precision at 5 0.0612 0.0531 0.0898 0.0857 0.0776 0.0776 0.0898 0.0857 Precision at 10 0.0306 0.0306 0.0510 0.0510 0.0408 0.0429 0.0551 0.0551 Precision at 15 0.0204 0.0218 0.0381 0.0367 0.0299 0.0299 0.0381 0.0408 Precision at 20 0.0153 0.0163 0.0306 0.0306 0.0224 0.0224 0.0296 0.0337 Precision at 30 0.0102 0.0116 0.0204 0.0224 0.0156 0.0163 0.0218 0.0238 Precision at 50 0.0061 0.0069 0.0135 0.0151 0.0102 0.0102 0.0143 0.0151 Precision at 100 0.0035 0.0037 0.0080 0.0082 0.0061 0.0057 0.0076 0.0084 Precision at 200 0.0020 0.0018 0.0042 0.0044 0.0034 0.0033 0.0041 0.0042 Precision at 500 0.0009 0.0009 0.0018 0.0018 0.0016 0.0014 0.0018 0.0018 Precision at 1000 0.0005 0.0004 0.0009 0.0009 0.0008 0.0008 0.0009 0.0009 Anche per la collezione Degrade20 abbiamo applicato la Query Expansion tramite i vari modelli disponibili e possiamo concludere che il livello di precisione anche stavolta non migliora rispetto ai risultati ottenuti senza utilizzare la Query Expansion per quanto riguarda il modello InL2, mentre otteniamo un leggero miglioramento per quanto riguarda il modello LGD. Siccome il miglioramento per il modello LGD è lieve, in base all’analisi effettuata abbiamo ritenuto opportuno anche stavolta aumentare il parametro di normalizzazione della term frequency senza adoperare la Query Expansion, come vedremo di seguito.
  • 41. MWT: Web Mining – 2013/14 41 | P a g i n a Valorizzazione del parametro “c” sul modello Ln2 Modello Ln2 c 1 2 3 4 5 6 7 8 Number of queries 49 49 49 49 49 49 49 49 Retrieved 42575 42575 42575 42575 42575 42575 42575 42575 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 45 45 45 45 45 45 45 45 Average precision 0.3292 0.3197 0.2987 0.2873 0.2824 0.2879 0.2897 0.2868 R-Precision 0.2041 0.1837 0.1429 0.1224 0.1224 0.1429 0.1429 0.1429 Precision at 1 0.2041 0.1837 0.1429 0.1224 0.1224 0.1429 0.1429 0.1429 Precision at 2 0.1735 0.1633 0.1633 0.1633 0.1531 0.1429 0.1429 0.1327 Precision at 3 0.1293 0.1361 0.1224 0.1224 0.1156 0.1156 0.1156 0.1156 Precision at 4 0.1173 0.1122 0.1173 0.1122 0.1122 0.1071 0.1122 0.1122 Precision at 5 0.0980 0.0939 0.0980 0.0939 0.0939 0.0939 0.0939 0.0939 Precision at 10 0.0531 0.0551 0.0592 0.0571 0.0592 0.0592 0.0592 0.0612 Precision at 15 0.0354 0.0395 0.0408 0.0408 0.0408 0.0408 0.0422 0.0408 Precision at 20 0.0296 0.0316 0.0327 0.0316 0.0316 0.0327 0.0327 0.0327 Precision at 30 0.0224 0.0224 0.0224 0.0224 0.0231 0.0231 0.0231 0.0231 Precision at 50 0.0147 0.0147 0.0147 0.0151 0.0151 0.0151 0.0151 0.0151 Precision at 100 0.0076 0.0078 0.0080 0.0080 0.0080 0.0082 0.0082 0.0082 Precision at 200 0.0040 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 Precision at 500 0.0018 0.0018 0.0018 0.0018 0.0017 0.0017 0.0017 0.0017 Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
  • 42. MWT: Web Mining – 2013/14 42 | P a g i n a Modello InL2 c 9 10 11 12 13 14 15 16 Number of queries 49 49 49 49 49 49 49 49 Retrieved 42575 42575 42575 42575 42575 42575 42575 42575 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 44 44 44 44 44 44 44 44 Average precision 0.2856 0.2829 0.2857 0.2886 0.2869 0.2864 0.2859 0.2866 R-Precision 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 Precision at 1 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 0.1429 Precision at 2 0.1327 0.1224 0.1224 0.1327 0.1327 0.1327 0.1327 0.1327 Precision at 3 0.1088 0.1088 0.1224 0.1224 0.1224 0.1224 0.1224 0.1224 Precision at 4 0.1122 0.1122 0.1122 0.1122 0.1071 0.1071 0.1071 0.1071 Precision at 5 0.0939 0.0980 0.0980 0.0980 0.0939 0.0939 0.0939 0.0980 Precision at 10 0.0592 0.0592 0.0592 0.0592 0.0592 0.0571 0.0571 0.0571 Precision at 15 0.0408 0.0408 0.0408 0.0408 0.0408 0.0408 0.0408 0.0408 Precision at 20 0.0327 0.0327 0.0327 0.0327 0.0316 0.0316 0.0316 0.0316 Precision at 30 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 Precision at 50 0.0151 0.0151 0.0151 0.0151 0.0151 0.0151 0.0151 0.0151 Precision at 100 0.0082 0.0082 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080 Precision at 200 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 Precision at 500 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 Abbiamo testato il modello di pesatura InL2 che ha rilevato i risultati migliori di precisione per la collezione Degrade20 applicandogli il parametro di normalizzazione della term frequency e aumentandolo di valore fino a 16.0. L’analisi condotta ci porta a concludere che aumentare il parametro c porta ad ottenere dei risultati gradualmente peggiori, e dunque ad una degradazione del livello di precisione.
  • 43. MWT: Web Mining – 2013/14 43 | P a g i n a Valorizzazione del parametro “c” sul modello LGD Modello LGD c 1 2 3 4 5 6 7 8 Number of queries 49 49 49 49 49 49 49 49 Retrieved 42575 42575 42575 42575 42575 42575 42575 42575 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 44 43 43 43 43 43 43 43 Average precision 0.2803 0.2866 0.2848 0.2882 0.2882 0.2843 0.2864 0.2860 R-Precision 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 Precision at 1 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 0.1633 Precision at 2 0.1122 0.1327 0.1327 0.1327 0.1327 0.1224 0.1327 0.1327 Precision at 3 0.1088 0.1088 0.1020 0.1088 0.1088 0.1088 0.1088 0.1088 Precision at 4 0.0918 0.0918 0.0918 0.1020 0.1020 0.1020 0.1020 0.1020 Precision at 5 0.0816 0.0776 0.0816 0.0857 0.0857 0.0857 0.0898 0.0898 Precision at 10 0.0571 0.0571 0.0571 0.0571 0.0571 0.0551 0.0531 0.0531 Precision at 15 0.0422 0.0408 0.0408 0.0408 0.0395 0.0395 0.0395 0.0395 Precision at 20 0.0347 0.0337 0.0327 0.0327 0.0327 0.0327 0.0316 0.0316 Precision at 30 0.0238 0.0238 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 Precision at 50 0.0151 0.0151 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147 Precision at 100 0.0084 0.0084 0.0084 0.0084 0.0082 0.0080 0.0080 0.0080 Precision at 200 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 Precision at 500 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
  • 44. MWT: Web Mining – 2013/14 44 | P a g i n a Modello LGD c 9 10 11 12 13 14 15 16 Number of queries 49 49 49 49 49 49 49 49 Retrieved 42575 42575 42575 42575 42575 42575 42575 42575 Relevant 49 49 49 49 49 49 49 49 Relevant retrieved 43 43 43 43 43 43 43 43 Average precision 0.2965 0.2963 0.2962 0.2960 0.2960 0.2973 0.2971 0.3006 R-Precision 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 Precision at 1 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 0.1837 Precision at 2 0.1327 0.1327 0.1327 0.1327 0.1327 0.1327 0.1327 0.1429 Precision at 3 0.1088 0.1088 0.1088 0.1088 0.1088 0.1156 0.1156 0.1156 Precision at 4 0.1071 0.1071 0.1071 0.1071 0.1071 0.1071 0.1071 0.1071 Precision at 5 0.0898 0.0898 0.0898 0.0898 0.0898 0.0898 0.0898 0.0898 Precision at 10 0.0531 0.0531 0.0531 0.0531 0.0531 0.0531 0.0531 0.0531 Precision at 15 0.0381 0.0381 0.0367 0.0367 0.0367 0.0367 0.0367 0.0367 Precision at 20 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 0.0306 Precision at 30 0.0231 0.0231 0.0231 0.0231 0.0231 0.0231 0.0224 0.0224 Precision at 50 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147 0.0147 Precision at 100 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080 0.0080 Precision at 200 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 0.0042 Precision at 500 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 0.0017 Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009 Abbiamo provato a verificare anche se aumentando il valore del parametro c per il modello di pesatura che produce i risultati peggiori, nel caso della collezione Degrade20, riusciamo ad arrivare ad una precisione migliore. Dai risultati ottenuti, possiamo concludere che aumentare il valore del peso di tf nel caso del modello LGD porta ad un buon miglioramento complessivo.
  • 45. MWT: Web Mining – 2013/14 45 | P a g i n a Riassumendo Collezione Original I risultati di precisione migliori ottenuti applicando le varie opzioni che abbiamo analizzato in precedenza, per i modelli di pesatura che restituiscono rispettivamente un esito migliore e peggiore di precisione per la collezione Original, sono: Funzionalità attivate Stop Words + Stemming Q.E.: KLCorrect c Modelli DLH13 PL2 DLH13 PL2 DLH13 PL2 Number of queries 50 50 50 50 50 50 Retrieved 44540 44527 50000 50000 44540 44538 Relevant 50 50 50 50 50 50 Relevant retrieved 50 49 50 49 50 50 Average precision 0.8976 0.7773 0.8672 0.7564 0.8976 0.8960 R-Precision 0.8400 0.7000 0.8000 0.6800 0.8400 0.8400 Precision at 1 0.8400 0.7000 0.8000 0.6800 0.8400 0.8400 Precision at 2 0.4700 0.4100 0.4400 0.3900 0.4700 0.4600 Precision at 3 0.3133 0.2733 0.3067 0.2667 0.3133 0.3133 Precision at 4 0.2350 0.2050 0.2300 0.2050 0.2350 0.2350 Precision at 5 0.1920 0.1680 0.1920 0.1680 0.1920 0.1920 Precision at 10 0.0960 0.0900 0.1000 0.0900 0.0960 0.1000 Precision at 15 0.0667 0.0627 0.0667 0.0613 0.0667 0.0667 Precision at 20 0.0500 0.0480 0.0500 0.0480 0.0500 0.0500 Precision at 30 0.0333 0.0320 0.0333 0.0480 0.0333 0.0333 Precision at 50 0.0200 0.0192 0.0200 0.0192 0.0200 0.0200 Precision at 100 0.0100 0.0098 0.0200 0.0098 0.0100 0.0100 Precision at 200 0.0050 0.0049 0.0050 0.0049 0.0050 0.0050 Precision at 500 0.0020 0.0020 0.0020 0.0020 0.0020 0.0020 Precision at 1000 0.0010 0.0010 0.0010 0.0010 0.0010 0.0010
  • 46. MWT: Web Mining – 2013/14 46 | P a g i n a Collezione Degrade5 I risultati migliori che abbiamo invece ottenuto svolgendo dei test e applicando le varie funzionalità disponibili sui modelli che hanno restituito rispettivamente i risultati migliori e peggiori di precisione sulla collezione Degrade5, sono: Funzionalità attivate Stop Words + Stemming Q.E.: KLCorrect c Modelli LGD BB2 LGD BB2 LGD BB2 Number of queries 49 49 49 49 49 49 Retrieved 42664 42664 49000 49000 42664 42664 Relevant 49 49 49 49 49 49 Relevant retrieved 48 46 48 44 48 46 Average precision 0.7167 0.5280 0.7069 0.4821 0.7186 0.5280 R-Precision 0.6327 0.4286 0.6122 0.3878 0.6327 0.4286 Precision at 1 0.6327 0.4286 0.6122 0.3878 0.6327 0.4286 Precision at 2 0.3673 0.2551 0.3673 0.2347 0.3776 0.2551 Precision at 3 0.2653 0.2109 0.2653 0.1837 0.2653 0.2109 Precision at 4 0.1990 0.1582 0.1990 0.1378 0.1990 0.1582 Precision at 5 0.1673 0.1306 0.1633 0.1184 0.1633 0.1306 Precision at 10 0.0837 0.0714 0.0837 0.0673 0.0837 0.0714 Precision at 15 0.0571 0.0476 0.0585 0.0463 0.0571 0.0476 Precision at 20 0.0429 0.0357 0.0439 0.0367 0.0439 0.0357 Precision at 30 0.0306 0.0265 0.0313 0.0252 0.0306 0.0265 Precision at 50 0.0184 0.0163 0.0188 0.0163 0.0184 0.0163 Precision at 100 0.0094 0.0088 0.0094 0.0084 0.0092 0.0088 Precision at 200 0.0047 0.0046 0.0048 0.0043 0.0047 0.0046 Precision at 500 0.0020 0.0019 0.0020 0.0018 0.0020 0.0019 Precision at 1000 0.0010 0.0009 0.0010 0.0009 0.0010 0.0009
  • 47. MWT: Web Mining – 2013/14 47 | P a g i n a Collezione Degrade20 Per quanto riguarda la collezione Degrade20, i risultati migliori di precisione che abbiamo invece ottenuto applicando le varie funzionalità disponibili sui modelli di pesatura che hanno restituito rispettivamente i risultati migliori e peggiori, sono: Funzionalità attivate Stop Words + Stemming Q.E.: KLCorrect c Modelli InL2 LGD InL2 LGD InL2 LGD Number of queries 49 49 49 49 49 49 Retrieved 42575 42575 49000 49000 42575 42575 Relevant 49 49 49 49 49 49 Relevant retrieved 45 44 45 45 45 43 Average precision 0.3292 0.2803 0.3137 0.2809 0.3292 0.3006 R-Precision 0.2041 0.1633 0.1837 0.1633 0.2041 0.1837 Precision at 1 0.2041 0.1633 0.1837 0.1633 0.2041 0.1837 Precision at 2 0.1735 0.1122 0.1633 0.1224 0.1735 0.1429 Precision at 3 0.1293 0.1088 0.1293 0.1088 0.1293 0.1156 Precision at 4 0.1173 0.0918 0.1071 0.0867 0.1173 0.1071 Precision at 5 0.0980 0.0816 0.0898 0.0857 0.0980 0.0898 Precision at 10 0.0531 0.0571 0.0551 0.0551 0.0531 0.0531 Precision at 15 0.0354 0.0422 0.0381 0.0408 0.0354 0.0367 Precision at 20 0.0296 0.0347 0.0296 0.0337 0.0296 0.0306 Precision at 30 0.0224 0.0238 0.0218 0.0238 0.0224 0.0224 Precision at 50 0.0147 0.0151 0.0143 0.0151 0.0147 0.0147 Precision at 100 0.0076 0.0084 0.0076 0.0084 0.0076 0.0080 Precision at 200 0.0040 0.0042 0.0041 0.0042 0.0040 0.0042 Precision at 500 0.0018 0.0017 0.0018 0.0018 0.0018 0.0017 Precision at 1000 0.0009 0.0009 0.0009 0.0009 0.0009 0.0009
  • 48. MWT: Web Mining – 2013/14 48 | P a g i n a Apache Lucene Overview Apache Lucene è una API open source che ha una funzione di motore di ricerca testuale ed è scritta interamente nel linguaggio Java. Si tratta di una tecnologia adattabile all’incirca a qualsiasi applicazione che richieda una ricerca full-text, specialmente se cross-platform. E’ attualmente supportata dall’Apache Software Foundation ed è resa open source tramite l’Apache License. Le caratteristiche principali di Lucene sono le seguenti:  Indicizzazione scalabile e ad alte performance;  supporto di algoritmi di ricerca efficienti;  cross-platform;  supporto fornito dall’Apache Software all’Apache Community e ai progetti open source. Per ulteriori informazioni, basta consultare il sito [5]. Progetto Lucene Per il nostro progetto abbiamo deciso di creare un’applicazione Java che sia capace di creare un indice e di eseguire delle query sull’indice creato, per poi generare dei risultati. L’esecuzione dell’intero processo di interrogazione restituisce in output un file con estensione .out, così formattato: numero_query Q0 <DOCNO> i-esimo_DOCNO score_doc nome_modello_utilizzatoA All’interno del file, per ogni query vengono specificati i documenti ordinati in maniera decrescente di score_doc, ponendo in testa il documento più rilevante. Il file .out sarà poi oggetto di valutazione da parte del tool trec_eval, che descriveremo successivamente.
  • 49. MWT: Web Mining – 2013/14 49 | P a g i n a Il progetto Java consiste di tre classi: 1. IndexTREC: che insieme alla classe TrecDocIterator si occupa dell’indicizzazione; 2. TrecDocIterator: che itera sui documenti; 3. BatchSearch: che si occupa della ricerca. Per far funzionare tali classi, nel progetto abbiamo bisogno delle seguenti librerie:  JDK 1.7;  lucene-analyzer-common-4.9.0.jar;  lucene-core-4.9.0.jar;  lucene-queryparser-4.9.0.jar. I modelli previsti per la ricerca sono: 1) default: modello di default di Lucene, corrisponde al TF_IFD; 2) BM25: modello di valutazione probabilistico BM25; 3) DFR: Divergence from Randomness, paradigma di standardizzazione di Harter’s 2-poisson; 4) LM: modello di valutazione linguistico con Dirichlet smoothing, anche detto Language Model. Di seguito mostriamo la struttura del progetto Java SE: Supponendo di avere a disposizione un file contenente i risultati attesi, che nel nostro caso è chiamato confusion.known_items_marco, è possibile procedere alla valutazione dei risultati prodotti nel file .out generato dal programma. Dato che i modelli disponibili per Lucene sono 4 e le collezioni sono 3, il sistema genera complessivamente 12 file con estensione .out. Questo processo di valutazione è stato effettuato per ogni collezione della Confusion TREC (Original, Degrade5 e Degrade20) e a tal fine è stato utilizzato il tool trec_eval reperibile all’indirizzo [6].
  • 50. MWT: Web Mining – 2013/14 50 | P a g i n a Per utilizzare trec_eval è stato necessario compilare i sorgenti contenuti nell’archivio utilizzando il compilatore GCC (un compilatore multi-target creato inizialmente dal fondatore della Free Software Foundation come parte del Progetto GNU) mediate il comando “make” lanciato da terminale. A livello pratico per comparare i file con estensione .out con i risultati attesi abbiamo utilizzato l’eseguibile trec_eval ottenuto, appunto, dopo il lancio del comando “make”. Nei paragrafi successivi riporteremo i risultati mostrati a video restituiti dall’interfaccia del terminale.
  • 51. MWT: Web Mining – 2013/14 51 | P a g i n a Collezione Original L’esecuzione dei comandi accennati nel paragrafo precedente, ha portato a generare i seguenti risultati: Modelli di pesatura DEFAULT (TF_IDF) BM25 DFR LM num_q 49 49 49 49 num_ret 44162 44162 44162 44162 num_rel 49 49 49 49 num_rel_ret 48 46 45 47 MAP 0.5088 0.5232 0.2726 0.5744 Rprec 0.4082 0.4490 0.0816 0.4898 Precision at 5 0.1388 0.1388 0.1020 0.1306 Precision at 10 0.0714 0.0714 0.0735 0.0735 Precision at 15 0.0503 0.0476 0.0503 0.0503 Precision at 20 0.0378 0.0378 0.0388 0.0388 Precision at 30 0.0259 0.0265 0.0272 0.0265 Precision at 100 0.0086 0.0086 0.0086 0.0090 Precision at 200 0.0045 0.0044 0.0044 0.0046 Precision at 500 0.0019 0.0018 0.0018 0.0019 Precision at 1000 0.0010 0.0009 0.0009 0.0010 Come è possibile notare Lucene, a differenza di Terrier, mette a disposizione per la ricerca dei documenti soltanto 4 modelli diversi di pesatura. La valutazione permette di concludere che:  LM è il modello di pesatura che ha restituito una precisione migliore;  DFR è il paradigma che ha restituito una precisione peggiore.
  • 52. MWT: Web Mining – 2013/14 52 | P a g i n a Collezione Degrade5 Per la collezione Degrade5 è stato rieseguito da capo il programma, il quale ha portato a questi nuovi risultati: Modelli di pesatura DEFAULT (TF_IDF) BM25 DFR LM num_q 49 49 49 49 num_ret 42486 42486 42486 42486 num_rel 49 49 49 49 num_rel_ret 45 44 44 45 MAP 0.4250 0.4158 0.3345 0.4128 Rprec 0.3265 0.3061 0.1837 0.3061 Precision at 5 0.1143 0.1061 0.1061 0.1061 Precision at 10 0.0612 0.0612 0.0592 0.0612 Precision at 15 0.0408 0.0408 0.0408 0.0463 Precision at 20 0.0316 0.0316 0.0316 0.0388 Precision at 30 0.0231 0.0245 0.0231 0.0265 Precision at 100 0.0080 0.0080 0.0082 0.0086 Precision at 200 0.0043 0.0044 0.0043 0.0044 Precision at 500 0.0018 0.0018 0.0018 0.0018 Precision at 1000 0.0009 0.0009 0.0009 0.0009 Stavolta è possibile osservare che:  TF_IDF è il modello di pesatura che ha restituito una precisione migliore;  DFR è il paradigma che ha restituito una precisione peggiore, ancora una volta.
  • 53. MWT: Web Mining – 2013/14 53 | P a g i n a Collezione Degrade20 Per la collezione Degrade20, il programma ha generato questi altri risultati: Modelli di pesatura DEFAULT (TF_IDF) BM25 DFR LM num_q 49 49 49 49 num_ret 40989 40989 40989 40989 num_rel 49 49 49 49 num_rel_ret 34 33 32 33 MAP 0.2344 0.2553 0.1763 0.2320 Rprec 0.1633 0.1837 0.0816 0.1429 Precision at 5 0.0571 0.0571 0.0571 0.0653 Precision at 10 0.0367 0.0408 0.0367 0.0408 Precision at 15 0.0259 0.0272 0.0259 0.0313 Precision at 20 0.0214 0.0235 0.0235 0.0245 Precision at 30 0.0163 0.0177 0.0170 0.0177 Precision at 100 0.0057 0.0059 0.0059 0.0063 Precision at 200 0.0031 0.0031 0.0030 0.0032 Precision at 500 0.0013 0.0013 0.0013 0.0013 Precision at 1000 0.0007 0.0007 0.0007 0.0007 Nel caso della collezione Degrade20 osserviamo, invece, che:  BM25 è il modello di pesatura che ha restituito una precisione migliore;  DFR è il paradigma che ha restituito una precisione peggiore, di nuovo.
  • 54. MWT: Web Mining – 2013/14 54 | P a g i n a Confronto tra Terrier e Lucene Collezioni Tool MODELLO MIGLIORE MODELLO PEGGIORE Nome modello Average Precision R- Precision Nome modello Average Precision R-Precision Original Terrier DLH13 0.8976 0.8400 PL2 (c=11-14) 0.8960 0.8400 Lucene LM 0.5744 0.4898 DFR 0.2726 0.0816 Degrade5 Terrier LGD (c=3) 0.7186 0.6327 BB2 0.5280 0.4286 Lucene TF_IDF 0.4250 0.3265 DFR 0.3345 0.1837 Degrade20 Terrier InL2 0.3292 0.2041 LGD (c=16) 0.3006 0.1837 Lucene BM25 0.2553 0.1837 DFR 0.1763 0.0816 In questa tabella vengono riportati i valori di precisione migliori e peggiori ottenuti applicando i modelli di pesatura messi a disposizione dai due tool, rilevati analizzando le 3 collezioni della TREC. Come possiamo notare, abbiamo riscontrato un comportamento nettamente migliore da parte del tool Terrier 3.5 rispetto al tool Lucene.
  • 55. MWT: Web Mining – 2013/14 55 | P a g i n a Conclusioni L’analisi effettuata ci permette di concludere che, per le 3 collezioni della Confusion Track, la piattaforma di Terrier ha una performance nettamente migliore rispetto alla API Java Lucene. E’ bene ad ogni modo ricordare che le varie interrogazioni sulle 3 collezioni hanno tenuto in considerazione anche una query che restituisce 0 documenti rilevanti, la quale ha portato ad un abbassamento complessivo dei risultati finali. Per questo motivo, i risultati che abbiamo riportato nelle varie tabelle vanno considerati come valori relativi la cui utilità è finalizzata al semplice confronto tra i due tool. Infine, pensando ad uno sviluppo futuro per ciò che abbiamo creato ai fini di questa relazione, possiamo concludere che il progetto Java presentato può essere integrato facilmente in qualsiasi applicazione web che necessita una funzionalità di ricerca su collezioni di documenti di grandi dimensioni.
  • 56. MWT: Web Mining – 2013/14 56 | P a g i n a Riferimenti [1] Text Retrieval Conference’s website, http://trec.nist.gov/ [2] Terrier’s web site, http://terrier.org/ [3] What’s news in Terrier 3.5, http://terrier.org/docs/v3.5/whats_new.html [4] TREC-5 Confusion Track’s web site, http://trec.nist.gov/data/t5_confusion.html [5] Lucene Core, http://lucene.apache.org/ [6] trec_eval, http://trec.nist.gov/trec_eval/