Analisi contestuale di testi destrutturati  e template di pagine web Relatore                                             ...
Sommario <ul><li>Introduzione </li></ul><ul><li>Il Problema e le motivazioni </li></ul><ul><li>Analisi contestuale site-de...
Introduzione <ul><li>Sul Web è possibile trovare numerose informazioni sui differenti ambiti di interesse </li></ul><ul><l...
Il problema e le motivazioni <ul><ul><li>Analizzare e catalogare queste informazioni per i differenti domini di interesse ...
Input – Template pagine web Marco Cherubini - 24 Febbraio 2011
Input – Testi destrutturati Marco Cherubini - 24 Febbraio 2011
Output – Risultato ottenuto <ul><li>Raccolta dei dati sui domini di interesse partendo dai template delle pagine web </li>...
Analisi contestuale site-dependent <ul><li>Strumenti dell’Apache UIMA Framework utilizzati: </li></ul><ul><li>Dictionary A...
Analisi contestuale dei testi destrutturati e template pagine web Input – Template di pagine web Analisi dei template di p...
Definizione template di pagine web Esempio di Invariante Esempio di Invariante Marco Cherubini - 24 Febbraio 2011
Analisi contestuale di template di pagine web <ul><ul><li>Calcolo Percorsi XPATH assoluti </li></ul></ul><ul><ul><li>Matri...
Analisi contestuale di testi destrutturati <ul><ul><li>Stemming Annotator </li></ul></ul><ul><ul><li>Text Runner </li></ul...
Scalabilità dell’algoritmo <ul><ul><li>Euristica posizionale: meno risultati ottenuti nell’analisi del dominio delle azion...
Risultati sperimentali <ul><ul><li>Tutti gli esperimenti sono stati condotti, per ogni dominio di provenienza, su una scal...
Conclusioni <ul><ul><li>Necessità di automatizzare la creazione dei dizionari utilizzati da UIMA il quale è uno strumento ...
Sviluppi futuri <ul><ul><li>Vedere la risposta degli algoritmi ad altri differenti domini </li></ul></ul><ul><ul><li>Paral...
<ul><ul><li>Grazie </li></ul></ul><ul><ul><li>per </li></ul></ul><ul><ul><li>l’attenzione </li></ul></ul>
Upcoming SlideShare
Loading in …5
×

Analisi contestuale di testi destrutturati e template pagine web

461 views

Published on

A presentation that attempts to solve some problems of analysis and catalog information from different domains of interest and also to collect more data more than you can know only by the texts which have a well defined structure

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
461
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Analisi contestuale di testi destrutturati e template pagine web

  1. 1. Analisi contestuale di testi destrutturati e template di pagine web Relatore                                                          Candidato Valter Crescenzi                                              Marco Cherubini                                                                       matricola 273991 Anno accademico 2009/2010 Università degli studi di Roma Tre Facoltà di Ingegneria Corso di Laurea Magistrale in Ingegneria Informatica
  2. 2. Sommario <ul><li>Introduzione </li></ul><ul><li>Il Problema e le motivazioni </li></ul><ul><li>Analisi contestuale site-dependent </li></ul><ul><li>Analisi contestuale di testi destrutturati e template di pagine web </li></ul><ul><li>Scalabilità dell’algoritmo </li></ul><ul><li>Risultati sperimentali </li></ul><ul><li>Conclusioni e Sviluppi futuri </li></ul>Marco Cherubini - 24 Febbraio 2011
  3. 3. Introduzione <ul><li>Sul Web è possibile trovare numerose informazioni sui differenti ambiti di interesse </li></ul><ul><li>Presenza di queste informazioni o in testi organizzati secondo una struttura ben definita o in testi liberi </li></ul><ul><li>Forte presenza della ridondanza di queste informazioni </li></ul>Marco Cherubini - 24 Febbraio 2011
  4. 4. Il problema e le motivazioni <ul><ul><li>Analizzare e catalogare queste informazioni per i differenti domini di interesse </li></ul></ul><ul><ul><li>Raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  5. 5. Input – Template pagine web Marco Cherubini - 24 Febbraio 2011
  6. 6. Input – Testi destrutturati Marco Cherubini - 24 Febbraio 2011
  7. 7. Output – Risultato ottenuto <ul><li>Raccolta dei dati sui domini di interesse partendo dai template delle pagine web </li></ul><ul><li>Numero sempre maggiore di dati dei domini di interesse interrogando successivamente i testi destrutturati </li></ul>Marco Cherubini - 24 Febbraio 2011
  8. 8. Analisi contestuale site-dependent <ul><li>Strumenti dell’Apache UIMA Framework utilizzati: </li></ul><ul><li>Dictionary Annotator </li></ul><ul><li>Julie Lab Lingpipe Gazetter </li></ul><ul><li>Open Calais </li></ul>Input Output UIMA <ul><li>Senza utilizzare UIMA: </li></ul><ul><li>Text Analyzer </li></ul>Marco Cherubini - 24 Febbraio 2011
  9. 9. Analisi contestuale dei testi destrutturati e template pagine web Input – Template di pagine web Analisi dei template di pagine web Input - Testi destrutturati Output Finale – Collezione dei termini di dominio Analisi dei testi destrutturati System Marco Cherubini - 24 Febbraio 2011
  10. 10. Definizione template di pagine web Esempio di Invariante Esempio di Invariante Marco Cherubini - 24 Febbraio 2011
  11. 11. Analisi contestuale di template di pagine web <ul><ul><li>Calcolo Percorsi XPATH assoluti </li></ul></ul><ul><ul><li>Matrice delle Occorrenze </li></ul></ul><ul><ul><li>Euristica posizionale </li></ul></ul><ul><ul><li>Ridondanza invarianti </li></ul></ul><ul><ul><li>Ridondanza termini valore degli invarianti </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  12. 12. Analisi contestuale di testi destrutturati <ul><ul><li>Stemming Annotator </li></ul></ul><ul><ul><li>Text Runner </li></ul></ul><ul><ul><li>KnowItAll </li></ul></ul><ul><ul><li>Calcolo del Pointwise mutual Information (PMI) </li></ul></ul><ul><ul><li>Ridondanza nei testi destrutturati </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  13. 13. Scalabilità dell’algoritmo <ul><ul><li>Euristica posizionale: meno risultati ottenuti nell’analisi del dominio delle azioni finanzarie in quanto gli invarianti non sono sempre in posizione iniziale. </li></ul></ul><ul><ul><li>Ridondanza degli invarianti: si applica la ridondanza anche ai template provenienti dallo stesso sito di appartenenza. </li></ul></ul><ul><ul><li>Ridondanza dei valori degli invarianti: aggiunta del dizionario Wordnet. </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  14. 14. Risultati sperimentali <ul><ul><li>Tutti gli esperimenti sono stati condotti, per ogni dominio di provenienza, su una scala di circa 1000-1500 di testi destrutturati e di circa 100-150 di template di pagine web </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  15. 15. Conclusioni <ul><ul><li>Necessità di automatizzare la creazione dei dizionari utilizzati da UIMA il quale è uno strumento assai funzionale per l’analisi dei testi e ne rende molto più agevoli lo studio. </li></ul></ul><ul><ul><li>Tramite l’analisi dei template delle pagine web risoluzione dell’automatizzazione della creazione dei dizionari utilizzati da UIMA. </li></ul></ul><ul><ul><li>Tramite l’analisi dei testi destrutturati raccolta di un numero sempre maggiore di risultati attendibili e non ricavabili dall’analisi dei template </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  16. 16. Sviluppi futuri <ul><ul><li>Vedere la risposta degli algoritmi ad altri differenti domini </li></ul></ul><ul><ul><li>Parallelizzare dove possibile gli algoritmi per rendere veloce l’esecuzione in presenza di un grande numero di input </li></ul></ul><ul><ul><li>Dare una misura oggettiva alla Recall nel caso dell’Analisi dei testi destrutturati </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  17. 17. <ul><ul><li>Grazie </li></ul></ul><ul><ul><li>per </li></ul></ul><ul><ul><li>l’attenzione </li></ul></ul>

×