Analisi contestuale di testi destrutturati e template di pagine web

614 views

Published on

Presentazione che cerca di risolvere alcuni dei problemi di analisi e catalogo delle informazioni di differenti domini di interesse e inoltre di raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
614
On SlideShare
0
From Embeds
0
Number of Embeds
11
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Analisi contestuale di testi destrutturati e template di pagine web

  1. 1. Analisi contestuale di testi destrutturati e template di pagine web Relatore                                                          Candidato Valter Crescenzi                                              Marco Cherubini                                                                       matricola 273991 Anno accademico 2009/2010 Università degli studi di Roma Tre Facoltà di Ingegneria Corso di Laurea Magistrale in Ingegneria Informatica
  2. 2. Sommario <ul><li>Introduzione </li></ul><ul><li>Il Problema e le motivazioni </li></ul><ul><li>Analisi contestuale site-dependent </li></ul><ul><li>Analisi contestuale di testi destrutturati e template di pagine web </li></ul><ul><li>Scalabilità dell’algoritmo </li></ul><ul><li>Risultati sperimentali </li></ul><ul><li>Conclusioni e Sviluppi futuri </li></ul>Marco Cherubini - 24 Febbraio 2011
  3. 3. Introduzione <ul><li>Sul Web è possibile trovare numerose informazioni sui differenti ambiti di interesse </li></ul><ul><li>Presenza di queste informazioni o in testi organizzati secondo una struttura ben definita o in testi liberi </li></ul><ul><li>Forte presenza della ridondanza di queste informazioni </li></ul>Marco Cherubini - 24 Febbraio 2011
  4. 4. Il problema e le motivazioni <ul><ul><li>Analizzare e catalogare queste informazioni per i differenti domini di interesse </li></ul></ul><ul><ul><li>Raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  5. 5. Input – Template pagine web Marco Cherubini - 24 Febbraio 2011
  6. 6. Input – Testi destrutturati Marco Cherubini - 24 Febbraio 2011
  7. 7. Output – Risultato ottenuto <ul><li>Raccolta dei dati sui domini di interesse partendo dai template delle pagine web </li></ul><ul><li>Numero sempre maggiore di dati dei domini di interesse interrogando successivamente i testi destrutturati </li></ul>Marco Cherubini - 24 Febbraio 2011
  8. 8. Analisi contestuale site-dependent <ul><li>Strumenti dell’Apache UIMA Framework utilizzati: </li></ul><ul><li>Dictionary Annotator </li></ul><ul><li>Julie Lab Lingpipe Gazetter </li></ul><ul><li>Open Calais </li></ul>Input Output UIMA <ul><li>Senza utilizzare UIMA: </li></ul><ul><li>Text Analyzer </li></ul>Marco Cherubini - 24 Febbraio 2011
  9. 9. Analisi contestuale dei testi destrutturati e template pagine web Input – Template di pagine web Analisi dei template di pagine web Input - Testi destrutturati Output Finale – Collezione dei termini di dominio Analisi dei testi destrutturati System Marco Cherubini - 24 Febbraio 2011
  10. 10. Definizione template di pagine web Esempio di Invariante Esempio di Invariante Marco Cherubini - 24 Febbraio 2011
  11. 11. Analisi contestuale di template di pagine web <ul><ul><li>Calcolo Percorsi XPATH assoluti </li></ul></ul><ul><ul><li>Matrice delle Occorrenze </li></ul></ul><ul><ul><li>Euristica posizionale </li></ul></ul><ul><ul><li>Ridondanza invarianti </li></ul></ul><ul><ul><li>Ridondanza termini valore degli invarianti </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  12. 12. Analisi contestuale di testi destrutturati <ul><ul><li>Stemming Annotator </li></ul></ul><ul><ul><li>Text Runner </li></ul></ul><ul><ul><li>KnowItAll </li></ul></ul><ul><ul><li>Calcolo del Pointwise mutual Information (PMI) </li></ul></ul><ul><ul><li>Ridondanza nei testi destrutturati </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  13. 13. Scalabilità dell’algoritmo <ul><ul><li>Euristica posizionale: meno risultati ottenuti nell’analisi del dominio delle azioni finanzarie in quanto gli invarianti non sono sempre in posizione iniziale. </li></ul></ul><ul><ul><li>Ridondanza degli invarianti: si applica la ridondanza anche ai template provenienti dallo stesso sito di appartenenza. </li></ul></ul><ul><ul><li>Ridondanza dei valori degli invarianti: aggiunta del dizionario Wordnet. </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  14. 14. Risultati sperimentali <ul><ul><li>Tutti gli esperimenti sono stati condotti, per ogni dominio di provenienza, su una scala di circa 1000-1500 di testi destrutturati e di circa 100-150 di template di pagine web </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  15. 15. Conclusioni <ul><ul><li>Necessità di automatizzare la creazione dei dizionari utilizzati da UIMA il quale è uno strumento assai funzionale per l’analisi dei testi e ne rende molto più agevoli lo studio. </li></ul></ul><ul><ul><li>Tramite l’analisi dei template delle pagine web risoluzione dell’automatizzazione della creazione dei dizionari utilizzati da UIMA. </li></ul></ul><ul><ul><li>Tramite l’analisi dei testi destrutturati raccolta di un numero sempre maggiore di risultati attendibili e non ricavabili dall’analisi dei template </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  16. 16. Sviluppi futuri <ul><ul><li>Vedere la risposta degli algoritmi ad altri differenti domini </li></ul></ul><ul><ul><li>Parallelizzare dove possibile gli algoritmi per rendere veloce l’esecuzione in presenza di un grande numero di input </li></ul></ul><ul><ul><li>Dare una misura oggettiva alla Recall nel caso dell’Analisi dei testi destrutturati </li></ul></ul>Marco Cherubini - 24 Febbraio 2011
  17. 17. <ul><ul><li>Grazie </li></ul></ul><ul><ul><li>per </li></ul></ul><ul><ul><li>l’attenzione </li></ul></ul>

×