Your SlideShare is downloading. ×
Analisi contestuale di testi destrutturati e template di pagine web
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Analisi contestuale di testi destrutturati e template di pagine web

481
views

Published on

Presentazione che cerca di risolvere alcuni dei problemi di analisi e catalogo delle informazioni di differenti domini di interesse e inoltre di raccogliere un numero di dati maggiore di quelli che è …

Presentazione che cerca di risolvere alcuni dei problemi di analisi e catalogo delle informazioni di differenti domini di interesse e inoltre di raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
481
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Analisi contestuale di testi destrutturati e template di pagine web Relatore                                                          Candidato Valter Crescenzi                                              Marco Cherubini                                                                       matricola 273991 Anno accademico 2009/2010 Università degli studi di Roma Tre Facoltà di Ingegneria Corso di Laurea Magistrale in Ingegneria Informatica
  • 2. Sommario
    • Introduzione
    • Il Problema e le motivazioni
    • Analisi contestuale site-dependent
    • Analisi contestuale di testi destrutturati e template di pagine web
    • Scalabilità dell’algoritmo
    • Risultati sperimentali
    • Conclusioni e Sviluppi futuri
    Marco Cherubini - 24 Febbraio 2011
  • 3. Introduzione
    • Sul Web è possibile trovare numerose informazioni sui differenti ambiti di interesse
    • Presenza di queste informazioni o in testi organizzati secondo una struttura ben definita o in testi liberi
    • Forte presenza della ridondanza di queste informazioni
    Marco Cherubini - 24 Febbraio 2011
  • 4. Il problema e le motivazioni
      • Analizzare e catalogare queste informazioni per i differenti domini di interesse
      • Raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita
    Marco Cherubini - 24 Febbraio 2011
  • 5. Input – Template pagine web Marco Cherubini - 24 Febbraio 2011
  • 6. Input – Testi destrutturati Marco Cherubini - 24 Febbraio 2011
  • 7. Output – Risultato ottenuto
    • Raccolta dei dati sui domini di interesse partendo dai template delle pagine web
    • Numero sempre maggiore di dati dei domini di interesse interrogando successivamente i testi destrutturati
    Marco Cherubini - 24 Febbraio 2011
  • 8. Analisi contestuale site-dependent
    • Strumenti dell’Apache UIMA Framework utilizzati:
    • Dictionary Annotator
    • Julie Lab Lingpipe Gazetter
    • Open Calais
    Input Output UIMA
    • Senza utilizzare UIMA:
    • Text Analyzer
    Marco Cherubini - 24 Febbraio 2011
  • 9. Analisi contestuale dei testi destrutturati e template pagine web Input – Template di pagine web Analisi dei template di pagine web Input - Testi destrutturati Output Finale – Collezione dei termini di dominio Analisi dei testi destrutturati System Marco Cherubini - 24 Febbraio 2011
  • 10. Definizione template di pagine web Esempio di Invariante Esempio di Invariante Marco Cherubini - 24 Febbraio 2011
  • 11. Analisi contestuale di template di pagine web
      • Calcolo Percorsi XPATH assoluti
      • Matrice delle Occorrenze
      • Euristica posizionale
      • Ridondanza invarianti
      • Ridondanza termini valore degli invarianti
    Marco Cherubini - 24 Febbraio 2011
  • 12. Analisi contestuale di testi destrutturati
      • Stemming Annotator
      • Text Runner
      • KnowItAll
      • Calcolo del Pointwise mutual Information (PMI)
      • Ridondanza nei testi destrutturati
    Marco Cherubini - 24 Febbraio 2011
  • 13. Scalabilità dell’algoritmo
      • Euristica posizionale: meno risultati ottenuti nell’analisi del dominio delle azioni finanzarie in quanto gli invarianti non sono sempre in posizione iniziale.
      • Ridondanza degli invarianti: si applica la ridondanza anche ai template provenienti dallo stesso sito di appartenenza.
      • Ridondanza dei valori degli invarianti: aggiunta del dizionario Wordnet.
    Marco Cherubini - 24 Febbraio 2011
  • 14. Risultati sperimentali
      • Tutti gli esperimenti sono stati condotti, per ogni dominio di provenienza, su una scala di circa 1000-1500 di testi destrutturati e di circa 100-150 di template di pagine web
    Marco Cherubini - 24 Febbraio 2011
  • 15. Conclusioni
      • Necessità di automatizzare la creazione dei dizionari utilizzati da UIMA il quale è uno strumento assai funzionale per l’analisi dei testi e ne rende molto più agevoli lo studio.
      • Tramite l’analisi dei template delle pagine web risoluzione dell’automatizzazione della creazione dei dizionari utilizzati da UIMA.
      • Tramite l’analisi dei testi destrutturati raccolta di un numero sempre maggiore di risultati attendibili e non ricavabili dall’analisi dei template
    Marco Cherubini - 24 Febbraio 2011
  • 16. Sviluppi futuri
      • Vedere la risposta degli algoritmi ad altri differenti domini
      • Parallelizzare dove possibile gli algoritmi per rendere veloce l’esecuzione in presenza di un grande numero di input
      • Dare una misura oggettiva alla Recall nel caso dell’Analisi dei testi destrutturati
    Marco Cherubini - 24 Febbraio 2011
  • 17.
      • Grazie
      • per
      • l’attenzione