Tesi_slides

1. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Dalla Merged Italian Dependency Treebank ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale 21 giugno 2013 Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

2. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Concetti chiave Concetti chiave L’Information Extraction (IE) è il settore dell’informatica che si occupa dell’estrazione automatizzata di informazioni da testi. Si deﬁnisce corpus linguistico, una collezione grande e strutturata di testi usata per condurre ricerche liguistiche o per addestrare strumenti ad apprendimento automatico. Un corpus annotato che riguarda l’albero sintattico della frase prende il nome di treebank, il cui scopo principale è addestrare parser. Una treebank gold è una treebank (che può essere annotata automaticamente attraverso un parser) revisionata e corretta da annotatori umani. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

6. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Strumenti utilizzati Il parser DeSR e la treebank gold ISDT Il parser a dipendenze ad apprendimento automatico utilizzato nel progetto è DeSR (Dependency Shift Reduce) (Attardi, 2006), inserito nella pipeline linguistica TANL (Text Analytics and Natural Language). La treebank gold usata per addestrare il parser è ISDT (Italian Stanford Dependencies Treebank), treebank gold risultato della conversione nello standard delle Stanford Dependencies, attualmente in fase di veriﬁca, di MIDT (Merged Italian Dependencies Treebank). MIDT è risultato della fusione delle treebank gold di altri due progetti italiani. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

7. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Strumenti utilizzati Il parser DeSR e la treebank gold ISDT Il parser a dipendenze ad apprendimento automatico utilizzato nel progetto è DeSR (Dependency Shift Reduce) (Attardi, 2006), inserito nella pipeline linguistica TANL (Text Analytics and Natural Language). La treebank gold usata per addestrare il parser è ISDT (Italian Stanford Dependencies Treebank), treebank gold risultato della conversione nello standard delle Stanford Dependencies, attualmente in fase di veriﬁca, di MIDT (Merged Italian Dependencies Treebank). MIDT è risultato della fusione delle treebank gold di altri due progetti italiani. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

8. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Schema di annotazione a dipendenze Schema di annotazione a dipendenze L’operazione di parsing su una frase produce uno schema di annotazione a dipendenze corrispondente alla struttura di un albero (da cui il nome “treebank” per denotare banche dati di alberi). In generale, uno schema di annotazioni a dipendenze si rappresenta come un grafo orientato con archi etichettati, in cui i nodi sono le parole della frase e gli archi sono etichettati con le dipendenze. mangia Antonella mela nsubj dobj una det Figura: Schema a dipendenze relativo alla frase “Antonella mangia una mela” Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

9. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Le Stanford Dependencies Le Stanford Dependencies Le Stanford Dependencies (SD) sono uno stile di annotazione a dipendenze adottato anche da Google, sviluppato nel 2006 dal gruppo di ricerca di Natural Language Processing (NLP) dell’Università di Stanford, che si sta affermando come standard internazionale de facto. La notazione delle SD è stata pensata per essere comprensibile e utilizzabile anche da persone con scarse conoscenze linguistiche e per risultare utile e versatile nelle applicazioni in ambito dell’Information Extraction. Il sistema fornisce cinque output alternativi, che differiscono nel grado di dettaglio delle informazioni, che vanno dalla versione “basic” a quella “collapsed and propagated”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

12. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Progetto di tesi Lavoro svolto nell’ambito di una collaborazione con Google. Lo script sviluppato si integra nella pipeline linguistica TANL (preesistente) e consiste in uno strumento a sé stante che si colloca a valle del parser DeSR, a differenza del parser di Stanford che è un unico indivisibile progetto. Lo script è stato scritto in Python in quanto tale linguaggio permette di interfacciarsi facilmente con altri linguaggi di programmazione ed offre buone prestazioni; tale scelta è stata inoltre rafforzata dal fatto che altri componenti della pipeline linguistica TANL sono scritti in Python. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

15. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Fasi di elaborazione dello script Input: file in formato CoNLL, standard de facto relativo alla formattazione di file in pipeline linguistiche. ROOT-0 ROOT ordinò-7 Nel-1 tribunale-4 confisca-9 1944-2 il-3 di-5 la-8 totale-10 dei-11 Roma-6 beni-12 della-13 famiglia-14 Ciano-15 nn pobj pobj pobj prep prep prep prep pobj det det amod nsubj dobj Intermedio: grafo a dipendenze. Output: versione in triple “relazione(testa, dipendente)”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

16. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Problematiche relative alle specifiche delle Stanford Dependencies Si sono riscontrate difficoltà nel capire come venivano effettuate le manipolazioni delle strutture delle frasi nelle varie versioni, in quanto l’unica documentazione disponibile è un manuale descrittivo e non tecnico delle specifiche. Non è stato d’aiuto neppure leggere il codice del loro progetto in quanto troppo vasto, dispersivo e poco documentato. Si è arrivati alla teorizzazione delle trasformazioni delle strutture attraverso l’utilizzo del loro parser su frasi in lingua inglese con struttura simile all’italiano. Si è poi verificata la correttezza applicando le teorie formulate sulla treebank italiana. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

19. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Schema a dipendenze annotate secondo le Stanford Dependencies Parser di Stanford e versioni dell’output Il parser di Stanford offre la possibilità di generare l’output in una versione fra cinque disponibili. A seconda delle versioni, vengono effettuate diverse manipolazioni sulla struttura iniziale della frase, che si schematizzano come segue: Basic: non effettua alcuna manipolazione. Collapsed: la struttura ottenuta è un grafo orientato, in cui le dipendenze che riguardano preposizioni, congiunzioni, soggetti esterni di frasi subordinate e pronomi di frasi relative, sono fuse (collapsed) insieme al fine di ottenere dipendenze dirette fra token “pieni”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

20. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Schema a dipendenze annotate secondo le Stanford Dependencies Parser di Stanford e versioni dell’output Il parser di Stanford offre la possibilità di generare l’output in una versione fra cinque disponibili. A seconda delle versioni, vengono effettuate diverse manipolazioni sulla struttura iniziale della frase, che si schematizzano come segue: Basic: non effettua alcuna manipolazione. Collapsed: la struttura ottenuta è un grafo orientato, in cui le dipendenze che riguardano preposizioni, congiunzioni, soggetti esterni di frasi subordinate e pronomi di frasi relative, sono fuse (collapsed) insieme al fine di ottenere dipendenze dirette fra token “pieni”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

21. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Schema a dipendenze annotate secondo le Stanford Dependencies Parser di Stanford e versioni dell’output Collapsed and propagated: la struttura ottenuta è ancora un grafo orientato, in cui le dipendenze sono modiﬁcate come nella versione “collapsed” e in più, quando è presente una relazione di congiunzione, si propagano le dipendenze che riguardano il primo congiunto su tutti gli altri. Collapsed preservando la struttura ad albero: la struttura ottenuta è un albero, in cui solo le dipendenze che riguardano preposizioni e congiunzioni sono fuse insieme. No collapsed: la struttura ottenuta è un grafo orientato, in cui si aggiungono dipendenze che esplicitano il pronome relativo di una frase relativa e il soggetto esterno di una frase subordinata, non mostrate nella versione “basic” in quanto “rompevano” la struttura ad albero. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

24. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Sinossi delle operazioni dello script Sinossi delle operazioni dello script Per ogni frase all’interno del file, il procedimento di base dello script si suddivide nelle seguenti operazioni: leggere la frase; creare una struttura dati a grafo per poterne memorizzare le informazioni; manipolare tale struttura a seconda della versione di output scelta; visualizzare la struttura manipolata come triple; così fino al termine del file. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

29. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Esempi di manipolazioni sulla struttura delle frasi Esempi di manipolazioni sulla struttura delle frasi mangia Andrea mela nsubj dobj una det e cc pera una det conj (a) Versione “basic” mangia Andrea mela nsubj dobj una det pera una det conj_e (b) Versione “collapsed” mangia Andrea mela nsubj dobj una det pera una det conj_e dobj (c) Versione “collapsed and propagated” Figura: Schema a dipendenze relativo alla frase “Andrea mangia una mela e una pera”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

30. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Esempi di manipolazioni sulla struttura delle frasi Esempi di manipolazioni sulla struttura delle frasi va Roberto al nsubj prep mare pobj e cc in montagna pobj conj (a) Versione “basic” va Roberto mare nsubj prep_a montagna va' prep_in conj_e (b) Versione “collapsed” Figura: Schema a dipendenze relativo alla frase “Roberto va al mare e in montagna”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

31. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Caratteristiche dello script Caratteristiche dello script L’algoritmo esegue tutte le manipolazioni sulla struttura visitando ogni nodo una sola volta. Le relazioni di dipendenza che riguardano la punteggiatura non vengono visualizzate nell’output finale: per questo motivo, durante la creazione della struttura non vengono inserite. Lo script verrà principalmente utilizzato su file prodotti dal parser ed è in grado di segnalare errori di struttura delle frasi attraverso un file in cui si annota la riga del corpus in cui si è rilevato il problema ed il tipo di problema. Lo script funziona indipendentemente dalla lingua in quanto le dipendenze effettivamente manipolate (come congiunzioni, preposizioni, etc.) sono trasversali a più lingue. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

35. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Conclusioni Risultati ottenuti Lo script ha contribuito al rilevamento di errori nella treebank ISDT, dovuti all’annotatore umano o a casi particolari non trattati nelle successive conversioni che ha subito il corpus. L’analisi effettuata sulle SD ha contribuito alla comprensione del problema e al raffinamento della risorsa gold ISDT. Il software sviluppato ha dimostrato buone performance nell’elaborare il risultato finale, grazie all’algoritmo one-pass ideato. Limitatamente ai test effettuati su file in input, scritti in formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima resistenza agli errori. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

39. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Conclusioni Sviluppi futuri Nell’ottica di contribuire in maniera attiva al processo di conversione da MIDT a ISDT, il presente progetto si propone anche come un’importante ausilio nell’estrazione di informazioni e nelle applicazioni in ambito dell’IE. Lo script verrà integrato nella pipeline linguistica TANL ed è rilasciato, così come le risorse, con licenza Creative Commons. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

40. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliograﬁa Conclusioni Sviluppi futuri Nell’ottica di contribuire in maniera attiva al processo di conversione da MIDT a ISDT, il presente progetto si propone anche come un’importante ausilio nell’estrazione di informazioni e nelle applicazioni in ambito dell’IE. Lo script verrà integrato nella pipeline linguistica TANL ed è rilasciato, così come le risorse, con licenza Creative Commons. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

41. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Bibliografia Giuseppe Attardi, Experiments with a Multilanguage Non-Projective Dependency Parser, 2006. Cristina Bosco, Simonetta Montemagni and Maria Simi, Converting Italian Treebanks: Towards an Italian Stanford Dependency Treebank, figurerà in “The 7th Linguistic Annotation Workshop & Interoperability with Discourse”, Sofia, agosto 2013. Cristina Bosco, Simonetta Montemagni and Maria Simi, Harmonization and Merging of two Italian Dependency Treebanks, 2012. Sabine Buchholz and Erwin Marsi, CoNLL-X shared task on Multilingual Dependency Parsing, 2006. Katri Haverinen, Filip Ginter, Sampo Pyysalo and Tapio Salakoski, Accurate Conversion of Dependency Parses: Targeting the Stanford Scheme. Sandra Kübler, Ryan McDonald and Joakim Nivre, Dependency Parsing, 2009. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

42. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Bibliografia Marie-Catherine de Marneffe and Christopher D. Manning, Stanford typed dependencies manual, 2008. Marie-Catherine de Marneffe and Christopher D. Manning, The Stanford typed dependencies representation, 2008. Marie-Catherine de Marneffe, Bill MacCartney and Christopher D. Manning, Generating Typed Dependency Parses from Phrase Structure Parses, 2006. Sampo Pyysalo, Filip Ginter, Katri Haverinen, Veronika Laippala, Juho Heimonen and Tapio Salakoski, On the unification of syntactic annotations under the Stanford dependency scheme: A case study on BioInfer and GENIA, 2007. Colorless green ideas sleep furiously, http://g2discs.wikispaces.com. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

Tesi_slides

Recommended

Recommended

More Related Content

Similar to Tesi_slides

Similar to Tesi_slides (20)

Tesi_slides