1. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Dalla Merged Italian Dependency
Treebank ad una treebank italiana
annotata secondo lo standard delle
Stanford Dependencies
Roberta Montefusco
Università di Pisa - Tesi di Laurea Triennale
21 giugno 2013
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
2. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Concetti chiave
Concetti chiave
L’Information Extraction (IE) è il settore dell’informatica
che si occupa dell’estrazione automatizzata di informazioni da
testi.
Si definisce corpus linguistico, una collezione grande e
strutturata di testi usata per condurre ricerche liguistiche o
per addestrare strumenti ad apprendimento automatico.
Un corpus annotato che riguarda l’albero sintattico della frase
prende il nome di treebank, il cui scopo principale è
addestrare parser.
Una treebank gold è una treebank (che può essere annotata
automaticamente attraverso un parser) revisionata e corretta
da annotatori umani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
3. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Concetti chiave
Concetti chiave
L’Information Extraction (IE) è il settore dell’informatica
che si occupa dell’estrazione automatizzata di informazioni da
testi.
Si definisce corpus linguistico, una collezione grande e
strutturata di testi usata per condurre ricerche liguistiche o
per addestrare strumenti ad apprendimento automatico.
Un corpus annotato che riguarda l’albero sintattico della frase
prende il nome di treebank, il cui scopo principale è
addestrare parser.
Una treebank gold è una treebank (che può essere annotata
automaticamente attraverso un parser) revisionata e corretta
da annotatori umani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
4. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Concetti chiave
Concetti chiave
L’Information Extraction (IE) è il settore dell’informatica
che si occupa dell’estrazione automatizzata di informazioni da
testi.
Si definisce corpus linguistico, una collezione grande e
strutturata di testi usata per condurre ricerche liguistiche o
per addestrare strumenti ad apprendimento automatico.
Un corpus annotato che riguarda l’albero sintattico della frase
prende il nome di treebank, il cui scopo principale è
addestrare parser.
Una treebank gold è una treebank (che può essere annotata
automaticamente attraverso un parser) revisionata e corretta
da annotatori umani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
5. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Concetti chiave
Concetti chiave
L’Information Extraction (IE) è il settore dell’informatica
che si occupa dell’estrazione automatizzata di informazioni da
testi.
Si definisce corpus linguistico, una collezione grande e
strutturata di testi usata per condurre ricerche liguistiche o
per addestrare strumenti ad apprendimento automatico.
Un corpus annotato che riguarda l’albero sintattico della frase
prende il nome di treebank, il cui scopo principale è
addestrare parser.
Una treebank gold è una treebank (che può essere annotata
automaticamente attraverso un parser) revisionata e corretta
da annotatori umani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
6. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Strumenti utilizzati
Il parser DeSR e la treebank gold ISDT
Il parser a dipendenze ad apprendimento automatico utilizzato
nel progetto è DeSR (Dependency Shift Reduce) (Attardi,
2006), inserito nella pipeline linguistica TANL (Text Analytics
and Natural Language).
La treebank gold usata per addestrare il parser è ISDT
(Italian Stanford Dependencies Treebank), treebank gold
risultato della conversione nello standard delle Stanford
Dependencies, attualmente in fase di verifica, di MIDT
(Merged Italian Dependencies Treebank). MIDT è risultato
della fusione delle treebank gold di altri due progetti italiani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
7. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Strumenti utilizzati
Il parser DeSR e la treebank gold ISDT
Il parser a dipendenze ad apprendimento automatico utilizzato
nel progetto è DeSR (Dependency Shift Reduce) (Attardi,
2006), inserito nella pipeline linguistica TANL (Text Analytics
and Natural Language).
La treebank gold usata per addestrare il parser è ISDT
(Italian Stanford Dependencies Treebank), treebank gold
risultato della conversione nello standard delle Stanford
Dependencies, attualmente in fase di verifica, di MIDT
(Merged Italian Dependencies Treebank). MIDT è risultato
della fusione delle treebank gold di altri due progetti italiani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
8. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema di annotazione a dipendenze
Schema di annotazione a dipendenze
L’operazione di parsing su una frase produce uno schema di
annotazione a dipendenze corrispondente alla struttura di un albero
(da cui il nome “treebank” per denotare banche dati di alberi).
In generale, uno schema di annotazioni a dipendenze si rappresenta
come un grafo orientato con archi etichettati, in cui i nodi sono le
parole della frase e gli archi sono etichettati con le dipendenze.
mangia
Antonella mela
nsubj dobj
una
det
Figura: Schema a dipendenze relativo alla frase “Antonella mangia una mela”
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
9. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Le Stanford Dependencies
Le Stanford Dependencies
Le Stanford Dependencies (SD) sono uno stile di
annotazione a dipendenze adottato anche da Google,
sviluppato nel 2006 dal gruppo di ricerca di Natural Language
Processing (NLP) dell’Università di Stanford, che si sta
affermando come standard internazionale de facto.
La notazione delle SD è stata pensata per essere
comprensibile e utilizzabile anche da persone con scarse
conoscenze linguistiche e per risultare utile e versatile nelle
applicazioni in ambito dell’Information Extraction.
Il sistema fornisce cinque output alternativi, che differiscono
nel grado di dettaglio delle informazioni, che vanno dalla
versione “basic” a quella “collapsed and propagated”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
10. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Le Stanford Dependencies
Le Stanford Dependencies
Le Stanford Dependencies (SD) sono uno stile di
annotazione a dipendenze adottato anche da Google,
sviluppato nel 2006 dal gruppo di ricerca di Natural Language
Processing (NLP) dell’Università di Stanford, che si sta
affermando come standard internazionale de facto.
La notazione delle SD è stata pensata per essere
comprensibile e utilizzabile anche da persone con scarse
conoscenze linguistiche e per risultare utile e versatile nelle
applicazioni in ambito dell’Information Extraction.
Il sistema fornisce cinque output alternativi, che differiscono
nel grado di dettaglio delle informazioni, che vanno dalla
versione “basic” a quella “collapsed and propagated”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
11. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Le Stanford Dependencies
Le Stanford Dependencies
Le Stanford Dependencies (SD) sono uno stile di
annotazione a dipendenze adottato anche da Google,
sviluppato nel 2006 dal gruppo di ricerca di Natural Language
Processing (NLP) dell’Università di Stanford, che si sta
affermando come standard internazionale de facto.
La notazione delle SD è stata pensata per essere
comprensibile e utilizzabile anche da persone con scarse
conoscenze linguistiche e per risultare utile e versatile nelle
applicazioni in ambito dell’Information Extraction.
Il sistema fornisce cinque output alternativi, che differiscono
nel grado di dettaglio delle informazioni, che vanno dalla
versione “basic” a quella “collapsed and propagated”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
12. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Progetto di tesi
Lavoro svolto nell’ambito di una collaborazione con Google.
Lo script sviluppato si integra nella pipeline linguistica TANL
(preesistente) e consiste in uno strumento a sé stante che si
colloca a valle del parser DeSR, a differenza del parser di
Stanford che è un unico indivisibile progetto.
Lo script è stato scritto in Python in quanto tale linguaggio
permette di interfacciarsi facilmente con altri linguaggi di
programmazione ed offre buone prestazioni; tale scelta è stata
inoltre rafforzata dal fatto che altri componenti della pipeline
linguistica TANL sono scritti in Python.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
13. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Progetto di tesi
Lavoro svolto nell’ambito di una collaborazione con Google.
Lo script sviluppato si integra nella pipeline linguistica TANL
(preesistente) e consiste in uno strumento a sé stante che si
colloca a valle del parser DeSR, a differenza del parser di
Stanford che è un unico indivisibile progetto.
Lo script è stato scritto in Python in quanto tale linguaggio
permette di interfacciarsi facilmente con altri linguaggi di
programmazione ed offre buone prestazioni; tale scelta è stata
inoltre rafforzata dal fatto che altri componenti della pipeline
linguistica TANL sono scritti in Python.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
14. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Progetto di tesi
Lavoro svolto nell’ambito di una collaborazione con Google.
Lo script sviluppato si integra nella pipeline linguistica TANL
(preesistente) e consiste in uno strumento a sé stante che si
colloca a valle del parser DeSR, a differenza del parser di
Stanford che è un unico indivisibile progetto.
Lo script è stato scritto in Python in quanto tale linguaggio
permette di interfacciarsi facilmente con altri linguaggi di
programmazione ed offre buone prestazioni; tale scelta è stata
inoltre rafforzata dal fatto che altri componenti della pipeline
linguistica TANL sono scritti in Python.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
15. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Fasi di elaborazione dello script
Input: file in formato CoNLL, standard de facto relativo alla formattazione di file in pipeline linguistiche.
ROOT-0
ROOT
ordinò-7
Nel-1 tribunale-4 confisca-9
1944-2 il-3 di-5 la-8 totale-10 dei-11
Roma-6 beni-12
della-13
famiglia-14
Ciano-15
nn
pobj
pobj
pobj
prep
prep
prep
prep
pobj
det det amod
nsubj dobj
Intermedio: grafo a dipendenze. Output: versione in triple “relazione(testa, dipendente)”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
16. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Problematiche relative alle specifiche delle Stanford
Dependencies
Si sono riscontrate difficoltà nel capire come venivano effettuate le
manipolazioni delle strutture delle frasi nelle varie versioni, in
quanto l’unica documentazione disponibile è un manuale
descrittivo e non tecnico delle specifiche.
Non è stato d’aiuto neppure leggere il codice del loro progetto in
quanto troppo vasto, dispersivo e poco documentato.
Si è arrivati alla teorizzazione delle trasformazioni delle
strutture attraverso l’utilizzo del loro parser su frasi in lingua
inglese con struttura simile all’italiano.
Si è poi verificata la correttezza applicando le teorie formulate
sulla treebank italiana.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
17. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Problematiche relative alle specifiche delle Stanford
Dependencies
Si sono riscontrate difficoltà nel capire come venivano effettuate le
manipolazioni delle strutture delle frasi nelle varie versioni, in
quanto l’unica documentazione disponibile è un manuale
descrittivo e non tecnico delle specifiche.
Non è stato d’aiuto neppure leggere il codice del loro progetto in
quanto troppo vasto, dispersivo e poco documentato.
Si è arrivati alla teorizzazione delle trasformazioni delle
strutture attraverso l’utilizzo del loro parser su frasi in lingua
inglese con struttura simile all’italiano.
Si è poi verificata la correttezza applicando le teorie formulate
sulla treebank italiana.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
18. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Problematiche relative alle specifiche delle Stanford
Dependencies
Si sono riscontrate difficoltà nel capire come venivano effettuate le
manipolazioni delle strutture delle frasi nelle varie versioni, in
quanto l’unica documentazione disponibile è un manuale
descrittivo e non tecnico delle specifiche.
Non è stato d’aiuto neppure leggere il codice del loro progetto in
quanto troppo vasto, dispersivo e poco documentato.
Si è arrivati alla teorizzazione delle trasformazioni delle
strutture attraverso l’utilizzo del loro parser su frasi in lingua
inglese con struttura simile all’italiano.
Si è poi verificata la correttezza applicando le teorie formulate
sulla treebank italiana.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
19. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Il parser di Stanford offre la possibilità di generare l’output in una
versione fra cinque disponibili.
A seconda delle versioni, vengono effettuate diverse manipolazioni
sulla struttura iniziale della frase, che si schematizzano come
segue:
Basic: non effettua alcuna manipolazione.
Collapsed: la struttura ottenuta è un grafo orientato, in cui le
dipendenze che riguardano preposizioni, congiunzioni, soggetti
esterni di frasi subordinate e pronomi di frasi relative, sono
fuse (collapsed) insieme al fine di ottenere dipendenze dirette
fra token “pieni”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
20. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Il parser di Stanford offre la possibilità di generare l’output in una
versione fra cinque disponibili.
A seconda delle versioni, vengono effettuate diverse manipolazioni
sulla struttura iniziale della frase, che si schematizzano come
segue:
Basic: non effettua alcuna manipolazione.
Collapsed: la struttura ottenuta è un grafo orientato, in cui le
dipendenze che riguardano preposizioni, congiunzioni, soggetti
esterni di frasi subordinate e pronomi di frasi relative, sono
fuse (collapsed) insieme al fine di ottenere dipendenze dirette
fra token “pieni”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
21. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Collapsed and propagated: la struttura ottenuta è ancora
un grafo orientato, in cui le dipendenze sono modificate come
nella versione “collapsed” e in più, quando è presente una
relazione di congiunzione, si propagano le dipendenze che
riguardano il primo congiunto su tutti gli altri.
Collapsed preservando la struttura ad albero: la struttura
ottenuta è un albero, in cui solo le dipendenze che riguardano
preposizioni e congiunzioni sono fuse insieme.
No collapsed: la struttura ottenuta è un grafo orientato, in
cui si aggiungono dipendenze che esplicitano il pronome
relativo di una frase relativa e il soggetto esterno di una frase
subordinata, non mostrate nella versione “basic” in quanto
“rompevano” la struttura ad albero.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
22. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Collapsed and propagated: la struttura ottenuta è ancora
un grafo orientato, in cui le dipendenze sono modificate come
nella versione “collapsed” e in più, quando è presente una
relazione di congiunzione, si propagano le dipendenze che
riguardano il primo congiunto su tutti gli altri.
Collapsed preservando la struttura ad albero: la struttura
ottenuta è un albero, in cui solo le dipendenze che riguardano
preposizioni e congiunzioni sono fuse insieme.
No collapsed: la struttura ottenuta è un grafo orientato, in
cui si aggiungono dipendenze che esplicitano il pronome
relativo di una frase relativa e il soggetto esterno di una frase
subordinata, non mostrate nella versione “basic” in quanto
“rompevano” la struttura ad albero.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
23. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Collapsed and propagated: la struttura ottenuta è ancora
un grafo orientato, in cui le dipendenze sono modificate come
nella versione “collapsed” e in più, quando è presente una
relazione di congiunzione, si propagano le dipendenze che
riguardano il primo congiunto su tutti gli altri.
Collapsed preservando la struttura ad albero: la struttura
ottenuta è un albero, in cui solo le dipendenze che riguardano
preposizioni e congiunzioni sono fuse insieme.
No collapsed: la struttura ottenuta è un grafo orientato, in
cui si aggiungono dipendenze che esplicitano il pronome
relativo di una frase relativa e il soggetto esterno di una frase
subordinata, non mostrate nella versione “basic” in quanto
“rompevano” la struttura ad albero.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
24. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
25. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
26. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
27. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
28. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
29. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Esempi di manipolazioni sulla struttura delle frasi
Esempi di manipolazioni sulla struttura delle frasi
mangia
Andrea mela
nsubj dobj
una
det
e
cc
pera
una
det
conj
(a) Versione “basic”
mangia
Andrea mela
nsubj dobj
una
det
pera
una
det
conj_e
(b) Versione “collapsed”
mangia
Andrea mela
nsubj dobj
una
det
pera
una
det
conj_e
dobj
(c) Versione “collapsed
and propagated”
Figura: Schema a dipendenze relativo alla frase “Andrea mangia una mela e una pera”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
30. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Esempi di manipolazioni sulla struttura delle frasi
Esempi di manipolazioni sulla struttura delle frasi
va
Roberto al
nsubj prep
mare
pobj
e
cc
in
montagna
pobj
conj
(a) Versione “basic”
va
Roberto mare
nsubj prep_a
montagna
va'
prep_in
conj_e
(b) Versione “collapsed”
Figura: Schema a dipendenze relativo alla frase “Roberto va al mare e in montagna”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
31. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Caratteristiche dello script
Caratteristiche dello script
L’algoritmo esegue tutte le manipolazioni sulla struttura
visitando ogni nodo una sola volta.
Le relazioni di dipendenza che riguardano la punteggiatura non
vengono visualizzate nell’output finale: per questo motivo,
durante la creazione della struttura non vengono inserite.
Lo script verrà principalmente utilizzato su file prodotti dal
parser ed è in grado di segnalare errori di struttura delle frasi
attraverso un file in cui si annota la riga del corpus in cui si è
rilevato il problema ed il tipo di problema.
Lo script funziona indipendentemente dalla lingua in quanto le
dipendenze effettivamente manipolate (come congiunzioni,
preposizioni, etc.) sono trasversali a più lingue.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
32. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Caratteristiche dello script
Caratteristiche dello script
L’algoritmo esegue tutte le manipolazioni sulla struttura
visitando ogni nodo una sola volta.
Le relazioni di dipendenza che riguardano la punteggiatura non
vengono visualizzate nell’output finale: per questo motivo,
durante la creazione della struttura non vengono inserite.
Lo script verrà principalmente utilizzato su file prodotti dal
parser ed è in grado di segnalare errori di struttura delle frasi
attraverso un file in cui si annota la riga del corpus in cui si è
rilevato il problema ed il tipo di problema.
Lo script funziona indipendentemente dalla lingua in quanto le
dipendenze effettivamente manipolate (come congiunzioni,
preposizioni, etc.) sono trasversali a più lingue.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
33. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Caratteristiche dello script
Caratteristiche dello script
L’algoritmo esegue tutte le manipolazioni sulla struttura
visitando ogni nodo una sola volta.
Le relazioni di dipendenza che riguardano la punteggiatura non
vengono visualizzate nell’output finale: per questo motivo,
durante la creazione della struttura non vengono inserite.
Lo script verrà principalmente utilizzato su file prodotti dal
parser ed è in grado di segnalare errori di struttura delle frasi
attraverso un file in cui si annota la riga del corpus in cui si è
rilevato il problema ed il tipo di problema.
Lo script funziona indipendentemente dalla lingua in quanto le
dipendenze effettivamente manipolate (come congiunzioni,
preposizioni, etc.) sono trasversali a più lingue.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
34. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Caratteristiche dello script
Caratteristiche dello script
L’algoritmo esegue tutte le manipolazioni sulla struttura
visitando ogni nodo una sola volta.
Le relazioni di dipendenza che riguardano la punteggiatura non
vengono visualizzate nell’output finale: per questo motivo,
durante la creazione della struttura non vengono inserite.
Lo script verrà principalmente utilizzato su file prodotti dal
parser ed è in grado di segnalare errori di struttura delle frasi
attraverso un file in cui si annota la riga del corpus in cui si è
rilevato il problema ed il tipo di problema.
Lo script funziona indipendentemente dalla lingua in quanto le
dipendenze effettivamente manipolate (come congiunzioni,
preposizioni, etc.) sono trasversali a più lingue.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
35. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Risultati ottenuti
Lo script ha contribuito al rilevamento di errori nella treebank
ISDT, dovuti all’annotatore umano o a casi particolari non
trattati nelle successive conversioni che ha subito il corpus.
L’analisi effettuata sulle SD ha contribuito alla comprensione
del problema e al raffinamento della risorsa gold ISDT.
Il software sviluppato ha dimostrato buone performance
nell’elaborare il risultato finale, grazie all’algoritmo one-pass
ideato.
Limitatamente ai test effettuati su file in input, scritti in
formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima
resistenza agli errori.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
36. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Risultati ottenuti
Lo script ha contribuito al rilevamento di errori nella treebank
ISDT, dovuti all’annotatore umano o a casi particolari non
trattati nelle successive conversioni che ha subito il corpus.
L’analisi effettuata sulle SD ha contribuito alla comprensione
del problema e al raffinamento della risorsa gold ISDT.
Il software sviluppato ha dimostrato buone performance
nell’elaborare il risultato finale, grazie all’algoritmo one-pass
ideato.
Limitatamente ai test effettuati su file in input, scritti in
formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima
resistenza agli errori.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
37. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Risultati ottenuti
Lo script ha contribuito al rilevamento di errori nella treebank
ISDT, dovuti all’annotatore umano o a casi particolari non
trattati nelle successive conversioni che ha subito il corpus.
L’analisi effettuata sulle SD ha contribuito alla comprensione
del problema e al raffinamento della risorsa gold ISDT.
Il software sviluppato ha dimostrato buone performance
nell’elaborare il risultato finale, grazie all’algoritmo one-pass
ideato.
Limitatamente ai test effettuati su file in input, scritti in
formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima
resistenza agli errori.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
38. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Risultati ottenuti
Lo script ha contribuito al rilevamento di errori nella treebank
ISDT, dovuti all’annotatore umano o a casi particolari non
trattati nelle successive conversioni che ha subito il corpus.
L’analisi effettuata sulle SD ha contribuito alla comprensione
del problema e al raffinamento della risorsa gold ISDT.
Il software sviluppato ha dimostrato buone performance
nell’elaborare il risultato finale, grazie all’algoritmo one-pass
ideato.
Limitatamente ai test effettuati su file in input, scritti in
formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima
resistenza agli errori.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
39. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Sviluppi futuri
Nell’ottica di contribuire in maniera attiva al processo di
conversione da MIDT a ISDT, il presente progetto si propone
anche come un’importante ausilio nell’estrazione di
informazioni e nelle applicazioni in ambito dell’IE.
Lo script verrà integrato nella pipeline linguistica TANL ed è
rilasciato, così come le risorse, con licenza Creative Commons.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
40. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Sviluppi futuri
Nell’ottica di contribuire in maniera attiva al processo di
conversione da MIDT a ISDT, il presente progetto si propone
anche come un’importante ausilio nell’estrazione di
informazioni e nelle applicazioni in ambito dell’IE.
Lo script verrà integrato nella pipeline linguistica TANL ed è
rilasciato, così come le risorse, con licenza Creative Commons.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
41. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Bibliografia
Giuseppe Attardi,
Experiments with a Multilanguage Non-Projective Dependency Parser,
2006.
Cristina Bosco, Simonetta Montemagni and Maria Simi,
Converting Italian Treebanks: Towards an Italian Stanford Dependency
Treebank, figurerà in “The 7th Linguistic Annotation Workshop &
Interoperability with Discourse”, Sofia, agosto 2013.
Cristina Bosco, Simonetta Montemagni and Maria Simi,
Harmonization and Merging of two Italian Dependency Treebanks, 2012.
Sabine Buchholz and Erwin Marsi,
CoNLL-X shared task on Multilingual Dependency Parsing, 2006.
Katri Haverinen, Filip Ginter, Sampo Pyysalo and Tapio Salakoski,
Accurate Conversion of Dependency Parses: Targeting the Stanford
Scheme.
Sandra Kübler, Ryan McDonald and Joakim Nivre,
Dependency Parsing, 2009.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
42. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Bibliografia
Marie-Catherine de Marneffe and Christopher D. Manning,
Stanford typed dependencies manual, 2008.
Marie-Catherine de Marneffe and Christopher D. Manning,
The Stanford typed dependencies representation, 2008.
Marie-Catherine de Marneffe, Bill MacCartney and Christopher D.
Manning,
Generating Typed Dependency Parses from Phrase Structure Parses,
2006.
Sampo Pyysalo, Filip Ginter, Katri Haverinen, Veronika Laippala, Juho
Heimonen and Tapio Salakoski,
On the unification of syntactic annotations under the Stanford
dependency scheme: A case study on BioInfer and GENIA, 2007.
Colorless green ideas sleep furiously,
http://g2discs.wikispaces.com.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies