SlideShare a Scribd company logo
1 of 42
Download to read offline
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Dalla Merged Italian Dependency
Treebank ad una treebank italiana
annotata secondo lo standard delle
Stanford Dependencies
Roberta Montefusco
Università di Pisa - Tesi di Laurea Triennale
21 giugno 2013
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Concetti chiave
Concetti chiave
L’Information Extraction (IE) è il settore dell’informatica
che si occupa dell’estrazione automatizzata di informazioni da
testi.
Si definisce corpus linguistico, una collezione grande e
strutturata di testi usata per condurre ricerche liguistiche o
per addestrare strumenti ad apprendimento automatico.
Un corpus annotato che riguarda l’albero sintattico della frase
prende il nome di treebank, il cui scopo principale è
addestrare parser.
Una treebank gold è una treebank (che può essere annotata
automaticamente attraverso un parser) revisionata e corretta
da annotatori umani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Concetti chiave
Concetti chiave
L’Information Extraction (IE) è il settore dell’informatica
che si occupa dell’estrazione automatizzata di informazioni da
testi.
Si definisce corpus linguistico, una collezione grande e
strutturata di testi usata per condurre ricerche liguistiche o
per addestrare strumenti ad apprendimento automatico.
Un corpus annotato che riguarda l’albero sintattico della frase
prende il nome di treebank, il cui scopo principale è
addestrare parser.
Una treebank gold è una treebank (che può essere annotata
automaticamente attraverso un parser) revisionata e corretta
da annotatori umani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Concetti chiave
Concetti chiave
L’Information Extraction (IE) è il settore dell’informatica
che si occupa dell’estrazione automatizzata di informazioni da
testi.
Si definisce corpus linguistico, una collezione grande e
strutturata di testi usata per condurre ricerche liguistiche o
per addestrare strumenti ad apprendimento automatico.
Un corpus annotato che riguarda l’albero sintattico della frase
prende il nome di treebank, il cui scopo principale è
addestrare parser.
Una treebank gold è una treebank (che può essere annotata
automaticamente attraverso un parser) revisionata e corretta
da annotatori umani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Concetti chiave
Concetti chiave
L’Information Extraction (IE) è il settore dell’informatica
che si occupa dell’estrazione automatizzata di informazioni da
testi.
Si definisce corpus linguistico, una collezione grande e
strutturata di testi usata per condurre ricerche liguistiche o
per addestrare strumenti ad apprendimento automatico.
Un corpus annotato che riguarda l’albero sintattico della frase
prende il nome di treebank, il cui scopo principale è
addestrare parser.
Una treebank gold è una treebank (che può essere annotata
automaticamente attraverso un parser) revisionata e corretta
da annotatori umani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Strumenti utilizzati
Il parser DeSR e la treebank gold ISDT
Il parser a dipendenze ad apprendimento automatico utilizzato
nel progetto è DeSR (Dependency Shift Reduce) (Attardi,
2006), inserito nella pipeline linguistica TANL (Text Analytics
and Natural Language).
La treebank gold usata per addestrare il parser è ISDT
(Italian Stanford Dependencies Treebank), treebank gold
risultato della conversione nello standard delle Stanford
Dependencies, attualmente in fase di verifica, di MIDT
(Merged Italian Dependencies Treebank). MIDT è risultato
della fusione delle treebank gold di altri due progetti italiani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Strumenti utilizzati
Il parser DeSR e la treebank gold ISDT
Il parser a dipendenze ad apprendimento automatico utilizzato
nel progetto è DeSR (Dependency Shift Reduce) (Attardi,
2006), inserito nella pipeline linguistica TANL (Text Analytics
and Natural Language).
La treebank gold usata per addestrare il parser è ISDT
(Italian Stanford Dependencies Treebank), treebank gold
risultato della conversione nello standard delle Stanford
Dependencies, attualmente in fase di verifica, di MIDT
(Merged Italian Dependencies Treebank). MIDT è risultato
della fusione delle treebank gold di altri due progetti italiani.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema di annotazione a dipendenze
Schema di annotazione a dipendenze
L’operazione di parsing su una frase produce uno schema di
annotazione a dipendenze corrispondente alla struttura di un albero
(da cui il nome “treebank” per denotare banche dati di alberi).
In generale, uno schema di annotazioni a dipendenze si rappresenta
come un grafo orientato con archi etichettati, in cui i nodi sono le
parole della frase e gli archi sono etichettati con le dipendenze.
mangia
Antonella mela
nsubj dobj
una
det
Figura: Schema a dipendenze relativo alla frase “Antonella mangia una mela”
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Le Stanford Dependencies
Le Stanford Dependencies
Le Stanford Dependencies (SD) sono uno stile di
annotazione a dipendenze adottato anche da Google,
sviluppato nel 2006 dal gruppo di ricerca di Natural Language
Processing (NLP) dell’Università di Stanford, che si sta
affermando come standard internazionale de facto.
La notazione delle SD è stata pensata per essere
comprensibile e utilizzabile anche da persone con scarse
conoscenze linguistiche e per risultare utile e versatile nelle
applicazioni in ambito dell’Information Extraction.
Il sistema fornisce cinque output alternativi, che differiscono
nel grado di dettaglio delle informazioni, che vanno dalla
versione “basic” a quella “collapsed and propagated”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Le Stanford Dependencies
Le Stanford Dependencies
Le Stanford Dependencies (SD) sono uno stile di
annotazione a dipendenze adottato anche da Google,
sviluppato nel 2006 dal gruppo di ricerca di Natural Language
Processing (NLP) dell’Università di Stanford, che si sta
affermando come standard internazionale de facto.
La notazione delle SD è stata pensata per essere
comprensibile e utilizzabile anche da persone con scarse
conoscenze linguistiche e per risultare utile e versatile nelle
applicazioni in ambito dell’Information Extraction.
Il sistema fornisce cinque output alternativi, che differiscono
nel grado di dettaglio delle informazioni, che vanno dalla
versione “basic” a quella “collapsed and propagated”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Le Stanford Dependencies
Le Stanford Dependencies
Le Stanford Dependencies (SD) sono uno stile di
annotazione a dipendenze adottato anche da Google,
sviluppato nel 2006 dal gruppo di ricerca di Natural Language
Processing (NLP) dell’Università di Stanford, che si sta
affermando come standard internazionale de facto.
La notazione delle SD è stata pensata per essere
comprensibile e utilizzabile anche da persone con scarse
conoscenze linguistiche e per risultare utile e versatile nelle
applicazioni in ambito dell’Information Extraction.
Il sistema fornisce cinque output alternativi, che differiscono
nel grado di dettaglio delle informazioni, che vanno dalla
versione “basic” a quella “collapsed and propagated”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Progetto di tesi
Lavoro svolto nell’ambito di una collaborazione con Google.
Lo script sviluppato si integra nella pipeline linguistica TANL
(preesistente) e consiste in uno strumento a sé stante che si
colloca a valle del parser DeSR, a differenza del parser di
Stanford che è un unico indivisibile progetto.
Lo script è stato scritto in Python in quanto tale linguaggio
permette di interfacciarsi facilmente con altri linguaggi di
programmazione ed offre buone prestazioni; tale scelta è stata
inoltre rafforzata dal fatto che altri componenti della pipeline
linguistica TANL sono scritti in Python.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Progetto di tesi
Lavoro svolto nell’ambito di una collaborazione con Google.
Lo script sviluppato si integra nella pipeline linguistica TANL
(preesistente) e consiste in uno strumento a sé stante che si
colloca a valle del parser DeSR, a differenza del parser di
Stanford che è un unico indivisibile progetto.
Lo script è stato scritto in Python in quanto tale linguaggio
permette di interfacciarsi facilmente con altri linguaggi di
programmazione ed offre buone prestazioni; tale scelta è stata
inoltre rafforzata dal fatto che altri componenti della pipeline
linguistica TANL sono scritti in Python.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Progetto di tesi
Lavoro svolto nell’ambito di una collaborazione con Google.
Lo script sviluppato si integra nella pipeline linguistica TANL
(preesistente) e consiste in uno strumento a sé stante che si
colloca a valle del parser DeSR, a differenza del parser di
Stanford che è un unico indivisibile progetto.
Lo script è stato scritto in Python in quanto tale linguaggio
permette di interfacciarsi facilmente con altri linguaggi di
programmazione ed offre buone prestazioni; tale scelta è stata
inoltre rafforzata dal fatto che altri componenti della pipeline
linguistica TANL sono scritti in Python.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Fasi di elaborazione dello script
Input: file in formato CoNLL, standard de facto relativo alla formattazione di file in pipeline linguistiche.
ROOT-0
ROOT
ordinò-7
Nel-1 tribunale-4 confisca-9
1944-2 il-3 di-5 la-8 totale-10 dei-11
Roma-6 beni-12
della-13
famiglia-14
Ciano-15
nn
pobj
pobj
pobj
prep
prep
prep
prep
pobj
det det amod
nsubj dobj
Intermedio: grafo a dipendenze. Output: versione in triple “relazione(testa, dipendente)”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Problematiche relative alle specifiche delle Stanford
Dependencies
Si sono riscontrate difficoltà nel capire come venivano effettuate le
manipolazioni delle strutture delle frasi nelle varie versioni, in
quanto l’unica documentazione disponibile è un manuale
descrittivo e non tecnico delle specifiche.
Non è stato d’aiuto neppure leggere il codice del loro progetto in
quanto troppo vasto, dispersivo e poco documentato.
Si è arrivati alla teorizzazione delle trasformazioni delle
strutture attraverso l’utilizzo del loro parser su frasi in lingua
inglese con struttura simile all’italiano.
Si è poi verificata la correttezza applicando le teorie formulate
sulla treebank italiana.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Problematiche relative alle specifiche delle Stanford
Dependencies
Si sono riscontrate difficoltà nel capire come venivano effettuate le
manipolazioni delle strutture delle frasi nelle varie versioni, in
quanto l’unica documentazione disponibile è un manuale
descrittivo e non tecnico delle specifiche.
Non è stato d’aiuto neppure leggere il codice del loro progetto in
quanto troppo vasto, dispersivo e poco documentato.
Si è arrivati alla teorizzazione delle trasformazioni delle
strutture attraverso l’utilizzo del loro parser su frasi in lingua
inglese con struttura simile all’italiano.
Si è poi verificata la correttezza applicando le teorie formulate
sulla treebank italiana.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Progetto di tesi
Problematiche relative alle specifiche delle Stanford
Dependencies
Si sono riscontrate difficoltà nel capire come venivano effettuate le
manipolazioni delle strutture delle frasi nelle varie versioni, in
quanto l’unica documentazione disponibile è un manuale
descrittivo e non tecnico delle specifiche.
Non è stato d’aiuto neppure leggere il codice del loro progetto in
quanto troppo vasto, dispersivo e poco documentato.
Si è arrivati alla teorizzazione delle trasformazioni delle
strutture attraverso l’utilizzo del loro parser su frasi in lingua
inglese con struttura simile all’italiano.
Si è poi verificata la correttezza applicando le teorie formulate
sulla treebank italiana.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Il parser di Stanford offre la possibilità di generare l’output in una
versione fra cinque disponibili.
A seconda delle versioni, vengono effettuate diverse manipolazioni
sulla struttura iniziale della frase, che si schematizzano come
segue:
Basic: non effettua alcuna manipolazione.
Collapsed: la struttura ottenuta è un grafo orientato, in cui le
dipendenze che riguardano preposizioni, congiunzioni, soggetti
esterni di frasi subordinate e pronomi di frasi relative, sono
fuse (collapsed) insieme al fine di ottenere dipendenze dirette
fra token “pieni”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Il parser di Stanford offre la possibilità di generare l’output in una
versione fra cinque disponibili.
A seconda delle versioni, vengono effettuate diverse manipolazioni
sulla struttura iniziale della frase, che si schematizzano come
segue:
Basic: non effettua alcuna manipolazione.
Collapsed: la struttura ottenuta è un grafo orientato, in cui le
dipendenze che riguardano preposizioni, congiunzioni, soggetti
esterni di frasi subordinate e pronomi di frasi relative, sono
fuse (collapsed) insieme al fine di ottenere dipendenze dirette
fra token “pieni”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Collapsed and propagated: la struttura ottenuta è ancora
un grafo orientato, in cui le dipendenze sono modificate come
nella versione “collapsed” e in più, quando è presente una
relazione di congiunzione, si propagano le dipendenze che
riguardano il primo congiunto su tutti gli altri.
Collapsed preservando la struttura ad albero: la struttura
ottenuta è un albero, in cui solo le dipendenze che riguardano
preposizioni e congiunzioni sono fuse insieme.
No collapsed: la struttura ottenuta è un grafo orientato, in
cui si aggiungono dipendenze che esplicitano il pronome
relativo di una frase relativa e il soggetto esterno di una frase
subordinata, non mostrate nella versione “basic” in quanto
“rompevano” la struttura ad albero.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Collapsed and propagated: la struttura ottenuta è ancora
un grafo orientato, in cui le dipendenze sono modificate come
nella versione “collapsed” e in più, quando è presente una
relazione di congiunzione, si propagano le dipendenze che
riguardano il primo congiunto su tutti gli altri.
Collapsed preservando la struttura ad albero: la struttura
ottenuta è un albero, in cui solo le dipendenze che riguardano
preposizioni e congiunzioni sono fuse insieme.
No collapsed: la struttura ottenuta è un grafo orientato, in
cui si aggiungono dipendenze che esplicitano il pronome
relativo di una frase relativa e il soggetto esterno di una frase
subordinata, non mostrate nella versione “basic” in quanto
“rompevano” la struttura ad albero.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Schema a dipendenze annotate secondo le Stanford Dependencies
Parser di Stanford e versioni dell’output
Collapsed and propagated: la struttura ottenuta è ancora
un grafo orientato, in cui le dipendenze sono modificate come
nella versione “collapsed” e in più, quando è presente una
relazione di congiunzione, si propagano le dipendenze che
riguardano il primo congiunto su tutti gli altri.
Collapsed preservando la struttura ad albero: la struttura
ottenuta è un albero, in cui solo le dipendenze che riguardano
preposizioni e congiunzioni sono fuse insieme.
No collapsed: la struttura ottenuta è un grafo orientato, in
cui si aggiungono dipendenze che esplicitano il pronome
relativo di una frase relativa e il soggetto esterno di una frase
subordinata, non mostrate nella versione “basic” in quanto
“rompevano” la struttura ad albero.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Sinossi delle operazioni dello script
Sinossi delle operazioni dello script
Per ogni frase all’interno del file, il procedimento di base dello
script si suddivide nelle seguenti operazioni:
leggere la frase;
creare una struttura dati a grafo per poterne memorizzare le
informazioni;
manipolare tale struttura a seconda della versione di output
scelta;
visualizzare la struttura manipolata come triple;
così fino al termine del file.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Esempi di manipolazioni sulla struttura delle frasi
Esempi di manipolazioni sulla struttura delle frasi
mangia
Andrea mela
nsubj dobj
una
det
e
cc
pera
una
det
conj
(a) Versione “basic”
mangia
Andrea mela
nsubj dobj
una
det
pera
una
det
conj_e
(b) Versione “collapsed”
mangia
Andrea mela
nsubj dobj
una
det
pera
una
det
conj_e
dobj
(c) Versione “collapsed
and propagated”
Figura: Schema a dipendenze relativo alla frase “Andrea mangia una mela e una pera”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Esempi di manipolazioni sulla struttura delle frasi
Esempi di manipolazioni sulla struttura delle frasi
va
Roberto al
nsubj prep
mare
pobj
e
cc
in
montagna
pobj
conj
(a) Versione “basic”
va
Roberto mare
nsubj prep_a
montagna
va'
prep_in
conj_e
(b) Versione “collapsed”
Figura: Schema a dipendenze relativo alla frase “Roberto va al mare e in montagna”.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Caratteristiche dello script
Caratteristiche dello script
L’algoritmo esegue tutte le manipolazioni sulla struttura
visitando ogni nodo una sola volta.
Le relazioni di dipendenza che riguardano la punteggiatura non
vengono visualizzate nell’output finale: per questo motivo,
durante la creazione della struttura non vengono inserite.
Lo script verrà principalmente utilizzato su file prodotti dal
parser ed è in grado di segnalare errori di struttura delle frasi
attraverso un file in cui si annota la riga del corpus in cui si è
rilevato il problema ed il tipo di problema.
Lo script funziona indipendentemente dalla lingua in quanto le
dipendenze effettivamente manipolate (come congiunzioni,
preposizioni, etc.) sono trasversali a più lingue.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Caratteristiche dello script
Caratteristiche dello script
L’algoritmo esegue tutte le manipolazioni sulla struttura
visitando ogni nodo una sola volta.
Le relazioni di dipendenza che riguardano la punteggiatura non
vengono visualizzate nell’output finale: per questo motivo,
durante la creazione della struttura non vengono inserite.
Lo script verrà principalmente utilizzato su file prodotti dal
parser ed è in grado di segnalare errori di struttura delle frasi
attraverso un file in cui si annota la riga del corpus in cui si è
rilevato il problema ed il tipo di problema.
Lo script funziona indipendentemente dalla lingua in quanto le
dipendenze effettivamente manipolate (come congiunzioni,
preposizioni, etc.) sono trasversali a più lingue.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Caratteristiche dello script
Caratteristiche dello script
L’algoritmo esegue tutte le manipolazioni sulla struttura
visitando ogni nodo una sola volta.
Le relazioni di dipendenza che riguardano la punteggiatura non
vengono visualizzate nell’output finale: per questo motivo,
durante la creazione della struttura non vengono inserite.
Lo script verrà principalmente utilizzato su file prodotti dal
parser ed è in grado di segnalare errori di struttura delle frasi
attraverso un file in cui si annota la riga del corpus in cui si è
rilevato il problema ed il tipo di problema.
Lo script funziona indipendentemente dalla lingua in quanto le
dipendenze effettivamente manipolate (come congiunzioni,
preposizioni, etc.) sono trasversali a più lingue.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Caratteristiche dello script
Caratteristiche dello script
L’algoritmo esegue tutte le manipolazioni sulla struttura
visitando ogni nodo una sola volta.
Le relazioni di dipendenza che riguardano la punteggiatura non
vengono visualizzate nell’output finale: per questo motivo,
durante la creazione della struttura non vengono inserite.
Lo script verrà principalmente utilizzato su file prodotti dal
parser ed è in grado di segnalare errori di struttura delle frasi
attraverso un file in cui si annota la riga del corpus in cui si è
rilevato il problema ed il tipo di problema.
Lo script funziona indipendentemente dalla lingua in quanto le
dipendenze effettivamente manipolate (come congiunzioni,
preposizioni, etc.) sono trasversali a più lingue.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Risultati ottenuti
Lo script ha contribuito al rilevamento di errori nella treebank
ISDT, dovuti all’annotatore umano o a casi particolari non
trattati nelle successive conversioni che ha subito il corpus.
L’analisi effettuata sulle SD ha contribuito alla comprensione
del problema e al raffinamento della risorsa gold ISDT.
Il software sviluppato ha dimostrato buone performance
nell’elaborare il risultato finale, grazie all’algoritmo one-pass
ideato.
Limitatamente ai test effettuati su file in input, scritti in
formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima
resistenza agli errori.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Risultati ottenuti
Lo script ha contribuito al rilevamento di errori nella treebank
ISDT, dovuti all’annotatore umano o a casi particolari non
trattati nelle successive conversioni che ha subito il corpus.
L’analisi effettuata sulle SD ha contribuito alla comprensione
del problema e al raffinamento della risorsa gold ISDT.
Il software sviluppato ha dimostrato buone performance
nell’elaborare il risultato finale, grazie all’algoritmo one-pass
ideato.
Limitatamente ai test effettuati su file in input, scritti in
formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima
resistenza agli errori.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Risultati ottenuti
Lo script ha contribuito al rilevamento di errori nella treebank
ISDT, dovuti all’annotatore umano o a casi particolari non
trattati nelle successive conversioni che ha subito il corpus.
L’analisi effettuata sulle SD ha contribuito alla comprensione
del problema e al raffinamento della risorsa gold ISDT.
Il software sviluppato ha dimostrato buone performance
nell’elaborare il risultato finale, grazie all’algoritmo one-pass
ideato.
Limitatamente ai test effettuati su file in input, scritti in
formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima
resistenza agli errori.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Risultati ottenuti
Lo script ha contribuito al rilevamento di errori nella treebank
ISDT, dovuti all’annotatore umano o a casi particolari non
trattati nelle successive conversioni che ha subito il corpus.
L’analisi effettuata sulle SD ha contribuito alla comprensione
del problema e al raffinamento della risorsa gold ISDT.
Il software sviluppato ha dimostrato buone performance
nell’elaborare il risultato finale, grazie all’algoritmo one-pass
ideato.
Limitatamente ai test effettuati su file in input, scritti in
formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima
resistenza agli errori.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Sviluppi futuri
Nell’ottica di contribuire in maniera attiva al processo di
conversione da MIDT a ISDT, il presente progetto si propone
anche come un’importante ausilio nell’estrazione di
informazioni e nelle applicazioni in ambito dell’IE.
Lo script verrà integrato nella pipeline linguistica TANL ed è
rilasciato, così come le risorse, con licenza Creative Commons.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Conclusioni
Sviluppi futuri
Nell’ottica di contribuire in maniera attiva al processo di
conversione da MIDT a ISDT, il presente progetto si propone
anche come un’importante ausilio nell’estrazione di
informazioni e nelle applicazioni in ambito dell’IE.
Lo script verrà integrato nella pipeline linguistica TANL ed è
rilasciato, così come le risorse, con licenza Creative Commons.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Bibliografia
Giuseppe Attardi,
Experiments with a Multilanguage Non-Projective Dependency Parser,
2006.
Cristina Bosco, Simonetta Montemagni and Maria Simi,
Converting Italian Treebanks: Towards an Italian Stanford Dependency
Treebank, figurerà in “The 7th Linguistic Annotation Workshop &
Interoperability with Discourse”, Sofia, agosto 2013.
Cristina Bosco, Simonetta Montemagni and Maria Simi,
Harmonization and Merging of two Italian Dependency Treebanks, 2012.
Sabine Buchholz and Erwin Marsi,
CoNLL-X shared task on Multilingual Dependency Parsing, 2006.
Katri Haverinen, Filip Ginter, Sampo Pyysalo and Tapio Salakoski,
Accurate Conversion of Dependency Parses: Targeting the Stanford
Scheme.
Sandra Kübler, Ryan McDonald and Joakim Nivre,
Dependency Parsing, 2009.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia
Bibliografia
Marie-Catherine de Marneffe and Christopher D. Manning,
Stanford typed dependencies manual, 2008.
Marie-Catherine de Marneffe and Christopher D. Manning,
The Stanford typed dependencies representation, 2008.
Marie-Catherine de Marneffe, Bill MacCartney and Christopher D.
Manning,
Generating Typed Dependency Parses from Phrase Structure Parses,
2006.
Sampo Pyysalo, Filip Ginter, Katri Haverinen, Veronika Laippala, Juho
Heimonen and Tapio Salakoski,
On the unification of syntactic annotations under the Stanford
dependency scheme: A case study on BioInfer and GENIA, 2007.
Colorless green ideas sleep furiously,
http://g2discs.wikispaces.com.
Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale
Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies

More Related Content

Similar to Tesi_slides

L'ontologia dei contratti pubblici nella rete di ontologie OntoPiA
L'ontologia dei contratti pubblici nella rete di ontologie OntoPiAL'ontologia dei contratti pubblici nella rete di ontologie OntoPiA
L'ontologia dei contratti pubblici nella rete di ontologie OntoPiAGiorgia Lodi
 
Software bill of materials: strumenti e analisi di progetti open source dell’...
Software bill of materials: strumenti e analisi di progetti open source dell’...Software bill of materials: strumenti e analisi di progetti open source dell’...
Software bill of materials: strumenti e analisi di progetti open source dell’...FedericoBoni3
 
DSpace per la conservazione di oggetti digitali: breve introduzione.
DSpace per la conservazione di oggetti digitali:  breve introduzione.DSpace per la conservazione di oggetti digitali:  breve introduzione.
DSpace per la conservazione di oggetti digitali: breve introduzione.Lucia Bertini
 
Uso di Moodle nell'apprendimento linguistico
Uso di Moodle nell'apprendimento linguisticoUso di Moodle nell'apprendimento linguistico
Uso di Moodle nell'apprendimento linguisticoFrancesco Scolastra
 
I servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAusI servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAusNet7
 
Convegno ArCo - Architettura della Conoscenza
Convegno ArCo - Architettura della ConoscenzaConvegno ArCo - Architettura della Conoscenza
Convegno ArCo - Architettura della ConoscenzaArcoProject
 
Introduzione a R
Introduzione a RIntroduzione a R
Introduzione a RMCalderisi
 
i-BIO_verifica_ispettiva_20_marzo_2014
i-BIO_verifica_ispettiva_20_marzo_2014i-BIO_verifica_ispettiva_20_marzo_2014
i-BIO_verifica_ispettiva_20_marzo_2014Massimo Natale
 
Interoperabilità semantica: metadatazione e ontologie per la PA
Interoperabilità semantica: metadatazione e ontologie per la PAInteroperabilità semantica: metadatazione e ontologie per la PA
Interoperabilità semantica: metadatazione e ontologie per la PAGiorgia Lodi
 
InsulaR: una comunità cagliaritana di utenti di R
InsulaR: una comunità cagliaritana di utenti di RInsulaR: una comunità cagliaritana di utenti di R
InsulaR: una comunità cagliaritana di utenti di RDavide Massidda
 
InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)
InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)
InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)Francesco Cabiddu
 
SplunkLive! Rome 2015 - La Sapienza
SplunkLive! Rome 2015 - La SapienzaSplunkLive! Rome 2015 - La Sapienza
SplunkLive! Rome 2015 - La SapienzaSplunk
 
COACH - Un workbench per l'analisi dei testi e l'estrazione di termini
COACH - Un workbench per l'analisi dei testi e l'estrazione di terminiCOACH - Un workbench per l'analisi dei testi e l'estrazione di termini
COACH - Un workbench per l'analisi dei testi e l'estrazione di terminiPlone for Research and University
 
Digitalizzazione di documenti
Digitalizzazione di documentiDigitalizzazione di documenti
Digitalizzazione di documentiandreadigrazia
 

Similar to Tesi_slides (20)

Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della...
Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della...Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della...
Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della...
 
L'ontologia dei contratti pubblici nella rete di ontologie OntoPiA
L'ontologia dei contratti pubblici nella rete di ontologie OntoPiAL'ontologia dei contratti pubblici nella rete di ontologie OntoPiA
L'ontologia dei contratti pubblici nella rete di ontologie OntoPiA
 
Software bill of materials: strumenti e analisi di progetti open source dell’...
Software bill of materials: strumenti e analisi di progetti open source dell’...Software bill of materials: strumenti e analisi di progetti open source dell’...
Software bill of materials: strumenti e analisi di progetti open source dell’...
 
DSpace per la conservazione di oggetti digitali: breve introduzione.
DSpace per la conservazione di oggetti digitali:  breve introduzione.DSpace per la conservazione di oggetti digitali:  breve introduzione.
DSpace per la conservazione di oggetti digitali: breve introduzione.
 
IJCoL
IJCoLIJCoL
IJCoL
 
Uso di Moodle nell'apprendimento linguistico
Uso di Moodle nell'apprendimento linguisticoUso di Moodle nell'apprendimento linguistico
Uso di Moodle nell'apprendimento linguistico
 
Smart api
Smart apiSmart api
Smart api
 
I servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAusI servizi semantici di analisi testuale nel progetto SenTaClAus
I servizi semantici di analisi testuale nel progetto SenTaClAus
 
Convegno ArCo - Architettura della Conoscenza
Convegno ArCo - Architettura della ConoscenzaConvegno ArCo - Architettura della Conoscenza
Convegno ArCo - Architettura della Conoscenza
 
Introduzione a R
Introduzione a RIntroduzione a R
Introduzione a R
 
i-BIO_verifica_ispettiva_20_marzo_2014
i-BIO_verifica_ispettiva_20_marzo_2014i-BIO_verifica_ispettiva_20_marzo_2014
i-BIO_verifica_ispettiva_20_marzo_2014
 
Pycon
PyconPycon
Pycon
 
Interoperabilità semantica: metadatazione e ontologie per la PA
Interoperabilità semantica: metadatazione e ontologie per la PAInteroperabilità semantica: metadatazione e ontologie per la PA
Interoperabilità semantica: metadatazione e ontologie per la PA
 
InsulaR: una comunità cagliaritana di utenti di R
InsulaR: una comunità cagliaritana di utenti di RInsulaR: una comunità cagliaritana di utenti di R
InsulaR: una comunità cagliaritana di utenti di R
 
InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)
InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)
InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda)
 
iGnosis
iGnosisiGnosis
iGnosis
 
SplunkLive! Rome 2015 - La Sapienza
SplunkLive! Rome 2015 - La SapienzaSplunkLive! Rome 2015 - La Sapienza
SplunkLive! Rome 2015 - La Sapienza
 
COACH - Un workbench per l'analisi dei testi e l'estrazione di termini
COACH - Un workbench per l'analisi dei testi e l'estrazione di terminiCOACH - Un workbench per l'analisi dei testi e l'estrazione di termini
COACH - Un workbench per l'analisi dei testi e l'estrazione di termini
 
Digitalizzazione di documenti
Digitalizzazione di documentiDigitalizzazione di documenti
Digitalizzazione di documenti
 
2006 Py01 intro
2006 Py01 intro2006 Py01 intro
2006 Py01 intro
 

Tesi_slides

  • 1. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Dalla Merged Italian Dependency Treebank ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale 21 giugno 2013 Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 2. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Concetti chiave Concetti chiave L’Information Extraction (IE) è il settore dell’informatica che si occupa dell’estrazione automatizzata di informazioni da testi. Si definisce corpus linguistico, una collezione grande e strutturata di testi usata per condurre ricerche liguistiche o per addestrare strumenti ad apprendimento automatico. Un corpus annotato che riguarda l’albero sintattico della frase prende il nome di treebank, il cui scopo principale è addestrare parser. Una treebank gold è una treebank (che può essere annotata automaticamente attraverso un parser) revisionata e corretta da annotatori umani. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 3. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Concetti chiave Concetti chiave L’Information Extraction (IE) è il settore dell’informatica che si occupa dell’estrazione automatizzata di informazioni da testi. Si definisce corpus linguistico, una collezione grande e strutturata di testi usata per condurre ricerche liguistiche o per addestrare strumenti ad apprendimento automatico. Un corpus annotato che riguarda l’albero sintattico della frase prende il nome di treebank, il cui scopo principale è addestrare parser. Una treebank gold è una treebank (che può essere annotata automaticamente attraverso un parser) revisionata e corretta da annotatori umani. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 4. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Concetti chiave Concetti chiave L’Information Extraction (IE) è il settore dell’informatica che si occupa dell’estrazione automatizzata di informazioni da testi. Si definisce corpus linguistico, una collezione grande e strutturata di testi usata per condurre ricerche liguistiche o per addestrare strumenti ad apprendimento automatico. Un corpus annotato che riguarda l’albero sintattico della frase prende il nome di treebank, il cui scopo principale è addestrare parser. Una treebank gold è una treebank (che può essere annotata automaticamente attraverso un parser) revisionata e corretta da annotatori umani. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 5. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Concetti chiave Concetti chiave L’Information Extraction (IE) è il settore dell’informatica che si occupa dell’estrazione automatizzata di informazioni da testi. Si definisce corpus linguistico, una collezione grande e strutturata di testi usata per condurre ricerche liguistiche o per addestrare strumenti ad apprendimento automatico. Un corpus annotato che riguarda l’albero sintattico della frase prende il nome di treebank, il cui scopo principale è addestrare parser. Una treebank gold è una treebank (che può essere annotata automaticamente attraverso un parser) revisionata e corretta da annotatori umani. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 6. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Strumenti utilizzati Il parser DeSR e la treebank gold ISDT Il parser a dipendenze ad apprendimento automatico utilizzato nel progetto è DeSR (Dependency Shift Reduce) (Attardi, 2006), inserito nella pipeline linguistica TANL (Text Analytics and Natural Language). La treebank gold usata per addestrare il parser è ISDT (Italian Stanford Dependencies Treebank), treebank gold risultato della conversione nello standard delle Stanford Dependencies, attualmente in fase di verifica, di MIDT (Merged Italian Dependencies Treebank). MIDT è risultato della fusione delle treebank gold di altri due progetti italiani. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 7. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Strumenti utilizzati Il parser DeSR e la treebank gold ISDT Il parser a dipendenze ad apprendimento automatico utilizzato nel progetto è DeSR (Dependency Shift Reduce) (Attardi, 2006), inserito nella pipeline linguistica TANL (Text Analytics and Natural Language). La treebank gold usata per addestrare il parser è ISDT (Italian Stanford Dependencies Treebank), treebank gold risultato della conversione nello standard delle Stanford Dependencies, attualmente in fase di verifica, di MIDT (Merged Italian Dependencies Treebank). MIDT è risultato della fusione delle treebank gold di altri due progetti italiani. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 8. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Schema di annotazione a dipendenze Schema di annotazione a dipendenze L’operazione di parsing su una frase produce uno schema di annotazione a dipendenze corrispondente alla struttura di un albero (da cui il nome “treebank” per denotare banche dati di alberi). In generale, uno schema di annotazioni a dipendenze si rappresenta come un grafo orientato con archi etichettati, in cui i nodi sono le parole della frase e gli archi sono etichettati con le dipendenze. mangia Antonella mela nsubj dobj una det Figura: Schema a dipendenze relativo alla frase “Antonella mangia una mela” Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 9. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Le Stanford Dependencies Le Stanford Dependencies Le Stanford Dependencies (SD) sono uno stile di annotazione a dipendenze adottato anche da Google, sviluppato nel 2006 dal gruppo di ricerca di Natural Language Processing (NLP) dell’Università di Stanford, che si sta affermando come standard internazionale de facto. La notazione delle SD è stata pensata per essere comprensibile e utilizzabile anche da persone con scarse conoscenze linguistiche e per risultare utile e versatile nelle applicazioni in ambito dell’Information Extraction. Il sistema fornisce cinque output alternativi, che differiscono nel grado di dettaglio delle informazioni, che vanno dalla versione “basic” a quella “collapsed and propagated”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 10. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Le Stanford Dependencies Le Stanford Dependencies Le Stanford Dependencies (SD) sono uno stile di annotazione a dipendenze adottato anche da Google, sviluppato nel 2006 dal gruppo di ricerca di Natural Language Processing (NLP) dell’Università di Stanford, che si sta affermando come standard internazionale de facto. La notazione delle SD è stata pensata per essere comprensibile e utilizzabile anche da persone con scarse conoscenze linguistiche e per risultare utile e versatile nelle applicazioni in ambito dell’Information Extraction. Il sistema fornisce cinque output alternativi, che differiscono nel grado di dettaglio delle informazioni, che vanno dalla versione “basic” a quella “collapsed and propagated”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 11. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Le Stanford Dependencies Le Stanford Dependencies Le Stanford Dependencies (SD) sono uno stile di annotazione a dipendenze adottato anche da Google, sviluppato nel 2006 dal gruppo di ricerca di Natural Language Processing (NLP) dell’Università di Stanford, che si sta affermando come standard internazionale de facto. La notazione delle SD è stata pensata per essere comprensibile e utilizzabile anche da persone con scarse conoscenze linguistiche e per risultare utile e versatile nelle applicazioni in ambito dell’Information Extraction. Il sistema fornisce cinque output alternativi, che differiscono nel grado di dettaglio delle informazioni, che vanno dalla versione “basic” a quella “collapsed and propagated”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 12. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Progetto di tesi Lavoro svolto nell’ambito di una collaborazione con Google. Lo script sviluppato si integra nella pipeline linguistica TANL (preesistente) e consiste in uno strumento a sé stante che si colloca a valle del parser DeSR, a differenza del parser di Stanford che è un unico indivisibile progetto. Lo script è stato scritto in Python in quanto tale linguaggio permette di interfacciarsi facilmente con altri linguaggi di programmazione ed offre buone prestazioni; tale scelta è stata inoltre rafforzata dal fatto che altri componenti della pipeline linguistica TANL sono scritti in Python. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 13. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Progetto di tesi Lavoro svolto nell’ambito di una collaborazione con Google. Lo script sviluppato si integra nella pipeline linguistica TANL (preesistente) e consiste in uno strumento a sé stante che si colloca a valle del parser DeSR, a differenza del parser di Stanford che è un unico indivisibile progetto. Lo script è stato scritto in Python in quanto tale linguaggio permette di interfacciarsi facilmente con altri linguaggi di programmazione ed offre buone prestazioni; tale scelta è stata inoltre rafforzata dal fatto che altri componenti della pipeline linguistica TANL sono scritti in Python. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 14. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Progetto di tesi Lavoro svolto nell’ambito di una collaborazione con Google. Lo script sviluppato si integra nella pipeline linguistica TANL (preesistente) e consiste in uno strumento a sé stante che si colloca a valle del parser DeSR, a differenza del parser di Stanford che è un unico indivisibile progetto. Lo script è stato scritto in Python in quanto tale linguaggio permette di interfacciarsi facilmente con altri linguaggi di programmazione ed offre buone prestazioni; tale scelta è stata inoltre rafforzata dal fatto che altri componenti della pipeline linguistica TANL sono scritti in Python. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 15. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Fasi di elaborazione dello script Input: file in formato CoNLL, standard de facto relativo alla formattazione di file in pipeline linguistiche. ROOT-0 ROOT ordinò-7 Nel-1 tribunale-4 confisca-9 1944-2 il-3 di-5 la-8 totale-10 dei-11 Roma-6 beni-12 della-13 famiglia-14 Ciano-15 nn pobj pobj pobj prep prep prep prep pobj det det amod nsubj dobj Intermedio: grafo a dipendenze. Output: versione in triple “relazione(testa, dipendente)”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 16. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Problematiche relative alle specifiche delle Stanford Dependencies Si sono riscontrate difficoltà nel capire come venivano effettuate le manipolazioni delle strutture delle frasi nelle varie versioni, in quanto l’unica documentazione disponibile è un manuale descrittivo e non tecnico delle specifiche. Non è stato d’aiuto neppure leggere il codice del loro progetto in quanto troppo vasto, dispersivo e poco documentato. Si è arrivati alla teorizzazione delle trasformazioni delle strutture attraverso l’utilizzo del loro parser su frasi in lingua inglese con struttura simile all’italiano. Si è poi verificata la correttezza applicando le teorie formulate sulla treebank italiana. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 17. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Problematiche relative alle specifiche delle Stanford Dependencies Si sono riscontrate difficoltà nel capire come venivano effettuate le manipolazioni delle strutture delle frasi nelle varie versioni, in quanto l’unica documentazione disponibile è un manuale descrittivo e non tecnico delle specifiche. Non è stato d’aiuto neppure leggere il codice del loro progetto in quanto troppo vasto, dispersivo e poco documentato. Si è arrivati alla teorizzazione delle trasformazioni delle strutture attraverso l’utilizzo del loro parser su frasi in lingua inglese con struttura simile all’italiano. Si è poi verificata la correttezza applicando le teorie formulate sulla treebank italiana. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 18. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Progetto di tesi Problematiche relative alle specifiche delle Stanford Dependencies Si sono riscontrate difficoltà nel capire come venivano effettuate le manipolazioni delle strutture delle frasi nelle varie versioni, in quanto l’unica documentazione disponibile è un manuale descrittivo e non tecnico delle specifiche. Non è stato d’aiuto neppure leggere il codice del loro progetto in quanto troppo vasto, dispersivo e poco documentato. Si è arrivati alla teorizzazione delle trasformazioni delle strutture attraverso l’utilizzo del loro parser su frasi in lingua inglese con struttura simile all’italiano. Si è poi verificata la correttezza applicando le teorie formulate sulla treebank italiana. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 19. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Schema a dipendenze annotate secondo le Stanford Dependencies Parser di Stanford e versioni dell’output Il parser di Stanford offre la possibilità di generare l’output in una versione fra cinque disponibili. A seconda delle versioni, vengono effettuate diverse manipolazioni sulla struttura iniziale della frase, che si schematizzano come segue: Basic: non effettua alcuna manipolazione. Collapsed: la struttura ottenuta è un grafo orientato, in cui le dipendenze che riguardano preposizioni, congiunzioni, soggetti esterni di frasi subordinate e pronomi di frasi relative, sono fuse (collapsed) insieme al fine di ottenere dipendenze dirette fra token “pieni”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 20. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Schema a dipendenze annotate secondo le Stanford Dependencies Parser di Stanford e versioni dell’output Il parser di Stanford offre la possibilità di generare l’output in una versione fra cinque disponibili. A seconda delle versioni, vengono effettuate diverse manipolazioni sulla struttura iniziale della frase, che si schematizzano come segue: Basic: non effettua alcuna manipolazione. Collapsed: la struttura ottenuta è un grafo orientato, in cui le dipendenze che riguardano preposizioni, congiunzioni, soggetti esterni di frasi subordinate e pronomi di frasi relative, sono fuse (collapsed) insieme al fine di ottenere dipendenze dirette fra token “pieni”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 21. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Schema a dipendenze annotate secondo le Stanford Dependencies Parser di Stanford e versioni dell’output Collapsed and propagated: la struttura ottenuta è ancora un grafo orientato, in cui le dipendenze sono modificate come nella versione “collapsed” e in più, quando è presente una relazione di congiunzione, si propagano le dipendenze che riguardano il primo congiunto su tutti gli altri. Collapsed preservando la struttura ad albero: la struttura ottenuta è un albero, in cui solo le dipendenze che riguardano preposizioni e congiunzioni sono fuse insieme. No collapsed: la struttura ottenuta è un grafo orientato, in cui si aggiungono dipendenze che esplicitano il pronome relativo di una frase relativa e il soggetto esterno di una frase subordinata, non mostrate nella versione “basic” in quanto “rompevano” la struttura ad albero. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 22. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Schema a dipendenze annotate secondo le Stanford Dependencies Parser di Stanford e versioni dell’output Collapsed and propagated: la struttura ottenuta è ancora un grafo orientato, in cui le dipendenze sono modificate come nella versione “collapsed” e in più, quando è presente una relazione di congiunzione, si propagano le dipendenze che riguardano il primo congiunto su tutti gli altri. Collapsed preservando la struttura ad albero: la struttura ottenuta è un albero, in cui solo le dipendenze che riguardano preposizioni e congiunzioni sono fuse insieme. No collapsed: la struttura ottenuta è un grafo orientato, in cui si aggiungono dipendenze che esplicitano il pronome relativo di una frase relativa e il soggetto esterno di una frase subordinata, non mostrate nella versione “basic” in quanto “rompevano” la struttura ad albero. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 23. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Schema a dipendenze annotate secondo le Stanford Dependencies Parser di Stanford e versioni dell’output Collapsed and propagated: la struttura ottenuta è ancora un grafo orientato, in cui le dipendenze sono modificate come nella versione “collapsed” e in più, quando è presente una relazione di congiunzione, si propagano le dipendenze che riguardano il primo congiunto su tutti gli altri. Collapsed preservando la struttura ad albero: la struttura ottenuta è un albero, in cui solo le dipendenze che riguardano preposizioni e congiunzioni sono fuse insieme. No collapsed: la struttura ottenuta è un grafo orientato, in cui si aggiungono dipendenze che esplicitano il pronome relativo di una frase relativa e il soggetto esterno di una frase subordinata, non mostrate nella versione “basic” in quanto “rompevano” la struttura ad albero. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 24. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Sinossi delle operazioni dello script Sinossi delle operazioni dello script Per ogni frase all’interno del file, il procedimento di base dello script si suddivide nelle seguenti operazioni: leggere la frase; creare una struttura dati a grafo per poterne memorizzare le informazioni; manipolare tale struttura a seconda della versione di output scelta; visualizzare la struttura manipolata come triple; così fino al termine del file. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 25. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Sinossi delle operazioni dello script Sinossi delle operazioni dello script Per ogni frase all’interno del file, il procedimento di base dello script si suddivide nelle seguenti operazioni: leggere la frase; creare una struttura dati a grafo per poterne memorizzare le informazioni; manipolare tale struttura a seconda della versione di output scelta; visualizzare la struttura manipolata come triple; così fino al termine del file. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 26. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Sinossi delle operazioni dello script Sinossi delle operazioni dello script Per ogni frase all’interno del file, il procedimento di base dello script si suddivide nelle seguenti operazioni: leggere la frase; creare una struttura dati a grafo per poterne memorizzare le informazioni; manipolare tale struttura a seconda della versione di output scelta; visualizzare la struttura manipolata come triple; così fino al termine del file. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 27. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Sinossi delle operazioni dello script Sinossi delle operazioni dello script Per ogni frase all’interno del file, il procedimento di base dello script si suddivide nelle seguenti operazioni: leggere la frase; creare una struttura dati a grafo per poterne memorizzare le informazioni; manipolare tale struttura a seconda della versione di output scelta; visualizzare la struttura manipolata come triple; così fino al termine del file. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 28. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Sinossi delle operazioni dello script Sinossi delle operazioni dello script Per ogni frase all’interno del file, il procedimento di base dello script si suddivide nelle seguenti operazioni: leggere la frase; creare una struttura dati a grafo per poterne memorizzare le informazioni; manipolare tale struttura a seconda della versione di output scelta; visualizzare la struttura manipolata come triple; così fino al termine del file. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 29. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Esempi di manipolazioni sulla struttura delle frasi Esempi di manipolazioni sulla struttura delle frasi mangia Andrea mela nsubj dobj una det e cc pera una det conj (a) Versione “basic” mangia Andrea mela nsubj dobj una det pera una det conj_e (b) Versione “collapsed” mangia Andrea mela nsubj dobj una det pera una det conj_e dobj (c) Versione “collapsed and propagated” Figura: Schema a dipendenze relativo alla frase “Andrea mangia una mela e una pera”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 30. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Esempi di manipolazioni sulla struttura delle frasi Esempi di manipolazioni sulla struttura delle frasi va Roberto al nsubj prep mare pobj e cc in montagna pobj conj (a) Versione “basic” va Roberto mare nsubj prep_a montagna va' prep_in conj_e (b) Versione “collapsed” Figura: Schema a dipendenze relativo alla frase “Roberto va al mare e in montagna”. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 31. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Caratteristiche dello script Caratteristiche dello script L’algoritmo esegue tutte le manipolazioni sulla struttura visitando ogni nodo una sola volta. Le relazioni di dipendenza che riguardano la punteggiatura non vengono visualizzate nell’output finale: per questo motivo, durante la creazione della struttura non vengono inserite. Lo script verrà principalmente utilizzato su file prodotti dal parser ed è in grado di segnalare errori di struttura delle frasi attraverso un file in cui si annota la riga del corpus in cui si è rilevato il problema ed il tipo di problema. Lo script funziona indipendentemente dalla lingua in quanto le dipendenze effettivamente manipolate (come congiunzioni, preposizioni, etc.) sono trasversali a più lingue. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 32. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Caratteristiche dello script Caratteristiche dello script L’algoritmo esegue tutte le manipolazioni sulla struttura visitando ogni nodo una sola volta. Le relazioni di dipendenza che riguardano la punteggiatura non vengono visualizzate nell’output finale: per questo motivo, durante la creazione della struttura non vengono inserite. Lo script verrà principalmente utilizzato su file prodotti dal parser ed è in grado di segnalare errori di struttura delle frasi attraverso un file in cui si annota la riga del corpus in cui si è rilevato il problema ed il tipo di problema. Lo script funziona indipendentemente dalla lingua in quanto le dipendenze effettivamente manipolate (come congiunzioni, preposizioni, etc.) sono trasversali a più lingue. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 33. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Caratteristiche dello script Caratteristiche dello script L’algoritmo esegue tutte le manipolazioni sulla struttura visitando ogni nodo una sola volta. Le relazioni di dipendenza che riguardano la punteggiatura non vengono visualizzate nell’output finale: per questo motivo, durante la creazione della struttura non vengono inserite. Lo script verrà principalmente utilizzato su file prodotti dal parser ed è in grado di segnalare errori di struttura delle frasi attraverso un file in cui si annota la riga del corpus in cui si è rilevato il problema ed il tipo di problema. Lo script funziona indipendentemente dalla lingua in quanto le dipendenze effettivamente manipolate (come congiunzioni, preposizioni, etc.) sono trasversali a più lingue. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 34. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Caratteristiche dello script Caratteristiche dello script L’algoritmo esegue tutte le manipolazioni sulla struttura visitando ogni nodo una sola volta. Le relazioni di dipendenza che riguardano la punteggiatura non vengono visualizzate nell’output finale: per questo motivo, durante la creazione della struttura non vengono inserite. Lo script verrà principalmente utilizzato su file prodotti dal parser ed è in grado di segnalare errori di struttura delle frasi attraverso un file in cui si annota la riga del corpus in cui si è rilevato il problema ed il tipo di problema. Lo script funziona indipendentemente dalla lingua in quanto le dipendenze effettivamente manipolate (come congiunzioni, preposizioni, etc.) sono trasversali a più lingue. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 35. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Conclusioni Risultati ottenuti Lo script ha contribuito al rilevamento di errori nella treebank ISDT, dovuti all’annotatore umano o a casi particolari non trattati nelle successive conversioni che ha subito il corpus. L’analisi effettuata sulle SD ha contribuito alla comprensione del problema e al raffinamento della risorsa gold ISDT. Il software sviluppato ha dimostrato buone performance nell’elaborare il risultato finale, grazie all’algoritmo one-pass ideato. Limitatamente ai test effettuati su file in input, scritti in formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima resistenza agli errori. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 36. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Conclusioni Risultati ottenuti Lo script ha contribuito al rilevamento di errori nella treebank ISDT, dovuti all’annotatore umano o a casi particolari non trattati nelle successive conversioni che ha subito il corpus. L’analisi effettuata sulle SD ha contribuito alla comprensione del problema e al raffinamento della risorsa gold ISDT. Il software sviluppato ha dimostrato buone performance nell’elaborare il risultato finale, grazie all’algoritmo one-pass ideato. Limitatamente ai test effettuati su file in input, scritti in formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima resistenza agli errori. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 37. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Conclusioni Risultati ottenuti Lo script ha contribuito al rilevamento di errori nella treebank ISDT, dovuti all’annotatore umano o a casi particolari non trattati nelle successive conversioni che ha subito il corpus. L’analisi effettuata sulle SD ha contribuito alla comprensione del problema e al raffinamento della risorsa gold ISDT. Il software sviluppato ha dimostrato buone performance nell’elaborare il risultato finale, grazie all’algoritmo one-pass ideato. Limitatamente ai test effettuati su file in input, scritti in formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima resistenza agli errori. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 38. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Conclusioni Risultati ottenuti Lo script ha contribuito al rilevamento di errori nella treebank ISDT, dovuti all’annotatore umano o a casi particolari non trattati nelle successive conversioni che ha subito il corpus. L’analisi effettuata sulle SD ha contribuito alla comprensione del problema e al raffinamento della risorsa gold ISDT. Il software sviluppato ha dimostrato buone performance nell’elaborare il risultato finale, grazie all’algoritmo one-pass ideato. Limitatamente ai test effettuati su file in input, scritti in formato CoNLL corretto, l’algoritmo ha dimostrato un’ottima resistenza agli errori. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 39. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Conclusioni Sviluppi futuri Nell’ottica di contribuire in maniera attiva al processo di conversione da MIDT a ISDT, il presente progetto si propone anche come un’importante ausilio nell’estrazione di informazioni e nelle applicazioni in ambito dell’IE. Lo script verrà integrato nella pipeline linguistica TANL ed è rilasciato, così come le risorse, con licenza Creative Commons. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 40. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Conclusioni Sviluppi futuri Nell’ottica di contribuire in maniera attiva al processo di conversione da MIDT a ISDT, il presente progetto si propone anche come un’importante ausilio nell’estrazione di informazioni e nelle applicazioni in ambito dell’IE. Lo script verrà integrato nella pipeline linguistica TANL ed è rilasciato, così come le risorse, con licenza Creative Commons. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 41. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Bibliografia Giuseppe Attardi, Experiments with a Multilanguage Non-Projective Dependency Parser, 2006. Cristina Bosco, Simonetta Montemagni and Maria Simi, Converting Italian Treebanks: Towards an Italian Stanford Dependency Treebank, figurerà in “The 7th Linguistic Annotation Workshop & Interoperability with Discourse”, Sofia, agosto 2013. Cristina Bosco, Simonetta Montemagni and Maria Simi, Harmonization and Merging of two Italian Dependency Treebanks, 2012. Sabine Buchholz and Erwin Marsi, CoNLL-X shared task on Multilingual Dependency Parsing, 2006. Katri Haverinen, Filip Ginter, Sampo Pyysalo and Tapio Salakoski, Accurate Conversion of Dependency Parses: Targeting the Stanford Scheme. Sandra Kübler, Ryan McDonald and Joakim Nivre, Dependency Parsing, 2009. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies
  • 42. Introduzione Sinossi del progetto Algoritmo Conclusioni Bibliografia Bibliografia Marie-Catherine de Marneffe and Christopher D. Manning, Stanford typed dependencies manual, 2008. Marie-Catherine de Marneffe and Christopher D. Manning, The Stanford typed dependencies representation, 2008. Marie-Catherine de Marneffe, Bill MacCartney and Christopher D. Manning, Generating Typed Dependency Parses from Phrase Structure Parses, 2006. Sampo Pyysalo, Filip Ginter, Katri Haverinen, Veronika Laippala, Juho Heimonen and Tapio Salakoski, On the unification of syntactic annotations under the Stanford dependency scheme: A case study on BioInfer and GENIA, 2007. Colorless green ideas sleep furiously, http://g2discs.wikispaces.com. Roberta Montefusco Università di Pisa - Tesi di Laurea Triennale Da MIDT ad una treebank italiana annotata secondo lo standard delle Stanford Dependencies