2. Sommario
Sfide
Annotazione morfo-sintattica e
semantica automatica del
Corpus
Trasformazione del Corpus in (o
in una risorsa di) un Vocabolario
Vocabolario da
Corpus
Definizioni e Struttura delle Voci:
Opzioni possibili
Prototipi
Primi risultati, tecnologie
utilizzate e margini di
miglioramento
Esempi di elaborazione
automatica
2
3. Sfide
✓ Annotazione automatica di tutti i testi del Corpus con
marcatori morfo-sintattici (lemmi, categorie grammaticali e
ruoli sintattici)
✓ Associazione automatica delle voci di uno o più dizionari di
riferimento (e.g. DISC, Battaglia, Gradit) con le parole del
Corpus, usando il lemma (disambiguato) come aggancio
✓ Disambiguazione dei significati rispetto ad una griglia di
riferimento minimale ma esaustiva rispetto al Corpus per
ciascuna parola, a seconda del contesto
✓ Sviluppo di una maschera di interrogazione dinamica potente
e intuitiva
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 3
4. Textus: un problema di intricatissima soluzione
Implicito
Dipendente
dal contesto
Spesso
impreciso
Dominio
aperto
4
5. Ambiguità su tutti i livelli!
Ambiguistà
Acustica
(omofonia)
Ambiguistà
morfologica
(omografia,
omonimia)
Ambiguità
sintattica
(agganci
prep.,
coord.,
ellissi, ..)
Ambiguità
semantica e
pragmatica
(polisemia,
coreferenza)
5
6. Intreccio sintassi - semantica
mangiare v.
v.tr. [sogg-v-arg]
Ingerire
masticando? Intaccare
qualcosa?
Pungere? Eliminare un
avversario?
v.intr. [sogg-v]
Consumare un pasto?
Nutrirsi? Rubare?
6
8. Linguistica Computazionale
Trasformazione del testo non strutturato in conoscenza strutturata, quindi
interpretabile da una macchina 8
Reti
Neurali
Lessici
Regole
* Gli analizzatori devono essere robusti per
analizzare qualsiasi tipo di testo, da quello scritto e
ben formato al discorso orale (la ripetizione di
parole, correzioni, errori di trascrizione, etc.)
9. Flusso di Annotazione Automatica
Analisi
Morfologica
• Per ogni parola della frase* vengono identificate tutte le sue possibili interpretazioni morfologiche
(articoli, nomi, verbi, aggettivi...) riconducendo le forme flesse ai relativi lemmi**. Tramite l’interazione
con gli altri moduli vengono selezionate le interpretazioni più coerenti con il contesto.
Analisi
Sintattica
• Questo modulo definisce le relazioni logiche (dipendenze) tra i periodi e le parole: vengono qui
identificati ad esempio i soggetti, gli oggetti e i diversi complementi.
Analisi
Semantica
• Identificazione dei ruoli semantici (Attore, Paziente, Strumento, Mezzo, Spostamento, Causa, ecc.), delle
entità note (Oggetti, Luoghi, Persone, Organizzazioni, ecc.); disambiguazione dei significati rispetto a
una griglia di riferimento.
* Un modulo precedente gestisce la separazione di un testo in paragrafi, frasi e parole
** Come dobbiamo considerare le parole per cui non viene riconosciuto il lemma?
9
12. Da dove prendiamo i significati (e le
altre informazioni di una parola)?
1
Opzione 1
Creazione ex-novo dei significati
dall’analisi del nostro corpus
2
Opzione 2
I significati sono attinti da altri
dizionari
vs
12
13. Opzione 1. Significati da Corpus
13
Il significato di una parola
è il suo uso nel linguaggio
(L.Wittgenstein)
Il significato di una parola
è il suo uso nel Corpus
14. Opzione 1. Semantica Distribuzionale
14
• Unità linguistiche con distribuzione simile hanno un significato simile
• Una parola è caratterizzata dal suo contesto
Che cosa è allora il contesto di una parola?
• Finestra superficiale di tre parole prima e tre dopo?
… e le parole funzionali vengono mantenute o buttate via?
• Finestra sintattica?
… meglio perché tiene conto di dipendenze a lunga distanza
e pesa le parole in base al loro ruolo nella frase
15. Opzione 1. Dizionario Analogico
Rappresentazione lessicale attraverso Spazi Distribuzionali* 15
Verbi di movimento* La rappresentazione
grafica mostra una parte
casuale dello spazio
distribuzionale
16. Opzione 2. Significati da un Dizionario
16
0.82
0.370.37
0.37
Corpus (= esempi)
Vocabolario di riferimento
Altri dizionari
17. Opzione 2. Struttura delle Voci
17
Forma Etimologia / MorfologiaLemma Significati
Esempi e citazioni
Ambiti d’uso
Sinonimi, Contrari
Locuzioni
Sintassi
* Esempi e ambiti d’uso dinamici rispetto ai testi del corpus
selezionati
* Significati dinamici rispetto
ai diversi dizionari
18. Prototipi
• Analizzatore morfo-sintattico valenziale - accurato e
concepito per la lingua italiana.
• Motore di ricerca sul corpus indicizzato: interrogazione per
forme flesse e disambiguazione delle accezioni
morfologiche, sintattiche e semantiche
• Categorizzazione dei testi secondo le tipologie: Rigido,
Semirigido, Elastico
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 18
Dimostrazione dal vivo
Lavori in corso
Dimostrazione dal vivo
Accuratezza > 90%
Accuratezza ~ 68% su nostro corpus ~ 50%
sul nostro corpus ~ 80%
23. Prossimi sviluppi
• Miglioramento dell’analisi sintattica: annotazione morfo-sintattica
manuale di una porzione del corpus, costruendo una banca dati (tree
bank) per l’addestramento della rete neurale alla base
dell’analizzatore linguistico.
• Statistiche automatiche: riconoscimento della rilevanza di
determinate catene di parole o di certi costrutti nel corpus di testi di
un autore, di un’opera o di una serie di pubblicazioni (concordanze,
corrispondenze intertestuali, invarianti stilistiche, movenze testuali, …)
• Ricerca e filtri anche per delle catene di parole: in questo modo è
possibile compiere delle ricerche mirate sulle caratteristiche
combinatorie di un dato lemma, sulle sue proprietà sintattiche come
la valenza, la sottocategorizzazione e la reggenza.
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 23
24. Esempio del processo di
trasformazione/annotazione automatica
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 24
25. Segmentazione del testo
25
Egli aveva inventato una parola che meriterebbe di essere
accolta nel dizionario della Crusca: «Mulierina»
Luigi Capuana - RACCONTI
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Egli Aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca
26. Analisi Morfologica e Lemmatizzazione
Parole composte, agglutinate, sconosciute 26
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca
PRON VERBO VERBO ART NOME PRON VERBO PREP VERBO VERBO PREP
+ART
NOME PREP NOME P.
(ORG)
egli avere** inventare uno parola che meritare di essere accogliere In+il dizionario di+la Crusca
* In questa fase vengono riconosciuti i casi di omografia e
omonimia, identificate le informazioni morfologiche
granulari, quali ad esempio la tipologia di pronome
(personale, dimostrativo, …) il genere, il numero, il tempo e il
modo verbale, etc.; questo tramite dizionari delle forme o
algoritmi capaci di riconoscere radici e desinenze.
** Gli ausiliari, come altri elementi operati sul piano morfologico,
vengono considerati come unità sintattiche atomiche e sono
quindi coinvolti nel processo di lemmatizzazione.
27. Analisi Sintattica a Dipendenze
Strutture argomentali, modificatori, … 27
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca
PRON VERBO VERBO ART NOME PRON VERBO PREP VERBO VERBO PREP
+ART
NOME PREP NOME P.
(ORG)
egli avere inventare uno parola che meritare di essere accogliere In+il dizionario di+la Crusca
SOGG AUS RADICE DET ARG SOGG RELAT CON. AUS ARG CON. RMOD CONN RMOD.
3 3 0 5 3 7 5 9 9 7 12 10 14 12
v.tr. [sogg-v-arg]
1 Essere degno di ottenere qlco.
(positivo o negativo): m. una lode,
una punizione; anche con l'arg.
espresso da frase (introd. da di):
28. Risoluzione di Coreferenze
Tracce, Ellissi, Riferimenti anaforici/cataforici 28
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca
PRON VERBO VERBO ART NOME PRON VERBO PREP VERBO VERBO PREP
+ART
NOME PREP NOME P.
(ORG)
egli avere inventare uno parola che meritare di essere accogliere In+il dizionario di+la Crusca
SOGG AUX RADICE DET ARG SOGG RELAT CON AUX-PAS ARG CON RMOD CONN RMOD.
2 2 0 5 3 7 5 9 9 7 12 10 14 12
- - - - 5 - - - SUBJ: ?
ARG: 5
- - - -
“nel” viene sdoppiato in preposizione + articolo
30. …e analizzando una definizione?
• Paracadute: Dispositivo per frenare la caduta di un corpo nell'aria,
costituito da una o più calotte semisferiche di tessuto leggero,
collegate da una serie di funi a un carico o a una persona
Paracadute
caduta
frenare
dispositivo
carico
funi
persona
GOAL
OBJ
TYPE OF
LOC
HAS PART
aria
calotte semisferiche
INV ROLE
30
31. Rete semantica = Rete di significati
31
tasso: mammifero carnivoro di medie dimensioni, con corpo
tozzo, muso appuntito
Iperonimia / Iponimia
terzarolo:parte della vela che può essere ripiegata quando il vento
è troppo forte
Olonimia / Meronimia
vistoso (agg): che attira gli sguardi, che richiama l'attenzione
Attanti (Agenti)
Pianta --> Albero --> Cacao --> Cioccolato