SlideShare a Scribd company logo
1 of 32
Download to read offline
Vocabolario da Corpus: Sfide e Prototipi
Vittorio Coletti, Matteo Grella
Sommario
Sfide
Annotazione morfo-sintattica e
semantica automatica del
Corpus
Trasformazione del Corpus in (o
in una risorsa di) un Vocabolario
Vocabolario da
Corpus
Definizioni e Struttura delle Voci:
Opzioni possibili
Prototipi
Primi risultati, tecnologie
utilizzate e margini di
miglioramento
Esempi di elaborazione
automatica
2
Sfide
✓ Annotazione automatica di tutti i testi del Corpus con
marcatori morfo-sintattici (lemmi, categorie grammaticali e
ruoli sintattici)
✓ Associazione automatica delle voci di uno o più dizionari di
riferimento (e.g. DISC, Battaglia, Gradit) con le parole del
Corpus, usando il lemma (disambiguato) come aggancio
✓ Disambiguazione dei significati rispetto ad una griglia di
riferimento minimale ma esaustiva rispetto al Corpus per
ciascuna parola, a seconda del contesto
✓ Sviluppo di una maschera di interrogazione dinamica potente
e intuitiva
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 3
Textus: un problema di intricatissima soluzione
Implicito
Dipendente
dal contesto
Spesso
impreciso
Dominio
aperto
4
Ambiguità su tutti i livelli!
Ambiguistà
Acustica
(omofonia)
Ambiguistà
morfologica
(omografia,
omonimia)
Ambiguità
sintattica
(agganci
prep.,
coord.,
ellissi, ..)
Ambiguità
semantica e
pragmatica
(polisemia,
coreferenza)
5
Intreccio sintassi - semantica
mangiare v.
v.tr. [sogg-v-arg]
Ingerire
masticando? Intaccare
qualcosa?
Pungere? Eliminare un
avversario?
v.intr. [sogg-v]
Consumare un pasto?
Nutrirsi? Rubare?
6
Cervello  Sistema di Disambiguazione
7
Linguistica Computazionale
Trasformazione del testo non strutturato in conoscenza strutturata, quindi
interpretabile da una macchina 8
Reti
Neurali
Lessici
Regole
* Gli analizzatori devono essere robusti per
analizzare qualsiasi tipo di testo, da quello scritto e
ben formato al discorso orale (la ripetizione di
parole, correzioni, errori di trascrizione, etc.)
Flusso di Annotazione Automatica
Analisi
Morfologica
• Per ogni parola della frase* vengono identificate tutte le sue possibili interpretazioni morfologiche
(articoli, nomi, verbi, aggettivi...) riconducendo le forme flesse ai relativi lemmi**. Tramite l’interazione
con gli altri moduli vengono selezionate le interpretazioni più coerenti con il contesto.
Analisi
Sintattica
• Questo modulo definisce le relazioni logiche (dipendenze) tra i periodi e le parole: vengono qui
identificati ad esempio i soggetti, gli oggetti e i diversi complementi.
Analisi
Semantica
• Identificazione dei ruoli semantici (Attore, Paziente, Strumento, Mezzo, Spostamento, Causa, ecc.), delle
entità note (Oggetti, Luoghi, Persone, Organizzazioni, ecc.); disambiguazione dei significati rispetto a
una griglia di riferimento.
* Un modulo precedente gestisce la separazione di un testo in paragrafi, frasi e parole
** Come dobbiamo considerare le parole per cui non viene riconosciuto il lemma?
9
Risultati elaborazione automatica
10
Categorizzazione RicercaSimilarità Analisi di opinioni
Vocabolario da Corpus
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 10
Da dove prendiamo i significati (e le
altre informazioni di una parola)?
1
Opzione 1
Creazione ex-novo dei significati
dall’analisi del nostro corpus
2
Opzione 2
I significati sono attinti da altri
dizionari
vs
12
Opzione 1. Significati da Corpus
13
Il significato di una parola
è il suo uso nel linguaggio
(L.Wittgenstein)
Il significato di una parola
è il suo uso nel Corpus
Opzione 1. Semantica Distribuzionale
14
• Unità linguistiche con distribuzione simile hanno un significato simile
• Una parola è caratterizzata dal suo contesto
Che cosa è allora il contesto di una parola?
• Finestra superficiale di tre parole prima e tre dopo?
… e le parole funzionali vengono mantenute o buttate via?
• Finestra sintattica?
… meglio perché tiene conto di dipendenze a lunga distanza
e pesa le parole in base al loro ruolo nella frase
Opzione 1. Dizionario Analogico
Rappresentazione lessicale attraverso Spazi Distribuzionali* 15
Verbi di movimento* La rappresentazione
grafica mostra una parte
casuale dello spazio
distribuzionale
Opzione 2. Significati da un Dizionario
16
0.82
0.370.37
0.37
Corpus (= esempi)
Vocabolario di riferimento
Altri dizionari
Opzione 2. Struttura delle Voci
17
Forma Etimologia / MorfologiaLemma Significati
Esempi e citazioni
Ambiti d’uso
Sinonimi, Contrari
Locuzioni
Sintassi
* Esempi e ambiti d’uso dinamici rispetto ai testi del corpus
selezionati
* Significati dinamici rispetto
ai diversi dizionari
Prototipi
• Analizzatore morfo-sintattico valenziale - accurato e
concepito per la lingua italiana.
• Motore di ricerca sul corpus indicizzato: interrogazione per
forme flesse e disambiguazione delle accezioni
morfologiche, sintattiche e semantiche
• Categorizzazione dei testi secondo le tipologie: Rigido,
Semirigido, Elastico
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 18
Dimostrazione dal vivo
Lavori in corso
Dimostrazione dal vivo
Accuratezza > 90%
Accuratezza ~ 68% su nostro corpus ~ 50%
sul nostro corpus ~ 80%
Ricerca parola: energia
19
Forma
Lemma,
Etimologia,
Morfologia
Significati
Esempi e
citazioni
Energia [e-ner-gì-a] Sostantivo Femminile (dal greco: energheia)
Energia: riscontri nel corpus
20
Energia: disambiguazione automatica
21
Significato 3
Significato 1
Partorire: disambiguazione automatica
v
v
22
?
Prossimi sviluppi
• Miglioramento dell’analisi sintattica: annotazione morfo-sintattica
manuale di una porzione del corpus, costruendo una banca dati (tree
bank) per l’addestramento della rete neurale alla base
dell’analizzatore linguistico.
• Statistiche automatiche: riconoscimento della rilevanza di
determinate catene di parole o di certi costrutti nel corpus di testi di
un autore, di un’opera o di una serie di pubblicazioni (concordanze,
corrispondenze intertestuali, invarianti stilistiche, movenze testuali, …)
• Ricerca e filtri anche per delle catene di parole: in questo modo è
possibile compiere delle ricerche mirate sulle caratteristiche
combinatorie di un dato lemma, sulle sue proprietà sintattiche come
la valenza, la sottocategorizzazione e la reggenza.
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 23
Esempio del processo di
trasformazione/annotazione automatica
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 24
Segmentazione del testo
25
Egli aveva inventato una parola che meriterebbe di essere
accolta nel dizionario della Crusca: «Mulierina»
Luigi Capuana - RACCONTI
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Egli Aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca
Analisi Morfologica e Lemmatizzazione
Parole composte, agglutinate, sconosciute 26
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca
PRON VERBO VERBO ART NOME PRON VERBO PREP VERBO VERBO PREP
+ART
NOME PREP NOME P.
(ORG)
egli avere** inventare uno parola che meritare di essere accogliere In+il dizionario di+la Crusca
* In questa fase vengono riconosciuti i casi di omografia e
omonimia, identificate le informazioni morfologiche
granulari, quali ad esempio la tipologia di pronome
(personale, dimostrativo, …) il genere, il numero, il tempo e il
modo verbale, etc.; questo tramite dizionari delle forme o
algoritmi capaci di riconoscere radici e desinenze.
** Gli ausiliari, come altri elementi operati sul piano morfologico,
vengono considerati come unità sintattiche atomiche e sono
quindi coinvolti nel processo di lemmatizzazione.
Analisi Sintattica a Dipendenze
Strutture argomentali, modificatori, … 27
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca
PRON VERBO VERBO ART NOME PRON VERBO PREP VERBO VERBO PREP
+ART
NOME PREP NOME P.
(ORG)
egli avere inventare uno parola che meritare di essere accogliere In+il dizionario di+la Crusca
SOGG AUS RADICE DET ARG SOGG RELAT CON. AUS ARG CON. RMOD CONN RMOD.
3 3 0 5 3 7 5 9 9 7 12 10 14 12
v.tr. [sogg-v-arg]
1 Essere degno di ottenere qlco.
(positivo o negativo): m. una lode,
una punizione; anche con l'arg.
espresso da frase (introd. da di):
Risoluzione di Coreferenze
Tracce, Ellissi, Riferimenti anaforici/cataforici 28
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca
PRON VERBO VERBO ART NOME PRON VERBO PREP VERBO VERBO PREP
+ART
NOME PREP NOME P.
(ORG)
egli avere inventare uno parola che meritare di essere accogliere In+il dizionario di+la Crusca
SOGG AUX RADICE DET ARG SOGG RELAT CON AUX-PAS ARG CON RMOD CONN RMOD.
2 2 0 5 3 7 5 9 9 7 12 10 14 12
 - - - - 5 - - - SUBJ: ?
ARG: 5
- - - -
“nel” viene sdoppiato in preposizione + articolo
Analisi Semantica
Griglia Tematica, Disambiguazione Significati, … 29
0.89
0.44
0.82
0.37 0.96
…e analizzando una definizione?
• Paracadute: Dispositivo per frenare la caduta di un corpo nell'aria,
costituito da una o più calotte semisferiche di tessuto leggero,
collegate da una serie di funi a un carico o a una persona
Paracadute
caduta
frenare
dispositivo
carico
funi
persona
GOAL
OBJ
TYPE OF
LOC
HAS PART
aria
calotte semisferiche
INV ROLE
30
Rete semantica = Rete di significati
31
tasso: mammifero carnivoro di medie dimensioni, con corpo
tozzo, muso appuntito
Iperonimia / Iponimia
terzarolo:parte della vela che può essere ripiegata quando il vento
è troppo forte
Olonimia / Meronimia
vistoso (agg): che attira gli sguardi, che richiama l'attenzione
Attanti (Agenti)
Pianta --> Albero --> Cacao --> Cioccolato
Tecnologie utilizzate: Open Source
• [Database] Elasticsearch
https://www.elastic.co/products/elasticsearch
• [Web] Python, Ruby, Ember.js
https://www.python.it/
https://www.ruby-lang.org/it/
https://www.emberjs.com/
• [Analizzatore Linguistico] KotlinNLP
https://github.com/KotlinNLP
Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 32

More Related Content

Similar to Grella e Coletti - Vocabolario da Corpus

Primo e secondo_incontro v
Primo e secondo_incontro vPrimo e secondo_incontro v
Primo e secondo_incontro v
imartini
 
Pow P Morfologia
Pow P MorfologiaPow P Morfologia
Pow P Morfologia
guestcf13d9
 
Lucidi sintassi.2
Lucidi sintassi.2Lucidi sintassi.2
Lucidi sintassi.2
iva martini
 
Competenze narrativo verbali
Competenze narrativo verbali   Competenze narrativo verbali
Competenze narrativo verbali
imartini
 
Competenze narrativo verbali bambino
Competenze narrativo verbali bambinoCompetenze narrativo verbali bambino
Competenze narrativo verbali bambino
imartini
 
Competenze narrativo verbali s
Competenze narrativo verbali sCompetenze narrativo verbali s
Competenze narrativo verbali s
imartini
 
"Colorless green ideas sleep furiously."
"Colorless green ideas sleep furiously.""Colorless green ideas sleep furiously."
"Colorless green ideas sleep furiously."
Martina Delladio
 
Ontologie13
Ontologie13Ontologie13
Ontologie13
Daniele
 

Similar to Grella e Coletti - Vocabolario da Corpus (15)

Primo e secondo_incontro v
Primo e secondo_incontro vPrimo e secondo_incontro v
Primo e secondo_incontro v
 
Pow P Morfologia
Pow P MorfologiaPow P Morfologia
Pow P Morfologia
 
Lucidi sintassi.2
Lucidi sintassi.2Lucidi sintassi.2
Lucidi sintassi.2
 
IC2008 First Order Logic
IC2008 First Order LogicIC2008 First Order Logic
IC2008 First Order Logic
 
013 Morfosintassi
013 Morfosintassi013 Morfosintassi
013 Morfosintassi
 
Introduzione NLP
Introduzione NLPIntroduzione NLP
Introduzione NLP
 
Competenze narrativo verbali
Competenze narrativo verbali   Competenze narrativo verbali
Competenze narrativo verbali
 
Competenze narrativo verbali bambino
Competenze narrativo verbali bambinoCompetenze narrativo verbali bambino
Competenze narrativo verbali bambino
 
Competenze narrativo verbali s
Competenze narrativo verbali sCompetenze narrativo verbali s
Competenze narrativo verbali s
 
Comprensione analisi e interpretazione di un testo
Comprensione  analisi e interpretazione di un testoComprensione  analisi e interpretazione di un testo
Comprensione analisi e interpretazione di un testo
 
Aspetti lessicali
Aspetti lessicaliAspetti lessicali
Aspetti lessicali
 
"Colorless green ideas sleep furiously."
"Colorless green ideas sleep furiously.""Colorless green ideas sleep furiously."
"Colorless green ideas sleep furiously."
 
Ontologie13
Ontologie13Ontologie13
Ontologie13
 
Tassonomie: dizionari, glossari, thesauri, ontologie e gerarchie per organizz...
Tassonomie: dizionari, glossari, thesauri, ontologie e gerarchie per organizz...Tassonomie: dizionari, glossari, thesauri, ontologie e gerarchie per organizz...
Tassonomie: dizionari, glossari, thesauri, ontologie e gerarchie per organizz...
 
Didattica digitale -Language teaching and technology sciubba20131116kuleuven
Didattica digitale -Language teaching and technology sciubba20131116kuleuvenDidattica digitale -Language teaching and technology sciubba20131116kuleuven
Didattica digitale -Language teaching and technology sciubba20131116kuleuven
 

Grella e Coletti - Vocabolario da Corpus

  • 1. Vocabolario da Corpus: Sfide e Prototipi Vittorio Coletti, Matteo Grella
  • 2. Sommario Sfide Annotazione morfo-sintattica e semantica automatica del Corpus Trasformazione del Corpus in (o in una risorsa di) un Vocabolario Vocabolario da Corpus Definizioni e Struttura delle Voci: Opzioni possibili Prototipi Primi risultati, tecnologie utilizzate e margini di miglioramento Esempi di elaborazione automatica 2
  • 3. Sfide ✓ Annotazione automatica di tutti i testi del Corpus con marcatori morfo-sintattici (lemmi, categorie grammaticali e ruoli sintattici) ✓ Associazione automatica delle voci di uno o più dizionari di riferimento (e.g. DISC, Battaglia, Gradit) con le parole del Corpus, usando il lemma (disambiguato) come aggancio ✓ Disambiguazione dei significati rispetto ad una griglia di riferimento minimale ma esaustiva rispetto al Corpus per ciascuna parola, a seconda del contesto ✓ Sviluppo di una maschera di interrogazione dinamica potente e intuitiva Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 3
  • 4. Textus: un problema di intricatissima soluzione Implicito Dipendente dal contesto Spesso impreciso Dominio aperto 4
  • 5. Ambiguità su tutti i livelli! Ambiguistà Acustica (omofonia) Ambiguistà morfologica (omografia, omonimia) Ambiguità sintattica (agganci prep., coord., ellissi, ..) Ambiguità semantica e pragmatica (polisemia, coreferenza) 5
  • 6. Intreccio sintassi - semantica mangiare v. v.tr. [sogg-v-arg] Ingerire masticando? Intaccare qualcosa? Pungere? Eliminare un avversario? v.intr. [sogg-v] Consumare un pasto? Nutrirsi? Rubare? 6
  • 7. Cervello  Sistema di Disambiguazione 7
  • 8. Linguistica Computazionale Trasformazione del testo non strutturato in conoscenza strutturata, quindi interpretabile da una macchina 8 Reti Neurali Lessici Regole * Gli analizzatori devono essere robusti per analizzare qualsiasi tipo di testo, da quello scritto e ben formato al discorso orale (la ripetizione di parole, correzioni, errori di trascrizione, etc.)
  • 9. Flusso di Annotazione Automatica Analisi Morfologica • Per ogni parola della frase* vengono identificate tutte le sue possibili interpretazioni morfologiche (articoli, nomi, verbi, aggettivi...) riconducendo le forme flesse ai relativi lemmi**. Tramite l’interazione con gli altri moduli vengono selezionate le interpretazioni più coerenti con il contesto. Analisi Sintattica • Questo modulo definisce le relazioni logiche (dipendenze) tra i periodi e le parole: vengono qui identificati ad esempio i soggetti, gli oggetti e i diversi complementi. Analisi Semantica • Identificazione dei ruoli semantici (Attore, Paziente, Strumento, Mezzo, Spostamento, Causa, ecc.), delle entità note (Oggetti, Luoghi, Persone, Organizzazioni, ecc.); disambiguazione dei significati rispetto a una griglia di riferimento. * Un modulo precedente gestisce la separazione di un testo in paragrafi, frasi e parole ** Come dobbiamo considerare le parole per cui non viene riconosciuto il lemma? 9
  • 10. Risultati elaborazione automatica 10 Categorizzazione RicercaSimilarità Analisi di opinioni
  • 11. Vocabolario da Corpus Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 10
  • 12. Da dove prendiamo i significati (e le altre informazioni di una parola)? 1 Opzione 1 Creazione ex-novo dei significati dall’analisi del nostro corpus 2 Opzione 2 I significati sono attinti da altri dizionari vs 12
  • 13. Opzione 1. Significati da Corpus 13 Il significato di una parola è il suo uso nel linguaggio (L.Wittgenstein) Il significato di una parola è il suo uso nel Corpus
  • 14. Opzione 1. Semantica Distribuzionale 14 • Unità linguistiche con distribuzione simile hanno un significato simile • Una parola è caratterizzata dal suo contesto Che cosa è allora il contesto di una parola? • Finestra superficiale di tre parole prima e tre dopo? … e le parole funzionali vengono mantenute o buttate via? • Finestra sintattica? … meglio perché tiene conto di dipendenze a lunga distanza e pesa le parole in base al loro ruolo nella frase
  • 15. Opzione 1. Dizionario Analogico Rappresentazione lessicale attraverso Spazi Distribuzionali* 15 Verbi di movimento* La rappresentazione grafica mostra una parte casuale dello spazio distribuzionale
  • 16. Opzione 2. Significati da un Dizionario 16 0.82 0.370.37 0.37 Corpus (= esempi) Vocabolario di riferimento Altri dizionari
  • 17. Opzione 2. Struttura delle Voci 17 Forma Etimologia / MorfologiaLemma Significati Esempi e citazioni Ambiti d’uso Sinonimi, Contrari Locuzioni Sintassi * Esempi e ambiti d’uso dinamici rispetto ai testi del corpus selezionati * Significati dinamici rispetto ai diversi dizionari
  • 18. Prototipi • Analizzatore morfo-sintattico valenziale - accurato e concepito per la lingua italiana. • Motore di ricerca sul corpus indicizzato: interrogazione per forme flesse e disambiguazione delle accezioni morfologiche, sintattiche e semantiche • Categorizzazione dei testi secondo le tipologie: Rigido, Semirigido, Elastico Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 18 Dimostrazione dal vivo Lavori in corso Dimostrazione dal vivo Accuratezza > 90% Accuratezza ~ 68% su nostro corpus ~ 50% sul nostro corpus ~ 80%
  • 19. Ricerca parola: energia 19 Forma Lemma, Etimologia, Morfologia Significati Esempi e citazioni Energia [e-ner-gì-a] Sostantivo Femminile (dal greco: energheia)
  • 23. Prossimi sviluppi • Miglioramento dell’analisi sintattica: annotazione morfo-sintattica manuale di una porzione del corpus, costruendo una banca dati (tree bank) per l’addestramento della rete neurale alla base dell’analizzatore linguistico. • Statistiche automatiche: riconoscimento della rilevanza di determinate catene di parole o di certi costrutti nel corpus di testi di un autore, di un’opera o di una serie di pubblicazioni (concordanze, corrispondenze intertestuali, invarianti stilistiche, movenze testuali, …) • Ricerca e filtri anche per delle catene di parole: in questo modo è possibile compiere delle ricerche mirate sulle caratteristiche combinatorie di un dato lemma, sulle sue proprietà sintattiche come la valenza, la sottocategorizzazione e la reggenza. Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 23
  • 24. Esempio del processo di trasformazione/annotazione automatica Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 24
  • 25. Segmentazione del testo 25 Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca: «Mulierina» Luigi Capuana - RACCONTI 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Egli Aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca
  • 26. Analisi Morfologica e Lemmatizzazione Parole composte, agglutinate, sconosciute 26 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca PRON VERBO VERBO ART NOME PRON VERBO PREP VERBO VERBO PREP +ART NOME PREP NOME P. (ORG) egli avere** inventare uno parola che meritare di essere accogliere In+il dizionario di+la Crusca * In questa fase vengono riconosciuti i casi di omografia e omonimia, identificate le informazioni morfologiche granulari, quali ad esempio la tipologia di pronome (personale, dimostrativo, …) il genere, il numero, il tempo e il modo verbale, etc.; questo tramite dizionari delle forme o algoritmi capaci di riconoscere radici e desinenze. ** Gli ausiliari, come altri elementi operati sul piano morfologico, vengono considerati come unità sintattiche atomiche e sono quindi coinvolti nel processo di lemmatizzazione.
  • 27. Analisi Sintattica a Dipendenze Strutture argomentali, modificatori, … 27 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca PRON VERBO VERBO ART NOME PRON VERBO PREP VERBO VERBO PREP +ART NOME PREP NOME P. (ORG) egli avere inventare uno parola che meritare di essere accogliere In+il dizionario di+la Crusca SOGG AUS RADICE DET ARG SOGG RELAT CON. AUS ARG CON. RMOD CONN RMOD. 3 3 0 5 3 7 5 9 9 7 12 10 14 12 v.tr. [sogg-v-arg] 1 Essere degno di ottenere qlco. (positivo o negativo): m. una lode, una punizione; anche con l'arg. espresso da frase (introd. da di):
  • 28. Risoluzione di Coreferenze Tracce, Ellissi, Riferimenti anaforici/cataforici 28 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Egli aveva inventato una parola che meriterebbe di essere accolta nel dizionario della Crusca PRON VERBO VERBO ART NOME PRON VERBO PREP VERBO VERBO PREP +ART NOME PREP NOME P. (ORG) egli avere inventare uno parola che meritare di essere accogliere In+il dizionario di+la Crusca SOGG AUX RADICE DET ARG SOGG RELAT CON AUX-PAS ARG CON RMOD CONN RMOD. 2 2 0 5 3 7 5 9 9 7 12 10 14 12  - - - - 5 - - - SUBJ: ? ARG: 5 - - - - “nel” viene sdoppiato in preposizione + articolo
  • 29. Analisi Semantica Griglia Tematica, Disambiguazione Significati, … 29 0.89 0.44 0.82 0.37 0.96
  • 30. …e analizzando una definizione? • Paracadute: Dispositivo per frenare la caduta di un corpo nell'aria, costituito da una o più calotte semisferiche di tessuto leggero, collegate da una serie di funi a un carico o a una persona Paracadute caduta frenare dispositivo carico funi persona GOAL OBJ TYPE OF LOC HAS PART aria calotte semisferiche INV ROLE 30
  • 31. Rete semantica = Rete di significati 31 tasso: mammifero carnivoro di medie dimensioni, con corpo tozzo, muso appuntito Iperonimia / Iponimia terzarolo:parte della vela che può essere ripiegata quando il vento è troppo forte Olonimia / Meronimia vistoso (agg): che attira gli sguardi, che richiama l'attenzione Attanti (Agenti) Pianta --> Albero --> Cacao --> Cioccolato
  • 32. Tecnologie utilizzate: Open Source • [Database] Elasticsearch https://www.elastic.co/products/elasticsearch • [Web] Python, Ruby, Ember.js https://www.python.it/ https://www.ruby-lang.org/it/ https://www.emberjs.com/ • [Analizzatore Linguistico] KotlinNLP https://github.com/KotlinNLP Coletti, Grella - Vocabolario da Corpus: Sfide e Prototipi 32