SlideShare a Scribd company logo
1 of 66
Download to read offline
Oltre il contenuto: tecnologie
linguistico-computazionali per
l’analisi della struttura linguistica
del testo. Cosa, come, perchè
Dominique Brunato, Felice Dell’Orletta, Giulia Venturi
Istituto di Linguistica Computazionale «Antonio
Zampolli» (ILC-CNR)
ItaliaNLP Lab
www.italianlp.it
Seminario di Cultura Digitale
Pisa, 11 dicembre 2013
Extraction of
Named Entities
Extraction of
semantic relations
Extraction of
domain-relevant
entities
Extraction of
temporal
expressions
Graph-based
Knowledge
Representation
L’accessoalcontenuto
Le tecnologie linguistico-
computazionali per …
Extraction of
Named Entities
Extraction of
semantic relations
Extraction of
domain-relevant
entities
Extraction of
temporal
expressions
Graph-based
Knowledge
Representation
Linguistic
profiling of texts
Textual genre
assessment
Readability level
assessment
Native Language
Identification
Monitoring of
variation across
language varieties
Oltreilcontenuto:la
strutturalinguistica
L’accessoalcontenuto
Le tecnologie linguistico-
computazionali per …
text
Tokenizer
Morphological
analyzer
PoS Tagger
Dependency
parser
Sentence Splitter
Catena di analisi linguistica
• Annotazione morfo-sintattica
– a ogni token del testo viene
associata informazione relativa alla
categoria grammaticale che la
parola ha nel contesto specifico e il
relativo lemma
• Annotazione sintattica a
dipendenze
– analisi della struttura sintattica
della frase in termini di relazioni
di dipendenza (es. soggetto,
oggetto, etc.)
Le tecnologie linguistiche
• Segmentazione in frasi e
tokenizzazione (ovvero
segmentazione del testo in parole
ortografiche o tokens
Annotazione sintattica
a dipendenze
Conll-2007: 81.3% LAS
Evalita 2009: 83.38% LAS
Stato dell’arte per l’italiano
Annotazione
morfo-sintattica
Evalita 2009: accuratezza = 96,34%
Stato dell’arte per l’italiano
Le tecnologie linguistiche
MONITOR-It
Strumento per l’estrazione
automatica delle caratteristiche
linguistiche di un testo
Corpus linguisticamente analizzato in
modo automatico Vocabolario
di Base
Il profilo linguistico di un testo è
ricostruito
 sulla base delle caratteristiche
linguistiche rilevate rispetto a
diversi livelli di annotazione
linguistica
 lemmatizzazione
 annotazione morfo-sintattica
 annotazione sintattica a
dipendenze
L’accesso alla struttura linguistica
del testo: il profilo linguistico
Le caratteristiche lessicali
 Ripartizione del
vocabolario
appartenente al
VdB rispetto ai
repertori di uso
Fondamentale, Alto
Uso, Alta
Disponibilità
Rep Narr Suss 2Par RaccFant Giur
Rapporto tipo/unità 0.72 0.70 0.68 0.55 0.18 0.38
Percentuale del
vocabolario
appartenente al
VdB
67.1 71.76 73.57 74.58 56.93 35.60
30,73 32,41
51,99 54,54 59,46
46,12
40,34 41,64
33,95 31,95
31,01
40,02
28,93 25,94
14,06 13,51 9,53 13,86
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Rep Narr Suss 2Par RaccFant Giur
FO AU AD
Le caratteristiche morfo-sintattiche
0
5
10
15
20
25
30
35
40
Agg Avv Cong Det Prep Punt Int Num Pron Art Sost Predet Verb Altro
Rep
Narr
Suss
2Par
RaccFant
Giur
Distribuzione delle
categorie morfo-
sintattiche
Le caratteristiche sintattiche
0.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
80.00
90.00
1 2 3 4 5 6 7 8 9 >=10
Rep
Narr
Suss
2Par
RaccFant
Giur
Hmax=6
HPP=12
Prof. media
Suss 1.27
RaccFant 1.31
2Par 1.36
Narr 1.36
Rep 1.45
Giur 1.84
Profondità delle “catene” di
complementi preposizionali
Altezza massima degli alberi5.72
5.10
4.96
5.43
5.85
5.27
4.40
4.60
4.80
5.00
5.20
5.40
5.60
5.80
6.00
Media altezza max alberi
Rep
Narr
Suss
2Par
RaccFant
Giur
Le caratteristiche sintattiche
65.11
65.30
62.95
77.37
56.72
74.55
34.89
34.70
37.05
22.63
43.28
25.45
0.00 20.00 40.00 60.00 80.00 100.00
Rep
Narr
Suss
2Par
RaccFant
Giur
Principali Subordinate
Pre Post
Rep 12.28 87.72
Narr 12.30 87.70
Suss 13.03 86.97
2Par 11.60 88.40
RaccFant 5.58 94.42
Giur 11.69 88.31
Rep Narr Suss 2Par RaccFant Giur
Media
clausole/periodo
2.41 2.65 2.67 2.40 3.37 1.64
Ordine relativo delle subordinate
rispetto alla principaleVoghera 1992: subord 23%-40%
Le caratteristiche sintattiche
 Congiunzioni coordinanti: cosa
collegano
 Informazione reperibile soltanto a
partire da un’annotazione a
dipendenze 37.04
43.52
54.92
31.32
63.22
15.03
0.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
Coordinazione verbale
Rep
Narr
Suss
2Par
RaccFant
Giur
9.34
2.48
7.73
25.54
54.92
Suss
7.60 4.89
36.8835.62
15.03
Adj
Altro
Prep
Sost
Verb
Giur
7.31 3.11
14.39
38.14
37.04
Rep
Coordinazione per categoria morfo-sintattica
Scenari applicativi
 Classificazione del genere testuale
 Riconoscimento della lingua madre
 Attribuzione del testo all’autore
 Identificazione di plagi
 Valutazione della leggibilità
 Semplificazione del testo
 Valutazione delle competenze
linguistiche di uno scrivente
 …
Esperimenti
 Classificatore basato su Support Vector Machines
 Due modelli che usano caratteristiche linguistiche diverse
 Training data: 368 (Lit); 583 (Jour); 137 (Edu); 317 (Scient)
 Test data: 60 documenti per ogni genere testuale
Classificazione del genere testuale
MONITOR-It
Strumento per l’estrazione
automatica delle caratteristiche
linguistiche di un testo
Corpus linguisticamente analizzato
Vocabolario
italiano di base
Classificatore
di generi
testuali
Lexical model
(Accuracy: 62.18)
Syntax model
(Accuracy: 76.47)
Genre Prec Rec F–meas Prec Rec F–meas
Journ 44.64 83.33 58.14 61.63 88.33 72.60
Lit 77.59 76.27 76.92 85.71 91.52 88.52
Edu 80 6.77 12.5 92.59 42.37 58.14
Scient 77.78 81.67 79.67 80.64 83.33 81.97
Scenari applicativi
 Classificazione del genere testuale
 Riconoscimento della lingua madre
 Attribuzione del testo all’autore
 Identificazione di plagi
 Valutazione della leggibilità
 Semplificazione del testo
 Valutazione delle competenze
linguistiche di uno scrivente
 …
Riconoscimento della lingua madre
Corpus linguisticamente analizzato
Strumento per
l’estrazione
automatica delle
caratteristiche
linguistiche di un
testo
Classificatore
della lingua
madre
Esperimenti
 Classificatore basato su Support Vector
Machines
 Diversi modelli che usano caratteristiche
linguistiche diverse
 Training data: 1000 esami inglese per 11
lingue
 Test data: 100 documenti per ogni L1
ARA CHI FRE GER HIN ITA JPN KOR SPA TEL TUR
Acc 73.8 77.5 83.2 87.3 71.1 86.0 78.8 74.2 70.8 76.2 78.0
Scenari applicativi
 Classificazione del genere testuale
 Riconoscimento della lingua madre
 Attribuzione del testo all’autore
 Identificazione di plagi
 Valutazione della leggibilità
 Semplificazione del testo
 Valutazione delle competenze
linguistiche di uno scrivente
 …
READ-IT: uno strumento per
l’analisi della leggibilità di un testo
Tecnologie linguistiche
Estrazione automatica delle
caratteristiche linguistiche del
testo (profilo linguistico)
Valutazione della leggibilità del testo e
individuazione dei luoghi di
complessità
READ-IT
READ-IT: approccio generale
(un ausilio alla semplificazione del
testo)
Riscrittura
del testo
seguendo le
indicazioni di
READ-IT
READ-IT: approccio generale
(verso una comunicazione
semplificata)
READ-IT: un esempio
Calcolo della
leggibilità dei
primi 12
articoli della
Costituzione
Italiana
READ-IT: un esempio
(valutazione globale della
leggibilità)
READ-IT: un esempio
(il profilo linguistico del testo)
READ-IT: un esempio
(valutazione della leggibilità a livello di frase con
identificazione dei luoghi di complessità)
READ-IT: uno strumento automatico per
l’analisi della leggibilità di un testo
READ-It
Monitoraggio
delle
caratteristiche
linguistiche di
collezioni di
testi
Studio dei
fattori che
rendono un
testo
complesso
Modelli della
comprensione
linguistica
Valutazione dell’efficacia
comunicativa di testi nella
comunicazione
•Amministratore-Cittadino
(Osservatorio per la redazione di
atti amministrativi – Crusca –
ITTIG-CNR)
•Insegnante-studente (Progetto
CNR “Migrazioni”)
•Operatore di Call Center-
utente finale (collaborazione con
Vodafone)
• Medico-Paziente (progetto
SUIT-HEART Progetto Italiano
“Istituto Toscano Tumori”)
• Autore editoria scolastica-
studenti (progetto Regione
Toscana iSLe, in corso)
Per fornire un supporto all’insegnante
nella personalizzazione della sua
azione formativa
READ-IT
Nelle Linee Guida dell’Azione
“Editoria Digitale Scolastica”
emanata dal MIUR si
prefigurano “prodotti
multimediali le cui singole
componenti possano essere
utilizzate dai docenti per lo
sviluppo di materiali didattici
personalizzati”
 I testi scolastici sono tipicamente tarati su bisogni standard della
classe, le cui caratteristiche si presentano al giorno d’oggi come
molto più variegate e multiformi che nel passato
 Per evitare che questa situazione possa produrre ricadute
negative sul processo formativo di studenti con uno svantaggio
linguistico e/o cognitivo è necessaria una personalizzazione di tali
materiali che tenga conto delle competenze linguistiche dello
studente
26
Distanza:
Ortografia
Lessico
Morfologia
Sintassi
Semantica
Personalizzazione dei materiali didattici
iSLe – intelligent Semantic
Liquid eBook
Progetto finanziato dalla
Regione Toscana (POR CReO
2007 – 2013) in collaborazione
con M.E.T.A SRL, 01Servizi
SRL, VIDITRUST SRL, SPACE
SPA
Sviluppo di una piattaforma
innovativa per l’editoria digitale
scolastica arricchita con
tecnologie linguistico-
computazionali
READ-IT sarà alla base di
funzionalità per la valutazione
della leggibilità del testo e
come supporto alla sua
eventuale semplificazione
READ-IT nella piattaforma iSLe
Per fornire un supporto alla redazione dei
testi usati nei call-centers migliorando i
processi di comunicazione con l’utente
READ-IT
Collaborazione con Vodafone
Omnitel per lo sviluppo di un
sistema di analisi della
leggibilità e supporto alla
semplificazione usato nella
piattaforma «Vodafone My
Language» per la redazione
dei testi
Analisi della
comprensibilità
nell’interfaccia
“Vodafone My
Language”
Call centers-utenti: dove sono le
difficoltà?
“Medical writing is a highly skilled,
calculated attempt to confuse the reader ”
(N Engl J Med 1975; 293:1257-9)
READ-IT
Progetto SUIT-HEART
Progetto Italiano “Istituto
Toscano Tumori” finalizzato
ad assistere la redazione
di consensi informati
semplici e leggibili
Prima della semplificazione Dopo la semplificazione
Medico-paziente:
verso una comunicazione semplificata
Per semplificare e migliorare i
processi di comunicazione tra
istituzioni e cittadini
READ-ITREAD-IT
Nella «Guida per la redazione
degli atti amministrativi»
(ITTIG-CNR e Accademia
della Crusca) si invita a
redigere un atto amministrativo
che sia «comprensibile a tutti
suoi fruitori, in termini di
contenuti e di scelte
linguistiche che li veicolano»
Linguaggio burocratico o burocratese?
 Il linguaggio burocratico è una varietà linguistica particolare,
caratterizzata da un livello di complessità “ineliminabile” ma
anche da un ampio spettro di tratti linguistici che esprimono un
tipo di complessità “inutile” (il burocratese), dunque
semplificabile.
 «Per verificare la comprensibilità degli atti amministrativi si suggerisce,
inoltre, l’impiego di software (programmi) per l’analisi dei testi.» (Direttiva
8 maggio 2002, Presidenza del Consiglio dei Ministri – Dip. Funzione
Pubblica)
READ-IT per:
 Valutare la leggibilità dei testi delle pubbliche amministrazioni;
 Individuare i tratti di complessità;
 Discriminare i tratti di complessità “necessaria” dagli stilemi tipici
del “burocratese”;
33
Materiali e Metodo
MATERIALI: Raccolta di un corpus allineato, composto da 87 coppie di testi
amministrativi, costituiti dalla versione originale (Bur_orig) e dalla relativa versione
semplificata (Bur_simp).
3 macro-tipologie:
 autorità emanante:
◦ Amministrazioni comunali (corpus “TACS”, Prof. Michele Cortelazzo, Dipartimento di
Linguistica, Università di Padova)
◦ Università: progetto “Comunicazioni Istituzionali nelle Università. Raccolta di Modelli
Testuali.” promosso dal “Consorzio Interuniversitario sulla Formazione (Co.Info.)”
◦ Ministro dell’Interno: “Istruzioni per le operazioni degli uffici elettorali di sezione”, Ministero
dell’Interno, Dipartimento per gli Affari Interni e Territoriali, 2006
 tipologia del documento: differenti tipologie di documenti amministrativi
(autorizzazioni, concessioni, nulla osta, ordini, comandi, comunicazioni,
modulistica);
 grado di formalità
METODO: Monitoraggio linguistico (linguistic profiling) in chiave comparativa
a partire dall’output dell’annotazione linguistica automatica.
34
35
Genere Corpus n°di testi n°token
Giornalismo
La Repubblica (Marinelli et al., 2003) 321 232.908
Due Parole (Piemontese, 1996) 322 73.314
Tot: 643 Tot: 306,222
Letteratura
Letteratura per bambini (Marconi et al.,
1994)
101 19.370
Letteratura per adulti (Marinelli et al., 2003)
327 471.421
Tot: 428 Tot: 306,222
Materiali
didattici
Scuola Primaria (Dell’Orletta et al. , 2011b) 127 48,036
Scuola Secondaria (Dell’Orletta et al., 2011 b) 70 48,103
Tot: 197 Tot: 96,139
Prosa
scientifica
Wikipedia, sezione “Ecologia e Ambiente” 293 205,071
Articoli scientifici specialistici 84 471,969
Tot: 377 Tot: 677,040
Linguaggio
giuridico
Atti legislativi in materia ambientale 553 1,309,866
Costituzione italiana (1947) 1 10,487
Tot: 554 Tot:
1.320,353
Linguaggio
amministrativo
Testi burocratici originali (Bur_orig) 87 Tot: 61.208
Testi burocratici semplificati (Bur_simp) 87 Tot: 43. 780
Tot: 174 Tot: 104.988
I CORPORA
A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68
presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato
trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che,
con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato
dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto
specificato.
Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare
lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia
stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco
(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).
In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà
sono valide nel caso in cui già preesista un provvedimento di inabitabilità -
inagibilità, che dovrà essere prodotto allo scrivente ufficio.
Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a
richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico
Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).
Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione
di immobili dichiarati inabitabili sono sanzionate penalmente.
Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un
edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi
dell'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo
Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.
Il burocratese: analisi manuale ...
36
A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L.
15/68 presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto
è stato trasmesso per i controlli di competenza all'Ufficio Tecnico
Comunale, che, con nota n. 4007 del 19.10.1998, ha precisato di non
aver rilasciato dichiarazione di inabitabilità o inagibilità per l'immobile
in oggetto specificato.
Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare
lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia
stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco
(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).
In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà
sono valide nel caso in cui già preesista un provvedimento di inabitabilità -
inagibilità, che dovrà essere prodotto allo scrivente ufficio.
Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a
richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico
Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).
Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione
di immobili dichiarati inabitabili sono sanzionate penalmente.
Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un
edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi
dell'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo
Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.
Il burocratese: analisi manuale ...
37
Lunghezza media
frase = 63 parole
Lessico
burocratico
Impersonalità
(forme allocutorie
desuete, formule
impersonali,
diatesi passiva)
Nominalizzazioni
(impersonalità e
densità
informativa)
A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68
presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato
trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che,
con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato
dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto
specificato.
Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare
lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia
stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco
(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).
In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà
sono valide nel caso in cui già preesista un provvedimento di inabitabilità -
inagibilità, che dovrà essere prodotto allo scrivente ufficio.
Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a
richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico
Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).
Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione
di immobili dichiarati inabitabili sono sanzionate penalmente.
Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un
edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi
dell'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo
Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.
Il burocratese: analisi manuale ...
38
Lunghezza media
frase = 63 parole
Lessico
burocratico
Impersonalità
(forme allocutorie
desuete, formule
impersonali,
diatesi passiva)
Nominalizzazioni
(impersonalità e
densità
informativa)
A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68
presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato
trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che,
con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato
dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto
specificato.
Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare
lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia
stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco
(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).
In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà
sono valide nel caso in cui già preesista un provvedimento di inabitabilità -
inagibilità, che dovrà essere prodotto allo scrivente ufficio.
Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a
richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico
Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).
Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione
di immobili dichiarati inabitabili sono sanzionate penalmente.
Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un
edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi
dell'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo
Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.
Il burocratese: analisi manuale ...
39
Lunghezza media
frase = 63 parole
Lessico
burocratico
Impersonalità
(forme allocutorie
desuete, formule
impersonali,
diatesi passiva)
Nominalizzazioni
(impersonalità e
densità
informativa)
A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68
presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato
trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che,
con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato
dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto
specificato.
Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare
lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia
stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco
(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).
In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà
sono valide nel caso in cui già preesista un provvedimento di inabitabilità -
inagibilità, che dovrà essere prodotto allo scrivente ufficio.
Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a
richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico
Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).
Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione
di immobili dichiarati inabitabili sono sanzionate penalmente.
Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un
edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi
dell'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo
Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.
Il burocratese: analisi manuale ...
40
Lunghezza media
frase = 63 parole
Lessico
burocratico
Impersonalità
(forme allocutorie
desuete, formule
impersonali,
diatesi passiva)
Nominalizzazioni
(impersonalità e
densità
informativa)
.. Riscrittura semplificata
41
Egregio Signore,
con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha
dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.
L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato
nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.
La dichiarazione sostitutiva dell'atto notorio può essere presentata dal
proprietario solo quando esiste una dichiarazione di inabitabilità o
inagibilità rilasciata dal Sindaco.
La invitiamo pertanto a portare nei nostri uffici tale provvedimento.
Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio
Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).
Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il
proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati
inabitabili o inagibili.
Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile
o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista
dall'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della
Valle n. 98/99, tel. 049 8205820-1).
.. Riscrittura semplificata
42
Egregio Signore,
con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha
dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.
L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato
nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.
La dichiarazione sostitutiva dell'atto notorio può essere presentata dal
proprietario solo quando esiste una dichiarazione di inabitabilità o
inagibilità rilasciata dal Sindaco.
La invitiamo pertanto a portare nei nostri uffici tale provvedimento.
Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio
Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).
Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il
proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati
inabitabili o inagibili.
Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile
o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista
dall'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della
Valle n. 98/99, tel. 049 8205820-1).
Forma:
167 parole
distribuite su 8 frasi
(vs. 250 su 7)
Lessico
Personalizzazione
(Lei,
soggetto1°p.plurale)
Sintassi: verbo
attivo con soggetto
espresso
Scioglimento
nominalizzazione
.. Riscrittura semplificata
43
Egregio Signore,
con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha
dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.
L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato
nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.
La dichiarazione sostitutiva dell'atto notorio può essere presentata dal
proprietario solo quando esiste una dichiarazione di inabitabilità o
inagibilità rilasciata dal Sindaco.
La invitiamo pertanto a portare nei nostri uffici tale provvedimento.
Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio
Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).
Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il
proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati
inabitabili o inagibili.
Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile
o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista
dall'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della
Valle n. 98/99, tel. 049 8205820-1).
Forma:
167 parole
distribuite su 8 frasi
(vs. 250 su 7)
Lessico
Personalizzazione
(Lei,
soggetto1°p.plurale)
Sintassi: verbo
attivo con soggetto
espresso
Scioglimento
nominalizzazione
.. Riscrittura semplificata
44
Egregio Signore,
con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha
dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.
L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato
nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.
La dichiarazione sostitutiva dell'atto notorio può essere presentata dal
proprietario solo quando esiste una dichiarazione di inabitabilità o
inagibilità rilasciata dal Sindaco.
La invitiamo pertanto a portare nei nostri uffici tale provvedimento.
Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio
Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).
Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il
proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati
inabitabili o inagibili.
Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile
o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista
dall'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della
Valle n. 98/99, tel. 049 8205820-1).
Forma:
167 parole
distribuite su 8 frasi
(vs. 250 su 7)
Lessico
Personalizzazione
(Lei,
soggetto1°p.plurale)
Sintassi: verbo
attivo con soggetto
espresso
Scioglimento
nominalizzazione
.. Riscrittura semplificata
45
Egregio Signore,
con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha
dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.
L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato
nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.
La dichiarazione sostitutiva dell'atto notorio può essere presentata dal
proprietario solo quando esiste una dichiarazione di inabitabilità o
inagibilità rilasciata dal Sindaco.
La invitiamo pertanto a portare nei nostri uffici tale provvedimento.
Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio
Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).
Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il
proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati
inabitabili o inagibili.
Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile
o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista
dall'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della
Valle n. 98/99, tel. 049 8205820-1).
Forma:
167 parole
distribuite su 8 frasi
(vs. 250 su 7)
Lessico
Personalizzazione
(Lei,
soggetto1°p.plurale)
Sintassi: verbo
attivo con soggetto
espresso
Scioglimento
nominalizzazione
.. Riscrittura semplificata
46
Egregio Signore,
con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha
dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.
L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato
nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.
La dichiarazione sostitutiva dell'atto notorio può essere presentata dal
proprietario solo quando esiste una dichiarazione di inabitabilità o
inagibilità rilasciata dal Sindaco.
La invitiamo pertanto a portare nei nostri uffici tale provvedimento.
Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio
Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).
Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il
proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati
inabitabili o inagibili.
Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile
o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista
dall'art. 10, comma 4, del Decreto Legislativo 504/92.
Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della
Valle n. 98/99, tel. 049 8205820-1).
Forma:
167 parole
distribuite su 8 frasi
(vs. 250 su 7)
Lessico
Personalizzazione
(Lei,
soggetto1°p.plurale)
Sintassi: verbo
attivo con soggetto
espresso
Scioglimento
nominalizzazione
Valutazione in READ-IT
47
originale
riscrittura semplificata
Esempio di lettera di autorizzazione
a) Originale
“Si comunica che, a seguito della Vostra richiesta di poter realizzare la manifestazione indicata in
oggetto, l’Amministrazione Comunale con argomento di Giunta nr. 99 del 23.03.04, ha espresso parere
favorevole allo svolgimento della stessa in Piazza Europa per Domenica 9 maggio c.a.
Si invita pertanto la S.V. a prendere contatti con lo scrivente Settore per gli adempimenti amministrativi,
tecnici e logistici inerenti allo svolgimento dell’iniziativa predetta.”
Valutazione a livello di frase: i luoghi di
complessità
48
b) Semplificata
“Vi comunichiamo che è stata accolta la vostra richiesta di svolgere la IX edizione di “Bimbi in piazza” per
domenica 9 maggio 2004 in Piazza Europa.
Vi invitiamo pertanto a contattarci per gli adempimenti amministrativi, tecnici e logistici.”
Struttura subordinata (che [...] espresso): 27
parole tra testa (congiunzione) e dipendente
(verbo)!
Cosa è stato monitorato?
Una serie di tratti linguistici, rintracciati nel testo annotato a
vari livelli (superficiale, lessicale, morfosintattico, sintattico) e
selezionati:
- sulla base del loro potere predittivo emerso nell’ambito di studi
volti alla valutazione automatica della leggibilità dei testi,
all’identificazione di generi e varietà testuali, al monitoraggio
delle competenze scolastiche, secondo una linea di ricerca attiva
presso il gruppo ItaliaNLP Lab dell’Istituto di Linguistica
Computazionale - CNR di Pisa (Dell’Orletta et al., 2011b,
Dell’Orletta e Montemagni, 2010);
- rispetto alle analisi linguistiche tradizionali sulle peculiarità del
linguaggio burocratico e alle linee guida sulla semplificazione
(Guida alla redazione degli atti amministrativi. Regole e
suggerimenti, ITTIG e Accademia della Crusca, 2011; Cortelazzo
e Pellegrino, 2006; Fortis, 2005)
49
Cosa accomuna testi originali e
riscritture?
Di seguito vedremo alcune indicazioni che
emergono dall’annotazione automatica dei testi:
Livello morfo-sintattico
 Distribuzione delle categorie sintattiche primarie
 Varietà lessicale (Type/Token Ratio)
 Ricchezza lessicale (Densità lessicale)
Livello lessicale
 Rappresentatività del Vocabolario di Base
(Gradit, De Mauro, 2000)
Livello sintattico
 Elevata frequenza di strutture subordinate
0
5
10
15
20
25
30
35
Nouns
Verbs
Prepositions
La distribuzione delle categorie morfo-sintattiche
fondamentali
51
Biber, 1995, p.136: “systematic differences in the relative use of core linguistic
features provide the primary distinguishing characteristics among registers”
0
5
10
15
20
25
30
35
Nouns
Verbs
Prepositions
La distribuzione delle categorie morfo-sintattiche
fondamentali
52
Biber, 1995, p.136: “systematic differences in the relative use of core linguistic
features provide the primary distinguishing characteristics among registers”
2,13
1,67
1,50
2,68
3,01
2,73 2,77 2,68
-
0,50
1,00
1,50
2,00
2,50
3,00
3,50
Rapporto Nomi/Verbi
Varietà lessicale: type/token ratio
53
Type/Token Ratio: Rapporto tra numero di parole tipo in un testo (dizionario) e il numero di
occorrenze totali di parole (unità del dizionario).
Parametro quantitativo per misurare la varietà lessicale (correlato alla leggibilità)
Interpretazione: bassa varietà lessicale = monoreferenzialità del linguaggio amministrativo
Cfr. Guida alla redazione degli atti amministrativi (ITTIG-CNR e Accademia della Crusca):
“In un atto amministrativo è opportuno evitare l’ambiguità e raggiungere il massimo di
esplicitezza: è consigliabile pertanto, anche a costo di numerose ripetizioni, usare sempre lo
stesso termine per designare la stessa azione, lo stesso concetto o la stessa persona.”
0,76
0,8 0,81 0,78
0,46
0,69 0,68 0,70
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Type/Token Ratio
Ricchezza del vocabolario: densità
lessicale
54
Densità lessicale = Rapporto tra parole contenuto (nomi, verbi, aggettivi,
avverbi) sul totale delle parole.
E’ usato come parametro per tradurre quantitativamente la ricchezza
lessicale di un testo.
0,52
0,53
0,54
0,55
0,56
0,57
0,58
Densità lessicale
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
% lemmi inclusi nel VdB % lemmi non inclusi nel VdB
La rappresentatività del Vocabolario di Base
55
Dalla fase di lemmatizzazione automatica possiamo
estrarre indicazioni qualitative sul tipo di vocabolario del
testo
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
% lemmi inclusi nel VdB % lemmi non inclusi nel VdB
67,12
64,94
58
60
62
64
66
68
70
72
74
76
78
% DI LEMMI APPARTENENTI AL LESSICO
FONDAMENTALE
T=2,9863;p=0.0037
La rappresentatività del Vocabolario di Base
56
Dalla fase di lemmatizzazione automatica possiamo
estrarre indicazioni qualitative sul tipo di vocabolario del
testo
Dall’annotazione sintattica a dipendenze possiamo estrarre indicazioni sull’uso della
subordinazione: proporzione principali/subordinate (a) e lunghezza media catene subordinanti (b)
(b)
1,09 1,08
1,16
1,03
1,11
0,95 0,95 0,96
-
0,20
0,40
0,60
0,80
1,00
1,20
1,40
(b)
0%
20%
40%
60%
80%
100%
Coordinate clauses Subordinate clauses(a)
La subordinazione: alcune proprietà
57
Subordinazione=complessità?
Voghera (2001): “non tutta la
subordinazione è uguale:
ciò che costituisce un forte
elemento di complessità non è la
semplice presenza di una
subordinata, ma la combinazione
tra subordinazione e vari fattori:
ordine relativo tra principale e
subordinata; grado di incassatura
della subordinata; rapporto di
corrispondenza tra
concatenazione degli eventi e
sequenza delle clausole.”
Lunghezza media
dell’enunciato
(in numero di token):
Bur_orig: 27,03
Bur_simp: 20,22
t = -6.046991
p≤0.01
Numero Totale di frasi:
Bur_orig: 1.907
Bur_simp: 2.170
58
E il burocratese? Proprietà “superficiali” del
testo
0
5
10
15
20
25
30
35
“Si consiglia di evitare le forme implicite del verbo, come gerundi o participi, quando
potrebbero essere usate le corrispondenti forme esplicite” (dalla “Guida alla redazione degli atti
amministrativi”)
Participi Gerundi
 Indicativi
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
spia, a livello morfo-
sintattico, della tendenza
del burocratese ad
abusare di proposizioni
implicite (es. gerundive,
participiali) nella
costruzione dei rapporti
di subordinazione0
2
4
6
8
10
12
14
16
18
20
Annotazione morfo-sintattica “granulare”: la
caratterizzazione dei modi verbali (infiniti vs finiti)
59
0,00
0,50
1,00
1,50
2,00
2,50
3,00
3,50
4,00
 ANALISI MORFOSINTATTICA - Distribuzione delle “fine-grained” PoS: le
congiunzioni
 ANALISI SINTATTICA A DIPENDENZE - Rapporto subordinate esplicite vs.
implicite
24,68 26,31 29,31 26,9
41,55 35,47 35,54 35,39
67,40 67,25 66,53 63,49
57,45 51,47 48,55 54,38
subordinate esplicite subordinate implicite
60
Altri “indizi” sulla costruzione ipotattica
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Subordinating conjunctions Coordinating conjunctions
coordinanti subordinanti
Bur_simp 2,10 0,99
Bur_orig 1,98 0,77
Cosa suggeriscono i dati estratti dal testo?
La subordinazione, pur essendo un tratto
caratterizzante anche delle riscritture, tende ad
essere realizzata mediante proposizioni introdotte
da congiunzioni subordinanti esplicite che
permettono di chiarire i legami logico-concettuali del
testo e la successione degli eventi.
E’ tipica invece del burocratese la tendenza a
costruire rapporti ipotattici tramite proposizioni
implicite o introdotte da locuzioni complesse (in
riferimento a, ai sensi di, a seguito di), che non solo
appesantiscono il testo ma ne aumentano l’oscurità
e la difficoltà di decodifica da parte del lettore.
RAFFINAMENTO DELL’EQUIVALENZA
“SUBORDINAZIONE=COMPLESSITÀ SINTATTICA”
61
Esempi dal corpus
Originali
(a) Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un
edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi
dell'art. 10, comma 4, del Decreto Legislativo 504/92.
(b) La variazione anagrafica in esame non comporta per i proprietari di autoveicoli
e per i titolari di patente di guida l'obbligo di fare aggiornare la carta di
circolazione e la patente di guida, in quanto tale obbligo è previsto dal
Codice della Strada soltanto per i casi di trasferimento effettivo di
abitazione.
(c) Si ricorda che, mantenendo il regime del diritto di superficie, qualunque
passaggio di proprietà, affitto, cambio societario, ecc. dovrà essere autorizzato
dal Comune di Schio [...]
Semplificati
(a) Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile o
inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista dall'art.
10, comma 4, del Decreto Legislativo 504/92.
(b) I proprietari di autoveicoli e i titolari di patente non sono obbligati a cambiare
l'indirizzo su libretto di circolazione e patente, perché l'obbligo è previsto solo
nel caso di effettivo cambio di abitazione.
(c) Se, invece, preferite mantenere il regime del diritto di superficie, vi
ricordiamo che la convenzione preliminare che avete sottoscritto vi obbliga a
chiedere al Comune di Schio l’autorizzazione preventiva per qualunque
passaggio di proprietà, affitto, cambio societario, ecc.
62
a) Distribuzione delle dipendenze clitiche
”spia” sintattica dell’abuso di costrutti impersonali
(“Si ricorda”, “Si fa presente”, “Si allega” )
Es: “Da tanto, discende l’impossibilità, per questa Amministrazione, di ravvisare gli elementi utili al riconoscimento
dei requisiti di legittimità alla richiesta del permesso in questione, pur nella consapevolezza del ruolo
Indubbiamente rappresentativo della figura del “delegato” e della importanza della sua funzione deliberativa.”
Altri parametri di complessità sintattica
63
b) “pesantezza” dei sintagmi nominali: le catene
preposizionali
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
Dipendenze clitiche
a) Distribuzione delle dipendenze clitiche
”spia” sintattica dell’abuso di costrutti impersonali
(“Si ricorda”, “Si fa presente”, “Si allega” )
Es: “Da tanto, discende l’impossibilità, per questa Amministrazione, di ravvisare gli elementi utili al riconoscimento
dei requisiti di legittimità alla richiesta del permesso in questione, pur nella consapevolezza del ruolo
Indubbiamente rappresentativo della figura del “delegato” e della importanza della sua funzione deliberativa.”
1,29
1,21 1,17
1,4
1,6
1,53 1,51 1,56
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
Altri parametri di complessità sintattica
64
b) “pesantezza” dei sintagmi nominali: le catene
preposizionali
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
Dipendenze clitiche
Lunghezza media catene preposizionali
Conclusioni
 Oltre il contenuto:
◦ le tecnologie linguistico-computazionali
permettono di accedere alla struttura
linguistica di un testo
 L’analisi della forma linguistica ha un
forte potenziale innovativo in diversi
settori applicativi
 È oggi un punto di incontro tra
linguistica e informatica
Ringraziamenti
Il gruppo di ricerca dell’ItaliaNLP Lab e
in particolare il gruppo di ricerca sulla
leggibilità
www.italianlp.it
Giulia Benotto
Dominique Brunato
Andrea Cimino
Felice Dell’Orletta
Simonetta Montemagni
Giulia Venturi
italianlp@ilc.cnr.it

More Related Content

Similar to Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...Giorgia Lodi
 
Intelligenza artificiale
Intelligenza artificialeIntelligenza artificiale
Intelligenza artificialeEnrico La Sala
 
Interoperabilità semantica: metadatazione e ontologie per la PA
Interoperabilità semantica: metadatazione e ontologie per la PAInteroperabilità semantica: metadatazione e ontologie per la PA
Interoperabilità semantica: metadatazione e ontologie per la PAGiorgia Lodi
 
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...Università degli Studi di Trieste
 
Erasmus+KA1 Piùeuropaascuola_CLIL2_A_TSANOS
Erasmus+KA1 Piùeuropaascuola_CLIL2_A_TSANOSErasmus+KA1 Piùeuropaascuola_CLIL2_A_TSANOS
Erasmus+KA1 Piùeuropaascuola_CLIL2_A_TSANOSclaudiadistefano
 
Strumenti compensativi e_dispensativi
Strumenti compensativi e_dispensativiStrumenti compensativi e_dispensativi
Strumenti compensativi e_dispensativiiva martini
 
La terza generazione di screen font: readability nei nuovi contesti mobile
La terza generazione di screen font: readability nei nuovi contesti mobileLa terza generazione di screen font: readability nei nuovi contesti mobile
La terza generazione di screen font: readability nei nuovi contesti mobileErika Montoli
 
ECLAP tutorial, see http://www.eclap.eu, social networking, aggregation, myst...
ECLAP tutorial, see http://www.eclap.eu, social networking, aggregation, myst...ECLAP tutorial, see http://www.eclap.eu, social networking, aggregation, myst...
ECLAP tutorial, see http://www.eclap.eu, social networking, aggregation, myst...Paolo Nesi
 
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...libriedocumenti
 
Introduzione alla terminologia
Introduzione alla terminologiaIntroduzione alla terminologia
Introduzione alla terminologiaLuigi Muzii
 
Lo standard MPEG-7 per la definizione di metadati di oggetti multimediali
Lo standard MPEG-7 per la definizione di metadati di oggetti multimedialiLo standard MPEG-7 per la definizione di metadati di oggetti multimediali
Lo standard MPEG-7 per la definizione di metadati di oggetti multimedialidelfinostefano
 
Robin - Un progetto di Apulian ICT Living Labs
Robin - Un progetto di Apulian ICT Living LabsRobin - Un progetto di Apulian ICT Living Labs
Robin - Un progetto di Apulian ICT Living LabsApulian ICT Living Labs
 
DSpace per la conservazione di oggetti digitali: breve introduzione.
DSpace per la conservazione di oggetti digitali:  breve introduzione.DSpace per la conservazione di oggetti digitali:  breve introduzione.
DSpace per la conservazione di oggetti digitali: breve introduzione.Lucia Bertini
 
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...Paolo Nesi
 
Didattica digitale -Language teaching and technology sciubba20131116kuleuven
Didattica digitale -Language teaching and technology sciubba20131116kuleuvenDidattica digitale -Language teaching and technology sciubba20131116kuleuven
Didattica digitale -Language teaching and technology sciubba20131116kuleuvenEleonora Sciubba
 
COACH - Un workbench per l'analisi dei testi e l'estrazione di termini
COACH - Un workbench per l'analisi dei testi e l'estrazione di terminiCOACH - Un workbench per l'analisi dei testi e l'estrazione di termini
COACH - Un workbench per l'analisi dei testi e l'estrazione di terminiPlone for Research and University
 
Laboratorio di redazioni specialistiche 2012 - 1
Laboratorio di redazioni specialistiche 2012 - 1Laboratorio di redazioni specialistiche 2012 - 1
Laboratorio di redazioni specialistiche 2012 - 1redazionispecialistiche
 
Modulo: Aspetti educativi e di comunicazione del multimedia
Modulo: Aspetti educativi e di comunicazione del multimediaModulo: Aspetti educativi e di comunicazione del multimedia
Modulo: Aspetti educativi e di comunicazione del multimediaCaterina Policaro
 

Similar to Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo (20)

OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
 
Intelligenza artificiale
Intelligenza artificialeIntelligenza artificiale
Intelligenza artificiale
 
Interoperabilità semantica: metadatazione e ontologie per la PA
Interoperabilità semantica: metadatazione e ontologie per la PAInteroperabilità semantica: metadatazione e ontologie per la PA
Interoperabilità semantica: metadatazione e ontologie per la PA
 
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
 
Erasmus+KA1 Piùeuropaascuola_CLIL2_A_TSANOS
Erasmus+KA1 Piùeuropaascuola_CLIL2_A_TSANOSErasmus+KA1 Piùeuropaascuola_CLIL2_A_TSANOS
Erasmus+KA1 Piùeuropaascuola_CLIL2_A_TSANOS
 
Strategie Per Un Lor Federato
Strategie Per Un Lor FederatoStrategie Per Un Lor Federato
Strategie Per Un Lor Federato
 
Strumenti compensativi e_dispensativi
Strumenti compensativi e_dispensativiStrumenti compensativi e_dispensativi
Strumenti compensativi e_dispensativi
 
La terza generazione di screen font: readability nei nuovi contesti mobile
La terza generazione di screen font: readability nei nuovi contesti mobileLa terza generazione di screen font: readability nei nuovi contesti mobile
La terza generazione di screen font: readability nei nuovi contesti mobile
 
ECLAP tutorial, see http://www.eclap.eu, social networking, aggregation, myst...
ECLAP tutorial, see http://www.eclap.eu, social networking, aggregation, myst...ECLAP tutorial, see http://www.eclap.eu, social networking, aggregation, myst...
ECLAP tutorial, see http://www.eclap.eu, social networking, aggregation, myst...
 
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato S...
 
Scholnet
ScholnetScholnet
Scholnet
 
Introduzione alla terminologia
Introduzione alla terminologiaIntroduzione alla terminologia
Introduzione alla terminologia
 
Lo standard MPEG-7 per la definizione di metadati di oggetti multimediali
Lo standard MPEG-7 per la definizione di metadati di oggetti multimedialiLo standard MPEG-7 per la definizione di metadati di oggetti multimediali
Lo standard MPEG-7 per la definizione di metadati di oggetti multimediali
 
Robin - Un progetto di Apulian ICT Living Labs
Robin - Un progetto di Apulian ICT Living LabsRobin - Un progetto di Apulian ICT Living Labs
Robin - Un progetto di Apulian ICT Living Labs
 
DSpace per la conservazione di oggetti digitali: breve introduzione.
DSpace per la conservazione di oggetti digitali:  breve introduzione.DSpace per la conservazione di oggetti digitali:  breve introduzione.
DSpace per la conservazione di oggetti digitali: breve introduzione.
 
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
Architetture Distribuite per la Creazione e lo Sfruttamento della Conoscenza,...
 
Didattica digitale -Language teaching and technology sciubba20131116kuleuven
Didattica digitale -Language teaching and technology sciubba20131116kuleuvenDidattica digitale -Language teaching and technology sciubba20131116kuleuven
Didattica digitale -Language teaching and technology sciubba20131116kuleuven
 
COACH - Un workbench per l'analisi dei testi e l'estrazione di termini
COACH - Un workbench per l'analisi dei testi e l'estrazione di terminiCOACH - Un workbench per l'analisi dei testi e l'estrazione di termini
COACH - Un workbench per l'analisi dei testi e l'estrazione di termini
 
Laboratorio di redazioni specialistiche 2012 - 1
Laboratorio di redazioni specialistiche 2012 - 1Laboratorio di redazioni specialistiche 2012 - 1
Laboratorio di redazioni specialistiche 2012 - 1
 
Modulo: Aspetti educativi e di comunicazione del multimedia
Modulo: Aspetti educativi e di comunicazione del multimediaModulo: Aspetti educativi e di comunicazione del multimedia
Modulo: Aspetti educativi e di comunicazione del multimedia
 

More from Laboratorio di Cultura Digitale, Università di Pisa

More from Laboratorio di Cultura Digitale, Università di Pisa (20)

Cultural heritage, dalla digitalizzazione al web: nuovi strumenti e possibili...
Cultural heritage, dalla digitalizzazione al web: nuovi strumenti e possibili...Cultural heritage, dalla digitalizzazione al web: nuovi strumenti e possibili...
Cultural heritage, dalla digitalizzazione al web: nuovi strumenti e possibili...
 
Road to Wordpress - A gentle introduction
Road to Wordpress - A gentle introductionRoad to Wordpress - A gentle introduction
Road to Wordpress - A gentle introduction
 
Enrica Bricchetto La lezione digitale a scuola e all'università con gli EAS ...
Enrica Bricchetto  La lezione digitale a scuola e all'università con gli EAS ...Enrica Bricchetto  La lezione digitale a scuola e all'università con gli EAS ...
Enrica Bricchetto La lezione digitale a scuola e all'università con gli EAS ...
 
Saper presentare la propria ricerca Perché la slide "grazie per l'attenzione"...
Saper presentare la propria ricerca Perché la slide "grazie per l'attenzione"...Saper presentare la propria ricerca Perché la slide "grazie per l'attenzione"...
Saper presentare la propria ricerca Perché la slide "grazie per l'attenzione"...
 
S cultura digitale - L'Abbate
S cultura digitale - L'AbbateS cultura digitale - L'Abbate
S cultura digitale - L'Abbate
 
The Digital Culture Laboratory in Pisa
The Digital Culture Laboratory in Pisa The Digital Culture Laboratory in Pisa
The Digital Culture Laboratory in Pisa
 
Silvestre- The LdoD project
Silvestre- The LdoD  projectSilvestre- The LdoD  project
Silvestre- The LdoD project
 
Lorenzo Fabbri - Google, Facebook e gli altri
Lorenzo Fabbri - Google, Facebook e gli altriLorenzo Fabbri - Google, Facebook e gli altri
Lorenzo Fabbri - Google, Facebook e gli altri
 
Digicraft and 'Systemic' Thinking in Digital Humanities Reasoning on the Per...
Digicraft and 'Systemic' Thinking  in Digital Humanities Reasoning on the Per...Digicraft and 'Systemic' Thinking  in Digital Humanities Reasoning on the Per...
Digicraft and 'Systemic' Thinking in Digital Humanities Reasoning on the Per...
 
Simone Testa - Database Italian Academies 1525-1700
Simone Testa -  Database Italian Academies 1525-1700Simone Testa -  Database Italian Academies 1525-1700
Simone Testa - Database Italian Academies 1525-1700
 
Codifice Pelavicino between Digital Edition and Public History
Codifice Pelavicino between Digital Edition and Public HistoryCodifice Pelavicino between Digital Edition and Public History
Codifice Pelavicino between Digital Edition and Public History
 
Metodi e problemi dell'analisi quantitativa dei testi letterari
Metodi e problemi dell'analisi quantitativa dei testi letterariMetodi e problemi dell'analisi quantitativa dei testi letterari
Metodi e problemi dell'analisi quantitativa dei testi letterari
 
La valutazione della ricerca
La valutazione della ricercaLa valutazione della ricerca
La valutazione della ricerca
 
Ontologie informatiche della geografia: una sistematizzazione del dibattito c...
Ontologie informatiche della geografia: una sistematizzazione del dibattito c...Ontologie informatiche della geografia: una sistematizzazione del dibattito c...
Ontologie informatiche della geografia: una sistematizzazione del dibattito c...
 
L'antenato comune
L'antenato comuneL'antenato comune
L'antenato comune
 
La conservazione dei documenti digitali
La conservazione dei documenti digitaliLa conservazione dei documenti digitali
La conservazione dei documenti digitali
 
Progettare e analizzare la qualità degli ambienti informativi digitali attrav...
Progettare e analizzare la qualità degli ambienti informativi digitali attrav...Progettare e analizzare la qualità degli ambienti informativi digitali attrav...
Progettare e analizzare la qualità degli ambienti informativi digitali attrav...
 
Il digitale nell'educazione universitaria. Proposte di ricerca a partire dal ...
Il digitale nell'educazione universitaria. Proposte di ricerca a partire dal ...Il digitale nell'educazione universitaria. Proposte di ricerca a partire dal ...
Il digitale nell'educazione universitaria. Proposte di ricerca a partire dal ...
 
Comunicazione scientifica ed editoria accademica, A.D. 2016
Comunicazione scientifica ed editoria accademica, A.D. 2016Comunicazione scientifica ed editoria accademica, A.D. 2016
Comunicazione scientifica ed editoria accademica, A.D. 2016
 
Conoscere l'intertestualità e i suoi dispositivi di comunicazione con MP: un...
Conoscere l'intertestualità e i suoi dispositivi di comunicazione con MP:  un...Conoscere l'intertestualità e i suoi dispositivi di comunicazione con MP:  un...
Conoscere l'intertestualità e i suoi dispositivi di comunicazione con MP: un...
 

Recently uploaded

Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaStefano Lariccia
 
RICERCA_SUGLI ANFIBI PER LA PRIMA MEDIA.
RICERCA_SUGLI ANFIBI PER LA PRIMA MEDIA.RICERCA_SUGLI ANFIBI PER LA PRIMA MEDIA.
RICERCA_SUGLI ANFIBI PER LA PRIMA MEDIA.giuliofiorerm
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 
San Giorgio e la leggenda del drago.pptx
San Giorgio e la leggenda del drago.pptxSan Giorgio e la leggenda del drago.pptx
San Giorgio e la leggenda del drago.pptxMartin M Flynn
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 

Recently uploaded (8)

Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
 
RICERCA_SUGLI ANFIBI PER LA PRIMA MEDIA.
RICERCA_SUGLI ANFIBI PER LA PRIMA MEDIA.RICERCA_SUGLI ANFIBI PER LA PRIMA MEDIA.
RICERCA_SUGLI ANFIBI PER LA PRIMA MEDIA.
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
San Giorgio e la leggenda del drago.pptx
San Giorgio e la leggenda del drago.pptxSan Giorgio e la leggenda del drago.pptx
San Giorgio e la leggenda del drago.pptx
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 

Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

  • 1. Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo. Cosa, come, perchè Dominique Brunato, Felice Dell’Orletta, Giulia Venturi Istituto di Linguistica Computazionale «Antonio Zampolli» (ILC-CNR) ItaliaNLP Lab www.italianlp.it Seminario di Cultura Digitale Pisa, 11 dicembre 2013
  • 2. Extraction of Named Entities Extraction of semantic relations Extraction of domain-relevant entities Extraction of temporal expressions Graph-based Knowledge Representation L’accessoalcontenuto Le tecnologie linguistico- computazionali per …
  • 3. Extraction of Named Entities Extraction of semantic relations Extraction of domain-relevant entities Extraction of temporal expressions Graph-based Knowledge Representation Linguistic profiling of texts Textual genre assessment Readability level assessment Native Language Identification Monitoring of variation across language varieties Oltreilcontenuto:la strutturalinguistica L’accessoalcontenuto Le tecnologie linguistico- computazionali per …
  • 4. text Tokenizer Morphological analyzer PoS Tagger Dependency parser Sentence Splitter Catena di analisi linguistica • Annotazione morfo-sintattica – a ogni token del testo viene associata informazione relativa alla categoria grammaticale che la parola ha nel contesto specifico e il relativo lemma • Annotazione sintattica a dipendenze – analisi della struttura sintattica della frase in termini di relazioni di dipendenza (es. soggetto, oggetto, etc.) Le tecnologie linguistiche • Segmentazione in frasi e tokenizzazione (ovvero segmentazione del testo in parole ortografiche o tokens
  • 5. Annotazione sintattica a dipendenze Conll-2007: 81.3% LAS Evalita 2009: 83.38% LAS Stato dell’arte per l’italiano Annotazione morfo-sintattica Evalita 2009: accuratezza = 96,34% Stato dell’arte per l’italiano Le tecnologie linguistiche
  • 6. MONITOR-It Strumento per l’estrazione automatica delle caratteristiche linguistiche di un testo Corpus linguisticamente analizzato in modo automatico Vocabolario di Base Il profilo linguistico di un testo è ricostruito  sulla base delle caratteristiche linguistiche rilevate rispetto a diversi livelli di annotazione linguistica  lemmatizzazione  annotazione morfo-sintattica  annotazione sintattica a dipendenze L’accesso alla struttura linguistica del testo: il profilo linguistico
  • 7. Le caratteristiche lessicali  Ripartizione del vocabolario appartenente al VdB rispetto ai repertori di uso Fondamentale, Alto Uso, Alta Disponibilità Rep Narr Suss 2Par RaccFant Giur Rapporto tipo/unità 0.72 0.70 0.68 0.55 0.18 0.38 Percentuale del vocabolario appartenente al VdB 67.1 71.76 73.57 74.58 56.93 35.60 30,73 32,41 51,99 54,54 59,46 46,12 40,34 41,64 33,95 31,95 31,01 40,02 28,93 25,94 14,06 13,51 9,53 13,86 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Rep Narr Suss 2Par RaccFant Giur FO AU AD
  • 8. Le caratteristiche morfo-sintattiche 0 5 10 15 20 25 30 35 40 Agg Avv Cong Det Prep Punt Int Num Pron Art Sost Predet Verb Altro Rep Narr Suss 2Par RaccFant Giur Distribuzione delle categorie morfo- sintattiche
  • 9. Le caratteristiche sintattiche 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 1 2 3 4 5 6 7 8 9 >=10 Rep Narr Suss 2Par RaccFant Giur Hmax=6 HPP=12 Prof. media Suss 1.27 RaccFant 1.31 2Par 1.36 Narr 1.36 Rep 1.45 Giur 1.84 Profondità delle “catene” di complementi preposizionali Altezza massima degli alberi5.72 5.10 4.96 5.43 5.85 5.27 4.40 4.60 4.80 5.00 5.20 5.40 5.60 5.80 6.00 Media altezza max alberi Rep Narr Suss 2Par RaccFant Giur
  • 10. Le caratteristiche sintattiche 65.11 65.30 62.95 77.37 56.72 74.55 34.89 34.70 37.05 22.63 43.28 25.45 0.00 20.00 40.00 60.00 80.00 100.00 Rep Narr Suss 2Par RaccFant Giur Principali Subordinate Pre Post Rep 12.28 87.72 Narr 12.30 87.70 Suss 13.03 86.97 2Par 11.60 88.40 RaccFant 5.58 94.42 Giur 11.69 88.31 Rep Narr Suss 2Par RaccFant Giur Media clausole/periodo 2.41 2.65 2.67 2.40 3.37 1.64 Ordine relativo delle subordinate rispetto alla principaleVoghera 1992: subord 23%-40%
  • 11. Le caratteristiche sintattiche  Congiunzioni coordinanti: cosa collegano  Informazione reperibile soltanto a partire da un’annotazione a dipendenze 37.04 43.52 54.92 31.32 63.22 15.03 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 Coordinazione verbale Rep Narr Suss 2Par RaccFant Giur 9.34 2.48 7.73 25.54 54.92 Suss 7.60 4.89 36.8835.62 15.03 Adj Altro Prep Sost Verb Giur 7.31 3.11 14.39 38.14 37.04 Rep Coordinazione per categoria morfo-sintattica
  • 12. Scenari applicativi  Classificazione del genere testuale  Riconoscimento della lingua madre  Attribuzione del testo all’autore  Identificazione di plagi  Valutazione della leggibilità  Semplificazione del testo  Valutazione delle competenze linguistiche di uno scrivente  …
  • 13. Esperimenti  Classificatore basato su Support Vector Machines  Due modelli che usano caratteristiche linguistiche diverse  Training data: 368 (Lit); 583 (Jour); 137 (Edu); 317 (Scient)  Test data: 60 documenti per ogni genere testuale Classificazione del genere testuale MONITOR-It Strumento per l’estrazione automatica delle caratteristiche linguistiche di un testo Corpus linguisticamente analizzato Vocabolario italiano di base Classificatore di generi testuali Lexical model (Accuracy: 62.18) Syntax model (Accuracy: 76.47) Genre Prec Rec F–meas Prec Rec F–meas Journ 44.64 83.33 58.14 61.63 88.33 72.60 Lit 77.59 76.27 76.92 85.71 91.52 88.52 Edu 80 6.77 12.5 92.59 42.37 58.14 Scient 77.78 81.67 79.67 80.64 83.33 81.97
  • 14. Scenari applicativi  Classificazione del genere testuale  Riconoscimento della lingua madre  Attribuzione del testo all’autore  Identificazione di plagi  Valutazione della leggibilità  Semplificazione del testo  Valutazione delle competenze linguistiche di uno scrivente  …
  • 15. Riconoscimento della lingua madre Corpus linguisticamente analizzato Strumento per l’estrazione automatica delle caratteristiche linguistiche di un testo Classificatore della lingua madre Esperimenti  Classificatore basato su Support Vector Machines  Diversi modelli che usano caratteristiche linguistiche diverse  Training data: 1000 esami inglese per 11 lingue  Test data: 100 documenti per ogni L1 ARA CHI FRE GER HIN ITA JPN KOR SPA TEL TUR Acc 73.8 77.5 83.2 87.3 71.1 86.0 78.8 74.2 70.8 76.2 78.0
  • 16. Scenari applicativi  Classificazione del genere testuale  Riconoscimento della lingua madre  Attribuzione del testo all’autore  Identificazione di plagi  Valutazione della leggibilità  Semplificazione del testo  Valutazione delle competenze linguistiche di uno scrivente  …
  • 17. READ-IT: uno strumento per l’analisi della leggibilità di un testo Tecnologie linguistiche Estrazione automatica delle caratteristiche linguistiche del testo (profilo linguistico) Valutazione della leggibilità del testo e individuazione dei luoghi di complessità READ-IT
  • 18. READ-IT: approccio generale (un ausilio alla semplificazione del testo) Riscrittura del testo seguendo le indicazioni di READ-IT
  • 19. READ-IT: approccio generale (verso una comunicazione semplificata)
  • 20. READ-IT: un esempio Calcolo della leggibilità dei primi 12 articoli della Costituzione Italiana
  • 21. READ-IT: un esempio (valutazione globale della leggibilità)
  • 22. READ-IT: un esempio (il profilo linguistico del testo)
  • 23. READ-IT: un esempio (valutazione della leggibilità a livello di frase con identificazione dei luoghi di complessità)
  • 24. READ-IT: uno strumento automatico per l’analisi della leggibilità di un testo READ-It Monitoraggio delle caratteristiche linguistiche di collezioni di testi Studio dei fattori che rendono un testo complesso Modelli della comprensione linguistica Valutazione dell’efficacia comunicativa di testi nella comunicazione •Amministratore-Cittadino (Osservatorio per la redazione di atti amministrativi – Crusca – ITTIG-CNR) •Insegnante-studente (Progetto CNR “Migrazioni”) •Operatore di Call Center- utente finale (collaborazione con Vodafone) • Medico-Paziente (progetto SUIT-HEART Progetto Italiano “Istituto Toscano Tumori”) • Autore editoria scolastica- studenti (progetto Regione Toscana iSLe, in corso)
  • 25. Per fornire un supporto all’insegnante nella personalizzazione della sua azione formativa READ-IT Nelle Linee Guida dell’Azione “Editoria Digitale Scolastica” emanata dal MIUR si prefigurano “prodotti multimediali le cui singole componenti possano essere utilizzate dai docenti per lo sviluppo di materiali didattici personalizzati”
  • 26.  I testi scolastici sono tipicamente tarati su bisogni standard della classe, le cui caratteristiche si presentano al giorno d’oggi come molto più variegate e multiformi che nel passato  Per evitare che questa situazione possa produrre ricadute negative sul processo formativo di studenti con uno svantaggio linguistico e/o cognitivo è necessaria una personalizzazione di tali materiali che tenga conto delle competenze linguistiche dello studente 26 Distanza: Ortografia Lessico Morfologia Sintassi Semantica Personalizzazione dei materiali didattici
  • 27. iSLe – intelligent Semantic Liquid eBook Progetto finanziato dalla Regione Toscana (POR CReO 2007 – 2013) in collaborazione con M.E.T.A SRL, 01Servizi SRL, VIDITRUST SRL, SPACE SPA Sviluppo di una piattaforma innovativa per l’editoria digitale scolastica arricchita con tecnologie linguistico- computazionali READ-IT sarà alla base di funzionalità per la valutazione della leggibilità del testo e come supporto alla sua eventuale semplificazione READ-IT nella piattaforma iSLe
  • 28. Per fornire un supporto alla redazione dei testi usati nei call-centers migliorando i processi di comunicazione con l’utente READ-IT Collaborazione con Vodafone Omnitel per lo sviluppo di un sistema di analisi della leggibilità e supporto alla semplificazione usato nella piattaforma «Vodafone My Language» per la redazione dei testi
  • 30. “Medical writing is a highly skilled, calculated attempt to confuse the reader ” (N Engl J Med 1975; 293:1257-9) READ-IT Progetto SUIT-HEART Progetto Italiano “Istituto Toscano Tumori” finalizzato ad assistere la redazione di consensi informati semplici e leggibili
  • 31. Prima della semplificazione Dopo la semplificazione Medico-paziente: verso una comunicazione semplificata
  • 32. Per semplificare e migliorare i processi di comunicazione tra istituzioni e cittadini READ-ITREAD-IT Nella «Guida per la redazione degli atti amministrativi» (ITTIG-CNR e Accademia della Crusca) si invita a redigere un atto amministrativo che sia «comprensibile a tutti suoi fruitori, in termini di contenuti e di scelte linguistiche che li veicolano»
  • 33. Linguaggio burocratico o burocratese?  Il linguaggio burocratico è una varietà linguistica particolare, caratterizzata da un livello di complessità “ineliminabile” ma anche da un ampio spettro di tratti linguistici che esprimono un tipo di complessità “inutile” (il burocratese), dunque semplificabile.  «Per verificare la comprensibilità degli atti amministrativi si suggerisce, inoltre, l’impiego di software (programmi) per l’analisi dei testi.» (Direttiva 8 maggio 2002, Presidenza del Consiglio dei Ministri – Dip. Funzione Pubblica) READ-IT per:  Valutare la leggibilità dei testi delle pubbliche amministrazioni;  Individuare i tratti di complessità;  Discriminare i tratti di complessità “necessaria” dagli stilemi tipici del “burocratese”; 33
  • 34. Materiali e Metodo MATERIALI: Raccolta di un corpus allineato, composto da 87 coppie di testi amministrativi, costituiti dalla versione originale (Bur_orig) e dalla relativa versione semplificata (Bur_simp). 3 macro-tipologie:  autorità emanante: ◦ Amministrazioni comunali (corpus “TACS”, Prof. Michele Cortelazzo, Dipartimento di Linguistica, Università di Padova) ◦ Università: progetto “Comunicazioni Istituzionali nelle Università. Raccolta di Modelli Testuali.” promosso dal “Consorzio Interuniversitario sulla Formazione (Co.Info.)” ◦ Ministro dell’Interno: “Istruzioni per le operazioni degli uffici elettorali di sezione”, Ministero dell’Interno, Dipartimento per gli Affari Interni e Territoriali, 2006  tipologia del documento: differenti tipologie di documenti amministrativi (autorizzazioni, concessioni, nulla osta, ordini, comandi, comunicazioni, modulistica);  grado di formalità METODO: Monitoraggio linguistico (linguistic profiling) in chiave comparativa a partire dall’output dell’annotazione linguistica automatica. 34
  • 35. 35 Genere Corpus n°di testi n°token Giornalismo La Repubblica (Marinelli et al., 2003) 321 232.908 Due Parole (Piemontese, 1996) 322 73.314 Tot: 643 Tot: 306,222 Letteratura Letteratura per bambini (Marconi et al., 1994) 101 19.370 Letteratura per adulti (Marinelli et al., 2003) 327 471.421 Tot: 428 Tot: 306,222 Materiali didattici Scuola Primaria (Dell’Orletta et al. , 2011b) 127 48,036 Scuola Secondaria (Dell’Orletta et al., 2011 b) 70 48,103 Tot: 197 Tot: 96,139 Prosa scientifica Wikipedia, sezione “Ecologia e Ambiente” 293 205,071 Articoli scientifici specialistici 84 471,969 Tot: 377 Tot: 677,040 Linguaggio giuridico Atti legislativi in materia ambientale 553 1,309,866 Costituzione italiana (1947) 1 10,487 Tot: 554 Tot: 1.320,353 Linguaggio amministrativo Testi burocratici originali (Bur_orig) 87 Tot: 61.208 Testi burocratici semplificati (Bur_simp) 87 Tot: 43. 780 Tot: 174 Tot: 104.988 I CORPORA
  • 36. A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68 presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che, con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto specificato. Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco (art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90). In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà sono valide nel caso in cui già preesista un provvedimento di inabitabilità - inagibilità, che dovrà essere prodotto allo scrivente ufficio. Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707). Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione di immobili dichiarati inabitabili sono sanzionate penalmente. Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi dell'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1. Il burocratese: analisi manuale ... 36
  • 37. A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68 presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che, con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto specificato. Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco (art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90). In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà sono valide nel caso in cui già preesista un provvedimento di inabitabilità - inagibilità, che dovrà essere prodotto allo scrivente ufficio. Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707). Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione di immobili dichiarati inabitabili sono sanzionate penalmente. Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi dell'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1. Il burocratese: analisi manuale ... 37 Lunghezza media frase = 63 parole Lessico burocratico Impersonalità (forme allocutorie desuete, formule impersonali, diatesi passiva) Nominalizzazioni (impersonalità e densità informativa)
  • 38. A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68 presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che, con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto specificato. Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco (art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90). In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà sono valide nel caso in cui già preesista un provvedimento di inabitabilità - inagibilità, che dovrà essere prodotto allo scrivente ufficio. Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707). Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione di immobili dichiarati inabitabili sono sanzionate penalmente. Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi dell'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1. Il burocratese: analisi manuale ... 38 Lunghezza media frase = 63 parole Lessico burocratico Impersonalità (forme allocutorie desuete, formule impersonali, diatesi passiva) Nominalizzazioni (impersonalità e densità informativa)
  • 39. A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68 presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che, con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto specificato. Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco (art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90). In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà sono valide nel caso in cui già preesista un provvedimento di inabitabilità - inagibilità, che dovrà essere prodotto allo scrivente ufficio. Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707). Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione di immobili dichiarati inabitabili sono sanzionate penalmente. Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi dell'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1. Il burocratese: analisi manuale ... 39 Lunghezza media frase = 63 parole Lessico burocratico Impersonalità (forme allocutorie desuete, formule impersonali, diatesi passiva) Nominalizzazioni (impersonalità e densità informativa)
  • 40. A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68 presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che, con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto specificato. Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco (art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90). In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà sono valide nel caso in cui già preesista un provvedimento di inabitabilità - inagibilità, che dovrà essere prodotto allo scrivente ufficio. Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707). Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione di immobili dichiarati inabitabili sono sanzionate penalmente. Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi dell'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1. Il burocratese: analisi manuale ... 40 Lunghezza media frase = 63 parole Lessico burocratico Impersonalità (forme allocutorie desuete, formule impersonali, diatesi passiva) Nominalizzazioni (impersonalità e densità informativa)
  • 41. .. Riscrittura semplificata 41 Egregio Signore, con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1. L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile. La dichiarazione sostitutiva dell'atto notorio può essere presentata dal proprietario solo quando esiste una dichiarazione di inabitabilità o inagibilità rilasciata dal Sindaco. La invitiamo pertanto a portare nei nostri uffici tale provvedimento. Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707). Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati inabitabili o inagibili. Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista dall'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della Valle n. 98/99, tel. 049 8205820-1).
  • 42. .. Riscrittura semplificata 42 Egregio Signore, con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1. L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile. La dichiarazione sostitutiva dell'atto notorio può essere presentata dal proprietario solo quando esiste una dichiarazione di inabitabilità o inagibilità rilasciata dal Sindaco. La invitiamo pertanto a portare nei nostri uffici tale provvedimento. Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707). Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati inabitabili o inagibili. Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista dall'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della Valle n. 98/99, tel. 049 8205820-1). Forma: 167 parole distribuite su 8 frasi (vs. 250 su 7) Lessico Personalizzazione (Lei, soggetto1°p.plurale) Sintassi: verbo attivo con soggetto espresso Scioglimento nominalizzazione
  • 43. .. Riscrittura semplificata 43 Egregio Signore, con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1. L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile. La dichiarazione sostitutiva dell'atto notorio può essere presentata dal proprietario solo quando esiste una dichiarazione di inabitabilità o inagibilità rilasciata dal Sindaco. La invitiamo pertanto a portare nei nostri uffici tale provvedimento. Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707). Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati inabitabili o inagibili. Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista dall'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della Valle n. 98/99, tel. 049 8205820-1). Forma: 167 parole distribuite su 8 frasi (vs. 250 su 7) Lessico Personalizzazione (Lei, soggetto1°p.plurale) Sintassi: verbo attivo con soggetto espresso Scioglimento nominalizzazione
  • 44. .. Riscrittura semplificata 44 Egregio Signore, con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1. L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile. La dichiarazione sostitutiva dell'atto notorio può essere presentata dal proprietario solo quando esiste una dichiarazione di inabitabilità o inagibilità rilasciata dal Sindaco. La invitiamo pertanto a portare nei nostri uffici tale provvedimento. Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707). Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati inabitabili o inagibili. Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista dall'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della Valle n. 98/99, tel. 049 8205820-1). Forma: 167 parole distribuite su 8 frasi (vs. 250 su 7) Lessico Personalizzazione (Lei, soggetto1°p.plurale) Sintassi: verbo attivo con soggetto espresso Scioglimento nominalizzazione
  • 45. .. Riscrittura semplificata 45 Egregio Signore, con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1. L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile. La dichiarazione sostitutiva dell'atto notorio può essere presentata dal proprietario solo quando esiste una dichiarazione di inabitabilità o inagibilità rilasciata dal Sindaco. La invitiamo pertanto a portare nei nostri uffici tale provvedimento. Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707). Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati inabitabili o inagibili. Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista dall'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della Valle n. 98/99, tel. 049 8205820-1). Forma: 167 parole distribuite su 8 frasi (vs. 250 su 7) Lessico Personalizzazione (Lei, soggetto1°p.plurale) Sintassi: verbo attivo con soggetto espresso Scioglimento nominalizzazione
  • 46. .. Riscrittura semplificata 46 Egregio Signore, con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1. L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile. La dichiarazione sostitutiva dell'atto notorio può essere presentata dal proprietario solo quando esiste una dichiarazione di inabitabilità o inagibilità rilasciata dal Sindaco. La invitiamo pertanto a portare nei nostri uffici tale provvedimento. Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707). Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati inabitabili o inagibili. Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista dall'art. 10, comma 4, del Decreto Legislativo 504/92. Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della Valle n. 98/99, tel. 049 8205820-1). Forma: 167 parole distribuite su 8 frasi (vs. 250 su 7) Lessico Personalizzazione (Lei, soggetto1°p.plurale) Sintassi: verbo attivo con soggetto espresso Scioglimento nominalizzazione
  • 48. Esempio di lettera di autorizzazione a) Originale “Si comunica che, a seguito della Vostra richiesta di poter realizzare la manifestazione indicata in oggetto, l’Amministrazione Comunale con argomento di Giunta nr. 99 del 23.03.04, ha espresso parere favorevole allo svolgimento della stessa in Piazza Europa per Domenica 9 maggio c.a. Si invita pertanto la S.V. a prendere contatti con lo scrivente Settore per gli adempimenti amministrativi, tecnici e logistici inerenti allo svolgimento dell’iniziativa predetta.” Valutazione a livello di frase: i luoghi di complessità 48 b) Semplificata “Vi comunichiamo che è stata accolta la vostra richiesta di svolgere la IX edizione di “Bimbi in piazza” per domenica 9 maggio 2004 in Piazza Europa. Vi invitiamo pertanto a contattarci per gli adempimenti amministrativi, tecnici e logistici.” Struttura subordinata (che [...] espresso): 27 parole tra testa (congiunzione) e dipendente (verbo)!
  • 49. Cosa è stato monitorato? Una serie di tratti linguistici, rintracciati nel testo annotato a vari livelli (superficiale, lessicale, morfosintattico, sintattico) e selezionati: - sulla base del loro potere predittivo emerso nell’ambito di studi volti alla valutazione automatica della leggibilità dei testi, all’identificazione di generi e varietà testuali, al monitoraggio delle competenze scolastiche, secondo una linea di ricerca attiva presso il gruppo ItaliaNLP Lab dell’Istituto di Linguistica Computazionale - CNR di Pisa (Dell’Orletta et al., 2011b, Dell’Orletta e Montemagni, 2010); - rispetto alle analisi linguistiche tradizionali sulle peculiarità del linguaggio burocratico e alle linee guida sulla semplificazione (Guida alla redazione degli atti amministrativi. Regole e suggerimenti, ITTIG e Accademia della Crusca, 2011; Cortelazzo e Pellegrino, 2006; Fortis, 2005) 49
  • 50. Cosa accomuna testi originali e riscritture? Di seguito vedremo alcune indicazioni che emergono dall’annotazione automatica dei testi: Livello morfo-sintattico  Distribuzione delle categorie sintattiche primarie  Varietà lessicale (Type/Token Ratio)  Ricchezza lessicale (Densità lessicale) Livello lessicale  Rappresentatività del Vocabolario di Base (Gradit, De Mauro, 2000) Livello sintattico  Elevata frequenza di strutture subordinate
  • 51. 0 5 10 15 20 25 30 35 Nouns Verbs Prepositions La distribuzione delle categorie morfo-sintattiche fondamentali 51 Biber, 1995, p.136: “systematic differences in the relative use of core linguistic features provide the primary distinguishing characteristics among registers”
  • 52. 0 5 10 15 20 25 30 35 Nouns Verbs Prepositions La distribuzione delle categorie morfo-sintattiche fondamentali 52 Biber, 1995, p.136: “systematic differences in the relative use of core linguistic features provide the primary distinguishing characteristics among registers” 2,13 1,67 1,50 2,68 3,01 2,73 2,77 2,68 - 0,50 1,00 1,50 2,00 2,50 3,00 3,50 Rapporto Nomi/Verbi
  • 53. Varietà lessicale: type/token ratio 53 Type/Token Ratio: Rapporto tra numero di parole tipo in un testo (dizionario) e il numero di occorrenze totali di parole (unità del dizionario). Parametro quantitativo per misurare la varietà lessicale (correlato alla leggibilità) Interpretazione: bassa varietà lessicale = monoreferenzialità del linguaggio amministrativo Cfr. Guida alla redazione degli atti amministrativi (ITTIG-CNR e Accademia della Crusca): “In un atto amministrativo è opportuno evitare l’ambiguità e raggiungere il massimo di esplicitezza: è consigliabile pertanto, anche a costo di numerose ripetizioni, usare sempre lo stesso termine per designare la stessa azione, lo stesso concetto o la stessa persona.” 0,76 0,8 0,81 0,78 0,46 0,69 0,68 0,70 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Type/Token Ratio
  • 54. Ricchezza del vocabolario: densità lessicale 54 Densità lessicale = Rapporto tra parole contenuto (nomi, verbi, aggettivi, avverbi) sul totale delle parole. E’ usato come parametro per tradurre quantitativamente la ricchezza lessicale di un testo. 0,52 0,53 0,54 0,55 0,56 0,57 0,58 Densità lessicale
  • 55. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% % lemmi inclusi nel VdB % lemmi non inclusi nel VdB La rappresentatività del Vocabolario di Base 55 Dalla fase di lemmatizzazione automatica possiamo estrarre indicazioni qualitative sul tipo di vocabolario del testo
  • 56. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% % lemmi inclusi nel VdB % lemmi non inclusi nel VdB 67,12 64,94 58 60 62 64 66 68 70 72 74 76 78 % DI LEMMI APPARTENENTI AL LESSICO FONDAMENTALE T=2,9863;p=0.0037 La rappresentatività del Vocabolario di Base 56 Dalla fase di lemmatizzazione automatica possiamo estrarre indicazioni qualitative sul tipo di vocabolario del testo
  • 57. Dall’annotazione sintattica a dipendenze possiamo estrarre indicazioni sull’uso della subordinazione: proporzione principali/subordinate (a) e lunghezza media catene subordinanti (b) (b) 1,09 1,08 1,16 1,03 1,11 0,95 0,95 0,96 - 0,20 0,40 0,60 0,80 1,00 1,20 1,40 (b) 0% 20% 40% 60% 80% 100% Coordinate clauses Subordinate clauses(a) La subordinazione: alcune proprietà 57 Subordinazione=complessità? Voghera (2001): “non tutta la subordinazione è uguale: ciò che costituisce un forte elemento di complessità non è la semplice presenza di una subordinata, ma la combinazione tra subordinazione e vari fattori: ordine relativo tra principale e subordinata; grado di incassatura della subordinata; rapporto di corrispondenza tra concatenazione degli eventi e sequenza delle clausole.”
  • 58. Lunghezza media dell’enunciato (in numero di token): Bur_orig: 27,03 Bur_simp: 20,22 t = -6.046991 p≤0.01 Numero Totale di frasi: Bur_orig: 1.907 Bur_simp: 2.170 58 E il burocratese? Proprietà “superficiali” del testo 0 5 10 15 20 25 30 35
  • 59. “Si consiglia di evitare le forme implicite del verbo, come gerundi o participi, quando potrebbero essere usate le corrispondenti forme esplicite” (dalla “Guida alla redazione degli atti amministrativi”) Participi Gerundi Indicativi 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00 spia, a livello morfo- sintattico, della tendenza del burocratese ad abusare di proposizioni implicite (es. gerundive, participiali) nella costruzione dei rapporti di subordinazione0 2 4 6 8 10 12 14 16 18 20 Annotazione morfo-sintattica “granulare”: la caratterizzazione dei modi verbali (infiniti vs finiti) 59 0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50 4,00
  • 60.  ANALISI MORFOSINTATTICA - Distribuzione delle “fine-grained” PoS: le congiunzioni  ANALISI SINTATTICA A DIPENDENZE - Rapporto subordinate esplicite vs. implicite 24,68 26,31 29,31 26,9 41,55 35,47 35,54 35,39 67,40 67,25 66,53 63,49 57,45 51,47 48,55 54,38 subordinate esplicite subordinate implicite 60 Altri “indizi” sulla costruzione ipotattica 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Subordinating conjunctions Coordinating conjunctions coordinanti subordinanti Bur_simp 2,10 0,99 Bur_orig 1,98 0,77
  • 61. Cosa suggeriscono i dati estratti dal testo? La subordinazione, pur essendo un tratto caratterizzante anche delle riscritture, tende ad essere realizzata mediante proposizioni introdotte da congiunzioni subordinanti esplicite che permettono di chiarire i legami logico-concettuali del testo e la successione degli eventi. E’ tipica invece del burocratese la tendenza a costruire rapporti ipotattici tramite proposizioni implicite o introdotte da locuzioni complesse (in riferimento a, ai sensi di, a seguito di), che non solo appesantiscono il testo ma ne aumentano l’oscurità e la difficoltà di decodifica da parte del lettore. RAFFINAMENTO DELL’EQUIVALENZA “SUBORDINAZIONE=COMPLESSITÀ SINTATTICA” 61
  • 62. Esempi dal corpus Originali (a) Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi dell'art. 10, comma 4, del Decreto Legislativo 504/92. (b) La variazione anagrafica in esame non comporta per i proprietari di autoveicoli e per i titolari di patente di guida l'obbligo di fare aggiornare la carta di circolazione e la patente di guida, in quanto tale obbligo è previsto dal Codice della Strada soltanto per i casi di trasferimento effettivo di abitazione. (c) Si ricorda che, mantenendo il regime del diritto di superficie, qualunque passaggio di proprietà, affitto, cambio societario, ecc. dovrà essere autorizzato dal Comune di Schio [...] Semplificati (a) Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista dall'art. 10, comma 4, del Decreto Legislativo 504/92. (b) I proprietari di autoveicoli e i titolari di patente non sono obbligati a cambiare l'indirizzo su libretto di circolazione e patente, perché l'obbligo è previsto solo nel caso di effettivo cambio di abitazione. (c) Se, invece, preferite mantenere il regime del diritto di superficie, vi ricordiamo che la convenzione preliminare che avete sottoscritto vi obbliga a chiedere al Comune di Schio l’autorizzazione preventiva per qualunque passaggio di proprietà, affitto, cambio societario, ecc. 62
  • 63. a) Distribuzione delle dipendenze clitiche ”spia” sintattica dell’abuso di costrutti impersonali (“Si ricorda”, “Si fa presente”, “Si allega” ) Es: “Da tanto, discende l’impossibilità, per questa Amministrazione, di ravvisare gli elementi utili al riconoscimento dei requisiti di legittimità alla richiesta del permesso in questione, pur nella consapevolezza del ruolo Indubbiamente rappresentativo della figura del “delegato” e della importanza della sua funzione deliberativa.” Altri parametri di complessità sintattica 63 b) “pesantezza” dei sintagmi nominali: le catene preposizionali 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 Dipendenze clitiche
  • 64. a) Distribuzione delle dipendenze clitiche ”spia” sintattica dell’abuso di costrutti impersonali (“Si ricorda”, “Si fa presente”, “Si allega” ) Es: “Da tanto, discende l’impossibilità, per questa Amministrazione, di ravvisare gli elementi utili al riconoscimento dei requisiti di legittimità alla richiesta del permesso in questione, pur nella consapevolezza del ruolo Indubbiamente rappresentativo della figura del “delegato” e della importanza della sua funzione deliberativa.” 1,29 1,21 1,17 1,4 1,6 1,53 1,51 1,56 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 Altri parametri di complessità sintattica 64 b) “pesantezza” dei sintagmi nominali: le catene preposizionali 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 Dipendenze clitiche Lunghezza media catene preposizionali
  • 65. Conclusioni  Oltre il contenuto: ◦ le tecnologie linguistico-computazionali permettono di accedere alla struttura linguistica di un testo  L’analisi della forma linguistica ha un forte potenziale innovativo in diversi settori applicativi  È oggi un punto di incontro tra linguistica e informatica
  • 66. Ringraziamenti Il gruppo di ricerca dell’ItaliaNLP Lab e in particolare il gruppo di ricerca sulla leggibilità www.italianlp.it Giulia Benotto Dominique Brunato Andrea Cimino Felice Dell’Orletta Simonetta Montemagni Giulia Venturi italianlp@ilc.cnr.it