Discourse analysis of the last italian presidents' confidence speeches: Mario Monti, Enrico Letta, Matteo Renzi. The analysis is based on NLP and Text mining techniques.
Comparative analysis of confidence speeches through NLP and text mining techniques.
1. Analisi comparativa dei discorsi di fiducia,
mediante tecniche di NLP e Text Mining.
Valerio Capozio, Software Engineer @Almawave
Q
uesto lavoro si pone l’obiettivo di ana-
lizzare i discorsi di fiducia pronuncia-
ti in Senato dagli ultimi tre Presidenti
del Consiglio: Mario Monti, Enrico Letta e
Matteo Renzi. Le analisi, condotte sul testo
di ciascun discorso, saranno volte a valutare,
mediante tecniche di Natual Language Pro-
cessing e di Text Mining, quanto i tre discor-
si si discostino tra loro per contenuti e lin-
guaggio. Le analisi saranno condotte grazie
all’utilizzo di R1.
1 Il corpus
Il corpus di riferimento di questa particolare analisi,
`e composto di soli tre documenti di lunghezza relati-
vamente breve. Nello specifico, i documenti che in
questo studio si intende analizzare, rappresentano
le trascrizioni integrali dei discorsi di fiducia tenuti,
presso il Senato della Repubblica, dagli ultimi tre
Presidenti del Consiglio. Prima di procedere con
qualsiasi analisi, sono state rimosse dai documenti
tutte le porzioni di testo non relative all’interven-
to dell’allora Presidente del Consiglio, in modo che
solo quanto effettivamente contenuto nel testo del
discorso risultasse oggetto d’analisi.
1
R `e un linguaggio di programmazione funzionale, ottimizzato
per esplorare dataset medianti approcci di tipo statistico.
http://www.r-project.org
1.1 Normalizzazione del testo
Per evitare che le analisi compiute potessero essere
influenzate dalla rumorosit`a dei dati, come prima
operazione, i tre documenti sono stati oggetto di una
serie di trasformazioni necessarie per “normalizzarne”
il contenuto. Nello specifico, per ogni discorso, si `e
provveduto a:
• esprimere tutti i termini solo mediante caratteri
minuscoli;
• rimuovere la punteggiatura;
• rimuovere eventuali numeri;
• rimuovere le stopword2;
• rimuovere eventuali spazi in eccesso;
• ricondurre tutti i termini alla loro radice.
Al termine di questa fase di normalizzazione i testi,
depurati dell’eventuale rumore presente, risultavano
cos`ı composti:
Discorso del Presidente Monti 2624 termini, di cui
555 unici.
Discorso del Presidente Letta 3150 termini, di cui
609 unici.
Discorso del Presidente Renzi 4018 termini, di cui
570 unici.
2
Parole non utili all’analisi, poich´e equamente distribuite in
tutti i documenti e dunque irrilevanti.
http://www.angelusworld.com Page 1 of 7
2. Questi primi dati ci consentono di comprendere
come, in assoluto, il discorso di Matteo Renzi sia
stato il pi`u lungo, mentre quello pronunciato da
Mario Monti risulti il pi`u breve. Enrico Letta risulta
invece la persona che ha inserito un maggior numero
di termini unici nel proprio discorso. La diversit`a
lessicale3 definita come
#termini unici
lunghezza(documento)
premia Mario Monti con un rapporto di 0.21,
seguito da Enrico Letta con un rapporto di 0.19
ed infine Matteo Renzi con un rapporto di 0.14.
2 Analisi delle word cloud
Al fine di valutare con facilit`a i termini maggiormente
ricorrenti nei rispettivi interventi, sono state realiz-
zate tre diverse word cloud, una per ogni discorso
pronunciato.
Una word cloud `e una rappresentazione grafica
in cui i termini variano di dimensione in maniera
direttamente proporzionale alla loro frequenza nel
testo4 . Il punto di forza di questa rappresentazione
risiede nell’immediatezza della lettura e nella faci-
lit`a di comprensione. Per realizzare una word cloud
pu`o essere sufficiente calcolare la frequenza di ogni
termine e, sulla base di questo dato, assegnare una di-
mensione al font utilizzato per scrivere quella parola.
Nella nostra analisi le word cloud saranno compo-
ste di termini aventi una dimensione5 direttamente
proporzionale alla loro frequenza. La frequenza dei
termini influenzer`a anche la loro posizione nella cloud.
In generale, infatti, i termini saranno posizionati -
partendo dal centro della cloud - secondo l’ordine
decrescente delle frequenze. Infine, si utilizzeranno i
colori per raggruppare i termini in classi di frequenze
simili.
2.1 Word cloud del discorso di Mario Monti
La word cloud estratta dal discorso di Mario Monti
`e mostrata in Figura 1. Analizzandola `e possibile
notare subito, come i termini maggiormente utiliz-
zati siano Crescita ed Europea. Entrambi i termini
3
La diversit`a lessicale misura il grado di diversit`a presente
nel dizionario estratto dal documento.
4
Nelle word cloud i termini non sono legati gli uni agli altri,
n´e sono vincolati dalla loro posizione nel testo di origine. Le
word cloud trattano i termini che le compongono secondo
le assunzioni del modello Bag of words.
5
Per dimensione dei termini si intende la dimensione utilizzata
dal font.
Figura 1: Word cloud relativa al discorso di Mario
Monti.
risultano infatti i pi`u grandi e posizionati al centro
della word cloud. Continuando l’analisi si pu`o notare
la presenza di numerosi verbi quali fare, avviare, con-
tribuire, assicurare, ridurre, affrontare, rafforzare,
evitare che indicano alcune delle azioni da intrapren-
dere, secondo il Presidente Monti. Probabilmente
l’uso di molti di questi verbi `e dovuto anche al par-
ticolare momento politico-economico in cui Mario
Monti sal`ı al governo. A supporto di tale ipotesi
c’`e la presenza di ulteriori termini, sempre molto
citati, come necessario, dovranno, attenzione, crisi.
Tra i termini relativi invece alle possibili priorit`a
concettuali del governo troviamo politica, pubblica,
italia, lavoro, economia, debito, bilancio, istituzioni,
parlamento, fiscale, stabilit`a, strutturali.
2.2 Word cloud del discorso di Enrico Letta
La word cloud estratta dal discorso di Enrico Letta
`e mostrata in Figura 2. I termini maggiormente uti-
lizzati dal Presidente Letta, nel suo primo discorso
di fiducia, presso il Senato della Repubblica, sono
stati Governo ed Italia, subito affiancati da Europa.
Diversamente da quanto avvenuto nel discorso di
Mario Monti, per Enrico Letta nella word cloud non
sono presenti molti verbi, e tra quelli maggiormente
ripetuti (fare, possiamo, voglio, dobbiamo) non sem-
bra esserci una forte sintonia. Le azioni che questi
verbi richiamano infatti sembrano stridere tra loro
in una sorta di contrasto tra ci`o che si fa, ci`o che si
vorrebbe/potrebbe fare e ci`o che si deve fare. Tra
http://www.angelusworld.com Page 2 of 7
3. Figura 2: Word cloud relativa al discorso di Enrico
Letta.
i termini relativi, invece, alle possibili priorit`a del
governo troviamo politica, lavoro, riforma, pubblica,
parlamento, crescita, paese, diritto, fiscale.
2.3 Word cloud del discorso di Matteo
Renzi
La word cloud estratta dal discorso di Matteo Renzi
`e mostrata in Figura 3. Dal grafico si evince come il
termine con maggiore risalto sia Possibilit`a. Matteo
Renzi, come Mario Monti, ha utilizzato numerosi
verbi (fatto, pensiamo, cambio, pu`o, dire, viviamo,
sappiamo). A differenza di quanto mostrato nella
cloud di Mario Monti, per`o, dove quasi tutti i verbi
erano presenti in forma infinita, in questa cloud la
maggioranza dei verbi `e al tempo presente. Questa
focalizzazione sul presente `e ulteriormente rafforzata
mediante l’uso di termini capaci di avvicinare l’oriz-
zonte temporale e spaziale degli argomenti trattati
(oggi, qui, realt`a, fine, momento). Tra i termini re-
lativi alle possibili priorit`a tematiche del governo
troviamo invece, politica, paese, italia, lavoro, ri-
forme, scuola, amministrazione, province, giustizia,
investimenti.
2.4 Comparazione dei discorsi
A seguito di questa prima valutazione, eseguita sui
singoli discorsi, `e stata realizzata una seconda tipo-
logia analisi, basata su uno studio comparativo dei
tre discorsi. Anche in questo caso la word cloud `e
Figura 3: Word cloud relativa al discorso di Matteo
Renzi.
stata utilizzata come strumento di analisi, apportan-
do qualche variazione al comportamento preceden-
temente descritto. In particolare sono state create
due word cloud, la prima per misurare i tratti comu-
ni dei discorsi, la seconda per evidenziare invece le
differenze.
2.4.1 Similitudini dei tre discorsi
Nella word cloud esposta in Figura 4 sono mostrati
tutti i termini che accomunano i discorsi di Mario
Monti, Enrico Letta e Matteo Renzi. In questa cloud
la dimensione di un termine `e pari alla sua frequenza
minima nei tre documenti. `E interessante notare
come, tra i tratti comuni, spicchino i termini Governo
e Italia centrali nel discorso di Enrico Letta (Figura:
2) mentre manchino quelli di Monti e Renzi. Questo
particolare sottolinea ulteriormente la specificit`a di
quei termini nei rispettivi discorsi.
2.4.2 Differenze dei tre discorsi
Nella word cloud esposta in Figura 5 sono invece
mostrati i tratti distintivi dei tre discorsi. La di-
mensione delle parole `e calcolata secondo la seguente
formula:
max
i
pi,j −
i
pi,j
numdocs
dove pi,j `e la frequenza con cui il termine i compare
nel documento j e la sua posizione `e determinata
http://www.angelusworld.com Page 3 of 7
4. Figura 4: Word cloud delle similitudini dei tre discorsi.
dal documento in cui quel massimo occorre. La
cloud appena descritta consente di visualizzare le
differenze esistenti nei tre discorsi, sulla base dei
termini utilizzati nel pronunciarli. In questo caso
troviamo nuovamente presenti i termini distintivi di
Mario Monti e Matteo Renzi, ovviamente posizionati
nell’area relativa. La presenza, nell’area viola, di un
numero elevato di termini di dimensioni maggiori,
rispetto alle altre aree, significa che Matteo Renzi
ha deviato maggiormente dalla loro frequenza media
di utilizzo. Il termine con una pi`u alta deviazione
dalla media risulta per`o Crescita, assegnato a Mario
Monti6.
3 Analisi dei cluster
L’analisi successiva, eseguita sui tre discorsi, ri-
guarda lo studio degli argomenti in essi trattati.
Per condurre questo tipo di analisi `e stato utiliz-
zato un algoritmo di clustering gerarchico di tipo
agglomerativo7.
I risultati del clustering sono mostrati mediante
l’ausilio di un dendrogramma. Il dendrogramma,
6
Il termine crescita `e presente anche nella cloud di Enrico
Letta come termine di 4a
fascia (Figura 2), mentre non
compare affatto nella cloud di Matteo Renzi (Figura 3).
7
Gli algoritmi di clustering gerarchico possono essere top-
down o bottom-up. Nel primo caso si parler`a di clustering
divisivo, poich´e da un unico cluster omnicomprensivo, si
proceder`a a suddividere ricorsivamente gli elmenti in sotto-
cluster. Nel secondo caso si parler`a invece di clustering
agglomerativo, poich´e da un cluster per ogni elemento, si
proceder`a a riunire i cluster, risalendo la gerarchia.
Figura 5: Word cloud delle differenze dei tre discorsi.
come suggerisce il nome stesso, `e una grafico con
una struttura ad albero, rappresentante il risultato
dell’algoritmo di clustering. Questo tipo di grafico
viene utilizzato frequentemente per la sua facilit`a
di lettura. Partendo dal basso, dove ogni cluster `e
composto di un solo elemento, e risalendo la gerar-
chia, possiamo incontrare diverse linee orizzontali,
ognuna delle quali rappresenta la creazione di un nuo-
vo cluster composto dagli elementi sottostanti. Le
coordinate della linea orizzontale di fusione, rispet-
to all’asse delle ordinate, rappresentano la distanza
che intercorre tra i cluster oggetto della fusione. Da
quanto esposto si deduce che pi`u due termini sono
vicini nel dendrogramma, maggiormente questi risul-
tano correlati per l’algoritmo di clustering. I termini
pi`u in alto risultano, invece, maggiormente popolari
e dunque trasversalmente affini a tutti gli altri.
I dendrogrammi estratti sono mostrati nelle Fi-
gure 6, 7, 8. I rettangoli rossi mostrano come sia
possibile focalizzare l’attenzione su cluster specifici,
effettuando un taglio sull’albero. Nelle immagini il
taglio `e stato impostato per ottenere 4 cluster.
3.1 Cluster discorso di Mario Monti
Il dendrogramma estratto dal discorso di Mario Mon-
ti, presentato in Figura 6, mostra come i concet-
ti di crescita e lavoro risultino tra loro fortemente
correlati.
L’ultimo cluster evidenziato, partendo da sinistra,
risulta di dimensioni maggiori rispetto agli altri 3. In
questo cluster sono raggruppati gli interventi proposti
http://www.angelusworld.com Page 4 of 7
5. Figura 6: Dendrogramma estratto dal discorso di Mario
Monti
per indirizzare l’azione del governo. `E interessante no-
tare come il cluster legge-necessario sia stato fuso con
cluster quali istituzioni, interventi-amministrazione-
fiscale, costituzionale, quasi a segnalare le necessit`a
di intervento individuate dal governo Monti.
3.2 Cluster discorso di Enrico Letta
Figura 7: Dendrogramma estratto dal discorso di Enrico
Letta
Il dendrogramma estratto dal discorso di Enrico
Letta, presentato in Figura 7, evidenzia anch’esso un
cluster dedicato al tema del lavoro, ma non legato
al tema della crescita, bens`ı al momento attuale.
Il tema della crescita (riscontrabile nel cluster con
maggiori dimensioni) `e invece legato a costi-economia
e stabilit`a-fiscale.
Il tema Italia risulta trasversale all’intero discor-
so mediante un collegamento ad alto livello della
gerarchia.
3.3 Cluster discorso di Matteo Renzi
Il dendrogramma estratto dal discorso di Matteo
Renzi, presentato in Figura 8, conferma il risultato
Figura 8: Dendrogramma estratto dal discorso di Matteo
Renzi.
emerso dalla word cloud (Figura 3) evidenziando co-
me l’argomento della possibilit`a sia trasversale a tutti
gli altri. Per quanto riguarda la possibile azione di
governo, l’analisi dell’ultimo cluster (partendo da sini-
stra) evidenzia come gli interventi proposti da Renzi
siano relativi a riforme nell’ambito costituzionale-
elettorale, scuola, giustizia e province. Quest’ultimo
cluster mostra come il bisogno di investimenti sia
correlato, nel discorso di Renzi, al bisogno di capacit`a
e regole
4 Analisi Lessicale
L’ultima analisi, compiuta sui tre discorsi, `e volta
a comprendere quanto questi risultino chiari nell’e-
sposizione dei temi trattati. Il soggetto principale
di questa fase di studio `e stato il lessico utilizza-
to da ciascun Presidente nel pronunciare il proprio
discorso.
Studi linguistici[1] hanno mostrato come valutare
la comprensibilit`a di un discorso, mediante il calcolo
di due indicatori: la formalit`a e la contestualit`a.
Secondo quanto riportato in [1], un discorso con
un’alta componente formale risulta pi`u chiaro, poich´e
esprime in maniera esplicita tutto ci`o che l’oratore
intende dire, senza lasciare nulla all’interpretazione o
alla conoscenza dell’ascoltatore. Viceversa, un discor-
so di tipo contestuale, risulta meno chiaro, poich´e
demanda la comprensione totale del significato delle
frasi, a deduzioni possibili solo a chi conosce anche i
dettagli del contesto.8
Dovendo effettuare l’analisi completa del lessico
presente nei tre discorsi, in questa fase sono stati
utilizzati i testi originali, senza applicare nessuna
8
Dall’articolo[1] si nota come la contestualit`a influenzi anche
la struttura delle frasi, complessificandola.
http://www.angelusworld.com Page 5 of 7
6. Tabella 1: Elenco degli elementi lessicali costituitivi
della componente formale e contestuale del
discorso.
Formale
Nomi Aggettivi Preposizioni Articoli
Contestuale
Verbi Pronomi Avverbi
delle tecniche di normalizzazione precedentemente
citate.
In Tabella 1 sono mostrati tutti gli elementi lessi-
cali, da individuare nel testo, che contribuiscono alla
misurazione della componente formale e contestuale.
Le componenti lessicali sono estratte automatica-
mente dal testo, mediante l’ausilio di un tool di POS
tagging9.
Figura 9: La figura A mostra la percentuale delle compo-
nenti formale e contestuale nei discorsi in esa-
me. La figura B mostra, per ogni componente,
la percentuale di elementi che concorrono alla
sua formazione. L’ultima colonna della figu-
ra B rappresenta la quantit`a percentuale, dei
singoli elementi, nell’intero discorso.
In Figura 9 sono riportati, per ognuno dei tre
discorsi, i risultati dell’analisi delle componenti, for-
male e contestuale. In particolare, nella Figura 9A `e
riportata la composizione percentuale del discorso,
rispetto alla formalit`a e alla contestualit`a.10
9
Per condurre l’analisi `e stato utilizzato il POS Tagger della
liberia OpenNLP, appositamente addestrato per la lingua
italiana.
10
Nella categoria Altro rientrano tutti i token non facenti
Dalla Figura 9A si evince come, in proporzione, il
discorso pronunciato da Mario Monti presenti una
pi`u alta componente formale, mentre il discorso di
Matteo Renzi presenti una pi`u alta componente conte-
stuale. I valori del discorso di Enrico Letta sono inve-
ce molto simili a quelli del Presidente Monti, anche se
di poco superiori per quanto riguarda contestualit`a.
Figura 10: L’indice di formalit`a dei tre discorsi con le
rispettive dimensioni.
Nella Figura 9B `e mostrato il contributo di ogni
parte delle categorie elencate in Tabella1, come ad esempio
la punteggiatura.
http://www.angelusworld.com Page 6 of 7
7. singolo elemento lessicale, nella componente di ri-
ferimento e nella globalit`a del discorso. Leggendo
attentamente il grafico presentato in Figura 9B `e
possibile notare come la componente contestuale,
in tutti e tre i discorsi, sia sempre composta, per
pi`u della met`a, di verbi. Per quanto riguarda la
componente formale, invece, gli elementi che contri-
buiscono maggiormente sono i nomi e le preposizioni.
`E interessante notare come, mentre il grafico della
composizione contestuale appaia differente, il grafi-
co della composizione formale risulti quasi sempre
sovrapponibile, fatte salve piccole discrepanze.
L’indice di formalit`a, calcolato per ognuno dei tre
discorsi, `e riportato in Figura 10. Analizzando il
dato assoluto, il discorso di Mario Monti presenta il
valore maggiore ( 73%), subito seguito dal discorso
di Enrico Letta ( 72%). Per Matteo Renzi, invece,
si registra un valore di 65%.
Il dato assoluto va per`o integrato, notando come il
discorso di Matteo Renzi risulti lungo circa il doppio
rispetto al discorso di Mario Monti. Il discorso di
Matteo Renzi risulta pi`u lungo di circa 1/3 anche
rispetto a quello di Enrico Letta11.
La lunghezza del discorso, in questo particolare
caso, potrebbe influire sull’indice di formalit`a, poich´e,
trattandosi di un discorso incentrato su ci`o che il
governo vorr`a e dovr`a fare, `e fisiologico che cresca il
numero di verbi utilizzati.
5 Conclusioni
Alla luce di quanto emerso ed esposto nelle varie
analisi `e possibile affermare che, pur condividendo un
insieme di argomenti di interesse generale per l’Italia
come il lavoro, il parlamento, le riforme, la crisi, sono
poi le modalit`a di vedere e descrivere la situazione
del paese, rispetto a tali argomenti, a differenziare
i discorsi. Esistono inoltre temi distintivi dei tre
discorsi quali ad esempio (citandone uno per ogni
discorso) il bilancio per Mario Monti, la stabilit`a per
Enrico Letta, la scuola per Matteo Renzi.
Per quanto concerne l’aspetto linguistico, dalle
analisi `e emerso un forte utilizzo di verbi al tempo
infinito o futuro nel discorso di Mario Monti, sostitui-
to invece da forme presenti - tipicamente alla prima
persona plurale - nei discorsi di Enrico Letta e Mat-
teo Renzi. L’analisi lessicale ha anche evidenziato
una maggiore formalit`a nei discorsi di Mario Monti
ed Enrico Letta, mentre `e risultato maggiormente
contestuale il discorso di Matteo Renzi.
11 `E interessante notare come questi fattori proporzionali
rimangano pressoch´e invariati anche nei testi normalizzati.
Riferimenti bibliografici
[1] Heylighen, F., & Dewaele, J.-M. (2002). Va-
riation in the contextuality of language: An
empirical measure. Foundations of Science,
20:317–330.
http://www.angelusworld.com Page 7 of 7