SlideShare a Scribd company logo
1 of 7
Download to read offline
Analisi comparativa dei discorsi di fiducia,
mediante tecniche di NLP e Text Mining.
Valerio Capozio, Software Engineer @Almawave
Q
uesto lavoro si pone l’obiettivo di ana-
lizzare i discorsi di fiducia pronuncia-
ti in Senato dagli ultimi tre Presidenti
del Consiglio: Mario Monti, Enrico Letta e
Matteo Renzi. Le analisi, condotte sul testo
di ciascun discorso, saranno volte a valutare,
mediante tecniche di Natual Language Pro-
cessing e di Text Mining, quanto i tre discor-
si si discostino tra loro per contenuti e lin-
guaggio. Le analisi saranno condotte grazie
all’utilizzo di R1.
1 Il corpus
Il corpus di riferimento di questa particolare analisi,
`e composto di soli tre documenti di lunghezza relati-
vamente breve. Nello specifico, i documenti che in
questo studio si intende analizzare, rappresentano
le trascrizioni integrali dei discorsi di fiducia tenuti,
presso il Senato della Repubblica, dagli ultimi tre
Presidenti del Consiglio. Prima di procedere con
qualsiasi analisi, sono state rimosse dai documenti
tutte le porzioni di testo non relative all’interven-
to dell’allora Presidente del Consiglio, in modo che
solo quanto effettivamente contenuto nel testo del
discorso risultasse oggetto d’analisi.
1
R `e un linguaggio di programmazione funzionale, ottimizzato
per esplorare dataset medianti approcci di tipo statistico.
http://www.r-project.org
1.1 Normalizzazione del testo
Per evitare che le analisi compiute potessero essere
influenzate dalla rumorosit`a dei dati, come prima
operazione, i tre documenti sono stati oggetto di una
serie di trasformazioni necessarie per “normalizzarne”
il contenuto. Nello specifico, per ogni discorso, si `e
provveduto a:
• esprimere tutti i termini solo mediante caratteri
minuscoli;
• rimuovere la punteggiatura;
• rimuovere eventuali numeri;
• rimuovere le stopword2;
• rimuovere eventuali spazi in eccesso;
• ricondurre tutti i termini alla loro radice.
Al termine di questa fase di normalizzazione i testi,
depurati dell’eventuale rumore presente, risultavano
cos`ı composti:
Discorso del Presidente Monti 2624 termini, di cui
555 unici.
Discorso del Presidente Letta 3150 termini, di cui
609 unici.
Discorso del Presidente Renzi 4018 termini, di cui
570 unici.
2
Parole non utili all’analisi, poich´e equamente distribuite in
tutti i documenti e dunque irrilevanti.
http://www.angelusworld.com Page 1 of 7
Questi primi dati ci consentono di comprendere
come, in assoluto, il discorso di Matteo Renzi sia
stato il pi`u lungo, mentre quello pronunciato da
Mario Monti risulti il pi`u breve. Enrico Letta risulta
invece la persona che ha inserito un maggior numero
di termini unici nel proprio discorso. La diversit`a
lessicale3 definita come
#termini unici
lunghezza(documento)
premia Mario Monti con un rapporto di 0.21,
seguito da Enrico Letta con un rapporto di 0.19
ed infine Matteo Renzi con un rapporto di 0.14.
2 Analisi delle word cloud
Al fine di valutare con facilit`a i termini maggiormente
ricorrenti nei rispettivi interventi, sono state realiz-
zate tre diverse word cloud, una per ogni discorso
pronunciato.
Una word cloud `e una rappresentazione grafica
in cui i termini variano di dimensione in maniera
direttamente proporzionale alla loro frequenza nel
testo4 . Il punto di forza di questa rappresentazione
risiede nell’immediatezza della lettura e nella faci-
lit`a di comprensione. Per realizzare una word cloud
pu`o essere sufficiente calcolare la frequenza di ogni
termine e, sulla base di questo dato, assegnare una di-
mensione al font utilizzato per scrivere quella parola.
Nella nostra analisi le word cloud saranno compo-
ste di termini aventi una dimensione5 direttamente
proporzionale alla loro frequenza. La frequenza dei
termini influenzer`a anche la loro posizione nella cloud.
In generale, infatti, i termini saranno posizionati -
partendo dal centro della cloud - secondo l’ordine
decrescente delle frequenze. Infine, si utilizzeranno i
colori per raggruppare i termini in classi di frequenze
simili.
2.1 Word cloud del discorso di Mario Monti
La word cloud estratta dal discorso di Mario Monti
`e mostrata in Figura 1. Analizzandola `e possibile
notare subito, come i termini maggiormente utiliz-
zati siano Crescita ed Europea. Entrambi i termini
3
La diversit`a lessicale misura il grado di diversit`a presente
nel dizionario estratto dal documento.
4
Nelle word cloud i termini non sono legati gli uni agli altri,
n´e sono vincolati dalla loro posizione nel testo di origine. Le
word cloud trattano i termini che le compongono secondo
le assunzioni del modello Bag of words.
5
Per dimensione dei termini si intende la dimensione utilizzata
dal font.
Figura 1: Word cloud relativa al discorso di Mario
Monti.
risultano infatti i pi`u grandi e posizionati al centro
della word cloud. Continuando l’analisi si pu`o notare
la presenza di numerosi verbi quali fare, avviare, con-
tribuire, assicurare, ridurre, affrontare, rafforzare,
evitare che indicano alcune delle azioni da intrapren-
dere, secondo il Presidente Monti. Probabilmente
l’uso di molti di questi verbi `e dovuto anche al par-
ticolare momento politico-economico in cui Mario
Monti sal`ı al governo. A supporto di tale ipotesi
c’`e la presenza di ulteriori termini, sempre molto
citati, come necessario, dovranno, attenzione, crisi.
Tra i termini relativi invece alle possibili priorit`a
concettuali del governo troviamo politica, pubblica,
italia, lavoro, economia, debito, bilancio, istituzioni,
parlamento, fiscale, stabilit`a, strutturali.
2.2 Word cloud del discorso di Enrico Letta
La word cloud estratta dal discorso di Enrico Letta
`e mostrata in Figura 2. I termini maggiormente uti-
lizzati dal Presidente Letta, nel suo primo discorso
di fiducia, presso il Senato della Repubblica, sono
stati Governo ed Italia, subito affiancati da Europa.
Diversamente da quanto avvenuto nel discorso di
Mario Monti, per Enrico Letta nella word cloud non
sono presenti molti verbi, e tra quelli maggiormente
ripetuti (fare, possiamo, voglio, dobbiamo) non sem-
bra esserci una forte sintonia. Le azioni che questi
verbi richiamano infatti sembrano stridere tra loro
in una sorta di contrasto tra ci`o che si fa, ci`o che si
vorrebbe/potrebbe fare e ci`o che si deve fare. Tra
http://www.angelusworld.com Page 2 of 7
Figura 2: Word cloud relativa al discorso di Enrico
Letta.
i termini relativi, invece, alle possibili priorit`a del
governo troviamo politica, lavoro, riforma, pubblica,
parlamento, crescita, paese, diritto, fiscale.
2.3 Word cloud del discorso di Matteo
Renzi
La word cloud estratta dal discorso di Matteo Renzi
`e mostrata in Figura 3. Dal grafico si evince come il
termine con maggiore risalto sia Possibilit`a. Matteo
Renzi, come Mario Monti, ha utilizzato numerosi
verbi (fatto, pensiamo, cambio, pu`o, dire, viviamo,
sappiamo). A differenza di quanto mostrato nella
cloud di Mario Monti, per`o, dove quasi tutti i verbi
erano presenti in forma infinita, in questa cloud la
maggioranza dei verbi `e al tempo presente. Questa
focalizzazione sul presente `e ulteriormente rafforzata
mediante l’uso di termini capaci di avvicinare l’oriz-
zonte temporale e spaziale degli argomenti trattati
(oggi, qui, realt`a, fine, momento). Tra i termini re-
lativi alle possibili priorit`a tematiche del governo
troviamo invece, politica, paese, italia, lavoro, ri-
forme, scuola, amministrazione, province, giustizia,
investimenti.
2.4 Comparazione dei discorsi
A seguito di questa prima valutazione, eseguita sui
singoli discorsi, `e stata realizzata una seconda tipo-
logia analisi, basata su uno studio comparativo dei
tre discorsi. Anche in questo caso la word cloud `e
Figura 3: Word cloud relativa al discorso di Matteo
Renzi.
stata utilizzata come strumento di analisi, apportan-
do qualche variazione al comportamento preceden-
temente descritto. In particolare sono state create
due word cloud, la prima per misurare i tratti comu-
ni dei discorsi, la seconda per evidenziare invece le
differenze.
2.4.1 Similitudini dei tre discorsi
Nella word cloud esposta in Figura 4 sono mostrati
tutti i termini che accomunano i discorsi di Mario
Monti, Enrico Letta e Matteo Renzi. In questa cloud
la dimensione di un termine `e pari alla sua frequenza
minima nei tre documenti. `E interessante notare
come, tra i tratti comuni, spicchino i termini Governo
e Italia centrali nel discorso di Enrico Letta (Figura:
2) mentre manchino quelli di Monti e Renzi. Questo
particolare sottolinea ulteriormente la specificit`a di
quei termini nei rispettivi discorsi.
2.4.2 Differenze dei tre discorsi
Nella word cloud esposta in Figura 5 sono invece
mostrati i tratti distintivi dei tre discorsi. La di-
mensione delle parole `e calcolata secondo la seguente
formula:
max
i
pi,j −
i
pi,j
numdocs
dove pi,j `e la frequenza con cui il termine i compare
nel documento j e la sua posizione `e determinata
http://www.angelusworld.com Page 3 of 7
Figura 4: Word cloud delle similitudini dei tre discorsi.
dal documento in cui quel massimo occorre. La
cloud appena descritta consente di visualizzare le
differenze esistenti nei tre discorsi, sulla base dei
termini utilizzati nel pronunciarli. In questo caso
troviamo nuovamente presenti i termini distintivi di
Mario Monti e Matteo Renzi, ovviamente posizionati
nell’area relativa. La presenza, nell’area viola, di un
numero elevato di termini di dimensioni maggiori,
rispetto alle altre aree, significa che Matteo Renzi
ha deviato maggiormente dalla loro frequenza media
di utilizzo. Il termine con una pi`u alta deviazione
dalla media risulta per`o Crescita, assegnato a Mario
Monti6.
3 Analisi dei cluster
L’analisi successiva, eseguita sui tre discorsi, ri-
guarda lo studio degli argomenti in essi trattati.
Per condurre questo tipo di analisi `e stato utiliz-
zato un algoritmo di clustering gerarchico di tipo
agglomerativo7.
I risultati del clustering sono mostrati mediante
l’ausilio di un dendrogramma. Il dendrogramma,
6
Il termine crescita `e presente anche nella cloud di Enrico
Letta come termine di 4a
fascia (Figura 2), mentre non
compare affatto nella cloud di Matteo Renzi (Figura 3).
7
Gli algoritmi di clustering gerarchico possono essere top-
down o bottom-up. Nel primo caso si parler`a di clustering
divisivo, poich´e da un unico cluster omnicomprensivo, si
proceder`a a suddividere ricorsivamente gli elmenti in sotto-
cluster. Nel secondo caso si parler`a invece di clustering
agglomerativo, poich´e da un cluster per ogni elemento, si
proceder`a a riunire i cluster, risalendo la gerarchia.
Figura 5: Word cloud delle differenze dei tre discorsi.
come suggerisce il nome stesso, `e una grafico con
una struttura ad albero, rappresentante il risultato
dell’algoritmo di clustering. Questo tipo di grafico
viene utilizzato frequentemente per la sua facilit`a
di lettura. Partendo dal basso, dove ogni cluster `e
composto di un solo elemento, e risalendo la gerar-
chia, possiamo incontrare diverse linee orizzontali,
ognuna delle quali rappresenta la creazione di un nuo-
vo cluster composto dagli elementi sottostanti. Le
coordinate della linea orizzontale di fusione, rispet-
to all’asse delle ordinate, rappresentano la distanza
che intercorre tra i cluster oggetto della fusione. Da
quanto esposto si deduce che pi`u due termini sono
vicini nel dendrogramma, maggiormente questi risul-
tano correlati per l’algoritmo di clustering. I termini
pi`u in alto risultano, invece, maggiormente popolari
e dunque trasversalmente affini a tutti gli altri.
I dendrogrammi estratti sono mostrati nelle Fi-
gure 6, 7, 8. I rettangoli rossi mostrano come sia
possibile focalizzare l’attenzione su cluster specifici,
effettuando un taglio sull’albero. Nelle immagini il
taglio `e stato impostato per ottenere 4 cluster.
3.1 Cluster discorso di Mario Monti
Il dendrogramma estratto dal discorso di Mario Mon-
ti, presentato in Figura 6, mostra come i concet-
ti di crescita e lavoro risultino tra loro fortemente
correlati.
L’ultimo cluster evidenziato, partendo da sinistra,
risulta di dimensioni maggiori rispetto agli altri 3. In
questo cluster sono raggruppati gli interventi proposti
http://www.angelusworld.com Page 4 of 7
Figura 6: Dendrogramma estratto dal discorso di Mario
Monti
per indirizzare l’azione del governo. `E interessante no-
tare come il cluster legge-necessario sia stato fuso con
cluster quali istituzioni, interventi-amministrazione-
fiscale, costituzionale, quasi a segnalare le necessit`a
di intervento individuate dal governo Monti.
3.2 Cluster discorso di Enrico Letta
Figura 7: Dendrogramma estratto dal discorso di Enrico
Letta
Il dendrogramma estratto dal discorso di Enrico
Letta, presentato in Figura 7, evidenzia anch’esso un
cluster dedicato al tema del lavoro, ma non legato
al tema della crescita, bens`ı al momento attuale.
Il tema della crescita (riscontrabile nel cluster con
maggiori dimensioni) `e invece legato a costi-economia
e stabilit`a-fiscale.
Il tema Italia risulta trasversale all’intero discor-
so mediante un collegamento ad alto livello della
gerarchia.
3.3 Cluster discorso di Matteo Renzi
Il dendrogramma estratto dal discorso di Matteo
Renzi, presentato in Figura 8, conferma il risultato
Figura 8: Dendrogramma estratto dal discorso di Matteo
Renzi.
emerso dalla word cloud (Figura 3) evidenziando co-
me l’argomento della possibilit`a sia trasversale a tutti
gli altri. Per quanto riguarda la possibile azione di
governo, l’analisi dell’ultimo cluster (partendo da sini-
stra) evidenzia come gli interventi proposti da Renzi
siano relativi a riforme nell’ambito costituzionale-
elettorale, scuola, giustizia e province. Quest’ultimo
cluster mostra come il bisogno di investimenti sia
correlato, nel discorso di Renzi, al bisogno di capacit`a
e regole
4 Analisi Lessicale
L’ultima analisi, compiuta sui tre discorsi, `e volta
a comprendere quanto questi risultino chiari nell’e-
sposizione dei temi trattati. Il soggetto principale
di questa fase di studio `e stato il lessico utilizza-
to da ciascun Presidente nel pronunciare il proprio
discorso.
Studi linguistici[1] hanno mostrato come valutare
la comprensibilit`a di un discorso, mediante il calcolo
di due indicatori: la formalit`a e la contestualit`a.
Secondo quanto riportato in [1], un discorso con
un’alta componente formale risulta pi`u chiaro, poich´e
esprime in maniera esplicita tutto ci`o che l’oratore
intende dire, senza lasciare nulla all’interpretazione o
alla conoscenza dell’ascoltatore. Viceversa, un discor-
so di tipo contestuale, risulta meno chiaro, poich´e
demanda la comprensione totale del significato delle
frasi, a deduzioni possibili solo a chi conosce anche i
dettagli del contesto.8
Dovendo effettuare l’analisi completa del lessico
presente nei tre discorsi, in questa fase sono stati
utilizzati i testi originali, senza applicare nessuna
8
Dall’articolo[1] si nota come la contestualit`a influenzi anche
la struttura delle frasi, complessificandola.
http://www.angelusworld.com Page 5 of 7
Tabella 1: Elenco degli elementi lessicali costituitivi
della componente formale e contestuale del
discorso.
Formale
Nomi Aggettivi Preposizioni Articoli
Contestuale
Verbi Pronomi Avverbi
delle tecniche di normalizzazione precedentemente
citate.
In Tabella 1 sono mostrati tutti gli elementi lessi-
cali, da individuare nel testo, che contribuiscono alla
misurazione della componente formale e contestuale.
Le componenti lessicali sono estratte automatica-
mente dal testo, mediante l’ausilio di un tool di POS
tagging9.
Figura 9: La figura A mostra la percentuale delle compo-
nenti formale e contestuale nei discorsi in esa-
me. La figura B mostra, per ogni componente,
la percentuale di elementi che concorrono alla
sua formazione. L’ultima colonna della figu-
ra B rappresenta la quantit`a percentuale, dei
singoli elementi, nell’intero discorso.
In Figura 9 sono riportati, per ognuno dei tre
discorsi, i risultati dell’analisi delle componenti, for-
male e contestuale. In particolare, nella Figura 9A `e
riportata la composizione percentuale del discorso,
rispetto alla formalit`a e alla contestualit`a.10
9
Per condurre l’analisi `e stato utilizzato il POS Tagger della
liberia OpenNLP, appositamente addestrato per la lingua
italiana.
10
Nella categoria Altro rientrano tutti i token non facenti
Dalla Figura 9A si evince come, in proporzione, il
discorso pronunciato da Mario Monti presenti una
pi`u alta componente formale, mentre il discorso di
Matteo Renzi presenti una pi`u alta componente conte-
stuale. I valori del discorso di Enrico Letta sono inve-
ce molto simili a quelli del Presidente Monti, anche se
di poco superiori per quanto riguarda contestualit`a.
Figura 10: L’indice di formalit`a dei tre discorsi con le
rispettive dimensioni.
Nella Figura 9B `e mostrato il contributo di ogni
parte delle categorie elencate in Tabella1, come ad esempio
la punteggiatura.
http://www.angelusworld.com Page 6 of 7
singolo elemento lessicale, nella componente di ri-
ferimento e nella globalit`a del discorso. Leggendo
attentamente il grafico presentato in Figura 9B `e
possibile notare come la componente contestuale,
in tutti e tre i discorsi, sia sempre composta, per
pi`u della met`a, di verbi. Per quanto riguarda la
componente formale, invece, gli elementi che contri-
buiscono maggiormente sono i nomi e le preposizioni.
`E interessante notare come, mentre il grafico della
composizione contestuale appaia differente, il grafi-
co della composizione formale risulti quasi sempre
sovrapponibile, fatte salve piccole discrepanze.
L’indice di formalit`a, calcolato per ognuno dei tre
discorsi, `e riportato in Figura 10. Analizzando il
dato assoluto, il discorso di Mario Monti presenta il
valore maggiore ( 73%), subito seguito dal discorso
di Enrico Letta ( 72%). Per Matteo Renzi, invece,
si registra un valore di 65%.
Il dato assoluto va per`o integrato, notando come il
discorso di Matteo Renzi risulti lungo circa il doppio
rispetto al discorso di Mario Monti. Il discorso di
Matteo Renzi risulta pi`u lungo di circa 1/3 anche
rispetto a quello di Enrico Letta11.
La lunghezza del discorso, in questo particolare
caso, potrebbe influire sull’indice di formalit`a, poich´e,
trattandosi di un discorso incentrato su ci`o che il
governo vorr`a e dovr`a fare, `e fisiologico che cresca il
numero di verbi utilizzati.
5 Conclusioni
Alla luce di quanto emerso ed esposto nelle varie
analisi `e possibile affermare che, pur condividendo un
insieme di argomenti di interesse generale per l’Italia
come il lavoro, il parlamento, le riforme, la crisi, sono
poi le modalit`a di vedere e descrivere la situazione
del paese, rispetto a tali argomenti, a differenziare
i discorsi. Esistono inoltre temi distintivi dei tre
discorsi quali ad esempio (citandone uno per ogni
discorso) il bilancio per Mario Monti, la stabilit`a per
Enrico Letta, la scuola per Matteo Renzi.
Per quanto concerne l’aspetto linguistico, dalle
analisi `e emerso un forte utilizzo di verbi al tempo
infinito o futuro nel discorso di Mario Monti, sostitui-
to invece da forme presenti - tipicamente alla prima
persona plurale - nei discorsi di Enrico Letta e Mat-
teo Renzi. L’analisi lessicale ha anche evidenziato
una maggiore formalit`a nei discorsi di Mario Monti
ed Enrico Letta, mentre `e risultato maggiormente
contestuale il discorso di Matteo Renzi.
11 `E interessante notare come questi fattori proporzionali
rimangano pressoch´e invariati anche nei testi normalizzati.
Riferimenti bibliografici
[1] Heylighen, F., & Dewaele, J.-M. (2002). Va-
riation in the contextuality of language: An
empirical measure. Foundations of Science,
20:317–330.
http://www.angelusworld.com Page 7 of 7

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 

Comparative analysis of confidence speeches through NLP and text mining techniques.

  • 1. Analisi comparativa dei discorsi di fiducia, mediante tecniche di NLP e Text Mining. Valerio Capozio, Software Engineer @Almawave Q uesto lavoro si pone l’obiettivo di ana- lizzare i discorsi di fiducia pronuncia- ti in Senato dagli ultimi tre Presidenti del Consiglio: Mario Monti, Enrico Letta e Matteo Renzi. Le analisi, condotte sul testo di ciascun discorso, saranno volte a valutare, mediante tecniche di Natual Language Pro- cessing e di Text Mining, quanto i tre discor- si si discostino tra loro per contenuti e lin- guaggio. Le analisi saranno condotte grazie all’utilizzo di R1. 1 Il corpus Il corpus di riferimento di questa particolare analisi, `e composto di soli tre documenti di lunghezza relati- vamente breve. Nello specifico, i documenti che in questo studio si intende analizzare, rappresentano le trascrizioni integrali dei discorsi di fiducia tenuti, presso il Senato della Repubblica, dagli ultimi tre Presidenti del Consiglio. Prima di procedere con qualsiasi analisi, sono state rimosse dai documenti tutte le porzioni di testo non relative all’interven- to dell’allora Presidente del Consiglio, in modo che solo quanto effettivamente contenuto nel testo del discorso risultasse oggetto d’analisi. 1 R `e un linguaggio di programmazione funzionale, ottimizzato per esplorare dataset medianti approcci di tipo statistico. http://www.r-project.org 1.1 Normalizzazione del testo Per evitare che le analisi compiute potessero essere influenzate dalla rumorosit`a dei dati, come prima operazione, i tre documenti sono stati oggetto di una serie di trasformazioni necessarie per “normalizzarne” il contenuto. Nello specifico, per ogni discorso, si `e provveduto a: • esprimere tutti i termini solo mediante caratteri minuscoli; • rimuovere la punteggiatura; • rimuovere eventuali numeri; • rimuovere le stopword2; • rimuovere eventuali spazi in eccesso; • ricondurre tutti i termini alla loro radice. Al termine di questa fase di normalizzazione i testi, depurati dell’eventuale rumore presente, risultavano cos`ı composti: Discorso del Presidente Monti 2624 termini, di cui 555 unici. Discorso del Presidente Letta 3150 termini, di cui 609 unici. Discorso del Presidente Renzi 4018 termini, di cui 570 unici. 2 Parole non utili all’analisi, poich´e equamente distribuite in tutti i documenti e dunque irrilevanti. http://www.angelusworld.com Page 1 of 7
  • 2. Questi primi dati ci consentono di comprendere come, in assoluto, il discorso di Matteo Renzi sia stato il pi`u lungo, mentre quello pronunciato da Mario Monti risulti il pi`u breve. Enrico Letta risulta invece la persona che ha inserito un maggior numero di termini unici nel proprio discorso. La diversit`a lessicale3 definita come #termini unici lunghezza(documento) premia Mario Monti con un rapporto di 0.21, seguito da Enrico Letta con un rapporto di 0.19 ed infine Matteo Renzi con un rapporto di 0.14. 2 Analisi delle word cloud Al fine di valutare con facilit`a i termini maggiormente ricorrenti nei rispettivi interventi, sono state realiz- zate tre diverse word cloud, una per ogni discorso pronunciato. Una word cloud `e una rappresentazione grafica in cui i termini variano di dimensione in maniera direttamente proporzionale alla loro frequenza nel testo4 . Il punto di forza di questa rappresentazione risiede nell’immediatezza della lettura e nella faci- lit`a di comprensione. Per realizzare una word cloud pu`o essere sufficiente calcolare la frequenza di ogni termine e, sulla base di questo dato, assegnare una di- mensione al font utilizzato per scrivere quella parola. Nella nostra analisi le word cloud saranno compo- ste di termini aventi una dimensione5 direttamente proporzionale alla loro frequenza. La frequenza dei termini influenzer`a anche la loro posizione nella cloud. In generale, infatti, i termini saranno posizionati - partendo dal centro della cloud - secondo l’ordine decrescente delle frequenze. Infine, si utilizzeranno i colori per raggruppare i termini in classi di frequenze simili. 2.1 Word cloud del discorso di Mario Monti La word cloud estratta dal discorso di Mario Monti `e mostrata in Figura 1. Analizzandola `e possibile notare subito, come i termini maggiormente utiliz- zati siano Crescita ed Europea. Entrambi i termini 3 La diversit`a lessicale misura il grado di diversit`a presente nel dizionario estratto dal documento. 4 Nelle word cloud i termini non sono legati gli uni agli altri, n´e sono vincolati dalla loro posizione nel testo di origine. Le word cloud trattano i termini che le compongono secondo le assunzioni del modello Bag of words. 5 Per dimensione dei termini si intende la dimensione utilizzata dal font. Figura 1: Word cloud relativa al discorso di Mario Monti. risultano infatti i pi`u grandi e posizionati al centro della word cloud. Continuando l’analisi si pu`o notare la presenza di numerosi verbi quali fare, avviare, con- tribuire, assicurare, ridurre, affrontare, rafforzare, evitare che indicano alcune delle azioni da intrapren- dere, secondo il Presidente Monti. Probabilmente l’uso di molti di questi verbi `e dovuto anche al par- ticolare momento politico-economico in cui Mario Monti sal`ı al governo. A supporto di tale ipotesi c’`e la presenza di ulteriori termini, sempre molto citati, come necessario, dovranno, attenzione, crisi. Tra i termini relativi invece alle possibili priorit`a concettuali del governo troviamo politica, pubblica, italia, lavoro, economia, debito, bilancio, istituzioni, parlamento, fiscale, stabilit`a, strutturali. 2.2 Word cloud del discorso di Enrico Letta La word cloud estratta dal discorso di Enrico Letta `e mostrata in Figura 2. I termini maggiormente uti- lizzati dal Presidente Letta, nel suo primo discorso di fiducia, presso il Senato della Repubblica, sono stati Governo ed Italia, subito affiancati da Europa. Diversamente da quanto avvenuto nel discorso di Mario Monti, per Enrico Letta nella word cloud non sono presenti molti verbi, e tra quelli maggiormente ripetuti (fare, possiamo, voglio, dobbiamo) non sem- bra esserci una forte sintonia. Le azioni che questi verbi richiamano infatti sembrano stridere tra loro in una sorta di contrasto tra ci`o che si fa, ci`o che si vorrebbe/potrebbe fare e ci`o che si deve fare. Tra http://www.angelusworld.com Page 2 of 7
  • 3. Figura 2: Word cloud relativa al discorso di Enrico Letta. i termini relativi, invece, alle possibili priorit`a del governo troviamo politica, lavoro, riforma, pubblica, parlamento, crescita, paese, diritto, fiscale. 2.3 Word cloud del discorso di Matteo Renzi La word cloud estratta dal discorso di Matteo Renzi `e mostrata in Figura 3. Dal grafico si evince come il termine con maggiore risalto sia Possibilit`a. Matteo Renzi, come Mario Monti, ha utilizzato numerosi verbi (fatto, pensiamo, cambio, pu`o, dire, viviamo, sappiamo). A differenza di quanto mostrato nella cloud di Mario Monti, per`o, dove quasi tutti i verbi erano presenti in forma infinita, in questa cloud la maggioranza dei verbi `e al tempo presente. Questa focalizzazione sul presente `e ulteriormente rafforzata mediante l’uso di termini capaci di avvicinare l’oriz- zonte temporale e spaziale degli argomenti trattati (oggi, qui, realt`a, fine, momento). Tra i termini re- lativi alle possibili priorit`a tematiche del governo troviamo invece, politica, paese, italia, lavoro, ri- forme, scuola, amministrazione, province, giustizia, investimenti. 2.4 Comparazione dei discorsi A seguito di questa prima valutazione, eseguita sui singoli discorsi, `e stata realizzata una seconda tipo- logia analisi, basata su uno studio comparativo dei tre discorsi. Anche in questo caso la word cloud `e Figura 3: Word cloud relativa al discorso di Matteo Renzi. stata utilizzata come strumento di analisi, apportan- do qualche variazione al comportamento preceden- temente descritto. In particolare sono state create due word cloud, la prima per misurare i tratti comu- ni dei discorsi, la seconda per evidenziare invece le differenze. 2.4.1 Similitudini dei tre discorsi Nella word cloud esposta in Figura 4 sono mostrati tutti i termini che accomunano i discorsi di Mario Monti, Enrico Letta e Matteo Renzi. In questa cloud la dimensione di un termine `e pari alla sua frequenza minima nei tre documenti. `E interessante notare come, tra i tratti comuni, spicchino i termini Governo e Italia centrali nel discorso di Enrico Letta (Figura: 2) mentre manchino quelli di Monti e Renzi. Questo particolare sottolinea ulteriormente la specificit`a di quei termini nei rispettivi discorsi. 2.4.2 Differenze dei tre discorsi Nella word cloud esposta in Figura 5 sono invece mostrati i tratti distintivi dei tre discorsi. La di- mensione delle parole `e calcolata secondo la seguente formula: max i pi,j − i pi,j numdocs dove pi,j `e la frequenza con cui il termine i compare nel documento j e la sua posizione `e determinata http://www.angelusworld.com Page 3 of 7
  • 4. Figura 4: Word cloud delle similitudini dei tre discorsi. dal documento in cui quel massimo occorre. La cloud appena descritta consente di visualizzare le differenze esistenti nei tre discorsi, sulla base dei termini utilizzati nel pronunciarli. In questo caso troviamo nuovamente presenti i termini distintivi di Mario Monti e Matteo Renzi, ovviamente posizionati nell’area relativa. La presenza, nell’area viola, di un numero elevato di termini di dimensioni maggiori, rispetto alle altre aree, significa che Matteo Renzi ha deviato maggiormente dalla loro frequenza media di utilizzo. Il termine con una pi`u alta deviazione dalla media risulta per`o Crescita, assegnato a Mario Monti6. 3 Analisi dei cluster L’analisi successiva, eseguita sui tre discorsi, ri- guarda lo studio degli argomenti in essi trattati. Per condurre questo tipo di analisi `e stato utiliz- zato un algoritmo di clustering gerarchico di tipo agglomerativo7. I risultati del clustering sono mostrati mediante l’ausilio di un dendrogramma. Il dendrogramma, 6 Il termine crescita `e presente anche nella cloud di Enrico Letta come termine di 4a fascia (Figura 2), mentre non compare affatto nella cloud di Matteo Renzi (Figura 3). 7 Gli algoritmi di clustering gerarchico possono essere top- down o bottom-up. Nel primo caso si parler`a di clustering divisivo, poich´e da un unico cluster omnicomprensivo, si proceder`a a suddividere ricorsivamente gli elmenti in sotto- cluster. Nel secondo caso si parler`a invece di clustering agglomerativo, poich´e da un cluster per ogni elemento, si proceder`a a riunire i cluster, risalendo la gerarchia. Figura 5: Word cloud delle differenze dei tre discorsi. come suggerisce il nome stesso, `e una grafico con una struttura ad albero, rappresentante il risultato dell’algoritmo di clustering. Questo tipo di grafico viene utilizzato frequentemente per la sua facilit`a di lettura. Partendo dal basso, dove ogni cluster `e composto di un solo elemento, e risalendo la gerar- chia, possiamo incontrare diverse linee orizzontali, ognuna delle quali rappresenta la creazione di un nuo- vo cluster composto dagli elementi sottostanti. Le coordinate della linea orizzontale di fusione, rispet- to all’asse delle ordinate, rappresentano la distanza che intercorre tra i cluster oggetto della fusione. Da quanto esposto si deduce che pi`u due termini sono vicini nel dendrogramma, maggiormente questi risul- tano correlati per l’algoritmo di clustering. I termini pi`u in alto risultano, invece, maggiormente popolari e dunque trasversalmente affini a tutti gli altri. I dendrogrammi estratti sono mostrati nelle Fi- gure 6, 7, 8. I rettangoli rossi mostrano come sia possibile focalizzare l’attenzione su cluster specifici, effettuando un taglio sull’albero. Nelle immagini il taglio `e stato impostato per ottenere 4 cluster. 3.1 Cluster discorso di Mario Monti Il dendrogramma estratto dal discorso di Mario Mon- ti, presentato in Figura 6, mostra come i concet- ti di crescita e lavoro risultino tra loro fortemente correlati. L’ultimo cluster evidenziato, partendo da sinistra, risulta di dimensioni maggiori rispetto agli altri 3. In questo cluster sono raggruppati gli interventi proposti http://www.angelusworld.com Page 4 of 7
  • 5. Figura 6: Dendrogramma estratto dal discorso di Mario Monti per indirizzare l’azione del governo. `E interessante no- tare come il cluster legge-necessario sia stato fuso con cluster quali istituzioni, interventi-amministrazione- fiscale, costituzionale, quasi a segnalare le necessit`a di intervento individuate dal governo Monti. 3.2 Cluster discorso di Enrico Letta Figura 7: Dendrogramma estratto dal discorso di Enrico Letta Il dendrogramma estratto dal discorso di Enrico Letta, presentato in Figura 7, evidenzia anch’esso un cluster dedicato al tema del lavoro, ma non legato al tema della crescita, bens`ı al momento attuale. Il tema della crescita (riscontrabile nel cluster con maggiori dimensioni) `e invece legato a costi-economia e stabilit`a-fiscale. Il tema Italia risulta trasversale all’intero discor- so mediante un collegamento ad alto livello della gerarchia. 3.3 Cluster discorso di Matteo Renzi Il dendrogramma estratto dal discorso di Matteo Renzi, presentato in Figura 8, conferma il risultato Figura 8: Dendrogramma estratto dal discorso di Matteo Renzi. emerso dalla word cloud (Figura 3) evidenziando co- me l’argomento della possibilit`a sia trasversale a tutti gli altri. Per quanto riguarda la possibile azione di governo, l’analisi dell’ultimo cluster (partendo da sini- stra) evidenzia come gli interventi proposti da Renzi siano relativi a riforme nell’ambito costituzionale- elettorale, scuola, giustizia e province. Quest’ultimo cluster mostra come il bisogno di investimenti sia correlato, nel discorso di Renzi, al bisogno di capacit`a e regole 4 Analisi Lessicale L’ultima analisi, compiuta sui tre discorsi, `e volta a comprendere quanto questi risultino chiari nell’e- sposizione dei temi trattati. Il soggetto principale di questa fase di studio `e stato il lessico utilizza- to da ciascun Presidente nel pronunciare il proprio discorso. Studi linguistici[1] hanno mostrato come valutare la comprensibilit`a di un discorso, mediante il calcolo di due indicatori: la formalit`a e la contestualit`a. Secondo quanto riportato in [1], un discorso con un’alta componente formale risulta pi`u chiaro, poich´e esprime in maniera esplicita tutto ci`o che l’oratore intende dire, senza lasciare nulla all’interpretazione o alla conoscenza dell’ascoltatore. Viceversa, un discor- so di tipo contestuale, risulta meno chiaro, poich´e demanda la comprensione totale del significato delle frasi, a deduzioni possibili solo a chi conosce anche i dettagli del contesto.8 Dovendo effettuare l’analisi completa del lessico presente nei tre discorsi, in questa fase sono stati utilizzati i testi originali, senza applicare nessuna 8 Dall’articolo[1] si nota come la contestualit`a influenzi anche la struttura delle frasi, complessificandola. http://www.angelusworld.com Page 5 of 7
  • 6. Tabella 1: Elenco degli elementi lessicali costituitivi della componente formale e contestuale del discorso. Formale Nomi Aggettivi Preposizioni Articoli Contestuale Verbi Pronomi Avverbi delle tecniche di normalizzazione precedentemente citate. In Tabella 1 sono mostrati tutti gli elementi lessi- cali, da individuare nel testo, che contribuiscono alla misurazione della componente formale e contestuale. Le componenti lessicali sono estratte automatica- mente dal testo, mediante l’ausilio di un tool di POS tagging9. Figura 9: La figura A mostra la percentuale delle compo- nenti formale e contestuale nei discorsi in esa- me. La figura B mostra, per ogni componente, la percentuale di elementi che concorrono alla sua formazione. L’ultima colonna della figu- ra B rappresenta la quantit`a percentuale, dei singoli elementi, nell’intero discorso. In Figura 9 sono riportati, per ognuno dei tre discorsi, i risultati dell’analisi delle componenti, for- male e contestuale. In particolare, nella Figura 9A `e riportata la composizione percentuale del discorso, rispetto alla formalit`a e alla contestualit`a.10 9 Per condurre l’analisi `e stato utilizzato il POS Tagger della liberia OpenNLP, appositamente addestrato per la lingua italiana. 10 Nella categoria Altro rientrano tutti i token non facenti Dalla Figura 9A si evince come, in proporzione, il discorso pronunciato da Mario Monti presenti una pi`u alta componente formale, mentre il discorso di Matteo Renzi presenti una pi`u alta componente conte- stuale. I valori del discorso di Enrico Letta sono inve- ce molto simili a quelli del Presidente Monti, anche se di poco superiori per quanto riguarda contestualit`a. Figura 10: L’indice di formalit`a dei tre discorsi con le rispettive dimensioni. Nella Figura 9B `e mostrato il contributo di ogni parte delle categorie elencate in Tabella1, come ad esempio la punteggiatura. http://www.angelusworld.com Page 6 of 7
  • 7. singolo elemento lessicale, nella componente di ri- ferimento e nella globalit`a del discorso. Leggendo attentamente il grafico presentato in Figura 9B `e possibile notare come la componente contestuale, in tutti e tre i discorsi, sia sempre composta, per pi`u della met`a, di verbi. Per quanto riguarda la componente formale, invece, gli elementi che contri- buiscono maggiormente sono i nomi e le preposizioni. `E interessante notare come, mentre il grafico della composizione contestuale appaia differente, il grafi- co della composizione formale risulti quasi sempre sovrapponibile, fatte salve piccole discrepanze. L’indice di formalit`a, calcolato per ognuno dei tre discorsi, `e riportato in Figura 10. Analizzando il dato assoluto, il discorso di Mario Monti presenta il valore maggiore ( 73%), subito seguito dal discorso di Enrico Letta ( 72%). Per Matteo Renzi, invece, si registra un valore di 65%. Il dato assoluto va per`o integrato, notando come il discorso di Matteo Renzi risulti lungo circa il doppio rispetto al discorso di Mario Monti. Il discorso di Matteo Renzi risulta pi`u lungo di circa 1/3 anche rispetto a quello di Enrico Letta11. La lunghezza del discorso, in questo particolare caso, potrebbe influire sull’indice di formalit`a, poich´e, trattandosi di un discorso incentrato su ci`o che il governo vorr`a e dovr`a fare, `e fisiologico che cresca il numero di verbi utilizzati. 5 Conclusioni Alla luce di quanto emerso ed esposto nelle varie analisi `e possibile affermare che, pur condividendo un insieme di argomenti di interesse generale per l’Italia come il lavoro, il parlamento, le riforme, la crisi, sono poi le modalit`a di vedere e descrivere la situazione del paese, rispetto a tali argomenti, a differenziare i discorsi. Esistono inoltre temi distintivi dei tre discorsi quali ad esempio (citandone uno per ogni discorso) il bilancio per Mario Monti, la stabilit`a per Enrico Letta, la scuola per Matteo Renzi. Per quanto concerne l’aspetto linguistico, dalle analisi `e emerso un forte utilizzo di verbi al tempo infinito o futuro nel discorso di Mario Monti, sostitui- to invece da forme presenti - tipicamente alla prima persona plurale - nei discorsi di Enrico Letta e Mat- teo Renzi. L’analisi lessicale ha anche evidenziato una maggiore formalit`a nei discorsi di Mario Monti ed Enrico Letta, mentre `e risultato maggiormente contestuale il discorso di Matteo Renzi. 11 `E interessante notare come questi fattori proporzionali rimangano pressoch´e invariati anche nei testi normalizzati. Riferimenti bibliografici [1] Heylighen, F., & Dewaele, J.-M. (2002). Va- riation in the contextuality of language: An empirical measure. Foundations of Science, 20:317–330. http://www.angelusworld.com Page 7 of 7