Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Analisi comparativa dei discorsi di fiducia,
mediante tecniche di NLP e Text Mining.
Valerio Capozio, Software Engineer @Al...
Questi primi dati ci consentono di comprendere
come, in assoluto, il discorso di Matteo Renzi sia
stato il pi`u lungo, men...
Figura 2: Word cloud relativa al discorso di Enrico
Letta.
i termini relativi, invece, alle possibili priorit`a del
govern...
Figura 4: Word cloud delle similitudini dei tre discorsi.
dal documento in cui quel massimo occorre. La
cloud appena descr...
Figura 6: Dendrogramma estratto dal discorso di Mario
Monti
per indirizzare l’azione del governo. `E interessante no-
tare...
Tabella 1: Elenco degli elementi lessicali costituitivi
della componente formale e contestuale del
discorso.
Formale
Nomi ...
singolo elemento lessicale, nella componente di ri-
ferimento e nella globalit`a del discorso. Leggendo
attentamente il gr...
Upcoming SlideShare
Loading in …5
×

Comparative analysis of confidence speeches through NLP and text mining techniques.

966 views

Published on

Discourse analysis of the last italian presidents' confidence speeches: Mario Monti, Enrico Letta, Matteo Renzi. The analysis is based on NLP and Text mining techniques.

Published in: Technology
  • Be the first to comment

Comparative analysis of confidence speeches through NLP and text mining techniques.

  1. 1. Analisi comparativa dei discorsi di fiducia, mediante tecniche di NLP e Text Mining. Valerio Capozio, Software Engineer @Almawave Q uesto lavoro si pone l’obiettivo di ana- lizzare i discorsi di fiducia pronuncia- ti in Senato dagli ultimi tre Presidenti del Consiglio: Mario Monti, Enrico Letta e Matteo Renzi. Le analisi, condotte sul testo di ciascun discorso, saranno volte a valutare, mediante tecniche di Natual Language Pro- cessing e di Text Mining, quanto i tre discor- si si discostino tra loro per contenuti e lin- guaggio. Le analisi saranno condotte grazie all’utilizzo di R1. 1 Il corpus Il corpus di riferimento di questa particolare analisi, `e composto di soli tre documenti di lunghezza relati- vamente breve. Nello specifico, i documenti che in questo studio si intende analizzare, rappresentano le trascrizioni integrali dei discorsi di fiducia tenuti, presso il Senato della Repubblica, dagli ultimi tre Presidenti del Consiglio. Prima di procedere con qualsiasi analisi, sono state rimosse dai documenti tutte le porzioni di testo non relative all’interven- to dell’allora Presidente del Consiglio, in modo che solo quanto effettivamente contenuto nel testo del discorso risultasse oggetto d’analisi. 1 R `e un linguaggio di programmazione funzionale, ottimizzato per esplorare dataset medianti approcci di tipo statistico. http://www.r-project.org 1.1 Normalizzazione del testo Per evitare che le analisi compiute potessero essere influenzate dalla rumorosit`a dei dati, come prima operazione, i tre documenti sono stati oggetto di una serie di trasformazioni necessarie per “normalizzarne” il contenuto. Nello specifico, per ogni discorso, si `e provveduto a: • esprimere tutti i termini solo mediante caratteri minuscoli; • rimuovere la punteggiatura; • rimuovere eventuali numeri; • rimuovere le stopword2; • rimuovere eventuali spazi in eccesso; • ricondurre tutti i termini alla loro radice. Al termine di questa fase di normalizzazione i testi, depurati dell’eventuale rumore presente, risultavano cos`ı composti: Discorso del Presidente Monti 2624 termini, di cui 555 unici. Discorso del Presidente Letta 3150 termini, di cui 609 unici. Discorso del Presidente Renzi 4018 termini, di cui 570 unici. 2 Parole non utili all’analisi, poich´e equamente distribuite in tutti i documenti e dunque irrilevanti. http://www.angelusworld.com Page 1 of 7
  2. 2. Questi primi dati ci consentono di comprendere come, in assoluto, il discorso di Matteo Renzi sia stato il pi`u lungo, mentre quello pronunciato da Mario Monti risulti il pi`u breve. Enrico Letta risulta invece la persona che ha inserito un maggior numero di termini unici nel proprio discorso. La diversit`a lessicale3 definita come #termini unici lunghezza(documento) premia Mario Monti con un rapporto di 0.21, seguito da Enrico Letta con un rapporto di 0.19 ed infine Matteo Renzi con un rapporto di 0.14. 2 Analisi delle word cloud Al fine di valutare con facilit`a i termini maggiormente ricorrenti nei rispettivi interventi, sono state realiz- zate tre diverse word cloud, una per ogni discorso pronunciato. Una word cloud `e una rappresentazione grafica in cui i termini variano di dimensione in maniera direttamente proporzionale alla loro frequenza nel testo4 . Il punto di forza di questa rappresentazione risiede nell’immediatezza della lettura e nella faci- lit`a di comprensione. Per realizzare una word cloud pu`o essere sufficiente calcolare la frequenza di ogni termine e, sulla base di questo dato, assegnare una di- mensione al font utilizzato per scrivere quella parola. Nella nostra analisi le word cloud saranno compo- ste di termini aventi una dimensione5 direttamente proporzionale alla loro frequenza. La frequenza dei termini influenzer`a anche la loro posizione nella cloud. In generale, infatti, i termini saranno posizionati - partendo dal centro della cloud - secondo l’ordine decrescente delle frequenze. Infine, si utilizzeranno i colori per raggruppare i termini in classi di frequenze simili. 2.1 Word cloud del discorso di Mario Monti La word cloud estratta dal discorso di Mario Monti `e mostrata in Figura 1. Analizzandola `e possibile notare subito, come i termini maggiormente utiliz- zati siano Crescita ed Europea. Entrambi i termini 3 La diversit`a lessicale misura il grado di diversit`a presente nel dizionario estratto dal documento. 4 Nelle word cloud i termini non sono legati gli uni agli altri, n´e sono vincolati dalla loro posizione nel testo di origine. Le word cloud trattano i termini che le compongono secondo le assunzioni del modello Bag of words. 5 Per dimensione dei termini si intende la dimensione utilizzata dal font. Figura 1: Word cloud relativa al discorso di Mario Monti. risultano infatti i pi`u grandi e posizionati al centro della word cloud. Continuando l’analisi si pu`o notare la presenza di numerosi verbi quali fare, avviare, con- tribuire, assicurare, ridurre, affrontare, rafforzare, evitare che indicano alcune delle azioni da intrapren- dere, secondo il Presidente Monti. Probabilmente l’uso di molti di questi verbi `e dovuto anche al par- ticolare momento politico-economico in cui Mario Monti sal`ı al governo. A supporto di tale ipotesi c’`e la presenza di ulteriori termini, sempre molto citati, come necessario, dovranno, attenzione, crisi. Tra i termini relativi invece alle possibili priorit`a concettuali del governo troviamo politica, pubblica, italia, lavoro, economia, debito, bilancio, istituzioni, parlamento, fiscale, stabilit`a, strutturali. 2.2 Word cloud del discorso di Enrico Letta La word cloud estratta dal discorso di Enrico Letta `e mostrata in Figura 2. I termini maggiormente uti- lizzati dal Presidente Letta, nel suo primo discorso di fiducia, presso il Senato della Repubblica, sono stati Governo ed Italia, subito affiancati da Europa. Diversamente da quanto avvenuto nel discorso di Mario Monti, per Enrico Letta nella word cloud non sono presenti molti verbi, e tra quelli maggiormente ripetuti (fare, possiamo, voglio, dobbiamo) non sem- bra esserci una forte sintonia. Le azioni che questi verbi richiamano infatti sembrano stridere tra loro in una sorta di contrasto tra ci`o che si fa, ci`o che si vorrebbe/potrebbe fare e ci`o che si deve fare. Tra http://www.angelusworld.com Page 2 of 7
  3. 3. Figura 2: Word cloud relativa al discorso di Enrico Letta. i termini relativi, invece, alle possibili priorit`a del governo troviamo politica, lavoro, riforma, pubblica, parlamento, crescita, paese, diritto, fiscale. 2.3 Word cloud del discorso di Matteo Renzi La word cloud estratta dal discorso di Matteo Renzi `e mostrata in Figura 3. Dal grafico si evince come il termine con maggiore risalto sia Possibilit`a. Matteo Renzi, come Mario Monti, ha utilizzato numerosi verbi (fatto, pensiamo, cambio, pu`o, dire, viviamo, sappiamo). A differenza di quanto mostrato nella cloud di Mario Monti, per`o, dove quasi tutti i verbi erano presenti in forma infinita, in questa cloud la maggioranza dei verbi `e al tempo presente. Questa focalizzazione sul presente `e ulteriormente rafforzata mediante l’uso di termini capaci di avvicinare l’oriz- zonte temporale e spaziale degli argomenti trattati (oggi, qui, realt`a, fine, momento). Tra i termini re- lativi alle possibili priorit`a tematiche del governo troviamo invece, politica, paese, italia, lavoro, ri- forme, scuola, amministrazione, province, giustizia, investimenti. 2.4 Comparazione dei discorsi A seguito di questa prima valutazione, eseguita sui singoli discorsi, `e stata realizzata una seconda tipo- logia analisi, basata su uno studio comparativo dei tre discorsi. Anche in questo caso la word cloud `e Figura 3: Word cloud relativa al discorso di Matteo Renzi. stata utilizzata come strumento di analisi, apportan- do qualche variazione al comportamento preceden- temente descritto. In particolare sono state create due word cloud, la prima per misurare i tratti comu- ni dei discorsi, la seconda per evidenziare invece le differenze. 2.4.1 Similitudini dei tre discorsi Nella word cloud esposta in Figura 4 sono mostrati tutti i termini che accomunano i discorsi di Mario Monti, Enrico Letta e Matteo Renzi. In questa cloud la dimensione di un termine `e pari alla sua frequenza minima nei tre documenti. `E interessante notare come, tra i tratti comuni, spicchino i termini Governo e Italia centrali nel discorso di Enrico Letta (Figura: 2) mentre manchino quelli di Monti e Renzi. Questo particolare sottolinea ulteriormente la specificit`a di quei termini nei rispettivi discorsi. 2.4.2 Differenze dei tre discorsi Nella word cloud esposta in Figura 5 sono invece mostrati i tratti distintivi dei tre discorsi. La di- mensione delle parole `e calcolata secondo la seguente formula: max i pi,j − i pi,j numdocs dove pi,j `e la frequenza con cui il termine i compare nel documento j e la sua posizione `e determinata http://www.angelusworld.com Page 3 of 7
  4. 4. Figura 4: Word cloud delle similitudini dei tre discorsi. dal documento in cui quel massimo occorre. La cloud appena descritta consente di visualizzare le differenze esistenti nei tre discorsi, sulla base dei termini utilizzati nel pronunciarli. In questo caso troviamo nuovamente presenti i termini distintivi di Mario Monti e Matteo Renzi, ovviamente posizionati nell’area relativa. La presenza, nell’area viola, di un numero elevato di termini di dimensioni maggiori, rispetto alle altre aree, significa che Matteo Renzi ha deviato maggiormente dalla loro frequenza media di utilizzo. Il termine con una pi`u alta deviazione dalla media risulta per`o Crescita, assegnato a Mario Monti6. 3 Analisi dei cluster L’analisi successiva, eseguita sui tre discorsi, ri- guarda lo studio degli argomenti in essi trattati. Per condurre questo tipo di analisi `e stato utiliz- zato un algoritmo di clustering gerarchico di tipo agglomerativo7. I risultati del clustering sono mostrati mediante l’ausilio di un dendrogramma. Il dendrogramma, 6 Il termine crescita `e presente anche nella cloud di Enrico Letta come termine di 4a fascia (Figura 2), mentre non compare affatto nella cloud di Matteo Renzi (Figura 3). 7 Gli algoritmi di clustering gerarchico possono essere top- down o bottom-up. Nel primo caso si parler`a di clustering divisivo, poich´e da un unico cluster omnicomprensivo, si proceder`a a suddividere ricorsivamente gli elmenti in sotto- cluster. Nel secondo caso si parler`a invece di clustering agglomerativo, poich´e da un cluster per ogni elemento, si proceder`a a riunire i cluster, risalendo la gerarchia. Figura 5: Word cloud delle differenze dei tre discorsi. come suggerisce il nome stesso, `e una grafico con una struttura ad albero, rappresentante il risultato dell’algoritmo di clustering. Questo tipo di grafico viene utilizzato frequentemente per la sua facilit`a di lettura. Partendo dal basso, dove ogni cluster `e composto di un solo elemento, e risalendo la gerar- chia, possiamo incontrare diverse linee orizzontali, ognuna delle quali rappresenta la creazione di un nuo- vo cluster composto dagli elementi sottostanti. Le coordinate della linea orizzontale di fusione, rispet- to all’asse delle ordinate, rappresentano la distanza che intercorre tra i cluster oggetto della fusione. Da quanto esposto si deduce che pi`u due termini sono vicini nel dendrogramma, maggiormente questi risul- tano correlati per l’algoritmo di clustering. I termini pi`u in alto risultano, invece, maggiormente popolari e dunque trasversalmente affini a tutti gli altri. I dendrogrammi estratti sono mostrati nelle Fi- gure 6, 7, 8. I rettangoli rossi mostrano come sia possibile focalizzare l’attenzione su cluster specifici, effettuando un taglio sull’albero. Nelle immagini il taglio `e stato impostato per ottenere 4 cluster. 3.1 Cluster discorso di Mario Monti Il dendrogramma estratto dal discorso di Mario Mon- ti, presentato in Figura 6, mostra come i concet- ti di crescita e lavoro risultino tra loro fortemente correlati. L’ultimo cluster evidenziato, partendo da sinistra, risulta di dimensioni maggiori rispetto agli altri 3. In questo cluster sono raggruppati gli interventi proposti http://www.angelusworld.com Page 4 of 7
  5. 5. Figura 6: Dendrogramma estratto dal discorso di Mario Monti per indirizzare l’azione del governo. `E interessante no- tare come il cluster legge-necessario sia stato fuso con cluster quali istituzioni, interventi-amministrazione- fiscale, costituzionale, quasi a segnalare le necessit`a di intervento individuate dal governo Monti. 3.2 Cluster discorso di Enrico Letta Figura 7: Dendrogramma estratto dal discorso di Enrico Letta Il dendrogramma estratto dal discorso di Enrico Letta, presentato in Figura 7, evidenzia anch’esso un cluster dedicato al tema del lavoro, ma non legato al tema della crescita, bens`ı al momento attuale. Il tema della crescita (riscontrabile nel cluster con maggiori dimensioni) `e invece legato a costi-economia e stabilit`a-fiscale. Il tema Italia risulta trasversale all’intero discor- so mediante un collegamento ad alto livello della gerarchia. 3.3 Cluster discorso di Matteo Renzi Il dendrogramma estratto dal discorso di Matteo Renzi, presentato in Figura 8, conferma il risultato Figura 8: Dendrogramma estratto dal discorso di Matteo Renzi. emerso dalla word cloud (Figura 3) evidenziando co- me l’argomento della possibilit`a sia trasversale a tutti gli altri. Per quanto riguarda la possibile azione di governo, l’analisi dell’ultimo cluster (partendo da sini- stra) evidenzia come gli interventi proposti da Renzi siano relativi a riforme nell’ambito costituzionale- elettorale, scuola, giustizia e province. Quest’ultimo cluster mostra come il bisogno di investimenti sia correlato, nel discorso di Renzi, al bisogno di capacit`a e regole 4 Analisi Lessicale L’ultima analisi, compiuta sui tre discorsi, `e volta a comprendere quanto questi risultino chiari nell’e- sposizione dei temi trattati. Il soggetto principale di questa fase di studio `e stato il lessico utilizza- to da ciascun Presidente nel pronunciare il proprio discorso. Studi linguistici[1] hanno mostrato come valutare la comprensibilit`a di un discorso, mediante il calcolo di due indicatori: la formalit`a e la contestualit`a. Secondo quanto riportato in [1], un discorso con un’alta componente formale risulta pi`u chiaro, poich´e esprime in maniera esplicita tutto ci`o che l’oratore intende dire, senza lasciare nulla all’interpretazione o alla conoscenza dell’ascoltatore. Viceversa, un discor- so di tipo contestuale, risulta meno chiaro, poich´e demanda la comprensione totale del significato delle frasi, a deduzioni possibili solo a chi conosce anche i dettagli del contesto.8 Dovendo effettuare l’analisi completa del lessico presente nei tre discorsi, in questa fase sono stati utilizzati i testi originali, senza applicare nessuna 8 Dall’articolo[1] si nota come la contestualit`a influenzi anche la struttura delle frasi, complessificandola. http://www.angelusworld.com Page 5 of 7
  6. 6. Tabella 1: Elenco degli elementi lessicali costituitivi della componente formale e contestuale del discorso. Formale Nomi Aggettivi Preposizioni Articoli Contestuale Verbi Pronomi Avverbi delle tecniche di normalizzazione precedentemente citate. In Tabella 1 sono mostrati tutti gli elementi lessi- cali, da individuare nel testo, che contribuiscono alla misurazione della componente formale e contestuale. Le componenti lessicali sono estratte automatica- mente dal testo, mediante l’ausilio di un tool di POS tagging9. Figura 9: La figura A mostra la percentuale delle compo- nenti formale e contestuale nei discorsi in esa- me. La figura B mostra, per ogni componente, la percentuale di elementi che concorrono alla sua formazione. L’ultima colonna della figu- ra B rappresenta la quantit`a percentuale, dei singoli elementi, nell’intero discorso. In Figura 9 sono riportati, per ognuno dei tre discorsi, i risultati dell’analisi delle componenti, for- male e contestuale. In particolare, nella Figura 9A `e riportata la composizione percentuale del discorso, rispetto alla formalit`a e alla contestualit`a.10 9 Per condurre l’analisi `e stato utilizzato il POS Tagger della liberia OpenNLP, appositamente addestrato per la lingua italiana. 10 Nella categoria Altro rientrano tutti i token non facenti Dalla Figura 9A si evince come, in proporzione, il discorso pronunciato da Mario Monti presenti una pi`u alta componente formale, mentre il discorso di Matteo Renzi presenti una pi`u alta componente conte- stuale. I valori del discorso di Enrico Letta sono inve- ce molto simili a quelli del Presidente Monti, anche se di poco superiori per quanto riguarda contestualit`a. Figura 10: L’indice di formalit`a dei tre discorsi con le rispettive dimensioni. Nella Figura 9B `e mostrato il contributo di ogni parte delle categorie elencate in Tabella1, come ad esempio la punteggiatura. http://www.angelusworld.com Page 6 of 7
  7. 7. singolo elemento lessicale, nella componente di ri- ferimento e nella globalit`a del discorso. Leggendo attentamente il grafico presentato in Figura 9B `e possibile notare come la componente contestuale, in tutti e tre i discorsi, sia sempre composta, per pi`u della met`a, di verbi. Per quanto riguarda la componente formale, invece, gli elementi che contri- buiscono maggiormente sono i nomi e le preposizioni. `E interessante notare come, mentre il grafico della composizione contestuale appaia differente, il grafi- co della composizione formale risulti quasi sempre sovrapponibile, fatte salve piccole discrepanze. L’indice di formalit`a, calcolato per ognuno dei tre discorsi, `e riportato in Figura 10. Analizzando il dato assoluto, il discorso di Mario Monti presenta il valore maggiore ( 73%), subito seguito dal discorso di Enrico Letta ( 72%). Per Matteo Renzi, invece, si registra un valore di 65%. Il dato assoluto va per`o integrato, notando come il discorso di Matteo Renzi risulti lungo circa il doppio rispetto al discorso di Mario Monti. Il discorso di Matteo Renzi risulta pi`u lungo di circa 1/3 anche rispetto a quello di Enrico Letta11. La lunghezza del discorso, in questo particolare caso, potrebbe influire sull’indice di formalit`a, poich´e, trattandosi di un discorso incentrato su ci`o che il governo vorr`a e dovr`a fare, `e fisiologico che cresca il numero di verbi utilizzati. 5 Conclusioni Alla luce di quanto emerso ed esposto nelle varie analisi `e possibile affermare che, pur condividendo un insieme di argomenti di interesse generale per l’Italia come il lavoro, il parlamento, le riforme, la crisi, sono poi le modalit`a di vedere e descrivere la situazione del paese, rispetto a tali argomenti, a differenziare i discorsi. Esistono inoltre temi distintivi dei tre discorsi quali ad esempio (citandone uno per ogni discorso) il bilancio per Mario Monti, la stabilit`a per Enrico Letta, la scuola per Matteo Renzi. Per quanto concerne l’aspetto linguistico, dalle analisi `e emerso un forte utilizzo di verbi al tempo infinito o futuro nel discorso di Mario Monti, sostitui- to invece da forme presenti - tipicamente alla prima persona plurale - nei discorsi di Enrico Letta e Mat- teo Renzi. L’analisi lessicale ha anche evidenziato una maggiore formalit`a nei discorsi di Mario Monti ed Enrico Letta, mentre `e risultato maggiormente contestuale il discorso di Matteo Renzi. 11 `E interessante notare come questi fattori proporzionali rimangano pressoch´e invariati anche nei testi normalizzati. Riferimenti bibliografici [1] Heylighen, F., & Dewaele, J.-M. (2002). Va- riation in the contextuality of language: An empirical measure. Foundations of Science, 20:317–330. http://www.angelusworld.com Page 7 of 7

×