SlideShare a Scribd company logo
Il mondo Enel visto da Twitter.
Tweet Analysis e Topic Extraction.
Andrea Capozio
26 marzo 2014
Questo lavoro si pone l’obiettivo di analizzare e comprendere le tematiche
trattate sul social network Twitter riguardanti il gruppo Enel.
I risultati di seguito riportati sono stati realizzati mediante tecniche di Text
Mining, utilizzando il software statistico R 1.
Keywords: Enel, Twitter, Tweet, Text Mining, R, Hashtag, Cluster
1
R `e un linguaggio di programmazione funzionale, ottimizzato per esplorare dataset medianti approcci
di tipo statistico. http://www.r-project.org
1
Enel e Twitter
1 La collezione di dati
I dati di partenza della seguente analisi sono costituiti da 237 tweet in lingua italiana,
ottenuti mediante le API2 di Twitter. Il periodo temporale considerato va dal 01-01-2014
al 15-03-2014.
E’ interessante iniziare l’analisi in oggetto osservando la provenienza geografica dei
tweet in esame (Figura 1). Per ciascun tweet, laddove disponibili, sono state analizzate
le rispettive coordinate geografiche (latitudine e longitudine) e mediante l’ausilio delle
API di Google Maps `e stato possibile assegnare ad un tweet una posizione sulla cartina;
tuttavia per pi`u della met`a dei tweet non `e stato possibile disporre di questo tipo di
informazione.
La maggior parte di essi ha origine in Italia (57 tweet), in particolare nelle regioni
centrali e del nord Italia (da notare la scarsa presenza di tweet meridionali); tuttavia
occorre segnalare la presenza di alcuni tweet di origine straniera, provenienti in particolare
dalla Germania, dalla Tanzania, dagli USA e dalla Russia.
Figura 1: Origine dei Tweet Enel nel mondo.
2
Le API messe a disposizione da Twitter consentono di interrogare il servizio di micro-blogging con
varie modalit`a per recuperare insiemi di tweet immessi dagli utenti. Per questa analisi si `e fatto uso
della search API, ricercando i tweet contenenti l’hashtag #Enel.
2
Enel e Twitter
1.1 Analisi Esplorativa
Per evitare che le analisi compiute possano essere inficiate dalla rumorosit`a dei dati,
come prima operazione, i tweet sono stati opportunamente elaborati. In particolare, per
ognuno di essi, si `e provveduto a:
• esprimere tutte le parole solo con caratteri minuscoli;
• rimuovere le stopwords3;
• rimuovere la punteggiatura;
• rimuovere eventuali numeri;
• rimuovere eventuali spazi in eccesso.
1.2 Analisi della word cloud
Al fine di valutare con facilit`a i termini maggiormente ricorrenti, `e stata realizzata una
word cloud dell’insieme dei tweet precedentemente elaborato. Una word cloud `e una
rappresentazione grafica di dati testuali, usata in particolare per la visualizzazione di
parole chiave sul web o di testo in forma libera. Le modalit`a di visualizzazione di una
word cloud variano a seconda della particolare necessit`a.
Il criterio adottato in questo elaborato consente una rapida visione dei termini mag-
giormente frequenti in un testo: viene dapprima assegnata una dimensione al font per la
rappresentazione di ciascuna parola in maniera direttamente proporzionale alla frequenza
della stessa; successivamente i termini vengono collocati, a partire dal centro della cloud,
seguendo l’ordine decrescente delle frequenze.
La word cloud estratta dal corpus di tweet `e mostrata in Figura 2; analizzandola `e
possibile notare subito la presenza maggioritaria di termini afferenti il mondo del business
Enel quali energia, rinnovabili, geotermia, zolfo. Continuando l’analisi si pu`o osservare la
presenza di numerosi termini economici miliardi, risultati, euro, produttivit`a, dividendo
che indicano l’utilizzo di Twitter come mezzo di diffusione di news economiche relative
all’azienda.
Un’ampia classe di parole inoltre si riferisce ad avvenimenti legati al mondo Enel non
associabili al lato economico o produttivo. In particolare sono numerosi i riferimenti alla
dispersione di polvere di carbone a Brindisi e al relativo processo (in corso nel periodo
considerato). I termini maggiormente significativi sono: carbone, digos, processo, brindisi.
Infine occorre segnalare la significativa presenza di termini legati ad alcune partnership
di Enel, come ad esempio quella con il celebre programma televisivo Masterchef che ha
visto lo svolgimento di eventi in alcuni Punto Enel (Firenze, Milano, Torino).
3
Termini che ricorrono spesso in una lingua come ad esempio gli articoli, le preposizioni e le congiunzioni.
3
Enel e Twitter
Figura 2: Word cloud relativa all’hashtag #Enel.
2 Analisi dei Topic
A seguito della precedente analisi introduttiva, il passo successivo riguarda lo studio degli
argomenti maggiormente discussi nei tweet in esame.
Per questo tipo di studio sono stati seguiti due modalit`a: la prima consiste nell’analisi
degli hashtag4 presenti nei tweet in esame; la seconda modalit`a `e basata invece su una
tecnica di clustering applicata all’insieme di tweet.
2.1 Analisi degli Hashtag
Considerato il limite di 140 caratteri per un singolo tweet, `e sorta la necessit`a di esprimere
concetti o eventi nel modo pi`u breve e conciso possibile ma al tempo stesso esplicativo e
chiaro. A tale scopo (ma anche altri5) `e stato introdotto l’utilizzo degli hashtag: mediante
questo strumento, chi scrive un tweet indica in maniera esplicita ed essenziale l’argomento
di cui desidera parlare, facendo cos`ı economia dei caratteri a disposizione.
Mediante tale approccio, basato su questa peculiarit`a di Twitter, `e stato possibile
determinare immediatamente gli argomenti che vengono associati ad Enel. Una volta
estratti dalla collezione gli hashtag che concorrono con l’hashtag #Enel, ci si `e avvalsi
nuovamente di una word cloud per la loro rappresentazione (Figura 3).
4
Parole o combinazioni di parole concatenate precedute dal simbolo cancelletto #.
5
Ad esempio, inserendo un hashtag in un tweet, si crea un collegamento ipertestuale verso tutti i tweet
che contengono il medesimo tag.
4
Enel e Twitter
Figura 3: Word Cloud Co-Hashtag Enel
Spiccano hashtag legati all’argomento carbone a Brindisi. In particolare risulta assai
significativa l’associazione di questo evento al caso analogo che ha coinvolto la Tirreno
Power a Vado Ligure. Si notano infatti gli hashtag #processo, #siamotuttiparteoffesa,
#noalcarbone, #brindisi, #denuncia, #tirrenopower. In seconda istanza si rilevano
hashtag afferenti il lato produttivo di Enel: #carbone, #biomasse, #efficienzaenergetica,
#rinnovabili. Infine si osserva la presenza di hashtag riferiti alla partecipazione di
personaggi dello show televisivo Masterchef ad eventi organizzati in vari Punto Enel
(#cracco, #milano) e alla partnership di Enel con il museo Macro di Roma (#macro,
#flaviabarca).
2.2 Analisi dei Cluster
Il secondo approccio considerato per lo studio dei topic consiste nell’utilizzo di un
algoritmo di clustering gerarchico di tipo bottom up6. A differenza dell’analisi per
hashtag, nella quale si sfrutta uno strumento nativo del mondo Twitter (Sezione 2.1), il
clustering si configura come una metodologia classica per questo tipo di studi.
6
Si intende un clustering di tipo agglomerativo. Si parte dall’assunzione che ogni elemento costituisca
un cluster a s`e; successivamente i singoli cluster vengono fusi ricorsivamente in cluster pi`u grandi
secondo criteri di similiturdine inizialmente stabiliti.
5
Enel e Twitter
Tipicamente i risultati di clustering gerarchico sono visualizzati mediante una rappre-
sentazione ad albero detta appunto dendrogramma.
Figura 4: Dendrogramma estratto dai Tweet Enel
Ciascuna foglia dell’albero corrisponde ad un singolo elemento dell’insieme considerato;
risalendo l’albero alcune foglie iniziano a fondersi in rami fino ad arrivare alla radice
dell’albero. Prima avviene la fusione tra due gruppi (due foglie, una foglia e un ramo
oppure due rami), allora maggiore `e la similitudine tra di essi (secondo la metrica
stabilita inizialmente). Il livello gerarchico dei cluster `e indicato sull’asse delle ordinate
del dendrogramma, mentre sull’asse delle ascisse `e misurata la distanza logica tra i
cluster seconda la metrica utilizzata. Una volta costruito l’albero, l’ultimo passo consiste
nell’identificare i cluster. A seconda del numero di cluster desiderato, si stabilisce una
quota sull’asse delle ordinate e si traccia una linea orizzontale passante per essa, cos`ı
facendo i gruppi di osservazioni sotto di essa costituiscono i cluster7.
Il dendrogramma estratto `e mostrato nella Figura 4. Nel nostro caso la quota sull’asse
delle ordinate `e stata scelta al fine di ottenere 3 cluster, rappresentati dai rettangoli rossi
7
Tale operazione pu`o essere eseguita pi`u volte al fine di ottenere una divisione ottimale. Talvolta pu`o
risultare semplice stabilire l’altezza della linea da tracciare, individuando ad occhio il giusto numero
di cluster, mentre a volte tale scelta non `e cos`ı semplice.
6
Enel e Twitter
in figura.
Anche con questo approccio vengono riscontrati aspetti economici-produttivi a conferma
di un utilizzo informativo del Social Network per divulgare risultati legati all’attivit`a di
Enel.
Nuovamente vengono messe in evidenza la questione carbone nello stabilimento Enel
di Brindisi (e il riferimento al caso analogo della Tirreno Power di Vado Ligure) e la
partnership tra Enel e Masterchef in vari Punto Enel d’Italia.
Un aspetto non rilevato nell’analisi mediante hashtag `e l’utilizzo di Twitter per la
diffusione di notizie legate alle opportunit`a di assunzione.
2.3 Osservazioni
A seguito dell’analisi esplorativa delle frequenze delle singole parole presenti nei dati in
esame (Sezione 1.2) erano gi`a emerse alcune caratteristiche riguardanti la natura dei
tweet (finanziaria, produttiva, attualit`a, commenti) e i due approcci precedentemente
seguiti (hashtag e clustering) hanno confermato in pieno queste tendenze. Data la
natura dei dati in questione (messaggi di breve lunghezza), l’analisi degli hashtag si
rivela estremamente competitiva con gli algoritmi di clustering (altamente performanti
su un testo strutturato); infatti entrambi gli approcci delineano gli stessi tre topic
principali: la partnership Enel-Masterchef, la questione carbone a Brindisi e i risultati
economici-produttivi di Enel.
Le differenze tra i due approcci sono principalmente due: a differenza del cluster, con
gli hashtag viene sottolineata la partnership tra il Macro di Roma ed Enel; d’altra parte
il cluster pone l’accento sulle opportunit`a di lavoro e assunzioni nell’azienda.
3 Conclusioni
Alla luce di questa analisi `e possibile concludere che i tweet riguardanti l’Enel presentano
molteplici nature; in particolare si segnalano tweet in larga parte riguardanti vari eventi
attinenti l’Enel (processi penali, partnership) e tweet a stampo economico-energetico. Un
aspetto da non sottovalutare `e la possibile diffusione di opinioni e associazioni negative
legate al nome Enel; a tal proposito risulta emblematico l’accostamento di Enel alla
Tirreno Power per la questione carbone a Brindisi. Ed altrettanto significativa `e la
predilezione dei classici mezzi di informazione da parte di Enel per tale argomento, a
discapito di nuovi canali quali i Social Network come Twitter.
Considerato il carattere multinazionale dell’azienda (in parte gi`a emerso nel corso
dell’analisi), un’ulteriore analisi potrebbe essere quella di analizzare i tweet legati al
mondo Enel in lingua spagnola e inglese, al fine di integrare in modo completo quanto
fatto in questo elaborato.
7
Enel e Twitter
Riferimenti bibliografici
[1] G. James, D. Witten, T. Hastie, R. Tibshirani (2013). An Introduction to Statistical
Learning: with Applications in R. Springer Texts in Statistics.
[2] J. Adler (2012). R in a Nutshell: A Desktop Quick Reference. O’Reilly (2nd Edition).
[3] M. A. Russell (2011). Mining the Social Web: Analyzing Data from Facebook,
Twitter, LinkedIn and other Social Media Site. O’Reilly.
8

More Related Content

Similar to Tweet Analysis with Text Mining Algorithms

Io Programmo - Android Programming - Andrea Galeazzi
Io Programmo - Android Programming - Andrea GaleazziIo Programmo - Android Programming - Andrea Galeazzi
Io Programmo - Android Programming - Andrea GaleazziAndrea Galeazzi
 
Metodologia per la classificazione automatica di commenti su social network tesi
Metodologia per la classificazione automatica di commenti su social network tesiMetodologia per la classificazione automatica di commenti su social network tesi
Metodologia per la classificazione automatica di commenti su social network tesi
Simone Maver
 
L'uso dei social network nell'e-government. Il caso di Twitter.
L'uso dei social network nell'e-government. Il caso di Twitter.L'uso dei social network nell'e-government. Il caso di Twitter.
L'uso dei social network nell'e-government. Il caso di Twitter.
davide_guida
 
Sissa presentazione crisci
Sissa presentazione crisciSissa presentazione crisci
Sissa presentazione crisci
Alfonso Crisci
 
Enel Opencompany
Enel OpencompanyEnel Opencompany
Enel Opencompany
Raffaele Cirullo
 
Analisi discorsi in rete esercitazioni 1
Analisi discorsi in rete esercitazioni 1Analisi discorsi in rete esercitazioni 1
Analisi discorsi in rete esercitazioni 1ElisabettaLocatelli
 
Hashtag marketing - CMI ottobre 2013
Hashtag marketing - CMI  ottobre 2013Hashtag marketing - CMI  ottobre 2013
Hashtag marketing - CMI ottobre 2013
Social Media Easy
 
Hashtag marketing - CMI ottobre 2013
Hashtag marketing - CMI  ottobre 2013 Hashtag marketing - CMI  ottobre 2013
Hashtag marketing - CMI ottobre 2013
Roberto Grossi
 
Extended summary of why we still can’t browse in peace on the uniqueness and ...
Extended summary of why we still can’t browse in peace on the uniqueness and ...Extended summary of why we still can’t browse in peace on the uniqueness and ...
Extended summary of why we still can’t browse in peace on the uniqueness and ...
DiegoBartoli2
 
Lo studio FIRE sui progetti a consuntivo 2005-2012
Lo studio FIRE sui progetti a consuntivo 2005-2012Lo studio FIRE sui progetti a consuntivo 2005-2012
Lo studio FIRE sui progetti a consuntivo 2005-2012
Dario Di Santo
 

Similar to Tweet Analysis with Text Mining Algorithms (10)

Io Programmo - Android Programming - Andrea Galeazzi
Io Programmo - Android Programming - Andrea GaleazziIo Programmo - Android Programming - Andrea Galeazzi
Io Programmo - Android Programming - Andrea Galeazzi
 
Metodologia per la classificazione automatica di commenti su social network tesi
Metodologia per la classificazione automatica di commenti su social network tesiMetodologia per la classificazione automatica di commenti su social network tesi
Metodologia per la classificazione automatica di commenti su social network tesi
 
L'uso dei social network nell'e-government. Il caso di Twitter.
L'uso dei social network nell'e-government. Il caso di Twitter.L'uso dei social network nell'e-government. Il caso di Twitter.
L'uso dei social network nell'e-government. Il caso di Twitter.
 
Sissa presentazione crisci
Sissa presentazione crisciSissa presentazione crisci
Sissa presentazione crisci
 
Enel Opencompany
Enel OpencompanyEnel Opencompany
Enel Opencompany
 
Analisi discorsi in rete esercitazioni 1
Analisi discorsi in rete esercitazioni 1Analisi discorsi in rete esercitazioni 1
Analisi discorsi in rete esercitazioni 1
 
Hashtag marketing - CMI ottobre 2013
Hashtag marketing - CMI  ottobre 2013Hashtag marketing - CMI  ottobre 2013
Hashtag marketing - CMI ottobre 2013
 
Hashtag marketing - CMI ottobre 2013
Hashtag marketing - CMI  ottobre 2013 Hashtag marketing - CMI  ottobre 2013
Hashtag marketing - CMI ottobre 2013
 
Extended summary of why we still can’t browse in peace on the uniqueness and ...
Extended summary of why we still can’t browse in peace on the uniqueness and ...Extended summary of why we still can’t browse in peace on the uniqueness and ...
Extended summary of why we still can’t browse in peace on the uniqueness and ...
 
Lo studio FIRE sui progetti a consuntivo 2005-2012
Lo studio FIRE sui progetti a consuntivo 2005-2012Lo studio FIRE sui progetti a consuntivo 2005-2012
Lo studio FIRE sui progetti a consuntivo 2005-2012
 

Tweet Analysis with Text Mining Algorithms

  • 1. Il mondo Enel visto da Twitter. Tweet Analysis e Topic Extraction. Andrea Capozio 26 marzo 2014 Questo lavoro si pone l’obiettivo di analizzare e comprendere le tematiche trattate sul social network Twitter riguardanti il gruppo Enel. I risultati di seguito riportati sono stati realizzati mediante tecniche di Text Mining, utilizzando il software statistico R 1. Keywords: Enel, Twitter, Tweet, Text Mining, R, Hashtag, Cluster 1 R `e un linguaggio di programmazione funzionale, ottimizzato per esplorare dataset medianti approcci di tipo statistico. http://www.r-project.org 1
  • 2. Enel e Twitter 1 La collezione di dati I dati di partenza della seguente analisi sono costituiti da 237 tweet in lingua italiana, ottenuti mediante le API2 di Twitter. Il periodo temporale considerato va dal 01-01-2014 al 15-03-2014. E’ interessante iniziare l’analisi in oggetto osservando la provenienza geografica dei tweet in esame (Figura 1). Per ciascun tweet, laddove disponibili, sono state analizzate le rispettive coordinate geografiche (latitudine e longitudine) e mediante l’ausilio delle API di Google Maps `e stato possibile assegnare ad un tweet una posizione sulla cartina; tuttavia per pi`u della met`a dei tweet non `e stato possibile disporre di questo tipo di informazione. La maggior parte di essi ha origine in Italia (57 tweet), in particolare nelle regioni centrali e del nord Italia (da notare la scarsa presenza di tweet meridionali); tuttavia occorre segnalare la presenza di alcuni tweet di origine straniera, provenienti in particolare dalla Germania, dalla Tanzania, dagli USA e dalla Russia. Figura 1: Origine dei Tweet Enel nel mondo. 2 Le API messe a disposizione da Twitter consentono di interrogare il servizio di micro-blogging con varie modalit`a per recuperare insiemi di tweet immessi dagli utenti. Per questa analisi si `e fatto uso della search API, ricercando i tweet contenenti l’hashtag #Enel. 2
  • 3. Enel e Twitter 1.1 Analisi Esplorativa Per evitare che le analisi compiute possano essere inficiate dalla rumorosit`a dei dati, come prima operazione, i tweet sono stati opportunamente elaborati. In particolare, per ognuno di essi, si `e provveduto a: • esprimere tutte le parole solo con caratteri minuscoli; • rimuovere le stopwords3; • rimuovere la punteggiatura; • rimuovere eventuali numeri; • rimuovere eventuali spazi in eccesso. 1.2 Analisi della word cloud Al fine di valutare con facilit`a i termini maggiormente ricorrenti, `e stata realizzata una word cloud dell’insieme dei tweet precedentemente elaborato. Una word cloud `e una rappresentazione grafica di dati testuali, usata in particolare per la visualizzazione di parole chiave sul web o di testo in forma libera. Le modalit`a di visualizzazione di una word cloud variano a seconda della particolare necessit`a. Il criterio adottato in questo elaborato consente una rapida visione dei termini mag- giormente frequenti in un testo: viene dapprima assegnata una dimensione al font per la rappresentazione di ciascuna parola in maniera direttamente proporzionale alla frequenza della stessa; successivamente i termini vengono collocati, a partire dal centro della cloud, seguendo l’ordine decrescente delle frequenze. La word cloud estratta dal corpus di tweet `e mostrata in Figura 2; analizzandola `e possibile notare subito la presenza maggioritaria di termini afferenti il mondo del business Enel quali energia, rinnovabili, geotermia, zolfo. Continuando l’analisi si pu`o osservare la presenza di numerosi termini economici miliardi, risultati, euro, produttivit`a, dividendo che indicano l’utilizzo di Twitter come mezzo di diffusione di news economiche relative all’azienda. Un’ampia classe di parole inoltre si riferisce ad avvenimenti legati al mondo Enel non associabili al lato economico o produttivo. In particolare sono numerosi i riferimenti alla dispersione di polvere di carbone a Brindisi e al relativo processo (in corso nel periodo considerato). I termini maggiormente significativi sono: carbone, digos, processo, brindisi. Infine occorre segnalare la significativa presenza di termini legati ad alcune partnership di Enel, come ad esempio quella con il celebre programma televisivo Masterchef che ha visto lo svolgimento di eventi in alcuni Punto Enel (Firenze, Milano, Torino). 3 Termini che ricorrono spesso in una lingua come ad esempio gli articoli, le preposizioni e le congiunzioni. 3
  • 4. Enel e Twitter Figura 2: Word cloud relativa all’hashtag #Enel. 2 Analisi dei Topic A seguito della precedente analisi introduttiva, il passo successivo riguarda lo studio degli argomenti maggiormente discussi nei tweet in esame. Per questo tipo di studio sono stati seguiti due modalit`a: la prima consiste nell’analisi degli hashtag4 presenti nei tweet in esame; la seconda modalit`a `e basata invece su una tecnica di clustering applicata all’insieme di tweet. 2.1 Analisi degli Hashtag Considerato il limite di 140 caratteri per un singolo tweet, `e sorta la necessit`a di esprimere concetti o eventi nel modo pi`u breve e conciso possibile ma al tempo stesso esplicativo e chiaro. A tale scopo (ma anche altri5) `e stato introdotto l’utilizzo degli hashtag: mediante questo strumento, chi scrive un tweet indica in maniera esplicita ed essenziale l’argomento di cui desidera parlare, facendo cos`ı economia dei caratteri a disposizione. Mediante tale approccio, basato su questa peculiarit`a di Twitter, `e stato possibile determinare immediatamente gli argomenti che vengono associati ad Enel. Una volta estratti dalla collezione gli hashtag che concorrono con l’hashtag #Enel, ci si `e avvalsi nuovamente di una word cloud per la loro rappresentazione (Figura 3). 4 Parole o combinazioni di parole concatenate precedute dal simbolo cancelletto #. 5 Ad esempio, inserendo un hashtag in un tweet, si crea un collegamento ipertestuale verso tutti i tweet che contengono il medesimo tag. 4
  • 5. Enel e Twitter Figura 3: Word Cloud Co-Hashtag Enel Spiccano hashtag legati all’argomento carbone a Brindisi. In particolare risulta assai significativa l’associazione di questo evento al caso analogo che ha coinvolto la Tirreno Power a Vado Ligure. Si notano infatti gli hashtag #processo, #siamotuttiparteoffesa, #noalcarbone, #brindisi, #denuncia, #tirrenopower. In seconda istanza si rilevano hashtag afferenti il lato produttivo di Enel: #carbone, #biomasse, #efficienzaenergetica, #rinnovabili. Infine si osserva la presenza di hashtag riferiti alla partecipazione di personaggi dello show televisivo Masterchef ad eventi organizzati in vari Punto Enel (#cracco, #milano) e alla partnership di Enel con il museo Macro di Roma (#macro, #flaviabarca). 2.2 Analisi dei Cluster Il secondo approccio considerato per lo studio dei topic consiste nell’utilizzo di un algoritmo di clustering gerarchico di tipo bottom up6. A differenza dell’analisi per hashtag, nella quale si sfrutta uno strumento nativo del mondo Twitter (Sezione 2.1), il clustering si configura come una metodologia classica per questo tipo di studi. 6 Si intende un clustering di tipo agglomerativo. Si parte dall’assunzione che ogni elemento costituisca un cluster a s`e; successivamente i singoli cluster vengono fusi ricorsivamente in cluster pi`u grandi secondo criteri di similiturdine inizialmente stabiliti. 5
  • 6. Enel e Twitter Tipicamente i risultati di clustering gerarchico sono visualizzati mediante una rappre- sentazione ad albero detta appunto dendrogramma. Figura 4: Dendrogramma estratto dai Tweet Enel Ciascuna foglia dell’albero corrisponde ad un singolo elemento dell’insieme considerato; risalendo l’albero alcune foglie iniziano a fondersi in rami fino ad arrivare alla radice dell’albero. Prima avviene la fusione tra due gruppi (due foglie, una foglia e un ramo oppure due rami), allora maggiore `e la similitudine tra di essi (secondo la metrica stabilita inizialmente). Il livello gerarchico dei cluster `e indicato sull’asse delle ordinate del dendrogramma, mentre sull’asse delle ascisse `e misurata la distanza logica tra i cluster seconda la metrica utilizzata. Una volta costruito l’albero, l’ultimo passo consiste nell’identificare i cluster. A seconda del numero di cluster desiderato, si stabilisce una quota sull’asse delle ordinate e si traccia una linea orizzontale passante per essa, cos`ı facendo i gruppi di osservazioni sotto di essa costituiscono i cluster7. Il dendrogramma estratto `e mostrato nella Figura 4. Nel nostro caso la quota sull’asse delle ordinate `e stata scelta al fine di ottenere 3 cluster, rappresentati dai rettangoli rossi 7 Tale operazione pu`o essere eseguita pi`u volte al fine di ottenere una divisione ottimale. Talvolta pu`o risultare semplice stabilire l’altezza della linea da tracciare, individuando ad occhio il giusto numero di cluster, mentre a volte tale scelta non `e cos`ı semplice. 6
  • 7. Enel e Twitter in figura. Anche con questo approccio vengono riscontrati aspetti economici-produttivi a conferma di un utilizzo informativo del Social Network per divulgare risultati legati all’attivit`a di Enel. Nuovamente vengono messe in evidenza la questione carbone nello stabilimento Enel di Brindisi (e il riferimento al caso analogo della Tirreno Power di Vado Ligure) e la partnership tra Enel e Masterchef in vari Punto Enel d’Italia. Un aspetto non rilevato nell’analisi mediante hashtag `e l’utilizzo di Twitter per la diffusione di notizie legate alle opportunit`a di assunzione. 2.3 Osservazioni A seguito dell’analisi esplorativa delle frequenze delle singole parole presenti nei dati in esame (Sezione 1.2) erano gi`a emerse alcune caratteristiche riguardanti la natura dei tweet (finanziaria, produttiva, attualit`a, commenti) e i due approcci precedentemente seguiti (hashtag e clustering) hanno confermato in pieno queste tendenze. Data la natura dei dati in questione (messaggi di breve lunghezza), l’analisi degli hashtag si rivela estremamente competitiva con gli algoritmi di clustering (altamente performanti su un testo strutturato); infatti entrambi gli approcci delineano gli stessi tre topic principali: la partnership Enel-Masterchef, la questione carbone a Brindisi e i risultati economici-produttivi di Enel. Le differenze tra i due approcci sono principalmente due: a differenza del cluster, con gli hashtag viene sottolineata la partnership tra il Macro di Roma ed Enel; d’altra parte il cluster pone l’accento sulle opportunit`a di lavoro e assunzioni nell’azienda. 3 Conclusioni Alla luce di questa analisi `e possibile concludere che i tweet riguardanti l’Enel presentano molteplici nature; in particolare si segnalano tweet in larga parte riguardanti vari eventi attinenti l’Enel (processi penali, partnership) e tweet a stampo economico-energetico. Un aspetto da non sottovalutare `e la possibile diffusione di opinioni e associazioni negative legate al nome Enel; a tal proposito risulta emblematico l’accostamento di Enel alla Tirreno Power per la questione carbone a Brindisi. Ed altrettanto significativa `e la predilezione dei classici mezzi di informazione da parte di Enel per tale argomento, a discapito di nuovi canali quali i Social Network come Twitter. Considerato il carattere multinazionale dell’azienda (in parte gi`a emerso nel corso dell’analisi), un’ulteriore analisi potrebbe essere quella di analizzare i tweet legati al mondo Enel in lingua spagnola e inglese, al fine di integrare in modo completo quanto fatto in questo elaborato. 7
  • 8. Enel e Twitter Riferimenti bibliografici [1] G. James, D. Witten, T. Hastie, R. Tibshirani (2013). An Introduction to Statistical Learning: with Applications in R. Springer Texts in Statistics. [2] J. Adler (2012). R in a Nutshell: A Desktop Quick Reference. O’Reilly (2nd Edition). [3] M. A. Russell (2011). Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn and other Social Media Site. O’Reilly. 8