Social Network Analysis (SNA): realizzazione di un applicativo in R, a partire dall’estrazione di un hashtag di Twitter (API) per la costruzione di un grafo diretto. Analisi quantitativa, mediante le metriche tipiche della SNA.
Comunicazione interculturale e costruzione collaborativa di conoscenza: l’ u...
Social Network Analysis
1. UNIVERSITÀ DEGLI STUDI DI MESSINA
DIPARTIMENTO DI MATEMATICA E INFORMATICA
CORSO DI LAUREA MAGISTRALE IN INFORMATICA
Esplorazione delle tendenze di Twitter
mediante la Social Networks Analysis
Laureanda: Relatore:
Claudia Licari Ch.mo Prof. Giacomo Fiumara
Correlatore:
Dott. Salvatore A. Catanese
ANNO ACCADEMICO 2012/2013
1 / 17
2. Social Network: Twitter
Twitter è un Social Network di microblogging realtime caratterizzato da:
rete asimmetrica, un utente può seguire (followings) un altro senza essere
seguito (followers)
una moltitudine di utenti » i nodi del grafo
relazioni tra gli utenti » gli archi del grafo
scambio di tweet (messaggi brevi: 140 caratteri)
hashtag » parola chiave preceduta dal carattere # che mette in relazione lo
stesso argomento trattato da diversi utenti.
2 / 17
3. Social Network
L’uso pervasivo di Twitter, anche grazie ai device mobili, produce una
varietà di dati e costituisce uno spunto per diversi tipi di Social Network
Analysis (SNA)
La SNA studia le relazioni, proponendo strumenti e mezzi per osservare
e analizzare i social networks per rispondere alle seguenti domande
Quali sono gli utenti che parlano di qualche #hashtag?
Chi è l’elemento centrale della rete?
Quali sono i sottogruppi?
3 / 17
4. Obiettivo
Costruire un grafo diretto a partire dall’estrazione di un hashtag di Twitter
Analizzare il grafo risultante
4 / 17
5. Progetto
Realizzazione di un applicativo, in ambiente R, in grado di:
Leggere ed estrarre un hashtag di ricerca contenuto in un campione di
tweet, sfruttando le API (Application Programming Interface) di Twitter
Costruire un grafo diretto nel quale:
i nodi rappresentano gli utenti
gli archi rappresentano la condivisione di un tweet fra più utenti.
Gli utenti sono collegati da un arco se intercorre una delle seguenti relazioni:
follows
risposte
menzioni
tweet
Esportare il grafo con i tools NodeXL e Gephi, processarlo con gli
algoritmi di layout per individuare i clusters
Analisi quantitativa, mediante le metriche tipiche della SNA e modulare
(community detection) del grafo.
5 / 17
6. Metriche globali
Metriche con le informazioni che descrivono la dimensione e la densità di
ciascun networks dei datasets estratti.
6 / 17
7. Analisi e risultati 1/2
Grafo diretto (force-directed) delle relazioni di tutti gli utenti con l’hashtag
#moda (3454 nodi e 3923 archi). Il layout evidenzia gli utenti più centrali.
Il flusso di informazioni ha originato 3923 interazioni, costituite
prevalentemente da 1808 tweet, da 214 risposte e da 1901 menzioni.
7 / 17
8. Analisi e risultati 2/2
Raggruppamento tramite cluster » algoritmo di Clauset-Newman-Moore:
raggruppa i nodi con più connessioni tra loro (alta densità di relazioni).
Si evidenziano i gruppi di diversa colorazione, i nodi con betweenness
centrality più alta (in rosso) e il degree maggiore (etichetta numerica).
Si evidenzia una certa abitudine degli utenti ad interagire poco tra loro
(come si nota dal basso numero di risposte), vengono piuttosto
privilegiati i tweet estemporanei.
8 / 17
9. Betweenness e Closeness Centrality 1/2
Betweennes centrality: misura la strategicità del nodo nella rete con
valore massimo 22489.
Closeness centrality: misura il massimo grado di vicinanza che è pari a 1.
9 / 17
10. Betweenness e Closeness Centrality 2/2
Il nodo con Betweennes centrality maggiore ha una grande influenza sul
flusso delle informazioni.
Si osserva che i nodi che primeggiano per betweenness non hanno
Closeness centrality elevate.
I nodi con maggiore Closeness centrality sono nella posizione ideale per
monitorare il flusso delle informazioni.
10 / 17
12. Degree Distribution
L’indice mostra il concetto di centralità basato:
sul valore massimo di archi entranti in-degree 145 in un nodo
sul valore massimo di collegamenti in uscita out-degree 16 dal nodo.
12 / 17
13. Coefficiente di Clustering
Misura quanto sono strettamente connessi i collegamenti di ciascun utente.
Definisce la tendenza dei nodi di un grafo a raggrupparsi, detta triplette di
nodi.
Si nota che i nodi con valori alti di betweenness, closeness e degree
mostrano un coefficiente di clustering basso e viceversa.
13 / 17
14. Community: 8 gruppi più coesi per #moda
Capacità di divisione di un grafo in moduli.
densità archi intra-modulari >> densità archi inter-modulari.
14 / 17
15. Community: 8 gruppi più coesi per #moda
Top groups
Diagramma di Kiviat
15 / 17
16. Conclusioni
Il confronto tra i dati relativi ad un hashtag di ricerca ha rilevato periodi di
picchi e periodi di stasi.
Lo studio del traffico delle reti di Twitter, presenta una semantica più
semplice correlata all’uso degli hashtag, che consentono di separare il
testo per evidenziare il significato di un argomento.
Dall’analisi effettuata è emerso che nonostante i gruppi siano altamente
connessi al loro interno, c’è poca interazione tra i diversi gruppi.
Sviluppi futuri
estrazione dei dati non in realtime ma per periodi di tempo più lunghi
16 / 17