Descrizione di ATOMIC, un approccio introduttivo per la rilevazione della controversia nei social media. L'analisi è stata effettuata sulla piattaforma twitter.com.
Detecting controversy in microposts: an approach based on word similarity with an application to the analysis of tweets
1. DETECTING CONTROVERSY
IN MICROPOSTS
An approach based on word similarity with an
application to the analysis of tweets
#Candidato #Relatore
@stefanodp0 @remo_pareschi
UNIVERSITÀ DEGLI STUDI DEL MOLISE
DIPARTIMENTO DI BIOSCIENZE E TERRITORIO
la piattaforma di microblogging è usata da numerosi utenti per esprimere le loro opinioni riguardo vari argomenti e risulta così essere una valida sorgente delle opinioni delle persone; il “pubblico” di Twitter…
il “pubblico” di Twitter varia dal normale utente alla celebrità, alle organizzazioni e aziende più famose, fino al presidente di una nazione. Questi postano brevi messaggi riguardo un’ampia varietà di topics - a differenza di altri siti in cui si è legati ad argomenti specifici – e spesso il valore attribuito ai loro messaggi dipende dal ruolo che questi hanno all’interno della società
Twitter contiene un enorme numero e varietà di dati. Da quanto è nato sono stati inviati piu di 300 miliardi di tweets.
Si pensi che, se pensassimo di scrivere i tweets su dei fogli A4 e creare una pila di fogli, il numero di tweets inviati finora sarebbe tale da formare una pila alta 129 km: 155 volte lo skyline di Dubai, il palazzo più alto del mondo che misura circa 800m.
È in continua espansione. È pertanto facile poter collezionare milioni di tweet e spaziare su diversi argomenti;
Dato il numero crescente di questi messaggi, la rilevazione della controversia è molto importante, soprattutto per…
Trovare il giusto numero di cluster è importante. Infatti, individuare un numero ridotto di cluster o troppo elevato può portare a risultati poco producenti, dovuti al fatto che nel primo caso, la differenza tra la quantità di informazione totale e quella contenuta nei cluster viene persa a causa del fatto che non vengono fatte distinzioni nelle osservazioni, mentre nel secondo ne vengono fatte troppe. Trovare alpha che permette di bilanciare la quantità di informazione e l’omogeneità dei dati associati a ciascun cluster. A tal proposito ci viene in aiuto l’entropia con la quale misuriamo il grado di informazione presente in ciascun cluster.
Andremo a scegliere, tra un intervallo di possibili valori di alpha, quello che massimizza l’entropia.
PARLARE DEI PROBLEMI DOVUTI ALL’ENTROPIA: scelta della soglia minore
PARLARE DEI PROBLEMI DOVUTI ALL’ENTROPIA: scelta della soglia minore
PARLARE DEI PROBLEMI DOVUTI ALL’ENTROPIA PENALIZZATA: scelta di alpha tale che numero di cluster sempre = 2
Nonostante un elevata omogeneità dei dati, pago un prezzo troppo alto in termini di informazione persa, pertanto, a fronte di questi problemi ho introdotto una misura di entropia ponderata su….