Motivazioni
 Comprendere le problematiche connesse
all’analisi automatica del sentimento e gli
strumenti utilizzabili a tal fine
 Individuare una tecnica adatta a rilevare il
sentimento di una pagina Facebook
 Progettare un’applicazione semplice ed intuitiva
per l’acquisizione del sentimento

Trattazione generale
 Introduzione alla Sentiment Analysis
 Stato dell’arte
 Obiettivo dell’elaborato
 Descrizione del flusso di lavoro che porta
all’estrazione del sentimento
 Descrizione dell’architettura alla base
dell’applicazione realizzata
 Conclusioni

Introduzione
 Capillare diffusione dei social media
 Dovuta soprattuto all’enorme diffusione di Internet
nel mondo
 Secondo i dati aggiornati al 30 Giugno 2014, più di 3
miliardi di individui accedono alla rete
 Importante ruolo nella società contemporanea
 Accesso facilitato alle informazione ed ampie
opportunità di comunicazione

Introduzione (II)
 Quantità enorme di informazioni
 I dati presenti in rete, opportunamente raccolti ed
analizzati, permettono non solo di capire e
spiegare fenomeni sociali complessi, ma anche di
prevederli.
 Problematiche riscontrate
 Vastità delle informazioni, di cui solo una parte,
rilevante.
 Approcci quantitativi non sufficienti se presi da
soli
 Contare, ad esempio, il numero di like di un post su
Facebook non produce nessun risultato
particolarmente utile in termine di sentiment

Introduzione (III)
 Unire approcci quantitativi e qualitativi per
comprendere il sentiment di una frase
 Sentiment Analysis
 L’insieme di processi finalizzati a trovare
automaticamente la polarità espressa da alcuni
documenti

Metodi per la S.A.
 Sentiment Analysis su due dimensioni
 Tipologia di analisi:
 Analisi non supervisionata: individuare
raggruppamenti tra dati in uno spazio, e quindi
associargli delle classi, incognite a priori
 Analisi supervisionata: le classi semantiche sono
note a priori o vengono identificate tramite
codifica umana su un sottoinsieme di testi
(Training Set)

Metodi per la S.A.
 Raggruppamento:
 Analisi individuale: quando si effettua la stima di
un singolo commento appartenente al Test Set,
utilizzando le informazioni del Training Set.
 Analisi aggregata: aggregazione dei risultati in un
singolo risultato

Obbiettivi
 Progettare e sviluppare un software per
l’acquisizione e la classificazione in base al
sentimento di commenti provenienti dal social
network Facebook
 Il software deve fornire un output di semplice
comprensione
 Applicazione di facile utilizzo ed immediata

Strumenti di sviluppo
 Ambiente e linguaggio
 Java Development Kit versione 8
 Eclipse Studio versione 4.4
 Librerie di supporto
 GraphAPI e RestFB
 Weka

Modello considerato
 Regressione Logistica Bayesiana
Commento Sentiment
Regr. Logistica
Bayesiana in
Weka
Filtri

Modelli adottati
 Classificatore Bayesiano
 Support Vector Machines
 J48
 DecisionStump
 ZeroR

Addestramento del modello
 Apprendimento supervisionato
 Creazione del TrainingSet usando commenti
scaricati da diverse pagine Facebook attraverso
le GraphAPI
 TrainingSet formato da 600 commenti classificati
manualmente in base al sentimento

Addestramento del modello (II)
 Pre-Elaborazione dei commenti
 Estrazione delle emoticon e loro conteggio
 Adattamento del TrainingSet affinché potesse essere
fornito al modello di regressione logistica bayesiana
 Addestramento attraverso Weka

Risultati
 Test dividendo il dataset: 66% TrainingSet,
rimanente TestSet
Classificatore TP Rate Precision FP Rate RMSE %
Regressione Logistica Bayesiana 0,854 0,863 0,165 0,288 86
Support Vectore Machine 0,834 0,835 0,176 0,407 83
Albero J48 0,702 0,714 0,331 0,4512 70,2
Classificatore Bayesiano 0,698 0,705 0,295 0,5499 69,7
DecisionStump 0,61 0,772 0,47 0,479 60,975
ZeroR 0,546 0,298 0,546 0,5 54,6

Risultati (II)
 Test effettuando una Cross-Validazione a 10
Fold
 Il DataSet viene diviso in 10 sottoinsiemi, 9 dei
quali usati per l’addestramento, ed uno per il test
Regressione Logistica Bayesiana 0,843 0,844 0,186 0,318 85,2
Support Vectore Machine (con
SMO) 0,801 0,801 0,287 0,405 80,132
Albero J48 0,697 0,706 0,301 0,434 69,702
DecisionStump 0,631 0,76 0,518 0,476 63
ZeroR 0,584 0,342 0,584 0,5 58,4

Risultati (III)
 Test effettuando una Cross-Validazione a 3
Fold
 Il DataSet viene diviso in 3 sottoinsiemi, 2 dei
quali usati per l’addestramento, ed uno per il test
Regressione Logistica Bayesiana 0,849 0,849 0,172 0,312 85,2
Support Vectore Machine (con SMO) 0,815 0,814 0,212 0,4306 81,4
Albero J48 0,69 0,698 0,31 0,438 69,03
DecisionStump 0,631 0,76 0,518 0,746 63
ZeroR 0,584 0,342 0,584 0,5 58

Conclusioni
 In questo elaborato ho investigato le principali
tecniche per la Sentiment Analysis
 La tecnica risultata più efficace nel contesto in
cui è stata adottata è la regressione logistica
bayesiana
 Possibili sviluppi futuri sono l’adozione di
tecniche originali basate sull’approccio del
Natural Language Processing

Approcci per l'estrazione del Sentiment da Social Network

Recommended

Recommended

More Related Content

Similar to Approcci per l'estrazione del Sentiment da Social Network

Similar to Approcci per l'estrazione del Sentiment da Social Network (20)

Approcci per l'estrazione del Sentiment da Social Network

Editor's Notes