2. Web 2.0 e Brand Monitoring
Il progetto
Obiettivi
Analisi e progettazione
Sentiment Analysis
Deployment
Interfaccia
Conclusioni e sviluppi futuri
3. Insieme dei servizi e delle tecnologie offerte dalla rete incentrate sullo scambio di
informazioni , che consentono un elevato livello di interazione tra l’utente e il web
Nuove strategie commerciali : Social Media Marketing per la raccolta ed
analisi di opinioni relative ad un marchio o prodotto
• Paradigma dinamico
• Coinvolgimento dell’utente
• Web come piattaforma di condivisione
di opinioni e giudizi sui Social Media
4. Realizzazione di una piattaforma di brand monitoring attraverso l’offerta di servizi di
crawling e sentiment analysis su social network:
• Implementazione di tecniche efficienti di Data Acces Object
• Nuovo algoritmo di sentiment: POS Tagging e preprocessing per aumentare la
precisione dei risultati dell’analisi dei dati ottenuti dal crawler
• Miglioramento dell’interfaccia web per la rappresentazione dei dati tramite l’utilizzo
di grafici e l’integrazione di una mappa con filtri per il geoposizionamento dei
risultati
• Pubblicazione su Cloud Windows Azure per sfruttare le potenzialità del cloud e i
servizi PaaS, rispettando i requisiti di qualità delle architetture software
5. • Crawler e storage dei dati
o Hibernate: piattaforma middleware per mapping delle classi
o Twitter4j: per stabilire connessione con i server di Twitter
• Sentiment analysis
o Librerie String di Java e StringUtils di Apache per il preprocessing
o Stanford POSTagger: per la contestualizzazione grammaticale dei token di un
tweet
o SentiWordNet: risorsa lessicale per assegnare valori di sentiment alle parole
• REST
o Jersey e JAX-RS: annotazioni per il mapping delle classi come web resources e
strumenti per la gestione delle richieste e risposte
Linguaggi: Java, Javascript, HTML5, AJAX, JSON
Target: Twitter, social network con maggiore diffusione ed alto rapporto densità
contenuto informativo / lunghezza dei messaggi
6. Architettura REST client – server -> comunicazione del server con i database di Twitter
mediante le REST API
Pattern MVC , Facade e Layers
CLIENT SERVER Twitter SERVER
REST API
. . .
RESULT
QUERY
RESULT
VIEW
CONTROLLER
MODEL
(CRUD)
QUERY
7. Diagramma delle classi
Mapping Hibernate con file di configurazione xml e annotazioni
Pattern session-per-transaction per modellare le operazioni CRUD
LOCATION
IdLocation
Name
Longitude
Latitude
BRAND
IdBrand
Name TWEET
IdTweet
Date
Text
IsRetweet
RetweetCount
PERSON
IdPerson
Name
Screen name
Followers
Followings
Statuses
OPINION
IdOpinion
Sentiment
Sentiment score
Influence
Influence score
User Rank
0..1 1
0..* 1
0..1
1 ..*
1 ..* 1
11
original author
author
8. Preprocessing : pattern REGEX e dizionari
POS Tagging Left3Words con tagset Penn-Treebank adattato ad SWN
• Rimozione annotazioni (URL, hashtag, riferimenti)
• Sostituzione Emoticon
• Sostituzione Slang
• Rimozione punteggiatura e lettere ripetute
• Rimozione stop words, nomi di marchi e nomi propri
• Rimozione simboli e numeri
• Riduzione caratteri da maiuscolo in minuscolo
• Normalizzazione morfo-fonetica di parole malformate
HAPPINESS
HORROR
DISGUST
:')
D:<
D:
Estratto dal dizionario di emoticon
Laughing Out Loud
In My Humble Opinion
Thank You
LOL
IMHO
TY
Estratto dal dizionario di slang
9. Nuovo algoritmo di sentiment :
𝑚𝑒𝑠𝑠𝑎𝑔𝑒 𝑠𝑐𝑜𝑟𝑒 =
𝑖=0
𝑛
𝑠𝑒𝑛𝑡𝑖𝑚𝑒𝑛𝑡(𝑃𝑂𝑆𝑇𝑎𝑔(𝑤𝑜𝑟𝑑𝑖))
Confronto : risultati dell’analisi su un corpus di 1000 tweet
• Senza preprocessing • Con preprocessing
Influence = message score * user rank
10. Modello di servizio : Paas
• Strumenti di monitoring
• Scalabilità
• Gestione della piattaforma hardware a
carico del gestore
Servizi utilizzati:
1. Microsoft Cloud Service: ambiente per
il caricamento del Web Service (Worker
Role)
2. Microsoft Azure SQL Database: DaaS
(Database as a Service relazionale)
11. • Analisi per fasce orarie : studio delle reazioni in relazione alle occorrenze di nuovi eventi
12.
13. • Analisi, progettazione e sviluppo di una piattaforma Cloud di brand monitoring
utilizzando metodi efficienti di Data Access Object grazie alla tecnologia
middleware Hibernate
• Nuovo algoritmo di sentiment analysis con implementazione di preprocessing e
POS tagging
• Impostazione RESTful del web service su architettura client-server, interfaccia per
la visualizzazione grafica dei risultati e la collocazione geopolitica dei tweet su una
mappa
• Adozione del Cloud Microsoft Windows Azure
• raffinamento ulteriore degli strumenti per l’analisi dei testi
• supporto multilingua
• estensione del crawling ad altre piattaforme social
• introdurre nuovi sevizi e funzionalità
Conclusioni :
Sviluppi futuri :