Sistema di monitoraggio e analisi di fonti web in ambito turistico
1. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
Sistema di monitoraggio e analisi di
fonti web in ambito turistico
2014
Autore: Renato Eschini
Active Tourism:
Tuscany Cycling Academy
2. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
• Obiettivo del nostro contributo
Sperimentare: la raccolta dati automatica, l'interpretazione di linguaggio
naturale, applicazione di queste tecnologie in ambito turistico
• Funzionamento del sistema
”Analisi e monitoraggio classico” e “Analisi e monitoraggio automatico”,
componenti del sistema, limiti e vantaggi del prototipo realizzato
• Esempio di utilizzo in ambito turistico
possibilità ed esempi, caso d'uso su Volterra
• Modalità di fruizione del sistema
utilizzo del sistema, licenze, customizzazioni
Argomenti
3. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
• Realizzazione di un prototipo di
sistema di monitoraggio di fonti web
• Sperimentazione di tecnologie per
analisi del linguaggio, riconoscimento
dei nomi e dei concetti, sentiment
• Verifica e applicazione del prototipo in
ambito turistico
Obiettivo del nostro contributo
4. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
• Come si conduce
– Utilizzo di parole chiave su motori di ricerca, siti conosciuti, social network
– Verifica dei risultati, appunti, catalogazione del materiale
– Revisione dei dati raccolti, scartare ciò che non interessa
– Estrazione manuale di conoscenza
• fogli di calcolo
• tavole comparative
• grafici
• Cosa si ottiene
– dispendio di tempo = costo elevato
– informazioni per sua natura volatile → buona parte del lavoro alla sua
conclusione è obsoleto
– inefficacia e impossibilità di intervento
Analisi web classica
5. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
• Fasi di funzionamento
– Fase di raccolta dati (Harvesting / Crawling)
– Fase di analisi semantica, interpretazione del linguaggio naturale
– Fase di report e analisi dei risultati (Business Intelligence)
• Approccio al sistema
– Colloquio conoscitivo con il committente: individuazione delle
keywords e filtri che identificano una o più caratteristiche di contesto,
individuazione delle fonti e lingue di interesse
– Configurazione del sistema e avvio
– Attesa dei risultati: parziali immediati; completi dopo qualche ora
• Poco soddisfacenti? → Raffinamento delle chiavi di ricerca, dei
filtri, disambiguazione
• Ciclo immediato
– Analisi finale
– Automatismo e risultati continui → monitoraggio continuo
Analisi web con sistema di monitoraggio
6. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
Componenti del sistema
Harvester / Crawler
Invia interrogazioni basate
su keywords sulle fonti
indicate.
Possibilità di estensioni con
nuove fonti, nuovi social.
Scarica una gran quantità
di documenti, estrae il
testo.
Filtra I risultati e cerca di
eliminare il rumore di fondo.
Motore semantico
Summary dei dati
Grafici e tabelle analitiche
nomi
concetti
mentions
fonti
Impostazione filtri
Reportistica
Analizza semanticamente i
documenti scaricati
interpretando il liguaggio
naturale
Elimina semanticamente il
superfluo.
Estrae le “mentions”.
Estrae nomi, concetti.
Calcola il sentiment.
Supporto analisi linguistica
e comprensione di più
lingue.
7. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
• conoscere il proprio territorio in rete
– quanto e dove → popolarità
– cosa e come → reputazione
– quando → nel tempo....
• intervenire
– per soddisfare fabbisogni delle persone
– per promozione
– per animazione
• analizzare i competitors
– perchè altri territori sono migliori del mio?
– come posso migliorare il mio territorio e competere meglio?
Il tipico uso permette di..
8. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
Vantaggi
• Monitorare più aspetti del proprio territorio e dei fabbisogni
contemporaneamente in automatico
• Individuare e controllare la propria popolarità e reputazione e
intervenire opportunamente
• Automatismo e immediatezza: riduzione dei tempi e dei costi
Limiti
• Limiti tecnologici attuali i.e. nuove lingue “difficili” su nuovi
mercati da esplorare (Russia, Cina, …), intercettare sfumature
linguistiche come l'ironia, le metafore...
• Declinazioni linguistiche dei social network
• Rumore di fondo e ambiguità da intercettare e filtrare
Vantaggi e Limiti
9. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
• Prototipo in italiano
• Analisi di temi di esempio
– turismo, arte e cultura
– evento sul territorio (Crollo Mura)
– cicloturismo su territorio di riferimento
• Dati poco raffinati
• Presentazione dell'interfaccia
Sperimentazione su Volterra
10. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
DEMO
11. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
DEMO
12. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
DEMO
13. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
DEMO
14. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
DEMO
15. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
DEMO
16. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
• Servizio in cloud, no costi hardware e software per il committente
• Accesso da normale browser, tablet, smartphone
• Modello commerciale su piani di abbonamento
– temporanei
– in base al numero delle fonti
– in base al numero delle parole chiave
– in base alle lingue
• Costi contenuti sul sistema “as is”.
• È possibile richiedere “personalizzazioni” su:
– raccolta dati e nuove fonti
– nuove lingue
– diversi report
Fruizione del sistema
17. www.inera.it Via G. Malasoma 18 – Ospedaletto - 56121 Pisa IT +39 050 9911800
Fine
Grazie dell'attenzione