Big Data Analysis: dalla teoria alla pratica

813 views
706 views

Published on

Presentazione Social Media Web & Smart Apps
Università Ca' Foscari A.A. 2013/2014

Published in: Data & Analytics
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
813
On SlideShare
0
From Embeds
0
Number of Embeds
322
Actions
Shares
0
Downloads
15
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Big Data Analysis: dalla teoria alla pratica

  1. 1. Big Data Analysis: dalla teoria alla pratica Presentazione Social Media Web & Smart Apps Studente Giulio Lazzaro mat. 835232 Prof. Gianluigi Cogo A.A. 2013/2014 06/06/2014 Università Ca’ Foscari Venezia
  2. 2. Big data, cosa sono Raccolte di dati con volumi estremamente elevati, raggruppati per genere in dataset. Caratteristiche:  Volume  Velocità  Varietà  Veracità  Valore Immagine: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
  3. 3. Big Data Analysis Ricavare informazioni (utili e di valore) dai Big Data. I dati presi singolarmente possono non aver valore, mentre insiemi di dati possono avere informazioni aggiuntive nascoste (valore aggiunto).
  4. 4. Perché analizzarli Sono la nuova frontiera dell’informazione. Sfruttati in IT, comunicazioni, medicina, trasporti, pubbliche amministrazioni, istruzione, catasto ecc. Le aziende possono massimizzare i loro profitti, ottimizzare i loro processi e offrire nuovi servizi: business analytics.
  5. 5. Dati più comuni: machine data Dati generati da macchine • Log • Coordinate GPS • File di testo, configurazione ecc.
  6. 6. Dati più comuni: database Database: Relazionali e non solo, sono utilizzati in ogni campo.
  7. 7. Gli strumenti per l’analisi • Splunk: indicizza, processa e analizza i dati. Tramite dashboard mostra statistiche e risultati • Hadoop: programma scalabile di analisi big data, sfrutta l’algoritmo MapReduce di Google • Fluentd e Logstash: raccolta di log (centralizzazione) • Molti altri strumenti specializzati • Algoritmi e abilità (data scientist).
  8. 8. Vantaggi offerti Semplicità e astrazione. Le dashboard contengono i risultati che ci interessano. Splunk Dashboard - Immagine: http://www.linux- magazine.com/Online/Features/Unified-Event-Monitoring-with-Splunk
  9. 9. Computazione Il modello Mapreduce massimizza le prestazioni dividendo dati e lavoro da eseguire su più nodi.
  10. 10. I tipi di analisi • Descriptive analytics: semplice «lettura» dei dati • Diagnostic analytics: ricavare ulteriori informazioni dai dati in possesso tramite l’analisi • Predictive analytics: creare modelli dai dati raccolti, in modo da poterli poi usare per prevedere l’andamento futuro • Prescriptive analytics: usare i modelli di dati ricavati per analizzare e ottimizzare processi ripetitivi.
  11. 11. Buone norme Confirmation bias Di solito si cerca di dare ragione alle proprie ipotesi invece di confutarle. Si dovrebbe essere in grado di confutare le proprie teorie e se necessario cambiare strada. Immagine: http://online.wsj.com/
  12. 12. Buone norme Irrilevanza e distrazione Bisogna concentrarsi nei dati veramente utili senza includere dati non inerenti che potrebbero fornire risultati fuorvianti. Es: refresh di un browser o nuova richiesta
  13. 13. Buone norme Causa e correlazione Eventi che si manifestano assieme non sono necessariamente correlati.
  14. 14. Buone norme Statistical significance Non bisogna limitarsi a piccole porzioni di dati, la statistica è sui grandi numeri. Es: prendere una porzione di dati totalmente diversa dal resto conduce ad un’analisi errata
  15. 15. Buone norme Varietà dei dati da analizzare A volte i dati da analizzare per poter fare un’analisi accurata sono di diverso tipo. Es: limitarsi ai commenti negativi escludendo le mail di lamentela.
  16. 16. Riferimenti • http://hadoop.apache.org/ • http://it.splunk.com/ • http://db-engines.com/en/ranking • http://logstash.net/ • http://fluentd.org/ • http://en.wikipedia.org/wiki/MapReduce

×