Big Data is now: tomorrow is too late!
Evento organizzato da ImoLug e FABLAB Imola – Relatore Franco Tampieri
?
?
?
?
?
?
?? ?
?
?
Prima di iniziare...
●
Nome: Franco Tampieri
●
ETA’: 41
●
BIO:
– Senior C# Developer
– Python Senior Developer
– Odoo Senior Developer
– Linux Senior DevOps
– OpenSource Technology Evangelist
Avvertenze...
●
Le valutazioni che proporrò non fanno alcun riferimento se
non puramente casuale e fantastico a cospirazioni
massoniche, interplanetarie etc. etc. etc.
●
Non è stato maltrattato nessun analista o programmatore
e le immagini che verranno proposte sono soltanto frutto
della immaginazione dell’autore
●
La consultazione privata di questa presentazione non
causerà la morte di nessun gattino
… … ...
Una immagine vale molto più di 1000 parole...
Iniziamo dalla base...
●
Esistono “cose” che sono così “enormi” che possono
avere implicazioni per ognuno di noi, che lo vogliamo o
meno…
Cit. Bernard Marr
●
I “Big Data” sono una di quelle cose che stanno
completamente rivoluzionando il modo di fare business,
ma però, sta impattando anche molte parti della nostra vita
quotidiana
Iniziamo dalla base...
Cosa intendiamo col termine “Big Data”?
●
Tutto quello che facciamo e che lascia una traccia digitale,
che aumenta continuamente con il passare del tempo e
che è possibile analizzare
●
Metodologie, Strumenti e Architetture specializzate per
l’analisi di dati di gradi dimensioni e varietà
Iniziamo dalla base...
...”Dall’alba della
civilizzazione al 2003, il
genere umano ha generato 5
exabytes di dati. Adesso
produciamo 5 exabyte di dati
ogni 2 giorni ed il ritmo sta
aumentando”…
Cit. Eric Schmidt, Executive
Chairman, Google
Approfondiamo...
Quali sono questi dati che mettiamo a disposizione e che
si rivelano così tanto importanti?
●
Attività
●
Conversazioni
●
Foto e Video
●
Sensori
●
IoT / Industrial 4.0
Approfondiamo...
Attività
●
Ascoltare musica
●
Leggere ebooks
●
Utilizzare smartphone
●
Web browser
●
Fare acquisti OnLine
Approfondiamo...
Conversazioni
●
Emails
●
Chat (Facebook, Twitter)
●
Voice conversation
Approfondiamo...
Foto e Video
●
Foto (Facebook, Instagram)
●
Video (Facebook, Youtube, Vimeo)
Approfondiamo...
Sensori
●
GPS
●
Accellerometri
Approfondiamo...
IoT / Industrial 4.0
●
SmartTv (Samsung, LG)
●
Cloud services (IFTTT)
Approfondiamo...
Datifichiamo...
Fino a qualche anno fa, direi 2009 / 2010 la datificazione
dei “Big Data” veniva classificata con 3 proprietà principali
definite le 3 “V”:
●
Volume
●
Velocità
●
Varietà
Datifichiamo...
Da circa 2 anni a questa parte possiamo aggiungere una
ulteriore proprietà per la datificazione dei “Big Data”: la
Veridicità
Inoltre la somma delle 4 V e l’insieme delle possibili analisi
di questi dati ne determinano la proprietà globale che è il
Valore
I Big Data le 4 + 1 V...
●
Volume: Quantità dei dati
●
Velocità: Velocità di generazione dei dati
●
Varietà: Tipologia dei dati
●
Veridicità: L’affidabilità dei dati
●
Valore = F*(Volume + Velocità + Varietà + Veridicità)
* è una trasformata che include Metodologie, Strumenti e
Architetture atte all’elaborazione di questi tipi di dato
Finamente ecco i BIG DATA
Come si memorizzano i BIG DATA
Come si memorizzano i BIG DATA
●
Punto 1: Analisi
– Analisi delle caratteristiche dei dati in possesso
– Eliminazione dei dati ridondanti
– Valutare l’uso e l’eventuale ruolo di Database
NoSQL
Come si memorizzano i BIG DATA
●
Punto 2: Tipizzazione
– Chiave:Valore
– Grafico
– Documenti
Come si memorizzano i BIG DATA
●
Punto 3: Scelta del data store
– Storage Distribuito / Rindondato / Estensibile
– Supporto poliglottico
– Supporto Flessibile dei metadati e possibilità di gestire dati di
varia natura*
*Purtroppo I RDBMS in questo frangente possono essere un
limite e spesso soluzioni specializzate come sistemi di storage
di dati telemetrici (Influxdb, elastic search) o filesystem come
HDFS (Hadoop) sono soluzioni più valide
Come si preparano i BIG DATA
●
Preparazione
– Mappatura dei dati verso il Framework di Analisi
– Collegare ed estrarre le informazioni dallo storage
Come si preparano i BIG DATA
Come si processano i BIG DATA
●
Elaborazione
– Trasformazione dei dati per essere processati
– Suddivisione dei dati per distribuirne il processo
– Controllo dei processi per ottenere il risultato finale
Come si processano i BIG DATA
Come si processano i BIG DATA
●
Analisi e Presentazione
– Raccolta dei dati finali ed elaborazione in grafici, tabelle
pivot e dashboard per la Business Intelligence
Come si presentano i BIG DATA
Infine ecco il VALORE dei BIG DATA
Datificazione:
●
Attività
●
Conversazioni
●
Foto
●
Video
●
...
Analisi:
●
Text Analytics
●
Sentiment
Analysis
●
Face recognition
●
Voice analytics
●
Moviment
analytics
●
…
●
Volume
●
Velocità
●
Varietà
●
Veridicità
VALORE
Strumenti per i BIG DATA
●
Framework: Hadoop (HDFS e MapReduce)
●
Strumenti di Analisi:
– Python: scikit-learn, nltk, spyder, jupyter notebooks
– Pentaho BI
DOMANDE ?
Contatti:
Franco Tampieri
https://www.linkedin.com/in/francotampieri

Big data

  • 1.
    Big Data isnow: tomorrow is too late! Evento organizzato da ImoLug e FABLAB Imola – Relatore Franco Tampieri ? ? ? ? ? ? ?? ? ? ?
  • 2.
    Prima di iniziare... ● Nome:Franco Tampieri ● ETA’: 41 ● BIO: – Senior C# Developer – Python Senior Developer – Odoo Senior Developer – Linux Senior DevOps – OpenSource Technology Evangelist
  • 3.
    Avvertenze... ● Le valutazioni cheproporrò non fanno alcun riferimento se non puramente casuale e fantastico a cospirazioni massoniche, interplanetarie etc. etc. etc. ● Non è stato maltrattato nessun analista o programmatore e le immagini che verranno proposte sono soltanto frutto della immaginazione dell’autore ● La consultazione privata di questa presentazione non causerà la morte di nessun gattino
  • 4.
  • 5.
    Una immagine valemolto più di 1000 parole...
  • 6.
    Iniziamo dalla base... ● Esistono“cose” che sono così “enormi” che possono avere implicazioni per ognuno di noi, che lo vogliamo o meno… Cit. Bernard Marr ● I “Big Data” sono una di quelle cose che stanno completamente rivoluzionando il modo di fare business, ma però, sta impattando anche molte parti della nostra vita quotidiana
  • 7.
    Iniziamo dalla base... Cosaintendiamo col termine “Big Data”? ● Tutto quello che facciamo e che lascia una traccia digitale, che aumenta continuamente con il passare del tempo e che è possibile analizzare ● Metodologie, Strumenti e Architetture specializzate per l’analisi di dati di gradi dimensioni e varietà
  • 8.
    Iniziamo dalla base... ...”Dall’albadella civilizzazione al 2003, il genere umano ha generato 5 exabytes di dati. Adesso produciamo 5 exabyte di dati ogni 2 giorni ed il ritmo sta aumentando”… Cit. Eric Schmidt, Executive Chairman, Google
  • 9.
    Approfondiamo... Quali sono questidati che mettiamo a disposizione e che si rivelano così tanto importanti? ● Attività ● Conversazioni ● Foto e Video ● Sensori ● IoT / Industrial 4.0
  • 10.
  • 11.
  • 12.
    Approfondiamo... Foto e Video ● Foto(Facebook, Instagram) ● Video (Facebook, Youtube, Vimeo)
  • 13.
  • 14.
    Approfondiamo... IoT / Industrial4.0 ● SmartTv (Samsung, LG) ● Cloud services (IFTTT)
  • 15.
  • 16.
    Datifichiamo... Fino a qualcheanno fa, direi 2009 / 2010 la datificazione dei “Big Data” veniva classificata con 3 proprietà principali definite le 3 “V”: ● Volume ● Velocità ● Varietà
  • 17.
    Datifichiamo... Da circa 2anni a questa parte possiamo aggiungere una ulteriore proprietà per la datificazione dei “Big Data”: la Veridicità Inoltre la somma delle 4 V e l’insieme delle possibili analisi di questi dati ne determinano la proprietà globale che è il Valore
  • 18.
    I Big Datale 4 + 1 V... ● Volume: Quantità dei dati ● Velocità: Velocità di generazione dei dati ● Varietà: Tipologia dei dati ● Veridicità: L’affidabilità dei dati ● Valore = F*(Volume + Velocità + Varietà + Veridicità) * è una trasformata che include Metodologie, Strumenti e Architetture atte all’elaborazione di questi tipi di dato
  • 19.
  • 20.
  • 21.
    Come si memorizzanoi BIG DATA ● Punto 1: Analisi – Analisi delle caratteristiche dei dati in possesso – Eliminazione dei dati ridondanti – Valutare l’uso e l’eventuale ruolo di Database NoSQL
  • 22.
    Come si memorizzanoi BIG DATA ● Punto 2: Tipizzazione – Chiave:Valore – Grafico – Documenti
  • 23.
    Come si memorizzanoi BIG DATA ● Punto 3: Scelta del data store – Storage Distribuito / Rindondato / Estensibile – Supporto poliglottico – Supporto Flessibile dei metadati e possibilità di gestire dati di varia natura* *Purtroppo I RDBMS in questo frangente possono essere un limite e spesso soluzioni specializzate come sistemi di storage di dati telemetrici (Influxdb, elastic search) o filesystem come HDFS (Hadoop) sono soluzioni più valide
  • 24.
  • 25.
    ● Preparazione – Mappatura deidati verso il Framework di Analisi – Collegare ed estrarre le informazioni dallo storage Come si preparano i BIG DATA
  • 26.
  • 27.
    ● Elaborazione – Trasformazione deidati per essere processati – Suddivisione dei dati per distribuirne il processo – Controllo dei processi per ottenere il risultato finale Come si processano i BIG DATA
  • 28.
  • 29.
    ● Analisi e Presentazione –Raccolta dei dati finali ed elaborazione in grafici, tabelle pivot e dashboard per la Business Intelligence Come si presentano i BIG DATA
  • 30.
    Infine ecco ilVALORE dei BIG DATA Datificazione: ● Attività ● Conversazioni ● Foto ● Video ● ... Analisi: ● Text Analytics ● Sentiment Analysis ● Face recognition ● Voice analytics ● Moviment analytics ● … ● Volume ● Velocità ● Varietà ● Veridicità VALORE
  • 31.
    Strumenti per iBIG DATA ● Framework: Hadoop (HDFS e MapReduce) ● Strumenti di Analisi: – Python: scikit-learn, nltk, spyder, jupyter notebooks – Pentaho BI
  • 32.