3. Avvertenze...
●
Le valutazioni che proporrò non fanno alcun riferimento se
non puramente casuale e fantastico a cospirazioni
massoniche, interplanetarie etc. etc. etc.
●
Non è stato maltrattato nessun analista o programmatore
e le immagini che verranno proposte sono soltanto frutto
della immaginazione dell’autore
●
La consultazione privata di questa presentazione non
causerà la morte di nessun gattino
6. Iniziamo dalla base...
●
Esistono “cose” che sono così “enormi” che possono
avere implicazioni per ognuno di noi, che lo vogliamo o
meno…
Cit. Bernard Marr
●
I “Big Data” sono una di quelle cose che stanno
completamente rivoluzionando il modo di fare business,
ma però, sta impattando anche molte parti della nostra vita
quotidiana
7. Iniziamo dalla base...
Cosa intendiamo col termine “Big Data”?
●
Tutto quello che facciamo e che lascia una traccia digitale,
che aumenta continuamente con il passare del tempo e
che è possibile analizzare
●
Metodologie, Strumenti e Architetture specializzate per
l’analisi di dati di gradi dimensioni e varietà
8. Iniziamo dalla base...
...”Dall’alba della
civilizzazione al 2003, il
genere umano ha generato 5
exabytes di dati. Adesso
produciamo 5 exabyte di dati
ogni 2 giorni ed il ritmo sta
aumentando”…
Cit. Eric Schmidt, Executive
Chairman, Google
9. Approfondiamo...
Quali sono questi dati che mettiamo a disposizione e che
si rivelano così tanto importanti?
●
Attività
●
Conversazioni
●
Foto e Video
●
Sensori
●
IoT / Industrial 4.0
16. Datifichiamo...
Fino a qualche anno fa, direi 2009 / 2010 la datificazione
dei “Big Data” veniva classificata con 3 proprietà principali
definite le 3 “V”:
●
Volume
●
Velocità
●
Varietà
17. Datifichiamo...
Da circa 2 anni a questa parte possiamo aggiungere una
ulteriore proprietà per la datificazione dei “Big Data”: la
Veridicità
Inoltre la somma delle 4 V e l’insieme delle possibili analisi
di questi dati ne determinano la proprietà globale che è il
Valore
18. I Big Data le 4 + 1 V...
●
Volume: Quantità dei dati
●
Velocità: Velocità di generazione dei dati
●
Varietà: Tipologia dei dati
●
Veridicità: L’affidabilità dei dati
●
Valore = F*(Volume + Velocità + Varietà + Veridicità)
* è una trasformata che include Metodologie, Strumenti e
Architetture atte all’elaborazione di questi tipi di dato
21. Come si memorizzano i BIG DATA
●
Punto 1: Analisi
– Analisi delle caratteristiche dei dati in possesso
– Eliminazione dei dati ridondanti
– Valutare l’uso e l’eventuale ruolo di Database
NoSQL
22. Come si memorizzano i BIG DATA
●
Punto 2: Tipizzazione
– Chiave:Valore
– Grafico
– Documenti
23. Come si memorizzano i BIG DATA
●
Punto 3: Scelta del data store
– Storage Distribuito / Rindondato / Estensibile
– Supporto poliglottico
– Supporto Flessibile dei metadati e possibilità di gestire dati di
varia natura*
*Purtroppo I RDBMS in questo frangente possono essere un
limite e spesso soluzioni specializzate come sistemi di storage
di dati telemetrici (Influxdb, elastic search) o filesystem come
HDFS (Hadoop) sono soluzioni più valide
25. ●
Preparazione
– Mappatura dei dati verso il Framework di Analisi
– Collegare ed estrarre le informazioni dallo storage
Come si preparano i BIG DATA
27. ●
Elaborazione
– Trasformazione dei dati per essere processati
– Suddivisione dei dati per distribuirne il processo
– Controllo dei processi per ottenere il risultato finale
Come si processano i BIG DATA
29. ●
Analisi e Presentazione
– Raccolta dei dati finali ed elaborazione in grafici, tabelle
pivot e dashboard per la Business Intelligence
Come si presentano i BIG DATA
30. Infine ecco il VALORE dei BIG DATA
Datificazione:
●
Attività
●
Conversazioni
●
Foto
●
Video
●
...
Analisi:
●
Text Analytics
●
Sentiment
Analysis
●
Face recognition
●
Voice analytics
●
Moviment
analytics
●
…
●
Volume
●
Velocità
●
Varietà
●
Veridicità
VALORE
31. Strumenti per i BIG DATA
●
Framework: Hadoop (HDFS e MapReduce)
●
Strumenti di Analisi:
– Python: scikit-learn, nltk, spyder, jupyter notebooks
– Pentaho BI