SlideShare a Scribd company logo
BIG DATA
www.fordatascientist.org
Enfap Emilia Romagna
Ravenna febbraio 2019
CHE COSA
SONO I
BIG DATA
?
Tecnologie e metodologie
di analisi di dati massivi
per scoprire il legame tra
fenomeni diversi
e prevedere quelli futuri
PAROLE
si trasformano in dati
AZIONI
POSIZIONI
RELAZIONI
Le 4 V dei
BIG DATA
Small Data Big Data
IPOTESI TEORICHE
CAMPIONAMENTO
CASUALE
CAUSALITA’-
REGRESSIONI
UTILIZZO PRIMARIO
CONOSCENZA OPERATIVA
INTERA
POPOLAZIONE
RELAZIONE-
CORRELAZIONI
UTILIZZO SECONDARIO
SMALL DATA: Campionamento casuale
La
raccolta
dati è
costosa
BIG DATA: Intera popolazione
La raccolta
dati e la
loro
memorizza-
zione ha
costi
sempre più
bassi
Matthew
Fontaine
Maury
● Giovane e promettente ufficiale della marina americana.
● Incidente in diligenza 1839: frattura del femore; claudicante.
● Capo del Depot of Chart and Instruments.
● Vecchi comandanti: conoscenze tramandate di generazione in
generazione.
● No rotte lineari, ma a zig e zag: l’oceano è imprevedibile-
● Intuizione di Matthew: venti regolari; maree regolari, ma sconosciute
nel loro insieme.
● Vecchi giornali di bordo compilati dalla marina in tutti i loro viaggi.
● Dati sul vento, sulle correnti e sulle condizioni metereologiche in
determinati posti e date.
● Suddivisione dell’atlantico in blocchi di 5 gradi di longitudine e
latitudine + mese (Dimensioni).
● Misure: temperatura, velocità e direzione del vento, velocità e direzione
delle onde.
Vecchia rotta New
York Rio de Janeiro:
sud est; sud ovest, pari
a 3 attraversamenti
dell’Atlantico;
Nuova rotta: diritti a
sud
MAURY
NAVI
MERCANTILI
Carte Nautiche
DATI
Forma standard di
registrazione
Giornali di
bordo
Bottiglie in
mare
Laboratorio
galleggiante
1855
1.2 milioni di data
point
SMALL DATA: Causalità - Regressioni
CAUSA
EFFETTO
BIG DATA: Correlazioni
L’azienda che si occupava della manutenzione iniziò a registrare
rigorosamente gli interventi effettuati durante l’anno sui tombini esplosi,
uniti ai dati sui tombini stessi (quanto vecchi, in che zona). Studiando
questi big data, fu possibile elaborare un modello matematico che
prevedeva in tempo reale con una buonissima probabilità quali tombini
fossero in procinto di esplodere, risolvendo il problema alla radice ed
evitando possibili danni a persone e cose. Una vera e propria predizione
statistica del futuro, che definiamo “maintenance predittivo”
(manutenzione basata su delle previsioni).
Esplosione di tombini a new York
SMALL DATA: Utilizzo primario
Definizione
obiettivo
Progettazione
infrastruttura
Progettazione
Data Mart
Campionamento
popolazione
Rilevazione
Dati
Analisi
dati
BIG DATA: Utilizzo secondario
Query su
google
Previsioni
influenza
Captcha Decifrazione
parole ambigue

More Related Content

More from Studiabo

Strutture dati 02-strutturecontrollo-funzionibuiltin
Strutture dati 02-strutturecontrollo-funzionibuiltinStrutture dati 02-strutturecontrollo-funzionibuiltin
Strutture dati 02-strutturecontrollo-funzionibuiltin
Studiabo
 
Strutture dati 01-numeristringhe
Strutture dati 01-numeristringheStrutture dati 01-numeristringhe
Strutture dati 01-numeristringhe
Studiabo
 
Strutture dati 00-corso2018-2019
Strutture dati 00-corso2018-2019Strutture dati 00-corso2018-2019
Strutture dati 00-corso2018-2019
Studiabo
 
Pres ulisse acciaio-ottobre2018
Pres ulisse acciaio-ottobre2018Pres ulisse acciaio-ottobre2018
Pres ulisse acciaio-ottobre2018
Studiabo
 
Strutture dati 08-reshape
Strutture dati 08-reshapeStrutture dati 08-reshape
Strutture dati 08-reshape
Studiabo
 
Pres ulisse acciaio-aprile2018
Pres ulisse acciaio-aprile2018Pres ulisse acciaio-aprile2018
Pres ulisse acciaio-aprile2018
Studiabo
 
Strutture dati 02-strutturecontrollo-funzionibuiltin
Strutture dati 02-strutturecontrollo-funzionibuiltinStrutture dati 02-strutturecontrollo-funzionibuiltin
Strutture dati 02-strutturecontrollo-funzionibuiltin
Studiabo
 
Strutture dati 07-multiindex
Strutture dati 07-multiindexStrutture dati 07-multiindex
Strutture dati 07-multiindex
Studiabo
 
Strutture dati 05-numpypandas
Strutture dati 05-numpypandasStrutture dati 05-numpypandas
Strutture dati 05-numpypandas
Studiabo
 
Strutture dati 06-dataframe
Strutture dati 06-dataframeStrutture dati 06-dataframe
Strutture dati 06-dataframe
Studiabo
 
Strutture dati 04-funzionicustom-classioggetti
Strutture dati 04-funzionicustom-classioggettiStrutture dati 04-funzionicustom-classioggetti
Strutture dati 04-funzionicustom-classioggetti
Studiabo
 
Strutture dati 03-stutturedatibuiltin
Strutture dati 03-stutturedatibuiltinStrutture dati 03-stutturedatibuiltin
Strutture dati 03-stutturedatibuiltin
Studiabo
 
Strutture dati 01-numeristringhe
Strutture dati 01-numeristringheStrutture dati 01-numeristringhe
Strutture dati 01-numeristringhe
Studiabo
 
Strutture dati 00-corso2018
Strutture dati 00-corso2018Strutture dati 00-corso2018
Strutture dati 00-corso2018
Studiabo
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017
Studiabo
 
Data mining 06-dataframe
Data mining 06-dataframeData mining 06-dataframe
Data mining 06-dataframe
Studiabo
 
Data mining 05-numpypandas
Data mining 05-numpypandasData mining 05-numpypandas
Data mining 05-numpypandas
Studiabo
 
Data mining 04-funzionicustom-classioggetti
Data mining 04-funzionicustom-classioggettiData mining 04-funzionicustom-classioggetti
Data mining 04-funzionicustom-classioggetti
Studiabo
 
Data mining 03-stutturedatibuiltin
Data mining 03-stutturedatibuiltinData mining 03-stutturedatibuiltin
Data mining 03-stutturedatibuiltin
Studiabo
 
Data mining 02-strutturecontrollo-funzionibuiltin
Data mining 02-strutturecontrollo-funzionibuiltinData mining 02-strutturecontrollo-funzionibuiltin
Data mining 02-strutturecontrollo-funzionibuiltin
Studiabo
 

More from Studiabo (20)

Strutture dati 02-strutturecontrollo-funzionibuiltin
Strutture dati 02-strutturecontrollo-funzionibuiltinStrutture dati 02-strutturecontrollo-funzionibuiltin
Strutture dati 02-strutturecontrollo-funzionibuiltin
 
Strutture dati 01-numeristringhe
Strutture dati 01-numeristringheStrutture dati 01-numeristringhe
Strutture dati 01-numeristringhe
 
Strutture dati 00-corso2018-2019
Strutture dati 00-corso2018-2019Strutture dati 00-corso2018-2019
Strutture dati 00-corso2018-2019
 
Pres ulisse acciaio-ottobre2018
Pres ulisse acciaio-ottobre2018Pres ulisse acciaio-ottobre2018
Pres ulisse acciaio-ottobre2018
 
Strutture dati 08-reshape
Strutture dati 08-reshapeStrutture dati 08-reshape
Strutture dati 08-reshape
 
Pres ulisse acciaio-aprile2018
Pres ulisse acciaio-aprile2018Pres ulisse acciaio-aprile2018
Pres ulisse acciaio-aprile2018
 
Strutture dati 02-strutturecontrollo-funzionibuiltin
Strutture dati 02-strutturecontrollo-funzionibuiltinStrutture dati 02-strutturecontrollo-funzionibuiltin
Strutture dati 02-strutturecontrollo-funzionibuiltin
 
Strutture dati 07-multiindex
Strutture dati 07-multiindexStrutture dati 07-multiindex
Strutture dati 07-multiindex
 
Strutture dati 05-numpypandas
Strutture dati 05-numpypandasStrutture dati 05-numpypandas
Strutture dati 05-numpypandas
 
Strutture dati 06-dataframe
Strutture dati 06-dataframeStrutture dati 06-dataframe
Strutture dati 06-dataframe
 
Strutture dati 04-funzionicustom-classioggetti
Strutture dati 04-funzionicustom-classioggettiStrutture dati 04-funzionicustom-classioggetti
Strutture dati 04-funzionicustom-classioggetti
 
Strutture dati 03-stutturedatibuiltin
Strutture dati 03-stutturedatibuiltinStrutture dati 03-stutturedatibuiltin
Strutture dati 03-stutturedatibuiltin
 
Strutture dati 01-numeristringhe
Strutture dati 01-numeristringheStrutture dati 01-numeristringhe
Strutture dati 01-numeristringhe
 
Strutture dati 00-corso2018
Strutture dati 00-corso2018Strutture dati 00-corso2018
Strutture dati 00-corso2018
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017
 
Data mining 06-dataframe
Data mining 06-dataframeData mining 06-dataframe
Data mining 06-dataframe
 
Data mining 05-numpypandas
Data mining 05-numpypandasData mining 05-numpypandas
Data mining 05-numpypandas
 
Data mining 04-funzionicustom-classioggetti
Data mining 04-funzionicustom-classioggettiData mining 04-funzionicustom-classioggetti
Data mining 04-funzionicustom-classioggetti
 
Data mining 03-stutturedatibuiltin
Data mining 03-stutturedatibuiltinData mining 03-stutturedatibuiltin
Data mining 03-stutturedatibuiltin
 
Data mining 02-strutturecontrollo-funzionibuiltin
Data mining 02-strutturecontrollo-funzionibuiltinData mining 02-strutturecontrollo-funzionibuiltin
Data mining 02-strutturecontrollo-funzionibuiltin
 

Ravenna2019 - lezione Big Data

  • 1. BIG DATA www.fordatascientist.org Enfap Emilia Romagna Ravenna febbraio 2019
  • 2. CHE COSA SONO I BIG DATA ? Tecnologie e metodologie di analisi di dati massivi per scoprire il legame tra fenomeni diversi e prevedere quelli futuri
  • 3. PAROLE si trasformano in dati AZIONI POSIZIONI RELAZIONI
  • 4.
  • 5.
  • 6. Le 4 V dei BIG DATA
  • 7. Small Data Big Data IPOTESI TEORICHE CAMPIONAMENTO CASUALE CAUSALITA’- REGRESSIONI UTILIZZO PRIMARIO CONOSCENZA OPERATIVA INTERA POPOLAZIONE RELAZIONE- CORRELAZIONI UTILIZZO SECONDARIO
  • 8. SMALL DATA: Campionamento casuale La raccolta dati è costosa
  • 9. BIG DATA: Intera popolazione La raccolta dati e la loro memorizza- zione ha costi sempre più bassi
  • 11. ● Giovane e promettente ufficiale della marina americana. ● Incidente in diligenza 1839: frattura del femore; claudicante. ● Capo del Depot of Chart and Instruments. ● Vecchi comandanti: conoscenze tramandate di generazione in generazione. ● No rotte lineari, ma a zig e zag: l’oceano è imprevedibile- ● Intuizione di Matthew: venti regolari; maree regolari, ma sconosciute nel loro insieme. ● Vecchi giornali di bordo compilati dalla marina in tutti i loro viaggi. ● Dati sul vento, sulle correnti e sulle condizioni metereologiche in determinati posti e date. ● Suddivisione dell’atlantico in blocchi di 5 gradi di longitudine e latitudine + mese (Dimensioni). ● Misure: temperatura, velocità e direzione del vento, velocità e direzione delle onde.
  • 12.
  • 13. Vecchia rotta New York Rio de Janeiro: sud est; sud ovest, pari a 3 attraversamenti dell’Atlantico; Nuova rotta: diritti a sud
  • 14. MAURY NAVI MERCANTILI Carte Nautiche DATI Forma standard di registrazione Giornali di bordo Bottiglie in mare Laboratorio galleggiante
  • 15. 1855 1.2 milioni di data point
  • 16. SMALL DATA: Causalità - Regressioni CAUSA EFFETTO
  • 18.
  • 19. L’azienda che si occupava della manutenzione iniziò a registrare rigorosamente gli interventi effettuati durante l’anno sui tombini esplosi, uniti ai dati sui tombini stessi (quanto vecchi, in che zona). Studiando questi big data, fu possibile elaborare un modello matematico che prevedeva in tempo reale con una buonissima probabilità quali tombini fossero in procinto di esplodere, risolvendo il problema alla radice ed evitando possibili danni a persone e cose. Una vera e propria predizione statistica del futuro, che definiamo “maintenance predittivo” (manutenzione basata su delle previsioni). Esplosione di tombini a new York
  • 20. SMALL DATA: Utilizzo primario Definizione obiettivo Progettazione infrastruttura Progettazione Data Mart Campionamento popolazione Rilevazione Dati Analisi dati
  • 21. BIG DATA: Utilizzo secondario