BIG DATA
www.fordatascientist.org
Enfap Emilia Romagna
Ravenna febbraio 2019
CHE COSA
SONO I
BIG DATA
?
Tecnologie e metodologie
di analisi di dati massivi
per scoprire il legame tra
fenomeni diversi
e prevedere quelli futuri
PAROLE
si trasformano in dati
AZIONI
POSIZIONI
RELAZIONI
Le 4 V dei
BIG DATA
Small Data Big Data
IPOTESI TEORICHE
CAMPIONAMENTO
CASUALE
CAUSALITA’-
REGRESSIONI
UTILIZZO PRIMARIO
CONOSCENZA OPERATIVA
INTERA
POPOLAZIONE
RELAZIONE-
CORRELAZIONI
UTILIZZO SECONDARIO
SMALL DATA: Campionamento casuale
La
raccolta
dati è
costosa
BIG DATA: Intera popolazione
La raccolta
dati e la
loro
memorizza-
zione ha
costi
sempre più
bassi
Matthew
Fontaine
Maury
● Giovane e promettente ufficiale della marina americana.
● Incidente in diligenza 1839: frattura del femore; claudicante.
● Capo del Depot of Chart and Instruments.
● Vecchi comandanti: conoscenze tramandate di generazione in
generazione.
● No rotte lineari, ma a zig e zag: l’oceano è imprevedibile-
● Intuizione di Matthew: venti regolari; maree regolari, ma sconosciute
nel loro insieme.
● Vecchi giornali di bordo compilati dalla marina in tutti i loro viaggi.
● Dati sul vento, sulle correnti e sulle condizioni metereologiche in
determinati posti e date.
● Suddivisione dell’atlantico in blocchi di 5 gradi di longitudine e
latitudine + mese (Dimensioni).
● Misure: temperatura, velocità e direzione del vento, velocità e direzione
delle onde.
Vecchia rotta New
York Rio de Janeiro:
sud est; sud ovest, pari
a 3 attraversamenti
dell’Atlantico;
Nuova rotta: diritti a
sud
MAURY
NAVI
MERCANTILI
Carte Nautiche
DATI
Forma standard di
registrazione
Giornali di
bordo
Bottiglie in
mare
Laboratorio
galleggiante
1855
1.2 milioni di data
point
SMALL DATA: Causalità - Regressioni
CAUSA
EFFETTO
BIG DATA: Correlazioni
L’azienda che si occupava della manutenzione iniziò a registrare
rigorosamente gli interventi effettuati durante l’anno sui tombini esplosi,
uniti ai dati sui tombini stessi (quanto vecchi, in che zona). Studiando
questi big data, fu possibile elaborare un modello matematico che
prevedeva in tempo reale con una buonissima probabilità quali tombini
fossero in procinto di esplodere, risolvendo il problema alla radice ed
evitando possibili danni a persone e cose. Una vera e propria predizione
statistica del futuro, che definiamo “maintenance predittivo”
(manutenzione basata su delle previsioni).
Esplosione di tombini a new York
SMALL DATA: Utilizzo primario
Definizione
obiettivo
Progettazione
infrastruttura
Progettazione
Data Mart
Campionamento
popolazione
Rilevazione
Dati
Analisi
dati
BIG DATA: Utilizzo secondario
Query su
google
Previsioni
influenza
Captcha Decifrazione
parole ambigue

Ravenna2019 - lezione Big Data

  • 1.
  • 2.
    CHE COSA SONO I BIGDATA ? Tecnologie e metodologie di analisi di dati massivi per scoprire il legame tra fenomeni diversi e prevedere quelli futuri
  • 3.
    PAROLE si trasformano indati AZIONI POSIZIONI RELAZIONI
  • 6.
    Le 4 Vdei BIG DATA
  • 7.
    Small Data BigData IPOTESI TEORICHE CAMPIONAMENTO CASUALE CAUSALITA’- REGRESSIONI UTILIZZO PRIMARIO CONOSCENZA OPERATIVA INTERA POPOLAZIONE RELAZIONE- CORRELAZIONI UTILIZZO SECONDARIO
  • 8.
    SMALL DATA: Campionamentocasuale La raccolta dati è costosa
  • 9.
    BIG DATA: Interapopolazione La raccolta dati e la loro memorizza- zione ha costi sempre più bassi
  • 10.
  • 11.
    ● Giovane epromettente ufficiale della marina americana. ● Incidente in diligenza 1839: frattura del femore; claudicante. ● Capo del Depot of Chart and Instruments. ● Vecchi comandanti: conoscenze tramandate di generazione in generazione. ● No rotte lineari, ma a zig e zag: l’oceano è imprevedibile- ● Intuizione di Matthew: venti regolari; maree regolari, ma sconosciute nel loro insieme. ● Vecchi giornali di bordo compilati dalla marina in tutti i loro viaggi. ● Dati sul vento, sulle correnti e sulle condizioni metereologiche in determinati posti e date. ● Suddivisione dell’atlantico in blocchi di 5 gradi di longitudine e latitudine + mese (Dimensioni). ● Misure: temperatura, velocità e direzione del vento, velocità e direzione delle onde.
  • 13.
    Vecchia rotta New YorkRio de Janeiro: sud est; sud ovest, pari a 3 attraversamenti dell’Atlantico; Nuova rotta: diritti a sud
  • 14.
    MAURY NAVI MERCANTILI Carte Nautiche DATI Forma standarddi registrazione Giornali di bordo Bottiglie in mare Laboratorio galleggiante
  • 15.
  • 16.
    SMALL DATA: Causalità- Regressioni CAUSA EFFETTO
  • 17.
  • 19.
    L’azienda che sioccupava della manutenzione iniziò a registrare rigorosamente gli interventi effettuati durante l’anno sui tombini esplosi, uniti ai dati sui tombini stessi (quanto vecchi, in che zona). Studiando questi big data, fu possibile elaborare un modello matematico che prevedeva in tempo reale con una buonissima probabilità quali tombini fossero in procinto di esplodere, risolvendo il problema alla radice ed evitando possibili danni a persone e cose. Una vera e propria predizione statistica del futuro, che definiamo “maintenance predittivo” (manutenzione basata su delle previsioni). Esplosione di tombini a new York
  • 20.
    SMALL DATA: Utilizzoprimario Definizione obiettivo Progettazione infrastruttura Progettazione Data Mart Campionamento popolazione Rilevazione Dati Analisi dati
  • 21.
  • 22.