SlideShare a Scribd company logo
1 of 16
Download to read offline
Big data ed eventi:
 quasi un tutorial
     Prof. Riccardo Melen
     melen@disco.unimib.it
Big Data
Monitoraggio di reti e infrastrutture IT
• performance: data center, SOA/ESB, infrastrutture virtuali,…
• configurazione dei client
• sicurezza: firewall, IDS, ACL, log,…
Comportamento degli utenti
• accesso ai servizi
• clickstreams
• chiamate telefoniche: accounting, marketing, fraud detection
Localizzazione e sensori
• smartphones
• smart cities infrastructures
• personal/assisted living
Il percorso dei dati

                                 normalizzazione/
                                                    memorizzazione
                                    filtraggio




                 raccolta



strumentazione




                            analisi
High performance DBMS
High performance SQL DBMS
• Solid state disks
• Column-oriented databases


Ma i dati sono spesso
• non strutturati
• non utilizzati come in un DBMS classico (write/update transactions +
  analytics)




                 NoSQL Databases
MapReduce
Un recente (2004) modello di programmazione
•   scalabile su architetture parallele (shared-nothing)
•   estremamente flessibile e di enorme successo
•   implementazioni open source: Hadoop
•   offerte Cloud: Amazon Elastic MapReduce (basato su Hadoop)

                  worker                                    worker
                    MAP                                   REDUCE


                                        merge/sort

                  worker                                    worker
                    MAP                                   REDUCE


         calcola una chiave ed emette                lavora su liste di dati
            la coppia (chiave, dato)                 con la stessa chiave
Vantaggi e limiti di MR
Una implementazione di MapReduce come Hadoop è
facile da utilizzare ed estremamente flessibile
• il framework gestisce i problemi di parallelizzazione, partizionamento
  e bilanciamento del carico, fault tolerance
• lo storage è implementato con un file system distribuito (HDFS)
• il modello di programmazione è molto generale (ad esempio è
  semplice mappare gli operatori relazionali)
• vi sono svilupppi continui (ad esempio Hive/HiveQL)
Non risolve tutti i problemi in maniera ottimale
• ad esempio non è un modello efficiente per effettuare analisi in
  maniera ripetitiva sui dati mantenuti in un DB relazionale
• e comunque non abbiamo affrontato il problema della
  strumentazione, della raccolta e del filtraggio preliminare dei dati
Cosa è un evento




 TééâÜÜt? DD Åtzz|É ECDE

     Un lieto evento               Una fotografia


La connotazione temporale è alla base del significato
di un evento
Elaborazione di eventi
Quando parliamo elaborazione di eventi:
• l’ordinamento temporale ha un significato fondamentale
• in molti casi la risposta in tempo reale è un requisito essenziale
Scenari applicativi presenti e futuri
•   Network fault e performance management
•   Security management
•   Financial transactions
•   Marketing (A/B testing)
•   «Smart city» applications
•   Assisted living
Il percorso degli eventi
                                                    normalizzazione/
                                                                           memorizzazione
                                                       filtraggio




                           raccolta



   strumentazione




decisioni/azioni automatiche          analisi real time (sliding window)
Correlazione di eventi
Elaborare eventi significa (anche) effettuarne la
correlazione temporale
Correlazione di eventi omogenei su un singolo dominio
(ordinamento, distanza temporale fra due eventi)
• sequenza di eventi osservata da un IDS
• sequenza di accessi a pagine di un sito
Correlazione di eventi eterogenei (o correlazione fra
eventi e informazioni di stato/configurazione)
• accesso fisico ad un edificio, eventi di motion detection provenienti da
  videocamere, accesso al sistema informativo
Un esempio: Splunk
Splunk è un esempio di piattaforma
commerciale per la raccolta, la
correlazione e l’analisi dei dati

È dotata di agenti in grado di interfacciarsi
efficacemente con varie sorgenti di dati
(ad esempio WMI)




                                                Effettua la indicizzazione dei dati in
                                                parallelo, in modo da scalare fino a
                                                workload giornalieri molto grandi (terabyte)

                                                Fornisce un linguaggio per la ricerca e la
                                                correlazione degli eventi (Search
                                                Processing Language)
Le soluzioni disponibili
Splunk non è ovviamente l’unica soluzione disponibile:
esistono varie alternative, anche open source
• piattaforme orientate al monitoraggio di infrastrutture IT (es.: Nagios)
• soluzioni di gestione dei log (Logstash, Sumologic ecc.)
In generale le piattaforme disponibili sono progettate
per il supporto delle decisioni umane
Molto più sfidante è il problema della comprensione e
reazione automatica ai flussi di eventi con le loro
correlazioni
Open Event «Tapping» ?
Un concetto di Smart City avanzato: accesso aperto ad
una infrastruttura di gestione di flussi di eventi in tempo
reale
Un modello generale di
event processing

              coordinamento e                     interfaccia    integrazione e
                integrazione                        utente       presentazione


 analisi   behavior      anomaly                   security        esperti di
 video     analysis      detection                  alerts          dominio


           Routing, distribuzione e                 analisi     routing e analisi
              filtraggio dei dati                 traffico IP     del traffico


           presence/    sensori di    controllo
 video
            location    movimento      accessi
                                                                device e sensori

More Related Content

Similar to Big Data e la forza degli eventi - Intervento di Melen

Big data - stack tecnologico
Big data -  stack tecnologicoBig data -  stack tecnologico
Big data - stack tecnologicoConsulthinkspa
 
Big Data e la forza degli eventi - Intervento di Cornevilli
Big Data e la forza degli eventi - Intervento di CornevilliBig Data e la forza degli eventi - Intervento di Cornevilli
Big Data e la forza degli eventi - Intervento di Cornevillicomunicareonline
 
Big data stack tecnologico
Big data stack tecnologicoBig data stack tecnologico
Big data stack tecnologicoMassimo Romano
 
Migrazione da sistemi proprietari a sistemi open source
Migrazione da sistemi proprietari a sistemi open sourceMigrazione da sistemi proprietari a sistemi open source
Migrazione da sistemi proprietari a sistemi open sourceClaudio Cardinali
 
Java al servizio della data science - Java developers' meeting
Java al servizio della data science - Java developers' meetingJava al servizio della data science - Java developers' meeting
Java al servizio della data science - Java developers' meetingNicola Pedot
 
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...Metodo spa
 
Digital Integration Hub per il monitoraggio in near-real time della logistica...
Digital Integration Hub per il monitoraggio in near-real time della logistica...Digital Integration Hub per il monitoraggio in near-real time della logistica...
Digital Integration Hub per il monitoraggio in near-real time della logistica...confluent
 
S. Traverso, Un data warehouse per controllo di gestione e pianificazione str...
S. Traverso, Un data warehouse per controllo di gestione e pianificazione str...S. Traverso, Un data warehouse per controllo di gestione e pianificazione str...
S. Traverso, Un data warehouse per controllo di gestione e pianificazione str...Istituto nazionale di statistica
 
Approccio Semantico alla Governance IT
Approccio Semantico alla Governance ITApproccio Semantico alla Governance IT
Approccio Semantico alla Governance ITMatteo Busanelli
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Data Driven Innovation
 
HEALTHCARE-FISIRAD-Informatica di Base
HEALTHCARE-FISIRAD-Informatica di BaseHEALTHCARE-FISIRAD-Informatica di Base
HEALTHCARE-FISIRAD-Informatica di BaseLeonardo Pergolini
 
Lezione 3: Strumenti - Il Web
Lezione 3: Strumenti - Il WebLezione 3: Strumenti - Il Web
Lezione 3: Strumenti - Il WebStefano Epifani
 
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSTrovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSAmazon Web Services
 
Presentazione scenari internet of things & rfid
Presentazione scenari internet of things & rfidPresentazione scenari internet of things & rfid
Presentazione scenari internet of things & rfidCATTID "Sapienza"
 
Iaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataIaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataVincenzo Fogliaro
 
Introduzione al Domain Driven Design (DDD)
Introduzione al Domain Driven Design (DDD)Introduzione al Domain Driven Design (DDD)
Introduzione al Domain Driven Design (DDD)DotNetMarche
 
GDPR & GDPR - Confindustria Ravenna - Alessandro Rani
GDPR & GDPR - Confindustria Ravenna - Alessandro RaniGDPR & GDPR - Confindustria Ravenna - Alessandro Rani
GDPR & GDPR - Confindustria Ravenna - Alessandro RaniAdalberto Casalboni
 

Similar to Big Data e la forza degli eventi - Intervento di Melen (20)

Big data - stack tecnologico
Big data -  stack tecnologicoBig data -  stack tecnologico
Big data - stack tecnologico
 
Big Data e la forza degli eventi - Intervento di Cornevilli
Big Data e la forza degli eventi - Intervento di CornevilliBig Data e la forza degli eventi - Intervento di Cornevilli
Big Data e la forza degli eventi - Intervento di Cornevilli
 
Big data stack tecnologico
Big data stack tecnologicoBig data stack tecnologico
Big data stack tecnologico
 
Appunti di big data
Appunti di big dataAppunti di big data
Appunti di big data
 
Migrazione da sistemi proprietari a sistemi open source
Migrazione da sistemi proprietari a sistemi open sourceMigrazione da sistemi proprietari a sistemi open source
Migrazione da sistemi proprietari a sistemi open source
 
Java al servizio della data science - Java developers' meeting
Java al servizio della data science - Java developers' meetingJava al servizio della data science - Java developers' meeting
Java al servizio della data science - Java developers' meeting
 
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
Archiviazione e gestione-documentale per le PMI, integrata anche a Metodo Evo...
 
Erlug
ErlugErlug
Erlug
 
Digital Integration Hub per il monitoraggio in near-real time della logistica...
Digital Integration Hub per il monitoraggio in near-real time della logistica...Digital Integration Hub per il monitoraggio in near-real time della logistica...
Digital Integration Hub per il monitoraggio in near-real time della logistica...
 
S. Traverso, Un data warehouse per controllo di gestione e pianificazione str...
S. Traverso, Un data warehouse per controllo di gestione e pianificazione str...S. Traverso, Un data warehouse per controllo di gestione e pianificazione str...
S. Traverso, Un data warehouse per controllo di gestione e pianificazione str...
 
Approccio Semantico alla Governance IT
Approccio Semantico alla Governance ITApproccio Semantico alla Governance IT
Approccio Semantico alla Governance IT
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
 
HEALTHCARE-FISIRAD-Informatica di Base
HEALTHCARE-FISIRAD-Informatica di BaseHEALTHCARE-FISIRAD-Informatica di Base
HEALTHCARE-FISIRAD-Informatica di Base
 
Lezione 3: Strumenti - Il Web
Lezione 3: Strumenti - Il WebLezione 3: Strumenti - Il Web
Lezione 3: Strumenti - Il Web
 
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSTrovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
 
Presentazione scenari internet of things & rfid
Presentazione scenari internet of things & rfidPresentazione scenari internet of things & rfid
Presentazione scenari internet of things & rfid
 
Iaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataIaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdata
 
Introduzione al Domain Driven Design (DDD)
Introduzione al Domain Driven Design (DDD)Introduzione al Domain Driven Design (DDD)
Introduzione al Domain Driven Design (DDD)
 
21 Buzzwords
21 Buzzwords21 Buzzwords
21 Buzzwords
 
GDPR & GDPR - Confindustria Ravenna - Alessandro Rani
GDPR & GDPR - Confindustria Ravenna - Alessandro RaniGDPR & GDPR - Confindustria Ravenna - Alessandro Rani
GDPR & GDPR - Confindustria Ravenna - Alessandro Rani
 

Big Data e la forza degli eventi - Intervento di Melen

  • 1. Big data ed eventi: quasi un tutorial Prof. Riccardo Melen melen@disco.unimib.it
  • 2.
  • 3.
  • 4. Big Data Monitoraggio di reti e infrastrutture IT • performance: data center, SOA/ESB, infrastrutture virtuali,… • configurazione dei client • sicurezza: firewall, IDS, ACL, log,… Comportamento degli utenti • accesso ai servizi • clickstreams • chiamate telefoniche: accounting, marketing, fraud detection Localizzazione e sensori • smartphones • smart cities infrastructures • personal/assisted living
  • 5. Il percorso dei dati normalizzazione/ memorizzazione filtraggio raccolta strumentazione analisi
  • 6. High performance DBMS High performance SQL DBMS • Solid state disks • Column-oriented databases Ma i dati sono spesso • non strutturati • non utilizzati come in un DBMS classico (write/update transactions + analytics) NoSQL Databases
  • 7. MapReduce Un recente (2004) modello di programmazione • scalabile su architetture parallele (shared-nothing) • estremamente flessibile e di enorme successo • implementazioni open source: Hadoop • offerte Cloud: Amazon Elastic MapReduce (basato su Hadoop) worker worker MAP REDUCE merge/sort worker worker MAP REDUCE calcola una chiave ed emette lavora su liste di dati la coppia (chiave, dato) con la stessa chiave
  • 8. Vantaggi e limiti di MR Una implementazione di MapReduce come Hadoop è facile da utilizzare ed estremamente flessibile • il framework gestisce i problemi di parallelizzazione, partizionamento e bilanciamento del carico, fault tolerance • lo storage è implementato con un file system distribuito (HDFS) • il modello di programmazione è molto generale (ad esempio è semplice mappare gli operatori relazionali) • vi sono svilupppi continui (ad esempio Hive/HiveQL) Non risolve tutti i problemi in maniera ottimale • ad esempio non è un modello efficiente per effettuare analisi in maniera ripetitiva sui dati mantenuti in un DB relazionale • e comunque non abbiamo affrontato il problema della strumentazione, della raccolta e del filtraggio preliminare dei dati
  • 9. Cosa è un evento TééâÜÜt? DD Åtzz|É ECDE Un lieto evento Una fotografia La connotazione temporale è alla base del significato di un evento
  • 10. Elaborazione di eventi Quando parliamo elaborazione di eventi: • l’ordinamento temporale ha un significato fondamentale • in molti casi la risposta in tempo reale è un requisito essenziale Scenari applicativi presenti e futuri • Network fault e performance management • Security management • Financial transactions • Marketing (A/B testing) • «Smart city» applications • Assisted living
  • 11. Il percorso degli eventi normalizzazione/ memorizzazione filtraggio raccolta strumentazione decisioni/azioni automatiche analisi real time (sliding window)
  • 12. Correlazione di eventi Elaborare eventi significa (anche) effettuarne la correlazione temporale Correlazione di eventi omogenei su un singolo dominio (ordinamento, distanza temporale fra due eventi) • sequenza di eventi osservata da un IDS • sequenza di accessi a pagine di un sito Correlazione di eventi eterogenei (o correlazione fra eventi e informazioni di stato/configurazione) • accesso fisico ad un edificio, eventi di motion detection provenienti da videocamere, accesso al sistema informativo
  • 13. Un esempio: Splunk Splunk è un esempio di piattaforma commerciale per la raccolta, la correlazione e l’analisi dei dati È dotata di agenti in grado di interfacciarsi efficacemente con varie sorgenti di dati (ad esempio WMI) Effettua la indicizzazione dei dati in parallelo, in modo da scalare fino a workload giornalieri molto grandi (terabyte) Fornisce un linguaggio per la ricerca e la correlazione degli eventi (Search Processing Language)
  • 14. Le soluzioni disponibili Splunk non è ovviamente l’unica soluzione disponibile: esistono varie alternative, anche open source • piattaforme orientate al monitoraggio di infrastrutture IT (es.: Nagios) • soluzioni di gestione dei log (Logstash, Sumologic ecc.) In generale le piattaforme disponibili sono progettate per il supporto delle decisioni umane Molto più sfidante è il problema della comprensione e reazione automatica ai flussi di eventi con le loro correlazioni
  • 15. Open Event «Tapping» ? Un concetto di Smart City avanzato: accesso aperto ad una infrastruttura di gestione di flussi di eventi in tempo reale
  • 16. Un modello generale di event processing coordinamento e interfaccia integrazione e integrazione utente presentazione analisi behavior anomaly security esperti di video analysis detection alerts dominio Routing, distribuzione e analisi routing e analisi filtraggio dei dati traffico IP del traffico presence/ sensori di controllo video location movimento accessi device e sensori