Big data ed eventi:
 quasi un tutorial
     Prof. Riccardo Melen
     melen@disco.unimib.it
Big Data
Monitoraggio di reti e infrastrutture IT
• performance: data center, SOA/ESB, infrastrutture virtuali,…
• configurazione dei client
• sicurezza: firewall, IDS, ACL, log,…
Comportamento degli utenti
• accesso ai servizi
• clickstreams
• chiamate telefoniche: accounting, marketing, fraud detection
Localizzazione e sensori
• smartphones
• smart cities infrastructures
• personal/assisted living
Il percorso dei dati

                                 normalizzazione/
                                                    memorizzazione
                                    filtraggio




                 raccolta



strumentazione




                            analisi
High performance DBMS
High performance SQL DBMS
• Solid state disks
• Column-oriented databases


Ma i dati sono spesso
• non strutturati
• non utilizzati come in un DBMS classico (write/update transactions +
  analytics)




                 NoSQL Databases
MapReduce
Un recente (2004) modello di programmazione
•   scalabile su architetture parallele (shared-nothing)
•   estremamente flessibile e di enorme successo
•   implementazioni open source: Hadoop
•   offerte Cloud: Amazon Elastic MapReduce (basato su Hadoop)

                  worker                                    worker
                    MAP                                   REDUCE


                                        merge/sort

                  worker                                    worker
                    MAP                                   REDUCE


         calcola una chiave ed emette                lavora su liste di dati
            la coppia (chiave, dato)                 con la stessa chiave
Vantaggi e limiti di MR
Una implementazione di MapReduce come Hadoop è
facile da utilizzare ed estremamente flessibile
• il framework gestisce i problemi di parallelizzazione, partizionamento
  e bilanciamento del carico, fault tolerance
• lo storage è implementato con un file system distribuito (HDFS)
• il modello di programmazione è molto generale (ad esempio è
  semplice mappare gli operatori relazionali)
• vi sono svilupppi continui (ad esempio Hive/HiveQL)
Non risolve tutti i problemi in maniera ottimale
• ad esempio non è un modello efficiente per effettuare analisi in
  maniera ripetitiva sui dati mantenuti in un DB relazionale
• e comunque non abbiamo affrontato il problema della
  strumentazione, della raccolta e del filtraggio preliminare dei dati
Cosa è un evento




 TééâÜÜt? DD Åtzz|É ECDE

     Un lieto evento               Una fotografia


La connotazione temporale è alla base del significato
di un evento
Elaborazione di eventi
Quando parliamo elaborazione di eventi:
• l’ordinamento temporale ha un significato fondamentale
• in molti casi la risposta in tempo reale è un requisito essenziale
Scenari applicativi presenti e futuri
•   Network fault e performance management
•   Security management
•   Financial transactions
•   Marketing (A/B testing)
•   «Smart city» applications
•   Assisted living
Il percorso degli eventi
                                                    normalizzazione/
                                                                           memorizzazione
                                                       filtraggio




                           raccolta



   strumentazione




decisioni/azioni automatiche          analisi real time (sliding window)
Correlazione di eventi
Elaborare eventi significa (anche) effettuarne la
correlazione temporale
Correlazione di eventi omogenei su un singolo dominio
(ordinamento, distanza temporale fra due eventi)
• sequenza di eventi osservata da un IDS
• sequenza di accessi a pagine di un sito
Correlazione di eventi eterogenei (o correlazione fra
eventi e informazioni di stato/configurazione)
• accesso fisico ad un edificio, eventi di motion detection provenienti da
  videocamere, accesso al sistema informativo
Un esempio: Splunk
Splunk è un esempio di piattaforma
commerciale per la raccolta, la
correlazione e l’analisi dei dati

È dotata di agenti in grado di interfacciarsi
efficacemente con varie sorgenti di dati
(ad esempio WMI)




                                                Effettua la indicizzazione dei dati in
                                                parallelo, in modo da scalare fino a
                                                workload giornalieri molto grandi (terabyte)

                                                Fornisce un linguaggio per la ricerca e la
                                                correlazione degli eventi (Search
                                                Processing Language)
Le soluzioni disponibili
Splunk non è ovviamente l’unica soluzione disponibile:
esistono varie alternative, anche open source
• piattaforme orientate al monitoraggio di infrastrutture IT (es.: Nagios)
• soluzioni di gestione dei log (Logstash, Sumologic ecc.)
In generale le piattaforme disponibili sono progettate
per il supporto delle decisioni umane
Molto più sfidante è il problema della comprensione e
reazione automatica ai flussi di eventi con le loro
correlazioni
Open Event «Tapping» ?
Un concetto di Smart City avanzato: accesso aperto ad
una infrastruttura di gestione di flussi di eventi in tempo
reale
Un modello generale di
event processing

              coordinamento e                     interfaccia    integrazione e
                integrazione                        utente       presentazione


 analisi   behavior      anomaly                   security        esperti di
 video     analysis      detection                  alerts          dominio


           Routing, distribuzione e                 analisi     routing e analisi
              filtraggio dei dati                 traffico IP     del traffico


           presence/    sensori di    controllo
 video
            location    movimento      accessi
                                                                device e sensori

Big Data e la forza degli eventi - Intervento di Melen

  • 1.
    Big data edeventi: quasi un tutorial Prof. Riccardo Melen melen@disco.unimib.it
  • 4.
    Big Data Monitoraggio direti e infrastrutture IT • performance: data center, SOA/ESB, infrastrutture virtuali,… • configurazione dei client • sicurezza: firewall, IDS, ACL, log,… Comportamento degli utenti • accesso ai servizi • clickstreams • chiamate telefoniche: accounting, marketing, fraud detection Localizzazione e sensori • smartphones • smart cities infrastructures • personal/assisted living
  • 5.
    Il percorso deidati normalizzazione/ memorizzazione filtraggio raccolta strumentazione analisi
  • 6.
    High performance DBMS Highperformance SQL DBMS • Solid state disks • Column-oriented databases Ma i dati sono spesso • non strutturati • non utilizzati come in un DBMS classico (write/update transactions + analytics) NoSQL Databases
  • 7.
    MapReduce Un recente (2004)modello di programmazione • scalabile su architetture parallele (shared-nothing) • estremamente flessibile e di enorme successo • implementazioni open source: Hadoop • offerte Cloud: Amazon Elastic MapReduce (basato su Hadoop) worker worker MAP REDUCE merge/sort worker worker MAP REDUCE calcola una chiave ed emette lavora su liste di dati la coppia (chiave, dato) con la stessa chiave
  • 8.
    Vantaggi e limitidi MR Una implementazione di MapReduce come Hadoop è facile da utilizzare ed estremamente flessibile • il framework gestisce i problemi di parallelizzazione, partizionamento e bilanciamento del carico, fault tolerance • lo storage è implementato con un file system distribuito (HDFS) • il modello di programmazione è molto generale (ad esempio è semplice mappare gli operatori relazionali) • vi sono svilupppi continui (ad esempio Hive/HiveQL) Non risolve tutti i problemi in maniera ottimale • ad esempio non è un modello efficiente per effettuare analisi in maniera ripetitiva sui dati mantenuti in un DB relazionale • e comunque non abbiamo affrontato il problema della strumentazione, della raccolta e del filtraggio preliminare dei dati
  • 9.
    Cosa è unevento TééâÜÜt? DD Åtzz|É ECDE Un lieto evento Una fotografia La connotazione temporale è alla base del significato di un evento
  • 10.
    Elaborazione di eventi Quandoparliamo elaborazione di eventi: • l’ordinamento temporale ha un significato fondamentale • in molti casi la risposta in tempo reale è un requisito essenziale Scenari applicativi presenti e futuri • Network fault e performance management • Security management • Financial transactions • Marketing (A/B testing) • «Smart city» applications • Assisted living
  • 11.
    Il percorso deglieventi normalizzazione/ memorizzazione filtraggio raccolta strumentazione decisioni/azioni automatiche analisi real time (sliding window)
  • 12.
    Correlazione di eventi Elaborareeventi significa (anche) effettuarne la correlazione temporale Correlazione di eventi omogenei su un singolo dominio (ordinamento, distanza temporale fra due eventi) • sequenza di eventi osservata da un IDS • sequenza di accessi a pagine di un sito Correlazione di eventi eterogenei (o correlazione fra eventi e informazioni di stato/configurazione) • accesso fisico ad un edificio, eventi di motion detection provenienti da videocamere, accesso al sistema informativo
  • 13.
    Un esempio: Splunk Splunkè un esempio di piattaforma commerciale per la raccolta, la correlazione e l’analisi dei dati È dotata di agenti in grado di interfacciarsi efficacemente con varie sorgenti di dati (ad esempio WMI) Effettua la indicizzazione dei dati in parallelo, in modo da scalare fino a workload giornalieri molto grandi (terabyte) Fornisce un linguaggio per la ricerca e la correlazione degli eventi (Search Processing Language)
  • 14.
    Le soluzioni disponibili Splunknon è ovviamente l’unica soluzione disponibile: esistono varie alternative, anche open source • piattaforme orientate al monitoraggio di infrastrutture IT (es.: Nagios) • soluzioni di gestione dei log (Logstash, Sumologic ecc.) In generale le piattaforme disponibili sono progettate per il supporto delle decisioni umane Molto più sfidante è il problema della comprensione e reazione automatica ai flussi di eventi con le loro correlazioni
  • 15.
    Open Event «Tapping»? Un concetto di Smart City avanzato: accesso aperto ad una infrastruttura di gestione di flussi di eventi in tempo reale
  • 16.
    Un modello generaledi event processing coordinamento e interfaccia integrazione e integrazione utente presentazione analisi behavior anomaly security esperti di video analysis detection alerts dominio Routing, distribuzione e analisi routing e analisi filtraggio dei dati traffico IP del traffico presence/ sensori di controllo video location movimento accessi device e sensori