Big Data e la forza degli eventi - Intervento di Melen

Big data ed eventi:
quasi un tutorial
Prof. Riccardo Melen
melen@disco.unimib.it

Big Data
Monitoraggio di reti e infrastrutture IT
• performance: data center, SOA/ESB, infrastrutture virtuali,…
• configurazione dei client
• sicurezza: firewall, IDS, ACL, log,…
Comportamento degli utenti
• accesso ai servizi
• clickstreams
• chiamate telefoniche: accounting, marketing, fraud detection
Localizzazione e sensori
• smartphones
• smart cities infrastructures
• personal/assisted living

Il percorso dei dati

normalizzazione/
memorizzazione
filtraggio

raccolta

strumentazione

analisi

High performance DBMS
High performance SQL DBMS
• Solid state disks
• Column-oriented databases

Ma i dati sono spesso
• non strutturati
• non utilizzati come in un DBMS classico (write/update transactions +
analytics)

NoSQL Databases

MapReduce
Un recente (2004) modello di programmazione
• scalabile su architetture parallele (shared-nothing)
• estremamente flessibile e di enorme successo
• implementazioni open source: Hadoop
• offerte Cloud: Amazon Elastic MapReduce (basato su Hadoop)

worker worker
MAP REDUCE

merge/sort

worker worker
MAP REDUCE

calcola una chiave ed emette lavora su liste di dati
la coppia (chiave, dato) con la stessa chiave

Vantaggi e limiti di MR
Una implementazione di MapReduce come Hadoop è
facile da utilizzare ed estremamente flessibile
• il framework gestisce i problemi di parallelizzazione, partizionamento
e bilanciamento del carico, fault tolerance
• lo storage è implementato con un file system distribuito (HDFS)
• il modello di programmazione è molto generale (ad esempio è
semplice mappare gli operatori relazionali)
• vi sono svilupppi continui (ad esempio Hive/HiveQL)
Non risolve tutti i problemi in maniera ottimale
• ad esempio non è un modello efficiente per effettuare analisi in
maniera ripetitiva sui dati mantenuti in un DB relazionale
• e comunque non abbiamo affrontato il problema della
strumentazione, della raccolta e del filtraggio preliminare dei dati

Cosa è un evento

TééâÜÜt? DD Åtzz|É ECDE

Un lieto evento Una fotografia

La connotazione temporale è alla base del significato
di un evento

Elaborazione di eventi
Quando parliamo elaborazione di eventi:
• l’ordinamento temporale ha un significato fondamentale
• in molti casi la risposta in tempo reale è un requisito essenziale
Scenari applicativi presenti e futuri
• Network fault e performance management
• Security management
• Financial transactions
• Marketing (A/B testing)
• «Smart city» applications
• Assisted living

Il percorso degli eventi
normalizzazione/
memorizzazione
filtraggio

raccolta

strumentazione

decisioni/azioni automatiche analisi real time (sliding window)

Correlazione di eventi
Elaborare eventi significa (anche) effettuarne la
correlazione temporale
Correlazione di eventi omogenei su un singolo dominio
(ordinamento, distanza temporale fra due eventi)
• sequenza di eventi osservata da un IDS
• sequenza di accessi a pagine di un sito
Correlazione di eventi eterogenei (o correlazione fra
eventi e informazioni di stato/configurazione)
• accesso fisico ad un edificio, eventi di motion detection provenienti da
videocamere, accesso al sistema informativo

Un esempio: Splunk
Splunk è un esempio di piattaforma
commerciale per la raccolta, la
correlazione e l’analisi dei dati

È dotata di agenti in grado di interfacciarsi
efficacemente con varie sorgenti di dati
(ad esempio WMI)

Effettua la indicizzazione dei dati in
parallelo, in modo da scalare fino a
workload giornalieri molto grandi (terabyte)

Fornisce un linguaggio per la ricerca e la
correlazione degli eventi (Search
Processing Language)

Le soluzioni disponibili
Splunk non è ovviamente l’unica soluzione disponibile:
esistono varie alternative, anche open source
• piattaforme orientate al monitoraggio di infrastrutture IT (es.: Nagios)
• soluzioni di gestione dei log (Logstash, Sumologic ecc.)
In generale le piattaforme disponibili sono progettate
per il supporto delle decisioni umane
Molto più sfidante è il problema della comprensione e
reazione automatica ai flussi di eventi con le loro
correlazioni

Open Event «Tapping» ?
Un concetto di Smart City avanzato: accesso aperto ad
una infrastruttura di gestione di flussi di eventi in tempo
reale

Un modello generale di
event processing

coordinamento e interfaccia integrazione e
integrazione utente presentazione

analisi behavior anomaly security esperti di
video analysis detection alerts dominio

Routing, distribuzione e analisi routing e analisi
filtraggio dei dati traffico IP del traffico

presence/ sensori di controllo
video
location movimento accessi
device e sensori

Big Data e la forza degli eventi - Intervento di Melen

More Related Content

Similar to Big Data e la forza degli eventi - Intervento di Melen

Big Data e la forza degli eventi - Intervento di Melen