Big Data e la forza degli eventi - Intervento di Melen
1. Big data ed eventi:
quasi un tutorial
Prof. Riccardo Melen
melen@disco.unimib.it
2.
3.
4. Big Data
Monitoraggio di reti e infrastrutture IT
• performance: data center, SOA/ESB, infrastrutture virtuali,…
• configurazione dei client
• sicurezza: firewall, IDS, ACL, log,…
Comportamento degli utenti
• accesso ai servizi
• clickstreams
• chiamate telefoniche: accounting, marketing, fraud detection
Localizzazione e sensori
• smartphones
• smart cities infrastructures
• personal/assisted living
5. Il percorso dei dati
normalizzazione/
memorizzazione
filtraggio
raccolta
strumentazione
analisi
6. High performance DBMS
High performance SQL DBMS
• Solid state disks
• Column-oriented databases
Ma i dati sono spesso
• non strutturati
• non utilizzati come in un DBMS classico (write/update transactions +
analytics)
NoSQL Databases
7. MapReduce
Un recente (2004) modello di programmazione
• scalabile su architetture parallele (shared-nothing)
• estremamente flessibile e di enorme successo
• implementazioni open source: Hadoop
• offerte Cloud: Amazon Elastic MapReduce (basato su Hadoop)
worker worker
MAP REDUCE
merge/sort
worker worker
MAP REDUCE
calcola una chiave ed emette lavora su liste di dati
la coppia (chiave, dato) con la stessa chiave
8. Vantaggi e limiti di MR
Una implementazione di MapReduce come Hadoop è
facile da utilizzare ed estremamente flessibile
• il framework gestisce i problemi di parallelizzazione, partizionamento
e bilanciamento del carico, fault tolerance
• lo storage è implementato con un file system distribuito (HDFS)
• il modello di programmazione è molto generale (ad esempio è
semplice mappare gli operatori relazionali)
• vi sono svilupppi continui (ad esempio Hive/HiveQL)
Non risolve tutti i problemi in maniera ottimale
• ad esempio non è un modello efficiente per effettuare analisi in
maniera ripetitiva sui dati mantenuti in un DB relazionale
• e comunque non abbiamo affrontato il problema della
strumentazione, della raccolta e del filtraggio preliminare dei dati
9. Cosa è un evento
TééâÜÜt? DD Åtzz|É ECDE
Un lieto evento Una fotografia
La connotazione temporale è alla base del significato
di un evento
10. Elaborazione di eventi
Quando parliamo elaborazione di eventi:
• l’ordinamento temporale ha un significato fondamentale
• in molti casi la risposta in tempo reale è un requisito essenziale
Scenari applicativi presenti e futuri
• Network fault e performance management
• Security management
• Financial transactions
• Marketing (A/B testing)
• «Smart city» applications
• Assisted living
11. Il percorso degli eventi
normalizzazione/
memorizzazione
filtraggio
raccolta
strumentazione
decisioni/azioni automatiche analisi real time (sliding window)
12. Correlazione di eventi
Elaborare eventi significa (anche) effettuarne la
correlazione temporale
Correlazione di eventi omogenei su un singolo dominio
(ordinamento, distanza temporale fra due eventi)
• sequenza di eventi osservata da un IDS
• sequenza di accessi a pagine di un sito
Correlazione di eventi eterogenei (o correlazione fra
eventi e informazioni di stato/configurazione)
• accesso fisico ad un edificio, eventi di motion detection provenienti da
videocamere, accesso al sistema informativo
13. Un esempio: Splunk
Splunk è un esempio di piattaforma
commerciale per la raccolta, la
correlazione e l’analisi dei dati
È dotata di agenti in grado di interfacciarsi
efficacemente con varie sorgenti di dati
(ad esempio WMI)
Effettua la indicizzazione dei dati in
parallelo, in modo da scalare fino a
workload giornalieri molto grandi (terabyte)
Fornisce un linguaggio per la ricerca e la
correlazione degli eventi (Search
Processing Language)
14. Le soluzioni disponibili
Splunk non è ovviamente l’unica soluzione disponibile:
esistono varie alternative, anche open source
• piattaforme orientate al monitoraggio di infrastrutture IT (es.: Nagios)
• soluzioni di gestione dei log (Logstash, Sumologic ecc.)
In generale le piattaforme disponibili sono progettate
per il supporto delle decisioni umane
Molto più sfidante è il problema della comprensione e
reazione automatica ai flussi di eventi con le loro
correlazioni
15. Open Event «Tapping» ?
Un concetto di Smart City avanzato: accesso aperto ad
una infrastruttura di gestione di flussi di eventi in tempo
reale
16. Un modello generale di
event processing
coordinamento e interfaccia integrazione e
integrazione utente presentazione
analisi behavior anomaly security esperti di
video analysis detection alerts dominio
Routing, distribuzione e analisi routing e analisi
filtraggio dei dati traffico IP del traffico
presence/ sensori di controllo
video
location movimento accessi
device e sensori