Datarace: IoT e Big Data (Italian)

Previously known as
Think Big. Move Fast.

Big Data e Internet of Things.
Analizzare in modo semplice,
veloce ed economico i dati
Datarace: Lesson Learned & Reference
Architecture

Agenda
9.00-9.30 Registrazione e welcome coffee
9.30-9.45 Benvenuto
9.45-10.30 La Business Intelligence nella visione strategica di Microsoft
10.30-11.15 Big Data e Internet of Things. Analizzare in modo semplice, veloce
ed economico i dati
11.15-12.00 Big Data nello sport: come far fruttare i propri dati
12.00-12.15 Q&A
12.15-12.45 Light Lunch

Timing Data Service
• Timing company leader a livello nazionale per numero di atleti cronometrati
• oltre 350.000 atleti
• più di un 1.000.000 di tempi di gara
• Non solo atletica:
• ciclismo, MTB, sci di fondo ed altre per un totale di oltre 30 discipline coperte
• Offre servizi organizzativi, come
• grafica TV
• gestione delle iscrizioni
• la produzione di materiali (pettorali, volantini, buste, ecc.)

SolidQ
• Società Globale di consulenza sulla Piattaforma Dati Microsoft
• Nata nel 2002 in Spagna & North America
• Divisione Italiana aperta nel 2007
• Oltre 200 professionisti in tutto il mondo
• Maggior concentrazione di MVP su SQL Server
• Offre servizi di Consulenza, Advisory, Mentoring e Formazione su
• Data Warehousing, Business Intelligence, Big Data & Analytics
• Performance Tuning, Performance Monitoring, Alta Disponibilità e Disaster Recovery
• Offre soluzioni di Remote DBA, Security Assessment, Check-Up, Cloud BI

Davide Mauri
• Microsoft SQL Server MVP
• Works with SQL Server from 6.5, on BI from 2003
• Specialized in Data Solution Architecture, Database Design, Performance
Tuning, High-Performance Data Warehousing, BI, Big Data
• President of UGISS (Italian SQL Server UG)
• Regular Speaker @ SQL Server events
• R&D Director @ SolidQ
• Consulting, Training, Mentoring, Advisory
• E-mail: dmauri@solidq.com
• Twitter: @mauridb
• Blog: http://sqlblog.com/blogs/davide_mauri/default.aspx

Big Data nello sport: come far
fruttare i propri dati

Come far fruttare i propri dati?
• Dal 2013 si parla di Big Data ovunque
• Tutti vogliono farlo ma
• Panorama tecnologico in *forte* movimento
• Architetture in evoluzione
• Un pò di diffidenza da parte delle aziende
• Tutti si ricordano la bolla del 2000 e la quantità notevole di progetti falliti
• In molti aspettano che qualcun altro faccia il primo passo
• Oltre il 40% delle aziende indica che ha ancora problemi di fonti dati non integrate
• Dalla ricerca dell’Osservatorio sulla BI del Politecnico di Milano del 2014

• Intando, nel mondo…

• Come quindi mostrare a tutti che I Big Data possono essere alla portata di tutte
le società?
• Per essere più competitive
• Per essere più efficienti
• Per essere più coscienti
• Il progetto Datarace nasce nel 2014
• TDS identificato come partner ideale
• Molti dati già raccolti
• Molte analisi possibili
• Molti dati da raccogliere
• Utilizzando le stesse soluzioni che poi saranno usate per l’Internet of Things

• Obbiettivo: definire un’architettura di riferimento che potesse anche essere
usata internamente
• Applicazione pratica su un cliente (Online Bank) già in fase conclusione
• Obbiettivo: fare «percepire con mano» cosa sono i big data agli utenti
• Big Dirty Data: nel backoffice
• Small Nice Useful Data: per l’utente finale
• Problema: nel 2014 Azure era molto diverso da ora
• Sfida: progettare un’architettura modulare che potesse essere facilmente migliorata nel
tempo
• SolidQ Adaptive BI Framework: «Apply the smallest change possibile»
• www.adaptivebi.it

Big Data e Internet of Things.
Analizzare in modo semplice,
veloce ed economico i dati

Data Science
Data Lifecycle in Life
https://seddryck.wordpress.com/

Data Science
DecisionKnowledgeInformationData
Data Lifecycle in Business

Internet Of Things
• Aumenterà ancora di più la quantità di dati a cui si avrà accesso
• Le soluzioni Big Data / Analytics saranno il “cervello” alla quale tutti I sensori
(IoT) saranno collegati
• Abbiamo provato a far diventare il “saranno” in “sono”.

Problematiche
• Memorizzazione di grosse mole di dati
• In modo (molto) economico
• Di facile utilizzo futuro
• Altamente scalabile (per avere tempi di elaborazione buoni)
• Difficile previsione di crescita
• Esplosiva?
• Lineare?
• Facilità di fruizione delle informazioni elaborate
• User Experience semplice, ma con la possibilità di “guardare dentro”

Problematiche
• Dati strutturati e semistrutturati, sicuramente non omogenei
• Qualità del dato molto molto bassa
• http://www.zerounoweb.it/approfondimenti/business-intelligence/information-management-la-
sfida-della-qualit-del-dato.html (C. Vercellis, P.Pasini)
• Fonti dati multiple
• duplicazioni
• errori
• obsolescenza
• Complessità nella gestione economicamente sostenibili di grandi quantità di
dati
• Non si è sicuri che lo sforzo sia giustificato

Big Data
• C’è un modo molto semplice di spiegare e capire I Big Data:

Cloud
• Permette di avvicinarsi ai big data in modo economicamente sostenibile
• Una volta fatto un progetto piccolo è facile scalare
• I costi possono essere molto contenuti
• Addirittura gratis in alcuni casi: AzureML
• Rende tecnologie complesse come Hadoop (molto) più semplici di manutenere
• "Despite considerable hype and reported successes for early adopters, 54 percent of survey
respondents report no plans to invest at this time”, Gartner 2015
• http://www.computerworlduk.com/news/data/hadoop-big-data-adoption-fails-live-up-hype-says-gartner-
3611739/
• Attenzione però! “Il cloud è movimento”
• Processo di continuos improvement è parte del processo di sviluppo
• Ogni 6/12 mesi revisione di una parte dell’architettura

Architettura Concettuale
Data Sources
Fast / Easy Ingest
Collect / Stock
Batch Process
Cure / Enrich / Purify
Store
Publish
Analyze
Discover / Mine
(N)RTE Process

Arch. Logica – Load & Process
Data Sources
Sensors
ERP
Ingest
Distributed Blob Store
Event/ETL Service
Collect / Stock Batch Process
Grid Computing
Cure / Match / Purify
Grid Computing
Distilled Data
Column Store

Arch. Logica – External User Access
Distilled Data
Column Store
End User
REST Service
Cache Engine
Query Manager
Cache Engine
Key-Value Store
Cached Data Multichannel Devices

Arch. Logica – Internal User Access
Distilled Data
Column Store
End User
Excel / PowerBI

Arch. Logica – Analytics / Exploration
Distilled Data
Column Store
Exploration
Data ScientistDistributed Blob Store
Collect / Stock
Batch Process
Grid Computing
Analytics
Machine Learning
Distilled Data
Column Store

Platform Selection
• Perchè Azure?
• Fornisce soluzioni a tutti i desiderata definiti nell’architettura logica
• Con costi elastici
• Abilita soluzioni ibride
• Forte integrazione con IDE conosciuti e standard de facto (Visual Studio)
• Vision coerente e di lungo periodo
• E’ un piattaforma OPEN a tutti gli effetti
• Integrazione con Python, PHP, R, Hadoop, ecc. ecc.
• Riutilizzo esperienze e know-how interni

Architettura Fisica
• Data Sources
• RDBMS
• JSON RESTful service
• Wikipedia 
• Fast Ingest
• Ad-Hoc .NET Service su Virtual Machine
• vNext: Azure Event Hub + Azure Data Factory
• Stock
• Azure Blob Store per JSON
• SQL Server / SQL Azure per dati strutturati
Collect / Stock
Fast Ingest
Data Sources

Architettura Fisica
• Batch Process su Raw Stock
• HDInsight + Python Scripts + Hive Queries
• Batch load con SSIS + HDInsight ODBC
• Data Processing (VM + SQL Azure)
• SQL Server In-Memory Engine / ColumnStore
• T-SQL + SSIS
• Ad-Hoc .NET Scripts (dentro SSIS)
• vNext: Azure Stream Analytics
• Identity Mapping (VM)
• Multi-level Fuzzy Matching algorithm in SSIS
• vNext: HDInsight + Tez/Spark
Batch Process
Data Process
Data Process

Architettura Fisica
• Distilled Data
• SQL Azure
• Analytics (Clustering, Forecasting)
• Azure ML
• Cache Engine
• Azure Redis
Distilled Data
Analytics
Analytics

Architettura Fisica
• Web Application (Azure Web Apps)
• REST Service per il Query Manager
• HTML5 + Async JQuery Front End
• Data Exploration
• Excel per i Data Scientist
• PowerBI per gli utilizzatori finali “evoluti”
• Dove il sito web non basta
Analytics
Exploration

Risultati
• Applicazione online dall’aprile 2015
• Massima efficienza nell’utilizzo delle Risorse
• Nessun problema anche dopo eventi importanti come la Maratona di Milano
• Funzionamento 24/7
• Sincronizzazione con I dati sorgenti in tempo reale e batch in funzione del sorgente
stessa

Datarace: IoT e Big Data (Italian)

More Related Content

Viewers also liked

Similar to Datarace: IoT e Big Data (Italian)

More from Davide Mauri

Datarace: IoT e Big Data (Italian)

Editor's Notes