Previously known as
Think Big. Move Fast.
Big Data e Internet of Things.
Analizzare in modo semplice,
veloce ed economico i dati
Datarace: Lesson Learned & Reference
Architecture
Agenda
9.00-9.30 Registrazione e welcome coffee
9.30-9.45 Benvenuto
9.45-10.30 La Business Intelligence nella visione strategica di Microsoft
10.30-11.15 Big Data e Internet of Things. Analizzare in modo semplice, veloce
ed economico i dati
11.15-12.00 Big Data nello sport: come far fruttare i propri dati
12.00-12.15 Q&A
12.15-12.45 Light Lunch
Timing Data Service
• Timing company leader a livello nazionale per numero di atleti cronometrati
• oltre 350.000 atleti
• più di un 1.000.000 di tempi di gara
• Non solo atletica:
• ciclismo, MTB, sci di fondo ed altre per un totale di oltre 30 discipline coperte
• Offre servizi organizzativi, come
• grafica TV
• gestione delle iscrizioni
• la produzione di materiali (pettorali, volantini, buste, ecc.)
SolidQ
• Società Globale di consulenza sulla Piattaforma Dati Microsoft
• Nata nel 2002 in Spagna & North America
• Divisione Italiana aperta nel 2007
• Oltre 200 professionisti in tutto il mondo
• Maggior concentrazione di MVP su SQL Server
• Offre servizi di Consulenza, Advisory, Mentoring e Formazione su
• Data Warehousing, Business Intelligence, Big Data & Analytics
• Performance Tuning, Performance Monitoring, Alta Disponibilità e Disaster Recovery
• Offre soluzioni di Remote DBA, Security Assessment, Check-Up, Cloud BI
Davide Mauri
• Microsoft SQL Server MVP
• Works with SQL Server from 6.5, on BI from 2003
• Specialized in Data Solution Architecture, Database Design, Performance
Tuning, High-Performance Data Warehousing, BI, Big Data
• President of UGISS (Italian SQL Server UG)
• Regular Speaker @ SQL Server events
• R&D Director @ SolidQ
• Consulting, Training, Mentoring, Advisory
• E-mail: dmauri@solidq.com
• Twitter: @mauridb
• Blog: http://sqlblog.com/blogs/davide_mauri/default.aspx
Big Data nello sport: come far
fruttare i propri dati
Come far fruttare i propri dati?
• Dal 2013 si parla di Big Data ovunque
• Tutti vogliono farlo ma
• Panorama tecnologico in *forte* movimento
• Architetture in evoluzione
• Un pò di diffidenza da parte delle aziende
• Tutti si ricordano la bolla del 2000 e la quantità notevole di progetti falliti
• In molti aspettano che qualcun altro faccia il primo passo
• Oltre il 40% delle aziende indica che ha ancora problemi di fonti dati non integrate
• Dalla ricerca dell’Osservatorio sulla BI del Politecnico di Milano del 2014
Come far fruttare i propri dati?
• Intando, nel mondo…
Come far fruttare i propri dati?
• Come quindi mostrare a tutti che I Big Data possono essere alla portata di tutte
le società?
• Per essere più competitive
• Per essere più efficienti
• Per essere più coscienti
• Il progetto Datarace nasce nel 2014
• TDS identificato come partner ideale
• Molti dati già raccolti
• Molte analisi possibili
• Molti dati da raccogliere
• Utilizzando le stesse soluzioni che poi saranno usate per l’Internet of Things
Datarace
www.datarace.eu
Come far fruttare i propri dati?
• Obbiettivo: definire un’architettura di riferimento che potesse anche essere
usata internamente
• Applicazione pratica su un cliente (Online Bank) già in fase conclusione
• Obbiettivo: fare «percepire con mano» cosa sono i big data agli utenti
• Big Dirty Data: nel backoffice
• Small Nice Useful Data: per l’utente finale
• Problema: nel 2014 Azure era molto diverso da ora
• Sfida: progettare un’architettura modulare che potesse essere facilmente migliorata nel
tempo
• SolidQ Adaptive BI Framework: «Apply the smallest change possibile»
• www.adaptivebi.it
Big Data e Internet of Things.
Analizzare in modo semplice,
veloce ed economico i dati
Data Science
Data Lifecycle in Life
https://seddryck.wordpress.com/
Data Science
DecisionKnowledgeInformationData
Data Lifecycle in Business
Internet Of Things
• Aumenterà ancora di più la quantità di dati a cui si avrà accesso
• Le soluzioni Big Data / Analytics saranno il “cervello” alla quale tutti I sensori
(IoT) saranno collegati
• Abbiamo provato a far diventare il “saranno” in “sono”.
Problematiche
• Memorizzazione di grosse mole di dati
• In modo (molto) economico
• Di facile utilizzo futuro
• Altamente scalabile (per avere tempi di elaborazione buoni)
• Difficile previsione di crescita
• Esplosiva?
• Lineare?
• Facilità di fruizione delle informazioni elaborate
• User Experience semplice, ma con la possibilità di “guardare dentro”
Problematiche
• Dati strutturati e semistrutturati, sicuramente non omogenei
• Qualità del dato molto molto bassa
• http://www.zerounoweb.it/approfondimenti/business-intelligence/information-management-la-
sfida-della-qualit-del-dato.html (C. Vercellis, P.Pasini)
• Fonti dati multiple
• duplicazioni
• errori
• obsolescenza
• Complessità nella gestione economicamente sostenibili di grandi quantità di
dati
• Non si è sicuri che lo sforzo sia giustificato
Big Data
• C’è un modo molto semplice di spiegare e capire I Big Data:
Cloud
• Permette di avvicinarsi ai big data in modo economicamente sostenibile
• Una volta fatto un progetto piccolo è facile scalare
• I costi possono essere molto contenuti
• Addirittura gratis in alcuni casi: AzureML
• Rende tecnologie complesse come Hadoop (molto) più semplici di manutenere
• "Despite considerable hype and reported successes for early adopters, 54 percent of survey
respondents report no plans to invest at this time”, Gartner 2015
• http://www.computerworlduk.com/news/data/hadoop-big-data-adoption-fails-live-up-hype-says-gartner-
3611739/
• Attenzione però! “Il cloud è movimento”
• Processo di continuos improvement è parte del processo di sviluppo
• Ogni 6/12 mesi revisione di una parte dell’architettura
Architettura Concettuale
Data Sources
Fast / Easy Ingest
Collect / Stock
Batch Process
Cure / Enrich / Purify
Store
Publish
Analyze
Discover / Mine
(N)RTE Process
Arch. Logica – Load & Process
Data Sources
Sensors
ERP
Ingest
Distributed Blob Store
Event/ETL Service
Collect / Stock Batch Process
Grid Computing
Cure / Match / Purify
Grid Computing
Distilled Data
Column Store
Arch. Logica – External User Access
Distilled Data
Column Store
End User
REST Service
Cache Engine
Query Manager
Cache Engine
Key-Value Store
Cached Data Multichannel Devices
Arch. Logica – Internal User Access
Distilled Data
Column Store
End User
Excel / PowerBI
Arch. Logica – Analytics / Exploration
Distilled Data
Column Store
Exploration
Data ScientistDistributed Blob Store
Collect / Stock
Batch Process
Grid Computing
Analytics
Machine Learning
Distilled Data
Column Store
Platform Selection
• Perchè Azure?
• Fornisce soluzioni a tutti i desiderata definiti nell’architettura logica
• Con costi elastici
• Abilita soluzioni ibride
• Forte integrazione con IDE conosciuti e standard de facto (Visual Studio)
• Vision coerente e di lungo periodo
• E’ un piattaforma OPEN a tutti gli effetti
• Integrazione con Python, PHP, R, Hadoop, ecc. ecc.
• Riutilizzo esperienze e know-how interni
Architettura Fisica
• Data Sources
• RDBMS
• JSON RESTful service
• Wikipedia 
• Fast Ingest
• Ad-Hoc .NET Service su Virtual Machine
• vNext: Azure Event Hub + Azure Data Factory
• Stock
• Azure Blob Store per JSON
• SQL Server / SQL Azure per dati strutturati
Collect / Stock
Fast Ingest
Data Sources
Architettura Fisica
• Batch Process su Raw Stock
• HDInsight + Python Scripts + Hive Queries
• Batch load con SSIS + HDInsight ODBC
• Data Processing (VM + SQL Azure)
• SQL Server In-Memory Engine / ColumnStore
• T-SQL + SSIS
• Ad-Hoc .NET Scripts (dentro SSIS)
• vNext: Azure Stream Analytics
• Identity Mapping (VM)
• Multi-level Fuzzy Matching algorithm in SSIS
• vNext: HDInsight + Tez/Spark
Batch Process
Data Process
Data Process
Architettura Fisica
• Distilled Data
• SQL Azure
• Analytics (Clustering, Forecasting)
• Azure ML
• Cache Engine
• Azure Redis
Distilled Data
Analytics
Analytics
Architettura Fisica
• Web Application (Azure Web Apps)
• REST Service per il Query Manager
• HTML5 + Async JQuery Front End
• Data Exploration
• Excel per i Data Scientist
• PowerBI per gli utilizzatori finali “evoluti”
• Dove il sito web non basta
Analytics
Exploration
Risultati
• Applicazione online dall’aprile 2015
• Massima efficienza nell’utilizzo delle Risorse
• Nessun problema anche dopo eventi importanti come la Maratona di Milano
• Funzionamento 24/7
• Sincronizzazione con I dati sorgenti in tempo reale e batch in funzione del sorgente
stessa
Previously known as
Think Big. Move Fast.

Datarace: IoT e Big Data (Italian)

  • 1.
  • 2.
    Big Data eInternet of Things. Analizzare in modo semplice, veloce ed economico i dati Datarace: Lesson Learned & Reference Architecture
  • 3.
    Agenda 9.00-9.30 Registrazione ewelcome coffee 9.30-9.45 Benvenuto 9.45-10.30 La Business Intelligence nella visione strategica di Microsoft 10.30-11.15 Big Data e Internet of Things. Analizzare in modo semplice, veloce ed economico i dati 11.15-12.00 Big Data nello sport: come far fruttare i propri dati 12.00-12.15 Q&A 12.15-12.45 Light Lunch
  • 4.
    Timing Data Service •Timing company leader a livello nazionale per numero di atleti cronometrati • oltre 350.000 atleti • più di un 1.000.000 di tempi di gara • Non solo atletica: • ciclismo, MTB, sci di fondo ed altre per un totale di oltre 30 discipline coperte • Offre servizi organizzativi, come • grafica TV • gestione delle iscrizioni • la produzione di materiali (pettorali, volantini, buste, ecc.)
  • 5.
    SolidQ • Società Globaledi consulenza sulla Piattaforma Dati Microsoft • Nata nel 2002 in Spagna & North America • Divisione Italiana aperta nel 2007 • Oltre 200 professionisti in tutto il mondo • Maggior concentrazione di MVP su SQL Server • Offre servizi di Consulenza, Advisory, Mentoring e Formazione su • Data Warehousing, Business Intelligence, Big Data & Analytics • Performance Tuning, Performance Monitoring, Alta Disponibilità e Disaster Recovery • Offre soluzioni di Remote DBA, Security Assessment, Check-Up, Cloud BI
  • 6.
    Davide Mauri • MicrosoftSQL Server MVP • Works with SQL Server from 6.5, on BI from 2003 • Specialized in Data Solution Architecture, Database Design, Performance Tuning, High-Performance Data Warehousing, BI, Big Data • President of UGISS (Italian SQL Server UG) • Regular Speaker @ SQL Server events • R&D Director @ SolidQ • Consulting, Training, Mentoring, Advisory • E-mail: dmauri@solidq.com • Twitter: @mauridb • Blog: http://sqlblog.com/blogs/davide_mauri/default.aspx
  • 7.
    Big Data nellosport: come far fruttare i propri dati
  • 8.
    Come far fruttarei propri dati? • Dal 2013 si parla di Big Data ovunque • Tutti vogliono farlo ma • Panorama tecnologico in *forte* movimento • Architetture in evoluzione • Un pò di diffidenza da parte delle aziende • Tutti si ricordano la bolla del 2000 e la quantità notevole di progetti falliti • In molti aspettano che qualcun altro faccia il primo passo • Oltre il 40% delle aziende indica che ha ancora problemi di fonti dati non integrate • Dalla ricerca dell’Osservatorio sulla BI del Politecnico di Milano del 2014
  • 9.
    Come far fruttarei propri dati? • Intando, nel mondo…
  • 10.
    Come far fruttarei propri dati? • Come quindi mostrare a tutti che I Big Data possono essere alla portata di tutte le società? • Per essere più competitive • Per essere più efficienti • Per essere più coscienti • Il progetto Datarace nasce nel 2014 • TDS identificato come partner ideale • Molti dati già raccolti • Molte analisi possibili • Molti dati da raccogliere • Utilizzando le stesse soluzioni che poi saranno usate per l’Internet of Things
  • 11.
  • 12.
    Come far fruttarei propri dati? • Obbiettivo: definire un’architettura di riferimento che potesse anche essere usata internamente • Applicazione pratica su un cliente (Online Bank) già in fase conclusione • Obbiettivo: fare «percepire con mano» cosa sono i big data agli utenti • Big Dirty Data: nel backoffice • Small Nice Useful Data: per l’utente finale • Problema: nel 2014 Azure era molto diverso da ora • Sfida: progettare un’architettura modulare che potesse essere facilmente migliorata nel tempo • SolidQ Adaptive BI Framework: «Apply the smallest change possibile» • www.adaptivebi.it
  • 13.
    Big Data eInternet of Things. Analizzare in modo semplice, veloce ed economico i dati
  • 14.
    Data Science Data Lifecyclein Life https://seddryck.wordpress.com/
  • 15.
  • 16.
    Internet Of Things •Aumenterà ancora di più la quantità di dati a cui si avrà accesso • Le soluzioni Big Data / Analytics saranno il “cervello” alla quale tutti I sensori (IoT) saranno collegati • Abbiamo provato a far diventare il “saranno” in “sono”.
  • 17.
    Problematiche • Memorizzazione digrosse mole di dati • In modo (molto) economico • Di facile utilizzo futuro • Altamente scalabile (per avere tempi di elaborazione buoni) • Difficile previsione di crescita • Esplosiva? • Lineare? • Facilità di fruizione delle informazioni elaborate • User Experience semplice, ma con la possibilità di “guardare dentro”
  • 18.
    Problematiche • Dati strutturatie semistrutturati, sicuramente non omogenei • Qualità del dato molto molto bassa • http://www.zerounoweb.it/approfondimenti/business-intelligence/information-management-la- sfida-della-qualit-del-dato.html (C. Vercellis, P.Pasini) • Fonti dati multiple • duplicazioni • errori • obsolescenza • Complessità nella gestione economicamente sostenibili di grandi quantità di dati • Non si è sicuri che lo sforzo sia giustificato
  • 19.
    Big Data • C’èun modo molto semplice di spiegare e capire I Big Data:
  • 20.
    Cloud • Permette diavvicinarsi ai big data in modo economicamente sostenibile • Una volta fatto un progetto piccolo è facile scalare • I costi possono essere molto contenuti • Addirittura gratis in alcuni casi: AzureML • Rende tecnologie complesse come Hadoop (molto) più semplici di manutenere • "Despite considerable hype and reported successes for early adopters, 54 percent of survey respondents report no plans to invest at this time”, Gartner 2015 • http://www.computerworlduk.com/news/data/hadoop-big-data-adoption-fails-live-up-hype-says-gartner- 3611739/ • Attenzione però! “Il cloud è movimento” • Processo di continuos improvement è parte del processo di sviluppo • Ogni 6/12 mesi revisione di una parte dell’architettura
  • 21.
    Architettura Concettuale Data Sources Fast/ Easy Ingest Collect / Stock Batch Process Cure / Enrich / Purify Store Publish Analyze Discover / Mine (N)RTE Process
  • 22.
    Arch. Logica –Load & Process Data Sources Sensors ERP Ingest Distributed Blob Store Event/ETL Service Collect / Stock Batch Process Grid Computing Cure / Match / Purify Grid Computing Distilled Data Column Store
  • 23.
    Arch. Logica –External User Access Distilled Data Column Store End User REST Service Cache Engine Query Manager Cache Engine Key-Value Store Cached Data Multichannel Devices
  • 24.
    Arch. Logica –Internal User Access Distilled Data Column Store End User Excel / PowerBI
  • 25.
    Arch. Logica –Analytics / Exploration Distilled Data Column Store Exploration Data ScientistDistributed Blob Store Collect / Stock Batch Process Grid Computing Analytics Machine Learning Distilled Data Column Store
  • 26.
    Platform Selection • PerchèAzure? • Fornisce soluzioni a tutti i desiderata definiti nell’architettura logica • Con costi elastici • Abilita soluzioni ibride • Forte integrazione con IDE conosciuti e standard de facto (Visual Studio) • Vision coerente e di lungo periodo • E’ un piattaforma OPEN a tutti gli effetti • Integrazione con Python, PHP, R, Hadoop, ecc. ecc. • Riutilizzo esperienze e know-how interni
  • 27.
    Architettura Fisica • DataSources • RDBMS • JSON RESTful service • Wikipedia  • Fast Ingest • Ad-Hoc .NET Service su Virtual Machine • vNext: Azure Event Hub + Azure Data Factory • Stock • Azure Blob Store per JSON • SQL Server / SQL Azure per dati strutturati Collect / Stock Fast Ingest Data Sources
  • 28.
    Architettura Fisica • BatchProcess su Raw Stock • HDInsight + Python Scripts + Hive Queries • Batch load con SSIS + HDInsight ODBC • Data Processing (VM + SQL Azure) • SQL Server In-Memory Engine / ColumnStore • T-SQL + SSIS • Ad-Hoc .NET Scripts (dentro SSIS) • vNext: Azure Stream Analytics • Identity Mapping (VM) • Multi-level Fuzzy Matching algorithm in SSIS • vNext: HDInsight + Tez/Spark Batch Process Data Process Data Process
  • 29.
    Architettura Fisica • DistilledData • SQL Azure • Analytics (Clustering, Forecasting) • Azure ML • Cache Engine • Azure Redis Distilled Data Analytics Analytics
  • 30.
    Architettura Fisica • WebApplication (Azure Web Apps) • REST Service per il Query Manager • HTML5 + Async JQuery Front End • Data Exploration • Excel per i Data Scientist • PowerBI per gli utilizzatori finali “evoluti” • Dove il sito web non basta Analytics Exploration
  • 31.
    Risultati • Applicazione onlinedall’aprile 2015 • Massima efficienza nell’utilizzo delle Risorse • Nessun problema anche dopo eventi importanti come la Maratona di Milano • Funzionamento 24/7 • Sincronizzazione con I dati sorgenti in tempo reale e batch in funzione del sorgente stessa
  • 32.

Editor's Notes

  • #2 Last Changes: 2012-07-30 DM
  • #10 https://agenda.weforum.org/2015/05/3-ways-big-data-can-improve-your-supply-chain/?utm_content=buffer0d1eb&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer
  • #15 https://seddryck.wordpress.com/
  • #33 Last Changes: 2012-07-30 DM