1. Piergiorgio De Campo - Lorenzo Ridi | Noovle s.r.l.
Business Intelligence & Big Data
2. Business Intelligence
La Business Intelligence è un processo di trasformazione di dati e informazioni in conoscenza,
utile ad ottenere valutazioni e stime riguardo al contesto aziendale proprio e del mercato cui si
partecipa, al fine di incrementare il proprio vantaggio competitivo.
Small Volume
Quantità limitate
(Megabytes/Gigabytes)
di dati da analizzare.
Batch processing
Operazioni schedulate che
analizzano ogni volta tutti i dati
disponibili. I risultati sono
disponibili dopo ore/giorni.
Low variety
Relativa omogeneità nel formato e
nella tipologia dei dati (log, record
database)
3. Big Data
“Big Data is high-volume, high-velocity and high-variety information assets that demand cost-
effective, innovative forms of information processing for enhanced insight and decision
making.”
(Doug Laney, Gartner)
High Volume
Grandi quantità
(Terabytes/Petabytes)
di dati da analizzare
High Velocity
Elaborazione di centinaia di input
al secondo. Visualizzazione near
real-time dei risultati aggregati.
High Variety
Molteplici formati e tipi di
informazione (log, record
database, Documenti, Dati
geografici, Dati social)
4. Nuove sorgenti di dati per il business
Social
Media
Geographical
Data
Video
Platforms
Web
Analytics
Internet of
Things
5. Not your father’s BI
Maggiori quantità di dati
Maggior varietà dei dati
Analisi near-real-time
Le piattaforme on-premise non
sostengono aumenti di carico (o lo
fanno con costi proibitivi)
Servono nuovi strumenti cloud
flessibili e performanti
6. Who needs Big Data?
Qual è il target?
Aziende che hanno necessità di orientare il loro business sulla base dei dati attualmente prodotti
(e finora inutilizzati).
● Non solo grandi aziende:
○ la caratteristica Cloud dell’architettura la rende interessante anche per SMB (non ci
sono costi fissi);
○ è però più facile coinvolgerle se hanno già conoscenze di BI.
● Non solo Big Data:
○ non necessariamente l’architettura deve gestire un flusso di Terabytes di dati;
○ il sistema è progettato per sostenere la crescita del business (o eventuali picchi
momentanei di carico).
7. La soluzione Noovle
Un’architettura che integra in modo efficace i più affermati strumenti per
il Big Data
● Talend, Hadoop, MapReduce, Big Query, BIME, Tableau.
Interamente operativa sul Cloud di Google
● Big Data at the speed of Google: App Engine, Compute Engine, Cloud
Storage, Big Query
● Pay-what-you-use: nessun costo fisso o di manutenzione
Facilmente configurabile (o ri-configurabile) secondo le esigenze del
business, ovunque, in ogni momento
● Interfacce di amministrazione Web facili da usare e mobile-friendly
● Facile configurazione e condivisione delle interfacce di reporting (BIME,
Tableau)
9. Google Cloud Platform
Compute
App Engine
Compute Engine
Storage
Cloud Datastore
Cloud Storage
Cloud SQL
Big Data & Services
Big Query
Cloud Endpoints
10. Google-tested e Business Ready
Google Cloud Platform
Google App Engine
Google App Engine permette di eseguire
applicazioni Web sull’infrastruttura di Google.
● Le applicazioni App Engine sono facili da
realizzare, facili da mantenere e facili
da espandere insieme alle esigenze di
traffico e storage dati.
● Con App Engine, non ci sono server da
mantenere: basta caricare l’applicazione,
ed è già pronta per servire gli utenti.
11. Google Cloud Platform
Google Cloud Datastore
Google Cloud Datastore è la soluzione di
storage noSQL di Google.
● Scalabilità infinita
● Accesso Schema-less
● Capacità SQL-like
● Accesso HTTP via JSON o Protocol Buffer
● Transazioni ACID
● Ridondanza built-in
12. Google Cloud Platform
Google Cloud Storage
Google Cloud Storage è la soluzione di file
storage di Google Cloud Platform.
● Versionamento
● Infinita capacità di storage
● Trasferimenti ripristinabili
● Object Change Notifications
● Durable Reduced Availability
● SLA / Supporto
13. Google Cloud Platform
Google BigQuery
Google BigQuery è la soluzione Big Data
Analytics di Google Cloud Platform.
● Query interattive o batch (“behind the
scenes”)
● Semplice importazione dei dati:
modalità batch o streaming
● Costi contenuti e trasparenti
● Potenti strumenti di visualizzazione e
ricerca
14. Gigya
Connected Consumer Management Suite
Gigya è una suite di strumenti che consente di
connettersi con i propri clienti, controllare i
loro dati e guidare le scelte di social
marketing.
● Connessione agli utenti tramite i servizi
di Social Login
● Recupero e normalizzazione dei dati
dei clienti (Identity Storage)
● Creazione di un’esperienza social on-
site.
15. Google Analytics
Piattaforma di Web Analytics
Google Analytics è una piattaforma per la
generazione di statistiche Web dettagliate.
● Analisi delle interazioni degli utenti con
siti Web e/o applicazioni mobile.
● Creazione di reportistiche
personalizzate
● Gestione di complesse campagne di
marketing
● Analisi unificata monitorando il traffico
di diversi siti in simultanea.
16. Talend
Piattaforma ETL (Extract-Transform-Load)
Talend è una piattaforma di ETL che consente
di estrarre, aggregare e trasformare i dati
provenienti dalla propria infrastruttura IT.
● Oltre 800 connettori per acquisire dati
da qualunque sorgente (DB, ERP etc.)
● Potente gestione dei metadati.
● Flessibilità nel deployment in
ambienti di produzione robusti.
17. MapR
Distribuzione Enterprise Apache™ Hadoop®
MapR è una distribuzione di livello Enterprise
della piattaforma Apache™ Hadoop®, con
supporto per oltre 20 strumenti open source
per il Big Data.
● Inizializza e gestisce un cluster
Hadoop in modo semplice
● Totalmente integrato con Google
Compute Engine.
18. Egon
Data Quality Solution
Egon è una suite di strumenti, thesaurus,
metodologie e conoscenze in grado di
operare a 360° sui temi della qualità
dati e trattamento delle informazioni
internazionali.
● Normalizzazione indirizzi
● Geocodifica
● Deduplica
● Normalizzazione dati personali
Geocoding &
Mapping
NEW APPLICATIONSENTERPRISE
APPLICATIONS
CHANNELS
WEB BASED
APPLICATIONS
MARKET
LEGACY
Data Validation &
Postal validation
Data Management
& Data Enrichment
Duplicate check &
Data integration
19. BIME
Cloud Analytics
Bime è uno strumento di Data Analytics as-a-
Service: consente di creare e condividere
dashboard di visualizzazione personalizzate.
● Connessione con sorgenti dati cloud e
on-premise.
● Analisi di complesse metriche di
business.
● Condivisione delle dashboard via email
o su Web
21. GeoCMS
Content Management System Geografico
GeoCMS è una piattaforma per la ricerca e la
gestione in totale autonomia di informazioni
geolocalizzate.
● Locator: fatti trovare dai tuoi clienti
● GeoMarketing: Analisi dei dati sul
territorio
● OpenData: pubblicazione dei dati
territoriali in totale autonomia
22. Case study (1/3)
Trasformazione, storage e visualizzazione real-time di dati di log
● Gestione dei log di transazioni su dispositivi mobile per azienda di Mobile Commerce (>15M di transazioni al giorno a
regime).
● Trasformazione (Google App Engine) e analisi (in Google Analytics) di log prodotti da operazioni effettuate su dispositivi
mobili.
● Storage dei dati su piattaforma Google Big Query.
● Realizzazione di interfacce di reporting e monitoraggio near-real-time con BIME.
>15M
req/day
23. Case study (2/3)
Soluzione DWH Cloud
Obiettivo
Realizzazione di dashboard interattive real-
time sui dati provenienti dal Data Warehouse
on-premise di una grande compagnia
assicurativa.
Challenges
● Alto numero di accessi concorrenti
alle dashboard (la soluzione on-
premise non riesce a gestire il carico).
● Personalizzazione delle dashboard
sulla base dei profili utente definiti
sulla piattaforma Google Apps in uso
nell’azienda.
DWH
data
users
Utenti Google Apps
Profilazione
Dashboard BIME
On-premise
Cloud
24. Case study (3/3)
Generazione DB anagrafica e DWH da flussi dati retailer
Obiettivo
Gestione dei flussi dati anagrafico (carte loyalty) e giornaliero (transazioni, venduto) per un importante azienda nel settore food.
Deduplica, normalizzazione e storage dei dati, generazione di un DWH su piattaforma Big Query, calcolo dei KPI.
Flussi
Anagrafica
Flussi
giornalieri
(transazioni)
Analisi dati giornalieri
Deduplica anagrafiche
Storage
CSV/JSON
DWH
Elaborazione
KPI