MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...
Cerved a journey of innovation
1. Seguici su Twitter @cervedcom
5 Luglio 2016
Viaggio tra innovazione, poliglottismo ed evoluzione
Cerved, a journey of innovation
Antonello Mantuano – Chief Technology Officer
2. Seguici su Twitter @cervedcom
Indice
Il contesto aziendale
Evoluzione o rivoluzione dei sistemi di persistenza dati?
La complessità del presente
Idee e trade-off verso il futuro
Oltre il relazionale perchè?
4. Seguici su Twitter @cervedcom
Il contesto & i suoi numeri
CREDIT INFORMATION
Tutelarsi dal rischio di
credito
MARKETING SOLUTIONS
Crescere con nuove
opportunità di business
CREDIT MANAGEMENT
Gestire e recuperare i crediti
in sofferenza
40 milioni di righe
di codice
Services e
Microservices
2.500
2.000 Persone
34.000 Clienti
Ricavi 2015
353 Milioni €
1.000 Report /min
Ricerche
Anagrafiche:
110.000/day
Blocchi di
informazione
Erogati:
2.200.000/day
Chiamate a Servizi
8.500.000/day
Eventi su Dati
4.500.000/day
Operazioni su
Storage
documentale
6.500.000/day
Calcoli Rating
300.000/day
1.100 Server On
premise e 1.000
TB di Storage
5. Seguici su Twitter @cervedcom
I nostri “big data”
Web Data
Open Data
Dati proprietari
Dato ufficiale
non camerale
Dato ufficiale
camerale
7. Seguici su Twitter @cervedcom
La nostra Evoluzione
MySql
Diffusione
di SQL e database
relazionali
Google Big Table
Paper & Map
Reduce studi e
sviluppi
Nascita dei principali
progetti/prodotti NoSQL
2007 Neo4j – MongoDb
2008 Hadoop
Evoluzione NoSQL
in molteplici
e nuove direzioni
(es: search engine)
«SQL nei NoSQL
e viceversa»
Data-lake
1990.. 2000 2004 2006 2008 2010 2012 2013 2014 2015 2016
Siamo un’azienda che negli ultimi anni ha dovuto confrontarsi con il tema del Poliglottismo sulle tecnologie di
Persistenza Dati.
Rispetto a solo qualche anno fa, è cambiato tutto
12. 12
Quali Limiti
I Sistemi Relazionali, Oracle in primis, costituiscono il core delle
nostre applicazioni. Ma….
Use Case non
coperti
Network Analysis,
aggregation, massive
data extraction mal si
conciliano con le
esigenze di un OLTP
Scalabilità
I sistemi relazionali
scalano difficilmente,
con costi alti, e con
impatti infrastrutturali
e applicativi
importanti
Velocity
La progettazione
relazionale è lenta e
spesso mal si
accoppia con le
esigenze di time-to-
market o di liquidità
del dato
Relazionale vs
OOP
Il modello relazionale
mal si adatta
all’approccio OOP o
funzionale; è
necessario introdurre
layer intermedi come
gli ORM
13. Seguici su Twitter @cervedcom
Il business chiedeva:
Calcolare real-time il titolare effettivo di
tutte le aziende italiane (3.7 M)
Calcolare near real-time sull’intero grafo
di connessioni i gruppi economici italiani
(215k)
Visualizzare le relazioni di varie tipologie e
di differenti gradi di distanza per gare di
appalto tra gruppi di persone/aziende
Perché GraphDB?
«Navigare il tessuto economico italiano»
La tecnologia abilitava:
Un TOC (total cost of ownership) molto
più basso dei database relazionali
Algoritmi su grafo built-in (es: shortest
path)
Network analysis a disposizione di team
di data-scientist per proporre nuove
funzionalità al business
15. Seguici su Twitter @cervedcom
Il business chiedeva:
Migliore esperienza di ricerca in linea con
la UX di famosi social network
Ricerca integrata su tutte le informazioni
aziendali
Aumento dell’efficacia della ricerca: offrire
al cliente quanto a lui interessa in
pochissimi click
Perché Search Engine?
«Permettere ai clienti di cercare rapidamente le informazioni di interesse»
La tecnologia abilitava:
SERP moderna
Faceting, Suggestion, Filtering, Sorting
Performance migliorate, aggiornamento
Near-Real Time
Geospatial Search
18. Seguici su Twitter @cervedcom
Il business chiedeva:
Conservare tutte le informazioni erogate ai
nostri clienti per 3 anni
Costruire e visualizzare informazioni
complesse in tempi rapidi
Eseguire elaborazioni complesse su
informazioni strutturate in real time
Perché i Document Database
«Informazioni documentali sempre disponibili anche per elaborazioni massive»
La tecnologia abilitava:
Creazione di sistema documentale per la
gestione di miliardi di documenti:
Caching di informazioni strutturate per
accelerare la disponibilità del dato
Esecuzioni di logiche di aggregazione
complesse sui dati
19. 19
XpCache
E’ il nostro prodotto interno in cui archiviamo tutte le informazioni
che eroghiamo ai nostri clienti e che conserviamo da 3 a 10 anni
2.500.000.000
I documenti che
complessivamente sono
archiviati su XpCache
Un po’ di Numeri
100 TB
La dimensione occupata
complessivamente
3.500.000
I documenti nuovi inseriti
ogni giorno
Fattore 3
E’ il livello di ridondanza: 2
sistemi replicati in tempo
reale produzione e 1 in DR
3.000.000
Gli accessi in lettura al giorno
20. 20
XpCache: perché MongoDB?
•Gestione documentale nativa
•Robustezza e Affidabilità
•Scalabilità
•Performance
•Gestibilità
•Monitoring
•Query
•Load balancing
•Replica sincrona
21. 21
Marketing Plus
La soluzione Cerved per le Marketing Solutions
Funzionalità Principali:
Trovare nuovi clienti
Confrontare Settori
Confrontare imprese
Analizzare portafogli di clienti
Il problema da risolvere:
Interfaccia responsive e reactive
Dati su 6 milioni di aziende disponibili in
tempo reale
Aggregazioni multidimensionali sui dati
delle aziende
Grafici e analisi di portafoglio in tempo
reale
24. 24
Marketing Plus: perché MongoDB?
Aggregation
Framework
Funzionalità native per
l’analisi dei dati
Possibilità di costruire
pipeline con aggregazioni
complesse
Performance, semplicità,
real-time,
CostiVantaggi standard
Robustezza e
Affidabilità
Scalability e
Gestione Repliche
Gestibilità,
Monitoring, ecc…
La versione
precedente era
basata su Teradata
Costi di scaling di
Teradata non
sostenibili
Costi di MongoDB
limitati e adeguati ai
trend di crescita
25. 25
L’Enterprise Architecture di Marketing Plus
Browser App
[Angular JS, Jquery, Bootstrap]
Web Server
[Tomcat, Spring]
MicroServices
[Spring]
MicroServices
[Spring]
MicroServices
[Spring, REST]
KOSMOS
[Oracle]
MarkP DWH
[MongoDB]
Quaestio
[Solr]
Penelope
[Java, Talend, CDC]
Processi Interni e
Business Rules sui
dati
Near real time
Eventi
XpCache
[MongoDB]
Static Report
Generation
[Spring, FO, Akka, Activiti, ecc…]
27. Seguici su Twitter @cervedcom
Il dato aumentato
Lesson learned
Dati Nuove tecnologie
Dati proprietari Open Data
Nuovo Valore
1 1 3+ =
28. Seguici su Twitter @cervedcom
Sourcing
Liv.2
Sourcing
Liv. 1
REPOS
SYNTH Pragma
Mond
Dati
Lince
CR-RIBA
(Payline)
Dati
client
NCA
ERG
EBS
HUB
Mambo
Michela
ng
DWH
MBD
Teradata
Tabula
Mongo
4DW
DB4You
XPCH 2
CDR
SalesforceSpazioDati
Matchi
ng
Idx
Mondo
3
Quaes
tio
MBD
2
Tabula
(su AWS)
Ara
cne
Clienti
Fornitori
G 4
you
MBD
1
Splu
nk
R3
CAS
La nostra Complessità
31. Seguici su Twitter @cervedcom
Per continuare ad innovare
Creare il contesto organizzativo
Allargare l’uso delle nuove tecnologie
Technology & Data telling
32. Seguici su Twitter @cervedcom
Trade-off IT Vs Business
E’ tutto semplice?
Più prodotti
Più tecnologie
Deliver Fast
Più stabilità
Meno novità
Change is Evil
DEV
OPS
Cloud (Saas)
33. Seguici su Twitter @cervedcom
Nuove Competenze
Occorre sviluppare in IT nuove competenze per la gestione dei NoSql
Evoluzione dei DBA?
Strategic Partners
L’innovazione tecnologica può essere supportata da partner affidabili, preparati e
disponibili ad aiutare il cliente
Tecnologia giusta al momento giusto
L’abbondanza delle soluzioni disponibili e la loro rapida evoluzione non rende
semplice la scelta quando si avvia un progetto
Diversità, innovazione e complessità
La diversità è un fattore abilitante alla capacità di innovazione, ma occorre prestare
attenzione a non essere sommersi dalla complessità
E inoltre?