SlideShare a Scribd company logo
1 of 56
Download to read offline
DataStax Enterprise
Cas d’usage
Trivadis Cassandra Essentials Day
26 janvier 2016
Victor Coustenoble Ingénieur Solutions
victor.coustenoble@datastax.com
@vizanalytics
« DataStax délivre une plateforme de la base de
données Apache Cassandra, conçue spécifiquement
pour les besoins en Performance et Disponibilité exigés
par les applications d’Internet des Objets, Web ou
Mobiles, en offrant aux entreprises une base de
données Sécurisée toujours disponible, qui reste
Simple à administrer même pour des déploiements à
grande échelle, dans un seul ou de Multiples Data
Centers et dans le Cloud. »
Confidential 2016
Confidential 2016
Un nouveau monde connecté a besoin
d’un nouveau Système de Base de Données
Confidential 2016
Client-Server
Isolated
SocialMobileCloud
Mainframe
1970’s
1990’s
Today
IBM
ORACLE
Semi-Connected Radically Connected
DATASTAX
Distributed
Confidential 2016
DataStax Entreprise
Confidential 2016
RELATIONALDATABASES
CQL SQL
OpsCenter / DevCenter Management tools
DSE for search & analytics Integration
Security Security
Support, consulting & training 30 years ecosystem
Confidential 2016
DataStax Enterprise (DSE)
Robustesse et Support
pour la Production
Solution d’Entreprise
Puissance pour le
Développement
Workloads différents
Une plateforme de base de données Opérationnelle
Confidential 2016
Cassandra Certifié
Confidential 2016
• Prêt et certifié pour les
environnements de production
• Processus rigoureux de certification:
• Tests assurance qualité étendus
• Tests de performance et de montée en
charge avec des clusters de 1 000
noeuds
• Validation des logiciels tiers
• Résolution des défauts
• Certifié pour toutes les plateformes
supportés
Administration du Cluster - OpsCenter
Confidential 2016
• Interface Web avec des API REST
• Installation, configuration et administration
• Sauvegarde / Restauration
• Supervision temps-réel et Alertes
• Contrôle des accès
Confidential 2016
Services d’Administration Automatique
Gestion automatique des tâches de maintenance
et d’administration
Repair service : Cohérence automatique des
données
Capacity service : Analyse des tendances
historiques et la prévision des futurs besoins
Performance service : Performances du cluster et
des métriques de Solr et Spark dans Cassandra
Best Practice service : Règles des meilleurs
pratiques dans plusieurs domaines (securité,
configuration, etc.) pour une utilisation optimale
Backup Service : Gestion des
sauvegardes/restaurations, du chiffrement, de la
migration de données avec des rapports d’activité
Confidential 2016
Sécurité
• Authentification Externe
(Kerberos, LDAP / Active
Directory)
• Chiffrement transparent des
données
• Chiffrement sur disque
• Audit de données, log et trace
Confidential 2016
Support Expert
• Support Technique 24x7x365
• Couvre à la fois les environnements
de production et non-production
• Revues (health checks) régulières
pour de l’assistance sur
l’architecture, la conception et
l’opmisation
• Correctifs (Hot-fix) pour les
situations de maintenance urgente
Confidential 2016
DataStax Enterprise Standard
Confidential 2016
In-Memory
• Base de données en mémoire
• Simple à utiliser
• Tables en mémoire comme les
tables Cassandra
• Cas pour latence faible en
lecture
• Ecritures durables
• Amélioration de x10-x100
Recherche Intégrée
Confidential 2016
• Recherche sur des données Cassandra à travers une intégration
forte des moteurs Solr et Lucene
• Facettes, filtres, recherche geospatial, recherche plein texte,
jointures, etc…
• Opérations de recherche et d’indexation temps réel
• Requêtes de recherche depuis CQL et l’API REST de Solr
• Index Solr distribués et répliqués, architecture Masterless
Analytique et Transformation de données
Confidential 2016
• Intégration poussée avec Cassandra de Apache Spark
• Spark = Traitement Distribué : “In-memory Map/Reduce”, multi-thread …
• GraphX, MLLib (Machine learning), SparkSQL, Spark Streaming, SparkR
• Serveur Spark JDBC – Spark Job Server
• Intégration de Solr
• Partenariat DataStax / Databricks
C*
C*
C*C*
Spark Executor
C* Java Driver
Spark-Cassandra Connector
User Application
Cassandra
Connecteur Spark Cassandra
• Lecture / Ecriture de données Cassandra depuis Spark
• Mapping entre tables Cassandra et RDD / DataFrame
• Data Locality
• Mapping entre partitions Spark et partitions Cassandra
• Conversion des types
• API Scala, Java et Python
Confidential 2016
Cas d’utilisation
Load data from various
sources
Analytics (join, aggregate, transform, …)
Sanitize, validate, normalize data
Schema migration,
Data conversion
Confidential 2016
Traitement Temps-réel ou Batch
Confidential 2016
Enrichissement
des Données
Batch Processing
Machine Learning
Agrégats pré-
calculés
Données
Sans ETL
Isolation des workload
Confidential 2016
No ETL
DataStax Enterprise
OpsCenter
Services
Monitoring
Operations
Operational
Application
Real Time
Search
Real Time
Analytics
Batch
Analytics
Analytics
Transformation
s
Cassandra Cluster – Nodes Ring – Column Family Storage
High Performance – Alway Available – Massive Scalability
Advanced
Security
In-Memory
Support
Le Futur de DataStax Enterprise
Confidential 2016
Base de données Graphe ?
Confidential 2016
€
€
€
F F
Í
Í
Í
DataStax
DataBricks
Spark
DSE
CassandraJonathan Ellis
Robin
Schumacher
Billy
Bosworth
worksFor
title: VP Product
develops
uses
uses
reportsTo
worksFor
title: CTO
worksFor
title: CEO
RDBMS vs. Graph DB
SELECT TOP (5) [t14].[ProductName]
FROM (SELECT COUNT(*) AS [value],
[t13].[ProductName]
FROM [customers] AS [t0]
CROSS APPLY (SELECT [t9].[ProductName]
FROM [orders] AS [t1]
CROSS JOIN [order details] AS [t2]
INNER JOIN [products] AS [t3]
ON [t3].[ProductID] = [t2].[ProductID]
CROSS JOIN [order details] AS [t4]
INNER JOIN [orders] AS [t5]
ON [t5].[OrderID] = [t4].[OrderID]
LEFT JOIN [customers] AS [t6]
ON [t6].[CustomerID] = [t5].[CustomerID]
CROSS JOIN ([orders] AS [t7]
CROSS JOIN [order details] AS [t8]
INNER JOIN [products] AS [t9]
ON [t9].[ProductID] = [t8].[ProductID])
WHERE NOT EXISTS(SELECT NULL AS [EMPTY]
FROM [orders] AS [t10]
CROSS JOIN [order details] AS [t11]
INNER JOIN [products] AS [t12]
ON [t12].[ProductID] = [t11].[ProductID]
WHERE [t9].[ProductID] = [t12].[ProductID]
AND [t10].[CustomerID] = [t0].[CustomerID]
AND [t11].[OrderID] = [t10].[OrderID])
AND [t6].[CustomerID] <> [t0].[CustomerID]
AND [t1].[CustomerID] = [t0].[CustomerID]
AND [t2].[OrderID] = [t1].[OrderID]
AND [t4].[ProductID] = [t3].[ProductID]
AND [t7].[CustomerID] = [t6].[CustomerID]
AND [t8].[OrderID] = [t7].[OrderID]) AS [t13]
WHERE [t0].[CustomerID] = N'ALFKI'
GROUP BY [t13].[ProductName]) AS [t14]
ORDER BY [t14].[value] DESC
g.V('customerId','ALFKI').as('customer')
.out('ordered').out('contains').out('is').as('products')
.in('is').in('contains').in('ordered').except('customer')
.out('ordered').out('contains').out('is').except('products')
.groupCount().cap().orderMap(T.decr)[0..<5].productName
VS.
Confidential 2016
Cas d’utilisation et pourquoi ?
Confidential 2016
Meilleur réponse pour les applications avec des données
hautement connectés (Réseaux électriques, réseaux sociaux …)
Multi-Modèle dans DataStax Enterprise
Confidential 2016
Transactions Analytics Search
MixedWorkload Needed?
Solved in DSE
Wide Row Graph JSON
Mixed Model Needed?
Solved in DSE
DSE
Analytics
Search
Transactions
DSE
Wide Row
JSON
Graph
DataStax Enterprise Graph
“DSE Graph est une solution de base de données graphe scalable pour les
applications Web et Mobiles avec des besoins de gérer des données
hautement connectés”
Origine : Projet Open Source Titan
DSE Graph est intégré dans DSE:
• Intégration forte dans Cassandra
• OLAP et analyse Graph avec Apache Spark
• OLTP avec support de Apache Solr pour la recherche
• Supervision depuis OpsCenter
• Pas de besoin de noeuds ou clusters additionnels
• Pas de processus externe, même JVM
• Utilisation et Support du framework TinkerPop
Confidential 2016
Cas d’usage
Confidential 2016
Cas d’usage fréquents
Messagerie
Catalogue/
Playlists
Détection de
Fraude
Recommandation/
Personnalisation
Objets connectés/
Données de Capteurs
Confidential 2016
Des clients sur tous les verticaux
Confidential 2016
Performance - Montée en Charge - Disponibilité
Cassandra fonctionne aussi bien pour des petits que pour des déploiements énormes!
Déploiement Cassandra chez Apple
75 000+ noeuds
10’s petabytes de données
Millions ops/second
Plus gros cluster à 1000+ noeuds
Apple Inc.: Cassandra at Apple for Massive Scale
Video https://www.youtube.com/watch?v=Bc4ql9TDzyg
From Cassandra Summit, London, December 2014
Confidential 2016
Netflix séduit ses Clients avec des Recommandations Personnalisées
Leader mondial de la vidéo en streaming avec un revenu supérieur à 1.5
Milliard de $
Adapte le contenu délivré en se basant sur les données de visionnage
capturées dans Cassandra
Capitalisation boursière en hausse de 600% depuis 2012
L’introduction des ‘Profiles’ a poussé le débit à plus de 10M de transactions par
seconde
A remplacé Oracle dans six data centers dans le monde, 100% en mode cloud
Use Case: Personalization
Confidential 2016
Cassandra @ Netflix
• 80+ Clusters
• 2500+ noeuds
• 4 Data Centres (Régions Amazon)
• > 1 Trillion transactions par jour
http://planetcassandra.org/functional-use-cases/
Performance et Montée en Charge
Confidential 2016
British Gas Tackles Internet-of-Things with DataStax
Connected Homes, a new business unit, handles IoT-based customer systems
Provides remote control over thermostats and boilers via smart phones/tablets
Delivers analytics on energy usage to customers
Will be using predictive analysis to forecast things like boiler failures
Uses DataStaxEnterprise for transactional data consumption and real-time analytics
Confidential 2016
Confidential 2016
Confidential 2016
Google Nest Revolutionizes the Thermostat
Google pays $3BN for Nest, not for thermostat, but for data
All interactions with customer thermostats are written to
DataStax
All mobile application interactions are handled by DataStax
DataStax chosen for ability to handle high velocity writes in
time series
Use Case: Internet Of Things
Confidential 2016
Spotify Translates Mood into Music by Delivering the Right Playlist for Every Moment
Leading streaming music provider with over 40M+ active monthly
users
Empowers users to access massive database of music and create
and share custom playlists
Over 1 billion playlists created and managed in real time
More than 40,000 requests/second handled without latency
Managing 500+ nodes across 4000 servers in 4 data centers without
any downtime
Use Case: Playlists
Confidential 2016
Credit Suisse Benefits from Cassandra’s Resiliency
Public clouds not an option
Key infrastructure challenges: high availability, data retention, scale and user
experience
Started with risk-management systems to help improve up-time
Expanding into new areas
A new approach—traditional databases could not meet performance needs
Cassandra
Credit Suisse @ Summit 2014
http://www.slideshare.net/planetcassandra/cassandra-summit-2014-an-overview-of-the-hippo-project-at-credit-suisse
Confidential 2016
©2013 DataStax Confidential. Do not distribute without consent. 41
Cassandra @ ING
http://supernova-team.github.io/cassandra-presentations/cassandra-summit-2014/#/
Why DataStax Enterprise
Need for
• Very High Availability: 100% !
• Stability
Use Cases
• Payment Engine Availability
(process payment even if issues)
• Mobile Payment Application
‘PayPal like”
• More and more ….
Confidential 2016
Confidential 2016
Exemple d’architecture chez ING
Source :http://www.natalinobusa.com/2015/11/why-is-smack-stack-all-rage-lately.html
Spark
Mesos
Akka
Cassandra
Kafka
Détection de fraude
Confidential 2016
DataStax Use Cases in Financial Services
• Real Time Payments Engine
• Post Trade Risk
Reporting/Capital Adequacy
• Global Reference Data
Replication
• Market Data Capture/Replay
• Post Trade Surveillance
• Real Time Fraud Analytics
• Forward Curve Analytics
• Fraud Detection/Money
Laundering
• Security
• Product Personalization
• Identity Management
Confidential 2016
Sony PS4 Delivers Social and Engaging Gaming Experiences with DataStax
Sony Entertainment Network provides digital entertainment services among which
PS4 is a huge success
PS4: engages gamers with personalized product
recommendation and always connected social gaming features
Reaches over 200,000 /second read/write speeds to guarantee application
performance
Hybrid deployment with front features on AWS and multi micro services on-premise
Confidential 2016
Delivers 150+ Billion Content Recommendations Per Month
Serves content for largest media brands in the
world: Reuters, Wall St Journal, USA Today
Needed a massively scalable datastore
High velocity of data with 58,000 links to
content per second
Always-on data architecture Use Case: Recommendations / Personalization
Confidential 2016
Comcast Invents the Future of Television on Cassandra
Future of TV: cloud-based X1 platform connects viewers with more
content
Track your favorite team’s score while watching a movie, or TV show
Off the shelf offerings and traditional technologies failed
Requires a robust infrastructure with low overhead
Needs to be always-on across multiple datacenters
Use Case: Messaging
Confidential 2016
EBay Connects 100M Customers with 400M Items; Always-On
World’s largest online marketplace needed highly scalable, available
and robust data store
Handles fraud detection, messaging, and more with DataStax
Enterprise
Ensures that users get the most accurate results for their searches
Stores vast amounts of data: 250 TBs (Single transactional table:
40TB!)
Handles high velocity with over 6 billion writes and 5 billion reads daily
Confidential 2016
eBay – Massive Performance and Scalability
Confidential 2016
http://www.datastax.com/resources/casestudies/ebay
Target Scales Across Geographies with Cassandra
Leading American retailer with over 1900 stores
Legacy infrastructure limited scale across geographies and innovation of
mobile features
DataStaxchosen as the database platform for Target’s web and high
transaction mobile API
3 months from choosing DataStaxto live in a critical production environment
Agility and 4x faster time to market of innovative features
Use Case: Personalization
Confidential 2016
Apprendre et en savoir plus
Confidential 2016
DataStax Academy : https://academy.datastax.com
Confidential 2016
Self-Paced Courses
Confidential 2016
O’Reilly Certification
Confidential 2016
Plus d’information
Confidential 2016
DataStax: http://www.datastax.com
Downloads: http://www.datastax.com/download
Documentation: http://www.datastax.com/docs
Developer Blog: http://www.datastax.com/dev/blog
Academy: https://academy.datastax.com
Community Site: http://planetcassandra.org
Merci
We power the big data apps
that transform business.
©2013 DataStax Confidential. Do not distribute without consent.

More Related Content

What's hot

Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
JEMLI Fathi
 

What's hot (20)

DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
Introduction à Cassandra
Introduction à CassandraIntroduction à Cassandra
Introduction à Cassandra
 
DataStax et Cassandra dans Azure au Microsoft Techdays
DataStax et Cassandra dans Azure au Microsoft TechdaysDataStax et Cassandra dans Azure au Microsoft Techdays
DataStax et Cassandra dans Azure au Microsoft Techdays
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Azure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteAzure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides Keynote
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
NoSQL panorama - Jean Seiler Softeam
NoSQL panorama - Jean Seiler SofteamNoSQL panorama - Jean Seiler Softeam
NoSQL panorama - Jean Seiler Softeam
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
 
Panorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans AzurePanorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans Azure
 
Bases de données NoSQL
Bases de données NoSQLBases de données NoSQL
Bases de données NoSQL
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
 
Presentation cassandra
Presentation cassandraPresentation cassandra
Presentation cassandra
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisation
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 

Similar to DataStax Enterprise - Cas d'usage

IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM France Lab
 
Claranet vdc juillet 2013
Claranet vdc juillet 2013Claranet vdc juillet 2013
Claranet vdc juillet 2013
Claranet
 

Similar to DataStax Enterprise - Cas d'usage (20)

BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)
 
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le monde
 
Couchbase Capella.pptx
Couchbase Capella.pptxCouchbase Capella.pptx
Couchbase Capella.pptx
 
Un stockage "Cloud Hybrid"
Un stockage "Cloud Hybrid"Un stockage "Cloud Hybrid"
Un stockage "Cloud Hybrid"
 
Stockage de demain - Répondre aux nouveaux challenges avec IBM Storwize V5000
Stockage de demain - Répondre aux nouveaux challenges avec IBM Storwize V5000Stockage de demain - Répondre aux nouveaux challenges avec IBM Storwize V5000
Stockage de demain - Répondre aux nouveaux challenges avec IBM Storwize V5000
 
Claranet vdc juillet 2013
Claranet vdc juillet 2013Claranet vdc juillet 2013
Claranet vdc juillet 2013
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
Présentation Wakanda @ JSRomandie
Présentation Wakanda @ JSRomandiePrésentation Wakanda @ JSRomandie
Présentation Wakanda @ JSRomandie
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
 
Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...
Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...
Un Voyage dans le Cloud: Les Meilleures Pratiques Pour Démarrer Dans Le Cloud...
 
Exadays cloud – Enjeux et Transformation du SI
Exadays   cloud – Enjeux et Transformation du SIExadays   cloud – Enjeux et Transformation du SI
Exadays cloud – Enjeux et Transformation du SI
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoT
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
Adopter le cloud avec microsoft
Adopter le cloud avec microsoftAdopter le cloud avec microsoft
Adopter le cloud avec microsoft
 
Denodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marchéDenodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marché
 
Windows Server 2016, le système d'exploitation orienté cloud indispensable
Windows Server 2016, le système d'exploitation orienté cloud indispensableWindows Server 2016, le système d'exploitation orienté cloud indispensable
Windows Server 2016, le système d'exploitation orienté cloud indispensable
 

DataStax Enterprise - Cas d'usage

  • 1. DataStax Enterprise Cas d’usage Trivadis Cassandra Essentials Day 26 janvier 2016 Victor Coustenoble Ingénieur Solutions victor.coustenoble@datastax.com @vizanalytics
  • 2. « DataStax délivre une plateforme de la base de données Apache Cassandra, conçue spécifiquement pour les besoins en Performance et Disponibilité exigés par les applications d’Internet des Objets, Web ou Mobiles, en offrant aux entreprises une base de données Sécurisée toujours disponible, qui reste Simple à administrer même pour des déploiements à grande échelle, dans un seul ou de Multiples Data Centers et dans le Cloud. » Confidential 2016
  • 4. Un nouveau monde connecté a besoin d’un nouveau Système de Base de Données Confidential 2016 Client-Server Isolated SocialMobileCloud Mainframe 1970’s 1990’s Today IBM ORACLE Semi-Connected Radically Connected DATASTAX Distributed
  • 7. RELATIONALDATABASES CQL SQL OpsCenter / DevCenter Management tools DSE for search & analytics Integration Security Security Support, consulting & training 30 years ecosystem Confidential 2016
  • 8. DataStax Enterprise (DSE) Robustesse et Support pour la Production Solution d’Entreprise Puissance pour le Développement Workloads différents Une plateforme de base de données Opérationnelle Confidential 2016
  • 9. Cassandra Certifié Confidential 2016 • Prêt et certifié pour les environnements de production • Processus rigoureux de certification: • Tests assurance qualité étendus • Tests de performance et de montée en charge avec des clusters de 1 000 noeuds • Validation des logiciels tiers • Résolution des défauts • Certifié pour toutes les plateformes supportés
  • 10. Administration du Cluster - OpsCenter Confidential 2016 • Interface Web avec des API REST • Installation, configuration et administration • Sauvegarde / Restauration • Supervision temps-réel et Alertes • Contrôle des accès
  • 11. Confidential 2016 Services d’Administration Automatique Gestion automatique des tâches de maintenance et d’administration Repair service : Cohérence automatique des données Capacity service : Analyse des tendances historiques et la prévision des futurs besoins Performance service : Performances du cluster et des métriques de Solr et Spark dans Cassandra Best Practice service : Règles des meilleurs pratiques dans plusieurs domaines (securité, configuration, etc.) pour une utilisation optimale Backup Service : Gestion des sauvegardes/restaurations, du chiffrement, de la migration de données avec des rapports d’activité
  • 12. Confidential 2016 Sécurité • Authentification Externe (Kerberos, LDAP / Active Directory) • Chiffrement transparent des données • Chiffrement sur disque • Audit de données, log et trace
  • 13. Confidential 2016 Support Expert • Support Technique 24x7x365 • Couvre à la fois les environnements de production et non-production • Revues (health checks) régulières pour de l’assistance sur l’architecture, la conception et l’opmisation • Correctifs (Hot-fix) pour les situations de maintenance urgente
  • 15. Confidential 2016 In-Memory • Base de données en mémoire • Simple à utiliser • Tables en mémoire comme les tables Cassandra • Cas pour latence faible en lecture • Ecritures durables • Amélioration de x10-x100
  • 16. Recherche Intégrée Confidential 2016 • Recherche sur des données Cassandra à travers une intégration forte des moteurs Solr et Lucene • Facettes, filtres, recherche geospatial, recherche plein texte, jointures, etc… • Opérations de recherche et d’indexation temps réel • Requêtes de recherche depuis CQL et l’API REST de Solr • Index Solr distribués et répliqués, architecture Masterless
  • 17. Analytique et Transformation de données Confidential 2016 • Intégration poussée avec Cassandra de Apache Spark • Spark = Traitement Distribué : “In-memory Map/Reduce”, multi-thread … • GraphX, MLLib (Machine learning), SparkSQL, Spark Streaming, SparkR • Serveur Spark JDBC – Spark Job Server • Intégration de Solr • Partenariat DataStax / Databricks
  • 18. C* C* C*C* Spark Executor C* Java Driver Spark-Cassandra Connector User Application Cassandra Connecteur Spark Cassandra • Lecture / Ecriture de données Cassandra depuis Spark • Mapping entre tables Cassandra et RDD / DataFrame • Data Locality • Mapping entre partitions Spark et partitions Cassandra • Conversion des types • API Scala, Java et Python Confidential 2016
  • 19. Cas d’utilisation Load data from various sources Analytics (join, aggregate, transform, …) Sanitize, validate, normalize data Schema migration, Data conversion Confidential 2016
  • 20. Traitement Temps-réel ou Batch Confidential 2016 Enrichissement des Données Batch Processing Machine Learning Agrégats pré- calculés Données Sans ETL
  • 22. DataStax Enterprise OpsCenter Services Monitoring Operations Operational Application Real Time Search Real Time Analytics Batch Analytics Analytics Transformation s Cassandra Cluster – Nodes Ring – Column Family Storage High Performance – Alway Available – Massive Scalability Advanced Security In-Memory Support
  • 23. Le Futur de DataStax Enterprise Confidential 2016
  • 24. Base de données Graphe ? Confidential 2016 € € € F F Í Í Í DataStax DataBricks Spark DSE CassandraJonathan Ellis Robin Schumacher Billy Bosworth worksFor title: VP Product develops uses uses reportsTo worksFor title: CTO worksFor title: CEO
  • 25. RDBMS vs. Graph DB SELECT TOP (5) [t14].[ProductName] FROM (SELECT COUNT(*) AS [value], [t13].[ProductName] FROM [customers] AS [t0] CROSS APPLY (SELECT [t9].[ProductName] FROM [orders] AS [t1] CROSS JOIN [order details] AS [t2] INNER JOIN [products] AS [t3] ON [t3].[ProductID] = [t2].[ProductID] CROSS JOIN [order details] AS [t4] INNER JOIN [orders] AS [t5] ON [t5].[OrderID] = [t4].[OrderID] LEFT JOIN [customers] AS [t6] ON [t6].[CustomerID] = [t5].[CustomerID] CROSS JOIN ([orders] AS [t7] CROSS JOIN [order details] AS [t8] INNER JOIN [products] AS [t9] ON [t9].[ProductID] = [t8].[ProductID]) WHERE NOT EXISTS(SELECT NULL AS [EMPTY] FROM [orders] AS [t10] CROSS JOIN [order details] AS [t11] INNER JOIN [products] AS [t12] ON [t12].[ProductID] = [t11].[ProductID] WHERE [t9].[ProductID] = [t12].[ProductID] AND [t10].[CustomerID] = [t0].[CustomerID] AND [t11].[OrderID] = [t10].[OrderID]) AND [t6].[CustomerID] <> [t0].[CustomerID] AND [t1].[CustomerID] = [t0].[CustomerID] AND [t2].[OrderID] = [t1].[OrderID] AND [t4].[ProductID] = [t3].[ProductID] AND [t7].[CustomerID] = [t6].[CustomerID] AND [t8].[OrderID] = [t7].[OrderID]) AS [t13] WHERE [t0].[CustomerID] = N'ALFKI' GROUP BY [t13].[ProductName]) AS [t14] ORDER BY [t14].[value] DESC g.V('customerId','ALFKI').as('customer') .out('ordered').out('contains').out('is').as('products') .in('is').in('contains').in('ordered').except('customer') .out('ordered').out('contains').out('is').except('products') .groupCount().cap().orderMap(T.decr)[0..<5].productName VS. Confidential 2016
  • 26. Cas d’utilisation et pourquoi ? Confidential 2016 Meilleur réponse pour les applications avec des données hautement connectés (Réseaux électriques, réseaux sociaux …)
  • 27. Multi-Modèle dans DataStax Enterprise Confidential 2016 Transactions Analytics Search MixedWorkload Needed? Solved in DSE Wide Row Graph JSON Mixed Model Needed? Solved in DSE DSE Analytics Search Transactions DSE Wide Row JSON Graph
  • 28. DataStax Enterprise Graph “DSE Graph est une solution de base de données graphe scalable pour les applications Web et Mobiles avec des besoins de gérer des données hautement connectés” Origine : Projet Open Source Titan DSE Graph est intégré dans DSE: • Intégration forte dans Cassandra • OLAP et analyse Graph avec Apache Spark • OLTP avec support de Apache Solr pour la recherche • Supervision depuis OpsCenter • Pas de besoin de noeuds ou clusters additionnels • Pas de processus externe, même JVM • Utilisation et Support du framework TinkerPop Confidential 2016
  • 30. Cas d’usage fréquents Messagerie Catalogue/ Playlists Détection de Fraude Recommandation/ Personnalisation Objets connectés/ Données de Capteurs Confidential 2016
  • 31. Des clients sur tous les verticaux Confidential 2016
  • 32. Performance - Montée en Charge - Disponibilité Cassandra fonctionne aussi bien pour des petits que pour des déploiements énormes! Déploiement Cassandra chez Apple 75 000+ noeuds 10’s petabytes de données Millions ops/second Plus gros cluster à 1000+ noeuds Apple Inc.: Cassandra at Apple for Massive Scale Video https://www.youtube.com/watch?v=Bc4ql9TDzyg From Cassandra Summit, London, December 2014 Confidential 2016
  • 33. Netflix séduit ses Clients avec des Recommandations Personnalisées Leader mondial de la vidéo en streaming avec un revenu supérieur à 1.5 Milliard de $ Adapte le contenu délivré en se basant sur les données de visionnage capturées dans Cassandra Capitalisation boursière en hausse de 600% depuis 2012 L’introduction des ‘Profiles’ a poussé le débit à plus de 10M de transactions par seconde A remplacé Oracle dans six data centers dans le monde, 100% en mode cloud Use Case: Personalization Confidential 2016
  • 34. Cassandra @ Netflix • 80+ Clusters • 2500+ noeuds • 4 Data Centres (Régions Amazon) • > 1 Trillion transactions par jour http://planetcassandra.org/functional-use-cases/ Performance et Montée en Charge Confidential 2016
  • 35. British Gas Tackles Internet-of-Things with DataStax Connected Homes, a new business unit, handles IoT-based customer systems Provides remote control over thermostats and boilers via smart phones/tablets Delivers analytics on energy usage to customers Will be using predictive analysis to forecast things like boiler failures Uses DataStaxEnterprise for transactional data consumption and real-time analytics Confidential 2016
  • 38. Google Nest Revolutionizes the Thermostat Google pays $3BN for Nest, not for thermostat, but for data All interactions with customer thermostats are written to DataStax All mobile application interactions are handled by DataStax DataStax chosen for ability to handle high velocity writes in time series Use Case: Internet Of Things Confidential 2016
  • 39. Spotify Translates Mood into Music by Delivering the Right Playlist for Every Moment Leading streaming music provider with over 40M+ active monthly users Empowers users to access massive database of music and create and share custom playlists Over 1 billion playlists created and managed in real time More than 40,000 requests/second handled without latency Managing 500+ nodes across 4000 servers in 4 data centers without any downtime Use Case: Playlists Confidential 2016
  • 40. Credit Suisse Benefits from Cassandra’s Resiliency Public clouds not an option Key infrastructure challenges: high availability, data retention, scale and user experience Started with risk-management systems to help improve up-time Expanding into new areas A new approach—traditional databases could not meet performance needs Cassandra Credit Suisse @ Summit 2014 http://www.slideshare.net/planetcassandra/cassandra-summit-2014-an-overview-of-the-hippo-project-at-credit-suisse Confidential 2016
  • 41. ©2013 DataStax Confidential. Do not distribute without consent. 41 Cassandra @ ING http://supernova-team.github.io/cassandra-presentations/cassandra-summit-2014/#/ Why DataStax Enterprise Need for • Very High Availability: 100% ! • Stability Use Cases • Payment Engine Availability (process payment even if issues) • Mobile Payment Application ‘PayPal like” • More and more …. Confidential 2016
  • 42. Confidential 2016 Exemple d’architecture chez ING Source :http://www.natalinobusa.com/2015/11/why-is-smack-stack-all-rage-lately.html Spark Mesos Akka Cassandra Kafka
  • 44. DataStax Use Cases in Financial Services • Real Time Payments Engine • Post Trade Risk Reporting/Capital Adequacy • Global Reference Data Replication • Market Data Capture/Replay • Post Trade Surveillance • Real Time Fraud Analytics • Forward Curve Analytics • Fraud Detection/Money Laundering • Security • Product Personalization • Identity Management Confidential 2016
  • 45. Sony PS4 Delivers Social and Engaging Gaming Experiences with DataStax Sony Entertainment Network provides digital entertainment services among which PS4 is a huge success
PS4: engages gamers with personalized product recommendation and always connected social gaming features Reaches over 200,000 /second read/write speeds to guarantee application performance Hybrid deployment with front features on AWS and multi micro services on-premise Confidential 2016
  • 46. Delivers 150+ Billion Content Recommendations Per Month Serves content for largest media brands in the world: Reuters, Wall St Journal, USA Today Needed a massively scalable datastore High velocity of data with 58,000 links to content per second Always-on data architecture Use Case: Recommendations / Personalization Confidential 2016
  • 47. Comcast Invents the Future of Television on Cassandra Future of TV: cloud-based X1 platform connects viewers with more content Track your favorite team’s score while watching a movie, or TV show Off the shelf offerings and traditional technologies failed Requires a robust infrastructure with low overhead Needs to be always-on across multiple datacenters Use Case: Messaging Confidential 2016
  • 48. EBay Connects 100M Customers with 400M Items; Always-On World’s largest online marketplace needed highly scalable, available and robust data store Handles fraud detection, messaging, and more with DataStax Enterprise Ensures that users get the most accurate results for their searches Stores vast amounts of data: 250 TBs (Single transactional table: 40TB!) Handles high velocity with over 6 billion writes and 5 billion reads daily Confidential 2016
  • 49. eBay – Massive Performance and Scalability Confidential 2016 http://www.datastax.com/resources/casestudies/ebay
  • 50. Target Scales Across Geographies with Cassandra Leading American retailer with over 1900 stores Legacy infrastructure limited scale across geographies and innovation of mobile features DataStaxchosen as the database platform for Target’s web and high transaction mobile API 3 months from choosing DataStaxto live in a critical production environment Agility and 4x faster time to market of innovative features Use Case: Personalization Confidential 2016
  • 51. Apprendre et en savoir plus Confidential 2016
  • 52. DataStax Academy : https://academy.datastax.com Confidential 2016
  • 55. Plus d’information Confidential 2016 DataStax: http://www.datastax.com Downloads: http://www.datastax.com/download Documentation: http://www.datastax.com/docs Developer Blog: http://www.datastax.com/dev/blog Academy: https://academy.datastax.com Community Site: http://planetcassandra.org
  • 56. Merci We power the big data apps that transform business. ©2013 DataStax Confidential. Do not distribute without consent.