Windows Server 2016, le système d'exploitation orienté cloud indispensable
DataStax Enterprise - Cas d'usage
1. DataStax Enterprise
Cas d’usage
Trivadis Cassandra Essentials Day
26 janvier 2016
Victor Coustenoble Ingénieur Solutions
victor.coustenoble@datastax.com
@vizanalytics
2. « DataStax délivre une plateforme de la base de
données Apache Cassandra, conçue spécifiquement
pour les besoins en Performance et Disponibilité exigés
par les applications d’Internet des Objets, Web ou
Mobiles, en offrant aux entreprises une base de
données Sécurisée toujours disponible, qui reste
Simple à administrer même pour des déploiements à
grande échelle, dans un seul ou de Multiples Data
Centers et dans le Cloud. »
Confidential 2016
4. Un nouveau monde connecté a besoin
d’un nouveau Système de Base de Données
Confidential 2016
Client-Server
Isolated
SocialMobileCloud
Mainframe
1970’s
1990’s
Today
IBM
ORACLE
Semi-Connected Radically Connected
DATASTAX
Distributed
7. RELATIONALDATABASES
CQL SQL
OpsCenter / DevCenter Management tools
DSE for search & analytics Integration
Security Security
Support, consulting & training 30 years ecosystem
Confidential 2016
8. DataStax Enterprise (DSE)
Robustesse et Support
pour la Production
Solution d’Entreprise
Puissance pour le
Développement
Workloads différents
Une plateforme de base de données Opérationnelle
Confidential 2016
9. Cassandra Certifié
Confidential 2016
• Prêt et certifié pour les
environnements de production
• Processus rigoureux de certification:
• Tests assurance qualité étendus
• Tests de performance et de montée en
charge avec des clusters de 1 000
noeuds
• Validation des logiciels tiers
• Résolution des défauts
• Certifié pour toutes les plateformes
supportés
10. Administration du Cluster - OpsCenter
Confidential 2016
• Interface Web avec des API REST
• Installation, configuration et administration
• Sauvegarde / Restauration
• Supervision temps-réel et Alertes
• Contrôle des accès
11. Confidential 2016
Services d’Administration Automatique
Gestion automatique des tâches de maintenance
et d’administration
Repair service : Cohérence automatique des
données
Capacity service : Analyse des tendances
historiques et la prévision des futurs besoins
Performance service : Performances du cluster et
des métriques de Solr et Spark dans Cassandra
Best Practice service : Règles des meilleurs
pratiques dans plusieurs domaines (securité,
configuration, etc.) pour une utilisation optimale
Backup Service : Gestion des
sauvegardes/restaurations, du chiffrement, de la
migration de données avec des rapports d’activité
12. Confidential 2016
Sécurité
• Authentification Externe
(Kerberos, LDAP / Active
Directory)
• Chiffrement transparent des
données
• Chiffrement sur disque
• Audit de données, log et trace
13. Confidential 2016
Support Expert
• Support Technique 24x7x365
• Couvre à la fois les environnements
de production et non-production
• Revues (health checks) régulières
pour de l’assistance sur
l’architecture, la conception et
l’opmisation
• Correctifs (Hot-fix) pour les
situations de maintenance urgente
15. Confidential 2016
In-Memory
• Base de données en mémoire
• Simple à utiliser
• Tables en mémoire comme les
tables Cassandra
• Cas pour latence faible en
lecture
• Ecritures durables
• Amélioration de x10-x100
16. Recherche Intégrée
Confidential 2016
• Recherche sur des données Cassandra à travers une intégration
forte des moteurs Solr et Lucene
• Facettes, filtres, recherche geospatial, recherche plein texte,
jointures, etc…
• Opérations de recherche et d’indexation temps réel
• Requêtes de recherche depuis CQL et l’API REST de Solr
• Index Solr distribués et répliqués, architecture Masterless
17. Analytique et Transformation de données
Confidential 2016
• Intégration poussée avec Cassandra de Apache Spark
• Spark = Traitement Distribué : “In-memory Map/Reduce”, multi-thread …
• GraphX, MLLib (Machine learning), SparkSQL, Spark Streaming, SparkR
• Serveur Spark JDBC – Spark Job Server
• Intégration de Solr
• Partenariat DataStax / Databricks
18. C*
C*
C*C*
Spark Executor
C* Java Driver
Spark-Cassandra Connector
User Application
Cassandra
Connecteur Spark Cassandra
• Lecture / Ecriture de données Cassandra depuis Spark
• Mapping entre tables Cassandra et RDD / DataFrame
• Data Locality
• Mapping entre partitions Spark et partitions Cassandra
• Conversion des types
• API Scala, Java et Python
Confidential 2016
19. Cas d’utilisation
Load data from various
sources
Analytics (join, aggregate, transform, …)
Sanitize, validate, normalize data
Schema migration,
Data conversion
Confidential 2016
20. Traitement Temps-réel ou Batch
Confidential 2016
Enrichissement
des Données
Batch Processing
Machine Learning
Agrégats pré-
calculés
Données
Sans ETL
23. Le Futur de DataStax Enterprise
Confidential 2016
24. Base de données Graphe ?
Confidential 2016
€
€
€
F F
Í
Í
Í
DataStax
DataBricks
Spark
DSE
CassandraJonathan Ellis
Robin
Schumacher
Billy
Bosworth
worksFor
title: VP Product
develops
uses
uses
reportsTo
worksFor
title: CTO
worksFor
title: CEO
25. RDBMS vs. Graph DB
SELECT TOP (5) [t14].[ProductName]
FROM (SELECT COUNT(*) AS [value],
[t13].[ProductName]
FROM [customers] AS [t0]
CROSS APPLY (SELECT [t9].[ProductName]
FROM [orders] AS [t1]
CROSS JOIN [order details] AS [t2]
INNER JOIN [products] AS [t3]
ON [t3].[ProductID] = [t2].[ProductID]
CROSS JOIN [order details] AS [t4]
INNER JOIN [orders] AS [t5]
ON [t5].[OrderID] = [t4].[OrderID]
LEFT JOIN [customers] AS [t6]
ON [t6].[CustomerID] = [t5].[CustomerID]
CROSS JOIN ([orders] AS [t7]
CROSS JOIN [order details] AS [t8]
INNER JOIN [products] AS [t9]
ON [t9].[ProductID] = [t8].[ProductID])
WHERE NOT EXISTS(SELECT NULL AS [EMPTY]
FROM [orders] AS [t10]
CROSS JOIN [order details] AS [t11]
INNER JOIN [products] AS [t12]
ON [t12].[ProductID] = [t11].[ProductID]
WHERE [t9].[ProductID] = [t12].[ProductID]
AND [t10].[CustomerID] = [t0].[CustomerID]
AND [t11].[OrderID] = [t10].[OrderID])
AND [t6].[CustomerID] <> [t0].[CustomerID]
AND [t1].[CustomerID] = [t0].[CustomerID]
AND [t2].[OrderID] = [t1].[OrderID]
AND [t4].[ProductID] = [t3].[ProductID]
AND [t7].[CustomerID] = [t6].[CustomerID]
AND [t8].[OrderID] = [t7].[OrderID]) AS [t13]
WHERE [t0].[CustomerID] = N'ALFKI'
GROUP BY [t13].[ProductName]) AS [t14]
ORDER BY [t14].[value] DESC
g.V('customerId','ALFKI').as('customer')
.out('ordered').out('contains').out('is').as('products')
.in('is').in('contains').in('ordered').except('customer')
.out('ordered').out('contains').out('is').except('products')
.groupCount().cap().orderMap(T.decr)[0..<5].productName
VS.
Confidential 2016
26. Cas d’utilisation et pourquoi ?
Confidential 2016
Meilleur réponse pour les applications avec des données
hautement connectés (Réseaux électriques, réseaux sociaux …)
27. Multi-Modèle dans DataStax Enterprise
Confidential 2016
Transactions Analytics Search
MixedWorkload Needed?
Solved in DSE
Wide Row Graph JSON
Mixed Model Needed?
Solved in DSE
DSE
Analytics
Search
Transactions
DSE
Wide Row
JSON
Graph
28. DataStax Enterprise Graph
“DSE Graph est une solution de base de données graphe scalable pour les
applications Web et Mobiles avec des besoins de gérer des données
hautement connectés”
Origine : Projet Open Source Titan
DSE Graph est intégré dans DSE:
• Intégration forte dans Cassandra
• OLAP et analyse Graph avec Apache Spark
• OLTP avec support de Apache Solr pour la recherche
• Supervision depuis OpsCenter
• Pas de besoin de noeuds ou clusters additionnels
• Pas de processus externe, même JVM
• Utilisation et Support du framework TinkerPop
Confidential 2016
32. Performance - Montée en Charge - Disponibilité
Cassandra fonctionne aussi bien pour des petits que pour des déploiements énormes!
Déploiement Cassandra chez Apple
75 000+ noeuds
10’s petabytes de données
Millions ops/second
Plus gros cluster à 1000+ noeuds
Apple Inc.: Cassandra at Apple for Massive Scale
Video https://www.youtube.com/watch?v=Bc4ql9TDzyg
From Cassandra Summit, London, December 2014
Confidential 2016
33. Netflix séduit ses Clients avec des Recommandations Personnalisées
Leader mondial de la vidéo en streaming avec un revenu supérieur à 1.5
Milliard de $
Adapte le contenu délivré en se basant sur les données de visionnage
capturées dans Cassandra
Capitalisation boursière en hausse de 600% depuis 2012
L’introduction des ‘Profiles’ a poussé le débit à plus de 10M de transactions par
seconde
A remplacé Oracle dans six data centers dans le monde, 100% en mode cloud
Use Case: Personalization
Confidential 2016
34. Cassandra @ Netflix
• 80+ Clusters
• 2500+ noeuds
• 4 Data Centres (Régions Amazon)
• > 1 Trillion transactions par jour
http://planetcassandra.org/functional-use-cases/
Performance et Montée en Charge
Confidential 2016
35. British Gas Tackles Internet-of-Things with DataStax
Connected Homes, a new business unit, handles IoT-based customer systems
Provides remote control over thermostats and boilers via smart phones/tablets
Delivers analytics on energy usage to customers
Will be using predictive analysis to forecast things like boiler failures
Uses DataStaxEnterprise for transactional data consumption and real-time analytics
Confidential 2016
38. Google Nest Revolutionizes the Thermostat
Google pays $3BN for Nest, not for thermostat, but for data
All interactions with customer thermostats are written to
DataStax
All mobile application interactions are handled by DataStax
DataStax chosen for ability to handle high velocity writes in
time series
Use Case: Internet Of Things
Confidential 2016
39. Spotify Translates Mood into Music by Delivering the Right Playlist for Every Moment
Leading streaming music provider with over 40M+ active monthly
users
Empowers users to access massive database of music and create
and share custom playlists
Over 1 billion playlists created and managed in real time
More than 40,000 requests/second handled without latency
Managing 500+ nodes across 4000 servers in 4 data centers without
any downtime
Use Case: Playlists
Confidential 2016
40. Credit Suisse Benefits from Cassandra’s Resiliency
Public clouds not an option
Key infrastructure challenges: high availability, data retention, scale and user
experience
Started with risk-management systems to help improve up-time
Expanding into new areas
A new approach—traditional databases could not meet performance needs
Cassandra
Credit Suisse @ Summit 2014
http://www.slideshare.net/planetcassandra/cassandra-summit-2014-an-overview-of-the-hippo-project-at-credit-suisse
Confidential 2016
42. Confidential 2016
Exemple d’architecture chez ING
Source :http://www.natalinobusa.com/2015/11/why-is-smack-stack-all-rage-lately.html
Spark
Mesos
Akka
Cassandra
Kafka
44. DataStax Use Cases in Financial Services
• Real Time Payments Engine
• Post Trade Risk
Reporting/Capital Adequacy
• Global Reference Data
Replication
• Market Data Capture/Replay
• Post Trade Surveillance
• Real Time Fraud Analytics
• Forward Curve Analytics
• Fraud Detection/Money
Laundering
• Security
• Product Personalization
• Identity Management
Confidential 2016
45. Sony PS4 Delivers Social and Engaging Gaming Experiences with DataStax
Sony Entertainment Network provides digital entertainment services among which
PS4 is a huge success PS4: engages gamers with personalized product
recommendation and always connected social gaming features
Reaches over 200,000 /second read/write speeds to guarantee application
performance
Hybrid deployment with front features on AWS and multi micro services on-premise
Confidential 2016
46. Delivers 150+ Billion Content Recommendations Per Month
Serves content for largest media brands in the
world: Reuters, Wall St Journal, USA Today
Needed a massively scalable datastore
High velocity of data with 58,000 links to
content per second
Always-on data architecture Use Case: Recommendations / Personalization
Confidential 2016
47. Comcast Invents the Future of Television on Cassandra
Future of TV: cloud-based X1 platform connects viewers with more
content
Track your favorite team’s score while watching a movie, or TV show
Off the shelf offerings and traditional technologies failed
Requires a robust infrastructure with low overhead
Needs to be always-on across multiple datacenters
Use Case: Messaging
Confidential 2016
48. EBay Connects 100M Customers with 400M Items; Always-On
World’s largest online marketplace needed highly scalable, available
and robust data store
Handles fraud detection, messaging, and more with DataStax
Enterprise
Ensures that users get the most accurate results for their searches
Stores vast amounts of data: 250 TBs (Single transactional table:
40TB!)
Handles high velocity with over 6 billion writes and 5 billion reads daily
Confidential 2016
49. eBay – Massive Performance and Scalability
Confidential 2016
http://www.datastax.com/resources/casestudies/ebay
50. Target Scales Across Geographies with Cassandra
Leading American retailer with over 1900 stores
Legacy infrastructure limited scale across geographies and innovation of
mobile features
DataStaxchosen as the database platform for Target’s web and high
transaction mobile API
3 months from choosing DataStaxto live in a critical production environment
Agility and 4x faster time to market of innovative features
Use Case: Personalization
Confidential 2016