AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données

2,105 views

Published on

Track 3 - Session 3 : Du temps réel au data warehouse : capturez et analysez en temps réel vos données

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,105
On SlideShare
0
From Embeds
0
Number of Embeds
671
Actions
Shares
0
Downloads
73
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données

  1. 1. © 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc. Du temps réel au data warehouse : capturez et analysez en temps réel vos données Julien Lépine, Solutions Architect, Amazon Adrien Schmidt, CEO, Squid Solutions 13 Mai 2014@aws_actus / #awssummit
  2. 2. Big Data: des données en augmentation perpétuelle Go To Po 95% des 1,2 zettaoctets des données dans l’univers digital sont non structurées 70% de ces données ont été générées par des utilisateurs La croissance des données non structurées est explosive, avec des croissances annuelles (CAGR) de 62% entre 2008 et 2012. Source: IDC Zo Eo
  3. 3. Un écosystème Big Data Amazon Redshift Amazon EMR Amazon EC2 Analyser Amazon Glacier Amazon S3 Amazon DynamoDB Stocker AWS Direct Connect Collecter Amazon Kinesis
  4. 4. Stockage illimité ; faible coût Stockage d’objets ; disponibilité Élastique et sécurisé Durable: 99,999999999% Amazon S3
  5. 5. Clusters Hadoop Plateforme managée Simple d’utilisation Intégré à Amazon S3, DynamoDB Amazon Elastic MapReduce
  6. 6. Service de métrologie AWS Cas d’usage • X * 10M d’enregistrements/sec • X * 100K sources • X To par heure Contraintes • Besoin de plus d’élasticité • Envie d’alertes en temps-réel • Coûteux à opérer • Stockage éventuellement consistent
  7. 7. Notre transition « Big Data » Ancien besoin • Accepter des volumes très importants de données et les traiter par lots horaires ou quotidiens Nouveau besoin • Prendre des décisions plus rapidement, même en temps-réel • Redimensionner le système complet à l’échelle, de manière élastique • Rendre facile le fait de « garder tout » • Permettre à plusieurs applications de traiter les données en parallèle
  8. 8. Scenarios Capture-Transformation-Chargement accéléré Métrique continue / KPI Extraction Analyse réactive sur les données Types de données Infrastructure IT, Logs Applicatifs, Média Sociaux, Données Financières, Clics Web, Capteurs, Geolocalisation Logiciels / technologie Serveurs IT, Traitement Logs applications Tableaux de bord opérationnels IT Intelligence opérationnelle sur capteurs Marketing / Publicité en ligne Agrégation de données marketing Advertising metrics like coverage, yield, conversion Analytique sur engagement client avec les publicités, optimisation des bids Finance Collecte de données des marchés financiers Métriques de données financières Analyse et détection de fraudes, suivi de VAR audit d’ordres sur les marchés E-Commerce / Plateformes en ligne Agrégation de données sur l’engagement en ligne des clients Métriques d’engagement client, CTR, pages vues, … Moteurs de recommandation, analyse de comportement Scénarios clients sur plusieurs industries
  9. 9. Traitement temps-réel Élastique; forte volumétrie Simple d’utilisation Intégré dans l’écosystème Amazon Kinesis
  10. 10. Architecture Amazon Kinesis Amazon Web Services AZ AZ AZ Durable, highly consistent storage replicates data across three data centers (availability zones) Aggregate and archive to S3 Millions of sources producing 100s of terabytes per hour Front End Authentication Authorization Ordered stream of events supports multiple readers Real-time dashboards and alarms Machine learning algorithms or sliding window analytics Aggregate analysis in Hadoop or a data warehouse Inexpensive: $0.028 per million puts
  11. 11. Plateforme pour l’intégration et le traitement continu Le bon outil pour le bon cas d’usage Intégration temps-réel • Passe à l’échelle • Durable • Élastique • Lecture / relecture Traitement continu • Équilibrage de charge sur les flux d’entrée • Tolérance de panne, Checkpoint / Replay • Élastique • Plusieurs applications traitent en parallèle Permet le transfert de données vers des points de stockage / traitement Service managé Latence faible de bout-en-bout Traitement en continu et en temps-réel
  12. 12. Écrire dans Kinesis Une interface simple « Put » • Les producteurs utilisent un appel PUT pour stocker des données dans un Stream • PutRecord {Data, PartitionKey, StreamName} • Une clé de partitionnement est fournie par le producteur afin de cibler un Shard • Kinesis utilise un algorithme de hash pour déterminer dans quel Shard stocker les données • Un numéro unique de séquence est retourné au producteur une fois les données stockées
  13. 13. Exemple Javascript
  14. 14. Accélérer le développement d’applications de traitement Kinesis avec le Kinesis Client Library o Bibliothèque Java ouverte, sources sur GitHub o Concevez et déployez des applications sur Amazon EC2 o KCL sert d’intermédiaire de traitement:  Démarre un « Worker » pour chaque Shard  Simplifie la lecture via une abstraction des Shards  Augmente / Diminue le nombre de Workers en fonction du nombre de Shards  Gère les Checkpoints et la reprise sur erreur o Gère la répartition de charge avec les Auto Scaling Groups
  15. 15. Connecter Kinesis avec Amazon DynamoDB, S3, Redshift ou votre système avec Kinesis Connector Library Amazon S3 Amazon DynamoDB Amazon Redshift Amazon Kinesis ITransformer • Transforme un enregistrement Kinesis en une donnée utile IFilter • Exclue les enregistrements non pertinents IBuffer • Regroupe les enregistrements ensemble pour faciliter le traitement par lot IEmitter • Enregistre les lots d’enregistrements vers un système de stockage
  16. 16. D’autres options de lecture de Streams Kinesis APIs, Storm o Utiliser les APIs « Get* » pour lire les données brutes depuis les flux Kinesis • GetRecords {Limit, ShardIterator} • GetShardIterator {ShardId, ShardIteratorType, StartingSequenceNumber, StreamName} o Intégrer Kinesis avec des Topologies Storm • Bootstraps (Zookeeper) attache les Shards aux Spouts • Lecture de données depuis les Streams Kinesis • Émet des « tuples » et gère le Checkpoints (Zookeeper)
  17. 17. Envoyer et lire des données avec Kinesis HTTP Post AWS SDK LOG4J Flume Fluentd Get* APIs Kinesis Client Library + Connector Library Apache Storm Amazon Elastic MapReduce Envoyer Lire
  18. 18. Utiliser EMR pour lire et traiter des flux Kinesis Traitement Source • Analyste • Développeur Mon site Kinesis Log4J Appender Envoi vers Kinesis EMR – AMI 3.0.5 Hive Pig Cascading MapReduce Lit depuis
  19. 19. Exemple Hive
  20. 20. Tarif Kinesis Simple, paiement à l’usage, pas d’engagement Type d’usage Prix Shard par Heure $0,015 1,000,000 transactions PUT $0,028 • Le niveau de performance est défini en nombre de Shards, choisi par le client • Chaque Shard fournit 1 Mo/s en écriture, and 2 Mo/s en lecture • Bande passante entrante gratuite • Les applications de lecture Kinesis sur EC2 sont facturées au tarif EC2
  21. 21. HDFS Plateformes d’analyse Gestion de données Amazon RedShift Amazon EMR Amazon RDS Amazon S3 Amazon DynamoDB Amazon Kinesis Sources SourcesSources de données AWS Data Pipeline
  22. 22. À l’échelle du Pétaoctet Massivement parallèle Data warehouse relationnel Totalement managé Amazon Redshift beaucoup plus rapide beaucoup moins cher vraiment beaucoup plus simple
  23. 23. Maîtriser Amazon Redshift Adrien Schmidt CEO, Squid Solutions
  24. 24. A propos de Squid Solutions • 10 ans d’expérience • 4 profils tech différents • 14 DWH en gestion • 20To données en ligne • 2 plateformes big data • 8 semaines par POC • Toute la chaine data
  25. 25. A propos de ProQuest • Distribution de contenus numériques • 90,000 sources • 6B pages de contenus • 20M d’articles • 450K Ebooks • 100 pays
  26. 26. A propos d’Amazon Redshift Principes clé • MPP / Shared Nothing • Horizontal scalability • Data Distribution • Parallel Import Disponible à la demande • 4 configurations de base • Extensible (up/down) • Stop and go 10 GigE (HPC) Ingestion Backup Restore JDBC/ODBC
  27. 27. Le choix de Redshift • Les fonctions et performances d’une base SQL MPP mature – Performances pour des requêtes interactives – SQL avancé pour l’analyse – Un moteur en en développement actif • Le modèle de coût et la flexibilité des solutions Hadoop – Volumétrie adapté Go/To/Po – Engagement longue durée divise les coûts par 3
  28. 28. Répondre aux attentes clients spécifiques Données agrégées Faible latence End user reports & analysis Données granulaires Forte latence Intégrité des données, analyses avancées
  29. 29. Des couches de données bottom-up Raw Data Layer Reporting Layer Global KPI Layer Business intelligence à travers les départements Rapports standard “COUNTER-compliant” Analyse fine de l’usage
  30. 30. Une infrastructure robuste sur AWS ProQuest Big Data Analytics Secure Available Flexible Scalable
  31. 31. © 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc. 13 Mai 2014 Merci ! Du temps réel au data warehouse : capturez et analysez en temps réel vos données Julien Lépine, Solutions Architect, Amazon Adrien Schmidt, CEO, Squid Solutions @aws_actus / #awssummit

×