Your SlideShare is downloading. ×
0
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données

1,464

Published on

Track 3 - Session 3 : Du temps réel au data warehouse : capturez et analysez en temps réel vos données

Track 3 - Session 3 : Du temps réel au data warehouse : capturez et analysez en temps réel vos données

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,464
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
64
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. © 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc. Du temps réel au data warehouse : capturez et analysez en temps réel vos données Julien Lépine, Solutions Architect, Amazon Adrien Schmidt, CEO, Squid Solutions 13 Mai 2014@aws_actus / #awssummit
  • 2. Big Data: des données en augmentation perpétuelle Go To Po 95% des 1,2 zettaoctets des données dans l’univers digital sont non structurées 70% de ces données ont été générées par des utilisateurs La croissance des données non structurées est explosive, avec des croissances annuelles (CAGR) de 62% entre 2008 et 2012. Source: IDC Zo Eo
  • 3. Un écosystème Big Data Amazon Redshift Amazon EMR Amazon EC2 Analyser Amazon Glacier Amazon S3 Amazon DynamoDB Stocker AWS Direct Connect Collecter Amazon Kinesis
  • 4. Stockage illimité ; faible coût Stockage d’objets ; disponibilité Élastique et sécurisé Durable: 99,999999999% Amazon S3
  • 5. Clusters Hadoop Plateforme managée Simple d’utilisation Intégré à Amazon S3, DynamoDB Amazon Elastic MapReduce
  • 6. Service de métrologie AWS Cas d’usage • X * 10M d’enregistrements/sec • X * 100K sources • X To par heure Contraintes • Besoin de plus d’élasticité • Envie d’alertes en temps-réel • Coûteux à opérer • Stockage éventuellement consistent
  • 7. Notre transition « Big Data » Ancien besoin • Accepter des volumes très importants de données et les traiter par lots horaires ou quotidiens Nouveau besoin • Prendre des décisions plus rapidement, même en temps-réel • Redimensionner le système complet à l’échelle, de manière élastique • Rendre facile le fait de « garder tout » • Permettre à plusieurs applications de traiter les données en parallèle
  • 8. Scenarios Capture-Transformation-Chargement accéléré Métrique continue / KPI Extraction Analyse réactive sur les données Types de données Infrastructure IT, Logs Applicatifs, Média Sociaux, Données Financières, Clics Web, Capteurs, Geolocalisation Logiciels / technologie Serveurs IT, Traitement Logs applications Tableaux de bord opérationnels IT Intelligence opérationnelle sur capteurs Marketing / Publicité en ligne Agrégation de données marketing Advertising metrics like coverage, yield, conversion Analytique sur engagement client avec les publicités, optimisation des bids Finance Collecte de données des marchés financiers Métriques de données financières Analyse et détection de fraudes, suivi de VAR audit d’ordres sur les marchés E-Commerce / Plateformes en ligne Agrégation de données sur l’engagement en ligne des clients Métriques d’engagement client, CTR, pages vues, … Moteurs de recommandation, analyse de comportement Scénarios clients sur plusieurs industries
  • 9. Traitement temps-réel Élastique; forte volumétrie Simple d’utilisation Intégré dans l’écosystème Amazon Kinesis
  • 10. Architecture Amazon Kinesis Amazon Web Services AZ AZ AZ Durable, highly consistent storage replicates data across three data centers (availability zones) Aggregate and archive to S3 Millions of sources producing 100s of terabytes per hour Front End Authentication Authorization Ordered stream of events supports multiple readers Real-time dashboards and alarms Machine learning algorithms or sliding window analytics Aggregate analysis in Hadoop or a data warehouse Inexpensive: $0.028 per million puts
  • 11. Plateforme pour l’intégration et le traitement continu Le bon outil pour le bon cas d’usage Intégration temps-réel • Passe à l’échelle • Durable • Élastique • Lecture / relecture Traitement continu • Équilibrage de charge sur les flux d’entrée • Tolérance de panne, Checkpoint / Replay • Élastique • Plusieurs applications traitent en parallèle Permet le transfert de données vers des points de stockage / traitement Service managé Latence faible de bout-en-bout Traitement en continu et en temps-réel
  • 12. Écrire dans Kinesis Une interface simple « Put » • Les producteurs utilisent un appel PUT pour stocker des données dans un Stream • PutRecord {Data, PartitionKey, StreamName} • Une clé de partitionnement est fournie par le producteur afin de cibler un Shard • Kinesis utilise un algorithme de hash pour déterminer dans quel Shard stocker les données • Un numéro unique de séquence est retourné au producteur une fois les données stockées
  • 13. Exemple Javascript
  • 14. Accélérer le développement d’applications de traitement Kinesis avec le Kinesis Client Library o Bibliothèque Java ouverte, sources sur GitHub o Concevez et déployez des applications sur Amazon EC2 o KCL sert d’intermédiaire de traitement:  Démarre un « Worker » pour chaque Shard  Simplifie la lecture via une abstraction des Shards  Augmente / Diminue le nombre de Workers en fonction du nombre de Shards  Gère les Checkpoints et la reprise sur erreur o Gère la répartition de charge avec les Auto Scaling Groups
  • 15. Connecter Kinesis avec Amazon DynamoDB, S3, Redshift ou votre système avec Kinesis Connector Library Amazon S3 Amazon DynamoDB Amazon Redshift Amazon Kinesis ITransformer • Transforme un enregistrement Kinesis en une donnée utile IFilter • Exclue les enregistrements non pertinents IBuffer • Regroupe les enregistrements ensemble pour faciliter le traitement par lot IEmitter • Enregistre les lots d’enregistrements vers un système de stockage
  • 16. D’autres options de lecture de Streams Kinesis APIs, Storm o Utiliser les APIs « Get* » pour lire les données brutes depuis les flux Kinesis • GetRecords {Limit, ShardIterator} • GetShardIterator {ShardId, ShardIteratorType, StartingSequenceNumber, StreamName} o Intégrer Kinesis avec des Topologies Storm • Bootstraps (Zookeeper) attache les Shards aux Spouts • Lecture de données depuis les Streams Kinesis • Émet des « tuples » et gère le Checkpoints (Zookeeper)
  • 17. Envoyer et lire des données avec Kinesis HTTP Post AWS SDK LOG4J Flume Fluentd Get* APIs Kinesis Client Library + Connector Library Apache Storm Amazon Elastic MapReduce Envoyer Lire
  • 18. Utiliser EMR pour lire et traiter des flux Kinesis Traitement Source • Analyste • Développeur Mon site Kinesis Log4J Appender Envoi vers Kinesis EMR – AMI 3.0.5 Hive Pig Cascading MapReduce Lit depuis
  • 19. Exemple Hive
  • 20. Tarif Kinesis Simple, paiement à l’usage, pas d’engagement Type d’usage Prix Shard par Heure $0,015 1,000,000 transactions PUT $0,028 • Le niveau de performance est défini en nombre de Shards, choisi par le client • Chaque Shard fournit 1 Mo/s en écriture, and 2 Mo/s en lecture • Bande passante entrante gratuite • Les applications de lecture Kinesis sur EC2 sont facturées au tarif EC2
  • 21. HDFS Plateformes d’analyse Gestion de données Amazon RedShift Amazon EMR Amazon RDS Amazon S3 Amazon DynamoDB Amazon Kinesis Sources SourcesSources de données AWS Data Pipeline
  • 22. À l’échelle du Pétaoctet Massivement parallèle Data warehouse relationnel Totalement managé Amazon Redshift beaucoup plus rapide beaucoup moins cher vraiment beaucoup plus simple
  • 23. Maîtriser Amazon Redshift Adrien Schmidt CEO, Squid Solutions
  • 24. A propos de Squid Solutions • 10 ans d’expérience • 4 profils tech différents • 14 DWH en gestion • 20To données en ligne • 2 plateformes big data • 8 semaines par POC • Toute la chaine data
  • 25. A propos de ProQuest • Distribution de contenus numériques • 90,000 sources • 6B pages de contenus • 20M d’articles • 450K Ebooks • 100 pays
  • 26. A propos d’Amazon Redshift Principes clé • MPP / Shared Nothing • Horizontal scalability • Data Distribution • Parallel Import Disponible à la demande • 4 configurations de base • Extensible (up/down) • Stop and go 10 GigE (HPC) Ingestion Backup Restore JDBC/ODBC
  • 27. Le choix de Redshift • Les fonctions et performances d’une base SQL MPP mature – Performances pour des requêtes interactives – SQL avancé pour l’analyse – Un moteur en en développement actif • Le modèle de coût et la flexibilité des solutions Hadoop – Volumétrie adapté Go/To/Po – Engagement longue durée divise les coûts par 3
  • 28. Répondre aux attentes clients spécifiques Données agrégées Faible latence End user reports & analysis Données granulaires Forte latence Intégrité des données, analyses avancées
  • 29. Des couches de données bottom-up Raw Data Layer Reporting Layer Global KPI Layer Business intelligence à travers les départements Rapports standard “COUNTER-compliant” Analyse fine de l’usage
  • 30. Une infrastructure robuste sur AWS ProQuest Big Data Analytics Secure Available Flexible Scalable
  • 31. © 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc. 13 Mai 2014 Merci ! Du temps réel au data warehouse : capturez et analysez en temps réel vos données Julien Lépine, Solutions Architect, Amazon Adrien Schmidt, CEO, Squid Solutions @aws_actus / #awssummit

×