• Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
476
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Romain Chaumais Le Cloud au service du Digital   Directeur du développement
  • 2. Qui sommes-nous ? Agence conseil en technologie digitale Nos métiers : Marketing digital, CRM, eCommerce, Cloud Computing, Business Intelligence & Big Data
  • 3. Bienvenue dans un monde ultra digital
  • 4. Retour vers le futur 2004 Ouverture de la 3G en France 2006 Ouverture de Facebook au grand public 2007 Lancement de l’iPhone et de la révolution des Smartdevices
  • 5. Retour vers le futur Le déploiement de la 3G en France et dans le monde • 75% de la population française couverte en 3G en 2009 • 98% de la population française couverte en 3G en 2012 • 60% de la population française couverte en 4G en 2019 • 1,6 milliard de forfaits mobiles haut débit en 2012 dans le monde 2004 Ouverture de la 3G en France
  • 6. Retour vers le futur 2006 Ouverture de Facebook au grand public
  • 7. Retour vers le futur 2007 Lancement de l’iPhone et de la révolution des Smartdevices
  • 8. Retour vers le futur … en moins de 10 ans ! Smart Device Réseaux sociaux Haut débit sans fil
  • 9. L’impact de toute innovation technologique est souvent surestimé à court terme et sous-estimé à long terme
  • 10. Retour vers le futur
  • 11. La digitalisation des interactions
  • 12. Initie une recherche en boutique, va en magasin, consulte ses amis et concrétise sur sa tablette. Digital Physique Digital Exemple de digitalisation des interactions
  • 13. Products Centrics Hier Multi canal Aujourd’hui Customers Centrics Omnicanal L’impact de la digitalisation des interactions
  • 14. Big Data Pages vues, clics, produits détenus, inscriptions, centre d’intérêts, Connaissance CLIENTS Anatomie d’une plate-forme digitale Interactions marque/utilisateurs Pilotage & Mesure de la performance La bonne pub Le bon contenu La bonne offre Le bon message À la bonne personne sur le bon support Métiers, Outils & Partenaires
  • 15. Le Cloud au service du Digital Big Data Métiers, Outils & Partenaires € Interactions marque/utilisateurs Pilotage & Mesure de la performance Infrastructures ApplicationsBig Data
  • 16. Combiner les bénéfices du Cloud
  • 17. Nos offres Cloud
  • 18. Exemple de plateformes digitales dans AWS
  • 19. Exemple de plateformes digitales dans AWS
  • 20. Merci Romain Chaumais
  • 21. Maxime Mézin Photobox RedShift Data Foundation Manager
  • 22. •  Leader Européen du tirage et du livre photo •  25 millions de clients •  17 pays et dernière ouverture il y a 6 mois en Australie •  Stockage de milliards de photos
  • 23. Problématique •  Des traitements de rafraichissement du datawarehouse trop longs –  8h en temps normal –  Jusqu’à 12h en période de Noel •  Une limitation en terme de stockage –  5 To actuellement avec uniquement les données de vente du site –  Nécessité de remplacer le Hardware •  Acquisition d’un environnement de développement à un prix élevé •  Nécessite un contrat administration distante (DBA externe) •  Problème de modèle de licence pour connecter notre outils de reporting
  • 24. En continuant comme ca… •  Remplacement du hardware –  100 k€ •  Achat de nouvelles licences –  100 k€ –  Implique l’augmentation du coût de support •  Toujours pas de flexibilité •  Augmentation des coûts en CAPEX et OPEX •  Pour une une performance équivalente…
  • 25. •  Croiser l’ensemble des sources de données de l’entreprise afin d’améliorer : –  La satisfaction client –  Le ciblage CRM –  Le reporting –  Analyser les données au niveau le plus fin : la photo Les besoins pour le futur
  • 26. Le Big Data •  Face aux contraintes actuelles et besoins futurs nous nous sommes lancés dans les technologies Big Data open source : –  Création d’un cluster Hadoop sur EC2 avec whirr et mesos –  Développement en Clojure / Cascalog pour le traitement des données –  Utilisation de Hive + Hbase •  Après 6 mois nous n’avions toujours pas de résultats probants et une problématique de persistance des données complexe à résoudre –  Beaucoup de temps passé à paramétrer le cluster et peu de temps disponible pour travailler sur les données. –  Temps d’apprentissage conséquent et ressources rares
  • 27. Proof Of Concept Redshift •  Premier point fort : Le prix •  Deuxième point fort : La promesse d’une performance « Big Data » en SQL •  L’objectif était de tester les points suivants : –  Temps de chargement des données –  Evaluation du nombre de nœuds nécessaires –  Flexibilité : temps de passage de 1 à N nœuds –  Performance sur une simulation d’alimentation quotidienne –  Fonctions d’agrégation disponibles
  • 28. Résultat du POC •  Chargement : –  4 jours pour extraire les données côté Photobox –  Entre 50 minutes et 5 minutes pour charger les données dans Redshift •  Performances : –  Count(*) impossible à lancer sur la table photos sur le slave Mysql –  3 secondes sur Redshift •  Fonctions : –  Quasiment équivalente (ex: manque le pivot/unpivot) •  Flexibilité : –  Passage de 1 à 8 nœuds en 6h –  Création d’un environnement de dev en quelques minutes
  • 29. Déploiement de Redshift avec 1 ETP •  Annonce de Redshift le 28/11/2012 •  Demande d’accès le 10/12/2012 •  Premier accès fin décembre •  Fin de la Beta 15 février •  Passage en prod mi-mars •  Achat de 8 instances réservées pour 3 ans en Mai
  • 30. Architecture Actuelle
  • 31. Intégration d’EMR dans le Workflow •  Elastic Map Reduce est utilisé comme un ETL via •  Le process est donc le suivant : –  Lancement d’EMR –  Installation de Sqoop –  Chargement des données de la base Mysql sur hdfs –  Copie des données de HDFS vers S3 –  Chargement des données de S3 vers Redshift •  Paramètres : –  Nb d’instances –  Degré de parallélisme –  La clef de partitionnement
  • 32. •  L’alimentation quotidienne du datawarehouse se fait en 2 étapes –  Récupération des données sur une base slave du site –  Calcul des agrégats Avant EMR / Redshift Chargement : 1h30 Chargement : 1h (limitation DB slave) Agrégation : 6h Agrégation : 40 min (9 x plus rapide) Performance Avant / Après
  • 33. Performance •  Temps de traitement observé en fonction du nombre de nœuds •  5 To avant (données + index), 500 Go sur Redshift ! 0   20   40   60   80   100   120   2   4   8   Perf  (min)   Perf  (min)  
  • 34. Coût avant / après •  Avant –  Opex : 70 k€ •  Support Licence : 30 k€ •  External DBA : 40 k€ –  Capex : 20 k€ / an (amorti) –  Total : 90 k€ •  Redshift –  Opex : Redshift + EMR = 17 k$ = 13 k€ => 7 x moins cher –  Pourquoi la région US East ? •  Initialement le service n’était pas disponible dans les autres régions •  Pas de contrainte de latence (90 ms US East vs 30 ms EU)
  • 35. Sécurité •  VPN / VPC et ou Firewall •  SSH •  Cryptage •  Légal : Safe Harbor Act –  la Sphère de sécurité (Safe Harbor) permet à une entreprise américaine de certifier qu'elle respecte la législation de l'Espace économique européen (EEE) afin d'obtenir l'autorisation de transférer des données personnelles de l'EEE vers les Etats-Unis.
  • 36. Fail over •  Unload hebdomadaire de Redshift US => S3 •  Réplication S3 inter region S3 US => S3 EU
  • 37. Conclusion •  Plus de fiabilité •  Un budget divisé par 7 •  Des performances à minima 10 fois meilleures •  Une capacité de stockage multipliée par 32 •  Une scalabilité simplifiée
  • 38. Questions ? Merci