Your SlideShare is downloading. ×
Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec le témoignage Big Data de Photobox ?
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec le témoignage Big Data de Photobox ?

513

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
513
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Romain Chaumais Le Cloud au service du Digital   Directeur du développement
  • 2. Qui sommes-nous ? Agence conseil en technologie digitale Nos métiers : Marketing digital, CRM, eCommerce, Cloud Computing, Business Intelligence & Big Data
  • 3. Bienvenue dans un monde ultra digital
  • 4. Retour vers le futur 2004 Ouverture de la 3G en France 2006 Ouverture de Facebook au grand public 2007 Lancement de l’iPhone et de la révolution des Smartdevices
  • 5. Retour vers le futur Le déploiement de la 3G en France et dans le monde • 75% de la population française couverte en 3G en 2009 • 98% de la population française couverte en 3G en 2012 • 60% de la population française couverte en 4G en 2019 • 1,6 milliard de forfaits mobiles haut débit en 2012 dans le monde 2004 Ouverture de la 3G en France
  • 6. Retour vers le futur 2006 Ouverture de Facebook au grand public
  • 7. Retour vers le futur 2007 Lancement de l’iPhone et de la révolution des Smartdevices
  • 8. Retour vers le futur … en moins de 10 ans ! Smart Device Réseaux sociaux Haut débit sans fil
  • 9. L’impact de toute innovation technologique est souvent surestimé à court terme et sous-estimé à long terme
  • 10. Retour vers le futur
  • 11. La digitalisation des interactions
  • 12. Initie une recherche en boutique, va en magasin, consulte ses amis et concrétise sur sa tablette. Digital Physique Digital Exemple de digitalisation des interactions
  • 13. Products Centrics Hier Multi canal Aujourd’hui Customers Centrics Omnicanal L’impact de la digitalisation des interactions
  • 14. Big Data Pages vues, clics, produits détenus, inscriptions, centre d’intérêts, Connaissance CLIENTS Anatomie d’une plate-forme digitale Interactions marque/utilisateurs Pilotage & Mesure de la performance La bonne pub Le bon contenu La bonne offre Le bon message À la bonne personne sur le bon support Métiers, Outils & Partenaires
  • 15. Le Cloud au service du Digital Big Data Métiers, Outils & Partenaires € Interactions marque/utilisateurs Pilotage & Mesure de la performance Infrastructures ApplicationsBig Data
  • 16. Combiner les bénéfices du Cloud
  • 17. Nos offres Cloud
  • 18. Exemple de plateformes digitales dans AWS
  • 19. Exemple de plateformes digitales dans AWS
  • 20. Merci Romain Chaumais
  • 21. Maxime Mézin Photobox RedShift Data Foundation Manager
  • 22. •  Leader Européen du tirage et du livre photo •  25 millions de clients •  17 pays et dernière ouverture il y a 6 mois en Australie •  Stockage de milliards de photos
  • 23. Problématique •  Des traitements de rafraichissement du datawarehouse trop longs –  8h en temps normal –  Jusqu’à 12h en période de Noel •  Une limitation en terme de stockage –  5 To actuellement avec uniquement les données de vente du site –  Nécessité de remplacer le Hardware •  Acquisition d’un environnement de développement à un prix élevé •  Nécessite un contrat administration distante (DBA externe) •  Problème de modèle de licence pour connecter notre outils de reporting
  • 24. En continuant comme ca… •  Remplacement du hardware –  100 k€ •  Achat de nouvelles licences –  100 k€ –  Implique l’augmentation du coût de support •  Toujours pas de flexibilité •  Augmentation des coûts en CAPEX et OPEX •  Pour une une performance équivalente…
  • 25. •  Croiser l’ensemble des sources de données de l’entreprise afin d’améliorer : –  La satisfaction client –  Le ciblage CRM –  Le reporting –  Analyser les données au niveau le plus fin : la photo Les besoins pour le futur
  • 26. Le Big Data •  Face aux contraintes actuelles et besoins futurs nous nous sommes lancés dans les technologies Big Data open source : –  Création d’un cluster Hadoop sur EC2 avec whirr et mesos –  Développement en Clojure / Cascalog pour le traitement des données –  Utilisation de Hive + Hbase •  Après 6 mois nous n’avions toujours pas de résultats probants et une problématique de persistance des données complexe à résoudre –  Beaucoup de temps passé à paramétrer le cluster et peu de temps disponible pour travailler sur les données. –  Temps d’apprentissage conséquent et ressources rares
  • 27. Proof Of Concept Redshift •  Premier point fort : Le prix •  Deuxième point fort : La promesse d’une performance « Big Data » en SQL •  L’objectif était de tester les points suivants : –  Temps de chargement des données –  Evaluation du nombre de nœuds nécessaires –  Flexibilité : temps de passage de 1 à N nœuds –  Performance sur une simulation d’alimentation quotidienne –  Fonctions d’agrégation disponibles
  • 28. Résultat du POC •  Chargement : –  4 jours pour extraire les données côté Photobox –  Entre 50 minutes et 5 minutes pour charger les données dans Redshift •  Performances : –  Count(*) impossible à lancer sur la table photos sur le slave Mysql –  3 secondes sur Redshift •  Fonctions : –  Quasiment équivalente (ex: manque le pivot/unpivot) •  Flexibilité : –  Passage de 1 à 8 nœuds en 6h –  Création d’un environnement de dev en quelques minutes
  • 29. Déploiement de Redshift avec 1 ETP •  Annonce de Redshift le 28/11/2012 •  Demande d’accès le 10/12/2012 •  Premier accès fin décembre •  Fin de la Beta 15 février •  Passage en prod mi-mars •  Achat de 8 instances réservées pour 3 ans en Mai
  • 30. Architecture Actuelle
  • 31. Intégration d’EMR dans le Workflow •  Elastic Map Reduce est utilisé comme un ETL via •  Le process est donc le suivant : –  Lancement d’EMR –  Installation de Sqoop –  Chargement des données de la base Mysql sur hdfs –  Copie des données de HDFS vers S3 –  Chargement des données de S3 vers Redshift •  Paramètres : –  Nb d’instances –  Degré de parallélisme –  La clef de partitionnement
  • 32. •  L’alimentation quotidienne du datawarehouse se fait en 2 étapes –  Récupération des données sur une base slave du site –  Calcul des agrégats Avant EMR / Redshift Chargement : 1h30 Chargement : 1h (limitation DB slave) Agrégation : 6h Agrégation : 40 min (9 x plus rapide) Performance Avant / Après
  • 33. Performance •  Temps de traitement observé en fonction du nombre de nœuds •  5 To avant (données + index), 500 Go sur Redshift ! 0   20   40   60   80   100   120   2   4   8   Perf  (min)   Perf  (min)  
  • 34. Coût avant / après •  Avant –  Opex : 70 k€ •  Support Licence : 30 k€ •  External DBA : 40 k€ –  Capex : 20 k€ / an (amorti) –  Total : 90 k€ •  Redshift –  Opex : Redshift + EMR = 17 k$ = 13 k€ => 7 x moins cher –  Pourquoi la région US East ? •  Initialement le service n’était pas disponible dans les autres régions •  Pas de contrainte de latence (90 ms US East vs 30 ms EU)
  • 35. Sécurité •  VPN / VPC et ou Firewall •  SSH •  Cryptage •  Légal : Safe Harbor Act –  la Sphère de sécurité (Safe Harbor) permet à une entreprise américaine de certifier qu'elle respecte la législation de l'Espace économique européen (EEE) afin d'obtenir l'autorisation de transférer des données personnelles de l'EEE vers les Etats-Unis.
  • 36. Fail over •  Unload hebdomadaire de Redshift US => S3 •  Réplication S3 inter region S3 US => S3 EU
  • 37. Conclusion •  Plus de fiabilité •  Un budget divisé par 7 •  Des performances à minima 10 fois meilleures •  Une capacité de stockage multipliée par 32 •  Une scalabilité simplifiée
  • 38. Questions ? Merci

×