Romain Chaumais
Le Cloud au service du Digital	
  
Directeur du développement
Qui sommes-nous ?
Agence conseil en technologie digitale
Nos métiers : Marketing digital, CRM,
eCommerce, Cloud Computing,...
Bienvenue dans un monde
ultra digital
Retour vers le futur
2004
 Ouverture de la 3G en France
2006
 Ouverture de Facebook au
grand public 
2007
 Lancement de l’...
Retour vers le futur
Le déploiement de la 3G en France et dans le monde
• 75% de la population française couverte en 3G en...
Retour vers le futur
2006
 Ouverture de Facebook au
grand public
Retour vers le futur
2007
 Lancement de l’iPhone et de la
révolution des Smartdevices
Retour vers le futur … en moins de 10 ans !
Smart Device
Réseaux sociaux
Haut débit sans fil
L’impact de toute innovation technologique
est souvent surestimé à court terme et
sous-estimé à long terme
Retour vers le futur
La digitalisation des interactions
Initie une recherche en boutique, va en magasin, consulte ses amis et
concrétise sur sa tablette.
Digital Physique Digital...
Products
Centrics
Hier
Multi canal
Aujourd’hui
Customers
Centrics
Omnicanal
L’impact de la digitalisation des interactions
Big Data
Pages vues, clics, produits
détenus, inscriptions, centre
d’intérêts, 
Connaissance CLIENTS
Anatomie d’une plate-...
Le Cloud au service du Digital
Big Data
 Métiers, Outils & Partenaires
€
Interactions marque/utilisateurs
Pilotage & Mesur...
Combiner les bénéfices du Cloud
Nos offres Cloud
Exemple de plateformes digitales dans AWS
Exemple de plateformes digitales dans AWS
Merci
Romain Chaumais
Maxime Mézin
Photobox RedShift
Data Foundation Manager
•  Leader Européen du tirage et du livre photo
•  25 millions de clients
•  17 pays et dernière ouverture il y a 6 mois en...
Problématique
•  Des traitements de rafraichissement du datawarehouse trop longs
–  8h en temps normal
–  Jusqu’à 12h en p...
En continuant comme ca…
•  Remplacement du hardware
–  100 k€
•  Achat de nouvelles licences
–  100 k€
–  Implique l’augme...
•  Croiser l’ensemble des sources de
données de l’entreprise afin
d’améliorer :
–  La satisfaction client
–  Le ciblage CR...
Le Big Data
•  Face aux contraintes actuelles et besoins futurs nous nous sommes lancés
dans les technologies Big Data ope...
Proof Of Concept Redshift
•  Premier point fort : Le prix
•  Deuxième point fort : La promesse d’une performance « Big Dat...
Résultat du POC
•  Chargement :
–  4 jours pour extraire les données côté Photobox
–  Entre 50 minutes et 5 minutes pour c...
Déploiement de Redshift avec 1 ETP
•  Annonce de Redshift le
28/11/2012
•  Demande d’accès le
10/12/2012
•  Premier accès ...
Architecture Actuelle
Intégration d’EMR dans le Workflow
•  Elastic Map Reduce est utilisé comme un ETL via
•  Le process est donc le suivant :
...
•  L’alimentation quotidienne du datawarehouse se fait en 2 étapes
–  Récupération des données sur une base slave du site
...
Performance
•  Temps de traitement observé en fonction du nombre de nœuds
•  5 To avant (données + index), 500 Go sur Reds...
Coût avant / après
•  Avant
–  Opex : 70 k€
•  Support Licence : 30 k€
•  External DBA : 40 k€
–  Capex : 20 k€ / an (amor...
Sécurité
•  VPN / VPC et ou Firewall
•  SSH
•  Cryptage
•  Légal : Safe Harbor Act
–  la Sphère de sécurité (Safe Harbor) ...
Fail over
•  Unload hebdomadaire de Redshift US => S3
•  Réplication S3 inter region S3 US => S3 EU
Conclusion
•  Plus de fiabilité
•  Un budget divisé par 7
•  Des performances à minima 10 fois meilleures
•  Une capacité ...
Questions ?
Merci
Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec le témoignage Big Data de Photobox ?
Upcoming SlideShare
Loading in...5
×

Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec le témoignage Big Data de Photobox ?

533

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
533
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec le témoignage Big Data de Photobox ?"

  1. 1. Romain Chaumais Le Cloud au service du Digital   Directeur du développement
  2. 2. Qui sommes-nous ? Agence conseil en technologie digitale Nos métiers : Marketing digital, CRM, eCommerce, Cloud Computing, Business Intelligence & Big Data
  3. 3. Bienvenue dans un monde ultra digital
  4. 4. Retour vers le futur 2004 Ouverture de la 3G en France 2006 Ouverture de Facebook au grand public 2007 Lancement de l’iPhone et de la révolution des Smartdevices
  5. 5. Retour vers le futur Le déploiement de la 3G en France et dans le monde • 75% de la population française couverte en 3G en 2009 • 98% de la population française couverte en 3G en 2012 • 60% de la population française couverte en 4G en 2019 • 1,6 milliard de forfaits mobiles haut débit en 2012 dans le monde 2004 Ouverture de la 3G en France
  6. 6. Retour vers le futur 2006 Ouverture de Facebook au grand public
  7. 7. Retour vers le futur 2007 Lancement de l’iPhone et de la révolution des Smartdevices
  8. 8. Retour vers le futur … en moins de 10 ans ! Smart Device Réseaux sociaux Haut débit sans fil
  9. 9. L’impact de toute innovation technologique est souvent surestimé à court terme et sous-estimé à long terme
  10. 10. Retour vers le futur
  11. 11. La digitalisation des interactions
  12. 12. Initie une recherche en boutique, va en magasin, consulte ses amis et concrétise sur sa tablette. Digital Physique Digital Exemple de digitalisation des interactions
  13. 13. Products Centrics Hier Multi canal Aujourd’hui Customers Centrics Omnicanal L’impact de la digitalisation des interactions
  14. 14. Big Data Pages vues, clics, produits détenus, inscriptions, centre d’intérêts, Connaissance CLIENTS Anatomie d’une plate-forme digitale Interactions marque/utilisateurs Pilotage & Mesure de la performance La bonne pub Le bon contenu La bonne offre Le bon message À la bonne personne sur le bon support Métiers, Outils & Partenaires
  15. 15. Le Cloud au service du Digital Big Data Métiers, Outils & Partenaires € Interactions marque/utilisateurs Pilotage & Mesure de la performance Infrastructures ApplicationsBig Data
  16. 16. Combiner les bénéfices du Cloud
  17. 17. Nos offres Cloud
  18. 18. Exemple de plateformes digitales dans AWS
  19. 19. Exemple de plateformes digitales dans AWS
  20. 20. Merci Romain Chaumais
  21. 21. Maxime Mézin Photobox RedShift Data Foundation Manager
  22. 22. •  Leader Européen du tirage et du livre photo •  25 millions de clients •  17 pays et dernière ouverture il y a 6 mois en Australie •  Stockage de milliards de photos
  23. 23. Problématique •  Des traitements de rafraichissement du datawarehouse trop longs –  8h en temps normal –  Jusqu’à 12h en période de Noel •  Une limitation en terme de stockage –  5 To actuellement avec uniquement les données de vente du site –  Nécessité de remplacer le Hardware •  Acquisition d’un environnement de développement à un prix élevé •  Nécessite un contrat administration distante (DBA externe) •  Problème de modèle de licence pour connecter notre outils de reporting
  24. 24. En continuant comme ca… •  Remplacement du hardware –  100 k€ •  Achat de nouvelles licences –  100 k€ –  Implique l’augmentation du coût de support •  Toujours pas de flexibilité •  Augmentation des coûts en CAPEX et OPEX •  Pour une une performance équivalente…
  25. 25. •  Croiser l’ensemble des sources de données de l’entreprise afin d’améliorer : –  La satisfaction client –  Le ciblage CRM –  Le reporting –  Analyser les données au niveau le plus fin : la photo Les besoins pour le futur
  26. 26. Le Big Data •  Face aux contraintes actuelles et besoins futurs nous nous sommes lancés dans les technologies Big Data open source : –  Création d’un cluster Hadoop sur EC2 avec whirr et mesos –  Développement en Clojure / Cascalog pour le traitement des données –  Utilisation de Hive + Hbase •  Après 6 mois nous n’avions toujours pas de résultats probants et une problématique de persistance des données complexe à résoudre –  Beaucoup de temps passé à paramétrer le cluster et peu de temps disponible pour travailler sur les données. –  Temps d’apprentissage conséquent et ressources rares
  27. 27. Proof Of Concept Redshift •  Premier point fort : Le prix •  Deuxième point fort : La promesse d’une performance « Big Data » en SQL •  L’objectif était de tester les points suivants : –  Temps de chargement des données –  Evaluation du nombre de nœuds nécessaires –  Flexibilité : temps de passage de 1 à N nœuds –  Performance sur une simulation d’alimentation quotidienne –  Fonctions d’agrégation disponibles
  28. 28. Résultat du POC •  Chargement : –  4 jours pour extraire les données côté Photobox –  Entre 50 minutes et 5 minutes pour charger les données dans Redshift •  Performances : –  Count(*) impossible à lancer sur la table photos sur le slave Mysql –  3 secondes sur Redshift •  Fonctions : –  Quasiment équivalente (ex: manque le pivot/unpivot) •  Flexibilité : –  Passage de 1 à 8 nœuds en 6h –  Création d’un environnement de dev en quelques minutes
  29. 29. Déploiement de Redshift avec 1 ETP •  Annonce de Redshift le 28/11/2012 •  Demande d’accès le 10/12/2012 •  Premier accès fin décembre •  Fin de la Beta 15 février •  Passage en prod mi-mars •  Achat de 8 instances réservées pour 3 ans en Mai
  30. 30. Architecture Actuelle
  31. 31. Intégration d’EMR dans le Workflow •  Elastic Map Reduce est utilisé comme un ETL via •  Le process est donc le suivant : –  Lancement d’EMR –  Installation de Sqoop –  Chargement des données de la base Mysql sur hdfs –  Copie des données de HDFS vers S3 –  Chargement des données de S3 vers Redshift •  Paramètres : –  Nb d’instances –  Degré de parallélisme –  La clef de partitionnement
  32. 32. •  L’alimentation quotidienne du datawarehouse se fait en 2 étapes –  Récupération des données sur une base slave du site –  Calcul des agrégats Avant EMR / Redshift Chargement : 1h30 Chargement : 1h (limitation DB slave) Agrégation : 6h Agrégation : 40 min (9 x plus rapide) Performance Avant / Après
  33. 33. Performance •  Temps de traitement observé en fonction du nombre de nœuds •  5 To avant (données + index), 500 Go sur Redshift ! 0   20   40   60   80   100   120   2   4   8   Perf  (min)   Perf  (min)  
  34. 34. Coût avant / après •  Avant –  Opex : 70 k€ •  Support Licence : 30 k€ •  External DBA : 40 k€ –  Capex : 20 k€ / an (amorti) –  Total : 90 k€ •  Redshift –  Opex : Redshift + EMR = 17 k$ = 13 k€ => 7 x moins cher –  Pourquoi la région US East ? •  Initialement le service n’était pas disponible dans les autres régions •  Pas de contrainte de latence (90 ms US East vs 30 ms EU)
  35. 35. Sécurité •  VPN / VPC et ou Firewall •  SSH •  Cryptage •  Légal : Safe Harbor Act –  la Sphère de sécurité (Safe Harbor) permet à une entreprise américaine de certifier qu'elle respecte la législation de l'Espace économique européen (EEE) afin d'obtenir l'autorisation de transférer des données personnelles de l'EEE vers les Etats-Unis.
  36. 36. Fail over •  Unload hebdomadaire de Redshift US => S3 •  Réplication S3 inter region S3 US => S3 EU
  37. 37. Conclusion •  Plus de fiabilité •  Un budget divisé par 7 •  Des performances à minima 10 fois meilleures •  Une capacité de stockage multipliée par 32 •  Une scalabilité simplifiée
  38. 38. Questions ? Merci

×