• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec le témoignage Big Data de Photobox ?
 

Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec le témoignage Big Data de Photobox ?

on

  • 849 views

 

Statistics

Views

Total Views
849
Views on SlideShare
849
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec le témoignage Big Data de Photobox ? Track 2 - Atelier 3 - Comment Ysance met le cloud au service du digital avec le témoignage Big Data de Photobox ? Presentation Transcript

    • Romain Chaumais Le Cloud au service du Digital   Directeur du développement
    • Qui sommes-nous ? Agence conseil en technologie digitale Nos métiers : Marketing digital, CRM, eCommerce, Cloud Computing, Business Intelligence & Big Data
    • Bienvenue dans un monde ultra digital
    • Retour vers le futur 2004 Ouverture de la 3G en France 2006 Ouverture de Facebook au grand public 2007 Lancement de l’iPhone et de la révolution des Smartdevices
    • Retour vers le futur Le déploiement de la 3G en France et dans le monde • 75% de la population française couverte en 3G en 2009 • 98% de la population française couverte en 3G en 2012 • 60% de la population française couverte en 4G en 2019 • 1,6 milliard de forfaits mobiles haut débit en 2012 dans le monde 2004 Ouverture de la 3G en France
    • Retour vers le futur 2006 Ouverture de Facebook au grand public
    • Retour vers le futur 2007 Lancement de l’iPhone et de la révolution des Smartdevices
    • Retour vers le futur … en moins de 10 ans ! Smart Device Réseaux sociaux Haut débit sans fil
    • L’impact de toute innovation technologique est souvent surestimé à court terme et sous-estimé à long terme
    • Retour vers le futur
    • La digitalisation des interactions
    • Initie une recherche en boutique, va en magasin, consulte ses amis et concrétise sur sa tablette. Digital Physique Digital Exemple de digitalisation des interactions
    • Products Centrics Hier Multi canal Aujourd’hui Customers Centrics Omnicanal L’impact de la digitalisation des interactions
    • Big Data Pages vues, clics, produits détenus, inscriptions, centre d’intérêts, Connaissance CLIENTS Anatomie d’une plate-forme digitale Interactions marque/utilisateurs Pilotage & Mesure de la performance La bonne pub Le bon contenu La bonne offre Le bon message À la bonne personne sur le bon support Métiers, Outils & Partenaires
    • Le Cloud au service du Digital Big Data Métiers, Outils & Partenaires € Interactions marque/utilisateurs Pilotage & Mesure de la performance Infrastructures ApplicationsBig Data
    • Combiner les bénéfices du Cloud
    • Nos offres Cloud
    • Exemple de plateformes digitales dans AWS
    • Exemple de plateformes digitales dans AWS
    • Merci Romain Chaumais
    • Maxime Mézin Photobox RedShift Data Foundation Manager
    • •  Leader Européen du tirage et du livre photo •  25 millions de clients •  17 pays et dernière ouverture il y a 6 mois en Australie •  Stockage de milliards de photos
    • Problématique •  Des traitements de rafraichissement du datawarehouse trop longs –  8h en temps normal –  Jusqu’à 12h en période de Noel •  Une limitation en terme de stockage –  5 To actuellement avec uniquement les données de vente du site –  Nécessité de remplacer le Hardware •  Acquisition d’un environnement de développement à un prix élevé •  Nécessite un contrat administration distante (DBA externe) •  Problème de modèle de licence pour connecter notre outils de reporting
    • En continuant comme ca… •  Remplacement du hardware –  100 k€ •  Achat de nouvelles licences –  100 k€ –  Implique l’augmentation du coût de support •  Toujours pas de flexibilité •  Augmentation des coûts en CAPEX et OPEX •  Pour une une performance équivalente…
    • •  Croiser l’ensemble des sources de données de l’entreprise afin d’améliorer : –  La satisfaction client –  Le ciblage CRM –  Le reporting –  Analyser les données au niveau le plus fin : la photo Les besoins pour le futur
    • Le Big Data •  Face aux contraintes actuelles et besoins futurs nous nous sommes lancés dans les technologies Big Data open source : –  Création d’un cluster Hadoop sur EC2 avec whirr et mesos –  Développement en Clojure / Cascalog pour le traitement des données –  Utilisation de Hive + Hbase •  Après 6 mois nous n’avions toujours pas de résultats probants et une problématique de persistance des données complexe à résoudre –  Beaucoup de temps passé à paramétrer le cluster et peu de temps disponible pour travailler sur les données. –  Temps d’apprentissage conséquent et ressources rares
    • Proof Of Concept Redshift •  Premier point fort : Le prix •  Deuxième point fort : La promesse d’une performance « Big Data » en SQL •  L’objectif était de tester les points suivants : –  Temps de chargement des données –  Evaluation du nombre de nœuds nécessaires –  Flexibilité : temps de passage de 1 à N nœuds –  Performance sur une simulation d’alimentation quotidienne –  Fonctions d’agrégation disponibles
    • Résultat du POC •  Chargement : –  4 jours pour extraire les données côté Photobox –  Entre 50 minutes et 5 minutes pour charger les données dans Redshift •  Performances : –  Count(*) impossible à lancer sur la table photos sur le slave Mysql –  3 secondes sur Redshift •  Fonctions : –  Quasiment équivalente (ex: manque le pivot/unpivot) •  Flexibilité : –  Passage de 1 à 8 nœuds en 6h –  Création d’un environnement de dev en quelques minutes
    • Déploiement de Redshift avec 1 ETP •  Annonce de Redshift le 28/11/2012 •  Demande d’accès le 10/12/2012 •  Premier accès fin décembre •  Fin de la Beta 15 février •  Passage en prod mi-mars •  Achat de 8 instances réservées pour 3 ans en Mai
    • Architecture Actuelle
    • Intégration d’EMR dans le Workflow •  Elastic Map Reduce est utilisé comme un ETL via •  Le process est donc le suivant : –  Lancement d’EMR –  Installation de Sqoop –  Chargement des données de la base Mysql sur hdfs –  Copie des données de HDFS vers S3 –  Chargement des données de S3 vers Redshift •  Paramètres : –  Nb d’instances –  Degré de parallélisme –  La clef de partitionnement
    • •  L’alimentation quotidienne du datawarehouse se fait en 2 étapes –  Récupération des données sur une base slave du site –  Calcul des agrégats Avant EMR / Redshift Chargement : 1h30 Chargement : 1h (limitation DB slave) Agrégation : 6h Agrégation : 40 min (9 x plus rapide) Performance Avant / Après
    • Performance •  Temps de traitement observé en fonction du nombre de nœuds •  5 To avant (données + index), 500 Go sur Redshift ! 0   20   40   60   80   100   120   2   4   8   Perf  (min)   Perf  (min)  
    • Coût avant / après •  Avant –  Opex : 70 k€ •  Support Licence : 30 k€ •  External DBA : 40 k€ –  Capex : 20 k€ / an (amorti) –  Total : 90 k€ •  Redshift –  Opex : Redshift + EMR = 17 k$ = 13 k€ => 7 x moins cher –  Pourquoi la région US East ? •  Initialement le service n’était pas disponible dans les autres régions •  Pas de contrainte de latence (90 ms US East vs 30 ms EU)
    • Sécurité •  VPN / VPC et ou Firewall •  SSH •  Cryptage •  Légal : Safe Harbor Act –  la Sphère de sécurité (Safe Harbor) permet à une entreprise américaine de certifier qu'elle respecte la législation de l'Espace économique européen (EEE) afin d'obtenir l'autorisation de transférer des données personnelles de l'EEE vers les Etats-Unis.
    • Fail over •  Unload hebdomadaire de Redshift US => S3 •  Réplication S3 inter region S3 US => S3 EU
    • Conclusion •  Plus de fiabilité •  Un budget divisé par 7 •  Des performances à minima 10 fois meilleures •  Une capacité de stockage multipliée par 32 •  Une scalabilité simplifiée
    • Questions ? Merci