Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data centric : une plate-forme orientée donnée au coeur de votre organisation

2,467 views

Published on

Présentation des enjeux et cas d'usage de la data gouvernance, qualité de données et Master Data Management ; présentation de la plate-forme Talend

Published in: Technology
  • Be the first to comment

Data centric : une plate-forme orientée donnée au coeur de votre organisation

  1. 1. © Talend 2014© Talend 2014 Data centric Une plate forme centrée sur les données au service de votre organisation Benjamin Boutros et Jean-Michel Franco bboutros@talend.com jfranco@talend.com (@jmichel_franco)
  2. 2. © Talend 2014© Talend 2014 Agenda 1. Talend en bref 2. MDM et Data Gouvernance : pourquoi ? 3. MDM et Data Gouvernance : comment ? 4. Références et cas d’usage 5. MDM et Big Data : l’association gagnante
  3. 3. © Talend 2014© Talend 2014 EN BREF • Fondée en 2006 • 400 employés dans 7 pays • Deux sièges : Los Altos, en Californie et Paris, en France • Modèle Open Core • Licence (souscription) • Services et formations Solutions  Solutions d’intégration évolutives pour le Big Data, l’intégration de données et d’applications, la qualité de données, le MDM et BPM.  Classé Leader Visionnaire par Gartner et Forrester sur le marché de l’intégration Présentation de Talend Modèle de déploiement-croissance 2007 2008 2009 2010 2011 2012 VISIBILITE 1,6 million de téléchargements COMMUNAUTÉ DYNAMIQUE 100 000 utilisateurs enregistrés MONÉTISATION 1 800 souscripteurs actifs FIDELITE DES CLIENTS Taux de renouvellement de 86%
  4. 4. © Talend 2014© Talend 2014 La Plateforme Talend GESTION DES DONNEES USAGE DE L’INFORMATION
  5. 5. © Talend 2014© Talend 2014 Data centric ? L’exemple d’Amazon Connaître son client Elargir son offre produits & services Valoriser tout l’écosystème
  6. 6. © Talend 2014© Talend 2014 Talend MDM Client Four- nisseur Produit Actif (Asset) Agence Magasins Organisa tions et codifi- cations Employé MDM et data gouvernance ? Maîtriser le « qui, quoi, comment et où » de vos activités Quoi ? (44%) Comptes Géolocalisation Contrat Nomenclatures Attributs Prix Catalogue Profil Comportement Adresse Identité Qui ? (33%) Territoires Comment ? (21%) Où ? (3%) Standards Compliance Sources : Gartner
  7. 7. © Talend 2014© Talend 2014 Fonctionnalités clés d’un MDM Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM
  8. 8. © Talend 2014© Talend 2014 1) Intégration des sources Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Data Profiling: > 100 indicateurs, rapports d’audit, suivi dans le temps • Active Data Model: tous domaines, validation synchrone ou asynchrone • Data Integration: > 500 connecteurs (dans l’ADN de Talend !) • Application Integration: services, messages, routing, mediation…
  9. 9. © Talend 2014© Talend 2014 Six dimensions de la qualité de données
  10. 10. © Talend 2014© Talend 2014 Complétude • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut La Complétude
  11. 11. © Talend 2014© Talend 2014 La Conformité Complétude Conformité • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE
  12. 12. © Talend 2014© Talend 2014 La Cohérence Complétude Conformité Cohérence • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE • Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une entreprise
  13. 13. © Talend 2014© Talend 2014 L’exactitude… Complétude Conformité Cohérence Exactitude • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE • Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une entreprise • Exactitude : l’information POIDS n’est pas applicable aux entreprises
  14. 14. © Talend 2014© Talend 2014 La Duplication Complétude Conformité Cohérence Duplication Exactitude • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE • Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une entreprise • Exactitude : l’information POIDS n’est pas applicable aux entreprises • Duplication : J BLANC et MR JACQUES BLANC sont la même personne
  15. 15. © Talend 2014© Talend 2014 L’intégrité Complétude Conformité Cohérence Duplication Intégrité Exactitude • Complétude : le type n’est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut • Conformité : l’adresse n’est pas correcte pour DUPONT PIERRE et LAPEYRE • Cohérence : YAHOO n’est pas une personne et BOUTROS BENJAMIN n’est pas une entreprise • Exactitude : l’information POIDS n’est pas applicable aux entreprises • Duplication : J BLANC et MR JACQUES BLANC sont la même personne • Intégrité : le lien qui unit ces deux personnes n’est pas établie dans le fichier
  16. 16. © Talend 2014© Talend 2014 2) Nettoyage & alignement des données Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Data Quality: parsing, synonymes, correspondances, standardisation • Composants specialisés: prenoms, nicknames, telephones… • Composants de validation d’adresses: Google, Uniserv, Loqate…
  17. 17. © Talend 2014© Talend 2014 3) Rapprochement (« Entity Resolution », « Record Linkage »…) Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Algorithmes de matching: détection des similaires, scoring, seuils d’incertitude… • Stewardship Console: visualisation graphique des rapprochements
  18. 18. © Talend 2014© Talend 2014 4) Consolidation, « Survivorship » Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Algorithmes de survivorship: fonctions intégrées et règles personnalisées • Stewardship Console: arbitrage / correction manuelle de la fusion
  19. 19. © Talend 2014© Talend 2014 5) Améliorations, enrichissement Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Formulaires Web: auto-générés sur le modèle, vues dépendantes du rôle, droits d’accès • Workflow: moteur de BPM complet (designer de formulaires métier, rôles, assignations, délégations, deadlines, notifications…)
  20. 20. © Talend 2014© Talend 2014 6) Publication, mise à disposition Alimentation Capture • Audit des sources • Chargement initial • Insertions / mises à jour, batch et fil de l’eau Rapproche- ments Consolida- tions Enrichisse- ments Distribution Publication • Trouve et relie les doublons potentiels • Algorithmes et arbitrages manuels • Fusionne les doublons avec des règles automatiques et des processus manuels Nettoyage • Corrections (erreurs de saisies, formats…) • Alignement sur un standard • Validation d’adresses postales • Ajoute des informations transverses • Sources externes • Enrichisse- ments et arbitrages manuels • Met les Master Data à disposition de tout le système d’information Le processus MDM Plateforme Talend • Data Integration: export dans virtuellement n’importe quel format vers n’importe quelle cible • ESB: publication dans le bus de service Talend
  21. 21. © Talend 2014© Talend 2014 Client Quelques clients MDM Produit Autres domaines Employés, Founisseurs, Site & Meta-Data Management Reference Data Management Multi-Domaine
  22. 22. © Talend 2014© Talend 2014 Etude de cas : Veolia ➜ L’entreprise : • Veolia Propreté est la division de Veolia Environnement spécialisée dans la gestion et la valorisation des déchets.. • Plus de 47 millions d'habitants desservis, 64 291 collaborateurs, 686 unités de traitement, 575000 clients, flotte de 10000 véhicules ➜ L’enjeu: • Produire, de façon automatisée, des indicateurs clés de performance pour la DG et tous les niveaux de l’organisation • Unifier la gestion de l’activité aux travers des organisations et des systèmes d’information ➜ Solution: • Un référentiel des matériels pour les 1200 catégories de déchets traités • Un référentiel véhicules pour les 10000 véhicules de la flotte • Une organisation associée pour le data stewardship ➜ Résultats : • Des processus rationalisé grâce à une élimination des incohérences et doublons (exemple : évolution de 10000 à 1200 codes matériel après la phase de collecte et dédoublonnage. • La capacité à déployer rapidement de nouveaux domaines et l’organisation de gouvernance associée : déploiement de chaque nouveau modèle en 6 à 8 semaines
  23. 23. © Talend 2014© Talend 2014 Pourquoi le Big Data a-t-il besoin du MDM et de la data quality ? 23 Extraction du contenu Gestion de la qualité Réconciliation avec les master data Enrichissement Id_Client Prénom Nom Produit Fournisseur Date Montant 92584789 Anne B. TXF98 Dell 24/12/2013 650 € 92584789 Anne B. AXC54 Maped 24/12/2013 2,44 € 92584789 Anne B. TRE56 Playmobil 24/12/2013 129,36 € …. Exemple : la dématérialisation du Père Noël
  24. 24. © Talend 2014© Talend 2014 Pourquoi le Big Data a t’il besoin du MDM et de la DQ ? Ex: Du MDM client au « client augmenté » et la recommandation temps réel 24 Customer Data Platform Données de parcours, sentiments et interactions Données décisionnelles Données transactionnelles Centre de contacts Face à face (Boutique, agence…) SMS/Mail/Chat… Service après vente Applications mobiles et Web MDM, Data Quality
  25. 25. © Talend 2014© Talend 2014 RUNTIME PLATFORM (JAVA, Hadoop, SQL, etc.) La plate-forme Talend pour le Big Data Talend Platform for Big Data TALEND UNIFIED PLATFORM Studio Repository Deployment Execution Monitoring DATA INTEGRATION Data Access ETL / ELT Version Control Business Rules Change Data Capture Scheduler Parallel Processing High Availability Big DATA QUALITY Hive Data Profiling Drill-down to Values DQ Portal, Monitoring Data Stewardship Report Design Address Validation Custom Analysis M/R Parsing, Matching BIG DATA Hadoop 2.0 MapReduce ETL/ELT Hcatalog/ meta-data Pig, Sqoop, Hive Hadoop Job Scheduler Google Big Query NoSQL SupportHDFS
  26. 26. © Talend 2014© Talend 2014 Conclusion – Talend MDM et Data Quality Rapide à implémenter Plateforme avec tous les composants pour le MDM Se prête à l’implémentation incrémentale Approche simple et intuitive Modélisation, configuration, design Pas de programmation, réutilisation des composants Talend VOTRE domaine, VOS règles Modélisation ultra flexible basée sur XML Système évènementiel pour validations & corrections auto Rejoignez la communauté Open Source Basé sur les standards et frameworks Open Source Ouvert et extensible Prêt à embarquer le Big Data Gestion des 4V (volume, variété, vitesse et véracité) Capacité à traiter les données là où elles sont Rapide Simple Flexible Open Extensible
  27. 27. © Talend 2014© Talend 2014 Des questions ?

×