Disposer d'informations fiables, à l'instant voulu, pour prendre de meilleures décisions Matthieu Maurice Dan Benouaisch
Agenda <ul><li>Introduction et enjeu autour de la qualité de donnée </li></ul><ul><li>Gestion de la qualité des données : ...
<ul><li>Une plateforme d’information unique  </li></ul><ul><li>Simplifier l’accès à une information fiable </li></ul><ul><...
Solution IBM InfoSphere – End to End Cognos Data Integration  Data Quality  Data Delivery Operational Source Systems Struc...
Les enjeux de la qualité de donnée <ul><ul><li>56% identifient les données issues de sources extérieures comme la source l...
Pourquoi analyser ces données ? <ul><li>Constituer un socle de pilotage pour l’entreprise </li></ul><ul><li>Traiter, compa...
La qualité de l’information <ul><li>Où se trouve l’information ? </li></ul><ul><li>Comment la récupérer et à quel moment ?...
Vos problématiques de qualité … <ul><ul><li>Based on 286 respondents who could select multiple answers.  </li></ul></ul>
CONSTRUIRE OU ACHETER : LES CONSTATS Construire, à condition de pouvoir le justifier Acheter, mais en trouvant le bon comp...
Une méthodologie adaptée à vos enjeux métiers Time To Value Est-ce que vos sources de données contiennent l’information qu...
Vos projets d’intégration de l’information … Exécution performante quelque soit la volumétrie Une seule plateforme, un seu...
Plus de 500 Références en France <ul><li>25 Universités </li></ul><ul><li>Go Sport </li></ul><ul><li>SCASO - Leclerc </li>...
IBM Information Server Delivering information you can trust Comprendre Nettoyer Transformer Fédérer QualityStage Informati...
Comprendre <ul><li>Problèmes critiques : </li></ul><ul><li>Connaissez-vous réellement les données de votre SI ? </li></ul>...
Comprendre vos données - Information Analyzer <ul><li>Cartographie détaillée et exhaustive de contenu, structure et qualit...
Vision globale et unifiée des sources de données <ul><li>Statuts </li></ul><ul><li>Colonne Analysée </li></ul><ul><li>Colo...
Analyse de la table  EMPL: Élément employeur chèques emploi service <ul><li>Fréquence de distribution : Zoom sur la colonn...
<ul><li>Plus de 60 rapports disponibles </li></ul><ul><li>Sous différents formats : HTML, XML, Word, etc. </li></ul><ul><l...
Points de valeur de la Solution : IBM Information Analyzer <ul><li>Utilisation d’un outil de profilage de données :  </li>...
IBM Information Server Delivering information you can trust Comprendre Nettoyer Transformer Fédérer QualityStage Informati...
IBM QualityStage Garantir la qualité et la pertinence de vos données Nettoyer <ul><li>Standardiser vos données … </li></ul...
La démarche Qualité
Le processus de Nettoyage des données Vues Consolidées 1. Standardiser 2. Rapprocher 3. Consolider Clients Transactions Ve...
Un exemple de données “non propres” Comment identifier et consolider des données quand le nombre d’enregistrement s’élève ...
Étape 1 : La standardisation (exemple    adresses) Analyse lexicale: Détermination de la signification métier de chaque c...
Étape 1 : La standardisation (exemple    produits) Pneu Energy Serie Audi A4 TDI 115ch 2.0 2.0 Pneu Pilot Primacy 205/55R...
Étape 2 : Le Rapprochement Prénom   2ème Prénom   Nom   Fonction ALEXANDRE J DEMARIA DG ALEXANDRE JEAN DEMARA DG + 7 +1   ...
Le scoring probabiliste améliore la qualité Les Tables de Décisions de la méthode classique (déterministe) appliquent les ...
Étape 2 : Le Rapprochement <ul><li>Des enregistrements rapprochés correspondent alors : </li></ul><ul><ul><li>à des vrais ...
<ul><li>Détermine la meilleure donnée à garder “Best of Breed” </li></ul><ul><ul><li>La plus fraîche </li></ul></ul><ul><u...
Un exemple d’harmonisation (produits) DONNEES EN ENTREE Operation Work Instructions in a free text field WNG ASSY DRL 3 HO...
Que faire des résultats des enregistrements rapprochés ? <ul><li>Revue des enregistrements “douteux” </li></ul><ul><li>Lie...
Développer avec QualityStage <ul><li>Un développement entièrement graphique   et simple ! </li></ul><ul><li>Une connectivi...
Gestion de la qualité de donnée : Performance & Scalabilté
Plus de 500 clients en France Banque &  Assurance Communications  & Services Industries Secteur Public Distribution Majeur...
VSC Technologies – Filiale de la Sncf  :   Fournisseur de solutions technologiques de Voyages-SNCF Voyages-sncf.com  : 1èr...
MasterFoods  |   Entité opérationnelle du groupe Mars, Alimentation rapide, Alimentation animale,  Plats cuisinés, Boisson...
Mapping Solution de chargement RDP Rapid Deployment Package Ateliers – Préparation des données Découverte & Analyse <ul><l...
Implémentation rapide avec le MDM Source Systems MDM Business Services MDM SERVER Duplicate Suspect Processing User Interf...
Des questions ?
Etape Suivante ? <ul><li>Seriez vous intéressé par une démarche « Mini DQA » ? </li></ul><ul><ul><li>3 à 5 tables </li></u...
Démarche proposée : DQA (Data Quality Assesment) <ul><li>Illustration des bénéfices d’un DQA appliquée à un sous-ensemble ...
Thank You Merci Grazie Gracias Obrigado Danke Japanese French Russian German Italian Spanish Brazilian Portuguese Arabic T...
Démonstration
Techniques d’implémentation <ul><li>L’analyse des besoins </li></ul><ul><li>La chargement initial </li></ul><ul><li>Le cha...
L’analyse des besoins <ul><li>Etude de votre problématique </li></ul><ul><li>Définition des objectifs à atteindre MOE / MO...
Le chargement initial <ul><li>Cette partie consiste à construire le référentiel </li></ul><ul><li>De nouveaux champs fonct...
Le chargement incrémental <ul><li>Il consiste à mettre à jour de façon quotidienne, hebdomadaire ou mensuel le référentiel...
Le chargement incrémental <ul><li>Phase de Standardisation: </li></ul><ul><ul><li>Seule les nouvelles données sont standar...
Le chargement incrémental <ul><li>Les clés de la performance: </li></ul><ul><ul><li>Le référentiel stocke les champs qui s...
Upcoming SlideShare
Loading in …5
×

IBM Information Management - Pas de décision de qualité sans informations de qualité

1,425 views

Published on

Sur une planète toujours plus intelligente, instrumentée et interconnectée, la masse d\'information explose. Il n\'y a pas de prise de décision de qualité sans une information fiable, pertinente, à la bonne personne au bon moment. Lors des Tendances Logicielles New Intelligence, Dan Benouaisch, IBM, a développé les concepts et présenté l\'offre IBM InfoSpere qui répond à ces impératifs.

Published in: Technology, Business
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,425
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
40
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • IBM has assembled a portfolio specific designed to help organizations deal with the challenges of fragmented information. This portfolio, called InfoSphere, accelerates the delivery of trusted information throughout an organization. The portfolio accelerates client value and reduces risk in critical information projects. There are four primary parts to the portfolio. At the foundation is the InfoSphere Information Server, which specializes in integrating data across a heterogeneous landscape and delivering complete and accurate information when and where it is needed. A common target of this data is InfoSphere MDM, which manages a master view of key data elements like customer, product, account, and location over time. InfoSphere Warehouse provides a foundation for enormously scalable data warehouses, with key partitioning, mining, and cubing features to maximize the value of information. And providing acceleration for all of these are the IBM Industry Models, which contain industry-centric domain knowledge to help organizations achieve better results faster. Each part of the portfolio enjoys a market leadership position and stands alone in its value, but IBM is also investing in making the pieces work better together – helping companies who choose multiple parts to leverage deep synergies to further accelerate value.
  • TDWI – The Data Warehousing Institute has done some recent studies regarding data quality problems. It’s often easier to understand bad data if you identify the source – how it got into the system in the first place. Based upon 266 respondents who were able to select multuple items – they found that…
  • IBM recognized this challenge – which is why we’ve created the WebSphere Information Integration Platform. The IBM WebSphere Information Integration platform enables businesses to perform 5 integration functions: Connect to any data or content, wherever it resides Understand and analyze that information, including its meanings, relationships, and lineage Cleanse it to assure its quality and consistency Transform it to provide enriched and tailored information Federate it to make it accessible to people, processes, and applications Underlying these functions is a common metadata and parallel processing infrastructure that provides leverage and automation across the platform. Each product in the portfolio also provides connections to many data and content sources, and the ability to deliver information through a variety of mechanisms. Additionally, these functions can be leveraged in a service oriented architecture through easily published shared services. The IBM WebSphere Information Integration platform provides: access to the broadest range of information sources the broadest range of integration functionality, including federation, ETL, in-line transformation, replication, and event publishing the most flexibility in how these functions are used, including support for service-oriented architectures, event-driven processing, scheduled batch processing, and even standard APIs like SQL and Java. The breadth and flexibility of the platform enable it to address many types of business problems and meet the requirements of many types of projects. This optimizes the opportunities for reuse, leading to faster project cycles, better information consistency, and stronger information governance. How does Information Integration fit into an SOA? Regarding Service-Oriented Architectures, information integration enables information to be made available as a service , publishing consistent, reusable services for information that make it easier for processes to get the information they need from across a heterogeneous landscape.
  • IBM recognized this challenge – which is why we’ve created the WebSphere Information Integration Platform. The IBM WebSphere Information Integration platform enables businesses to perform 5 integration functions: Connect to any data or content, wherever it resides Understand and analyze that information, including its meanings, relationships, and lineage Cleanse it to assure its quality and consistency Transform it to provide enriched and tailored information Federate it to make it accessible to people, processes, and applications Underlying these functions is a common metadata and parallel processing infrastructure that provides leverage and automation across the platform. Each product in the portfolio also provides connections to many data and content sources, and the ability to deliver information through a variety of mechanisms. Additionally, these functions can be leveraged in a service oriented architecture through easily published shared services. The IBM WebSphere Information Integration platform provides: access to the broadest range of information sources the broadest range of integration functionality, including federation, ETL, in-line transformation, replication, and event publishing the most flexibility in how these functions are used, including support for service-oriented architectures, event-driven processing, scheduled batch processing, and even standard APIs like SQL and Java. The breadth and flexibility of the platform enable it to address many types of business problems and meet the requirements of many types of projects. This optimizes the opportunities for reuse, leading to faster project cycles, better information consistency, and stronger information governance. How does Information Integration fit into an SOA? Regarding Service-Oriented Architectures, information integration enables information to be made available as a service , publishing consistent, reusable services for information that make it easier for processes to get the information they need from across a heterogeneous landscape.
  • IBM recognized this challenge – which is why we’ve created the WebSphere Information Integration Platform. The IBM WebSphere Information Integration platform enables businesses to perform 5 integration functions: Connect to any data or content, wherever it resides Understand and analyze that information, including its meanings, relationships, and lineage Cleanse it to assure its quality and consistency Transform it to provide enriched and tailored information Federate it to make it accessible to people, processes, and applications Underlying these functions is a common metadata and parallel processing infrastructure that provides leverage and automation across the platform. Each product in the portfolio also provides connections to many data and content sources, and the ability to deliver information through a variety of mechanisms. Additionally, these functions can be leveraged in a service oriented architecture through easily published shared services. The IBM WebSphere Information Integration platform provides: access to the broadest range of information sources the broadest range of integration functionality, including federation, ETL, in-line transformation, replication, and event publishing the most flexibility in how these functions are used, including support for service-oriented architectures, event-driven processing, scheduled batch processing, and even standard APIs like SQL and Java. The breadth and flexibility of the platform enable it to address many types of business problems and meet the requirements of many types of projects. This optimizes the opportunities for reuse, leading to faster project cycles, better information consistency, and stronger information governance. How does Information Integration fit into an SOA? Regarding Service-Oriented Architectures, information integration enables information to be made available as a service , publishing consistent, reusable services for information that make it easier for processes to get the information they need from across a heterogeneous landscape.
  • Cleansing is the process of cleaning up these sorts of problems. Within IBM Information Server, WebSphere QualityStage is a product module that helps to identify and resolve all five of those types of issues, for any type of data. It provides data quality functions on an easy-to-use, design-as-you-think flow diagram. This allows data quality to be embedded in any information integration process. The quality functions include: free-form text investigation - allowing you to recognize and parse out individual fields of data from free-form text, standardization – allowing individual fields to be made uniform according to your own standards, address verification and correction – which uses postal information to standardize, validate, and enrich address data, matching – which allows duplicates to be removed from individual sources, and common records across sources to be identified and linked, and lastly, survivorship – which allows the best data from across different systems to be merged into a consolidated record. The true power of QualityStage is in its ability to match data from different records, even when it appears very different. The design of these matching rules is very important, since it determines which records will be brought together. These match rules are designed using a visual, business-centric interface, providing instant feedback on match rule changes to allow the rules to be fine tuned quickly and easily. Because of this ability to match records, QualityStage is a key enabler of creating a single view of customers or products. Silver Bullets: Provides the most intuitive and productive visual quality design capability on the market, allowing quality logic to be fine-tuned with actual data samples and incorporated as a seamless component of data flows (single engine, single user interface, single meta-model across ETL and Quality) Works across any data type (including product and customer data) Uses probabilistic matching to ensure a 2-4% better match result Allows quality logic to be easily deployed as shared services within a SOA to ensure consistent enterprise reuse of quality logic Leverages the scalability of the platform parallel processing services
  • So once records are matched together, what you decide to do with that information is completely up to the business. We discussed clerical review. Some organizations like every potential match to be reviewed (particularly for things like bank accounts). However, in most cases the automated match results can be employed. When a match is found, records can be linked together, using a cross-reference table that stores the identifiers of each record, and potentially enough additional information to allow that table to act as a matching base for future records. When record linkage is employed, a merged record is not stored anywhere, but it is rather assembled from the various sources when needed. Survivorship can be employed when a complete master record is desired. Survivorship uses business-defined rules to determine how to build a record that merges the best information from each source. For example, you may have a natural preference for one source, since it is typically more reliable, so by default its data should be used, unless it is missing data elements, in which case alternative sources could be used. Survivorship creates a complete, merged, “gold copy” of data across systems – this is often used to load master data management systems like WebSphere Customer Center or WebSphere Product Center. Whichever mechanism you choose, you may wish to go back and correct source systems with information from other linked records that are more complete, or from the gold copy. In some cases, organizations don’t like to change the original values, so they append this new information in additional fields. All of this is dependent on the business requirements and can be adjusted according to the need.
  • Able to alter the number of processors without altering the code
  • IBM Information Management - Pas de décision de qualité sans informations de qualité

    1. 1. Disposer d'informations fiables, à l'instant voulu, pour prendre de meilleures décisions Matthieu Maurice Dan Benouaisch
    2. 2. Agenda <ul><li>Introduction et enjeu autour de la qualité de donnée </li></ul><ul><li>Gestion de la qualité des données : Démarche outillée </li></ul><ul><li>Gestion de la qualité des données en mode projet </li></ul><ul><li>Apport de notre offre qualité de donnée </li></ul><ul><li>Q&A ? </li></ul>
    3. 3. <ul><li>Une plateforme d’information unique </li></ul><ul><li>Simplifier l’accès à une information fiable </li></ul><ul><li>Accélérer l’obtention de valeur </li></ul><ul><li>Permettre une meilleure collaboration </li></ul><ul><li>Gérer le risque </li></ul><ul><li>Une plateforme modulaire mais intégrée </li></ul><ul><li>Scalable à l’échelle de votre entreprise </li></ul>La vision IBM InfoSphere deplacer à la fin
    4. 4. Solution IBM InfoSphere – End to End Cognos Data Integration Data Quality Data Delivery Operational Source Systems Structured/ Unstructured Data InfoSphere MDM Server COMMON METADATA Data Glossary Spreadsheets Applications Information Server Federated Data Cubing Services Industry Models Data Repository Multidimensional Analysis Data Mining Data Definition Glossary SOA Web Service InfoSphere Warehouse Common Definition Management Deployment
    5. 5. Les enjeux de la qualité de donnée <ul><ul><li>56% identifient les données issues de sources extérieures comme la source la plus fréquente de données inexactes </li></ul></ul><ul><ul><li>52% identifient l’intégration des systèmes comme une source majeure d’incohérence dans les données </li></ul></ul><ul><ul><li>76% indiquent que l’exactitude des données est un domaine sur lequel ils doivent mettre l’accent davantage </li></ul></ul><ul><li>66% indiquent que la profitabilité de l’entreprise, de façon générale, est impactée négativement par la médiocre qualité des données </li></ul><ul><li>>50% observent des retours sur investissement décevants sur les campagnes, dû à des données incorrectes </li></ul><ul><li>>75% indiquent qu’une plus grande qualité et pertinence des données amélioreraient le service au client, sa satisfaction, sa fidélité </li></ul>(KRC Research)
    6. 6. Pourquoi analyser ces données ? <ul><li>Constituer un socle de pilotage pour l’entreprise </li></ul><ul><li>Traiter, comparer, croiser les données issues de différents métier de l’entreprise </li></ul><ul><li>Améliorer la performance de l’entreprise, être compétitif, anticiper le risque </li></ul><ul><li>Intégrer des données de nouveaux systèmes(Fusion, Acquisition) </li></ul><ul><li>Améliorer la gestion stratégique et prévisionnelle </li></ul><ul><li>Améliorer le reporting des filiales vers les maisons mères </li></ul><ul><li>Répondre à des contraintes légales, e.g marché boursiers/financiers(Sarbanne Oaxley, Bale II, HIPAA, etc…) </li></ul><ul><li>Constitution de référentiel d’entreprise, MDM </li></ul><ul><li>Améliorer la qualité des entrepôts de données </li></ul><ul><li>Améliorer la productivité des développements </li></ul>
    7. 7. La qualité de l’information <ul><li>Où se trouve l’information ? </li></ul><ul><li>Comment la récupérer et à quel moment ? </li></ul><ul><li>Quelle est sa signification ? </li></ul><ul><li>Est-elle fiable ? </li></ul><ul><li>Comment la récupérer sous la forme requise ? </li></ul><ul><li>Comment la maîtriser ? </li></ul><ul><li>… </li></ul>
    8. 8. Vos problématiques de qualité … <ul><ul><li>Based on 286 respondents who could select multiple answers. </li></ul></ul>
    9. 9. CONSTRUIRE OU ACHETER : LES CONSTATS Construire, à condition de pouvoir le justifier Acheter, mais en trouvant le bon compromis Un impact sur les temps de mise en œuvre et sur les coûts Un impact sur l’ouverture et la flexibilité «  Il coûte 7 à 10 fois plus cher de développer en spécifique une fonction plutôt que d’utiliser son équivalent dans un progiciel  » GIGA GROUP «  Nos études montrent que les coûts de possession du spécifique dépassent de 40% ceux du Progiciel  » GARTNER Progiciel par défaut Au cas par cas en fonction du projet Progiciel systématiquement Selon le coût NSP Progiciel adapté aux processus Progiciel adapté aux métiers Approche mixte Source Forrester (Étude Sur 25 grands comptes Européens), AMR et Gartner Plus facile avec un progiciel Plus facile avec un spécifique Équivalent NSP Spécifique plus cher Équivalent Logiciel plus cher NSP
    10. 10. Une méthodologie adaptée à vos enjeux métiers Time To Value Est-ce que vos sources de données contiennent l’information que vous pensez y trouver? Quelles sont les sources à utiliser pour ce projet? Est-ce que le sens de vos données est celui que vous croyez? Découvrir Comment rapprocher les enregistrements de même signification? Pouvez-vous corriger et améliorer la qualité de vos données? Standardiser Pouvez-vous affecter un sens aux données à destination des utilisateurs ? Pouvez-vous apporter une synchronisation des données entre les systèmes? Pouvez-vous délivrer & mettre à jour les données en temps réel? Vos données peuvent-elles être délivrées sur la base d’évènements ou selon leur contenu? Transformer & Délivrer Fédérer Comment accéder de manière transparente, efficace et simple à des données provenant de sources hétérogènes ?
    11. 11. Vos projets d’intégration de l’information … Exécution performante quelque soit la volumétrie Une seule plateforme, un seul outil : le Serveur d’Information Connectivité étendue aux applications, données et contenu Comprendre Cartographier, définir, découvrir et modéliser et maîtriser qualité et structure de l’information Nettoyer Standardiser, fusionner et corriger l’information Transformer Transformer, enrichir, déplacer et synchroniser l’information Fédérer Virtualiser et simplifier l’accès à l’information Déployer la logique d’intégration sous forme de Service Gérer de façon unique et simple toutes vos métadonnées
    12. 12. Plus de 500 Références en France <ul><li>25 Universités </li></ul><ul><li>Go Sport </li></ul><ul><li>SCASO - Leclerc </li></ul><ul><li>Sanef </li></ul><ul><li>RFF </li></ul><ul><li>Geodis </li></ul><ul><li>SNCF </li></ul><ul><li>VoyagesSNCF.com </li></ul><ul><li>RATP </li></ul><ul><li>… </li></ul>Industries Secteur Public
    13. 13. IBM Information Server Delivering information you can trust Comprendre Nettoyer Transformer Fédérer QualityStage Information Analyzer Federation Server DataStage Business Glossary Information Services Director Metadata Server Exécution parallélisée Connectivité aux applications, données et contenu Information Server Metadata Workbench
    14. 14. Comprendre <ul><li>Problèmes critiques : </li></ul><ul><li>Connaissez-vous réellement les données de votre SI ? </li></ul><ul><li>Vous avez certainement de nouvelles sources de données ou d’autres encore inconnues … </li></ul><ul><li>Pourquoi ? </li></ul><ul><li>Vos données et leurs relations sont incohérentes et divergent par rapport aux règles métier </li></ul><ul><li>La documentation, si elle existe est incomplète, obsolète ou pire … fausse ! </li></ul><ul><li>Les sources de données ne sont jamais statiques … elles évoluent sans prévenir. </li></ul><ul><li>Stratégies adoptées </li></ul><ul><li>Travail Manuel intensif </li></ul><ul><li>Impossible de passer en revue tous les éléments </li></ul><ul><ul><li>travail souvent approximatif … </li></ul></ul><ul><li>Sans infrastructure : comment rejouer une analyse ? </li></ul><ul><li>Manque d’approche standardisée </li></ul>Canaux externes Sources Exogènes Filiales Liste externe Distribution Référentiels Contacts Protocoles @
    15. 15. Comprendre vos données - Information Analyzer <ul><li>Cartographie détaillée et exhaustive de contenu, structure et qualité des données existantes </li></ul><ul><li>Contrôle conformité par rapport à un modèle, règle </li></ul><ul><li>Permet une mesure continue et la production de documentation sur les données </li></ul>Business Glossary IBM Information Analyzer Analyse de colonnes Analyse de Table Analyse Inter-Table Fréquences de distribution Analyse des Classe, propriétés, format, domaine/complétude Annotations & Marquage pour revue Analyse des dépendances Analyse de clé primaire Validation de règles Rapports
    16. 16. Vision globale et unifiée des sources de données <ul><li>Statuts </li></ul><ul><li>Colonne Analysée </li></ul><ul><li>Colonne composée </li></ul>
    17. 17. Analyse de la table EMPL: Élément employeur chèques emploi service <ul><li>Fréquence de distribution : Zoom sur la colonne Empl Per Ext </li></ul><ul><li>Résultats : </li></ul><ul><li>6 Valeurs différentes </li></ul><ul><li>Pourcentage de valeur par rapport à l’échantillon globale </li></ul><ul><li>Nombre d’enregistrements par valeur </li></ul><ul><li>Point Intéressant : </li></ul><ul><li>Red flag pour indiquer que l’enregistrement doit être validé </li></ul><ul><li>Colonne Position pour indiquer le positionnement du champ dans la création de la table </li></ul><ul><li>Inferred pour signaler une différence entre le contenu et le contenant notamment au niveau « taille » de structure </li></ul><ul><li>Visualisation du format de la donnée </li></ul>
    18. 18. <ul><li>Plus de 60 rapports disponibles </li></ul><ul><li>Sous différents formats : HTML, XML, Word, etc. </li></ul><ul><li>Export vers une base externe pour un reporting 3rd party. </li></ul>Exemple : rapports pour documenter les analyses
    19. 19. Points de valeur de la Solution : IBM Information Analyzer <ul><li>Utilisation d’un outil de profilage de données : </li></ul><ul><ul><li>50 % de gain par rapport à une solution développé « maison » </li></ul></ul><ul><ul><li>Anticipation </li></ul></ul><ul><li>Accès & visualisation unifiées de l’information très rapidement, très précisément </li></ul><ul><ul><li>Prise en compte plus rapide des nouveaux codes échéances, qualifications, etc… </li></ul></ul><ul><ul><li>Visualiser l’impact sur les différentes catégories existantes ou à venir …. </li></ul></ul><ul><li>Identification très rapide des anomalies </li></ul><ul><li>Analyse/Croisement de colonne illimitées </li></ul><ul><li>Automatisation du processus </li></ul><ul><li>Suivi, remontées des résultats dans le temps </li></ul><ul><li>Publication et diffusion </li></ul><ul><li>Outil non intrusif et non pénalisant pour les systèmes de production </li></ul>
    20. 20. IBM Information Server Delivering information you can trust Comprendre Nettoyer Transformer Fédérer QualityStage Information Analyzer Federation Server DataStage Business Glossary Information Services Director Metadata Server Exécution parallélisée Connectivité aux applications, données et contenu Information Server Metadata Workbench
    21. 21. IBM QualityStage Garantir la qualité et la pertinence de vos données Nettoyer <ul><li>Standardiser vos données … </li></ul><ul><ul><li>Tout type de données : Noms, Titre, Adresses, Description Produits, … </li></ul></ul><ul><ul><li>Algorithmes de Phonétisation (NYSIIS et Soundex) </li></ul></ul><ul><ul><li>Ex. Standardisation et Validation postale prédéfinies pour plusieurs pays (240 Pays) </li></ul></ul><ul><li>Rapprocher les données similaires ou en doublon </li></ul><ul><ul><li>Proposer de nombreux algorithmes de rapprochements </li></ul></ul><ul><ul><ul><li>Comparaison exacte ou floue de chaînes de caractères </li></ul></ul></ul><ul><ul><ul><li>Distance, Pourcentage, Dates </li></ul></ul></ul><ul><ul><li>Aucune limite dans le nombre de critères utilisés pour effectuer le rapprochement </li></ul></ul><ul><ul><li>Algorithme probabiliste </li></ul></ul><ul><ul><li>Entièrement personnalisable </li></ul></ul><ul><ul><li>Validation d’adresse à l’internationale (Translitération) </li></ul></ul><ul><ul><li>Certification d’adresse postale (Plug-in) </li></ul></ul><ul><li>Consolider les doublons, reformuler la donnée </li></ul><ul><ul><li>Algorithmes prédéfinis et personnalisables </li></ul></ul><ul><ul><li>Gestion des références croisées </li></ul></ul>Standardisation des données et mise en correspondance avec toutes les autres sources afin de définir une information unique Experts Sujets Analystes
    22. 22. La démarche Qualité
    23. 23. Le processus de Nettoyage des données Vues Consolidées 1. Standardiser 2. Rapprocher 3. Consolider Clients Transactions Vendeurs / Fournisseurs Cible Produits / Matériels
    24. 24. Un exemple de données “non propres” Comment identifier et consolider des données quand le nombre d’enregistrement s’élève a plusieurs millions/milliards d’enregiqtrement ? 90328574 IBM 187 N.Pk. Str. Salem NH 01456 8,494.00 90328575 I.B.M. Inc. 187 N.Pk. St. Salem NH 01456 3,432.00 90238495 Int. Bus. Machines 187 No. Park St Salem NH 04156 2,243.00 90233479 International Bus. M. 187 Park Ave Salem NH 04156 5,900.00 90233489 Inter-Nation Consults 15 Main Street Andover MA 02341 6,800.00 90234889 Int. Bus. Consultants PO Box 9 Boston MA 02210 10,243.00 90345672 I.B. Manufacturing Park Blvd. Bostno MA 04106 15,999.00 Pas de clés communes Anomalies Erreurs de traduction Pas de standard
    25. 25. Étape 1 : La standardisation (exemple  adresses) Analyse lexicale: Détermination de la signification métier de chaque composant Mise en contexte: Identification de la structure variable des données et de leur signification ^ Repetition Street Common + Index Type Word 3 | BIS | RUE | DE | PARIS melle Morognier Françoise 3 bis, r. de Paris 72000 Le Mans House Repetition Street Street Number Index Type Name 3 | B | RUE | DE PARIS 3 | BIS | R. | DE | PARIS Décomposition: Détermination de la signification métier de chaque composant FRADDR
    26. 26. Étape 1 : La standardisation (exemple  produits) Pneu Energy Serie Audi A4 TDI 115ch 2.0 2.0 Pneu Pilot Primacy 205/55R16 Audi A4 91/H Pneu Exalto Option AudiA4 130ch 2.2 Pneu Pilot Sport Serie Audi A4 TDi quattro 2.5 2.3 91/Y Audi A4 TDI Quatro Audi A4 TDI 130ch Audi A4 TDI Audi A4 TDI 115ch Type Voiture 2.5 2.3 2.2 2.2 2.2 2.2 2.0 2.0 Pression AV AR Serie 91/Y 225/45ZR17 Pneu Pilot Sport Option 91/V 205/55R16 Pneu Pilot Exalto Option 91/H 205/55R16 Pneu Pilot Primacy Ssérie 91/H 195/65R15 Pneu Energy Monte IC/IV Dimension Description
    27. 27. Étape 2 : Le Rapprochement Prénom 2ème Prénom Nom Fonction ALEXANDRE J DEMARIA DG ALEXANDRE JEAN DEMARA DG + 7 +1 + 1 0 +5 = 23 Le s CUTOFF sont le s score s au dessus et en dessous d es quel s un rapprochement est considéré comme bon ou non Le score d’un poids est une mesure relative de probabilité de match 0 500 1000 1500 2000 2500 3000 3500 4000 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 Nbre Paires Non rapprochées Rapprochées
    28. 28. Le scoring probabiliste améliore la qualité Les Tables de Décisions de la méthode classique (déterministe) appliquent les même règles quel que soit le contenu intrinsèque. Par contre, la méthode probabiliste tient compte de la différence intrinsèque des valeurs. Un nom rare (« YUSKA ») et des chaînes plus longues compensent les champs manquants ou litigieux. Illustration dans cette détection de foyer : la pattern déterministe « ABBCB » est un non-match, alors que l’algorithme probabiliste donne 24 > 21 = match non oui non (erreur !) L-Name Hse# Street Apt# Zip Rec-1 SMITH 123 BEECH 18A 02112 Rec-2 SMITH 132 BEACH 18 02111 Pattern A B B C B ABBCB Weight 5 2 7 1 4 19 Rec-3 YUSKA 5401 VETCH 818A 02112 Rec-4 YUSKA 5410 VEECH 81A 02111 Pattern A B B C B ABBCB Weight 7 3 8 2 4 24
    29. 29. Étape 2 : Le Rapprochement <ul><li>Des enregistrements rapprochés correspondent alors : </li></ul><ul><ul><li>à des vrais doublons </li></ul></ul>36,10 C IBM 29 RUE DU CHAMOINE DE MOREL 13000 MARSEILLE 26,85 C I.B.M 29 RUE DU MOINE DE MOREL 16000 MARSEILLE 15,32 MLE MIR EI LLE BARBIERA LE PERCHOIR 119 AV DE LA BASTIDE 06130 GRASSE 10,59 MME MIR IE LLE BARBIERA 42 CHEMIN DU BAMBOU 06130 GRASSE <ul><li>à un historique client (CRM : mariage,déménagement,…) </li></ul><ul><ul><li>ou permet d’identifier la notion de groupe (filiales/corporation, foyer…) </li></ul></ul>36,36 C IBM SOFTWARE PARIS LA DEFENSE CEDEX 14,09 C IBM SOFTWARE CORP. BOSTON MASSACHUSSET
    30. 30. <ul><li>Détermine la meilleure donnée à garder “Best of Breed” </li></ul><ul><ul><li>La plus fraîche </li></ul></ul><ul><ul><li>La plus fréquente </li></ul></ul><ul><ul><li>Selon la source </li></ul></ul><ul><ul><li>La plus complète </li></ul></ul><ul><ul><li>… . </li></ul></ul><ul><li>Résoud les conflits de valeur et complète les valeurs manquantes </li></ul><ul><li>Cré e les formats de sortie : </li></ul><ul><ul><li>Tables relationnelles avec clés </li></ul></ul><ul><ul><li>Transactions pour mettre à jour les bases de données </li></ul></ul><ul><ul><li>Fichiers de références croisées, tables de synonymes </li></ul></ul><ul><ul><li>Pistes d’audit, rapports divers </li></ul></ul>555 36,36 MME Isabelle DURAND 3 RUE DE LA BERGERIE 34000 MONTPELLIER 23976 555 14,09 M Robert DURAND 3 RUE DE LA BERGERIE 34000 MONTPELLIER 23830 Groupe Legacy 555 23976 555 23830 Étape 3 : La consolidation Groupe Nom No Type Nom Code Ville Rue Rue Postal 555 DURAND 3 RUE DE LA BERGERIE 34000 MONTPELLIER
    31. 31. Un exemple d’harmonisation (produits) DONNEES EN ENTREE Operation Work Instructions in a free text field WNG ASSY DRL 3 HOLE USE HEXBOLT ¼ INCH WING ASSEMBY, HEX BOLT .25” - DRILL FOUR, USE 5J868-A USE 4 5J868A BOLTS (HEX .25) - DRILL HOLES FOR EACH ON WING ASSEM RUDER, TAP 6 WHOLES, SECURE W/KL2301 RIVETS (10 CM) Assembly Instruction QTY Type Part Size Unit Measure SKU WING DRILL 3 HOLES HEXBOLT .25 INCH WING DRILL 4 HEXBOLT .25 INCH 5J868A WING DRILL 4 HOLES HEXBOLT .25 5J868A RUDDER TAP 6 HOLES RIVET 10 CM KL2301 STANDARDISATION Assembly Instruction QTY Type Part Size Unit Measure SKU WING DRILL 3 HOLES HEXBOLT .25 INCH WING DRILL 4 HEXBOLT .25 INCH 5J868A WING DRILL 4 HOLES HEXBOLT .25 5J868A RUDDER TAP 6 HOLES RIVET 10 CM KL2301 RAPPROCHEMENT MATCH Assembly Instruction QTY Type Part Size Unit Measure SKU WING DRILL 4 HOLES HEXBOLT .25 INCH 5J868A RUDDER TAP 6 HOLES RIVET 10 CM KL2301 CONSOLIDATION
    32. 32. Que faire des résultats des enregistrements rapprochés ? <ul><li>Revue des enregistrements “douteux” </li></ul><ul><li>Liens de référence croisée </li></ul><ul><li>Consolidation </li></ul><ul><li>Mise à jour/correction des sources de données </li></ul>Référence croisée ? =
    33. 33. Développer avec QualityStage <ul><li>Un développement entièrement graphique et simple ! </li></ul><ul><li>Une connectivité étendue </li></ul><ul><li>Glisser / Déposer des colonnes sources vers cibles </li></ul><ul><li>300+ fonctions de transformation </li></ul><ul><li>Un environnement de développement adapté à la qualité </li></ul><ul><li>Atelier de développement de fonctions Métier </li></ul><ul><li>Appel de fonctions externes </li></ul><ul><li>… </li></ul>
    34. 34. Gestion de la qualité de donnée : Performance & Scalabilté
    35. 35. Plus de 500 clients en France Banque & Assurance Communications & Services Industries Secteur Public Distribution Majeurs SAP
    36. 36. VSC Technologies – Filiale de la Sncf : Fournisseur de solutions technologiques de Voyages-SNCF Voyages-sncf.com : 1ère agence de voyages en ligne française, 2,5 millions de réservations par mois, 300 TGV remplis par jour, jusqu’à 3 réservations par seconde <ul><li>InfoSphere ® QualityStage™. </li></ul><ul><li>Vérifie que les adresses postales sont complètes et que les adresses électroniques sont exactes. </li></ul><ul><li>Elimine les enregistrements dupliqués </li></ul><ul><li>Assure que des informations correctes et précises sont associées à chaque client et utilisables avec tous les programmes de prise de contact et de fidélisation de Voyages-SNCF. </li></ul><ul><li>Transformer et fournir des informations fiables dans le cadre d'un projet stratégique de gestion de la relation client (CRM) </li></ul>Problème Solution Résultat VSC Technlogies – Voyages-sncf.com « Aujourd'hui, nos clients attendent de recevoir des informations qui répondent précisément à leurs besoins, qu'il s'agisse de vacances sur mesure ou de bonnes affaires de dernière minute, » souligne Frédéric Falkoff, responsable décisionnel de VSC Technologies . « IBM Information Server nous garantit que les informations que nous utilisons sont précises, fiables et complètes. Cela nous permet d'apporter à nos clients des contenus pertinents pour une meilleure personnalisation de nos services. » InfoSphere ® QualityStage™ simplifie les initiatives d’e-commerce et de publication de l'entreprise en rapprochant les informations clients, qui sont nettoyées et tenues à jour pour améliorer les ventes et le marketing
    37. 37. MasterFoods | Entité opérationnelle du groupe Mars, Alimentation rapide, Alimentation animale, Plats cuisinés, Boissons non-alcolisées. 39,000 employés dans le monde . € 1,4 milliards. InfoSphere ® QualityStage™. Une solution unique de validation d’adresses au lieu d’une solution par pays (15 pays). Un processus d’intégration homogène de bout en bout Un rapprochement de meilleure qualité (approche probabiliste) . Des caractéristiques produit extraites de façon automatique. <ul><li>Le Projet de Marketing Direct a été réalisé en 3 mois. </li></ul><ul><li>500,000 doublons identifiés . Economies d’affranchissement importantes (coût d’expédition d’un échantillon produit entre 7 and 10 €). </li></ul><ul><li>NPAI < 0,43%. Les coûts d’affranchissement ont été négociés à la baisse avec les organismes postaux . </li></ul><ul><li>Le projet de migration accompli avec 6 mois d’avance. </li></ul>Marketing direct Le processus d’intégration existant n’était pas intégré et reposait sur une comparaison exacte des enregistrements en entrée. Master Data Management Le processus de migration des pièces détachées était en grande partie manuel entre les applications historiques et SAP. Problème Solution Résultat MasterFoods
    38. 38. Mapping Solution de chargement RDP Rapid Deployment Package Ateliers – Préparation des données Découverte & Analyse <ul><li>L’approche projet RDP est structurée autour de deux axes: </li></ul><ul><li>Un axe conseil visant à analyser les sources de données, à les mapper avec le référentiel et à constituer les enregistrements de chargement. </li></ul><ul><li>Un axe technologique visant à standardiser et rapprocher les données puis les charger dans le référentiel </li></ul>Services Logique de chargement et qualité SIF Systèmes Source Source #1 Source #2
    39. 39. Implémentation rapide avec le MDM Source Systems MDM Business Services MDM SERVER Duplicate Suspect Processing User Interface & Reporting <ul><li>Key tasks in implementing RDP: </li></ul><ul><li>Data analysis to ensure that attributes contain what they should </li></ul><ul><li>Mapping to the SIF format </li></ul><ul><li>Extending the model for up to 10 additional attributes and attribute lengths </li></ul><ul><li>Tuning standardization and matching rules </li></ul>ETL MDM Database History Source #N Source #1 Source #2 Information Server Load Process DS jobs QS DataStage SIF
    40. 40. Des questions ?
    41. 41. Etape Suivante ? <ul><li>Seriez vous intéressé par une démarche « Mini DQA » ? </li></ul><ul><ul><li>3 à 5 tables </li></ul></ul><ul><ul><li>5000 enregistrements par table sous format texte délimité(.csv ou .txt) </li></ul></ul><ul><ul><li>Au moins 2 tables avec des données communes </li></ul></ul><ul><ul><li>Structure des tables(DDL) </li></ul></ul><ul><ul><li>Problématique que vous cherchez à mettre en avant(si possible des tables ayant potentiellement des données de piètre qualité) </li></ul></ul><ul><ul><li>Expert Métier pour les échanges </li></ul></ul><ul><ul><li>Mode projet ? </li></ul></ul><ul><ul><li>Accompagnement ? </li></ul></ul>
    42. 42. Démarche proposée : DQA (Data Quality Assesment) <ul><li>Illustration des bénéfices d’un DQA appliquée à un sous-ensemble de données réelles de production. </li></ul><ul><li>Résultats : </li></ul><ul><ul><li>Rapports apportant la connaissance des données existantes </li></ul></ul><ul><ul><li>Rapports soulignant les cas d’anomalies détectées </li></ul></ul><ul><ul><li>Analyse de la qualité des données de l’échantillon traité </li></ul></ul><ul><ul><li>Identification des groupes d’enregistrements similaires </li></ul></ul><ul><ul><li>Construction d’un enregistrement consolidé </li></ul></ul><ul><ul><li>Illustration de la méthodologie d’analyse technique et métier </li></ul></ul>
    43. 43. Thank You Merci Grazie Gracias Obrigado Danke Japanese French Russian German Italian Spanish Brazilian Portuguese Arabic Traditional Chinese Simplified Chinese Hindi Tamil Thai Korean
    44. 44. Démonstration
    45. 45. Techniques d’implémentation <ul><li>L’analyse des besoins </li></ul><ul><li>La chargement initial </li></ul><ul><li>Le chargement incrémental et le temps réel </li></ul>
    46. 46. L’analyse des besoins <ul><li>Etude de votre problématique </li></ul><ul><li>Définition des objectifs à atteindre MOE / MOA </li></ul><ul><li>Organisation Projet et Méthodologie </li></ul><ul><li>Planning </li></ul><ul><li>Rédaction d’un document de spécification </li></ul>Phase 1 Phase 2 Phase 3 Phase 4 Spécifications techniques, Architecture Développements Intégration, recette Mise en production, support Transfert de connaissance
    47. 47. Le chargement initial <ul><li>Cette partie consiste à construire le référentiel </li></ul><ul><li>De nouveaux champs fonctionnels et techniques seront stockés </li></ul>
    48. 48. Le chargement incrémental <ul><li>Il consiste à mettre à jour de façon quotidienne, hebdomadaire ou mensuel le référentiel </li></ul><ul><li>Très rapide à mettre en œuvre; il utilise les algorithmes validés lors de la reprise d’historique </li></ul><ul><li>Très rapide en exécution, il ne traite que peu d’enregistrements </li></ul>
    49. 49. Le chargement incrémental <ul><li>Phase de Standardisation: </li></ul><ul><ul><li>Seule les nouvelles données sont standardisées </li></ul></ul><ul><ul><ul><li>Le référentiel contient déjà les informations nécessaires au matching </li></ul></ul></ul><ul><li>Phase de Matching </li></ul><ul><ul><li>Seule les données candidates au matching sont récupérées du référentiel pour traitement dans le flux </li></ul></ul><ul><li>Execution en parallèle de toutes les phases </li></ul>
    50. 50. Le chargement incrémental <ul><li>Les clés de la performance: </li></ul><ul><ul><li>Le référentiel stocke les champs qui seront utiles au matching (dynamisme des critères) </li></ul></ul><ul><ul><li>Du fichier Delta, on dé doublonne les champs utilisé lors du blocking (automatiquement en parallèle avec QS) </li></ul></ul><ul><ul><li>On extrait du référentiel que les données qui seront de réel candidats pour le matching avec le fichier delta (on analyse une volumétrie minimale) </li></ul></ul>

    ×