Datenqualität mit den SQL Server Integration Services

1,989 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,989
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Datenqualität mit den SQL Server Integration Services

  1. 1. Datenqualität mit den SQLServer Integration Services www.datenfabrik.com
  2. 2. datenfabrik GmbH & Co. KG• Versandhandel und Direktmarketing• Internationale Datenverarbeitung in über 10 europäischen Ländern – Listbroking – Datenbereinigung – „Daten-Hosting“ – Datenmigration• Softwareentwicklung im Bereich Data Quality www.datenfabrik.com
  3. 3. Tillmann Eitelberg- Prokurist datenfabrik GmbH & Co. KG- Lehrbeauftragter an der Uni Bonn- RGV KölnBonnDüsseldorf- Regional Director PASS Deutschland- Regional Mentor PASS Deutschland- Blog: www.ssis-components.net- Codeplex Projekte - ShapeFileSource - ImageSource - SMSTask - ReportGeneratorTask - GoogleAnalyticsSource www.datenfabrik.com
  4. 4. Agenda• Was ist Datenqualität?• Ursachen schlechter Datenqualität• Auswirkungen schlechter Datenqualität• Gesetzliche Anforderungen• 5 DQ Prozesse• Microsoft Boardmittel• Community Components• Third Party Components www.datenfabrik.com
  5. 5. Was ist Datenqualität? „Ein (mehrdimensionales) Maß fürdie Eignung von Daten, den an ihreErfassung/Generierung gebundenen Zweck zu erfüllen.“ Dr. Volker Würthele www.datenfabrik.com
  6. 6. Was ist Datenqualität? „Quality is when your customer returns, not your product. “ www.datenfabrik.com
  7. 7. Was ist Datenqualität? www.datenfabrik.com
  8. 8. Was ist Datenqualität?• Datenqualität ist subjektiv• Anwendungsbezogen• Domänenspezifisch• Mehrdimensional www.datenfabrik.com
  9. 9. Was ist Datenqualität (nicht)? 49716 Unterschleißheim 3,0 m x 3,0 mFrottee Stoffhase (blau) Herr Max MustermannBester Kunde 2010 = www.datenfabrik.com
  10. 10. Ursachen schlechter Datenqualität • Unterschiedliche Datenformate • Datenverfall • (Neue) Datenverwendung • Inkonsistente Datendefinition www.datenfabrik.com
  11. 11. Ursachen schlechter Datenqualität • Architektur • Systemaktualisierungen • (Prozess-) Automatisierungen • Datenkonvertierungen • Systemkonsolidierung • Fehlende Änderungsverfolgung www.datenfabrik.com
  12. 12. Ursachen schlechter Datenqualität • Bedienungs- und Benutzerfehler • Manuelle Dateneingabe • Verschiedene Datenverarbeitungsprozesse • Mangelhaftes User Interface • User Experience www.datenfabrik.com
  13. 13. Ursachen schlechter Datenqualität • Verlust von Fachkenntnissen • Fehlendes Problembewusstsein • Falsche Motivationsmethodik www.datenfabrik.com
  14. 14. Ursachen schlechter Datenqualität 40 35 30 25 20 15 10 5 0 www.datenfabrik.com
  15. 15. Auswirkungen schlechter Datenqualität• Kosten!!! – Direkte Kosten • Nachweiskosten • Wiedereingabekosten – Indirekte Kosten • Umsatzeinbußen • Fehlentscheidungen • Imageverlust • Werbekosten • Betrugsversuch www.datenfabrik.com
  16. 16. Auswirkungen schlechter Datenqualität• Ausschuss und Nacharbeit durch falsch justierte Maschinen• Rückrufaktionen aufgrund von Produktionsmängeln• Projektmisstrauen• Geldstrafen• Sinkende Mitarbeitermotivation www.datenfabrik.com
  17. 17. Auswirkungen schlechter Datenqualität Zustellung 5% = 25.000 3% = 15.000 40.000500.000 3% DublettenKunden 0,45 € = 18.000 € 0,55 € = 22.000 € 40.000 € X2 = 80.000 € www.datenfabrik.com
  18. 18. Auswirkungen schlechter Datenqualität Zustellung 5% = 2.000 3% = 1.200 3.20040.000 3% DublettenKunden 0,45 € = 1.440 € 0,55 € = 1.760 € 3.200 € X2 = 6.400 € www.datenfabrik.com
  19. 19. Gesetzliche Anforderungen• Gesetzliche und behördliche Anforderungen nehmen zu• Nachweispflicht setzt eine einwandfreie Datenqualität voraus• Einhaltung nationaler und internationaler Gesetze und Richtlinien (Antiterrorlisten, Robinsonliste)• Bekannte Compliance-Maßnahmen – International Financial Reporting Standards (IFRS) – Sarbanes-Oxley Act (SOX) – Basel II – REACH – International Material Data Systems (IMDS) www.datenfabrik.com
  20. 20. Geschäftstreiber laut Gartner Folge eines signifikanten Schadenfalls durch schlechte DatenqualitätAntwort auf Datenqualitätsinitiativen bei Wettbewerbern Stärkung des Vertrauens in die eigene Datenbasis Unterstützung von Business.Intelligence oder Data- Warehouse-Initiativen Unterstützung von CRM-Initiativen Verbesserung der Anwenderakzeptanz der wichtigsten Applikationssysteme Unterstützung von Compliance-Aktivitäten 0 10 20 30 40 50 60 70 www.datenfabrik.com
  21. 21. Datenqualität steigern• Bei der Dateneingabe• Fachkenntnisse aufbauen• Problembewusstsein stärken• Master Data Management• Corporate Data Definition• Verwendung von Referenzdaten• Regelmäßige Prüfung mit „externen“ Programmen• Beim Beladen des Data Warehouse www.datenfabrik.com
  22. 22. Rufnummern 0228902990 Rufnummer inkl. Vorwahl www.datenfabrik.com
  23. 23. Rufnummern 0228 902990 Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  24. 24. RufnummernVerkehrsausscheidungsziffer 0 228 902990 Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  25. 25. RufnummernVerkehrsausscheidungsziffer Durchwahl 0 228 90299 0 Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  26. 26. Rufnummern Internationale Verkehrsausscheidungsziffer Durchwahl 00 49 228 90299 0Internationale Vorwahl Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  27. 27. Rufnummern Internationale Verkehrsausscheidungsziffer Durchwahl + 49 228 90299 0Internationale Vorwahl Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com
  28. 28. Rufnummern- Max. Rufnummernlänge 15 Stellen im Internationalen Verkehr- 5 verschiedene Schreibweisen in der DACH-Region - +49 30 12345-67 - +49 30 1234567 - +49 (30) 1234567 - +49-30-1234567 - +49 (0)30 12345-67- Zuständigkeit in Deutschland liegt bei der Bundesnetzagentur- Ortsnetzkennzahlen werden im Nummerierungsplan festgehalten- Private Nummerierungspläne, Sonderrufnummern, ITU www.datenfabrik.com
  29. 29. 5 DQ Prozesse Monitoring Profiling Enrichment Validation Cleansing www.datenfabrik.com
  30. 30. Profiling • Wie sehen meine Daten aus? Monitoring Profiling • Welche Datentypen sind enthalten? • Welches Format haben Enrichment Validation die Daten? • Gibt es NULL-Werte? Cleansing • Existieren Abhängig- keiten untereinander? www.datenfabrik.com
  31. 31. Validation • Prüfung von Datentypen und Formaten • Syntaktische und Monitoring Profiling semantische Prüfung aller relevanten Daten Enrichment Validation • Prüfung auf Vollständigkeit (ggf. auch Cleansing mehrdimensional) • Prüfung auf Dubletten www.datenfabrik.com
  32. 32. Cleansing • Normierung von Daten (z.B. Telefonnummern, Straße + Hausnummer) Monitoring Profiling • Bereinigung der Daten • Verschmelzung von Enrichment Validation Dubletten Cleansing www.datenfabrik.com
  33. 33. Enrichment • Ergänzen der bestehenden Daten mit zusätzlichen (meist Monitoring Profiling externen) Informationen Enrichment Validation – Geokoordinaten – Soziodemographische Daten Cleansing – Microsoft Dallas www.datenfabrik.com
  34. 34. Monitoring • Durchgehende Prüfung und Messung relevanter Regeln und Monitoring Profiling Ergebnisse aus den Prozessen Profiling und Enrichment Validation Validation Cleansing www.datenfabrik.com
  35. 35. Microsoft Boardmittel• Character Map• Data Converter• Data Profiling Task• Lookup Task• Derived Column• Fuzzy Grouping• Fuzzy Lookup• Script Component www.datenfabrik.com
  36. 36. Data Profiling Task• Hilft Entwicklern, sich mit Datenquellen vertraut zu machen• Erstellt verschiedene Profile pro Spalte• Daten müssen im SQL Server vorliegen• Profil wird als XML Datei gespeichert• ProfileToSQL Styleheetshttp://www.tf-informatik.dk/FreeStuff/ProfileToSQL/index.php www.datenfabrik.com
  37. 37. DemoData Profiling www.datenfabrik.com
  38. 38. Lookup Task• Führt Suchvorgänge in einem Verweisdataset durch• Setzt Referenzen• Anreicherung von Daten• Ermöglicht auch das erstellen von Business Regeln (Attributabhängigkeiten) WENN Hersteller = „Vita Kraft“ UND Produkt = „Stroh“ DANN Verpackungseinheit = „Liter“ WENN Kategorie = „Fernseher“ (UND Unterkategorie = „Plasma“) DANN ProduktPreis > 100 www.datenfabrik.com
  39. 39. DemoErkennen von Fehlern innerhalb vonAttributsabhängikeiten www.datenfabrik.com
  40. 40. Data Conversion• Konvertiert Daten in einen anderen Datentyp• Konvertierte Daten werden in eine Ausgabespalte kopiert• Mehrere Konvertierungen für eine Spalte Replacing Data Conversion Component for SSIS Todd McDermid - Codeplex www.datenfabrik.com
  41. 41. Derived Column• Ermöglicht das Erstellen von Regeln• Hilft bei der Bereinigung von Daten• SSIS Expressions – Bedingungen (BOOL ? True : False) – String-Funktionen – Datums-Funktionen – Mathematische Operatoren www.datenfabrik.com
  42. 42. Fuzzy Suche• Fuzzy Lookup – Führt Suchvorgänge in einem Verweisdataset durch – Suche über Ähnlichkeiten• Fuzzy Grouping – Sucht innerhalb des Eingabedatenstroms – Suche über Ähnlichkeiten www.datenfabrik.com
  43. 43. Demo www.datenfabrik.com
  44. 44. Script Component• Ausführung von VB.NET/C# Code• Verwendung als Quelle, Transformation oder Ziel• Verwendung bei – erweiterten .NET Funktionen, z.B. regulären Ausdrücken – komplexen Algorithmen www.datenfabrik.com
  45. 45. DemoRegEx und Pattern mit der Script Komponente www.datenfabrik.com
  46. 46. Community Components• Data Validation Transform• RegexClean• Regular Expression Transform• RegExtractor SSIS Component• CCNValidator• MapPoint Batch Geocoder (SQL Server CLR Function for Address Correction and Geocoding) www.datenfabrik.com
  47. 47. RegexClean• Community Component von Darren Green (SQLIS.com)• Match Expression - extrahiert Daten anhand eines regulären Ausdrucks• Replace Expression - überführt Daten mit Hilfe eines regulären Ausdrucks www.datenfabrik.com
  48. 48. Regular Expression Transform• Community Component von Darren Green (SQLIS.com)• Validiert Daten anhand eines regulären Ausdrucks• Komponente enthält zwei Ausgaben (Matched/Non-Matched) www.datenfabrik.com
  49. 49. DemoReguläre Ausdrücke mit den Integration Services www.datenfabrik.com
  50. 50. CCNValidator• Codeplex-Projekt• Komponente zum Prüfen von Kreditkartennummern• Verwendung des Luhn-Algorithmus• Ausgabedatenstrom wird automatisch um eine Validierung ergänzt• Prüfung sagt nur aus, ob die Nummer richtig sein könnte www.datenfabrik.com
  51. 51. DemoKreditkartenvalidierung www.datenfabrik.com
  52. 52. Third-party Components• datenfabrik GmbH & Co. KG• Pragmatic Works• CozyRoc• Intelligent Search Technologies• AMB Dataminers• Melissa Data• DQ Components www.datenfabrik.com
  53. 53. datenfabrik.dedupe• Dublettensuche für die Integration Services• Sehr granulare Einstellungen möglich• Prüfung auf vertauschte Spalten möglich• Prüfung auf vertauschte Doppelnamen möglich• Normalisierung/Standardisierung spezieller Werte• Sehr hohe Performance (ca. 15 Mio. Datensätze pro Stunde) www.datenfabrik.com
  54. 54. datenfabrik.address• Komponente zur postalischen Korrektur• Referenzdaten für über 240 Länder• Normierung von Adressdaten• Zerlegung von Adressdaten• Umbenennung anhand historischer Informationen• Geokodierung von Adressdaten www.datenfabrik.com
  55. 55. DemoDubletten erkennen und verschmelzen www.datenfabrik.com
  56. 56. datenfabrik.profiler• Profiling direkt im Datenfluss  Datenquellen „unabhängig“• Alarmfunktion auf einzelnen Ergebnissen pro Spalte• Umfangreiches Regelwerk• Erweiterung der Statistiken mit SSRS www.datenfabrik.com
  57. 57. DemoKundendaten bereinigen www.datenfabrik.com
  58. 58. Weitere Komponenten• datenfabrik.merge Zusammenführen doppelter Datensätze auf einen Golden Record• datenfabrik.email Korrektur von Email-Adressen• datenfabrik.deletix Löscht Dubletten nach verschiedenen Prioritätsinformationen und erstellt Löschprotokolle• datenfabirk.gender Ermittelt die korrekte Anrede anhand des Vornamens für unterschiedliche Länder• datenfabrik.currency Rechnet Beträge in verschiedene Währungen mit aktuellen und historischen Daten um.• datenfabrik.phone Korrektur und Anreicherung von Telefondaten www.datenfabrik.com
  59. 59. Fragen? www.datenfabrik.com
  60. 60. Links• Deutsche Gesellschaft für Informations- und Datenqualität http://www.dgiq.de• Data Profiling im SQL Server 2008, Martin Kopp http://www.sqlpass.de/Mitgliedsbereich/Repository/tabid/73/DMXModule/696/Command/Core_Downl oad/Default.aspx?EntryId=116• SQLIS.com – RegexClean, Regular Expression Transform http://www.sqlis.com• CCNValidator http://ccnv05.codeplex.com/• Microsoft SQL Server Integration Services Product Samples http://msftisprodsamples.codeplex.com/• SSIS Community Tasks and Components http://ssisctc.codeplex.com/• SSIS-Components.net http://www.ssis-components.net www.datenfabrik.com
  61. 61. DANKE! www.datenfabrik.com

×