DDMA / Human Inference: Datakwaliteit

720 views

Published on

Tijdens de Dag van de Datakwaliteit zal Holger Wandt ingaan op het beheersen en beheren van internationale klantgegevens. Tijdens deze presentatie komen de verschillende aspecten van de voortschrijdende internationalisatie van het bedrijfsleven aan de orde:
• pluriformiteit van namen en adressen
• non-Latin tekensets
• business benefits
• case: Euro 2004 – ticketing voor de Europese voetbalkampioenschappen in Portugal

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
720
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

DDMA / Human Inference: Datakwaliteit

  1. 1. Event: DDMA Dag van de Datakwaliteit Thema: Datakwaliteit Spreker: Holger Wandt – Human Inference Datum: 24 oktober 2007, De Lindenhof, Delft
  2. 2. Holger Wandt Human Inference
  3. 3. Beheren en beheersen van internationale klantgegevens Dag van de Datakwaliteit 2007 Holger Wandt Principal advisor Human Inference
  4. 4. De analyse van gegevens is zeer sterk afhankelijk van de vraag: Wat is wat?
  5. 5. Wat is wat? 3,14 π 3,1415926535 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, … 144 (De reeks van Fibonacci)
  6. 6. Arend Tromp
  7. 7. Arend & Tromp
  8. 8. Jansen, Arend & Tromp
  9. 9. Monsieur e/o Madame Durand
  10. 10. Int. Transp. Ond. Joh. Tilburg Hardinxv./Giessend. e/o
  11. 11. Suomen Posti OY Tuotteet/ Mediapalvelut/ Osoitepalvelut
  12. 12. Natuurlijke taalverwerking: Wat is wat in een naam? Woordenboek o Segmentatie (definitie van datagroepen) o Attributen van datagroepen o Attributen van specifieke items binnen een groep o Verbanden tussen items (afkorting, meervoud) Mathematische and linguistische methodieken o Contextanalyse, patroonherkenning, semantische en syntactische associaties, frequentieberekeningen, stringvergelijk, fonetische variatie en overeenkomst, etc.
  13. 13. Hoe interpreteren mensen? Natuurlijke taalverwerking Servicebureau Jnasen/ Jansen Elektroservice Art Gallery Wandt & Wandt / Art Wandt Handel in Kunstart. Huisintveld, M.A. / Huis in ’t Veld, MA André Matthijssen / Andrée Matheysse
  14. 14. Natural Language Processing
  15. 15. Bread, Pain, Brot, Brood, Pane….
  16. 16. EUROSTAT Bevolking EU25 op 1-1/05: 459,5 miljoen (Vergelijk bevolking USA op 1-1/05: 294,4 miljoen) Taalkundige diversiteit: 20 officiële talen in de EU + de niet-officiële talen en de non-EU-talen: Gaelic, Rhaeto- Romaans, Turks, Noors, IJslands….. ICT-industrie zet ongeveer 200 miljard EUR om (met initiatieven zoals CDI, CRM, compliance, data governance, anti-terrorism, e-business allen sterk afhankelijk van data en informatie)
  17. 17. Naamconventies Structuur Opslag in databases Uitwisseling Representatie Betekenis
  18. 18. Naamconventies 1) Charles M. Grissom 2) B. Jan Smit 3)St.John Quartermain 4)Elsa Olavsdottir 5)Cornelis (Cees) de Vries 6)Vanabeele, Dirk 7)Señor Juan-Ignasi Fonseca Martinez Andrade 8)Th. Jansen 9)Theodora Smith 10) George Michael Parker Ceng, BSc, MBIM 11)Mme. Lisa Clément 12)Mr John Smith 13)Mr. John de Vries
  19. 19. Naamconventies Sorteren: Van Buren, John vs Buren, John, Van Kapitaliseren: Anne Machiavelli vs Anne MacAllister Schrijfwijze voorvoegsel: Matthieu Le Grand vs Matt LeBlanc
  20. 20. Naamconventies Patronymen Sergei Ivanovich Kutsnetsov Olga Ivanovna Kutsnetsova Olav Svenson x Anna Thorgeirsdottir Björn Olavson Majbritt Olavsdottir x Helga Nilsdottir Sven Björnson
  21. 21. Naamconventies Geslacht van voornamen: Señor Joan Gonsalves vs Mrs Joan Rivers “Culturele” synoniemen: Lorry Rental = Truck Rental
  22. 22. Vergelijking van gegevens in verschillende character sets Verwerking van non-Latin tekensets en non- ANSI-diakrieten Voorbeelden: o Internationale bedrijven die een veelvoud van CRM-databases in verschillende tekensets onderhouden en deze gegevens willen “minen” voor een uniek klantbeeld o Financiële organisaties moeten hun “native” tekenset kunnen vergelijken met een grote hoeveelheid suspect lists
  23. 23. Het Unicode-mysterie Unicode is een vehikel: opslag, uitwisseling en representatie van data uit alle character sets ter wereld. Het vaststellen van de mate van overeenkomst van gegevens uit verschillende character sets vereist het zogenaamde “Lingua Franca-principe” en kennis van land en cultuur waar de betreffende character sets worden gebruikt. Transliteratie van non-Latin naar Latin script maakt dit mogelijk groot voordeel: transliteratie is eenduidig!
  24. 24. Matchingvoorbeeld 89509 アメリカ大使館ATO農産物貿易事務所 港区赤坂10-5 - 1 丁 目 113471 アメリカ大使館 港区赤坂1-10- Trans- 5 literatie 89509 AMERIKAOSHI TACHI ATO SANBUTSU BOEKIJIMU TOKORO MINATO-KU AKASAKA 1CHOME 10-5 113471 AMERIKAOSHI TACHI Gebruik kennis MINATO-KU AKASAKA 1-10 -5 American Embassy American Embassy (Agricultural Trade Dept.) 10 – 5 - 1 CHOME 1 – 10 - 5
  25. 25. Adresvariëteit RegTP Mme. Eva Riebel Heusallee 2-10 38b, rue de Benfeld Haus IV 67100 Strasbourg 53113 Bonn Pilar Gonzales Frederick Hartford Passeo de Gracia 22, 1° B Chipping Norton 08012 Barcelona Fawler Litle Acre
  26. 26. Er zijn veel valkuilen in de verwerking van internationale gegevens. Maar zijn er ook oplossingen?
  27. 27. Directive 97/67/EG van het Europees parlement mbt postale liberalisering Common rules for the development of the internal post market Increase the quality of the postal services
  28. 28. The quality of service….
  29. 29. Internationale werkgroep address databases van de CEN Generieke definities van alle Europese adreselementen Publicatie “EN 14142 Components of postal addresses” Samenwerking met de UPU: wereldwijde standaard
  30. 30. Toepassingsvoorbeeld Euro 2004 Web-based ticketverkoop Landspecifieke invoerschermen Internationale database Identificatie van meervoudige aanvragen (zwarte markt) Vermijden van de uitsluiting van correcte aanvragen met een gelijksoortig patroon Gegarandeerde black list- check: Meer dan 5.000 geregistreerde stadionverboden in Europa Verzending van de tickets (fysieke representatie op een aangetekend poststuk)
  31. 31. FIELD EXAMPLE Nome Pedro Mari-Carmen Sobrenome Martinez Gomez de Pereira Rua Calle de Gracia Rua Madalena Calle Lirioo Numero de porta 2 3-5 Informação suplementar II DR A Código Postal 234-3201 Localidade Mem Martins Designação postal Lisboa Porto País Portugal
  32. 32. FIELD Saif-tag Senhor / Senhora FormOfAddress Nome GivenName Sobrenome CompoundSurname Rua Thoroughfare Numero de porta StreetNumberOrPlot Informação suplementar ExtensionDesignation Código Postal Postcode Localidade DependentLocality Designação postal Locality País Country
  33. 33. Physical representation template LINE 1 [FormOfAddress] [GivenName] CompoundSurname LINE 2 Thoroughfare [StreetNumberOrPlot] [ExtensionDesignation] LINE 3 [Postcode] Locality LINE 4 [Postcode DependentLocality] LINE 5 Country
  34. 34. Demo: Ik woon in Portugal… 1.500.000 aanvragen en 400.000 verkochte tickets
  35. 35. Portugal v. Greece Form number: 500409331 H. Larre Ingjerkollvn. 47 1410 Kolbotn, Norway Date of birth: 28-05-63 Portugal v. Greece Form number: 500409544 Score: 93, positieve match H.L. Hege Larre Ingjerkollveien. 47 1410 Kolbotn, Norway Date of birth: 28-05-63
  36. 36. Germany v. Netherlands Form number: 131731858 H.P.M. Matheijsen Baronielaan 46 5131 BX Alphen (NB) Date of birth: 30-11-88 Germany v. Netherlands Form number: 131856464 Score: 78, negatieve match H.A. Matheijsen Baronielaan 46 5131 BX Alphen (NB) Date of birth: 06-06-61
  37. 37. Italy v. England Form number: 129020109 M.L. Wither Pall Mall Road 120 SW1 5YE London Date of birth: 17-08-72 Credit card: 49294604415255 Italy v. England Form number: 5003562876 Score: 66, positieve match, M. Wither tgv additionele criteria Middle Way 36 OX2 7LG Oxford Date of birth: 17-08-72 Credit card: 49294604415255
  38. 38. Andere aspecten Meertalige landen (CH, BE) Diakrieten: ß is niet hetzelfde als B Andere (non-Latin) character sets Notatiewijze valuta: €1B = 1.000.000.000.000 in Europa en 1.000.000.000 in de VS Datumnotatie: 051201 01.12.05 05/12/01 01-12-05 Privacyaspecten (bijv. dubbele opt-in voor e-commerce)
  39. 39. Conclusies Elk succesvol internationaal businessinitiatief is gebaseerd op hoge datakwaliteit. Dit houdt o.a. in: Kennis van de cultuur en de markten in een specifiek land Landspecifieke kennis van namen en naamconventies Landspecifieke kennis van adreselementen en adresstructuren Kennis van nationale en internationale standaardisatie- inspanningen en -resultaten KENNIS maakt het verschil bij het succes van elk internationaal businessinitiatief !
  40. 40. Meer informatie? http://www.humaninference.com/ h.wandt@humaninference.com +31 (0) 26 355 06 55 Human Inference

×