Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Active Learning for Record Linkage

107 views

Published on

@ Workshop Runder Tisch der Technischen Visualistik
17. April 2018

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Active Learning for Record Linkage

  1. 1. Die Beschaffungsplattform für Geschäftskunden Active Learning for Record Linkage Projekt VANDA Vivien Mast, 17.04.2018
  2. 2. Die Beschaffungsplattform für Geschäftskunden
  3. 3. Die Beschaffungsplattform für Geschäftskunden 3 ▪ >85 Mio. Artikel in ca. 6000 Katalogen ▪ Davon ca. 65 Mio. Dubletten ▪ Dubletten Erkennen für ▪ Verbesserte Suche ▪ Preisvergleich ▪ Warenkorboptimierung Artikeldubletten Einleitung
  4. 4. Die Beschaffungsplattform für Geschäftskunden 4 ▪ Ca. 1,5 Mio. Kunden ▪ Davon geschätzt >0,5 Mio. Volldubletten (gleiches Unternehmen, gleicher Standort) ▪ Dubletten Erkennen für ▪ Koordinierte Kundenbetreuung und vertriebliche Ansprache ▪ Korrektes internes Reporting ▪ Anbieten von Genehmigungs-Workflows Kundendubletten Einleitung
  5. 5. Die Beschaffungsplattform für Geschäftskunden 5 ▪ Regelbasierte Altsysteme ▪ Komplex ▪ Schwer wartbar ▪ Nicht skalierbar ▪ Ziel: Ablösung durch Machine Learning Record Linkage Status Quo Einleitung
  6. 6. Die Beschaffungsplattform für Geschäftskunden 6 ▪ Machine-Learning Ansätze ▪ Supervised Learning ▪ Unsupervised Learning ▪ Semi-supervised Learning ▪ Record Linkage ▪ Sehr viele sehr kleine Kategorien ▪ Jeden Tag neue Kategorien ▪ Anzahl Kategorien nicht bekannt ▪ Unmöglich, für jede Kategorie Trainingsdaten zu erstellen Record Linkage mit Machine Learning Lösungsansatz
  7. 7. Die Beschaffungsplattform für Geschäftskunden 7 Record Linkage mit Machine Learning Lösungsansatz
  8. 8. Die Beschaffungsplattform für Geschäftskunden 8 Record Linkage mit Machine Learning Lösungsansatz
  9. 9. Die Beschaffungsplattform für Geschäftskunden 9 ▪ Trainingsdaten aus Altsystemen nur bedingt geeignet ▪ Schwächen nicht reproduzieren ▪ Veränderungen von fachlicher Seite (Definition Dublette) ▪ Erzeugung von echten Ground Truth-Daten durch menschliche Annotation ist teuer Herausforderung Trainingsdaten Problemstellung
  10. 10. Die Beschaffungsplattform für Geschäftskunden 10 ▪ Active Learning ▪ Statt vieler zufällig ausgewählter Trainingsdaten: ▪ Kleine Menge relevanter Trainingsdaten ▪ Automatisch ausgewählt ▪ Reduziert Kosten für Erhebung von Trainingsdaten Active Learning Lösungsansatz
  11. 11. Die Beschaffungsplattform für Geschäftskunden 11 Active Learning Lösungsansatz
  12. 12. Die Beschaffungsplattform für Geschäftskunden 12 Active Learning Lösungsansatz
  13. 13. Die Beschaffungsplattform für Geschäftskunden 13 ▪ Simulationsstudie ▪ Automatisch generierter Datensatz ▪ Adressen mit fehlerhaften Dubletten ▪ Zufällig ausgewählte Trainingspaare vs. Active Learning ▪ Erste Ergebnisse: ▪ Deutlich bessere Erfolge als zufällig gewählte Trainingspaare Active Learning Simulationsstudie
  14. 14. Die Beschaffungsplattform für Geschäftskunden 14 ▪ Annotationen durch Data Worker ▪ Effizient ▪ Fehlerfrei ▪ Angenehm ▪ Identifikation problematischer Fälle durch Data Worker ▪ Active Learning: unklare Fälle auf Basis vorhandener Trainingsdaten ▪ Data Worker: Sonderfälle, die in Trainingsdaten nicht abgebildet sind Annotation von Trainingsdaten Problemstellung
  15. 15. Die Beschaffungsplattform für Geschäftskunden 15 ▪ Einfache Interfaces ▪ Interaktion durch System gesteuert ▪ Repetitiv ▪ Kein Kontext ▪ Ermüdung und Fehler ▪ Keine Identifikation problematischer Fälle durch Nutzer Annotation von Trainingsdaten Lösungsansatz
  16. 16. Die Beschaffungsplattform für Geschäftskunden 16 ▪ Glyphboard (TU Dresden) ▪ Interaktion durch Nutzer gesteuert ▪ weniger repetitiv ▪ Kontext, aber auch Komplexität ▪ erlaubt Identifikation von neuen Trainingsdaten durch Nutzer Annotation von Trainingsdaten Lösungsansatz
  17. 17. Die Beschaffungsplattform für Geschäftskunden 17 ▪ Glyphboard (TU Dresden) ▪ Interaktion durch Nutzer gesteuert ▪ Weniger repetitiv ▪ Kontext ▪ Ggf. Fehler durch zu hohe Komplexität ▪ Erlaubt Identifikation von neuen Trainingsdaten durch Nutzer Annotation von Trainingsdaten Problemstellung
  18. 18. Die Beschaffungsplattform für Geschäftskunden 18 ▪ Ziel: Hybridisierung ▪ Offene Fragen: ▪ Wieviel Kontext braucht Data Worker? ▪ Wieviel Komplexität verträgt er/sie? ▪ Findet Data Worker andere relevante Trainingsdaten als Algorithmus? ▪ Verbessert dies Qualität der Ergebnisse? Annotation von Trainingsdaten Lösungsansatz

×