SlideShare a Scribd company logo
1 of 18
Download to read offline
Die Beschaffungsplattform für Geschäftskunden
Active Learning for Record Linkage
Projekt VANDA
Vivien Mast, 17.04.2018
Die Beschaffungsplattform für Geschäftskunden
Die Beschaffungsplattform für Geschäftskunden 3
▪ >85 Mio. Artikel in ca. 6000 Katalogen
▪ Davon ca. 65 Mio. Dubletten
▪ Dubletten Erkennen für
▪ Verbesserte Suche
▪ Preisvergleich
▪ Warenkorboptimierung
Artikeldubletten
Einleitung
Die Beschaffungsplattform für Geschäftskunden 4
▪ Ca. 1,5 Mio. Kunden
▪ Davon geschätzt >0,5 Mio. Volldubletten (gleiches
Unternehmen, gleicher Standort)
▪ Dubletten Erkennen für
▪ Koordinierte Kundenbetreuung und vertriebliche
Ansprache
▪ Korrektes internes Reporting
▪ Anbieten von Genehmigungs-Workflows
Kundendubletten
Einleitung
Die Beschaffungsplattform für Geschäftskunden 5
▪ Regelbasierte Altsysteme
▪ Komplex
▪ Schwer wartbar
▪ Nicht skalierbar
▪ Ziel: Ablösung durch Machine Learning
Record Linkage Status Quo
Einleitung
Die Beschaffungsplattform für Geschäftskunden 6
▪ Machine-Learning Ansätze
▪ Supervised Learning
▪ Unsupervised Learning
▪ Semi-supervised Learning
▪ Record Linkage
▪ Sehr viele sehr kleine Kategorien
▪ Jeden Tag neue Kategorien
▪ Anzahl Kategorien nicht bekannt
▪ Unmöglich, für jede Kategorie
Trainingsdaten zu erstellen
Record Linkage mit Machine Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 7
Record Linkage mit Machine Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 8
Record Linkage mit Machine Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 9
▪ Trainingsdaten aus Altsystemen nur bedingt geeignet
▪ Schwächen nicht reproduzieren
▪ Veränderungen von fachlicher Seite (Definition
Dublette)
▪ Erzeugung von echten Ground Truth-Daten durch
menschliche Annotation ist teuer
Herausforderung Trainingsdaten
Problemstellung
Die Beschaffungsplattform für Geschäftskunden 10
▪ Active Learning
▪ Statt vieler zufällig ausgewählter Trainingsdaten:
▪ Kleine Menge relevanter Trainingsdaten
▪ Automatisch ausgewählt
▪ Reduziert Kosten für Erhebung von Trainingsdaten
Active Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 11
Active Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 12
Active Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 13
▪ Simulationsstudie
▪ Automatisch generierter Datensatz
▪ Adressen mit fehlerhaften Dubletten
▪ Zufällig ausgewählte Trainingspaare
vs. Active Learning
▪ Erste Ergebnisse:
▪ Deutlich bessere Erfolge als zufällig
gewählte Trainingspaare
Active Learning
Simulationsstudie
Die Beschaffungsplattform für Geschäftskunden 14
▪ Annotationen durch Data Worker
▪ Effizient
▪ Fehlerfrei
▪ Angenehm
▪ Identifikation problematischer Fälle durch Data Worker
▪ Active Learning: unklare Fälle auf Basis vorhandener
Trainingsdaten
▪ Data Worker: Sonderfälle, die in Trainingsdaten nicht
abgebildet sind
Annotation von Trainingsdaten
Problemstellung
Die Beschaffungsplattform für Geschäftskunden 15
▪ Einfache Interfaces
▪ Interaktion durch System gesteuert
▪ Repetitiv
▪ Kein Kontext
▪ Ermüdung und Fehler
▪ Keine Identifikation problematischer
Fälle durch Nutzer
Annotation von Trainingsdaten
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 16
▪ Glyphboard (TU Dresden)
▪ Interaktion durch Nutzer gesteuert
▪ weniger repetitiv
▪ Kontext, aber auch Komplexität
▪ erlaubt Identifikation von neuen
Trainingsdaten durch Nutzer
Annotation von Trainingsdaten
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 17
▪ Glyphboard (TU Dresden)
▪ Interaktion durch Nutzer gesteuert
▪ Weniger repetitiv
▪ Kontext
▪ Ggf. Fehler durch zu hohe Komplexität
▪ Erlaubt Identifikation von neuen Trainingsdaten durch
Nutzer
Annotation von Trainingsdaten
Problemstellung
Die Beschaffungsplattform für Geschäftskunden 18
▪ Ziel: Hybridisierung
▪ Offene Fragen:
▪ Wieviel Kontext braucht Data Worker?
▪ Wieviel Komplexität verträgt er/sie?
▪ Findet Data Worker andere relevante Trainingsdaten
als Algorithmus?
▪ Verbessert dies Qualität der Ergebnisse?
Annotation von Trainingsdaten
Lösungsansatz

More Related Content

Similar to Active Learning for Record Linkage

Fallstudie UX Review found4you.de eResult GmbH
Fallstudie UX Review found4you.de eResult GmbHFallstudie UX Review found4you.de eResult GmbH
Fallstudie UX Review found4you.de eResult GmbH
eResult_GmbH
 
Von der Marketingidee zum Produkt
Von der Marketingidee zum ProduktVon der Marketingidee zum Produkt
Von der Marketingidee zum Produkt
Netcetera
 

Similar to Active Learning for Record Linkage (20)

SaaS EcoSystem - Kundengewinnung in der Cloud
SaaS EcoSystem - Kundengewinnung in der CloudSaaS EcoSystem - Kundengewinnung in der Cloud
SaaS EcoSystem - Kundengewinnung in der Cloud
 
SkyBoard Inc.: Transition to SAP ERP
SkyBoard Inc.: Transition to SAP ERPSkyBoard Inc.: Transition to SAP ERP
SkyBoard Inc.: Transition to SAP ERP
 
Auswertungen von Instandhaltungsdaten aus SAP PM
Auswertungen von Instandhaltungsdaten aus SAP PMAuswertungen von Instandhaltungsdaten aus SAP PM
Auswertungen von Instandhaltungsdaten aus SAP PM
 
Fallstudie UX Review found4you.de eResult GmbH
Fallstudie UX Review found4you.de eResult GmbHFallstudie UX Review found4you.de eResult GmbH
Fallstudie UX Review found4you.de eResult GmbH
 
Das Geschäftsmodell von Shopify
Das Geschäftsmodell von ShopifyDas Geschäftsmodell von Shopify
Das Geschäftsmodell von Shopify
 
anthesis Service-Ticket-Plattform
anthesis Service-Ticket-Plattform anthesis Service-Ticket-Plattform
anthesis Service-Ticket-Plattform
 
Crossing The Chasm
Crossing The ChasmCrossing The Chasm
Crossing The Chasm
 
Verbesserung der Service Qualität durch Enterprise Feedback Management
Verbesserung der Service Qualität durch Enterprise Feedback ManagementVerbesserung der Service Qualität durch Enterprise Feedback Management
Verbesserung der Service Qualität durch Enterprise Feedback Management
 
Erfolgsfaktor Bestellprozess
Erfolgsfaktor BestellprozessErfolgsfaktor Bestellprozess
Erfolgsfaktor Bestellprozess
 
[ecspw2013] Session Executive 04: ecspand Eingangsrechnungsverarbeitung
[ecspw2013] Session Executive 04: ecspand Eingangsrechnungsverarbeitung[ecspw2013] Session Executive 04: ecspand Eingangsrechnungsverarbeitung
[ecspw2013] Session Executive 04: ecspand Eingangsrechnungsverarbeitung
 
Web-Analyse ist keine Kür sondern Pflichtprogramm
Web-Analyse ist keine Kür sondern PflichtprogrammWeb-Analyse ist keine Kür sondern Pflichtprogramm
Web-Analyse ist keine Kür sondern Pflichtprogramm
 
Operational Excellence im eCommerce ist unsexy? Olaf Grüger, Go eCommerce
Operational Excellence im eCommerce ist unsexy? Olaf Grüger, Go eCommerceOperational Excellence im eCommerce ist unsexy? Olaf Grüger, Go eCommerce
Operational Excellence im eCommerce ist unsexy? Olaf Grüger, Go eCommerce
 
Call center audit marketing resultant
Call center audit marketing resultantCall center audit marketing resultant
Call center audit marketing resultant
 
Einführung, Akzeptanz und Nutzung von SAP Learning Hub bei Camelot IT Lab
Einführung, Akzeptanz und Nutzung von SAP Learning Hub bei Camelot IT LabEinführung, Akzeptanz und Nutzung von SAP Learning Hub bei Camelot IT Lab
Einführung, Akzeptanz und Nutzung von SAP Learning Hub bei Camelot IT Lab
 
Exantis unternehmensentwicklung
Exantis unternehmensentwicklungExantis unternehmensentwicklung
Exantis unternehmensentwicklung
 
Kenne Deine Kunden - Wie man mit Hilfe von Web-Analyse Umsätze steigern und F...
Kenne Deine Kunden - Wie man mit Hilfe von Web-Analyse Umsätze steigern und F...Kenne Deine Kunden - Wie man mit Hilfe von Web-Analyse Umsätze steigern und F...
Kenne Deine Kunden - Wie man mit Hilfe von Web-Analyse Umsätze steigern und F...
 
Von der Marketingidee zum Produkt
Von der Marketingidee zum ProduktVon der Marketingidee zum Produkt
Von der Marketingidee zum Produkt
 
WEBWARE36 - Organisation und Know-how für Web-Agenturen
WEBWARE36 - Organisation und Know-how für Web-AgenturenWEBWARE36 - Organisation und Know-how für Web-Agenturen
WEBWARE36 - Organisation und Know-how für Web-Agenturen
 
Leadhints - Entdecken Sie Ihre Kunden von morgen!
Leadhints - Entdecken Sie Ihre Kunden von morgen!Leadhints - Entdecken Sie Ihre Kunden von morgen!
Leadhints - Entdecken Sie Ihre Kunden von morgen!
 
User Experience Optimierung
User Experience Optimierung User Experience Optimierung
User Experience Optimierung
 

More from VANDA - Visual Analytics Interfaces for Big Data Environments

More from VANDA - Visual Analytics Interfaces for Big Data Environments (7)

Language independent nlp with deep learning
Language independent nlp with deep learningLanguage independent nlp with deep learning
Language independent nlp with deep learning
 
Eventströme im E-Learning
Eventströme im E-LearningEventströme im E-Learning
Eventströme im E-Learning
 
Qualitative Trainingsdaten für Machine Learning effizient gewinnen
Qualitative Trainingsdaten für Machine Learning effizient gewinnenQualitative Trainingsdaten für Machine Learning effizient gewinnen
Qualitative Trainingsdaten für Machine Learning effizient gewinnen
 
Visual Analytics Interfaces for Big Data Environments
Visual Analytics Interfaces for Big Data EnvironmentsVisual Analytics Interfaces for Big Data Environments
Visual Analytics Interfaces for Big Data Environments
 
Exploring Big Data Landscapes with Elastic Displays
Exploring Big Data Landscapes with Elastic DisplaysExploring Big Data Landscapes with Elastic Displays
Exploring Big Data Landscapes with Elastic Displays
 
A Framework for Training Hybrid Recommender Systems
A Framework for Training Hybrid Recommender SystemsA Framework for Training Hybrid Recommender Systems
A Framework for Training Hybrid Recommender Systems
 
Towards Glyph-based Visualizations for Big Data Clustering
Towards Glyph-based Visualizations for Big Data ClusteringTowards Glyph-based Visualizations for Big Data Clustering
Towards Glyph-based Visualizations for Big Data Clustering
 

Active Learning for Record Linkage

  • 1. Die Beschaffungsplattform für Geschäftskunden Active Learning for Record Linkage Projekt VANDA Vivien Mast, 17.04.2018
  • 3. Die Beschaffungsplattform für Geschäftskunden 3 ▪ >85 Mio. Artikel in ca. 6000 Katalogen ▪ Davon ca. 65 Mio. Dubletten ▪ Dubletten Erkennen für ▪ Verbesserte Suche ▪ Preisvergleich ▪ Warenkorboptimierung Artikeldubletten Einleitung
  • 4. Die Beschaffungsplattform für Geschäftskunden 4 ▪ Ca. 1,5 Mio. Kunden ▪ Davon geschätzt >0,5 Mio. Volldubletten (gleiches Unternehmen, gleicher Standort) ▪ Dubletten Erkennen für ▪ Koordinierte Kundenbetreuung und vertriebliche Ansprache ▪ Korrektes internes Reporting ▪ Anbieten von Genehmigungs-Workflows Kundendubletten Einleitung
  • 5. Die Beschaffungsplattform für Geschäftskunden 5 ▪ Regelbasierte Altsysteme ▪ Komplex ▪ Schwer wartbar ▪ Nicht skalierbar ▪ Ziel: Ablösung durch Machine Learning Record Linkage Status Quo Einleitung
  • 6. Die Beschaffungsplattform für Geschäftskunden 6 ▪ Machine-Learning Ansätze ▪ Supervised Learning ▪ Unsupervised Learning ▪ Semi-supervised Learning ▪ Record Linkage ▪ Sehr viele sehr kleine Kategorien ▪ Jeden Tag neue Kategorien ▪ Anzahl Kategorien nicht bekannt ▪ Unmöglich, für jede Kategorie Trainingsdaten zu erstellen Record Linkage mit Machine Learning Lösungsansatz
  • 7. Die Beschaffungsplattform für Geschäftskunden 7 Record Linkage mit Machine Learning Lösungsansatz
  • 8. Die Beschaffungsplattform für Geschäftskunden 8 Record Linkage mit Machine Learning Lösungsansatz
  • 9. Die Beschaffungsplattform für Geschäftskunden 9 ▪ Trainingsdaten aus Altsystemen nur bedingt geeignet ▪ Schwächen nicht reproduzieren ▪ Veränderungen von fachlicher Seite (Definition Dublette) ▪ Erzeugung von echten Ground Truth-Daten durch menschliche Annotation ist teuer Herausforderung Trainingsdaten Problemstellung
  • 10. Die Beschaffungsplattform für Geschäftskunden 10 ▪ Active Learning ▪ Statt vieler zufällig ausgewählter Trainingsdaten: ▪ Kleine Menge relevanter Trainingsdaten ▪ Automatisch ausgewählt ▪ Reduziert Kosten für Erhebung von Trainingsdaten Active Learning Lösungsansatz
  • 11. Die Beschaffungsplattform für Geschäftskunden 11 Active Learning Lösungsansatz
  • 12. Die Beschaffungsplattform für Geschäftskunden 12 Active Learning Lösungsansatz
  • 13. Die Beschaffungsplattform für Geschäftskunden 13 ▪ Simulationsstudie ▪ Automatisch generierter Datensatz ▪ Adressen mit fehlerhaften Dubletten ▪ Zufällig ausgewählte Trainingspaare vs. Active Learning ▪ Erste Ergebnisse: ▪ Deutlich bessere Erfolge als zufällig gewählte Trainingspaare Active Learning Simulationsstudie
  • 14. Die Beschaffungsplattform für Geschäftskunden 14 ▪ Annotationen durch Data Worker ▪ Effizient ▪ Fehlerfrei ▪ Angenehm ▪ Identifikation problematischer Fälle durch Data Worker ▪ Active Learning: unklare Fälle auf Basis vorhandener Trainingsdaten ▪ Data Worker: Sonderfälle, die in Trainingsdaten nicht abgebildet sind Annotation von Trainingsdaten Problemstellung
  • 15. Die Beschaffungsplattform für Geschäftskunden 15 ▪ Einfache Interfaces ▪ Interaktion durch System gesteuert ▪ Repetitiv ▪ Kein Kontext ▪ Ermüdung und Fehler ▪ Keine Identifikation problematischer Fälle durch Nutzer Annotation von Trainingsdaten Lösungsansatz
  • 16. Die Beschaffungsplattform für Geschäftskunden 16 ▪ Glyphboard (TU Dresden) ▪ Interaktion durch Nutzer gesteuert ▪ weniger repetitiv ▪ Kontext, aber auch Komplexität ▪ erlaubt Identifikation von neuen Trainingsdaten durch Nutzer Annotation von Trainingsdaten Lösungsansatz
  • 17. Die Beschaffungsplattform für Geschäftskunden 17 ▪ Glyphboard (TU Dresden) ▪ Interaktion durch Nutzer gesteuert ▪ Weniger repetitiv ▪ Kontext ▪ Ggf. Fehler durch zu hohe Komplexität ▪ Erlaubt Identifikation von neuen Trainingsdaten durch Nutzer Annotation von Trainingsdaten Problemstellung
  • 18. Die Beschaffungsplattform für Geschäftskunden 18 ▪ Ziel: Hybridisierung ▪ Offene Fragen: ▪ Wieviel Kontext braucht Data Worker? ▪ Wieviel Komplexität verträgt er/sie? ▪ Findet Data Worker andere relevante Trainingsdaten als Algorithmus? ▪ Verbessert dies Qualität der Ergebnisse? Annotation von Trainingsdaten Lösungsansatz