Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Die Beschaffungsplattform für Geschäftskunden
Active Learning for Record Linkage
Projekt VANDA
Vivien Mast, 17.04.2018
Die Beschaffungsplattform für Geschäftskunden
Die Beschaffungsplattform für Geschäftskunden 3
▪ >85 Mio. Artikel in ca. 6000 Katalogen
▪ Davon ca. 65 Mio. Dubletten
▪ D...
Die Beschaffungsplattform für Geschäftskunden 4
▪ Ca. 1,5 Mio. Kunden
▪ Davon geschätzt >0,5 Mio. Volldubletten (gleiches
...
Die Beschaffungsplattform für Geschäftskunden 5
▪ Regelbasierte Altsysteme
▪ Komplex
▪ Schwer wartbar
▪ Nicht skalierbar
▪...
Die Beschaffungsplattform für Geschäftskunden 6
▪ Machine-Learning Ansätze
▪ Supervised Learning
▪ Unsupervised Learning
▪...
Die Beschaffungsplattform für Geschäftskunden 7
Record Linkage mit Machine Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 8
Record Linkage mit Machine Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 9
▪ Trainingsdaten aus Altsystemen nur bedingt geeignet
▪ Schwächen nicht re...
Die Beschaffungsplattform für Geschäftskunden 10
▪ Active Learning
▪ Statt vieler zufällig ausgewählter Trainingsdaten:
▪ ...
Die Beschaffungsplattform für Geschäftskunden 11
Active Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 12
Active Learning
Lösungsansatz
Die Beschaffungsplattform für Geschäftskunden 13
▪ Simulationsstudie
▪ Automatisch generierter Datensatz
▪ Adressen mit fe...
Die Beschaffungsplattform für Geschäftskunden 14
▪ Annotationen durch Data Worker
▪ Effizient
▪ Fehlerfrei
▪ Angenehm
▪ Id...
Die Beschaffungsplattform für Geschäftskunden 15
▪ Einfache Interfaces
▪ Interaktion durch System gesteuert
▪ Repetitiv
▪ ...
Die Beschaffungsplattform für Geschäftskunden 16
▪ Glyphboard (TU Dresden)
▪ Interaktion durch Nutzer gesteuert
▪ weniger ...
Die Beschaffungsplattform für Geschäftskunden 17
▪ Glyphboard (TU Dresden)
▪ Interaktion durch Nutzer gesteuert
▪ Weniger ...
Die Beschaffungsplattform für Geschäftskunden 18
▪ Ziel: Hybridisierung
▪ Offene Fragen:
▪ Wieviel Kontext braucht Data Wo...
Upcoming SlideShare
Loading in …5
×

Active Learning for Record Linkage

169 views

Published on

@ Workshop Runder Tisch der Technischen Visualistik
17. April 2018

Published in: Technology
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Active Learning for Record Linkage

  1. 1. Die Beschaffungsplattform für Geschäftskunden Active Learning for Record Linkage Projekt VANDA Vivien Mast, 17.04.2018
  2. 2. Die Beschaffungsplattform für Geschäftskunden
  3. 3. Die Beschaffungsplattform für Geschäftskunden 3 ▪ >85 Mio. Artikel in ca. 6000 Katalogen ▪ Davon ca. 65 Mio. Dubletten ▪ Dubletten Erkennen für ▪ Verbesserte Suche ▪ Preisvergleich ▪ Warenkorboptimierung Artikeldubletten Einleitung
  4. 4. Die Beschaffungsplattform für Geschäftskunden 4 ▪ Ca. 1,5 Mio. Kunden ▪ Davon geschätzt >0,5 Mio. Volldubletten (gleiches Unternehmen, gleicher Standort) ▪ Dubletten Erkennen für ▪ Koordinierte Kundenbetreuung und vertriebliche Ansprache ▪ Korrektes internes Reporting ▪ Anbieten von Genehmigungs-Workflows Kundendubletten Einleitung
  5. 5. Die Beschaffungsplattform für Geschäftskunden 5 ▪ Regelbasierte Altsysteme ▪ Komplex ▪ Schwer wartbar ▪ Nicht skalierbar ▪ Ziel: Ablösung durch Machine Learning Record Linkage Status Quo Einleitung
  6. 6. Die Beschaffungsplattform für Geschäftskunden 6 ▪ Machine-Learning Ansätze ▪ Supervised Learning ▪ Unsupervised Learning ▪ Semi-supervised Learning ▪ Record Linkage ▪ Sehr viele sehr kleine Kategorien ▪ Jeden Tag neue Kategorien ▪ Anzahl Kategorien nicht bekannt ▪ Unmöglich, für jede Kategorie Trainingsdaten zu erstellen Record Linkage mit Machine Learning Lösungsansatz
  7. 7. Die Beschaffungsplattform für Geschäftskunden 7 Record Linkage mit Machine Learning Lösungsansatz
  8. 8. Die Beschaffungsplattform für Geschäftskunden 8 Record Linkage mit Machine Learning Lösungsansatz
  9. 9. Die Beschaffungsplattform für Geschäftskunden 9 ▪ Trainingsdaten aus Altsystemen nur bedingt geeignet ▪ Schwächen nicht reproduzieren ▪ Veränderungen von fachlicher Seite (Definition Dublette) ▪ Erzeugung von echten Ground Truth-Daten durch menschliche Annotation ist teuer Herausforderung Trainingsdaten Problemstellung
  10. 10. Die Beschaffungsplattform für Geschäftskunden 10 ▪ Active Learning ▪ Statt vieler zufällig ausgewählter Trainingsdaten: ▪ Kleine Menge relevanter Trainingsdaten ▪ Automatisch ausgewählt ▪ Reduziert Kosten für Erhebung von Trainingsdaten Active Learning Lösungsansatz
  11. 11. Die Beschaffungsplattform für Geschäftskunden 11 Active Learning Lösungsansatz
  12. 12. Die Beschaffungsplattform für Geschäftskunden 12 Active Learning Lösungsansatz
  13. 13. Die Beschaffungsplattform für Geschäftskunden 13 ▪ Simulationsstudie ▪ Automatisch generierter Datensatz ▪ Adressen mit fehlerhaften Dubletten ▪ Zufällig ausgewählte Trainingspaare vs. Active Learning ▪ Erste Ergebnisse: ▪ Deutlich bessere Erfolge als zufällig gewählte Trainingspaare Active Learning Simulationsstudie
  14. 14. Die Beschaffungsplattform für Geschäftskunden 14 ▪ Annotationen durch Data Worker ▪ Effizient ▪ Fehlerfrei ▪ Angenehm ▪ Identifikation problematischer Fälle durch Data Worker ▪ Active Learning: unklare Fälle auf Basis vorhandener Trainingsdaten ▪ Data Worker: Sonderfälle, die in Trainingsdaten nicht abgebildet sind Annotation von Trainingsdaten Problemstellung
  15. 15. Die Beschaffungsplattform für Geschäftskunden 15 ▪ Einfache Interfaces ▪ Interaktion durch System gesteuert ▪ Repetitiv ▪ Kein Kontext ▪ Ermüdung und Fehler ▪ Keine Identifikation problematischer Fälle durch Nutzer Annotation von Trainingsdaten Lösungsansatz
  16. 16. Die Beschaffungsplattform für Geschäftskunden 16 ▪ Glyphboard (TU Dresden) ▪ Interaktion durch Nutzer gesteuert ▪ weniger repetitiv ▪ Kontext, aber auch Komplexität ▪ erlaubt Identifikation von neuen Trainingsdaten durch Nutzer Annotation von Trainingsdaten Lösungsansatz
  17. 17. Die Beschaffungsplattform für Geschäftskunden 17 ▪ Glyphboard (TU Dresden) ▪ Interaktion durch Nutzer gesteuert ▪ Weniger repetitiv ▪ Kontext ▪ Ggf. Fehler durch zu hohe Komplexität ▪ Erlaubt Identifikation von neuen Trainingsdaten durch Nutzer Annotation von Trainingsdaten Problemstellung
  18. 18. Die Beschaffungsplattform für Geschäftskunden 18 ▪ Ziel: Hybridisierung ▪ Offene Fragen: ▪ Wieviel Kontext braucht Data Worker? ▪ Wieviel Komplexität verträgt er/sie? ▪ Findet Data Worker andere relevante Trainingsdaten als Algorithmus? ▪ Verbessert dies Qualität der Ergebnisse? Annotation von Trainingsdaten Lösungsansatz

×