Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Qualitative Trainingsdaten für Machine Learning effizient gewinnen

67 views

Published on

@ Workshop Runder Tisch der Technischen Visualistik
17. April 2018

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Qualitative Trainingsdaten für Machine Learning effizient gewinnen

  1. 1. Qualitative Trainingsdaten für Machine Learning effizient gewinnen VANDA www.vanda-project.de
  2. 2. Daten – Informationen – Wissen Data-as-a-Service Plattform für Business Anwendungen. Wir liefern ihnen genau die Business-Daten, die sie brauchen. Crawling, Mining, Analyse und Verarbeitung von strukturierten und unstrukturierten Massendaten verbindet: ● Unternehmens- mit öffentlich publizierten Daten ● Intranet- mit Internet-Daten ● Online und Offline Business deecoob “insight” www.deecoob.com 120. RTTV Thomas Thom - 17. April 2018
  3. 3. Daten – Informationen – Wissen Use Case Verwertungsrechte kommerzielle Events & Musiknutzung www.deecoob.com 220. RTTV Thomas Thom - 17. April 2018 Prozess Suche nach bestimmten Informationen in Texten. Nur jedes 100. Dokument ist relevant.
  4. 4. Daten – Informationen – Wissen www.deecoob.com 320. RTTV Thomas Thom - 17. April 2018 ● Suchproblem ○ ich muss in Millionen von Textdokumenten die für meine Aufgabe Relevanten finden ● Suchstrategie ○ ich weiß, wonach ich suche (Muster) ○ ich orientiere mich an mir bekannten Kategorien (Beschreibungen) ○ ich erkenne Kategorien an bestimmten Eigenschaften (Wörtern) ○ ich grenze die Suche nach bestimmten Eigenschaften ein (Facetten) ○ ich entscheide ob ein Text relevant ist (Information + Vorwissen) Suchen & Finden manuelles Vorgehen ➔ Geht das effizienter und automatisiert?
  5. 5. Daten – Informationen – Wissen www.deecoob.com 420. RTTV Thomas Thom - 17. April 2018 Lösungsansatz Machine Learning Suchproblem ● unbekannte Anzahl an Eigenschaften ● begrenzte Anzahl an Kategorien Lösung ● Vorselektion relevanter Textdokumente ● Suche in Tausenden von gefilterten Textdokumenten Modellierung von Entscheidungen Verstehen aller Aspekte Klassifikation Herausforderung: Optimierung eines Klassifikators
  6. 6. Daten – Informationen – Wissen www.deecoob.com 520. RTTV Thomas Thom - 17. April 2018 Machine Learning Modellierung von Entscheidungen ● Trainings- und Testdaten sind: ○ repräsentativ, divers, korrekt Lernmethode Mensch Maschine Lernmethode ML Verfahren passiv angeleitet angeleitet supervised Klassifikation aktiv/passiv explorativ angeleitet komparativ angeleitet semi-supervised Klassifikation/ Clustering aktiv explorativ komparativ unsupervised Clustering ● Entscheidungen sind: ○ komplex, situativ, individuell Lernen = Lernmethode + Training + Tests Trainingsdaten transportieren Vorwissen, auf welchem später Entscheidungen getroffen werden können.
  7. 7. Daten – Informationen – Wissen www.deecoob.com 620. RTTV Thomas Thom - 17. April 2018 ● Aufwand für die Erstellung von Trainingsdaten optimieren ● Balance von Expertenwissen vs. Allgemeinwissen ● Skalierbarkeit gewährleisten Active Learning - Akteure semi-supervised learning Data Scientist nutzt Trainingsdaten & entwickelt Algorithmen End User (Experte) benötigt relevante Daten Data Worker erzeugt Trainingsdaten Kontext vs. Komplexität Label Feedback
  8. 8. Daten – Informationen – Wissen www.deecoob.com 720. RTTV Thomas Thom - 17. April 2018 Active Learning & Visual Analytics Data Scientist - Entscheidungsmodell Entscheidungs- analyse Analyse von Kategorien, Facetten & Eigenschaften Modellierung der Facetten durch Fragen
  9. 9. Daten – Informationen – Wissen www.deecoob.com 820. RTTV Thomas Thom - 17. April 2018 Active Learning & Visual Analytics Data Scientist - “Feature Extraction” [Wenskovitch et al. 2018] Data Scientist untersucht Zusammenhang von Kategorien, Facetten, Eigenschaften und Antworten. Extraction Pipelines Dimensionsreduktion
  10. 10. Daten – Informationen – Wissen www.deecoob.com 920. RTTV Thomas Thom - 17. April 2018 Active Learning & Visual Analytics Data Worker & End User Data Worker und/oder End User beantworten einfache Fragen. Data Scientist untersucht Zusammenhang von Antworten und Texteigenschaften. Feedback
  11. 11. Daten – Informationen – Wissen www.deecoob.com 1020. RTTV Thomas Thom - 17. April 2018 Selektion der Trainingsdaten “Ground Truth” als Orientierung nutzen do { ● Clustern von annotierten und unbekannten Datensätzen ● do { ● automatisierte Auswahl eines unbekannten Datensatzes durch bestimmten Algorithmus ● Anzeige des Datensatzes, Auswahl und Beantwortung einer Frage ● nach n Antworten { ○ Trainingsdaten neu zusammenstellen ○ unbekannte Datensätze neu klassifizieren } } while (true); } while (true); ● “Ground Truth” (farbig) ○ kuratierte und annotierte Dokumente ● unbekannte Dokumente (grau)
  12. 12. Daten – Informationen – Wissen Inter-Rater Agreement Active Learning - Testauswertung www.deecoob.com 1120. RTTV Thomas Thom - 17. April 2018 Facette ja nein nicht eindeutig Event? 882 191 45 Musik? 467 621 30 Relevant? 431 687 0 ● 1.118 Datensätze, die von 3 Experten bewertet wurden ● Datensätze können gewichtet gelernt werden ● unsichere und nicht eindeutige Datensätze werden nicht trainiert Verteilung: Event? Verteilung: Musik? Verteilung: Relevanz?
  13. 13. Daten – Informationen – Wissen www.deecoob.com 1220. RTTV Thomas Thom - 17. April 2018 Klassifikation “Bayes Error” & Inter-Rater Agreement Die gezielte Auswahl von Trainingsdaten kann die Qualität des Klassifikators signifikant verbessern.
  14. 14. Daten – Informationen – Wissen www.deecoob.com 1320. RTTV Thomas Thom - 17. April 2018 Klassifikation “Bayes Error” & Inter-Rater Agreement Die gezielte Auswahl von Trainingsdaten kann die Qualität des Klassifikators signifikant verbessern.
  15. 15. Daten – Informationen – Wissen Effiziente Recherche Automatisierung www.deecoob.com 1420. RTTV Thomas Thom - 17. April 2018 Verbesserung der Conversion Rate um Faktor 10 Jedes 10. Dokument ist relevant. Prozess
  16. 16. Daten – Informationen – Wissen deecoob Technology GmbH Thomas Thom Head of Technology +49 (0) 351 410 5610 thomas.thom@deecoob.com www.deecoob.com

×