Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Fraud detection

571 views

Published on

Genereller Überblick über Methoden der Betrugserkennung und einige Praxisbeispiele. Ausblick auf mögliche Tendenzen für die Zukunft.

Published in: Economy & Finance
  • Be the first to comment

  • Be the first to like this

Fraud detection

  1. 1. TechnologyScout Betrugserkennung Techniken und Anwendungen Dr. Volker Göbbels TechnologyScout
  2. 2. TechnologyScout Überblick - Roadmap • Was ist Betrug? • Allgemein: Was ist das und wie läuft es ab? • Welche Methoden gibt es? • Wie sehen die Einsatzszenarien aus? • Was ist denn nun der optimale Ansatz? 2
  3. 3. TechnologyScout –Wikipedia– „Betrug ist eine vorsätzliche Täuschung, um sich unfaire oder ungesetzliche Vorteile zu verschaffen oder um ein Opfer um sein gesetzliches Recht zu bringen.“ 3
  4. 4. TechnologyScout Was ist Betrugserkennung? • Überwacht werden: • Transaktionen bei Banken • Claims bei Versicherungen • Call Records bei Telco Providern • Daten laufen parallel in Livesystem und Fraud Detection (FD) • Wenn FD Alarm schlägt: • Banking: Transaktion wird verweigert • Versicherung: Claim ausgesteuert zur manuellen Analyse 4
  5. 5. TechnologyScout Die 4 Methoden
  6. 6. TechnologyScout Methoden der Betrugserkennung 1. Regelbasierte Systeme
 2. Graphenbasierte Systeme
 3. Expertensysteme
 4. Deep Learning Systeme 6 IN ? ? ? ? HOLD OK OKDENY Time Plan Gen Test KE 2 1 3 4
  7. 7. TechnologyScout Regelbasierte Systeme • Alle Transaktionen (Tx) durchlaufen einen oder mehrere Workflows
 • Die einzelnen Schritte bewerten Detail- informationen einer Tx oder beziehen aggregierte Informationen ein
 • Ergebnis: Fraud Score 7 IN ? ? ? ? HOLD OK OKDENY Time
  8. 8. TechnologyScout Regelbasierte Systeme Hintergrundwissen • 2 Komponenten: • In-Memory Datenbanken • Regelengines • Daten: • Einzelne Transaktionsdaten • Aggregierte Daten (Bsp.: durchschn. Umsatz) 8
  9. 9. TechnologyScout Regelbasierte Systeme - Pro & Contra • Ältestes und bewährtes Modell • Extrem schnell • Direkte Begründung der Aussteuerung für einen Sachbearbeiter durch Angabe der gezogenen Regeln 9 • Erfordert viel Branchenwissen • Manche Szenarien findet man schlecht oder gar nicht • „Human intelligence based“ Pro Contra
  10. 10. TechnologyScout Graphenbasierte Systeme • Transaktionen werden in Knoten und Verbindungen zerlegt • Zu viele Verbindungen zu einem Knoten deuten auf Betrug • Bestimmte Kennziffern in Graphen können auf Betrug hinweisen 10
  11. 11. TechnologyScout Graphenbasierte Systeme Hintergrundwissen • Komponenten: • Graphenbasierte oder relationale Datenbank • Data Mining Algorithmen • Visualisierung • Mathematische Grundlagen: Graphentheorie 11
  12. 12. TechnologyScout Graphenbasierte Systeme - Pro & Contra • Findet ungewöhnliche oder versteckte Szenarien (Spiderweb, circular cash flow) • Da graphisch orien- tiert, oft einsichtig und leicht verständlich 12 • Benötigt spezielle Datenbank • Am besten geeignet für detailreiche Datensätze • Datenmengen:
 1 Tx → n Nodes, n-1 Links (n=5-20) Pro Contra
  13. 13. TechnologyScout Expertensysteme • „Expertensysteme“ • Nutzen Fallbeispiele & Domänenwissen im Knowledge Engineering • Ablauf: 1. Plan: Plane mögliche Lösungskandidaten 2. Generate: Generiere Lösungskandidaten 3. Test: Teste ob Kandidaten Problem lösen 13 Plan Gen Test KE
  14. 14. TechnologyScout Expertensysteme Hintergrundwissen • Entwickelt ab 1965 zur Klärung von Massenspektren in der Chemie • Berühmtestes System: DENDRAL (Dendritic Algorithm) • Heuristic DENDRAL • MetaDENDRAL 14
  15. 15. TechnologyScout Expertensysteme - Pro & Contra • Lernt neue Szenarien • Gut erforschte Technik 15 • Langsam bis sehr langsam • Lernfortschritt wird durch Feedback der Metadaten in die Heuristik erreicht (→manueller Eingriff) Pro Contra
  16. 16. TechnologyScout Deep Learning Systeme • Transaktionen durchlaufen ein Netz aus verarbeitenden Knoten • Spezielle In- und Out- Nodes • Dazwischen „versteckte“ Processing Nodes 16
  17. 17. TechnologyScout Deep Learning Systeme Ein Perceptron • Punkt (x,y): • Unterhalb der Linie: wahrscheinlich rot • Oberhalb der Linie: wahrscheinlich blau • Mathematisch formuliert:
 
 • Trainingsdaten zuführen & Gewichtung w optimieren bzgl. Outputfehler 17 Illustrationen von Ivan Vasilev, https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
  18. 18. TechnologyScout Deep Learning Systeme Viele Perceptrons - Ein Netz • Jede Verbindung zwischen Knoten hat eine Gewichtung w’ analog zu denen der Perceptrons selbst • In diesem Beispiel: • 3 Input-Werte • 2 Output-Werte • 1 hidden Layer 18 Illustrationen von Ivan Vasilev, https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
  19. 19. TechnologyScout Deep Learning Systeme Aktivierungsfunktionen f(x) • Eine Linearkombination von linearen Funktionen f(x) liefert immer noch eine lineare Funktion • Ausweg = nicht lineare Funktionen wie: • Sigma-Funktion (logistic function) • hyperbolischer Tangens (tanh) • Heaviside Funktion • Recitifier/Ramp oder Softplus 19
  20. 20. TechnologyScout Deep Learning Systeme Training ist alles! • Training durch Fehlerminimierung (least squares):
 
 
 y: tatsächlicher Output
 t: Erwartungswert (target) • Manipulation der Gewichtungen (stochastic gradient descent) • Lösung: Back propagation
 
 20 Illustrationen von Ivan Vasilev, https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
  21. 21. TechnologyScout Deep Learning Systeme - Pro & Contra • findet Dinge, die einem nicht bewußt waren • Kann auch komplexe Szenarien detektieren 21 • Kein direktes Feedback, auf Grund welcher Parameter eine Tx ausgesteuert wurde • Meist relativ langsam, abhängig von der Komplexität des Netzes • Vanishing Gradients, Overfitting Pro Contra
  22. 22. TechnologyScout Was ist denn nun der heilige Gral?
  23. 23. TechnologyScout Die schlechte Nachricht: es gibt keinen „heiligen Gral“ und keine „best practice“ Die gute Nachricht: es gibt viele leistungsstarke Methoden und schlaue Kombinationsmöglichkeiten 23
  24. 24. TechnologyScout Beispiel 1 Sozialabgabenbetrug in Belgien
  25. 25. TechnologyScout Wie funktioniert der Betrug? • Ein Schlüsselunternehmen gründet Satellitenfirmen, die Gewinn erwirtschaften • Bei Fälligkeit der Sozialabgaben werden die Satelliten insolvent • Ressourcen (Mitarbeiter, Büros, Fahrzeuge etc.) werden weiter gereicht an den nächsten Satelliten 25
  26. 26. TechnologyScout Problem • ca. 250.000 aktive Unternehmen in Belgien in 2012 • Über längere Frist werden ca. 25% davon irgendwann insolvent • Nur wenige Fälle davon sind Betrug • Ziel: kritische Fälle vor Insolvenz erkennen 26
  27. 27. TechnologyScout Lösungsansatz• Graphentheorie: Egonetworks; Elimination von komplett unauffälligen Unternehmen • Trainingsdaten: Anreicherung von Fraud Cases durch SMOTE (Synthetic Minority Oversampling Technique) • 2 Datenszenarien: • Basic (nur lokale Informationen zum Node selbst) • Relational (plus Infos zu den Ressourcen aus dem Egonet) • Rest fließt in ein neuronales Netz: • Random Forest • Naive Bayes • Logistic Regression 27
  28. 28. TechnologyScout Ergebnisse • Random Forest liefert beste Ergebnisse • AUC (Area under Curve) ROC (Receiver Operating Characteristic) Trennschärfe zwischen Fraud und nicht-Fraud: 85-88% • Wichtig: zeitliche Analyse nach 6, 12 und 24 Monaten. ROC AUC nimmt ab. True Positives nehmen zu. 28
  29. 29. TechnologyScout Beispiel 2 Betrug in Mobilnetzwerken
  30. 30. TechnologyScout Wie funktioniert der Betrug? • Typisches Beispiel Subscription Fraud: • Betrüger schließt Subskriptionsvertrag mit Mobilprovider ab • Betrüger verkauft die Nutzung seines Telefons zu günstigen Preisen weiter (vor allem für Long Distance Calls) • Betrüger verschwindet, bevor die Rechnung bezahlt werden kann 30
  31. 31. TechnologyScout Lösungsansatz • Szenarien identifizieren • Indikatoren für Betrug aus den Szenarien extrahieren • Akkumulierte Daten je User aus CDR (Call Detail Record): • IMSI (International Mobile Subscriber ID) • Startdatum und -zeit des Calls, Dauer • Angerufene Nummer • Art des Calls (national/international) 31
  32. 32. TechnologyScout Details • Was für den einen Account „untypische Nutzung“ ist, ist für den anderen völlig normal. • Lösung: Differentialanalyse je Account durch User Profile History (UPH) und Current User Profile (CUP): UPHnow = (1-𝜶) UPHold + 𝜶 CUP • Fließen ein in: • Regelbasiertes White Box System • Supervised neural network (Multilayer Perceptron mit 1 hidden Layer, logistic- sigmoidale Aktivierungsfunktion) • 2 unsupervised neural networks (A-numbers: User Profile; B-Number: Monitor auf Zielland des Anrufs) • Kombination aller 4 Alarmfunktionen/Fraud Scores 32
  33. 33. TechnologyScout Ergebnisse • AUC ROC Trennschärfe für Testdaten: 87,2% • AUC ROC Trennschärfe für Echtdaten: 85,6% 33
  34. 34. TechnologyScout Ausblick
  35. 35. TechnologyScout The future is bright and complex • Parallelschaltung: Kombination verschiedener Detektionswege kann zu besseren Ergebnissen führen • Reihenschaltung: Elimination von sauberen Fällen durch Methode 1, Scoring durch Methode 2 • Ableitung: Regelgeneration durch Methode 1, Anwendung und Scoring durch Methode 2 35
  36. 36. TechnologyScout Dr. Volker Göbbels TechnologyScout Innovationsmanagement Betrugserkennung eCommerce Consulting 36
  37. 37. TechnologyScout Literatur & Referenzen• W. McCulloch, W. Pitts, „A Logical Calculus of the Ideas Immanent in Nervous Activity“, Bulletin of Mathematical Biophysics, Vol. 5 (1943), pp. 115-133 • A. Rosenblueth, N. Wiener and J. Bigelow, „Behavior, Purpose and Teleology“, Philosophy of Science, Vol. 10, No. 1 (Jan., 1943), pp. 18-24 • V. Van Vlasselaer, B. Baesens, et. al., „Using Social Network Knowledge for Detecting Spider Constructions in Social Security Fraud“, ASONAM’13 (2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining), pp. 813-820 • N. V. Chawla, K. W. Bowyer, Lawrence O. Hall, W. Ph. Kegelmeyer, „SMOTE: Synthetic Minority Over-sampling Technique“, Journal of Artificial Intelligence Research, Vol. 16 (2002) pp. 321– 357 • H. Verrelst, E. Lerouge, Y. Moreau, J. Vandewalle, Chr. Störmann, P. Burge, „A rule based and neural network system for fraud detection in mobile communications“, European project “Advanced Security for Personal Communication Technologies” (ASPeCT) • T. Fawcett, F. Provost, „Adaptive Fraud Detection“, Data Mining and Knowledge Discovery, Vol. 1 (1997), pp. 291–316 37

×