Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data & Machine Learning - Mogelijkheden & Valkuilen

4,026 views

Published on

Keynote @ Intelligence Dag (Koninklijke Marechaussee)

Published in: Data & Analytics
  • Be the first to comment

Big Data & Machine Learning - Mogelijkheden & Valkuilen

  1. 1. Big Data & Machine Learning Mogelijkheden & Valkuilen David Graus
  2. 2. Deel 0: Introductie
 Wie ben ik? Wat is Big Data 
 & Machine Learning (ML)? Deel I: Theorie
 Hoe werkt ML? Deel II: Voorbeelden
 Mogelijkheden van Big Data & ML Deel III: Valkuilen
 Risico’s bij het gebruik van 
 ML & Big Data?
  3. 3. Wie ben ik? PhD kandidaat @ UvA: 
 Semantic Search for E-Discovery Data Scientist @ FD Mediagroep
  4. 4. Semantic Search for 
 E-Discovery • E-Discovery: Ondersteunen van zoeken naar “bewijsmateriaal” in ongestructureerde data (social media, forums, email, etc.) • Semantic search: toegepaste machine learning en taaltechnologie voor beter ontsluiten “digitale sporen.” 1. Herkennen structuur (entities) in ongestructureerde data (tekst). 2. Voorspellen van gebruikersgedrag op basis van data. • Vakgebieden: Machine Learning, Text Mining, Information Retrieval.
  5. 5. Wat is big data?
  6. 6. Wat is big data?
  7. 7. Big data Bron: 
 domo.com
  8. 8. 7 Only 4% of Web content (~8 billion pages) is available via search engines like Google The Public Web Source: The Deep Web: Semantic Search Takes Innovation to New Depths Big Data is Behind the Firewall The Deep Web Approximately 96% of information is inside the firewall Fragmented Unmanaged Growing Hidden 7.9 Zettabytes
  9. 9. Kortom • Big data: • Veel (en steeds meer!) • Snel • Gevarieerd • Ongestructureerd/“Onzeker”
  10. 10. Wat is Machine Learning?
  11. 11. Wat is Machine Learning? • Subgebied van “AI” (Kunstmatige Intelligentie) • The subfield of computer science that “gives computers the ability to learn without being explicitly programmed”
  12. 12. • “AI-hype” • IBM (Watson), Google (DeepMind) • Futuristisch: Tesla (zelf-rijdende auto’s)
  13. 13. Deel I: 
 Hoe werkt 
 Machine Learning?
  14. 14. ML 101 • Voorspel: is iets lekker of niet lekker? Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  15. 15. ML 101 • Voorspel: is iets lekker of niet lekker? • Data: IJs Pizza Aardbeien Sardines Broccoli Spruitjes Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  16. 16. ML 101 • Voorspel: is iets lekker of niet lekker? • Data: IJs Pizza Aardbeien Sardines Broccoli Spruitjes Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  17. 17. Feature Extraction IJs Pizza Aardbeien Sardines Broccoli Spruitjes Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  18. 18. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  19. 19. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  20. 20. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  21. 21. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  22. 22. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  23. 23. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  24. 24. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  25. 25. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  26. 26. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  27. 27. Feature Extraction Beschrijf: is het zoet, zout, knapperig, groente? IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  28. 28. Leer een model IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  29. 29. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  30. 30. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  31. 31. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  32. 32. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  33. 33. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Appel Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  34. 34. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Appel Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  35. 35. Leer een model Leer een ‘puntentelling’ die Lekker/Niet lekker van elkaar kan scheiden IJs Pizza Aardbeien Sardines Broccoli Spruitjes 3 2 3 1 0 0 zoet zout knapperig groente 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Appel Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  36. 36. Voorspel Bereken de score voor “nieuwe” data. IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Appel 3 0 1 0 3 2 3 1 0 0 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1
  37. 37. Voorspel Bereken de score voor “nieuwe” data. IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Appel 3 0 1 0 4 3 2 3 1 0 0 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1
  38. 38. Voorspel Bereken de score voor “nieuwe” data. IJs Pizza Aardbeien Sardines Broccoli Spruitjes zoet zout knapperig groente Appel 3 0 1 0 4 3 2 3 1 0 0 Lekker Lekker Lekker Niet lekker Niet lekker Niet lekker Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child 3 0 3 0 0 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 -1 -1 Lekker
  39. 39. Samenvattend • Gegeven voorbeelden + labels. • Omschrijf voorbeelden (features) • Leer een model om features naar labels te “vertalen” • Bereken voor een nieuw voorbeeld de score Daniel Tunkelang, quora.com/How-do-you-explain-machine-learning-to-a-child
  40. 40. Deel II: 
 Voorbeelden
  41. 41. 1: Voorspellen 
 email communicatie
  42. 42. Waarom? • Inzicht krijgen in communicatiepatronen. • Wat zijn de factoren die communicatie bepalen? • Ontdekken ‘afwijkende’ communicatiepatronen. Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  43. 43. Hoe? • Leer van (historische) digitale sporen. • Vergelijk invloed van: 1. Inhoud van email 2. Communicatie netwerk Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  44. 44. Communicatie netwerk Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  45. 45. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  46. 46. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  47. 47. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  48. 48. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl derijke@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  49. 49. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl derijke@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  50. 50. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl derijke@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  51. 51. Communicatie netwerk d.p.graus@uva.nl z.ren@uva.nl derijke@uva.nl Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  52. 52. image by Calvinius - Creative Commons Attribution-Share Alike 3.0
  53. 53. Bevindingen • Email inhoud heeft meer voorspelbare waarde dan het netwerk. • Combineren levert het meest effectieve voorspellen. • Juiste voorspelling in ~66% van de gevallen. Graus et al. Recipient recommendation in enterprises using communication graphs and email content (2014)
  54. 54. 2: Structuur van Criminele Netwerken
  55. 55. Wat? • Computermodellen inzetten om te onderzoeken hoe een crimineel netwerk op te rollen. • Case-study: illegale hennepteelt Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  56. 56. Hoe? Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  57. 57. Hoe? Data
 Criminele netwerken (personen & contacten) opgebouwd uit inlichtingeninformatie. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  58. 58. Hoe? Data
 Criminele netwerken (personen & contacten) opgebouwd uit inlichtingeninformatie. Voorspel
 Experimenteer met het weghalen van knooppunten (= personen) uit het netwerk; meet welke de meeste invloed hebben op de “gezondheid” van het netwerk. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  59. 59. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  60. 60. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  61. 61. Bevindingen • Niet de meest centrale/invloedrijke criminelen, maar de gespecialiseerde faciliterende personen verwijderen is het effectiefst in het verstoren van het netwerk. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  62. 62. Bevindingen • Niet de meest centrale/invloedrijke criminelen, maar de gespecialiseerde faciliterende personen verwijderen is het effectiefst in het verstoren van het netwerk. • Computersimulaties om “goedkoop” verschillende interventiestrategieën te testen en te meten. Duijn et al. 'The Relative Ineffectiveness of Criminal Network Disruption’ (2014)
  63. 63. 3: New York City’s Geek Squad
  64. 64. Waarom? • Enorm veel gegevens en informatie beschikbaar op 
 stadsniveau. • Case-study: “illegal conversions” van appartementen • Opsplitsen van appartementen voor illegale onderhuur. http://www.slate.com/articles/technology/future_tense/2013/03/ big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
  65. 65. Hoe? http://www.slate.com/articles/technology/future_tense/2013/03/ big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
  66. 66. Hoe? Data
 Breng alle kavels in kaart.
 “Verrijk” kavels met extra 
 databronnen. http://www.slate.com/articles/technology/future_tense/2013/03/ big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
  67. 67. Hoe? Data
 Breng alle kavels in kaart.
 “Verrijk” kavels met extra 
 databronnen. Voorspel
 Leer van 5 jaar historische data 
 welke kavels het meest 
 waarschijnlijk “illegally 
 converted” zijn. http://www.slate.com/articles/technology/future_tense/2013/03/ big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
  68. 68. Bevindingen • effectiviteit van opsporen conversions van 13% naar 70%. • Data die op het eerste gezicht niet gerelateerd lijken, hebben grote voorspelbare waarde. http://www.slate.com/articles/technology/future_tense/2013/03/ big_data_excerpt_how_mike_flowers_revolutionized_new_york_s_building_inspections.html
  69. 69. 4: Voorspellende waarde Facebook likes Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
  70. 70. 4: Voorspellende waarde Facebook likes Data: ~58.000 respondenten
 - Facebook profiel: leeftijd, relatie, etc.
 - Enquête informatie: roken/drankgebruik, etc. 
 - Facebook likes (gem. ~170 pp) Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
  71. 71. 4: Voorspellende waarde Facebook likes Data: ~58.000 respondenten
 - Facebook profiel: leeftijd, relatie, etc.
 - Enquête informatie: roken/drankgebruik, etc. 
 - Facebook likes (gem. ~170 pp) Voorspel
 Gegeven likes van alle respondenten voorspel Facebook profiel/enquête data. Kosinski et al. Private traits and attributes are predictable from digital records of human behavior (2013)
  72. 72. Kosinski et al., “Private traits and attributes are 
 predictable from digital records of human behavior” (2013)
  73. 73. Bevindingen • Automatisch categoriseren van mensen op basis van likes. • “Verlies” privacy door wat anderen delen. • Zelfs met een weinig likes (1-5) kun je accurate voorspellingen maken.
  74. 74. Wrap-up
  75. 75. Wrap-up (Big) Data: 1. (Historisch) Email verkeer
 2. Politie/overheidsdata
 3. Stadsdata
 4. Facebook likes
  76. 76. Wrap-up (Big) Data: 1. (Historisch) Email verkeer
 2. Politie/overheidsdata
 3. Stadsdata
 4. Facebook likes Voorspellingen: 1. Wie communiceert met wie 
 (en waarom)? 2. Wie moet je oppakken om een 
 netwerk te verstoren? 3. Wie zijn de verdachten van 
 illegale activiteiten? 4. Wie is de persoon achter een 
 Facebook profiel?
  77. 77. Veel mogelijkheden! • We gebruiken het dagelijks.
  78. 78. Veel mogelijkheden! • We gebruiken het dagelijks. • En steeds meer in de toekomst.
  79. 79. Deel III: 
 Valkuilen
  80. 80. • Steeds meer data/ML “achter de schermen” • Credit scores. • Sollicitanten matchen op basis van CV analyse. • Algorithmic Price Discrimination. • In het extreme: China’s “Social Credit System.” Risico’s
  81. 81. Risico’s • ML heeft tot doel m.b.v. (historische) data de meest waarschijnlijke uitkomst te voorspellen. • Aanname: patronen herhalen zich • Gevolg: geleerde “vooroordelen” bestaan voort. • Voorspel het meest waarschijnlijke: optimalisatie voor de gemene deler.
  82. 82. Algorithmic Bias • Men ziet technologie, algoritmen, en wiskundige modellen veelal als “neutraal,” en “objectief.” • Maar dat zijn ze niet: ze zijn een reflectie van onszelf, en leren van “ons” • Bias In, Bias Out
  83. 83. Voorbeeld https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
  84. 84. Voorbeeld https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
  85. 85. Algorithmic Bias • Relatief nieuw “topic” • Politieke agenda: • EU (General Data Protection Regulation) • The White House “Big Data” reports [1, 2] • En ook steeds meer vanuit de informatica. https://www.whitehouse.gov/sites/default/files/microsites/ostp/2016_0504_data_discrimination.pdf https://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf
  86. 86. Begrijp de data • Onderzoek van Google naar het ‘eerlijk maken’ van banken leen-krediet systeem • Automatisch compenseren van beslissingsfunctie voor aanwezige subgroepen in data.
  87. 87. http://research.google.com/bigpicture/attacking-discrimination-in-ml/
  88. 88. http://research.google.com/bigpicture/attacking-discrimination-in-ml/
  89. 89. http://research.google.com/bigpicture/attacking-discrimination-in-ml/
  90. 90. Begrijp de data • Van belang om goed de verschillende subgroepen te vinden. http://research.google.com/bigpicture/attacking-discrimination-in-ml/
  91. 91. Begrijp het proces • Verander de perceptie. De uitkomst van een ML model is ook maar een ‘standpunt’ — indirect een reflectie van onszelf. • Behandel deze systemen dus niet als ‘orakel.’ • EU wetgeving is een stap in de goede richting.
  92. 92. Samenvattend • Veel mogelijkheden • Ongekende hoeveelheid data + snelle computerhardware + slimme algoritmen. • Steeds toegankelijker. • Algemene tendens = grotere rol van big data/ML. • Pas op voor valkuilen! • Bias In, Bias Out • Algoritmen zijn geen orakels
  93. 93. Einde David Graus david.graus@fdmediagroep.nl @dvdgrs Vragen?

×