From Big Data, fast computers and complex models towards learning machines

2,212 views
2,075 views

Published on

inaugural address of Max Welling, accepting his Full Professor status at Univerity of Amsterdam

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,212
On SlideShare
0
From Embeds
0
Number of Embeds
1,272
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

From Big Data, fast computers and complex models towards learning machines

  1. 1. Van  veel  data,     snelle  computers     en  complexe  modellen       tot  zelflerende  machines   Max  Welling   Universiteit  van  Amsterdam   29  januari  2014   1  
  2. 2. Big  Data   2  
  3. 3. Hoeveel  Data  =  Big  Data?   Totale  hoeveelheid  data  door  de  mens  gegenereerd:                                                                                                                                                        4  zeIabyte  =  4,000,000,000,000,000,000,000  byte.     Dat  is  8  miljard  harde  schijven  met  data                                                                                                                  =  een  stapel  van  de  aarde  tot  de  maan  als  elke  schijf  5  cm  dik  is.     3  
  4. 4. De  Big  Data  Kampioen   Astronomen  zijn  de  kampioen  in  het  produceren  van  big  data:                                In  2024  ongeveer  1  exabyte  per  dag  =  evenveel  als  alle  data  tot  nu  toe  in  10  jaar  Tjd.   4  
  5. 5. De  BeloUen   Een  veiligere  samenleving:   •  Bestrijding  van  cybercriminaliteit  en  terrorisme       Een  eerlijkere  samenleving:   •  De  elektronische  advocaat       Verbeterde  gezondheidszorg:   •  Persoonlijke  afstemming  medicaTe       Meer  gemak:   •  AnTcipaTe  van  behoeUen     5  
  6. 6. De  Gevaren   Privacy  schendingen:   •  Hoe  ver  mag  de  AIVD  gaan:  balans  privacy  /  veiligheid   •  Wat  mag  Google  met  onze  data  doen?       Misbruik  poliTek:  (Big  Brother)   •  Chantage  poliTeke  tegenstanders       Misbruik  verzekering:   •  “De  kans  dat  u  kanker  ontwikkeld  voor                  uw  50e  is  70  procent,  dus  we  hebben  uw  polis  wat  verhoogd.”           Werkeloosheid:   •  Zelfrijdende  auto’s  vervangen  alle  vrachtwagenchauffeurs.   •  Computers  vervangen  artsen,  advocaten  etc.   6  
  7. 7. Datamining:  Het  Ontsluiten  van  InformaTe  uit  Data   data  =  gouderts   nufge  informaTe  =  goud   machine  learning  =  drilboor  en  pikhouweel   7  
  8. 8. De  Datascope   +   =   +   De  datascope:       De  computer  algoritmen  waarmee  we  de  materie  van  nullen  en  enen  kunnen  analyseren.     8  
  9. 9. Machine  Learning  +  Big  Data   +   Een  voorbeeld  uit  de  dagelijkse  prakTjk:                              “shoppen  bij  Appie”     10  miljoen  klanten  x  2  bezoekjes  per  week  x  52  weken  x  10  boodschappen  per  bezoek  =                                                                            ±  10  miljard  boodschappen  per  jaar  !   9  
  10. 10. Gordon  bij  de    Appie     +   •  •  •  •  •    45  jaar  oud   zanger   man   woont  samen   …   Gordon  kocht:     •  op  29  januari   •  om  16:35  uur   •  op  de  Reguliersbreestraat  22-­‐A   •  In  Amsterdam   •  een  pak  biologische  yoghurt   •  plus   •  ……     •  •  •  •  •  melkproduct   0.99  €   biologisch   1  liter   …   10  
  11. 11.  Toepassing:  Persoonlijke  Aanbiedingen   •  Aanbiedingen  op  persoonlijk  niveau   11  
  12. 12. Het  allersimpelste     machine  learning  algoritme   ⇡ ⇡ •  Gerard  Joling  lijkt  op  Gordon       •  Gerard  heeU  al  vanillevla  gekocht     •  Vanillevla  lijkt  op  yoghurt   •  Gerard  Joling  vindt  waarschijnlijk  lekker   12  
  13. 13. Het  alleringewikkelste     machine  learning  algoritme   •  Een  neuraal  netwerk  getraind  bij  Google  met  vele  duizenden  computers,  op  vele              miljoenen  Youtube  videos.     13   •  Resultaat:  een  model  met  10  miljard  “vrijheidsgarden”  (parameters).  
  14. 14. Steeds  complexere  modellen       2020-­‐2050  menselijk  brein   (N=+/-­‐  100T)   ?   Groei  van  de  capaciteit  van  modellen     2009:  Hinton’s  Deep  Belief  Net   (+/-­‐  N=10M)   2013:  Google/Y!     (N=+/-­‐  10B)   1943:  First  NN   (+/-­‐  N=10)   1988:  NetTalk   (+/-­‐  N=20K)   Log-­‐log  plot   14  
  15. 15. ExponenTële  groei   Hoe  vaak  moet  je  een  krant  van  0.1  mm  dik  vouwen  om  een  stapel  te  creëren      die  even  groot  is  als  de  doorsnede  van  het  gehele  universum?   Antwoord:   15  
  16. 16. De  Drie  Explosieve  GroeiweIen   •  Computerkracht  (Moore’s  law)   •  Datavolume  (Big  Data)   •  Modellencapaciteit  (Deep  Learning)   16  
  17. 17. Is  de  Silo  te  Groot?   17  
  18. 18. InformaTe   veel  informaTe   weinig  informaTe   Claude  Shannon   18  
  19. 19. Nufge  InformaTe   Nu#ge  informa.e:       InformaTe  waar  we  mee  kunnen  voorspellen   weinig  nufge  informaTe   veel  nufge  informaTe   weinig  nufge  informaTe   19  
  20. 20. De  InformaTe  Zeef   20  
  21. 21. De  InformaTe  Zeef   21  
  22. 22. Wat  is  dit?   22  
  23. 23. “Weten  =  Vergeten”   AbstracTe   =  EssenTe   •  Om  te  generaliseren  moet  u  de  details  vergetenen  de  essenTe  onthouden.     23  
  24. 24. Verminderde  Meerwaarde   Hoe  langer  je  graaU  in  dezelfde  goudmijn,  des  te  moeilijker  het  wordt      om  het  goud  te  vinden.   24  
  25. 25. Verminderde  meerwaarde   De  wet  van  de  verminderde  meerwaarde  van  data:     Hoe  meer  data  je  hebt  van  één  bron,  hoe  minder  extra  nufge  informaTe  die  bevat.       25  
  26. 26. De  Paradox   •  Er  is  niet  genoeg  nu7ge  informaTe  in  exponenTeel  groeiende  data                om  de  exponenTeel  groeiende  model  capaciteit  mee  te  vullen.     •  Gevaar:  de  extra  capaciteit  wordt  gevuld  met  ruis:  overfi7ng   26  
  27. 27. Overfifng:  E  en  Experiment   27  
  28. 28. De  “Stelling  van  Welling”   +      Big  Data  +  Complexe  Modellen  à  Meer  Overfi7ng   28  
  29. 29. ResoluTe:  Verklein  Modelcapaciteit     29  
  30. 30. De  wijsheid  van  de  menigte   30  
  31. 31. Een  Experiment   •  Schat  het  gewicht  van  de  Eiffel  toren  (in  kg)              (u  mag  niet  awijken!)     •  Sorteer  de  schafngen.     •  Neem  het  middelste  getal:  (1,2,3,4,5)   •  Fouten  annuleren  elkaar.       Antwoord:   31  
  32. 32. Ensembles  van  Lijnen   32  
  33. 33. Een  Analogie   model  is  te  simpel   model  is  te  complex,   maar  gemiddelde  is  accuraat   33  
  34. 34. SamenvaIend   “Big  Data”   “Moore’s  Law”   “Deep  Learning”   34  
  35. 35. Industry  is  Deeply  Interested   35  
  36. 36. Vers  van  de  Pers  
  37. 37. Het  Opleiden  van  de  Menigte   •  “Massive  Open  Online  Courses”  (MOOC)  zijn  voor  iedereen  graTs  toegankelijk.   •  100,000  studenten  over  de  hele  wereld  volgen  soms  samen  één  cursus         37  
  38. 38. Iedereen  kan  meedoen…   38  
  39. 39. Crowdsourcing:   ParTcipaTe  in  de  Wetenschap   39  
  40. 40. De  Menselijke  Computer   40  
  41. 41. Het  Nufge  met  het  Aangename  Combineren   Het  “ESP”  spel     reCaptcha’s   41  
  42. 42. Online  CompeTTes   42  
  43. 43. Iedereen  kan  winnen…   43  
  44. 44. Data  Science   44  
  45. 45. Machine  Learning  bruist  van  het  leven!   ExponenTele  Groei  Bezoekers  op  NIPS  
  46. 46. BeloUen  en  Gevaren   •  Verbeterde  gezondheidszorg     •  Een  veiliger  samenleving   •  Privacy  schendingen   •  Meer  gemak   •  Werkeloosheid   •  Misbruik     46  
  47. 47. Het  Nederlandse  Academische  Systeem   47  
  48. 48. 48  
  49. 49. Ten  SloIe   Ik  heb  gezegd  

×