Your SlideShare is downloading. ×
  • Like
From Big Data, fast computers and complex models towards learning machines
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

From Big Data, fast computers and complex models towards learning machines

  • 1,094 views
Published

inaugural address of Max Welling, accepting his Full Professor status at Univerity of Amsterdam

inaugural address of Max Welling, accepting his Full Professor status at Univerity of Amsterdam

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,094
On SlideShare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
1
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Van  veel  data,     snelle  computers     en  complexe  modellen       tot  zelflerende  machines   Max  Welling   Universiteit  van  Amsterdam   29  januari  2014   1  
  • 2. Big  Data   2  
  • 3. Hoeveel  Data  =  Big  Data?   Totale  hoeveelheid  data  door  de  mens  gegenereerd:                                                                                                                                                        4  zeIabyte  =  4,000,000,000,000,000,000,000  byte.     Dat  is  8  miljard  harde  schijven  met  data                                                                                                                  =  een  stapel  van  de  aarde  tot  de  maan  als  elke  schijf  5  cm  dik  is.     3  
  • 4. De  Big  Data  Kampioen   Astronomen  zijn  de  kampioen  in  het  produceren  van  big  data:                                In  2024  ongeveer  1  exabyte  per  dag  =  evenveel  als  alle  data  tot  nu  toe  in  10  jaar  Tjd.   4  
  • 5. De  BeloUen   Een  veiligere  samenleving:   •  Bestrijding  van  cybercriminaliteit  en  terrorisme       Een  eerlijkere  samenleving:   •  De  elektronische  advocaat       Verbeterde  gezondheidszorg:   •  Persoonlijke  afstemming  medicaTe       Meer  gemak:   •  AnTcipaTe  van  behoeUen     5  
  • 6. De  Gevaren   Privacy  schendingen:   •  Hoe  ver  mag  de  AIVD  gaan:  balans  privacy  /  veiligheid   •  Wat  mag  Google  met  onze  data  doen?       Misbruik  poliTek:  (Big  Brother)   •  Chantage  poliTeke  tegenstanders       Misbruik  verzekering:   •  “De  kans  dat  u  kanker  ontwikkeld  voor                  uw  50e  is  70  procent,  dus  we  hebben  uw  polis  wat  verhoogd.”           Werkeloosheid:   •  Zelfrijdende  auto’s  vervangen  alle  vrachtwagenchauffeurs.   •  Computers  vervangen  artsen,  advocaten  etc.   6  
  • 7. Datamining:  Het  Ontsluiten  van  InformaTe  uit  Data   data  =  gouderts   nufge  informaTe  =  goud   machine  learning  =  drilboor  en  pikhouweel   7  
  • 8. De  Datascope   +   =   +   De  datascope:       De  computer  algoritmen  waarmee  we  de  materie  van  nullen  en  enen  kunnen  analyseren.     8  
  • 9. Machine  Learning  +  Big  Data   +   Een  voorbeeld  uit  de  dagelijkse  prakTjk:                              “shoppen  bij  Appie”     10  miljoen  klanten  x  2  bezoekjes  per  week  x  52  weken  x  10  boodschappen  per  bezoek  =                                                                            ±  10  miljard  boodschappen  per  jaar  !   9  
  • 10. Gordon  bij  de    Appie     +   •  •  •  •  •    45  jaar  oud   zanger   man   woont  samen   …   Gordon  kocht:     •  op  29  januari   •  om  16:35  uur   •  op  de  Reguliersbreestraat  22-­‐A   •  In  Amsterdam   •  een  pak  biologische  yoghurt   •  plus   •  ……     •  •  •  •  •  melkproduct   0.99  €   biologisch   1  liter   …   10  
  • 11.  Toepassing:  Persoonlijke  Aanbiedingen   •  Aanbiedingen  op  persoonlijk  niveau   11  
  • 12. Het  allersimpelste     machine  learning  algoritme   ⇡ ⇡ •  Gerard  Joling  lijkt  op  Gordon       •  Gerard  heeU  al  vanillevla  gekocht     •  Vanillevla  lijkt  op  yoghurt   •  Gerard  Joling  vindt  waarschijnlijk  lekker   12  
  • 13. Het  alleringewikkelste     machine  learning  algoritme   •  Een  neuraal  netwerk  getraind  bij  Google  met  vele  duizenden  computers,  op  vele              miljoenen  Youtube  videos.     13   •  Resultaat:  een  model  met  10  miljard  “vrijheidsgarden”  (parameters).  
  • 14. Steeds  complexere  modellen       2020-­‐2050  menselijk  brein   (N=+/-­‐  100T)   ?   Groei  van  de  capaciteit  van  modellen     2009:  Hinton’s  Deep  Belief  Net   (+/-­‐  N=10M)   2013:  Google/Y!     (N=+/-­‐  10B)   1943:  First  NN   (+/-­‐  N=10)   1988:  NetTalk   (+/-­‐  N=20K)   Log-­‐log  plot   14  
  • 15. ExponenTële  groei   Hoe  vaak  moet  je  een  krant  van  0.1  mm  dik  vouwen  om  een  stapel  te  creëren      die  even  groot  is  als  de  doorsnede  van  het  gehele  universum?   Antwoord:   15  
  • 16. De  Drie  Explosieve  GroeiweIen   •  Computerkracht  (Moore’s  law)   •  Datavolume  (Big  Data)   •  Modellencapaciteit  (Deep  Learning)   16  
  • 17. Is  de  Silo  te  Groot?   17  
  • 18. InformaTe   veel  informaTe   weinig  informaTe   Claude  Shannon   18  
  • 19. Nufge  InformaTe   Nu#ge  informa.e:       InformaTe  waar  we  mee  kunnen  voorspellen   weinig  nufge  informaTe   veel  nufge  informaTe   weinig  nufge  informaTe   19  
  • 20. De  InformaTe  Zeef   20  
  • 21. De  InformaTe  Zeef   21  
  • 22. Wat  is  dit?   22  
  • 23. “Weten  =  Vergeten”   AbstracTe   =  EssenTe   •  Om  te  generaliseren  moet  u  de  details  vergetenen  de  essenTe  onthouden.     23  
  • 24. Verminderde  Meerwaarde   Hoe  langer  je  graaU  in  dezelfde  goudmijn,  des  te  moeilijker  het  wordt      om  het  goud  te  vinden.   24  
  • 25. Verminderde  meerwaarde   De  wet  van  de  verminderde  meerwaarde  van  data:     Hoe  meer  data  je  hebt  van  één  bron,  hoe  minder  extra  nufge  informaTe  die  bevat.       25  
  • 26. De  Paradox   •  Er  is  niet  genoeg  nu7ge  informaTe  in  exponenTeel  groeiende  data                om  de  exponenTeel  groeiende  model  capaciteit  mee  te  vullen.     •  Gevaar:  de  extra  capaciteit  wordt  gevuld  met  ruis:  overfi7ng   26  
  • 27. Overfifng:  E  en  Experiment   27  
  • 28. De  “Stelling  van  Welling”   +      Big  Data  +  Complexe  Modellen  à  Meer  Overfi7ng   28  
  • 29. ResoluTe:  Verklein  Modelcapaciteit     29  
  • 30. De  wijsheid  van  de  menigte   30  
  • 31. Een  Experiment   •  Schat  het  gewicht  van  de  Eiffel  toren  (in  kg)              (u  mag  niet  awijken!)     •  Sorteer  de  schafngen.     •  Neem  het  middelste  getal:  (1,2,3,4,5)   •  Fouten  annuleren  elkaar.       Antwoord:   31  
  • 32. Ensembles  van  Lijnen   32  
  • 33. Een  Analogie   model  is  te  simpel   model  is  te  complex,   maar  gemiddelde  is  accuraat   33  
  • 34. SamenvaIend   “Big  Data”   “Moore’s  Law”   “Deep  Learning”   34  
  • 35. Industry  is  Deeply  Interested   35  
  • 36. Vers  van  de  Pers  
  • 37. Het  Opleiden  van  de  Menigte   •  “Massive  Open  Online  Courses”  (MOOC)  zijn  voor  iedereen  graTs  toegankelijk.   •  100,000  studenten  over  de  hele  wereld  volgen  soms  samen  één  cursus         37  
  • 38. Iedereen  kan  meedoen…   38  
  • 39. Crowdsourcing:   ParTcipaTe  in  de  Wetenschap   39  
  • 40. De  Menselijke  Computer   40  
  • 41. Het  Nufge  met  het  Aangename  Combineren   Het  “ESP”  spel     reCaptcha’s   41  
  • 42. Online  CompeTTes   42  
  • 43. Iedereen  kan  winnen…   43  
  • 44. Data  Science   44  
  • 45. Machine  Learning  bruist  van  het  leven!   ExponenTele  Groei  Bezoekers  op  NIPS  
  • 46. BeloUen  en  Gevaren   •  Verbeterde  gezondheidszorg     •  Een  veiliger  samenleving   •  Privacy  schendingen   •  Meer  gemak   •  Werkeloosheid   •  Misbruik     46  
  • 47. Het  Nederlandse  Academische  Systeem   47  
  • 48. 48  
  • 49. Ten  SloIe   Ik  heb  gezegd