Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Onzekere databases (Mini-college voor decentrale onderwijsprijs 2015)

3,494 views

Published on

I have been nominated for the “decentrale onderwijsprijs“, a teaching award issued by the computer science student association Inter-Actief. Part of the election process is that each nominee gives a short (10-15 min) mini-lecture. Mine was about "Onzekere databases" (Uncertain databases; In Dutch). Announcement of the winner is March 9th, 2015.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Onzekere databases (Mini-college voor decentrale onderwijsprijs 2015)

  1. 1. MINI-COLLEGE ONDERWIJSPRIJS ONZEKERE DATABASES MAURICE VAN KEULEN
  2. 2. Voorschotje nieuw onderdeel (volgend cursusjaar)  Mastervak “Data Science” Leerdoelen  Wat is een onzekere database?  Waar zijn ze goed voor? 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 2 WAT EN WAAROM?
  3. 3. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 3 DATABASES Preferred customers … SELECT SUM(Sales) FROM CarSales WHERE Sales>30 111 ‘BMW en Mercedez-Benz zijn ‘preferred customers’ Car brand Sales BMW 72 Mercedes-Benz 39 Renault 20
  4. 4. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 4 DATA COMBINEREN Car brand Sales B.M.W. 25 Mercedes 32 Renault 10 Car brand Sales BMW 72 Mercedes-Benz 39 Renault 20 Car brand Sales Bayerische Motoren Werke 8 Mercedes 35 Renault 15 Car brand Sales B.M.W. 25 Bayerische Motoren Werke 8 BMW 72 Mercedes 67 Mercedes-Benz 39 Renault 45
  5. 5. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 5 HET PROBLEEM VAN SEMANTISCHE DUPLICATEN Car brand Sales B.M.W. 25 Bayerische Motoren Werke 8 BMW 72 Mercedes 67 Mercedes-Benz 39 Renault 45 Preferred customers … SELECT SUM(Sales) FROM CarSales WHERE Sales>100 0 ‘No preferred customers’
  6. 6. Een voorbeeld van koppelen en integreren van data … Denk ook aan data exchange, conversion, information extraction, data analysis, e-science, data warehousing, business intelligence, migration, etc. … in een “niet-perfecte wereld” Structural heterogeneity, data conflicts, semantic duplicates, incompleteness, inexactness, outdatedness, ambiguity, errors, etc. Schone correcte data is een speciaal geval Behandel problemen met datakwaliteit als een ‘fact of life’ en niet als iets dat je achteraf wel kunt repareren  Databases zouden goed met slechte data moeten kunnen omgaan … Onzekere databases kunnen dat! 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 6 HET WEERBARSTIGE PROBLEEM VAN DATAKWALITEIT
  7. 7. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 7 DE MEESTE PROBLEMEN MET DATAKWALITEIT KUNNEN WORDEN GEMODELLEERD ALS ONZEKERHEID IN DATA Car brand Sales B.M.W. 25 Bayerische Motoren Werke 8 BMW 72 Mercedes 67 Mercedes-Benz 39 Renault 45 Mercedes 106 Mercedes-Benz 106 1 2 3 4 5 6 X=0 X=0 X=1 Y=0 X=1 Y=1 X=0 4 and 5 different 0.2 X=1 4 and 5 the same 0.8 Y=0 “Mercedes” correct name 0.5 Y=1 “Mercedes-Benz” correct name 0.5 B.M.W. / BMW / Bayerische Motoren Werke op dezelfde manier Voorbeeld: semantische duplicaten 7 8
  8. 8. Sales of “preferred customers”  SELECT SUM(sales) FROM carsales WHERE sales≥ 100  Antwoord: 106 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs ONZEKERE ANTWOORDEN ZIJN WAARDEVOL SUM(sales) P 0 14% 105 6% 106 56% 211 24% Tweede meest waarschijnlijke antwoord met 24% kans en mogelijk factor 2 fout (211 vs 106) Risico op flinke fout in het antwoord 8
  9. 9. Lijkt heel erg op een normale database  Data in tabellen  Vragen stellen met SQL  Schaalbaarheid in data als ook onzekerheid, etc. Maar  meerdere mogelijke antwoorden op query’s of benaderingen van antwoorden Nu niet, maar in Data Science wel:  Slimme algoritmen voor kansberekeningen (intern)  Ervaring opdoen met echte datakwaliteitsproblemen 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 9 ONZEKERE DATABASE
  10. 10. 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 10 ‘POSSIBLE WORLDS’-THEORIE Car brand Sales Mercedes 67 Mercedes-Benz 39 Mercedes 106 Mercedes-Benz 106 Renault 45 1 2 3 4 5 X=0 X=0 X=1 Y=0 X=1 Y=1 X=0 4 and 5 different 0.2 X=1 4 and 5 the same 0.8 Y=0 “Mercedes” correct 0.5 Y=1 “Mercedes-Benz” correct 0.5 Car brand Sales Mercedes 67 Mercedes-Benz 39 Renault 45 Car brand Sales Mercedes 67 Mercedes-Benz 39 Renault 45 Car brand Sales Mercedes 106 Renault 45 Car brand Sales Mercedes-Benz 106 Renault 45 X=0 Y=0 X=1 Y=0 X=0 Y=1 X=1 Y=1 0.4 0.1 0.4 0.2 * 0.5 = 0.1 ‘0’ (0.2) ‘106’ (0.8)
  11. 11.  Data afkomstig van natuurlijke taalverwerking “210 euro for a double in the Paris Hilton”  etc. etc.  Zelfs in zoiets recht-toe-recht-aans als de ledenadministratie van Inter-Actief 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 11 TOEPASBAARHEID / PROBLEEM VAN DATAKWALITEIT S/M-nr Naam Adres : : : m7653247 Maurice van Keulen Borneostraat 34a : : :S-nr Naam Adres : : : s8807922 Maurice van Keulen Stroom-Eschlaan 35 : : :
  12. 12.  Wat is een onzekere database? Lijkt op normale database, maar slaat ook alternatieven en waarschijnlijkheden op + meerdere mogelijke antwoorden en benaderingen  Waar zijn ze goed voor? Ze kunnen omgaan met data van slechte kwaliteit Modelleren van kwaliteitsproblemen als onzekerheid 3 maart 2015Onzekere databases - Mini-college Maurice van Keulen onderwijsprijs 12 WRAP UP

×