2. De komende uren op het programma:
1) Korte introductie
2) Kwaliteit bij meten en bewaren van gegevens
3) Basisprincipes en statistisch denken
4) Lucia de B. en bijensterfte discussiepracticum
Dit alles onderbroken door
2 of 3 x 15 minuten koffiepauze...dat is flexibel...
3. Even over mijzelf:
- Populatiebioloog met sterke focus op statistiek
- Nederlands Centrum voor Bijenonderzoek,
Universiteit Utrecht Geosciences
- Centocor, Octoplus, Universiteit Leiden dept. Chemie
Hoogheemraadschap Rijnland
- Biologie gestudeerd in Leiden
5. Kwaliteit en de wetenschappelijke methode
- Noodzakelijk voor de bruikbaarheid!
- Werkt op alle niveau’s van het proces
- VIVU! (vuilnis in vuilnis uit)
- Slechte kwaliteit treft niet alleen jou!
Breed veld, van wetenschapsleer tot procescontrole
Focus vandaag is practisch, kwaliteit bij meten en
verzamelen van gegevens
6. Meten is weten
We nemen aan dat de onderzoeksvraag duidelijk is.
Onderzoeksvraag en/of hypothese leidt tot het doen
van metingen en/of gerichte observaties
Deze metingen moeten een antwoord geven op de
onderzoeksvraag of de onderzoekshypotese
bevestigen of verwerpen
7. Voorbeeld roken en hoge bloeddruk
In de artsenpraktijk lijkt het erop dat mensen die
roken vaak een hogere bloedruk hebben.
Is dat zo?
Om dat te beantwoorden moeten we 2 dingen meten:
1) Rookgedrag
2) Bloeddruk
Noot: dit type onderzoek is observationeel!
8. Rookgedrag en bloeddruk zijn zogeheten “variabelen”
Variabelen:
Dingen die we meten, controleren of manipuleren bij het
doen van onderzoek
Ze verschillen wat betreft de rol die ze spelen en de
manier waarop ze gemeten (kunnen) worden
Variabelen zijn afhankelijk of onafhankelijk, de laatsten
controleren of manipuleren we en meten het effect van
die manipulatie of controle op de eersten
9. Dus, in het roken en bloedruk voorbeeld...
Roken = onafhankelijke variable
Bloeddruk = afhankelijke variabele
10. Variabelen
verschillen in hoe goed ze gemeten kunnen worden
Dit wil zeggen:
De hoeveelheid informatie die je krijgt door ze in groepen
in te delen verschilt per type variabele
Sommige soorten variabelen hebben een grotere
mogelijkheid om “fout gemeten” te worden, deze
meetfout bepaalt ook hoeveel informatie een variabele
oplevert
11. Variabelen onderscheiden naar informatie die ze geven:
1) Nominaal: alleen kwalitatief, wel of niet lid van een
bepaalde groep.
Voorbeeld: Nationaliteit, geslacht, roken
2) Ordinaal: mogelijk om een rangorde te maken van
groepen. Bijv. meer of minder maar niet hoeveel meer of
minder.
Voorbeeld: sociaal-economische status
3) Interval: rangorde en mogelijk om de verschillen
tussen de waarden van de variabele te kwantificeren.
Voorbeeld: temperatuur, alcoholpercentage
12. Onderzoek van de relaties tussen variabelen leidt tot
metingen
Kwaliteitsperspectief?
Zowel de variabelen als de metingen ervan moeten
geschikt zijn om de onderzoeksvraag te beantwoorden.
Kies de juiste variabelen en metingen voor de technische
mogelijkheden:
Beter goedkoop en goed dan duur en slecht!
Maar ja wat is goed??
13. Voor goede metingen zijn meerdere kwaliteitscriteria te
bedenken.
De belangrijkste zijn:
1) Accuraat: meet wat je wilt meten
2) Resolutie: relevante verschillen kunnen
onderscheiden
3) Precisie: zo weinig mogelijk spreiding (consistent)
4) Betrouwbaar: herhaalbaar, geen verschil in de tijd
14. Accuraat en precies, een voorbeeld:
X X X
X X
X X
X
X X
XXX
XXXX
XXX XXX
XXXX
XXX
accuraat
precies
≠ accuraat
precies
≠ accuraat
≠ precies
15. Metingen van wat dan ook leiden tot gegevens
Populaire term voor meetgegevens is:
Data
Let op! Data is in feite geen informatie, op zich zegt het niks
De interpretatie ervan in het kader van je onderzoeksvraag is
de echte informatie!
Interpretatie van data is het terrein van de statistiek
17. Het vod dat we net zagen was een een voorbeeld van hoe
het niet moet:
- Geen informatie over waarom de proef is uitgevoerd
- Geen informatie over welke apparaten en stoffen zijn
gebruikt
- Geen datum
- Geen naam van wie het heeft gedaan
(verantwoordelijke)
Hoe komen we achter alle ontbrekende gegevens?
Kan deze data door iemand anders worden
gecontroleerd?
18. DAAR KOMEN WE NIET ACHTER
En het is ook niet te controleren door iemand anders!
Wie zou een medicijn gebruiken dat getest is met dit
soort data als resultaat?
Kwaliteit is (wederom) een sleutelconcept
Ook bij het noteren en bewaren van gegevens!
19. M.a.w. het noteren van data moet ook aan
kwaliteitscriteria voldoen!
Algemene regels voor het “labjournaal”
- datum van het experiment
- namen van de mensen die het doen
- het doel van het experiment
- de opzet, welke apparaten en stoffen
- de uitvoering zelf (wat je precies wanneer met wat doet)
- de resultaten
NB: het journaal zelf moet duurzaam zijn (kwaliteit papier,
schrijven met pen, manier van verbeteren).
20. GLP en GMP
Soms is kwaliteit extreem belangrijk, bijv. in de medische
wetenschap, farmacie, high-tech industrie
Hier vind je vaak:
Good Laboratory Practice
Good Manufacturing Practice
GMP is flink strenger dan GLP
21. - Deze systemen integreren praktisch handelen en
wetgeving
- Bij wet precies vastgelegd wat er hoe moet gebeuren,
overheid doet audits (controles), als niet goed: boetes
of erger
Praktijk:
1) Controle data door collega’s
2) Contole data door verantwoordelijke managers
3) QC en QA afdelingen die werkvloer controleren
3) Audits
4) Eisen aan documentatie systeem, training.
personeel, onderhoud apparaten
22. - Op de universiteit hebben we dergelijke systemen niet
- Voor academici komen ze vervelend over:
- bemoeizuchtig
- tijdrovende administratie
- en ze zijn erg duur
Echter, training in kwaliteitsmanagement is zeer
nuttig...eigenlijk voor alle werk waar data worden
verzameld...
23. Er is altijd tijd om iets over te doen
maar nooit om het goed te doen
25. De komende + - 90 min gaan het over een statistisch
basisprincipe
De begrippen “variabele” en “meetschaal” zijn stiekum al
behandeld in het vorige uur...
Ik houd niet van wiskunde en ga formules zo veel mogelijk
vermijden...
“wiskunde is alleen maar een taal om fenomenen te
beschrijven”
Hans Metz 1993
26. Statistiek is:
De wetenschap om iets te leren uit gegevens
Latijn: “statisticum collegium”
Italiaans: “statista”
Renaissance, verzamelen van data over bevolking en
rijkdom van de stadsstaten Venetie en Florence
Eerste boek over methodiek door Graunt 1662:
“Natural and Political Observations Made upon the Bills
of Mortality” ...over het aantal doden door de pest...
27. 1) Descriptieve statistiek
Organiseren en samenvatten van gegevens
2) Inferentiele statistiek
Uitspraken/generaliseringen doen over de
werkelijkheid (op basis van steekproeven)
29. Voorbeeld inferentiele statistiek
Met de pest data schatte Graunt het inwonertal van
Londen:
- Vragen aan huishoudens: hoeveel doden door pest?
- 3 doden per 88 mensen in 1625 (1 dode/29,3 mensen)
- 35417 pestdoden in 1628
Aha! Londen dus:
35417 x 29,3 = 1038899 inwoners in 1625
31. Zo wel:
Male= 1, Female= 2
%
21
60
50
40
30
20
10
0
Gender
% within all data.
Baby weight (g)
Frequency
450040003500300025002000
20
15
10
5
0
Geslacht = vrouw in %?
= 63 van 113 = (56%)
Wat is het gemiddelde
geboortegewicht en de
spreiding ervan?
Gemiddelde: 3217,7g
Standaard deviatie: 0,499g
Mediaan: 3300g
Min: 1800g - Max: 4600g
32. Concepten descriptieve statistiek:
Kengetallen van populaties:
- Gemiddelde = som van waarnemingen / aantal
waarnemingen
- Mediaan = middelste waarde (50% waarde)
- Modus = meest voorkomende waarde
33. Kengetallen zijn erg nuttig maar...
Dataset 1: 3, 5, 7, 10, 10
Dataset 2: 7, 7, 7, 7, 7
Gemiddelde en mediaan van set 1 en 2 = ?
In beide gevallen gemiddelde en mediaan 7!
Maar eh die data zijn niet gelijk!
De spreiding van de waarden rond het gemiddelde is
verschillend!
Kunnen we het verschil in de spreiding met een getal
beschrijven?
34. Dat kan en leidt naar een zeer belangrijk concept...
Spreidingsmaten (bij kengetallen):
- Variantie = som van het afwijking van het gemiddelde
in het kwadraat gedeeld door het aantal
waarnemingen
- Standaard deviatie = de wortel uit de variantie
36. En de variantie en standaarddeviatie van dataset 2?
Dataset 1: 3, 5, 7, 10, 10
Dataset 2: 7, 7, 7, 7, 7
Die zijn 0!
De waarnemingen wijken niet af van het gemiddelde...
37. Er valt meer interessants en nuttigs te zeggen over
descriptieve statistiek maar dat gaat ten koste van de in
feite belangrijkere inferentiele statistiek
38. Het principe van inferentiele statistiek
Uitspraken doen over eigenschappen van populaties door
middel van een steekproef
Waarbij ook de onzekerheid in de uitspraken wordt gemeten
en berekend
...de kans dat een uitspraak waar is voor de populatie...
40. Hoe doe je dat?
Wat zijn de denkstappen?
Eerste begrip van toepassing:
Model
Dat is niks anders dan een representatie van een
fenomeen in je hoofd (en op papier)
Een model beschrijft de relatie tussen iets en iets
anders in de werkelijkheid, het maakt niet uit wat
41. Modellen..
Komen in 2 smaken:
Deterministisch:
Kracht = massa x versnelling
Probabilistisch (kans):
Opbrengst verkoop = hoeveelheid reclame + e
42. Probabilistisch model:
Afh. var = onafh. var + random fout
We kunnen dit zien als een rechte lijn door duo’s van punten!
Statistische notatie:
Afh. var = 0 + 1onafh. var +
1= een getal wat de toe- of afname van afh. var bij toe- of
afname in onafh. var beschrijft (hoe veel? Hoe snel?)
0 = een eigenschap van een rechte lijn...zien we zo
= de afwijking van punten tot de lijn
43. Afh. en onafh. variabele maken samen een punt in een vlak
Y = afh. var
X = onafh. var
0
20
40
60
0 20 40 60
x
y
44. Het gemiddelde effect van X op Y is een rechte lijn
0
20
40
60
0 20 40 60
x
y
Dit is het deterministische stuk:
Y = 0 + 1X
45. Maar...de rechte lijn gaat NIET door de individuele punten
De afstand van de indiv punten tot de lijn is de random fout
De gemiddelde random fout = 0, de spreiding in de random
fout (variantie) is een maat voor de onzekerheid
2
y
x
1
3
4
^^
^
^
Y= 0 + 1X
46. OK, mooi, de relatie tussen x en y is een lijn met een
foutenmarge (onzekerheid).
Maar wat is de beste lijn?
Wat is de meest waarschijnlijke relatie tussen x en y??
0
20
40
60
0 20 40 60
x
y
48. 0
20
40
60
0 20 40 60
x
y
Eindresultaat beste lijn Y = 0 + 1X +
Y = 15 + 0,6 (0,200) X
levert een standaardfout van 0,200 die de spreiding in de
relatie laat zien, echte waarden liggen tussen 0,4X en 0,8X
Standaardfout = standaarddeviatie fout/ steekproefgrootte!
49. Nu komt de inferentiele aap uit de mouw
Als de steekproef goed gekozen is (random...)
dan is:
de fout in de relatie tussen Y en X in de populatie
hetzelfde als in de steekproef (wetmatigheid)
Er geldt dat naarmate de steekproef groter wordt
de standaardfout de ECHTE standaarddeviatie van de fout
In de populatie benadert (wetmatigheid)
We mogen het model met gecorrigeerde fout gebruiken
om eigenschappen in de hele populatie te berekenen!
50. Waarom mag dat eigenlijk?
Er is iets typisch met de “werkelijkheid” als je dingen
meet!!
Gemiddelde op basis van meer dan 50 meetpunten?
spreiding rond dat gemiddelde = symmetrisch
De normale verdeling,
verdeling van Gauss
51. Vergroten van de standaardfout van de steekproef
naar de standaarddeviatie van de fout in de populatie
levert een “betrouwbaarheidsinterval”
95 % BI = gemiddelde +- 2 x standaardfout
95% BI: als we 100 steekproeven doen uit de populatie dan
ligt in 95% van de steekproeven het gemiddelde in het BI
52. Ter afsluiting van dit deel
Wat we net gezien hebben is in feite lineare regressie
Linear verband tussen gemiddelden
Dit principe is alomtegenwoordig in de statistiek,
het kent allerlei varianten voor rare data en niet lineare
relaties
Let op: de representativiteit en de grootte van de
steekproef zijn zeer belangrijk voor de geldigheid
Hier is aparte statistiek voor
53. Vragen?
Na de pauze verder met
een ernstige statistiekzaak en een
discussiepracticum
54. De zaak Lucia de B.
Wat er kan gebeuren als de statistiek niet in orde is
https://www.youtube.com/watch?v=-HvCfB915Cc
Hoe had dit voorkomen kunnen worden?
56. Waar of niet waar?
1) Er zijn veel minder honingbijen in Nederland dan
vroeger
2) Wereldwijd loopt de honingbij gevaar om uit te sterven
3) Honingbijen sterven uit door het gebruik van
bestrijdingsmiddelen
4) Daarom moeten we bestrijdingsmiddelen verbieden