SlideShare a Scribd company logo
1 of 61
Inleiding Statistische vaardigheden
Over het verzamelen, bewaren en
analyseren van gegevens
20 maart 2015
Lennard Pisa
De komende uren op het programma:
1) Korte introductie
2) Kwaliteit bij meten en bewaren van gegevens
3) Basisprincipes en statistisch denken
4) Lucia de B. en bijensterfte discussiepracticum
Dit alles onderbroken door
2 of 3 x 15 minuten koffiepauze...dat is flexibel...
Even over mijzelf:
- Populatiebioloog met sterke focus op statistiek
- Nederlands Centrum voor Bijenonderzoek,
Universiteit Utrecht Geosciences
- Centocor, Octoplus, Universiteit Leiden dept. Chemie
Hoogheemraadschap Rijnland
- Biologie gestudeerd in Leiden
De wetenschappelijke methode:
Observatie (probleem?)
Onderzoeksvraag (met evt toetsbare hypothese)
Experiment (metingen of specifieke observaties)
Gegevens (data)
Analyse
Antwoord/conclusie (rapportage)
Kwaliteit en de wetenschappelijke methode
- Noodzakelijk voor de bruikbaarheid!
- Werkt op alle niveau’s van het proces
- VIVU! (vuilnis in vuilnis uit)
- Slechte kwaliteit treft niet alleen jou!
Breed veld, van wetenschapsleer tot procescontrole
Focus vandaag is practisch, kwaliteit bij meten en
verzamelen van gegevens
Meten is weten
We nemen aan dat de onderzoeksvraag duidelijk is.
Onderzoeksvraag en/of hypothese leidt tot het doen
van metingen en/of gerichte observaties
Deze metingen moeten een antwoord geven op de
onderzoeksvraag of de onderzoekshypotese
bevestigen of verwerpen
Voorbeeld roken en hoge bloeddruk
In de artsenpraktijk lijkt het erop dat mensen die
roken vaak een hogere bloedruk hebben.
Is dat zo?
Om dat te beantwoorden moeten we 2 dingen meten:
1) Rookgedrag
2) Bloeddruk
Noot: dit type onderzoek is observationeel!
Rookgedrag en bloeddruk zijn zogeheten “variabelen”
Variabelen:
Dingen die we meten, controleren of manipuleren bij het
doen van onderzoek
Ze verschillen wat betreft de rol die ze spelen en de
manier waarop ze gemeten (kunnen) worden
Variabelen zijn afhankelijk of onafhankelijk, de laatsten
controleren of manipuleren we en meten het effect van
die manipulatie of controle op de eersten
Dus, in het roken en bloedruk voorbeeld...
Roken = onafhankelijke variable
Bloeddruk = afhankelijke variabele
Variabelen
verschillen in hoe goed ze gemeten kunnen worden
Dit wil zeggen:
De hoeveelheid informatie die je krijgt door ze in groepen
in te delen verschilt per type variabele
Sommige soorten variabelen hebben een grotere
mogelijkheid om “fout gemeten” te worden, deze
meetfout bepaalt ook hoeveel informatie een variabele
oplevert
Variabelen onderscheiden naar informatie die ze geven:
1) Nominaal: alleen kwalitatief, wel of niet lid van een
bepaalde groep.
Voorbeeld: Nationaliteit, geslacht, roken
2) Ordinaal: mogelijk om een rangorde te maken van
groepen. Bijv. meer of minder maar niet hoeveel meer of
minder.
Voorbeeld: sociaal-economische status
3) Interval: rangorde en mogelijk om de verschillen
tussen de waarden van de variabele te kwantificeren.
Voorbeeld: temperatuur, alcoholpercentage
Onderzoek van de relaties tussen variabelen leidt tot
metingen
Kwaliteitsperspectief?
Zowel de variabelen als de metingen ervan moeten
geschikt zijn om de onderzoeksvraag te beantwoorden.
Kies de juiste variabelen en metingen voor de technische
mogelijkheden:
Beter goedkoop en goed dan duur en slecht!
Maar ja wat is goed??
Voor goede metingen zijn meerdere kwaliteitscriteria te
bedenken.
De belangrijkste zijn:
1) Accuraat: meet wat je wilt meten
2) Resolutie: relevante verschillen kunnen
onderscheiden
3) Precisie: zo weinig mogelijk spreiding (consistent)
4) Betrouwbaar: herhaalbaar, geen verschil in de tijd
Accuraat en precies, een voorbeeld:
X X X
X X
X X
X
X X
XXX
XXXX
XXX XXX
XXXX
XXX
 accuraat
 precies
≠ accuraat
 precies
≠ accuraat
≠ precies
Metingen van wat dan ook leiden tot gegevens
Populaire term voor meetgegevens is:
Data
Let op! Data is in feite geen informatie, op zich zegt het niks
De interpretatie ervan in het kader van je onderzoeksvraag is
de echte informatie!
Interpretatie van data is het terrein van de statistiek
Kwaliteit bij het verzamelen van data, een voorbeeld:
Het vod dat we net zagen was een een voorbeeld van hoe
het niet moet:
- Geen informatie over waarom de proef is uitgevoerd
- Geen informatie over welke apparaten en stoffen zijn
gebruikt
- Geen datum
- Geen naam van wie het heeft gedaan
(verantwoordelijke)
Hoe komen we achter alle ontbrekende gegevens?
Kan deze data door iemand anders worden
gecontroleerd?
DAAR KOMEN WE NIET ACHTER
En het is ook niet te controleren door iemand anders!
Wie zou een medicijn gebruiken dat getest is met dit
soort data als resultaat?
Kwaliteit is (wederom) een sleutelconcept
Ook bij het noteren en bewaren van gegevens!
M.a.w. het noteren van data moet ook aan
kwaliteitscriteria voldoen!
Algemene regels voor het “labjournaal”
- datum van het experiment
- namen van de mensen die het doen
- het doel van het experiment
- de opzet, welke apparaten en stoffen
- de uitvoering zelf (wat je precies wanneer met wat doet)
- de resultaten
NB: het journaal zelf moet duurzaam zijn (kwaliteit papier,
schrijven met pen, manier van verbeteren).
GLP en GMP
Soms is kwaliteit extreem belangrijk, bijv. in de medische
wetenschap, farmacie, high-tech industrie
Hier vind je vaak:
Good Laboratory Practice
Good Manufacturing Practice
GMP is flink strenger dan GLP
- Deze systemen integreren praktisch handelen en
wetgeving
- Bij wet precies vastgelegd wat er hoe moet gebeuren,
overheid doet audits (controles), als niet goed: boetes
of erger
Praktijk:
1) Controle data door collega’s
2) Contole data door verantwoordelijke managers
3) QC en QA afdelingen die werkvloer controleren
3) Audits
4) Eisen aan documentatie systeem, training.
personeel, onderhoud apparaten
- Op de universiteit hebben we dergelijke systemen niet
- Voor academici komen ze vervelend over:
- bemoeizuchtig
- tijdrovende administratie
- en ze zijn erg duur
Echter, training in kwaliteitsmanagement is zeer
nuttig...eigenlijk voor alle werk waar data worden
verzameld...
Er is altijd tijd om iets over te doen
maar nooit om het goed te doen
Vragen?
Na de pauze verder met
statistiek
De komende + - 90 min gaan het over een statistisch
basisprincipe
De begrippen “variabele” en “meetschaal” zijn stiekum al
behandeld in het vorige uur...
Ik houd niet van wiskunde en ga formules zo veel mogelijk
vermijden...
“wiskunde is alleen maar een taal om fenomenen te
beschrijven”
Hans Metz 1993
Statistiek is:
De wetenschap om iets te leren uit gegevens
Latijn: “statisticum collegium”
Italiaans: “statista”
Renaissance, verzamelen van data over bevolking en
rijkdom van de stadsstaten Venetie en Florence
Eerste boek over methodiek door Graunt 1662:
“Natural and Political Observations Made upon the Bills
of Mortality” ...over het aantal doden door de pest...
1) Descriptieve statistiek
Organiseren en samenvatten van gegevens
2) Inferentiele statistiek
Uitspraken/generaliseringen doen over de
werkelijkheid (op basis van steekproeven)
Voorbeeld descriptieve statistiek
De pestdoden van Graunt 1662:
Voorbeeld inferentiele statistiek
Met de pest data schatte Graunt het inwonertal van
Londen:
- Vragen aan huishoudens: hoeveel doden door pest?
- 3 doden per 88 mensen in 1625 (1 dode/29,3 mensen)
- 35417 pestdoden in 1628
Aha! Londen dus:
35417 x 29,3 = 1038899 inwoners in 1625
Voorbeeld 2 descriptieve statistiek
Gewicht van 113 babies in gram:
Jongen: 3500, 3700, 3400, 3400, 3400, 3100, 4100, 3600, 3600, 3400, 3800,
3100, 2400, 2800, 2600, 2100, 1800, 2700, 2400, 2400, 2200, 2600, 4600,
4400, 4400, 2100, 4300, 3000, 3300, 3100, 3400, 3300, 4100, 2300, 3000,
4400, 3100, 2900, 2400, 3500, 3400, 3400, 3100, 3600, 3400, 3100, 2800,
2800, 2600, 2100.
Meisje: 3900, 2800, 3300, 3000, 3200, 3600, 3400, 3300, 3300, 3300, 4200,
4500, 4200, 4100, 2400, 3100, 3500, 3100, 2800, 3500, 3800, 2300, 3200,
2300, 2400, 2200, 4400, 4100, 3700, 4400, 3900, 4100, 4300, 4100, 2900,
2500, 2200, 2400, 2300, 2500, 2200, 4100, 3700, 4000, 4000, 3800, 3800,
3300, 3000, 2900, 2000, 2800, 2300, 2400, 2100, 3700, 3400, 3900, 4100,
3600, 3800, 2400, 1800.
Leuk maar we hebben er zo niks aan, droge data
Zo wel:
Male= 1, Female= 2
%
21
60
50
40
30
20
10
0
Gender
% within all data.
Baby weight (g)
Frequency
450040003500300025002000
20
15
10
5
0
Geslacht = vrouw in %?
= 63 van 113 = (56%)
Wat is het gemiddelde
geboortegewicht en de
spreiding ervan?
Gemiddelde: 3217,7g
Standaard deviatie: 0,499g
Mediaan: 3300g
Min: 1800g - Max: 4600g
Concepten descriptieve statistiek:
Kengetallen van populaties:
- Gemiddelde = som van waarnemingen / aantal
waarnemingen
- Mediaan = middelste waarde (50% waarde)
- Modus = meest voorkomende waarde
Kengetallen zijn erg nuttig maar...
Dataset 1: 3, 5, 7, 10, 10
Dataset 2: 7, 7, 7, 7, 7
Gemiddelde en mediaan van set 1 en 2 = ?
In beide gevallen gemiddelde en mediaan 7!
Maar eh die data zijn niet gelijk!
De spreiding van de waarden rond het gemiddelde is
verschillend!
Kunnen we het verschil in de spreiding met een getal
beschrijven?
Dat kan en leidt naar een zeer belangrijk concept...
Spreidingsmaten (bij kengetallen):
- Variantie = som van het afwijking van het gemiddelde
in het kwadraat gedeeld door het aantal
waarnemingen
- Standaard deviatie = de wortel uit de variantie
...in de praktijk...
Gemiddelde dataset 1 = 7
Score
X
afwijking ( afwijking)2
1 3 3-7=-4 16
2 5 5-7=-2 4
3 7 7-7=0 0
4 10 10-7=3 9
5 10 10-7=3 9
Totaal 35 38
Variantie = 38/7 = 7,6
Standaard deviatie = wortel 7,6 = 2,8
En de variantie en standaarddeviatie van dataset 2?
Dataset 1: 3, 5, 7, 10, 10
Dataset 2: 7, 7, 7, 7, 7
Die zijn 0!
De waarnemingen wijken niet af van het gemiddelde...
Er valt meer interessants en nuttigs te zeggen over
descriptieve statistiek maar dat gaat ten koste van de in
feite belangrijkere inferentiele statistiek
Het principe van inferentiele statistiek
Uitspraken doen over eigenschappen van populaties door
middel van een steekproef
Waarbij ook de onzekerheid in de uitspraken wordt gemeten
en berekend
...de kans dat een uitspraak waar is voor de populatie...
Totale populatie
Selectie steekproef
Berekenen eigenschap voor
representatieve steekproef
Resultaten steekproef
generaliseren
Onzekerheid
Steekproef
Onzekerheid
Steekproef
Hoe doe je dat?
Wat zijn de denkstappen?
Eerste begrip van toepassing:
Model
Dat is niks anders dan een representatie van een
fenomeen in je hoofd (en op papier)
Een model beschrijft de relatie tussen iets en iets
anders in de werkelijkheid, het maakt niet uit wat
Modellen..
Komen in 2 smaken:
Deterministisch:
Kracht = massa x versnelling
Probabilistisch (kans):
Opbrengst verkoop = hoeveelheid reclame + e
Probabilistisch model:
Afh. var = onafh. var + random fout
We kunnen dit zien als een rechte lijn door duo’s van punten!
Statistische notatie:
Afh. var = 0 + 1onafh. var +
1= een getal wat de toe- of afname van afh. var bij toe- of
afname in onafh. var beschrijft (hoe veel? Hoe snel?)
0 = een eigenschap van een rechte lijn...zien we zo
 = de afwijking van punten tot de lijn
Afh. en onafh. variabele maken samen een punt in een vlak
Y = afh. var
X = onafh. var
0
20
40
60
0 20 40 60
x
y
Het gemiddelde effect van X op Y is een rechte lijn
0
20
40
60
0 20 40 60
x
y
Dit is het deterministische stuk:
Y = 0 + 1X
Maar...de rechte lijn gaat NIET door de individuele punten
De afstand van de indiv punten tot de lijn is de random fout
De gemiddelde random fout = 0, de spreiding in de random
fout (variantie) is een maat voor de onzekerheid

2
y
x

1

3

4
^^
^
^
Y= 0 + 1X
OK, mooi, de relatie tussen x en y is een lijn met een
foutenmarge (onzekerheid).
Maar wat is de beste lijn?
Wat is de meest waarschijnlijke relatie tussen x en y??
0
20
40
60
0 20 40 60
x
y

2
y
x

1

3

4
^^
^
^
“De kleinste kwadraten methode”
Minimaliseert: variantie (1 + 2 + 3 + 4)
Met de aanname dat gemiddelde  =0
0
20
40
60
0 20 40 60
x
y
Eindresultaat beste lijn Y = 0 + 1X +
Y = 15 + 0,6 (0,200) X
 levert een standaardfout van 0,200 die de spreiding in de
relatie laat zien, echte waarden liggen tussen 0,4X en 0,8X
Standaardfout = standaarddeviatie fout/ steekproefgrootte!
Nu komt de inferentiele aap uit de mouw
Als de steekproef goed gekozen is (random...)
dan is:
de fout in de relatie tussen Y en X in de populatie
hetzelfde als in de steekproef (wetmatigheid)
Er geldt dat naarmate de steekproef groter wordt
de standaardfout de ECHTE standaarddeviatie van de fout
In de populatie benadert (wetmatigheid)
We mogen het model met gecorrigeerde fout gebruiken
om eigenschappen in de hele populatie te berekenen!
Waarom mag dat eigenlijk?
Er is iets typisch met de “werkelijkheid” als je dingen
meet!!
Gemiddelde op basis van meer dan 50 meetpunten?
spreiding rond dat gemiddelde = symmetrisch
De normale verdeling,
verdeling van Gauss
Vergroten van de standaardfout van de steekproef
naar de standaarddeviatie van de fout in de populatie
levert een “betrouwbaarheidsinterval”
95 % BI = gemiddelde +- 2 x standaardfout
95% BI: als we 100 steekproeven doen uit de populatie dan
ligt in 95% van de steekproeven het gemiddelde in het BI
Ter afsluiting van dit deel
Wat we net gezien hebben is in feite lineare regressie
Linear verband tussen gemiddelden
Dit principe is alomtegenwoordig in de statistiek,
het kent allerlei varianten voor rare data en niet lineare
relaties
Let op: de representativiteit en de grootte van de
steekproef zijn zeer belangrijk voor de geldigheid
Hier is aparte statistiek voor
Vragen?
Na de pauze verder met
een ernstige statistiekzaak en een
discussiepracticum
De zaak Lucia de B.
Wat er kan gebeuren als de statistiek niet in orde is
https://www.youtube.com/watch?v=-HvCfB915Cc
Hoe had dit voorkomen kunnen worden?
Discussiepracticum over bijensterfte
Waar of niet waar?
1) Er zijn veel minder honingbijen in Nederland dan
vroeger
2) Wereldwijd loopt de honingbij gevaar om uit te sterven
3) Honingbijen sterven uit door het gebruik van
bestrijdingsmiddelen
4) Daarom moeten we bestrijdingsmiddelen verbieden
Is dit een goed of een slecht plaatje?
Is dit een goed of een slecht plaatje?
Mag je een causaal verband trekken uit dit plaatje?
Wat zou je graag vermeld willen zien in of bij dit plaatje?
Winter Aantal imkers
Aantal volken
oktober
% Wintersterfte
2005-2006 737 7050 26,3
2006-2007 1422 13591 15,9
2007-2008 808 9616 23,7
2008-2009 1193 10678 21,7
2009-2010 1326 11265 29,1
2010-2011 1541 13726 21,4
2011-2012 1673 14915 20,8
2012-2013 1589 13520 13,7
2013-2014 1640 14320 8,5
Einde van dit cursusonderdeel
Bedankt voor jullie aandacht!

More Related Content

Similar to StatistischeVaardigheden_20mar2015

De data-driehoek en artificial intelligence in de zorg
De data-driehoek en artificial intelligence in de zorgDe data-driehoek en artificial intelligence in de zorg
De data-driehoek en artificial intelligence in de zorgMartijn Zoet
 
Powerpoint hl ce vt32013 effect
Powerpoint hl ce vt32013 effectPowerpoint hl ce vt32013 effect
Powerpoint hl ce vt32013 effectAnne de Hulster
 
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)Ernst Thoutenhoofd
 
Data based medicine
Data based medicineData based medicine
Data based medicineKNMG Limburg
 
Presentatie workshop ebp podomedics 2012
Presentatie workshop ebp podomedics 2012Presentatie workshop ebp podomedics 2012
Presentatie workshop ebp podomedics 2012rsmabers
 
Meten van functioneren in de dagelijkse praktijk: Wat kunnen we leren van het...
Meten van functioneren in de dagelijkse praktijk: Wat kunnen we leren van het...Meten van functioneren in de dagelijkse praktijk: Wat kunnen we leren van het...
Meten van functioneren in de dagelijkse praktijk: Wat kunnen we leren van het...Ontogenese
 
Golden road sr revalidatie amc 30 mei 2011
Golden road sr revalidatie amc 30 mei 2011Golden road sr revalidatie amc 30 mei 2011
Golden road sr revalidatie amc 30 mei 2011jgdaams
 
Machine learning en cbs
Machine learning en cbsMachine learning en cbs
Machine learning en cbsDerek de Beurs
 
Projectfiche Projectmanagement
Projectfiche ProjectmanagementProjectfiche Projectmanagement
Projectfiche ProjectmanagementAnneleen Vaes
 
Jv weert geriotto_communicatie met ouderen25052011
Jv weert geriotto_communicatie met ouderen25052011Jv weert geriotto_communicatie met ouderen25052011
Jv weert geriotto_communicatie met ouderen25052011Ger3er
 
Beter in zorg, best practice .
Beter in zorg, best practice .Beter in zorg, best practice .
Beter in zorg, best practice .centrummaliebaan24
 
Gimix - A.I. kan levens redden door nood bij het ongeboren kind vroegtijdig t...
Gimix - A.I. kan levens redden door nood bij het ongeboren kind vroegtijdig t...Gimix - A.I. kan levens redden door nood bij het ongeboren kind vroegtijdig t...
Gimix - A.I. kan levens redden door nood bij het ongeboren kind vroegtijdig t...BigDataExpo
 
Help De Dokter Verzuipt #NVB09
Help De Dokter Verzuipt #NVB09Help De Dokter Verzuipt #NVB09
Help De Dokter Verzuipt #NVB09Laika Spoetnik
 
Blog 12: Ongestructureerde big data analyseren
Blog 12: Ongestructureerde big data analyserenBlog 12: Ongestructureerde big data analyseren
Blog 12: Ongestructureerde big data analyserenInterSystems Benelux
 
Onderwijs EBM 23 09 2010
Onderwijs EBM 23 09 2010Onderwijs EBM 23 09 2010
Onderwijs EBM 23 09 2010Jeroen Terpstra
 
MIK blok 1.4 11022013
MIK blok 1.4 11022013MIK blok 1.4 11022013
MIK blok 1.4 11022013jgdaams
 

Similar to StatistischeVaardigheden_20mar2015 (20)

De data-driehoek en artificial intelligence in de zorg
De data-driehoek en artificial intelligence in de zorgDe data-driehoek en artificial intelligence in de zorg
De data-driehoek en artificial intelligence in de zorg
 
Powerpoint hl ce vt32013 effect
Powerpoint hl ce vt32013 effectPowerpoint hl ce vt32013 effect
Powerpoint hl ce vt32013 effect
 
Cat nurse pdefinitief_2013
Cat nurse pdefinitief_2013Cat nurse pdefinitief_2013
Cat nurse pdefinitief_2013
 
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
Onderzoeksmethoden in orthopedagogiek 1 (PAMA5163)
 
Data based medicine
Data based medicineData based medicine
Data based medicine
 
Presentatie workshop ebp podomedics 2012
Presentatie workshop ebp podomedics 2012Presentatie workshop ebp podomedics 2012
Presentatie workshop ebp podomedics 2012
 
Meten van functioneren in de dagelijkse praktijk: Wat kunnen we leren van het...
Meten van functioneren in de dagelijkse praktijk: Wat kunnen we leren van het...Meten van functioneren in de dagelijkse praktijk: Wat kunnen we leren van het...
Meten van functioneren in de dagelijkse praktijk: Wat kunnen we leren van het...
 
Golden road sr revalidatie amc 30 mei 2011
Golden road sr revalidatie amc 30 mei 2011Golden road sr revalidatie amc 30 mei 2011
Golden road sr revalidatie amc 30 mei 2011
 
Machine learning en cbs
Machine learning en cbsMachine learning en cbs
Machine learning en cbs
 
Projectfiche Projectmanagement
Projectfiche ProjectmanagementProjectfiche Projectmanagement
Projectfiche Projectmanagement
 
Jv weert geriotto_communicatie met ouderen25052011
Jv weert geriotto_communicatie met ouderen25052011Jv weert geriotto_communicatie met ouderen25052011
Jv weert geriotto_communicatie met ouderen25052011
 
Onderzoeksdesign h2 2010 2011
Onderzoeksdesign h2 2010 2011Onderzoeksdesign h2 2010 2011
Onderzoeksdesign h2 2010 2011
 
Beter in zorg, best practice .
Beter in zorg, best practice .Beter in zorg, best practice .
Beter in zorg, best practice .
 
Gimix - A.I. kan levens redden door nood bij het ongeboren kind vroegtijdig t...
Gimix - A.I. kan levens redden door nood bij het ongeboren kind vroegtijdig t...Gimix - A.I. kan levens redden door nood bij het ongeboren kind vroegtijdig t...
Gimix - A.I. kan levens redden door nood bij het ongeboren kind vroegtijdig t...
 
Help De Dokter Verzuipt #NVB09
Help De Dokter Verzuipt #NVB09Help De Dokter Verzuipt #NVB09
Help De Dokter Verzuipt #NVB09
 
Blog 12: Ongestructureerde big data analyseren
Blog 12: Ongestructureerde big data analyserenBlog 12: Ongestructureerde big data analyseren
Blog 12: Ongestructureerde big data analyseren
 
Onderwijs EBM 23 09 2010
Onderwijs EBM 23 09 2010Onderwijs EBM 23 09 2010
Onderwijs EBM 23 09 2010
 
Jbom rein haudenhuyse
Jbom rein haudenhuyseJbom rein haudenhuyse
Jbom rein haudenhuyse
 
MIK blok 1.4 11022013
MIK blok 1.4 11022013MIK blok 1.4 11022013
MIK blok 1.4 11022013
 
Afscheidsrede Prof Dr. Richard Grol 10-9-2010
Afscheidsrede Prof Dr. Richard Grol 10-9-2010Afscheidsrede Prof Dr. Richard Grol 10-9-2010
Afscheidsrede Prof Dr. Richard Grol 10-9-2010
 

StatistischeVaardigheden_20mar2015

  • 1. Inleiding Statistische vaardigheden Over het verzamelen, bewaren en analyseren van gegevens 20 maart 2015 Lennard Pisa
  • 2. De komende uren op het programma: 1) Korte introductie 2) Kwaliteit bij meten en bewaren van gegevens 3) Basisprincipes en statistisch denken 4) Lucia de B. en bijensterfte discussiepracticum Dit alles onderbroken door 2 of 3 x 15 minuten koffiepauze...dat is flexibel...
  • 3. Even over mijzelf: - Populatiebioloog met sterke focus op statistiek - Nederlands Centrum voor Bijenonderzoek, Universiteit Utrecht Geosciences - Centocor, Octoplus, Universiteit Leiden dept. Chemie Hoogheemraadschap Rijnland - Biologie gestudeerd in Leiden
  • 4. De wetenschappelijke methode: Observatie (probleem?) Onderzoeksvraag (met evt toetsbare hypothese) Experiment (metingen of specifieke observaties) Gegevens (data) Analyse Antwoord/conclusie (rapportage)
  • 5. Kwaliteit en de wetenschappelijke methode - Noodzakelijk voor de bruikbaarheid! - Werkt op alle niveau’s van het proces - VIVU! (vuilnis in vuilnis uit) - Slechte kwaliteit treft niet alleen jou! Breed veld, van wetenschapsleer tot procescontrole Focus vandaag is practisch, kwaliteit bij meten en verzamelen van gegevens
  • 6. Meten is weten We nemen aan dat de onderzoeksvraag duidelijk is. Onderzoeksvraag en/of hypothese leidt tot het doen van metingen en/of gerichte observaties Deze metingen moeten een antwoord geven op de onderzoeksvraag of de onderzoekshypotese bevestigen of verwerpen
  • 7. Voorbeeld roken en hoge bloeddruk In de artsenpraktijk lijkt het erop dat mensen die roken vaak een hogere bloedruk hebben. Is dat zo? Om dat te beantwoorden moeten we 2 dingen meten: 1) Rookgedrag 2) Bloeddruk Noot: dit type onderzoek is observationeel!
  • 8. Rookgedrag en bloeddruk zijn zogeheten “variabelen” Variabelen: Dingen die we meten, controleren of manipuleren bij het doen van onderzoek Ze verschillen wat betreft de rol die ze spelen en de manier waarop ze gemeten (kunnen) worden Variabelen zijn afhankelijk of onafhankelijk, de laatsten controleren of manipuleren we en meten het effect van die manipulatie of controle op de eersten
  • 9. Dus, in het roken en bloedruk voorbeeld... Roken = onafhankelijke variable Bloeddruk = afhankelijke variabele
  • 10. Variabelen verschillen in hoe goed ze gemeten kunnen worden Dit wil zeggen: De hoeveelheid informatie die je krijgt door ze in groepen in te delen verschilt per type variabele Sommige soorten variabelen hebben een grotere mogelijkheid om “fout gemeten” te worden, deze meetfout bepaalt ook hoeveel informatie een variabele oplevert
  • 11. Variabelen onderscheiden naar informatie die ze geven: 1) Nominaal: alleen kwalitatief, wel of niet lid van een bepaalde groep. Voorbeeld: Nationaliteit, geslacht, roken 2) Ordinaal: mogelijk om een rangorde te maken van groepen. Bijv. meer of minder maar niet hoeveel meer of minder. Voorbeeld: sociaal-economische status 3) Interval: rangorde en mogelijk om de verschillen tussen de waarden van de variabele te kwantificeren. Voorbeeld: temperatuur, alcoholpercentage
  • 12. Onderzoek van de relaties tussen variabelen leidt tot metingen Kwaliteitsperspectief? Zowel de variabelen als de metingen ervan moeten geschikt zijn om de onderzoeksvraag te beantwoorden. Kies de juiste variabelen en metingen voor de technische mogelijkheden: Beter goedkoop en goed dan duur en slecht! Maar ja wat is goed??
  • 13. Voor goede metingen zijn meerdere kwaliteitscriteria te bedenken. De belangrijkste zijn: 1) Accuraat: meet wat je wilt meten 2) Resolutie: relevante verschillen kunnen onderscheiden 3) Precisie: zo weinig mogelijk spreiding (consistent) 4) Betrouwbaar: herhaalbaar, geen verschil in de tijd
  • 14. Accuraat en precies, een voorbeeld: X X X X X X X X X X XXX XXXX XXX XXX XXXX XXX  accuraat  precies ≠ accuraat  precies ≠ accuraat ≠ precies
  • 15. Metingen van wat dan ook leiden tot gegevens Populaire term voor meetgegevens is: Data Let op! Data is in feite geen informatie, op zich zegt het niks De interpretatie ervan in het kader van je onderzoeksvraag is de echte informatie! Interpretatie van data is het terrein van de statistiek
  • 16. Kwaliteit bij het verzamelen van data, een voorbeeld:
  • 17. Het vod dat we net zagen was een een voorbeeld van hoe het niet moet: - Geen informatie over waarom de proef is uitgevoerd - Geen informatie over welke apparaten en stoffen zijn gebruikt - Geen datum - Geen naam van wie het heeft gedaan (verantwoordelijke) Hoe komen we achter alle ontbrekende gegevens? Kan deze data door iemand anders worden gecontroleerd?
  • 18. DAAR KOMEN WE NIET ACHTER En het is ook niet te controleren door iemand anders! Wie zou een medicijn gebruiken dat getest is met dit soort data als resultaat? Kwaliteit is (wederom) een sleutelconcept Ook bij het noteren en bewaren van gegevens!
  • 19. M.a.w. het noteren van data moet ook aan kwaliteitscriteria voldoen! Algemene regels voor het “labjournaal” - datum van het experiment - namen van de mensen die het doen - het doel van het experiment - de opzet, welke apparaten en stoffen - de uitvoering zelf (wat je precies wanneer met wat doet) - de resultaten NB: het journaal zelf moet duurzaam zijn (kwaliteit papier, schrijven met pen, manier van verbeteren).
  • 20. GLP en GMP Soms is kwaliteit extreem belangrijk, bijv. in de medische wetenschap, farmacie, high-tech industrie Hier vind je vaak: Good Laboratory Practice Good Manufacturing Practice GMP is flink strenger dan GLP
  • 21. - Deze systemen integreren praktisch handelen en wetgeving - Bij wet precies vastgelegd wat er hoe moet gebeuren, overheid doet audits (controles), als niet goed: boetes of erger Praktijk: 1) Controle data door collega’s 2) Contole data door verantwoordelijke managers 3) QC en QA afdelingen die werkvloer controleren 3) Audits 4) Eisen aan documentatie systeem, training. personeel, onderhoud apparaten
  • 22. - Op de universiteit hebben we dergelijke systemen niet - Voor academici komen ze vervelend over: - bemoeizuchtig - tijdrovende administratie - en ze zijn erg duur Echter, training in kwaliteitsmanagement is zeer nuttig...eigenlijk voor alle werk waar data worden verzameld...
  • 23. Er is altijd tijd om iets over te doen maar nooit om het goed te doen
  • 24. Vragen? Na de pauze verder met statistiek
  • 25. De komende + - 90 min gaan het over een statistisch basisprincipe De begrippen “variabele” en “meetschaal” zijn stiekum al behandeld in het vorige uur... Ik houd niet van wiskunde en ga formules zo veel mogelijk vermijden... “wiskunde is alleen maar een taal om fenomenen te beschrijven” Hans Metz 1993
  • 26. Statistiek is: De wetenschap om iets te leren uit gegevens Latijn: “statisticum collegium” Italiaans: “statista” Renaissance, verzamelen van data over bevolking en rijkdom van de stadsstaten Venetie en Florence Eerste boek over methodiek door Graunt 1662: “Natural and Political Observations Made upon the Bills of Mortality” ...over het aantal doden door de pest...
  • 27. 1) Descriptieve statistiek Organiseren en samenvatten van gegevens 2) Inferentiele statistiek Uitspraken/generaliseringen doen over de werkelijkheid (op basis van steekproeven)
  • 28. Voorbeeld descriptieve statistiek De pestdoden van Graunt 1662:
  • 29. Voorbeeld inferentiele statistiek Met de pest data schatte Graunt het inwonertal van Londen: - Vragen aan huishoudens: hoeveel doden door pest? - 3 doden per 88 mensen in 1625 (1 dode/29,3 mensen) - 35417 pestdoden in 1628 Aha! Londen dus: 35417 x 29,3 = 1038899 inwoners in 1625
  • 30. Voorbeeld 2 descriptieve statistiek Gewicht van 113 babies in gram: Jongen: 3500, 3700, 3400, 3400, 3400, 3100, 4100, 3600, 3600, 3400, 3800, 3100, 2400, 2800, 2600, 2100, 1800, 2700, 2400, 2400, 2200, 2600, 4600, 4400, 4400, 2100, 4300, 3000, 3300, 3100, 3400, 3300, 4100, 2300, 3000, 4400, 3100, 2900, 2400, 3500, 3400, 3400, 3100, 3600, 3400, 3100, 2800, 2800, 2600, 2100. Meisje: 3900, 2800, 3300, 3000, 3200, 3600, 3400, 3300, 3300, 3300, 4200, 4500, 4200, 4100, 2400, 3100, 3500, 3100, 2800, 3500, 3800, 2300, 3200, 2300, 2400, 2200, 4400, 4100, 3700, 4400, 3900, 4100, 4300, 4100, 2900, 2500, 2200, 2400, 2300, 2500, 2200, 4100, 3700, 4000, 4000, 3800, 3800, 3300, 3000, 2900, 2000, 2800, 2300, 2400, 2100, 3700, 3400, 3900, 4100, 3600, 3800, 2400, 1800. Leuk maar we hebben er zo niks aan, droge data
  • 31. Zo wel: Male= 1, Female= 2 % 21 60 50 40 30 20 10 0 Gender % within all data. Baby weight (g) Frequency 450040003500300025002000 20 15 10 5 0 Geslacht = vrouw in %? = 63 van 113 = (56%) Wat is het gemiddelde geboortegewicht en de spreiding ervan? Gemiddelde: 3217,7g Standaard deviatie: 0,499g Mediaan: 3300g Min: 1800g - Max: 4600g
  • 32. Concepten descriptieve statistiek: Kengetallen van populaties: - Gemiddelde = som van waarnemingen / aantal waarnemingen - Mediaan = middelste waarde (50% waarde) - Modus = meest voorkomende waarde
  • 33. Kengetallen zijn erg nuttig maar... Dataset 1: 3, 5, 7, 10, 10 Dataset 2: 7, 7, 7, 7, 7 Gemiddelde en mediaan van set 1 en 2 = ? In beide gevallen gemiddelde en mediaan 7! Maar eh die data zijn niet gelijk! De spreiding van de waarden rond het gemiddelde is verschillend! Kunnen we het verschil in de spreiding met een getal beschrijven?
  • 34. Dat kan en leidt naar een zeer belangrijk concept... Spreidingsmaten (bij kengetallen): - Variantie = som van het afwijking van het gemiddelde in het kwadraat gedeeld door het aantal waarnemingen - Standaard deviatie = de wortel uit de variantie
  • 35. ...in de praktijk... Gemiddelde dataset 1 = 7 Score X afwijking ( afwijking)2 1 3 3-7=-4 16 2 5 5-7=-2 4 3 7 7-7=0 0 4 10 10-7=3 9 5 10 10-7=3 9 Totaal 35 38 Variantie = 38/7 = 7,6 Standaard deviatie = wortel 7,6 = 2,8
  • 36. En de variantie en standaarddeviatie van dataset 2? Dataset 1: 3, 5, 7, 10, 10 Dataset 2: 7, 7, 7, 7, 7 Die zijn 0! De waarnemingen wijken niet af van het gemiddelde...
  • 37. Er valt meer interessants en nuttigs te zeggen over descriptieve statistiek maar dat gaat ten koste van de in feite belangrijkere inferentiele statistiek
  • 38. Het principe van inferentiele statistiek Uitspraken doen over eigenschappen van populaties door middel van een steekproef Waarbij ook de onzekerheid in de uitspraken wordt gemeten en berekend ...de kans dat een uitspraak waar is voor de populatie...
  • 39. Totale populatie Selectie steekproef Berekenen eigenschap voor representatieve steekproef Resultaten steekproef generaliseren Onzekerheid Steekproef Onzekerheid Steekproef
  • 40. Hoe doe je dat? Wat zijn de denkstappen? Eerste begrip van toepassing: Model Dat is niks anders dan een representatie van een fenomeen in je hoofd (en op papier) Een model beschrijft de relatie tussen iets en iets anders in de werkelijkheid, het maakt niet uit wat
  • 41. Modellen.. Komen in 2 smaken: Deterministisch: Kracht = massa x versnelling Probabilistisch (kans): Opbrengst verkoop = hoeveelheid reclame + e
  • 42. Probabilistisch model: Afh. var = onafh. var + random fout We kunnen dit zien als een rechte lijn door duo’s van punten! Statistische notatie: Afh. var = 0 + 1onafh. var + 1= een getal wat de toe- of afname van afh. var bij toe- of afname in onafh. var beschrijft (hoe veel? Hoe snel?) 0 = een eigenschap van een rechte lijn...zien we zo  = de afwijking van punten tot de lijn
  • 43. Afh. en onafh. variabele maken samen een punt in een vlak Y = afh. var X = onafh. var 0 20 40 60 0 20 40 60 x y
  • 44. Het gemiddelde effect van X op Y is een rechte lijn 0 20 40 60 0 20 40 60 x y Dit is het deterministische stuk: Y = 0 + 1X
  • 45. Maar...de rechte lijn gaat NIET door de individuele punten De afstand van de indiv punten tot de lijn is de random fout De gemiddelde random fout = 0, de spreiding in de random fout (variantie) is een maat voor de onzekerheid  2 y x  1  3  4 ^^ ^ ^ Y= 0 + 1X
  • 46. OK, mooi, de relatie tussen x en y is een lijn met een foutenmarge (onzekerheid). Maar wat is de beste lijn? Wat is de meest waarschijnlijke relatie tussen x en y?? 0 20 40 60 0 20 40 60 x y
  • 47.  2 y x  1  3  4 ^^ ^ ^ “De kleinste kwadraten methode” Minimaliseert: variantie (1 + 2 + 3 + 4) Met de aanname dat gemiddelde  =0
  • 48. 0 20 40 60 0 20 40 60 x y Eindresultaat beste lijn Y = 0 + 1X + Y = 15 + 0,6 (0,200) X  levert een standaardfout van 0,200 die de spreiding in de relatie laat zien, echte waarden liggen tussen 0,4X en 0,8X Standaardfout = standaarddeviatie fout/ steekproefgrootte!
  • 49. Nu komt de inferentiele aap uit de mouw Als de steekproef goed gekozen is (random...) dan is: de fout in de relatie tussen Y en X in de populatie hetzelfde als in de steekproef (wetmatigheid) Er geldt dat naarmate de steekproef groter wordt de standaardfout de ECHTE standaarddeviatie van de fout In de populatie benadert (wetmatigheid) We mogen het model met gecorrigeerde fout gebruiken om eigenschappen in de hele populatie te berekenen!
  • 50. Waarom mag dat eigenlijk? Er is iets typisch met de “werkelijkheid” als je dingen meet!! Gemiddelde op basis van meer dan 50 meetpunten? spreiding rond dat gemiddelde = symmetrisch De normale verdeling, verdeling van Gauss
  • 51. Vergroten van de standaardfout van de steekproef naar de standaarddeviatie van de fout in de populatie levert een “betrouwbaarheidsinterval” 95 % BI = gemiddelde +- 2 x standaardfout 95% BI: als we 100 steekproeven doen uit de populatie dan ligt in 95% van de steekproeven het gemiddelde in het BI
  • 52. Ter afsluiting van dit deel Wat we net gezien hebben is in feite lineare regressie Linear verband tussen gemiddelden Dit principe is alomtegenwoordig in de statistiek, het kent allerlei varianten voor rare data en niet lineare relaties Let op: de representativiteit en de grootte van de steekproef zijn zeer belangrijk voor de geldigheid Hier is aparte statistiek voor
  • 53. Vragen? Na de pauze verder met een ernstige statistiekzaak en een discussiepracticum
  • 54. De zaak Lucia de B. Wat er kan gebeuren als de statistiek niet in orde is https://www.youtube.com/watch?v=-HvCfB915Cc Hoe had dit voorkomen kunnen worden?
  • 56. Waar of niet waar? 1) Er zijn veel minder honingbijen in Nederland dan vroeger 2) Wereldwijd loopt de honingbij gevaar om uit te sterven 3) Honingbijen sterven uit door het gebruik van bestrijdingsmiddelen 4) Daarom moeten we bestrijdingsmiddelen verbieden
  • 57. Is dit een goed of een slecht plaatje?
  • 58. Is dit een goed of een slecht plaatje?
  • 59. Mag je een causaal verband trekken uit dit plaatje?
  • 60. Wat zou je graag vermeld willen zien in of bij dit plaatje? Winter Aantal imkers Aantal volken oktober % Wintersterfte 2005-2006 737 7050 26,3 2006-2007 1422 13591 15,9 2007-2008 808 9616 23,7 2008-2009 1193 10678 21,7 2009-2010 1326 11265 29,1 2010-2011 1541 13726 21,4 2011-2012 1673 14915 20,8 2012-2013 1589 13520 13,7 2013-2014 1640 14320 8,5
  • 61. Einde van dit cursusonderdeel Bedankt voor jullie aandacht!

Editor's Notes

  1. 52
  2. 52
  3. 52
  4. 52
  5. 52
  6. 52
  7. 52
  8. 52