StatistischeVaardigheden_20mar2015

Inleiding Statistische vaardigheden
Over het verzamelen, bewaren en
analyseren van gegevens
20 maart 2015
Lennard Pisa

De komende uren op het programma:
1) Korte introductie
2) Kwaliteit bij meten en bewaren van gegevens
3) Basisprincipes en statistisch denken
4) Lucia de B. en bijensterfte discussiepracticum
Dit alles onderbroken door
2 of 3 x 15 minuten koffiepauze...dat is flexibel...

Even over mijzelf:
- Populatiebioloog met sterke focus op statistiek
- Nederlands Centrum voor Bijenonderzoek,
Universiteit Utrecht Geosciences
- Centocor, Octoplus, Universiteit Leiden dept. Chemie
Hoogheemraadschap Rijnland
- Biologie gestudeerd in Leiden

De wetenschappelijke methode:
Observatie (probleem?)
Onderzoeksvraag (met evt toetsbare hypothese)
Experiment (metingen of specifieke observaties)
Gegevens (data)
Analyse
Antwoord/conclusie (rapportage)

Kwaliteit en de wetenschappelijke methode
- Noodzakelijk voor de bruikbaarheid!
- Werkt op alle niveau’s van het proces
- VIVU! (vuilnis in vuilnis uit)
- Slechte kwaliteit treft niet alleen jou!
Breed veld, van wetenschapsleer tot procescontrole
Focus vandaag is practisch, kwaliteit bij meten en
verzamelen van gegevens

Meten is weten
We nemen aan dat de onderzoeksvraag duidelijk is.
Onderzoeksvraag en/of hypothese leidt tot het doen
van metingen en/of gerichte observaties
Deze metingen moeten een antwoord geven op de
onderzoeksvraag of de onderzoekshypotese
bevestigen of verwerpen

Voorbeeld roken en hoge bloeddruk
In de artsenpraktijk lijkt het erop dat mensen die
roken vaak een hogere bloedruk hebben.
Is dat zo?
Om dat te beantwoorden moeten we 2 dingen meten:
1) Rookgedrag
2) Bloeddruk
Noot: dit type onderzoek is observationeel!

Rookgedrag en bloeddruk zijn zogeheten “variabelen”
Variabelen:
Dingen die we meten, controleren of manipuleren bij het
doen van onderzoek
Ze verschillen wat betreft de rol die ze spelen en de
manier waarop ze gemeten (kunnen) worden
Variabelen zijn afhankelijk of onafhankelijk, de laatsten
controleren of manipuleren we en meten het effect van
die manipulatie of controle op de eersten

Dus, in het roken en bloedruk voorbeeld...
Roken = onafhankelijke variable
Bloeddruk = afhankelijke variabele

Variabelen
verschillen in hoe goed ze gemeten kunnen worden
Dit wil zeggen:
De hoeveelheid informatie die je krijgt door ze in groepen
in te delen verschilt per type variabele
Sommige soorten variabelen hebben een grotere
mogelijkheid om “fout gemeten” te worden, deze
meetfout bepaalt ook hoeveel informatie een variabele
oplevert

Variabelen onderscheiden naar informatie die ze geven:
1) Nominaal: alleen kwalitatief, wel of niet lid van een
bepaalde groep.
Voorbeeld: Nationaliteit, geslacht, roken
2) Ordinaal: mogelijk om een rangorde te maken van
groepen. Bijv. meer of minder maar niet hoeveel meer of
minder.
Voorbeeld: sociaal-economische status
3) Interval: rangorde en mogelijk om de verschillen
tussen de waarden van de variabele te kwantificeren.
Voorbeeld: temperatuur, alcoholpercentage

Onderzoek van de relaties tussen variabelen leidt tot
metingen
Kwaliteitsperspectief?
Zowel de variabelen als de metingen ervan moeten
geschikt zijn om de onderzoeksvraag te beantwoorden.
Kies de juiste variabelen en metingen voor de technische
mogelijkheden:
Beter goedkoop en goed dan duur en slecht!
Maar ja wat is goed??

Voor goede metingen zijn meerdere kwaliteitscriteria te
bedenken.
De belangrijkste zijn:
1) Accuraat: meet wat je wilt meten
2) Resolutie: relevante verschillen kunnen
onderscheiden
3) Precisie: zo weinig mogelijk spreiding (consistent)
4) Betrouwbaar: herhaalbaar, geen verschil in de tijd

Accuraat en precies, een voorbeeld:
X X X
X X
X X
X
X X
XXX
XXXX
XXX XXX
XXXX
XXX
 accuraat
 precies
≠ accuraat
 precies
≠ accuraat
≠ precies

Metingen van wat dan ook leiden tot gegevens
Populaire term voor meetgegevens is:
Data
Let op! Data is in feite geen informatie, op zich zegt het niks
De interpretatie ervan in het kader van je onderzoeksvraag is
de echte informatie!
Interpretatie van data is het terrein van de statistiek

Kwaliteit bij het verzamelen van data, een voorbeeld:

Het vod dat we net zagen was een een voorbeeld van hoe
het niet moet:
- Geen informatie over waarom de proef is uitgevoerd
- Geen informatie over welke apparaten en stoffen zijn
gebruikt
- Geen datum
- Geen naam van wie het heeft gedaan
(verantwoordelijke)
Hoe komen we achter alle ontbrekende gegevens?
Kan deze data door iemand anders worden
gecontroleerd?

DAAR KOMEN WE NIET ACHTER
En het is ook niet te controleren door iemand anders!
Wie zou een medicijn gebruiken dat getest is met dit
soort data als resultaat?
Kwaliteit is (wederom) een sleutelconcept
Ook bij het noteren en bewaren van gegevens!

M.a.w. het noteren van data moet ook aan
kwaliteitscriteria voldoen!
Algemene regels voor het “labjournaal”
- datum van het experiment
- namen van de mensen die het doen
- het doel van het experiment
- de opzet, welke apparaten en stoffen
- de uitvoering zelf (wat je precies wanneer met wat doet)
- de resultaten
NB: het journaal zelf moet duurzaam zijn (kwaliteit papier,
schrijven met pen, manier van verbeteren).

GLP en GMP
Soms is kwaliteit extreem belangrijk, bijv. in de medische
wetenschap, farmacie, high-tech industrie
Hier vind je vaak:
Good Laboratory Practice
Good Manufacturing Practice
GMP is flink strenger dan GLP

- Deze systemen integreren praktisch handelen en
wetgeving
- Bij wet precies vastgelegd wat er hoe moet gebeuren,
overheid doet audits (controles), als niet goed: boetes
of erger
Praktijk:
1) Controle data door collega’s
2) Contole data door verantwoordelijke managers
3) QC en QA afdelingen die werkvloer controleren
3) Audits
4) Eisen aan documentatie systeem, training.
personeel, onderhoud apparaten

- Op de universiteit hebben we dergelijke systemen niet
- Voor academici komen ze vervelend over:
- bemoeizuchtig
- tijdrovende administratie
- en ze zijn erg duur
Echter, training in kwaliteitsmanagement is zeer
nuttig...eigenlijk voor alle werk waar data worden
verzameld...

Er is altijd tijd om iets over te doen
maar nooit om het goed te doen

Vragen?
Na de pauze verder met
statistiek

De komende + - 90 min gaan het over een statistisch
basisprincipe
De begrippen “variabele” en “meetschaal” zijn stiekum al
behandeld in het vorige uur...
Ik houd niet van wiskunde en ga formules zo veel mogelijk
vermijden...
“wiskunde is alleen maar een taal om fenomenen te
beschrijven”
Hans Metz 1993

Statistiek is:
De wetenschap om iets te leren uit gegevens
Latijn: “statisticum collegium”
Italiaans: “statista”
Renaissance, verzamelen van data over bevolking en
rijkdom van de stadsstaten Venetie en Florence
Eerste boek over methodiek door Graunt 1662:
“Natural and Political Observations Made upon the Bills
of Mortality” ...over het aantal doden door de pest...

1) Descriptieve statistiek
Organiseren en samenvatten van gegevens
2) Inferentiele statistiek
Uitspraken/generaliseringen doen over de
werkelijkheid (op basis van steekproeven)

Voorbeeld descriptieve statistiek
De pestdoden van Graunt 1662:

Voorbeeld inferentiele statistiek
Met de pest data schatte Graunt het inwonertal van
Londen:
- Vragen aan huishoudens: hoeveel doden door pest?
- 3 doden per 88 mensen in 1625 (1 dode/29,3 mensen)
- 35417 pestdoden in 1628
Aha! Londen dus:
35417 x 29,3 = 1038899 inwoners in 1625

Voorbeeld 2 descriptieve statistiek
Gewicht van 113 babies in gram:
Jongen: 3500, 3700, 3400, 3400, 3400, 3100, 4100, 3600, 3600, 3400, 3800,
3100, 2400, 2800, 2600, 2100, 1800, 2700, 2400, 2400, 2200, 2600, 4600,
4400, 4400, 2100, 4300, 3000, 3300, 3100, 3400, 3300, 4100, 2300, 3000,
4400, 3100, 2900, 2400, 3500, 3400, 3400, 3100, 3600, 3400, 3100, 2800,
2800, 2600, 2100.
Meisje: 3900, 2800, 3300, 3000, 3200, 3600, 3400, 3300, 3300, 3300, 4200,
4500, 4200, 4100, 2400, 3100, 3500, 3100, 2800, 3500, 3800, 2300, 3200,
2300, 2400, 2200, 4400, 4100, 3700, 4400, 3900, 4100, 4300, 4100, 2900,
2500, 2200, 2400, 2300, 2500, 2200, 4100, 3700, 4000, 4000, 3800, 3800,
3300, 3000, 2900, 2000, 2800, 2300, 2400, 2100, 3700, 3400, 3900, 4100,
3600, 3800, 2400, 1800.
Leuk maar we hebben er zo niks aan, droge data

Zo wel:
Male= 1, Female= 2
%
21
60
50
40
30
20
10
0
Gender
% within all data.
Baby weight (g)
Frequency
450040003500300025002000
20
15
10
5
0
Geslacht = vrouw in %?
= 63 van 113 = (56%)
Wat is het gemiddelde
geboortegewicht en de
spreiding ervan?
Gemiddelde: 3217,7g
Standaard deviatie: 0,499g
Mediaan: 3300g
Min: 1800g - Max: 4600g

Concepten descriptieve statistiek:
Kengetallen van populaties:
- Gemiddelde = som van waarnemingen / aantal
waarnemingen
- Mediaan = middelste waarde (50% waarde)
- Modus = meest voorkomende waarde

Kengetallen zijn erg nuttig maar...
Dataset 1: 3, 5, 7, 10, 10
Dataset 2: 7, 7, 7, 7, 7
Gemiddelde en mediaan van set 1 en 2 = ?
In beide gevallen gemiddelde en mediaan 7!
Maar eh die data zijn niet gelijk!
De spreiding van de waarden rond het gemiddelde is
verschillend!
Kunnen we het verschil in de spreiding met een getal
beschrijven?

Dat kan en leidt naar een zeer belangrijk concept...
Spreidingsmaten (bij kengetallen):
- Variantie = som van het afwijking van het gemiddelde
in het kwadraat gedeeld door het aantal
waarnemingen
- Standaard deviatie = de wortel uit de variantie

...in de praktijk...
Gemiddelde dataset 1 = 7
Score
X
afwijking ( afwijking)2
1 3 3-7=-4 16
2 5 5-7=-2 4
3 7 7-7=0 0
4 10 10-7=3 9
5 10 10-7=3 9
Totaal 35 38
Variantie = 38/7 = 7,6
Standaard deviatie = wortel 7,6 = 2,8

En de variantie en standaarddeviatie van dataset 2?
Dataset 1: 3, 5, 7, 10, 10
Dataset 2: 7, 7, 7, 7, 7
Die zijn 0!
De waarnemingen wijken niet af van het gemiddelde...

Er valt meer interessants en nuttigs te zeggen over
descriptieve statistiek maar dat gaat ten koste van de in
feite belangrijkere inferentiele statistiek

Het principe van inferentiele statistiek
Uitspraken doen over eigenschappen van populaties door
middel van een steekproef
Waarbij ook de onzekerheid in de uitspraken wordt gemeten
en berekend
...de kans dat een uitspraak waar is voor de populatie...

Totale populatie
Selectie steekproef
Berekenen eigenschap voor
representatieve steekproef
Resultaten steekproef
generaliseren
Onzekerheid
Steekproef
Onzekerheid
Steekproef

Hoe doe je dat?
Wat zijn de denkstappen?
Eerste begrip van toepassing:
Model
Dat is niks anders dan een representatie van een
fenomeen in je hoofd (en op papier)
Een model beschrijft de relatie tussen iets en iets
anders in de werkelijkheid, het maakt niet uit wat

Modellen..
Komen in 2 smaken:
Deterministisch:
Kracht = massa x versnelling
Probabilistisch (kans):
Opbrengst verkoop = hoeveelheid reclame + e

Probabilistisch model:
Afh. var = onafh. var + random fout
We kunnen dit zien als een rechte lijn door duo’s van punten!
Statistische notatie:
Afh. var = 0 + 1onafh. var +
1= een getal wat de toe- of afname van afh. var bij toe- of
afname in onafh. var beschrijft (hoe veel? Hoe snel?)
0 = een eigenschap van een rechte lijn...zien we zo
 = de afwijking van punten tot de lijn

Afh. en onafh. variabele maken samen een punt in een vlak
Y = afh. var
X = onafh. var
0
20
40
60
0 20 40 60
x
y

Het gemiddelde effect van X op Y is een rechte lijn
0
20
40
60
0 20 40 60
x
y
Dit is het deterministische stuk:
Y = 0 + 1X

Maar...de rechte lijn gaat NIET door de individuele punten
De afstand van de indiv punten tot de lijn is de random fout
De gemiddelde random fout = 0, de spreiding in de random
fout (variantie) is een maat voor de onzekerheid

2
y
x

1

3

4
^^
^
^
Y= 0 + 1X

OK, mooi, de relatie tussen x en y is een lijn met een
foutenmarge (onzekerheid).
Maar wat is de beste lijn?
Wat is de meest waarschijnlijke relatie tussen x en y??
0
20
40
60
0 20 40 60
x
y


2
y
x

1

3

4
^^
^
^
“De kleinste kwadraten methode”
Minimaliseert: variantie (1 + 2 + 3 + 4)
Met de aanname dat gemiddelde  =0

0
20
40
60
0 20 40 60
x
y
Eindresultaat beste lijn Y = 0 + 1X +
Y = 15 + 0,6 (0,200) X
 levert een standaardfout van 0,200 die de spreiding in de
relatie laat zien, echte waarden liggen tussen 0,4X en 0,8X
Standaardfout = standaarddeviatie fout/ steekproefgrootte!

Nu komt de inferentiele aap uit de mouw
Als de steekproef goed gekozen is (random...)
dan is:
de fout in de relatie tussen Y en X in de populatie
hetzelfde als in de steekproef (wetmatigheid)
Er geldt dat naarmate de steekproef groter wordt
de standaardfout de ECHTE standaarddeviatie van de fout
In de populatie benadert (wetmatigheid)
We mogen het model met gecorrigeerde fout gebruiken
om eigenschappen in de hele populatie te berekenen!

Waarom mag dat eigenlijk?
Er is iets typisch met de “werkelijkheid” als je dingen
meet!!
Gemiddelde op basis van meer dan 50 meetpunten?
spreiding rond dat gemiddelde = symmetrisch
De normale verdeling,
verdeling van Gauss

Vergroten van de standaardfout van de steekproef
naar de standaarddeviatie van de fout in de populatie
levert een “betrouwbaarheidsinterval”
95 % BI = gemiddelde +- 2 x standaardfout
95% BI: als we 100 steekproeven doen uit de populatie dan
ligt in 95% van de steekproeven het gemiddelde in het BI

Ter afsluiting van dit deel
Wat we net gezien hebben is in feite lineare regressie
Linear verband tussen gemiddelden
Dit principe is alomtegenwoordig in de statistiek,
het kent allerlei varianten voor rare data en niet lineare
relaties
Let op: de representativiteit en de grootte van de
steekproef zijn zeer belangrijk voor de geldigheid
Hier is aparte statistiek voor

Vragen?
Na de pauze verder met
een ernstige statistiekzaak en een
discussiepracticum

De zaak Lucia de B.
Wat er kan gebeuren als de statistiek niet in orde is
https://www.youtube.com/watch?v=-HvCfB915Cc
Hoe had dit voorkomen kunnen worden?

Discussiepracticum over bijensterfte

Waar of niet waar?
1) Er zijn veel minder honingbijen in Nederland dan
vroeger
2) Wereldwijd loopt de honingbij gevaar om uit te sterven
3) Honingbijen sterven uit door het gebruik van
bestrijdingsmiddelen
4) Daarom moeten we bestrijdingsmiddelen verbieden

Is dit een goed of een slecht plaatje?

Mag je een causaal verband trekken uit dit plaatje?

Wat zou je graag vermeld willen zien in of bij dit plaatje?
Winter Aantal imkers
Aantal volken
oktober
% Wintersterfte
2005-2006 737 7050 26,3
2006-2007 1422 13591 15,9
2007-2008 808 9616 23,7
2008-2009 1193 10678 21,7
2009-2010 1326 11265 29,1
2010-2011 1541 13726 21,4
2011-2012 1673 14915 20,8
2012-2013 1589 13520 13,7
2013-2014 1640 14320 8,5

Einde van dit cursusonderdeel
Bedankt voor jullie aandacht!

StatistischeVaardigheden_20mar2015

Recommended

Recommended

More Related Content

Similar to StatistischeVaardigheden_20mar2015

Similar to StatistischeVaardigheden_20mar2015 (20)

StatistischeVaardigheden_20mar2015

Editor's Notes