StatMine
StatMine – prototype
visuele dataexploratie
Edwin de Jonge, Jan van der Laan en Jessica Solcer
CBS
Datavisualisatie in beweging, 24 mei 2013
Wat is StatMine?

StatMine 0.2

2
StatMine
Doel: Verbeter gebruik van huidige CBS cijfers
Hoe: Analyse-schil op StatLine
Werkwijze:
•
•
•
•

Formuleer verbeterhypothese
Maak software prototype
Test prototype op gebruikers
Evalueer test

StatMine

3
Missie CBS?

4
Missie CBS
“Het Centraal Bureau voor de Statistiek heeft als
taak het publiceren van betrouwbare en
samenhangende statistische informatie, die inspeelt
op de behoefte van de samenleving”
(bron: www.cbs.nl)

StatMine 0.2

5
Missie CBS
“Het Centraal Bureau voor de Statistiek heeft als
taak het publiceren van betrouwbare en
samenhangende statistische informatie, die inspeelt
op de behoefte van de samenleving”

StatMine 0.2

6
Zonder cijfers geen beleid

7
Hoe gaat het met Nederland?

StatMine

8
Waarom StatMine?
• StatLine bevat meer dan één miljard cijfers voor
•
•
•
•
•
•
•
•

Beleidsmakers
Journalisten
Burgers
Bedrijven
Economen
Sociale wetenschappers
Historici
etc

StatMine 0.2

9
Probleem 1
Cijfers ≠ Informatie

StatMine

10
Missie CBS
“Het Centraal Bureau voor de Statistiek heeft als
taak het publiceren van betrouwbare en
samenhangende statistische informatie, die inspeelt
op de behoefte van de samenleving”

StatMine 0.2

11
1. Cijfers ≠ Informatie
• Een aantal invloedrijke (potentiele) gebruikers van
CBS cijfers wordt onvoldoende bediend:
• Datajournalisten
• Beleidsmedewerkers

• Veel interessante informatie in StatLine wordt niet
“gespot” omdat de tabelvorm dit moeilijk maakt

StatMine 0.2

12
H1:
Data
analyse
=
Data
inzicht
StatMine

13
H1. Data inzicht
StatMine 0.1 had tot doel om meer inzicht te geven
in StatLine cijfers door
•cijfers StatLine visueel en interactief te presenteren
Met StatMine I (2012 Q1) werd deze hypothese
succesvol getest op 4 “moeilijke” StatLine tabellen.

StatMine 0.2

14
Lijngrafiek

Staafdiagram

- ontwikkelingen

- vergelijken

Bubble/scatter chart

Mosaic chart

- correlatie/samenhang

- structuur

StatMine 0.2

15
Small multiples?

StatMine 0.2

16
StatMine 0.2

17
StatMine 0.1 Resultaten
Periode: 2012 Q1
Testpersonen: 25 CBS-ers
Bevindingen
-Testpersonen vinden dat visueel maken van data
meerwaarde biedt (small multiples)
-StatLine-tabeleigenaren zien hun data op een
andere wijze
-StatLine-tabeleigenaren willen tool als controletool
StatMine 0.2

18
Probleem 2.
Verbrokkelde informatie

StatMine

19
Missie CBS
“Het Centraal Bureau voor de Statistiek heeft als
taak het publiceren van betrouwbare en
samenhangende statistische informatie, die inspeelt
op de behoefte van de samenleving”

StatMine 0.2

20
2. Verbrokkelde informatie
Veel informatie in StatLine is gefragmenteerd:
•Gebruiker moet in meerdere tabellen kijken en
informatie zelf combineren
• Diabetes
• Energiegebruik vgl economische groei
• Veiligheid vgl criminaliteit

StatMine 0.2

21
2. Tabellen koppelen

StatMine

22
H2. Tabellen koppelen
StatMine 0.2 had tot doel om meer inzicht te geven
in StatLine cijfers door:
-Gebruikers zelf tabellen te laten combineren.
-Voorwaarde is dat ze tenminste één dimensie
gemeenschappelijk moeten hebben.
Met prototype II (2012 Q4 – 2013 Q1) is deze
hypothese getest.
StatMine 0.2

23
StatMine 0.2 Resultaten
Periode: 2012 Q4 – 2013 Q1
Testpersonen: 20 CBS-ers, 40 externen
(beleidsmakers ministeries, journalisten)
Bevindingen:
-Externen enthousiast over visuele mogelijkheden
StatMine
-Koppelen van data vervult een externe wens

StatMine 0.2

24
Probleem 3
Statistische cijfers zijn
StatMine
onzeker

25
Missie CBS
“Het Centraal Bureau voor de Statistiek heeft als
taak het publiceren van betrouwbare en
samenhangende statistische informatie, die
inspeelt op de behoefte van de samenleving”
(bron: www.cbs.nl)

StatMine

26
H3 Onzekerheidsmarges
• Alle CBS cijfers hebben een onzekerheidsmarge
• European Statistics Code of Practice (12.2):
• “sampling and non sampling errors should be
systematically documented”

Doel van StatMine 0.3 (2013 Q2):
kijken hoe gebruikers op een begrijpelijke manier
attent kunnen maken op onze
onzekerheidsmarges.
StatMine

27
StatLine & marges
• Ongeveer 5% van de StatLine tabellen publiceert
expliciete marges per tabelcel:
• Standaardfout (uit steekproef!)
• Of boven + ondermarge

• Alle cijfers in StatLine hebben een precisie
• Aantal cijfers achter komma (1, 1,0, 1,00, 1,000)
• In duizendtallen/miljoenen

StatMine 0.2

28
StatMine 0.3
Beperkt zich tot:
•Hoe interpreteren gebruikers de marges? Wat betekent
dat voor de interpretatie van de cijfers?
•Is er behoefte aan marges?
Aanname:
•Voor de testtabellen is een puntschatting met bijbehorend
betrouwbaarheidsinterval aanwezig.

StatMine 0.2

29
StatMine 0.3
• Testen invloed tonen onzekerheid op antwoorden
gebruikers (analyse nog bezig)
• Inbouwen van onzekerheid in:
• Lijngrafieken
• Staafdiagrammen
• Scatterplots

StatMine 0.2

30

Statmine, Visuele dataexploratie

  • 1.
    StatMine StatMine – prototype visueledataexploratie Edwin de Jonge, Jan van der Laan en Jessica Solcer CBS Datavisualisatie in beweging, 24 mei 2013
  • 2.
  • 3.
    StatMine Doel: Verbeter gebruikvan huidige CBS cijfers Hoe: Analyse-schil op StatLine Werkwijze: • • • • Formuleer verbeterhypothese Maak software prototype Test prototype op gebruikers Evalueer test StatMine 3
  • 4.
  • 5.
    Missie CBS “Het CentraalBureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving” (bron: www.cbs.nl) StatMine 0.2 5
  • 6.
    Missie CBS “Het CentraalBureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving” StatMine 0.2 6
  • 7.
  • 8.
    Hoe gaat hetmet Nederland? StatMine 8
  • 9.
    Waarom StatMine? • StatLinebevat meer dan één miljard cijfers voor • • • • • • • • Beleidsmakers Journalisten Burgers Bedrijven Economen Sociale wetenschappers Historici etc StatMine 0.2 9
  • 10.
    Probleem 1 Cijfers ≠Informatie StatMine 10
  • 11.
    Missie CBS “Het CentraalBureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving” StatMine 0.2 11
  • 12.
    1. Cijfers ≠Informatie • Een aantal invloedrijke (potentiele) gebruikers van CBS cijfers wordt onvoldoende bediend: • Datajournalisten • Beleidsmedewerkers • Veel interessante informatie in StatLine wordt niet “gespot” omdat de tabelvorm dit moeilijk maakt StatMine 0.2 12
  • 13.
  • 14.
    H1. Data inzicht StatMine0.1 had tot doel om meer inzicht te geven in StatLine cijfers door •cijfers StatLine visueel en interactief te presenteren Met StatMine I (2012 Q1) werd deze hypothese succesvol getest op 4 “moeilijke” StatLine tabellen. StatMine 0.2 14
  • 15.
    Lijngrafiek Staafdiagram - ontwikkelingen - vergelijken Bubble/scatterchart Mosaic chart - correlatie/samenhang - structuur StatMine 0.2 15
  • 16.
  • 17.
  • 18.
    StatMine 0.1 Resultaten Periode:2012 Q1 Testpersonen: 25 CBS-ers Bevindingen -Testpersonen vinden dat visueel maken van data meerwaarde biedt (small multiples) -StatLine-tabeleigenaren zien hun data op een andere wijze -StatLine-tabeleigenaren willen tool als controletool StatMine 0.2 18
  • 19.
  • 20.
    Missie CBS “Het CentraalBureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving” StatMine 0.2 20
  • 21.
    2. Verbrokkelde informatie Veelinformatie in StatLine is gefragmenteerd: •Gebruiker moet in meerdere tabellen kijken en informatie zelf combineren • Diabetes • Energiegebruik vgl economische groei • Veiligheid vgl criminaliteit StatMine 0.2 21
  • 22.
  • 23.
    H2. Tabellen koppelen StatMine0.2 had tot doel om meer inzicht te geven in StatLine cijfers door: -Gebruikers zelf tabellen te laten combineren. -Voorwaarde is dat ze tenminste één dimensie gemeenschappelijk moeten hebben. Met prototype II (2012 Q4 – 2013 Q1) is deze hypothese getest. StatMine 0.2 23
  • 24.
    StatMine 0.2 Resultaten Periode:2012 Q4 – 2013 Q1 Testpersonen: 20 CBS-ers, 40 externen (beleidsmakers ministeries, journalisten) Bevindingen: -Externen enthousiast over visuele mogelijkheden StatMine -Koppelen van data vervult een externe wens StatMine 0.2 24
  • 25.
    Probleem 3 Statistische cijferszijn StatMine onzeker 25
  • 26.
    Missie CBS “Het CentraalBureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving” (bron: www.cbs.nl) StatMine 26
  • 27.
    H3 Onzekerheidsmarges • AlleCBS cijfers hebben een onzekerheidsmarge • European Statistics Code of Practice (12.2): • “sampling and non sampling errors should be systematically documented” Doel van StatMine 0.3 (2013 Q2): kijken hoe gebruikers op een begrijpelijke manier attent kunnen maken op onze onzekerheidsmarges. StatMine 27
  • 28.
    StatLine & marges •Ongeveer 5% van de StatLine tabellen publiceert expliciete marges per tabelcel: • Standaardfout (uit steekproef!) • Of boven + ondermarge • Alle cijfers in StatLine hebben een precisie • Aantal cijfers achter komma (1, 1,0, 1,00, 1,000) • In duizendtallen/miljoenen StatMine 0.2 28
  • 29.
    StatMine 0.3 Beperkt zichtot: •Hoe interpreteren gebruikers de marges? Wat betekent dat voor de interpretatie van de cijfers? •Is er behoefte aan marges? Aanname: •Voor de testtabellen is een puntschatting met bijbehorend betrouwbaarheidsinterval aanwezig. StatMine 0.2 29
  • 30.
    StatMine 0.3 • Testeninvloed tonen onzekerheid op antwoorden gebruikers (analyse nog bezig) • Inbouwen van onzekerheid in: • Lijngrafieken • Staafdiagrammen • Scatterplots StatMine 0.2 30