Simple datavisualisation to
unlock Big Data
Stephan Okhuijsen
3 juni 2015
Itude – Datagraver - VOJN
@Steeph - @Datagraver
Tools versus humans
• Tools can be too complex and have too
many features
• Tools distract from thinking about what you
really need/want to know
• Start simple
• Start a data safari (dixit Remko Helms)
The best tool to explore Big
Data is your curiosity
And it is fun!
START WITH A QUESTION
MOST BASIC: COLORCODING
Create a baseline
• Even distribution for every workday = 20%
• Mark significant deviation in color. For
example >25% = green and <15% is red
• Start your first data safari. Look at the first
line
Example pharmacy
NEXT: PLOT FREQUENCY
Pick a dimension
• Date/time/weekday/season
• Age
• Distance
• Weight
• Height
• Etc…
Medicine costs pp/y by age
0
20
40
60
80
100
120
140
160
180
200
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99
Medicijnkosten/jaar 2010
Another perspective
-4
-2
0
2
4
6
8
10
12
14
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
49
51
53
55
57
59
61
63
65
67
69
71
73
75
77
79
81
83
85
87
89
91
93
95
97
99
101
Absolute verschil met voorloper
NEXT: PLOT FREQUENCY
VARIATION
NEXT: REGULAR SAMPLING
Pick a point of reference
• Usefull for streams of data
• For instance compare situation at 8 o’clock
every morning (traffic data)
• Or January 1st for comparing years of
experience for members of parliament
Example Dutch Parliament
Another visualisation just for fun
NEXT: MAKE IT PHYSICAL
Physical map + heatmap
• Map data on the physical world
• Colorcode things like frequency or age
NOW YOU TRY
Example car database NL
• Registration date
• Weight
• Cilinders
• Seats
• Kilometer per liter
• Price
• Color
• Brand
• Serie
• Main fuel
• Type (MPV, Station,
Sedan, etc…)
• Numberplate
• Mass
• Insured
Car color
NEXT: COMBINE
DATASOURCES
LAST: CLEVER DIGGING
Meeting notes Parliament
• A bit more content related exercise.
• All meeting notes Dutch Parliament since
1995
• Who was there? What did they say? How
did they vote?
99,998%
Thank you!
Stephan Okhuijsen
3 juni 2015
Itude – Datagraver - VOJN
@Steeph - @Datagraver

Information energy 2015_06_03

Editor's Notes

  • #5 De Britten deden een heel andere poging. En zo bleef de wereld buiten de nerds om in vertwijfeling achter
  • #6 90% het een bloedmooie grafiek vond, maar slechts 40% kon uitleggen wat hij nou precies betekende.
  • #10 Start with a question
  • #12 Start with a question
  • #14 Z-index, verstrekkingen apotheek (OTC)
  • #17 Eerst vraag. Open data: statistische piek op 66 en 67 jarigen. Hoe kan dat? https://anaconda15.files.wordpress.com/2011/09/pzschongerwinterbrochure1.pdf http://www.volkskrant.nl/dossier-archief/babys-hongerwinter-hebben-meer-kans-op-suikerziekte~a467497/
  • #18 Hongerwinterkinderen. 3 jaar latere, totale zorgkosten. Verplaatsing Zorgdebat en vergrijzing.
  • #19 Verschil met de waarde ervoor. Handig om signaal uit de ruis te halen.
  • #21 Simpel, duidelijk. Maar je komt er niet mee op televisie
  • #25 Beetje bakjes voorbeeld.
  • #39 Jullie insteek programmeren en wetenschap natuurlijk. Maar wil je straks je scriptie in de krant hebben, werkt een goede visualisatie mogelijk. Ik vertel vanuit perspectief journalist wat stand van zaken is.