Presentation at the Dataconnexions launch conference organized by Google France, made by qunb. This talk was an in-depth quantitative analysis about the French opendata catalog, and its comparison with the UK and the US catalogs.
qunb is a "one-stop shop for numbers", a data aggregation platform focused on quantitative information. Opendata is a significant part of the data sources of the platform.
3. Cutting through the duplicates...
352,431 datasets
Without the INSEE stats duplicates
Without the Environment Ministry
stats on territory duplicates
Without other sources duplicates
4,114 datasets
Methodology : Scraping the entire data.gouv.fr website on the 8th of Feb. 2012, then
cutting through duplicates and aggregating what was divided by geographical
coverage, then updating by scraping the most recents datasets on the 12th June 2012.
6. Economic data, but also:
1,544
524
422 388
284
214 182
73 72
Analysis : quantity of unique datasets divided by arbitrary themes
7. Agricultural
spendings
production flat
GDP housing dissemination
economy
budget Public
geography
finances real estate
pollution vehicles
env. & training
air
students
education
transport. school program diploma
rivers co2 school
8. energy electricity
consumption leasure police
monument
energy
gas coal
society
museum culture
immigration
demographics social
policy
health
age group marital status
census security
workplace
health
hospital
jobs health spending
unemployment
employees
9. Data domains – FR vs UK vs US
Jobs 4% Jobs 2% Jobs 4%
Health 2%
Health 8% Demographics 5%
Energy 6%
Demographics 7% Health 21%
Env. & Transp. 8%
Energy 4%
Society 10%
Env. & Transp. 14%
Demographics 17%
Education 11%
Society 8%
Energy 1%
Education 2%
Geography Env. & Transp. 12%
14%
Society 3%
Education
Geography 8%
37% Geography
8%
Economy 42%
Economy
Economy 26%
17%
US Fr UK
11. Publishers leaderboard
INSEE 798
Ministère de l'Ecologie 689
Ministère du Budget 483
Ministère de l'Education nationale 466
Ministère de l'Intérieur 308
Premier Ministre 219
Ministère de la Culture 199
FranceAgriMer 148
Ministère de l'Agriculture 113
Ministère de la Défense 107
Ministère du Travail, Emploi et Santé 104
Villes (Coulomiers, Longjumeau, Saint-Quentin) 68
Conseil général du Loire et Cher 68
Ministère de l'Economie 56
Inventaire forestier national 53
Agences départementales de l'eau 40
Ministère de la Justice 39
Ministère des Affaires Etrangères 38
Office national de l'Eau 35
Office national des forêts 22
Ministère de la Ville 19
Agence Bio 6
SCNF et RFF 4
Analyse : nombre de jeux uniques de données par publicateur
13. Mastering excel is key
1. Structured
datasets
206
Structured datasets
3.
Unstructured
datsets
Ready-to-use data for an app
542 developer (rdf, xml, shp)
Semi-structured datasets
Tabular data requiring some
crunching effort before usage
(csv, xls, ods)
2. Semi-
structured
datasets
3,366
Unstructured datasets
Text
data(doc, rtf, txt, pdf, html, …)
Analysis : quantity of datasets divided by themes
14. Not very fond of excel? You can
still dabble with geodata
186
3. Unstructured datasets
1,306
2. Semi-structured datasets
1. Structured datasets
83
120
378
309 1
299 217
213 178 3 5
52 63 30 63 65
7 2
Analyse : nombre de jeux uniques de données regroupés par thème et type
15. Data types – FR vs US
Unstructured data
2% Unstructured data
13% Unstructured data
25%
Semi-structured
data
65%
Semi-structured
data Semi-structured
82% data
66%
Structured data
33%
Structured data
Structured data
8%
5%
US FR UK
16. Who provides structured
datasets?
Premier Ministre 74
Conseil général du Loire et… 33
Agences départementales… 26
Office national des forêts 22
Ministère de l'Ecologie 16
Ministère du Travail, Emploi… 10
Saint-Quentin 10
FranceAgriMer 8
Ministère de la Culture 5
Agence de services et de… 1
Ministère du Budget 1
Analyse : quantity of unique type 1 datasets aggregated by publisher
17. Who provides the semi-
structured ones ?
INSEE 798
Ministère de l'Ecologie 649
Ministère du Budget 474
Ministère de l'Education nationale 350
Ministère de l'Intérieur 302
Ministère de la Culture 164
Ministère du Travail, Emploi et Santé 104
Ministère de la Défense 101
Premier Ministre 71
Inventaire forestier national 53
Ministère de l'Agriculture 45
Ministère de l'Economie 43
Villes (Coulomiers, Longjumeau, Saint-… 39
Ministère de la Justice 38
Ministère des Affaires Etrangères 36
Office national de l'Eau 33
Conseil général du Loire et Cher 33
Agences départementales de l'eau 13
Agence Bio 6
Ministère de la Ville 5
SCNF et RFF 4
Autorités indépendantes 4
Agence de services et de paiement 1
Analyse : quantity of unique type 2 datasets aggregated by publisher
18. Who provides the crappy
datasets?
FranceAgriMer 140
Ministère de l'Education nationale 116
Premier Ministre 74
Ministère de l'Agriculture 68
Ministère de la Culture 30
Ministère de l'Ecologie 24
Villes… 19
Ministère du Travail, Emploi et Santé 16
Ministère de la Ville 14
Ministère de l'Economie 13
Ministère du Budget 8
Ministère de la Défense 6
Ministère de l'Intérieur 6
Office national de l'Eau 2
Ministère des Affaires Etrangères 2
Conseil général du Loire et Cher 2
Ministère de la Justice 1
Agences départementales de l'eau 1
Analyse : quantity of unique type 3 datasets aggregated by publisher
20. Growing and slowing...
4114
3510
2238
1429
622
Nov-11 Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-12
Analyse : nombre cumulé de jeux uniques de données par semaine de publication
21. J-09
F-09
M-09
A-09
M-09
J-09
J-09
A-09
S-09
O-09
N-09
D-09
J-10
F-10
M-10
A-10
M-10
J-10
J-10
A-10
S-10
O-10
Analysis : number of datasets cumulated by publication dates
N-10
D-10
J-11
F-11
M-11
A-11
M-11
J-11
J-11
A-11
S-11
O-11
N-11
France vs UK vs US catalog growth
D-11
J-12
F-12
M-12
23. Real-time data is „round the corner
1,569
1,532
436 410
167
Permanent 2004 and 2005-2009 2010-2011 2012 and
data before beyond
Analysis : number of unique datasets categorized by end of time scope.
24. How obsolete? – Fr vs UK
2%
Real time 8%
Recent
38%
Recent
58%
Old
48%
Old
20%
Obsolètes Obsolètes
12% 14%
FR UK
26. A bit of (massive) local
datasets, but mostly national
ones.
3137
487
279
60 149
International National Régional Departmental Local
Analysis : number of unique datasets categorized by geographical scope.
27. A piece of advice : fish for the
structured local datasets
445
3. Données nondata
Unstructured structurées
Semi-structured data
2. Données semi-structurées
Structured data
1. Données structurées
2595
45
399
228
7 97 92
51
2 34
International National Regional Dpartmental Local
32. Un bon lévrier
donnée Catalogue
retraitée d‟apps
Promouvoir
Appeler donnée Promouvoir donnée son app :
l‟API brute son app brute data
connexions
Proposer Proposer
Trouver un
une idée une idée
dév. d‟app
d‟app d‟app
34. 201 apps
“Quels sont les crimes “Où puis-je planter ma
autour de chez moi ?” tente ?”
“Quelle est la meilleure “Notable : des
balade à vélo ?” utilisations business”
44. Map out the results of the 2012
presidential elections
% %
% Voix % Voix
Dpt Libellé de la commune Nom Prénom Voix Voix / Voix / Nom Prénom Voix
/ Ins / Exp
Ins Exp
AIN L'Abergement-Clémenciat BESANCENOT Oliv ier 14 2,35 2,68 BUFFET Marie-George 3 0,5 …
AIN L'Abergement-de-Varey BESANCENOT Oliv ier 6 2,93 3,51 BUFFET Marie-George 1 0,49 …
AIN Ambérieu-en-Bugey BESANCENOT Oliv ier 323 3,98 4,98 BUFFET Marie-George 152 1,88 …
AIN Ambérieux-en-Dombes BESANCENOT Oliv ier 30 2,85 3,33 BUFFET Marie-George 6 0,57 …
AIN Ambléon BESANCENOT Oliv ier 6 5,36 6,06 BUFFET Marie-George 1 0,89 …
AIN Ambronay BESANCENOT Oliv ier 51 3,16 3,63 BUFFET Marie-George 31 1,92 …
AIN Ambutrix BESANCENOT Oliv ier 26 5,3 5,78 BUFFET Marie-George 6 1,22 …
AIN Andert-et-Condon BESANCENOT Oliv ier 11 4,15 4,76 BUFFET Marie-George 8 3,02 …
AIN Anglefort BESANCENOT Oliv ier 27 4,6 5,22 BUFFET Marie-George 4 0,68 …
AIN Apremont BESANCENOT Oliv ier 3 1,18 1,35 BUFFET Marie-George 5 1,96 …
AIN Aranc BESANCENOT Oliv ier 9 3,24 3,85 BUFFET Marie-George 10 3,6 …
AIN Arandas BESANCENOT Oliv ier 0 0 0 BUFFET Marie-George 0 0 …
AIN Arbent BESANCENOT Oliv ier 48 2,39 2,77 BUFFET Marie-George 23 1,15 …
AIN Arbignieu BESANCENOT Oliv ier 11 2,74 3,23 BUFFET Marie-George 3 0,75 …
AIN Arbigny BESANCENOT Oliv ier 11 4,04 5,07 BUFFET Marie-George 3 1,1 …
AIN Argis BESANCENOT Oliv ier 20 6,51 7,63 BUFFET Marie-George 5 1,63 …
AIN Armix BESANCENOT Oliv ier 0 0 0 BUFFET Marie-George 0 0 …
AIN Ars-sur-Formans BESANCENOT Oliv ier 10 1,23 1,37 BUFFET Marie-George 8 0,99 …
AIN Artemare BESANCENOT Oliv ier 23 2,87 3,44 BUFFET Marie-George 6 0,75 …
… … … … … … … … … … … …
Jeu de données : résultats au 1er et 2ème tour de l‟élection présidentielle de 2007
45. A French-style « citizen watch »
Libellé ministère Programme AE Titre 2 AE Autres titres Total AE CP Titre 2 CP Autres titres Total CP
Affaires étrangères 105 555 823 400 1 230 956 251 1 786 779 651 555 823 400 1 232 988 711 1 788 812 111
Affaires étrangères 151 200 738 503 167 780 000 368 518 503 200 738 503 167 780 000 368 518 503
Affaires étrangères 185 84 090 237 674 622 721 758 712 958 84 090 237 674 622 721 758 712 958
Affaires étrangères 209 222 720 988 1 867 725 436 2 090 446 424 222 720 988 1 890 569 183 2 113 290 171
Affaires étrangères 332 0 0 0 0 20 000 000 20 000 000
Culture 131 0 735 716 707 735 716 707 0 787 946 707 787 946 707
Culture 175 0 813 941 902 813 941 902 0 870 597 681 870 597 681
Culture 180 0 385 813 692 385 813 692 0 390 313 692 390 313 692
Culture 186 0 123 468 894 123 468 894 0 124 075 879 124 075 879
Culture 224 643 893 011 407 853 967 1 051 746 978 643 893 011 429 861 092 1 073 754 103
Culture 313 0 472 888 891 472 888 891 0 472 888 891 472 888 891
… … … … … … … …
(a crunching effort is required, though)
Opérateur ou Catégorie d'opérateur PLF 2012 Statut Programme (chef de file) Mission (correspondant au programme chef de file)
A2E2F - Agence Europe Education Formation France GIP 150 - Formations supérieures et recherche universitaire supérieur
Recherche et enseignement
ABM - Agence de biomédecine EPA 204 - Prévention, sécurité sanitaire et offre de soins
Santé
Académie des sciences de l'outre - mer EPA 150 - Formations supérieures et recherche universitaire supérieur
Recherche et enseignement
Académie des technologies EPA 172 - Recherches scientifiques et technologiques pluridisciplinaires
Recherche et enseignement supérieur
ACSE - Agence nationale pour la cohésion sociale et l'égalité des chances
EPA 147 - Politique de la ville et Grandlogement
Ville et Paris
ADALIS - Addictions Drogues Alcool Info Service GIP 204 - Prévention, sécurité sanitaire et offre de soins
Santé
ADEME - Agence de l'environnement et de la maîtrise de l'énergie 181 - Prévention des risques
EPIC Écologie, développement et aménagement durables
ADU Drôme Ardèche - Agence du développement universitaire Drôme Ardèche
GIP 150 - Formations supérieures et recherche universitaire supérieur
Recherche et enseignement
… … … …
Dataset : Projet de Loi de Finance 2012
46. Map out the regions where pollution
levels are too high
Jeu de données : niveaux de pollution ayant dépassé les seuils d‟alerte
47. Analyze the €1,5 bn in subsidies given
to 18 000 associations
SIREN ASSOCIATION IMPUTATION Subvention
490135456 1 2 3 SOLEIL LUDOTHEQUE - 06 MOUANS SARTOUX Services du Premier ministre: 163 - Jeunesse et vie associative €
3 000
445311210 1.2.3 ARCHITECTE - 75 PARIS 14 Culture et communication: 175 - Patrimoines 30 000 €
498598747 100 000 ENTREPRENEURS - 75 PARIS Éducation nationale: 141 - Enseignement scolaire public du second d
20 000 €
450034301 100 TRANSITIONS - 95 GONESSE Culture et communication: 224 - Transmission des savoirs et démocra
11 680 €
450034301 100 TRANSITIONS - 95 GONESSE Services du Premier ministre: 163 - Jeunesse et vie associative €
2 000
498303320 1000 VISAGES - 91 Culture et communication: 224 - Transmission des savoirs8et démocra
000 €
498303320 1000 VISAGES - 91 Services du Premier ministre: 163 - Jeunesse et vie associative €
10 000
511996035 1001 COULEURS CHEZ MME BELMOKHTAR - 02 Services du Premier ministre: 163 - Jeunesse et vie associative €
483
449328814 1001 PATTES - 37 Services du Premier ministre: 163 - Jeunesse et vie associative €
3 000
398540997 10200 ZIMAGES - 10 BAR SUR AUBE Services du Premier ministre: 163 - Jeunesse et vie associative €
7 390
410532584 117 ANIMATIONS JEUNES - 09 LA BASTIDE DE SEROU Services du Premier ministre: 163 - Jeunesse et vie associative €
12 317
… … … …
Dataset : PLF2012-Jaune-Données Associations subventionnées
48. Does my high school suck?
Geolocalized high
school results
Datasets : Indicateurs de valeur ajoutée des lycées d‟enseignement général et
technique, indicateurss de valeur ajoutée des lycées d‟enseignement professionnel, Géolocalisation
des établissements d'enseignement du premier degré et du second degré du ministère de
l‟éducation nationale, de la jeunesse et de la vie associative
49. The most dangerous roads
Datasets : informations sur la localisation des accidents corporels de la circulation sur 5 années france
métropolitaine
50. Where do I drink le vin rouge
with le fromage ?
Jeu de données : aire géographique des AOC de A à L, aire géographique des AOC de M à Z