• Save
Opendata benchmark - FR vs UK vs US
Upcoming SlideShare
Loading in...5
×
 

Opendata benchmark - FR vs UK vs US

on

  • 17,516 views

Presentation at the Dataconnexions launch conference organized by Google France, made by qunb. This talk was an in-depth quantitative analysis about the French opendata catalog, and its comparison ...

Presentation at the Dataconnexions launch conference organized by Google France, made by qunb. This talk was an in-depth quantitative analysis about the French opendata catalog, and its comparison with the UK and the US catalogs.

qunb is a "one-stop shop for numbers", a data aggregation platform focused on quantitative information. Opendata is a significant part of the data sources of the platform.

Statistics

Views

Total Views
17,516
Views on SlideShare
11,446
Embed Views
6,070

Actions

Likes
50
Downloads
8
Comments
2

43 Embeds 6,070

http://techcrunch.com 1940
http://blog.datahub.kr 1323
http://findthefigures.com 662
http://www.scoop.it 598
https://twitter.com 280
http://www.rslnmag.fr 276
http://bjekov.blogspot.com 228
http://blog.isogeo.com 136
http://epsiplatform.eu 112
http://findthefigures.qunb.com 105
http://blog.qunb.com 95
http://localhost 82
http://www.linkedin.com 32
http://www.frogz.fr 31
http://www.google.co.kr 28
https://si0.twimg.com 22
http://b612eland.wordpress.com 18
http://us-w1.rockmelt.com 15
http://webcache.googleusercontent.com 14
https://twimg0-a.akamaihd.net 11
http://www.epsiplatform.eu 9
http://www.serdalab.com 9
http://serdalab.com 4
http://23.23.183.34 4
http://frogz.fr 4
http://m.techcrunch.com 4
http://www.twylah.com 3
https://www.rebelmouse.com 3
http://www.findthefigures.com 2
http://bjekov.blogspot.com.es 2
http://bjekov.blogspot.ru 2
http://bjekov.blogspot.se 2
http://epsi.localhost 2
http://pinterest.com 2
http://feeds.feedburner.com 2
http://bjekov.blogspot.it 1
http://www.pinterest.com 1
http://bjekov.blogspot.cz 1
http://tweetedtimes.com 1
http://bjekov.blogspot.pt 1
http://bjekov.blogspot.co.uk 1
http://www.mefeedia.com 1
https://www.linkedin.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Opendata benchmark - FR vs UK vs US Opendata benchmark - FR vs UK vs US Presentation Transcript

  • Opendata benchmarkFR vs UK vs US Cyrille Vincey @cyrvin cvincey@qunb.com
  • Quantitative analysis of the data.gouv.fr catalogHOW MANY DATASETS ?
  • Cutting through the duplicates... 352,431 datasets Without the INSEE stats duplicates Without the Environment Ministry stats on territory duplicates Without other sources duplicates 4,114 datasetsMethodology : Scraping the entire data.gouv.fr website on the 8th of Feb. 2012, thencutting through duplicates and aggregating what was divided by geographicalcoverage, then updating by scraping the most recents datasets on the 12th June 2012.
  • This catalog analysis focuses on 4,114 unique datasets.
  • Quantitative analysis of the data.gouv.fr catalogWHAT DATA, WHAT TOPICS ?
  • Economic data, but also:1,544 524 422 388 284 214 182 73 72Analysis : quantity of unique datasets divided by arbitrary themes
  • Agriculturalspendings production flat GDP housing dissemination economy budget Public geography finances real estate pollution vehicles env. & training air students education transport. school program diploma rivers co2 school
  • energy electricityconsumption leasure police monumentenergy gas coal society museum cultureimmigrationdemographics social policy healthage group marital statuscensus security workplace health hospitaljobs health spending unemployment employees
  • Data domains – FR vs UK vs US Jobs 4% Jobs 2% Jobs 4% Health 2% Health 8% Demographics 5% Energy 6% Demographics 7% Health 21% Env. & Transp. 8% Energy 4% Society 10% Env. & Transp. 14% Demographics 17% Education 11% Society 8% Energy 1% Education 2% Geography Env. & Transp. 12% 14% Society 3% Education Geography 8% 37% Geography 8% Economy 42% Economy Economy 26% 17% US Fr UK
  • WHERE DOES THE DATA COMEFROM?
  • Publishers leaderboard INSEE 798 Ministère de lEcologie 689 Ministère du Budget 483 Ministère de lEducation nationale 466 Ministère de lIntérieur 308 Premier Ministre 219 Ministère de la Culture 199 FranceAgriMer 148 Ministère de lAgriculture 113 Ministère de la Défense 107 Ministère du Travail, Emploi et Santé 104Villes (Coulomiers, Longjumeau, Saint-Quentin) 68 Conseil général du Loire et Cher 68 Ministère de lEconomie 56 Inventaire forestier national 53 Agences départementales de leau 40 Ministère de la Justice 39 Ministère des Affaires Etrangères 38 Office national de lEau 35 Office national des forêts 22 Ministère de la Ville 19 Agence Bio 6 SCNF et RFF 4 Analyse : nombre de jeux uniques de données par publicateur
  • Le catalogue data.gouv.fr par les chiffresWHAT ARE THE DATA READILYAVAILABLE FOR A MASHUP ?
  • Mastering excel is key 1. Structured datasets 206 Structured datasets 3. Unstructured datsets Ready-to-use data for an app 542 developer (rdf, xml, shp) Semi-structured datasets Tabular data requiring some crunching effort before usage (csv, xls, ods) 2. Semi- structured datasets 3,366 Unstructured datasets Text data(doc, rtf, txt, pdf, html, …)Analysis : quantity of datasets divided by themes
  • Not very fond of excel? You canstill dabble with geodata 186 3. Unstructured datasets 1,306 2. Semi-structured datasets 1. Structured datasets 83 120 378 309 1 299 217 213 178 3 5 52 63 30 63 65 7 2Analyse : nombre de jeux uniques de données regroupés par thème et type
  • Data types – FR vs US Unstructured data 2% Unstructured data 13% Unstructured data 25% Semi-structured data 65% Semi-structured data Semi-structured 82% data 66% Structured data 33% Structured data Structured data 8% 5% US FR UK
  • Who provides structureddatasets? Premier Ministre 74 Conseil général du Loire et… 33 Agences départementales… 26 Office national des forêts 22 Ministère de lEcologie 16 Ministère du Travail, Emploi… 10 Saint-Quentin 10 FranceAgriMer 8 Ministère de la Culture 5 Agence de services et de… 1 Ministère du Budget 1Analyse : quantity of unique type 1 datasets aggregated by publisher
  • Who provides the semi-structured ones ? INSEE 798 Ministère de lEcologie 649 Ministère du Budget 474 Ministère de lEducation nationale 350 Ministère de lIntérieur 302 Ministère de la Culture 164 Ministère du Travail, Emploi et Santé 104 Ministère de la Défense 101 Premier Ministre 71 Inventaire forestier national 53 Ministère de lAgriculture 45 Ministère de lEconomie 43 Villes (Coulomiers, Longjumeau, Saint-… 39 Ministère de la Justice 38 Ministère des Affaires Etrangères 36 Office national de lEau 33 Conseil général du Loire et Cher 33 Agences départementales de leau 13 Agence Bio 6 Ministère de la Ville 5 SCNF et RFF 4 Autorités indépendantes 4 Agence de services et de paiement 1Analyse : quantity of unique type 2 datasets aggregated by publisher
  • Who provides the crappydatasets? FranceAgriMer 140 Ministère de lEducation nationale 116 Premier Ministre 74 Ministère de lAgriculture 68 Ministère de la Culture 30 Ministère de lEcologie 24 Villes… 19 Ministère du Travail, Emploi et Santé 16 Ministère de la Ville 14 Ministère de lEconomie 13 Ministère du Budget 8 Ministère de la Défense 6 Ministère de lIntérieur 6 Office national de lEau 2 Ministère des Affaires Etrangères 2 Conseil général du Loire et Cher 2 Ministère de la Justice 1 Agences départementales de leau 1Analyse : quantity of unique type 3 datasets aggregated by publisher
  • Quantitative analysis of the data.gouv.fr datasetsHOW FAST DID THE FRENCHCATALOG GROW?
  • Growing and slowing... 4114 3510 2238 1429 622Nov-11 Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-12 Analyse : nombre cumulé de jeux uniques de données par semaine de publication
  • J-09 F-09 M-09 A-09 M-09 J-09 J-09 A-09 S-09 O-09 N-09 D-09 J-10 F-10 M-10 A-10 M-10 J-10 J-10 A-10 S-10 O-10Analysis : number of datasets cumulated by publication dates N-10 D-10 J-11 F-11 M-11 A-11 M-11 J-11 J-11 A-11 S-11 O-11 N-11 France vs UK vs US catalog growth D-11 J-12 F-12 M-12
  • Le catalogue data.gouv.fr par les chiffresHOW UP TO DATE IS THE DATA?
  • Real-time data is „round the corner 1,569 1,532 436 410 167Permanent 2004 and 2005-2009 2010-2011 2012 and data before beyond Analysis : number of unique datasets categorized by end of time scope.
  • How obsolete? – Fr vs UK 2% Real time 8% Recent 38% Recent 58% Old 48% Old 20% Obsolètes Obsolètes 12% 14% FR UK
  • Quantitative analysis of the data.gouv.fr catalogGLOBAL OR LOCAL DATA ?
  • A bit of (massive) local datasets, but mostly national ones. 3137 487 279 60 149International National Régional Departmental Local Analysis : number of unique datasets categorized by geographical scope.
  • A piece of advice : fish for thestructured local datasets 445 3. Données nondata Unstructured structurées Semi-structured data 2. Données semi-structurées Structured data 1. Données structurées 2595 45 399 228 7 97 92 51 2 34International National Regional Dpartmental Local
  • Quantitative analysis of the data.gouv.fr catalogLEVERAGING DATA:MAKING PEOPLE MAKE APPS
  • The French approach : cateringto a small but active community
  • The US approach : challengesand prizes for every vertical
  • The UK approach: a unifiedenvironment for devs
  • Un bon lévrier donnée Catalogue retraitée d‟apps PromouvoirAppeler donnée Promouvoir donnée son app : l‟API brute son app brute data connexions Proposer Proposer Trouver un une idée une idée dév. d‟app d‟app d‟app
  • Le catalogue data.gouv.fr par les chiffresWHAT UK FOLKS HAVE DONE
  • 201 apps“Quels sont les crimes “Où puis-je planter maautour de chez moi ?” tente ?”“Quelle est la meilleure “Notable : desbalade à vélo ?” utilisations business”
  • Promote transparency“Combiengagne ledirecteuradjoint duBritishMuseum ?”
  • Track governement policies
  • Citizen watchSource : www.wheredoesmymoneygo.org
  • The data.gouv.fr catalogWHAT US FOLKS HAVE DONE
  • Get open data and buildestimates.
  • Improve the level of trust of yourusers with official data
  • Develop a better api &make cash providing it
  • A French equivalent?
  • HINTS & IDEAS FOR DATAMASHUPS
  • Map out the results of the 2012presidential elections % % % Voix % VoixDpt Libellé de la commune Nom Prénom Voix Voix / Voix / Nom Prénom Voix / Ins / Exp Ins ExpAIN LAbergement-Clémenciat BESANCENOT Oliv ier 14 2,35 2,68 BUFFET Marie-George 3 0,5 …AIN LAbergement-de-Varey BESANCENOT Oliv ier 6 2,93 3,51 BUFFET Marie-George 1 0,49 …AIN Ambérieu-en-Bugey BESANCENOT Oliv ier 323 3,98 4,98 BUFFET Marie-George 152 1,88 …AIN Ambérieux-en-Dombes BESANCENOT Oliv ier 30 2,85 3,33 BUFFET Marie-George 6 0,57 …AIN Ambléon BESANCENOT Oliv ier 6 5,36 6,06 BUFFET Marie-George 1 0,89 …AIN Ambronay BESANCENOT Oliv ier 51 3,16 3,63 BUFFET Marie-George 31 1,92 …AIN Ambutrix BESANCENOT Oliv ier 26 5,3 5,78 BUFFET Marie-George 6 1,22 …AIN Andert-et-Condon BESANCENOT Oliv ier 11 4,15 4,76 BUFFET Marie-George 8 3,02 …AIN Anglefort BESANCENOT Oliv ier 27 4,6 5,22 BUFFET Marie-George 4 0,68 …AIN Apremont BESANCENOT Oliv ier 3 1,18 1,35 BUFFET Marie-George 5 1,96 …AIN Aranc BESANCENOT Oliv ier 9 3,24 3,85 BUFFET Marie-George 10 3,6 …AIN Arandas BESANCENOT Oliv ier 0 0 0 BUFFET Marie-George 0 0 …AIN Arbent BESANCENOT Oliv ier 48 2,39 2,77 BUFFET Marie-George 23 1,15 …AIN Arbignieu BESANCENOT Oliv ier 11 2,74 3,23 BUFFET Marie-George 3 0,75 …AIN Arbigny BESANCENOT Oliv ier 11 4,04 5,07 BUFFET Marie-George 3 1,1 …AIN Argis BESANCENOT Oliv ier 20 6,51 7,63 BUFFET Marie-George 5 1,63 …AIN Armix BESANCENOT Oliv ier 0 0 0 BUFFET Marie-George 0 0 …AIN Ars-sur-Formans BESANCENOT Oliv ier 10 1,23 1,37 BUFFET Marie-George 8 0,99 …AIN Artemare BESANCENOT Oliv ier 23 2,87 3,44 BUFFET Marie-George 6 0,75 …… … … … … … … … … … … …Jeu de données : résultats au 1er et 2ème tour de l‟élection présidentielle de 2007
  • A French-style « citizen watch »Libellé ministère Programme AE Titre 2 AE Autres titres Total AE CP Titre 2 CP Autres titres Total CPAffaires étrangères 105 555 823 400 1 230 956 251 1 786 779 651 555 823 400 1 232 988 711 1 788 812 111Affaires étrangères 151 200 738 503 167 780 000 368 518 503 200 738 503 167 780 000 368 518 503Affaires étrangères 185 84 090 237 674 622 721 758 712 958 84 090 237 674 622 721 758 712 958Affaires étrangères 209 222 720 988 1 867 725 436 2 090 446 424 222 720 988 1 890 569 183 2 113 290 171Affaires étrangères 332 0 0 0 0 20 000 000 20 000 000Culture 131 0 735 716 707 735 716 707 0 787 946 707 787 946 707Culture 175 0 813 941 902 813 941 902 0 870 597 681 870 597 681Culture 180 0 385 813 692 385 813 692 0 390 313 692 390 313 692Culture 186 0 123 468 894 123 468 894 0 124 075 879 124 075 879Culture 224 643 893 011 407 853 967 1 051 746 978 643 893 011 429 861 092 1 073 754 103Culture 313 0 472 888 891 472 888 891 0 472 888 891 472 888 891… … … … … … … …(a crunching effort is required, though)Opérateur ou Catégorie dopérateur PLF 2012 Statut Programme (chef de file) Mission (correspondant au programme chef de file)A2E2F - Agence Europe Education Formation France GIP 150 - Formations supérieures et recherche universitaire supérieur Recherche et enseignementABM - Agence de biomédecine EPA 204 - Prévention, sécurité sanitaire et offre de soins SantéAcadémie des sciences de loutre - mer EPA 150 - Formations supérieures et recherche universitaire supérieur Recherche et enseignementAcadémie des technologies EPA 172 - Recherches scientifiques et technologiques pluridisciplinaires Recherche et enseignement supérieurACSE - Agence nationale pour la cohésion sociale et légalité des chances EPA 147 - Politique de la ville et Grandlogement Ville et ParisADALIS - Addictions Drogues Alcool Info Service GIP 204 - Prévention, sécurité sanitaire et offre de soins SantéADEME - Agence de lenvironnement et de la maîtrise de lénergie 181 - Prévention des risques EPIC Écologie, développement et aménagement durablesADU Drôme Ardèche - Agence du développement universitaire Drôme Ardèche GIP 150 - Formations supérieures et recherche universitaire supérieur Recherche et enseignement… … … …Dataset : Projet de Loi de Finance 2012
  • Map out the regions where pollutionlevels are too highJeu de données : niveaux de pollution ayant dépassé les seuils d‟alerte
  • Analyze the €1,5 bn in subsidies given to 18 000 associationsSIREN ASSOCIATION IMPUTATION Subvention 490135456 1 2 3 SOLEIL LUDOTHEQUE - 06 MOUANS SARTOUX Services du Premier ministre: 163 - Jeunesse et vie associative € 3 000 445311210 1.2.3 ARCHITECTE - 75 PARIS 14 Culture et communication: 175 - Patrimoines 30 000 € 498598747 100 000 ENTREPRENEURS - 75 PARIS Éducation nationale: 141 - Enseignement scolaire public du second d 20 000 € 450034301 100 TRANSITIONS - 95 GONESSE Culture et communication: 224 - Transmission des savoirs et démocra 11 680 € 450034301 100 TRANSITIONS - 95 GONESSE Services du Premier ministre: 163 - Jeunesse et vie associative € 2 000 498303320 1000 VISAGES - 91 Culture et communication: 224 - Transmission des savoirs8et démocra 000 € 498303320 1000 VISAGES - 91 Services du Premier ministre: 163 - Jeunesse et vie associative € 10 000 511996035 1001 COULEURS CHEZ MME BELMOKHTAR - 02 Services du Premier ministre: 163 - Jeunesse et vie associative € 483 449328814 1001 PATTES - 37 Services du Premier ministre: 163 - Jeunesse et vie associative € 3 000 398540997 10200 ZIMAGES - 10 BAR SUR AUBE Services du Premier ministre: 163 - Jeunesse et vie associative € 7 390 410532584 117 ANIMATIONS JEUNES - 09 LA BASTIDE DE SEROU Services du Premier ministre: 163 - Jeunesse et vie associative € 12 317… … … … Dataset : PLF2012-Jaune-Données Associations subventionnées
  • Does my high school suck? Geolocalized high school resultsDatasets : Indicateurs de valeur ajoutée des lycées d‟enseignement général ettechnique, indicateurss de valeur ajoutée des lycées d‟enseignement professionnel, Géolocalisationdes établissements denseignement du premier degré et du second degré du ministère del‟éducation nationale, de la jeunesse et de la vie associative
  • The most dangerous roadsDatasets : informations sur la localisation des accidents corporels de la circulation sur 5 années francemétropolitaine
  • Where do I drink le vin rougewith le fromage ?Jeu de données : aire géographique des AOC de A à L, aire géographique des AOC de M à Z
  • Le catalogue data.gouv.fr par les chiffresINTERESTING NEW DATASETS
  • How much does a datagovplatform cost ?Dataset : « Suivi des dépenses relatives aux marchés de la mission etalab »
  • Every results for the 2012presidential electionsSearching for « présidentielles 2012 » on data.gouv.fr
  • Already having the 2012 Frenchlegislative elections data!Searching for « législatives 2012 » on data.gouv.fr
  • Merci !qunb @qunbcyrille @cyrvin www.qunb.com