Successfully reported this slideshow.
Your SlideShare is downloading. ×

Opendata benchmark - FR vs UK vs US

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 55 Ad

Opendata benchmark - FR vs UK vs US

Presentation at the Dataconnexions launch conference organized by Google France, made by qunb. This talk was an in-depth quantitative analysis about the French opendata catalog, and its comparison with the UK and the US catalogs.

qunb is a "one-stop shop for numbers", a data aggregation platform focused on quantitative information. Opendata is a significant part of the data sources of the platform.

Presentation at the Dataconnexions launch conference organized by Google France, made by qunb. This talk was an in-depth quantitative analysis about the French opendata catalog, and its comparison with the UK and the US catalogs.

qunb is a "one-stop shop for numbers", a data aggregation platform focused on quantitative information. Opendata is a significant part of the data sources of the platform.

Advertisement
Advertisement

More Related Content

Recently uploaded (20)

Advertisement

Opendata benchmark - FR vs UK vs US

  1. Opendata benchmark FR vs UK vs US Cyrille Vincey @cyrvin cvincey@qunb.com
  2. Quantitative analysis of the data.gouv.fr catalog HOW MANY DATASETS ?
  3. Cutting through the duplicates... 352,431 datasets Without the INSEE stats duplicates Without the Environment Ministry stats on territory duplicates Without other sources duplicates 4,114 datasets Methodology : Scraping the entire data.gouv.fr website on the 8th of Feb. 2012, then cutting through duplicates and aggregating what was divided by geographical coverage, then updating by scraping the most recents datasets on the 12th June 2012.
  4. This catalog analysis focuses on 4,114 unique datasets.
  5. Quantitative analysis of the data.gouv.fr catalog WHAT DATA, WHAT TOPICS ?
  6. Economic data, but also: 1,544 524 422 388 284 214 182 73 72 Analysis : quantity of unique datasets divided by arbitrary themes
  7. Agricultural spendings production flat GDP housing dissemination economy budget Public geography finances real estate pollution vehicles env. & training air students education transport. school program diploma rivers co2 school
  8. energy electricity consumption leasure police monument energy gas coal society museum culture immigration demographics social policy health age group marital status census security workplace health hospital jobs health spending unemployment employees
  9. Data domains – FR vs UK vs US Jobs 4% Jobs 2% Jobs 4% Health 2% Health 8% Demographics 5% Energy 6% Demographics 7% Health 21% Env. & Transp. 8% Energy 4% Society 10% Env. & Transp. 14% Demographics 17% Education 11% Society 8% Energy 1% Education 2% Geography Env. & Transp. 12% 14% Society 3% Education Geography 8% 37% Geography 8% Economy 42% Economy Economy 26% 17% US Fr UK
  10. WHERE DOES THE DATA COME FROM?
  11. Publishers leaderboard INSEE 798 Ministère de l'Ecologie 689 Ministère du Budget 483 Ministère de l'Education nationale 466 Ministère de l'Intérieur 308 Premier Ministre 219 Ministère de la Culture 199 FranceAgriMer 148 Ministère de l'Agriculture 113 Ministère de la Défense 107 Ministère du Travail, Emploi et Santé 104 Villes (Coulomiers, Longjumeau, Saint-Quentin) 68 Conseil général du Loire et Cher 68 Ministère de l'Economie 56 Inventaire forestier national 53 Agences départementales de l'eau 40 Ministère de la Justice 39 Ministère des Affaires Etrangères 38 Office national de l'Eau 35 Office national des forêts 22 Ministère de la Ville 19 Agence Bio 6 SCNF et RFF 4 Analyse : nombre de jeux uniques de données par publicateur
  12. Le catalogue data.gouv.fr par les chiffres WHAT ARE THE DATA READILY AVAILABLE FOR A MASHUP ?
  13. Mastering excel is key 1. Structured datasets 206 Structured datasets 3. Unstructured datsets Ready-to-use data for an app 542 developer (rdf, xml, shp) Semi-structured datasets Tabular data requiring some crunching effort before usage (csv, xls, ods) 2. Semi- structured datasets 3,366 Unstructured datasets Text data(doc, rtf, txt, pdf, html, …) Analysis : quantity of datasets divided by themes
  14. Not very fond of excel? You can still dabble with geodata 186 3. Unstructured datasets 1,306 2. Semi-structured datasets 1. Structured datasets 83 120 378 309 1 299 217 213 178 3 5 52 63 30 63 65 7 2 Analyse : nombre de jeux uniques de données regroupés par thème et type
  15. Data types – FR vs US Unstructured data 2% Unstructured data 13% Unstructured data 25% Semi-structured data 65% Semi-structured data Semi-structured 82% data 66% Structured data 33% Structured data Structured data 8% 5% US FR UK
  16. Who provides structured datasets? Premier Ministre 74 Conseil général du Loire et… 33 Agences départementales… 26 Office national des forêts 22 Ministère de l'Ecologie 16 Ministère du Travail, Emploi… 10 Saint-Quentin 10 FranceAgriMer 8 Ministère de la Culture 5 Agence de services et de… 1 Ministère du Budget 1 Analyse : quantity of unique type 1 datasets aggregated by publisher
  17. Who provides the semi- structured ones ? INSEE 798 Ministère de l'Ecologie 649 Ministère du Budget 474 Ministère de l'Education nationale 350 Ministère de l'Intérieur 302 Ministère de la Culture 164 Ministère du Travail, Emploi et Santé 104 Ministère de la Défense 101 Premier Ministre 71 Inventaire forestier national 53 Ministère de l'Agriculture 45 Ministère de l'Economie 43 Villes (Coulomiers, Longjumeau, Saint-… 39 Ministère de la Justice 38 Ministère des Affaires Etrangères 36 Office national de l'Eau 33 Conseil général du Loire et Cher 33 Agences départementales de l'eau 13 Agence Bio 6 Ministère de la Ville 5 SCNF et RFF 4 Autorités indépendantes 4 Agence de services et de paiement 1 Analyse : quantity of unique type 2 datasets aggregated by publisher
  18. Who provides the crappy datasets? FranceAgriMer 140 Ministère de l'Education nationale 116 Premier Ministre 74 Ministère de l'Agriculture 68 Ministère de la Culture 30 Ministère de l'Ecologie 24 Villes… 19 Ministère du Travail, Emploi et Santé 16 Ministère de la Ville 14 Ministère de l'Economie 13 Ministère du Budget 8 Ministère de la Défense 6 Ministère de l'Intérieur 6 Office national de l'Eau 2 Ministère des Affaires Etrangères 2 Conseil général du Loire et Cher 2 Ministère de la Justice 1 Agences départementales de l'eau 1 Analyse : quantity of unique type 3 datasets aggregated by publisher
  19. Quantitative analysis of the data.gouv.fr datasets HOW FAST DID THE FRENCH CATALOG GROW?
  20. Growing and slowing... 4114 3510 2238 1429 622 Nov-11 Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-12 Analyse : nombre cumulé de jeux uniques de données par semaine de publication
  21. J-09 F-09 M-09 A-09 M-09 J-09 J-09 A-09 S-09 O-09 N-09 D-09 J-10 F-10 M-10 A-10 M-10 J-10 J-10 A-10 S-10 O-10 Analysis : number of datasets cumulated by publication dates N-10 D-10 J-11 F-11 M-11 A-11 M-11 J-11 J-11 A-11 S-11 O-11 N-11 France vs UK vs US catalog growth D-11 J-12 F-12 M-12
  22. Le catalogue data.gouv.fr par les chiffres HOW UP TO DATE IS THE DATA?
  23. Real-time data is „round the corner 1,569 1,532 436 410 167 Permanent 2004 and 2005-2009 2010-2011 2012 and data before beyond Analysis : number of unique datasets categorized by end of time scope.
  24. How obsolete? – Fr vs UK 2% Real time 8% Recent 38% Recent 58% Old 48% Old 20% Obsolètes Obsolètes 12% 14% FR UK
  25. Quantitative analysis of the data.gouv.fr catalog GLOBAL OR LOCAL DATA ?
  26. A bit of (massive) local datasets, but mostly national ones. 3137 487 279 60 149 International National Régional Departmental Local Analysis : number of unique datasets categorized by geographical scope.
  27. A piece of advice : fish for the structured local datasets 445 3. Données nondata Unstructured structurées Semi-structured data 2. Données semi-structurées Structured data 1. Données structurées 2595 45 399 228 7 97 92 51 2 34 International National Regional Dpartmental Local
  28. Quantitative analysis of the data.gouv.fr catalog LEVERAGING DATA: MAKING PEOPLE MAKE APPS
  29. The French approach : catering to a small but active community
  30. The US approach : challenges and prizes for every vertical
  31. The UK approach: a unified environment for devs
  32. Un bon lévrier donnée Catalogue retraitée d‟apps Promouvoir Appeler donnée Promouvoir donnée son app : l‟API brute son app brute data connexions Proposer Proposer Trouver un une idée une idée dév. d‟app d‟app d‟app
  33. Le catalogue data.gouv.fr par les chiffres WHAT UK FOLKS HAVE DONE
  34. 201 apps “Quels sont les crimes “Où puis-je planter ma autour de chez moi ?” tente ?” “Quelle est la meilleure “Notable : des balade à vélo ?” utilisations business”
  35. Promote transparency “Combien gagne le directeur adjoint du British Museum ?”
  36. Track governement policies
  37. Citizen watch Source : www.wheredoesmymoneygo.org
  38. The data.gouv.fr catalog WHAT US FOLKS HAVE DONE
  39. Get open data and build estimates.
  40. Improve the level of trust of your users with official data
  41. Develop a better api & make cash providing it
  42. A French equivalent?
  43. HINTS & IDEAS FOR DATA MASHUPS
  44. Map out the results of the 2012 presidential elections % % % Voix % Voix Dpt Libellé de la commune Nom Prénom Voix Voix / Voix / Nom Prénom Voix / Ins / Exp Ins Exp AIN L'Abergement-Clémenciat BESANCENOT Oliv ier 14 2,35 2,68 BUFFET Marie-George 3 0,5 … AIN L'Abergement-de-Varey BESANCENOT Oliv ier 6 2,93 3,51 BUFFET Marie-George 1 0,49 … AIN Ambérieu-en-Bugey BESANCENOT Oliv ier 323 3,98 4,98 BUFFET Marie-George 152 1,88 … AIN Ambérieux-en-Dombes BESANCENOT Oliv ier 30 2,85 3,33 BUFFET Marie-George 6 0,57 … AIN Ambléon BESANCENOT Oliv ier 6 5,36 6,06 BUFFET Marie-George 1 0,89 … AIN Ambronay BESANCENOT Oliv ier 51 3,16 3,63 BUFFET Marie-George 31 1,92 … AIN Ambutrix BESANCENOT Oliv ier 26 5,3 5,78 BUFFET Marie-George 6 1,22 … AIN Andert-et-Condon BESANCENOT Oliv ier 11 4,15 4,76 BUFFET Marie-George 8 3,02 … AIN Anglefort BESANCENOT Oliv ier 27 4,6 5,22 BUFFET Marie-George 4 0,68 … AIN Apremont BESANCENOT Oliv ier 3 1,18 1,35 BUFFET Marie-George 5 1,96 … AIN Aranc BESANCENOT Oliv ier 9 3,24 3,85 BUFFET Marie-George 10 3,6 … AIN Arandas BESANCENOT Oliv ier 0 0 0 BUFFET Marie-George 0 0 … AIN Arbent BESANCENOT Oliv ier 48 2,39 2,77 BUFFET Marie-George 23 1,15 … AIN Arbignieu BESANCENOT Oliv ier 11 2,74 3,23 BUFFET Marie-George 3 0,75 … AIN Arbigny BESANCENOT Oliv ier 11 4,04 5,07 BUFFET Marie-George 3 1,1 … AIN Argis BESANCENOT Oliv ier 20 6,51 7,63 BUFFET Marie-George 5 1,63 … AIN Armix BESANCENOT Oliv ier 0 0 0 BUFFET Marie-George 0 0 … AIN Ars-sur-Formans BESANCENOT Oliv ier 10 1,23 1,37 BUFFET Marie-George 8 0,99 … AIN Artemare BESANCENOT Oliv ier 23 2,87 3,44 BUFFET Marie-George 6 0,75 … … … … … … … … … … … … … Jeu de données : résultats au 1er et 2ème tour de l‟élection présidentielle de 2007
  45. A French-style « citizen watch » Libellé ministère Programme AE Titre 2 AE Autres titres Total AE CP Titre 2 CP Autres titres Total CP Affaires étrangères 105 555 823 400 1 230 956 251 1 786 779 651 555 823 400 1 232 988 711 1 788 812 111 Affaires étrangères 151 200 738 503 167 780 000 368 518 503 200 738 503 167 780 000 368 518 503 Affaires étrangères 185 84 090 237 674 622 721 758 712 958 84 090 237 674 622 721 758 712 958 Affaires étrangères 209 222 720 988 1 867 725 436 2 090 446 424 222 720 988 1 890 569 183 2 113 290 171 Affaires étrangères 332 0 0 0 0 20 000 000 20 000 000 Culture 131 0 735 716 707 735 716 707 0 787 946 707 787 946 707 Culture 175 0 813 941 902 813 941 902 0 870 597 681 870 597 681 Culture 180 0 385 813 692 385 813 692 0 390 313 692 390 313 692 Culture 186 0 123 468 894 123 468 894 0 124 075 879 124 075 879 Culture 224 643 893 011 407 853 967 1 051 746 978 643 893 011 429 861 092 1 073 754 103 Culture 313 0 472 888 891 472 888 891 0 472 888 891 472 888 891 … … … … … … … … (a crunching effort is required, though) Opérateur ou Catégorie d'opérateur PLF 2012 Statut Programme (chef de file) Mission (correspondant au programme chef de file) A2E2F - Agence Europe Education Formation France GIP 150 - Formations supérieures et recherche universitaire supérieur Recherche et enseignement ABM - Agence de biomédecine EPA 204 - Prévention, sécurité sanitaire et offre de soins Santé Académie des sciences de l'outre - mer EPA 150 - Formations supérieures et recherche universitaire supérieur Recherche et enseignement Académie des technologies EPA 172 - Recherches scientifiques et technologiques pluridisciplinaires Recherche et enseignement supérieur ACSE - Agence nationale pour la cohésion sociale et l'égalité des chances EPA 147 - Politique de la ville et Grandlogement Ville et Paris ADALIS - Addictions Drogues Alcool Info Service GIP 204 - Prévention, sécurité sanitaire et offre de soins Santé ADEME - Agence de l'environnement et de la maîtrise de l'énergie 181 - Prévention des risques EPIC Écologie, développement et aménagement durables ADU Drôme Ardèche - Agence du développement universitaire Drôme Ardèche GIP 150 - Formations supérieures et recherche universitaire supérieur Recherche et enseignement … … … … Dataset : Projet de Loi de Finance 2012
  46. Map out the regions where pollution levels are too high Jeu de données : niveaux de pollution ayant dépassé les seuils d‟alerte
  47. Analyze the €1,5 bn in subsidies given to 18 000 associations SIREN ASSOCIATION IMPUTATION Subvention 490135456 1 2 3 SOLEIL LUDOTHEQUE - 06 MOUANS SARTOUX Services du Premier ministre: 163 - Jeunesse et vie associative € 3 000 445311210 1.2.3 ARCHITECTE - 75 PARIS 14 Culture et communication: 175 - Patrimoines 30 000 € 498598747 100 000 ENTREPRENEURS - 75 PARIS Éducation nationale: 141 - Enseignement scolaire public du second d 20 000 € 450034301 100 TRANSITIONS - 95 GONESSE Culture et communication: 224 - Transmission des savoirs et démocra 11 680 € 450034301 100 TRANSITIONS - 95 GONESSE Services du Premier ministre: 163 - Jeunesse et vie associative € 2 000 498303320 1000 VISAGES - 91 Culture et communication: 224 - Transmission des savoirs8et démocra 000 € 498303320 1000 VISAGES - 91 Services du Premier ministre: 163 - Jeunesse et vie associative € 10 000 511996035 1001 COULEURS CHEZ MME BELMOKHTAR - 02 Services du Premier ministre: 163 - Jeunesse et vie associative € 483 449328814 1001 PATTES - 37 Services du Premier ministre: 163 - Jeunesse et vie associative € 3 000 398540997 10200 ZIMAGES - 10 BAR SUR AUBE Services du Premier ministre: 163 - Jeunesse et vie associative € 7 390 410532584 117 ANIMATIONS JEUNES - 09 LA BASTIDE DE SEROU Services du Premier ministre: 163 - Jeunesse et vie associative € 12 317 … … … … Dataset : PLF2012-Jaune-Données Associations subventionnées
  48. Does my high school suck? Geolocalized high school results Datasets : Indicateurs de valeur ajoutée des lycées d‟enseignement général et technique, indicateurss de valeur ajoutée des lycées d‟enseignement professionnel, Géolocalisation des établissements d'enseignement du premier degré et du second degré du ministère de l‟éducation nationale, de la jeunesse et de la vie associative
  49. The most dangerous roads Datasets : informations sur la localisation des accidents corporels de la circulation sur 5 années france métropolitaine
  50. Where do I drink le vin rouge with le fromage ? Jeu de données : aire géographique des AOC de A à L, aire géographique des AOC de M à Z
  51. Le catalogue data.gouv.fr par les chiffres INTERESTING NEW DATASETS
  52. How much does a datagov platform cost ? Dataset : « Suivi des dépenses relatives aux marchés de la mission etalab »
  53. Every results for the 2012 presidential elections Searching for « présidentielles 2012 » on data.gouv.fr
  54. Already having the 2012 French legislative elections data! Searching for « législatives 2012 » on data.gouv.fr
  55. Merci ! qunb @qunb cyrille @cyrvin www.qunb.com

×