SlideShare a Scribd company logo
1 of 55
Opendata benchmark
FR vs UK vs US

         Cyrille Vincey
            @cyrvin
      cvincey@qunb.com
Quantitative analysis of the data.gouv.fr catalog

HOW MANY DATASETS ?
Cutting through the duplicates...



            352,431 datasets

                                                       Without the INSEE stats duplicates


                                                       Without the Environment Ministry
                                                       stats on territory duplicates


                                                       Without other sources duplicates



             4,114 datasets

Methodology : Scraping the entire data.gouv.fr website on the 8th of Feb. 2012, then
cutting through duplicates and aggregating what was divided by geographical
coverage, then updating by scraping the most recents datasets on the 12th June 2012.
This catalog analysis focuses on




     4,114 unique datasets.
Quantitative analysis of the data.gouv.fr catalog

WHAT DATA, WHAT TOPICS ?
Economic data, but also:
1,544




               524
                            422           388
                                                       284
                                                                     214   182
                                                                                 73   72




Analysis : quantity of unique datasets divided by arbitrary themes
Agricultural
spendings


        production                   flat
            GDP                        housing          dissemination

        economy
        budget       Public
                                      geography
                     finances        real estate



            pollution     vehicles

            env. &                                     training
                          air


                                            students

                                         education
            transport.               school program         diploma

            rivers co2               school
energy    electricity
consumption                      leasure    police




                                                        monument
energy
 gas         coal
                                society
                               museum      culture



immigration
demographics                    social




                                                     policy
                                                     health
age group     marital status
census                          security

 workplace
                                health
                                hospital
jobs                            health spending

 unemployment
 employees
Data domains – FR vs UK vs US
      Jobs 4%              Jobs 2%              Jobs 4%
                          Health 2%
     Health 8%         Demographics 5%

                          Energy 6%
 Demographics 7%                              Health 21%
                       Env. & Transp. 8%
     Energy 4%

                         Society 10%
 Env. & Transp. 14%
                                           Demographics 17%

                      Education 11%
    Society 8%
                                               Energy 1%
 Education 2%
                      Geography            Env. & Transp. 12%
                         14%
                                              Society 3%
                                             Education
 Geography                                      8%
    37%                                    Geography
                                              8%

                      Economy 42%
                                            Economy
  Economy                                     26%
    17%

        US                    Fr                  UK
WHERE DOES THE DATA COME
FROM?
Publishers leaderboard
                                          INSEE                                                         798
                        Ministère de l'Ecologie                                                   689
                          Ministère du Budget                                               483
            Ministère de l'Education nationale                                             466
                        Ministère de l'Intérieur                                     308
                               Premier Ministre                                219
                        Ministère de la Culture                               199
                                FranceAgriMer                           148
                     Ministère de l'Agriculture                   113
                       Ministère de la Défense                    107
          Ministère du Travail, Emploi et Santé                   104
Villes (Coulomiers, Longjumeau, Saint-Quentin)               68
              Conseil général du Loire et Cher               68
                      Ministère de l'Economie               56
                   Inventaire forestier national            53
          Agences départementales de l'eau              40
                        Ministère de la Justice         39
              Ministère des Affaires Etrangères         38
                      Office national de l'Eau          35
                     Office national des forêts        22
                           Ministère de la Ville       19
                                   Agence Bio      6
                                   SCNF et RFF     4


    Analyse : nombre de jeux uniques de données par publicateur
Le catalogue data.gouv.fr par les chiffres

WHAT ARE THE DATA READILY
AVAILABLE FOR A MASHUP ?
Mastering excel is key
                                   1. Structured
                                     datasets
                                         206
                                                    Structured datasets
                    3.
              Unstructured
                datsets
                                                    Ready-to-use data for an app
                   542                              developer (rdf, xml, shp)



                                                    Semi-structured datasets

                                                    Tabular data requiring some
                                                    crunching effort before usage
                                                    (csv, xls, ods)
                             2. Semi-
                           structured
                            datasets
                              3,366
                                                    Unstructured datasets

                                                    Text
                                                    data(doc, rtf, txt, pdf, html, …)



Analysis : quantity of datasets divided by themes
Not very fond of excel? You can
still dabble with geodata
   186




                                                                      3. Unstructured datasets

  1,306
                                                                      2. Semi-structured datasets
                                                                      1. Structured datasets
               83

                           120
               378
                                        309                      1
                           299                      217
                                                                213          178        3            5
   52          63                       30                                             63           65
                                                                                        7            2




Analyse : nombre de jeux uniques de données regroupés par thème et type
Data types – FR vs US
 Unstructured data
         2%          Unstructured data
                            13%          Unstructured data
                                                25%



  Semi-structured
       data
       65%


                      Semi-structured
                           data           Semi-structured
                           82%                 data
                                               66%




   Structured data
         33%


                                           Structured data
                       Structured data
                                                  8%
                              5%
         US                  FR                  UK
Who provides structured
datasets?
                                           Premier Ministre                                         74

                          Conseil général du Loire et…                                         33

                          Agences départementales…                                        26

                             Office national des forêts                                  22

                                 Ministère de l'Ecologie                            16

                          Ministère du Travail, Emploi…                        10

                                              Saint-Quentin                    10

                                            FranceAgriMer                      8

                                 Ministère de la Culture                   5

                            Agence de services et de… 1
                                    Ministère du Budget                1

Analyse : quantity of unique type 1 datasets aggregated by publisher
Who provides the semi-
structured ones ?
                                                              INSEE                                              798
                                           Ministère de l'Ecologie                                         649
                                              Ministère du Budget                                    474
                               Ministère de l'Education nationale                              350
                                            Ministère de l'Intérieur                         302
                                           Ministère de la Culture                     164
                             Ministère du Travail, Emploi et Santé               104
                                          Ministère de la Défense                101
                                                   Premier Ministre             71
                                      Inventaire forestier national         53
                                         Ministère de l'Agriculture        45
                                          Ministère de l'Economie          43
                          Villes (Coulomiers, Longjumeau, Saint-…          39
                                            Ministère de la Justice        38
                                 Ministère des Affaires Etrangères         36
                                          Office national de l'Eau         33
                                 Conseil général du Loire et Cher          33
                            Agences départementales de l'eau           13
                                                       Agence Bio      6
                                               Ministère de la Ville   5
                                                       SCNF et RFF     4
                                         Autorités indépendantes       4
                           Agence de services et de paiement           1


Analyse : quantity of unique type 2 datasets aggregated by publisher
Who provides the crappy
datasets?
                                              FranceAgriMer                                    140
                        Ministère de l'Education nationale                               116
                                             Premier Ministre                       74
                                  Ministère de l'Agriculture                       68
                                     Ministère de la Culture                  30
                                     Ministère de l'Ecologie                24
                                                         Villes…           19
                       Ministère du Travail, Emploi et Santé              16
                                        Ministère de la Ville            14
                                   Ministère de l'Economie               13
                                       Ministère du Budget           8
                                   Ministère de la Défense           6
                                      Ministère de l'Intérieur       6
                                   Office national de l'Eau        2
                          Ministère des Affaires Etrangères        2
                          Conseil général du Loire et Cher         2
                                     Ministère de la Justice       1
                       Agences départementales de l'eau            1

Analyse : quantity of unique type 3 datasets aggregated by publisher
Quantitative analysis of the data.gouv.fr datasets

HOW FAST DID THE FRENCH
CATALOG GROW?
Growing and slowing...




                                                                                          4114
                                 3510



                            2238

                       1429

                 622



Nov-11      Dec-11            Jan-12         Feb-12         Mar-12           Apr-12   May-12

   Analyse : nombre cumulé de jeux uniques de données par semaine de publication
J-09
                                                               F-09
                                                               M-09
                                                               A-09
                                                               M-09
                                                               J-09
                                                               J-09
                                                               A-09
                                                               S-09
                                                               O-09
                                                               N-09
                                                               D-09
                                                               J-10
                                                               F-10
                                                               M-10
                                                               A-10
                                                               M-10
                                                               J-10
                                                               J-10
                                                               A-10
                                                               S-10
                                                               O-10




Analysis : number of datasets cumulated by publication dates
                                                               N-10
                                                               D-10
                                                               J-11
                                                               F-11
                                                               M-11
                                                               A-11
                                                               M-11
                                                               J-11
                                                               J-11
                                                               A-11
                                                               S-11
                                                               O-11
                                                               N-11
                                                                      France vs UK vs US catalog growth




                                                               D-11
                                                               J-12
                                                               F-12
                                                               M-12
Le catalogue data.gouv.fr par les chiffres

HOW UP TO DATE IS THE DATA?
Real-time data is „round the corner
                                                  1,569
                                                                          1,532




    436                     410


                                                                                    167




Permanent              2004 and               2005-2009               2010-2011   2012 and
   data                 before                                                     beyond

 Analysis : number of unique datasets categorized by end of time scope.
How obsolete? – Fr vs UK
        2%
                   Real time 8%

      Recent
       38%
                     Recent
                      58%



       Old
       48%
                       Old
                       20%

     Obsolètes      Obsolètes
       12%            14%

        FR             UK
Quantitative analysis of the data.gouv.fr catalog

GLOBAL OR LOCAL DATA ?
A bit of (massive) local
  datasets, but mostly national
  ones.



                           3137




                                                 487
                                                                       279
      60                                                                      149


International          National             Régional          Departmental   Local
  Analysis : number of unique datasets categorized by geographical scope.
A piece of advice : fish for the
structured local datasets
                   445




                                      3. Données nondata
                                       Unstructured structurées
                                       Semi-structured data
                                      2. Données semi-structurées
                                       Structured data
                                      1. Données structurées



                  2595




                              45

                              399
                                           228
      7            97                                          92
     51
      2                                     34


International   National   Regional   Dpartmental          Local
Quantitative analysis of the data.gouv.fr catalog

LEVERAGING DATA:
MAKING PEOPLE MAKE APPS
The French approach : catering
to a small but active community
The US approach : challenges
and prizes for every vertical
The UK approach: a unified
environment for devs
Un bon lévrier


     donnée      Catalogue
     retraitée    d‟apps




                                               Promouvoir
Appeler     donnée     Promouvoir   donnée      son app :
 l‟API       brute       son app     brute        data
                                               connexions



                 Proposer                Proposer
    Trouver un
                 une idée                une idée
    dév. d‟app
                  d‟app                   d‟app
Le catalogue data.gouv.fr par les chiffres

WHAT UK FOLKS HAVE DONE
201 apps
“Quels sont les crimes     “Où puis-je planter ma
autour de chez moi ?”      tente ?”




“Quelle est la meilleure   “Notable : des
balade à vélo ?”           utilisations business”
Promote transparency


“Combien
gagne le
directeur
adjoint du
British
Museum ?”
Track governement policies
Citizen watch




Source : www.wheredoesmymoneygo.org
The data.gouv.fr catalog

WHAT US FOLKS HAVE DONE
Get open data and build
estimates.
Improve the level of trust of your
users with official data
Develop a better api &
make cash providing it
A French equivalent?
HINTS & IDEAS FOR DATA
MASHUPS
Map out the results of the 2012
presidential elections
                                                                %        %
                                                                                                                  % Voix % Voix
Dpt       Libellé de la commune       Nom      Prénom Voix    Voix / Voix /      Nom       Prénom      Voix
                                                                                                                   / Ins       / Exp
                                                               Ins       Exp
AIN   L'Abergement-Clémenciat     BESANCENOT Oliv ier    14     2,35     2,68 BUFFET Marie-George             3       0,5          …
AIN   L'Abergement-de-Varey       BESANCENOT Oliv ier     6     2,93     3,51 BUFFET Marie-George             1     0,49           …
AIN   Ambérieu-en-Bugey           BESANCENOT Oliv ier   323     3,98     4,98 BUFFET Marie-George        152        1,88           …
AIN   Ambérieux-en-Dombes         BESANCENOT Oliv ier    30     2,85     3,33 BUFFET Marie-George             6     0,57           …
AIN   Ambléon                     BESANCENOT Oliv ier     6     5,36     6,06 BUFFET Marie-George             1     0,89           …
AIN   Ambronay                    BESANCENOT Oliv ier    51     3,16     3,63 BUFFET Marie-George         31        1,92           …
AIN   Ambutrix                    BESANCENOT Oliv ier    26      5,3     5,78 BUFFET Marie-George             6     1,22           …
AIN   Andert-et-Condon            BESANCENOT Oliv ier    11     4,15     4,76 BUFFET Marie-George             8     3,02           …
AIN   Anglefort                   BESANCENOT Oliv ier    27      4,6     5,22 BUFFET Marie-George             4     0,68           …
AIN   Apremont                    BESANCENOT Oliv ier     3     1,18     1,35 BUFFET Marie-George             5     1,96           …
AIN   Aranc                       BESANCENOT Oliv ier     9     3,24     3,85 BUFFET Marie-George         10          3,6          …
AIN   Arandas                     BESANCENOT Oliv ier     0          0         0 BUFFET Marie-George          0            0       …
AIN   Arbent                      BESANCENOT Oliv ier    48     2,39     2,77 BUFFET Marie-George         23        1,15           …
AIN   Arbignieu                   BESANCENOT Oliv ier    11     2,74     3,23 BUFFET Marie-George             3     0,75           …
AIN   Arbigny                     BESANCENOT Oliv ier    11     4,04     5,07 BUFFET Marie-George             3       1,1          …
AIN   Argis                       BESANCENOT Oliv ier    20     6,51     7,63 BUFFET Marie-George             5     1,63           …
AIN   Armix                       BESANCENOT Oliv ier     0          0         0 BUFFET Marie-George          0            0       …
AIN   Ars-sur-Formans             BESANCENOT Oliv ier    10     1,23     1,37 BUFFET Marie-George             8     0,99           …
AIN   Artemare                    BESANCENOT Oliv ier    23     2,87     3,44 BUFFET Marie-George             6     0,75           …
…     …                           …            …         …          …        … …       …                  …            …           …


Jeu de données : résultats au 1er et 2ème tour de l‟élection présidentielle de 2007
A French-style « citizen watch »

Libellé ministère   Programme AE Titre 2        AE Autres titres Total AE         CP Titre 2        CP Autres titres Total CP
Affaires étrangères        105      555 823 400    1 230 956 251    1 786 779 651      555 823 400     1 232 988 711    1 788 812 111
Affaires étrangères        151      200 738 503      167 780 000      368 518 503      200 738 503       167 780 000      368 518 503
Affaires étrangères        185       84 090 237      674 622 721      758 712 958        84 090 237      674 622 721      758 712 958
Affaires étrangères        209      222 720 988    1 867 725 436    2 090 446 424      222 720 988     1 890 569 183    2 113 290 171
Affaires étrangères        332                0                 0               0                 0       20 000 000       20 000 000
Culture                    131                0      735 716 707      735 716 707                 0      787 946 707      787 946 707
Culture                    175                0      813 941 902      813 941 902                 0      870 597 681      870 597 681
Culture                    180                0      385 813 692      385 813 692                 0      390 313 692      390 313 692
Culture                    186                0      123 468 894      123 468 894                 0      124 075 879      124 075 879
Culture                    224      643 893 011      407 853 967    1 051 746 978      643 893 011       429 861 092    1 073 754 103
Culture                    313                0      472 888 891      472 888 891                 0      472 888 891      472 888 891
…                           …                …                 …               …                 …                 …               …




(a crunching effort is required, though)
Opérateur ou Catégorie d'opérateur PLF 2012              Statut    Programme (chef de file) Mission (correspondant au programme chef de file)
A2E2F - Agence Europe Education Formation France         GIP       150 - Formations supérieures et recherche universitaire supérieur
                                                                                                Recherche et enseignement
ABM - Agence de biomédecine                              EPA       204 - Prévention, sécurité sanitaire et offre de soins
                                                                                                Santé
Académie des sciences de l'outre - mer                   EPA       150 - Formations supérieures et recherche universitaire supérieur
                                                                                                Recherche et enseignement
Académie des technologies                                EPA       172 - Recherches scientifiques et technologiques pluridisciplinaires
                                                                                                Recherche et enseignement supérieur
ACSE - Agence nationale pour la cohésion sociale et l'égalité des chances
                                                         EPA       147 - Politique de la ville et Grandlogement
                                                                                                Ville et Paris
ADALIS - Addictions Drogues Alcool Info Service          GIP       204 - Prévention, sécurité sanitaire et offre de soins
                                                                                                Santé
ADEME - Agence de l'environnement et de la maîtrise de l'énergie 181 - Prévention des risques
                                                         EPIC                                   Écologie, développement et aménagement durables
ADU Drôme Ardèche - Agence du développement universitaire Drôme Ardèche
                                                         GIP       150 - Formations supérieures et recherche universitaire supérieur
                                                                                                Recherche et enseignement
…                                                        …         …                            …



Dataset : Projet de Loi de Finance 2012
Map out the regions where pollution
levels are too high




Jeu de données : niveaux de pollution ayant dépassé les seuils d‟alerte
Analyze the €1,5 bn in subsidies given
    to 18 000 associations


SIREN      ASSOCIATION                                      IMPUTATION                                         Subvention
 490135456 1 2 3 SOLEIL LUDOTHEQUE - 06 MOUANS SARTOUX      Services du Premier ministre: 163 - Jeunesse et vie associative €
                                                                                                                       3 000
 445311210 1.2.3 ARCHITECTE - 75 PARIS 14                   Culture et communication: 175 - Patrimoines             30 000 €
 498598747 100 000 ENTREPRENEURS - 75 PARIS                 Éducation nationale: 141 - Enseignement scolaire public du second d
                                                                                                                  20 000 €
 450034301 100 TRANSITIONS - 95 GONESSE                     Culture et communication: 224 - Transmission des savoirs et démocra
                                                                                                                  11 680 €
 450034301 100 TRANSITIONS - 95 GONESSE                     Services du Premier ministre: 163 - Jeunesse et vie associative €
                                                                                                                       2 000
 498303320 1000 VISAGES - 91                                Culture et communication: 224 - Transmission des savoirs8et démocra
                                                                                                                      000 €
 498303320 1000 VISAGES - 91                                Services du Premier ministre: 163 - Jeunesse et vie associative €
                                                                                                                      10 000
 511996035 1001 COULEURS CHEZ MME BELMOKHTAR - 02           Services du Premier ministre: 163 - Jeunesse et vie associative €
                                                                                                                         483
 449328814 1001 PATTES - 37                                 Services du Premier ministre: 163 - Jeunesse et vie associative €
                                                                                                                       3 000
 398540997 10200 ZIMAGES - 10 BAR SUR AUBE                  Services du Premier ministre: 163 - Jeunesse et vie associative €
                                                                                                                       7 390
 410532584 117 ANIMATIONS JEUNES - 09 LA BASTIDE DE SEROU   Services du Premier ministre: 163 - Jeunesse et vie associative €
                                                                                                                      12 317
…          …                                                …                                                               …




    Dataset : PLF2012-Jaune-Données Associations subventionnées
Does my high school suck?




                             Geolocalized high
                               school results
Datasets : Indicateurs de valeur ajoutée des lycées d‟enseignement général et
technique, indicateurss de valeur ajoutée des lycées d‟enseignement professionnel, Géolocalisation
des établissements d'enseignement du premier degré et du second degré du ministère de
l‟éducation nationale, de la jeunesse et de la vie associative
The most dangerous roads




Datasets : informations sur la localisation des accidents corporels de la circulation sur 5 années france
métropolitaine
Where do I drink le vin rouge
with le fromage ?




Jeu de données : aire géographique des AOC de A à L, aire géographique des AOC de M à Z
Le catalogue data.gouv.fr par les chiffres

INTERESTING NEW DATASETS
How much does a datagov
platform cost ?




Dataset : « Suivi des dépenses relatives aux marchés de la mission etalab »
Every results for the 2012
presidential elections




Searching for « présidentielles 2012 » on data.gouv.fr
Already having the 2012 French
legislative elections data!




Searching for « législatives 2012 » on data.gouv.fr
Merci !

qunb      @qunb
cyrille   @cyrvin

   www.qunb.com

More Related Content

Featured

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

Opendata benchmark - FR vs UK vs US

  • 1. Opendata benchmark FR vs UK vs US Cyrille Vincey @cyrvin cvincey@qunb.com
  • 2. Quantitative analysis of the data.gouv.fr catalog HOW MANY DATASETS ?
  • 3. Cutting through the duplicates... 352,431 datasets Without the INSEE stats duplicates Without the Environment Ministry stats on territory duplicates Without other sources duplicates 4,114 datasets Methodology : Scraping the entire data.gouv.fr website on the 8th of Feb. 2012, then cutting through duplicates and aggregating what was divided by geographical coverage, then updating by scraping the most recents datasets on the 12th June 2012.
  • 4. This catalog analysis focuses on 4,114 unique datasets.
  • 5. Quantitative analysis of the data.gouv.fr catalog WHAT DATA, WHAT TOPICS ?
  • 6. Economic data, but also: 1,544 524 422 388 284 214 182 73 72 Analysis : quantity of unique datasets divided by arbitrary themes
  • 7. Agricultural spendings production flat GDP housing dissemination economy budget Public geography finances real estate pollution vehicles env. & training air students education transport. school program diploma rivers co2 school
  • 8. energy electricity consumption leasure police monument energy gas coal society museum culture immigration demographics social policy health age group marital status census security workplace health hospital jobs health spending unemployment employees
  • 9. Data domains – FR vs UK vs US Jobs 4% Jobs 2% Jobs 4% Health 2% Health 8% Demographics 5% Energy 6% Demographics 7% Health 21% Env. & Transp. 8% Energy 4% Society 10% Env. & Transp. 14% Demographics 17% Education 11% Society 8% Energy 1% Education 2% Geography Env. & Transp. 12% 14% Society 3% Education Geography 8% 37% Geography 8% Economy 42% Economy Economy 26% 17% US Fr UK
  • 10. WHERE DOES THE DATA COME FROM?
  • 11. Publishers leaderboard INSEE 798 Ministère de l'Ecologie 689 Ministère du Budget 483 Ministère de l'Education nationale 466 Ministère de l'Intérieur 308 Premier Ministre 219 Ministère de la Culture 199 FranceAgriMer 148 Ministère de l'Agriculture 113 Ministère de la Défense 107 Ministère du Travail, Emploi et Santé 104 Villes (Coulomiers, Longjumeau, Saint-Quentin) 68 Conseil général du Loire et Cher 68 Ministère de l'Economie 56 Inventaire forestier national 53 Agences départementales de l'eau 40 Ministère de la Justice 39 Ministère des Affaires Etrangères 38 Office national de l'Eau 35 Office national des forêts 22 Ministère de la Ville 19 Agence Bio 6 SCNF et RFF 4 Analyse : nombre de jeux uniques de données par publicateur
  • 12. Le catalogue data.gouv.fr par les chiffres WHAT ARE THE DATA READILY AVAILABLE FOR A MASHUP ?
  • 13. Mastering excel is key 1. Structured datasets 206 Structured datasets 3. Unstructured datsets Ready-to-use data for an app 542 developer (rdf, xml, shp) Semi-structured datasets Tabular data requiring some crunching effort before usage (csv, xls, ods) 2. Semi- structured datasets 3,366 Unstructured datasets Text data(doc, rtf, txt, pdf, html, …) Analysis : quantity of datasets divided by themes
  • 14. Not very fond of excel? You can still dabble with geodata 186 3. Unstructured datasets 1,306 2. Semi-structured datasets 1. Structured datasets 83 120 378 309 1 299 217 213 178 3 5 52 63 30 63 65 7 2 Analyse : nombre de jeux uniques de données regroupés par thème et type
  • 15. Data types – FR vs US Unstructured data 2% Unstructured data 13% Unstructured data 25% Semi-structured data 65% Semi-structured data Semi-structured 82% data 66% Structured data 33% Structured data Structured data 8% 5% US FR UK
  • 16. Who provides structured datasets? Premier Ministre 74 Conseil général du Loire et… 33 Agences départementales… 26 Office national des forêts 22 Ministère de l'Ecologie 16 Ministère du Travail, Emploi… 10 Saint-Quentin 10 FranceAgriMer 8 Ministère de la Culture 5 Agence de services et de… 1 Ministère du Budget 1 Analyse : quantity of unique type 1 datasets aggregated by publisher
  • 17. Who provides the semi- structured ones ? INSEE 798 Ministère de l'Ecologie 649 Ministère du Budget 474 Ministère de l'Education nationale 350 Ministère de l'Intérieur 302 Ministère de la Culture 164 Ministère du Travail, Emploi et Santé 104 Ministère de la Défense 101 Premier Ministre 71 Inventaire forestier national 53 Ministère de l'Agriculture 45 Ministère de l'Economie 43 Villes (Coulomiers, Longjumeau, Saint-… 39 Ministère de la Justice 38 Ministère des Affaires Etrangères 36 Office national de l'Eau 33 Conseil général du Loire et Cher 33 Agences départementales de l'eau 13 Agence Bio 6 Ministère de la Ville 5 SCNF et RFF 4 Autorités indépendantes 4 Agence de services et de paiement 1 Analyse : quantity of unique type 2 datasets aggregated by publisher
  • 18. Who provides the crappy datasets? FranceAgriMer 140 Ministère de l'Education nationale 116 Premier Ministre 74 Ministère de l'Agriculture 68 Ministère de la Culture 30 Ministère de l'Ecologie 24 Villes… 19 Ministère du Travail, Emploi et Santé 16 Ministère de la Ville 14 Ministère de l'Economie 13 Ministère du Budget 8 Ministère de la Défense 6 Ministère de l'Intérieur 6 Office national de l'Eau 2 Ministère des Affaires Etrangères 2 Conseil général du Loire et Cher 2 Ministère de la Justice 1 Agences départementales de l'eau 1 Analyse : quantity of unique type 3 datasets aggregated by publisher
  • 19. Quantitative analysis of the data.gouv.fr datasets HOW FAST DID THE FRENCH CATALOG GROW?
  • 20. Growing and slowing... 4114 3510 2238 1429 622 Nov-11 Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-12 Analyse : nombre cumulé de jeux uniques de données par semaine de publication
  • 21. J-09 F-09 M-09 A-09 M-09 J-09 J-09 A-09 S-09 O-09 N-09 D-09 J-10 F-10 M-10 A-10 M-10 J-10 J-10 A-10 S-10 O-10 Analysis : number of datasets cumulated by publication dates N-10 D-10 J-11 F-11 M-11 A-11 M-11 J-11 J-11 A-11 S-11 O-11 N-11 France vs UK vs US catalog growth D-11 J-12 F-12 M-12
  • 22. Le catalogue data.gouv.fr par les chiffres HOW UP TO DATE IS THE DATA?
  • 23. Real-time data is „round the corner 1,569 1,532 436 410 167 Permanent 2004 and 2005-2009 2010-2011 2012 and data before beyond Analysis : number of unique datasets categorized by end of time scope.
  • 24. How obsolete? – Fr vs UK 2% Real time 8% Recent 38% Recent 58% Old 48% Old 20% Obsolètes Obsolètes 12% 14% FR UK
  • 25. Quantitative analysis of the data.gouv.fr catalog GLOBAL OR LOCAL DATA ?
  • 26. A bit of (massive) local datasets, but mostly national ones. 3137 487 279 60 149 International National Régional Departmental Local Analysis : number of unique datasets categorized by geographical scope.
  • 27. A piece of advice : fish for the structured local datasets 445 3. Données nondata Unstructured structurées Semi-structured data 2. Données semi-structurées Structured data 1. Données structurées 2595 45 399 228 7 97 92 51 2 34 International National Regional Dpartmental Local
  • 28. Quantitative analysis of the data.gouv.fr catalog LEVERAGING DATA: MAKING PEOPLE MAKE APPS
  • 29. The French approach : catering to a small but active community
  • 30. The US approach : challenges and prizes for every vertical
  • 31. The UK approach: a unified environment for devs
  • 32. Un bon lévrier donnée Catalogue retraitée d‟apps Promouvoir Appeler donnée Promouvoir donnée son app : l‟API brute son app brute data connexions Proposer Proposer Trouver un une idée une idée dév. d‟app d‟app d‟app
  • 33. Le catalogue data.gouv.fr par les chiffres WHAT UK FOLKS HAVE DONE
  • 34. 201 apps “Quels sont les crimes “Où puis-je planter ma autour de chez moi ?” tente ?” “Quelle est la meilleure “Notable : des balade à vélo ?” utilisations business”
  • 37. Citizen watch Source : www.wheredoesmymoneygo.org
  • 38. The data.gouv.fr catalog WHAT US FOLKS HAVE DONE
  • 39. Get open data and build estimates.
  • 40. Improve the level of trust of your users with official data
  • 41. Develop a better api & make cash providing it
  • 43. HINTS & IDEAS FOR DATA MASHUPS
  • 44. Map out the results of the 2012 presidential elections % % % Voix % Voix Dpt Libellé de la commune Nom Prénom Voix Voix / Voix / Nom Prénom Voix / Ins / Exp Ins Exp AIN L'Abergement-Clémenciat BESANCENOT Oliv ier 14 2,35 2,68 BUFFET Marie-George 3 0,5 … AIN L'Abergement-de-Varey BESANCENOT Oliv ier 6 2,93 3,51 BUFFET Marie-George 1 0,49 … AIN Ambérieu-en-Bugey BESANCENOT Oliv ier 323 3,98 4,98 BUFFET Marie-George 152 1,88 … AIN Ambérieux-en-Dombes BESANCENOT Oliv ier 30 2,85 3,33 BUFFET Marie-George 6 0,57 … AIN Ambléon BESANCENOT Oliv ier 6 5,36 6,06 BUFFET Marie-George 1 0,89 … AIN Ambronay BESANCENOT Oliv ier 51 3,16 3,63 BUFFET Marie-George 31 1,92 … AIN Ambutrix BESANCENOT Oliv ier 26 5,3 5,78 BUFFET Marie-George 6 1,22 … AIN Andert-et-Condon BESANCENOT Oliv ier 11 4,15 4,76 BUFFET Marie-George 8 3,02 … AIN Anglefort BESANCENOT Oliv ier 27 4,6 5,22 BUFFET Marie-George 4 0,68 … AIN Apremont BESANCENOT Oliv ier 3 1,18 1,35 BUFFET Marie-George 5 1,96 … AIN Aranc BESANCENOT Oliv ier 9 3,24 3,85 BUFFET Marie-George 10 3,6 … AIN Arandas BESANCENOT Oliv ier 0 0 0 BUFFET Marie-George 0 0 … AIN Arbent BESANCENOT Oliv ier 48 2,39 2,77 BUFFET Marie-George 23 1,15 … AIN Arbignieu BESANCENOT Oliv ier 11 2,74 3,23 BUFFET Marie-George 3 0,75 … AIN Arbigny BESANCENOT Oliv ier 11 4,04 5,07 BUFFET Marie-George 3 1,1 … AIN Argis BESANCENOT Oliv ier 20 6,51 7,63 BUFFET Marie-George 5 1,63 … AIN Armix BESANCENOT Oliv ier 0 0 0 BUFFET Marie-George 0 0 … AIN Ars-sur-Formans BESANCENOT Oliv ier 10 1,23 1,37 BUFFET Marie-George 8 0,99 … AIN Artemare BESANCENOT Oliv ier 23 2,87 3,44 BUFFET Marie-George 6 0,75 … … … … … … … … … … … … … Jeu de données : résultats au 1er et 2ème tour de l‟élection présidentielle de 2007
  • 45. A French-style « citizen watch » Libellé ministère Programme AE Titre 2 AE Autres titres Total AE CP Titre 2 CP Autres titres Total CP Affaires étrangères 105 555 823 400 1 230 956 251 1 786 779 651 555 823 400 1 232 988 711 1 788 812 111 Affaires étrangères 151 200 738 503 167 780 000 368 518 503 200 738 503 167 780 000 368 518 503 Affaires étrangères 185 84 090 237 674 622 721 758 712 958 84 090 237 674 622 721 758 712 958 Affaires étrangères 209 222 720 988 1 867 725 436 2 090 446 424 222 720 988 1 890 569 183 2 113 290 171 Affaires étrangères 332 0 0 0 0 20 000 000 20 000 000 Culture 131 0 735 716 707 735 716 707 0 787 946 707 787 946 707 Culture 175 0 813 941 902 813 941 902 0 870 597 681 870 597 681 Culture 180 0 385 813 692 385 813 692 0 390 313 692 390 313 692 Culture 186 0 123 468 894 123 468 894 0 124 075 879 124 075 879 Culture 224 643 893 011 407 853 967 1 051 746 978 643 893 011 429 861 092 1 073 754 103 Culture 313 0 472 888 891 472 888 891 0 472 888 891 472 888 891 … … … … … … … … (a crunching effort is required, though) Opérateur ou Catégorie d'opérateur PLF 2012 Statut Programme (chef de file) Mission (correspondant au programme chef de file) A2E2F - Agence Europe Education Formation France GIP 150 - Formations supérieures et recherche universitaire supérieur Recherche et enseignement ABM - Agence de biomédecine EPA 204 - Prévention, sécurité sanitaire et offre de soins Santé Académie des sciences de l'outre - mer EPA 150 - Formations supérieures et recherche universitaire supérieur Recherche et enseignement Académie des technologies EPA 172 - Recherches scientifiques et technologiques pluridisciplinaires Recherche et enseignement supérieur ACSE - Agence nationale pour la cohésion sociale et l'égalité des chances EPA 147 - Politique de la ville et Grandlogement Ville et Paris ADALIS - Addictions Drogues Alcool Info Service GIP 204 - Prévention, sécurité sanitaire et offre de soins Santé ADEME - Agence de l'environnement et de la maîtrise de l'énergie 181 - Prévention des risques EPIC Écologie, développement et aménagement durables ADU Drôme Ardèche - Agence du développement universitaire Drôme Ardèche GIP 150 - Formations supérieures et recherche universitaire supérieur Recherche et enseignement … … … … Dataset : Projet de Loi de Finance 2012
  • 46. Map out the regions where pollution levels are too high Jeu de données : niveaux de pollution ayant dépassé les seuils d‟alerte
  • 47. Analyze the €1,5 bn in subsidies given to 18 000 associations SIREN ASSOCIATION IMPUTATION Subvention 490135456 1 2 3 SOLEIL LUDOTHEQUE - 06 MOUANS SARTOUX Services du Premier ministre: 163 - Jeunesse et vie associative € 3 000 445311210 1.2.3 ARCHITECTE - 75 PARIS 14 Culture et communication: 175 - Patrimoines 30 000 € 498598747 100 000 ENTREPRENEURS - 75 PARIS Éducation nationale: 141 - Enseignement scolaire public du second d 20 000 € 450034301 100 TRANSITIONS - 95 GONESSE Culture et communication: 224 - Transmission des savoirs et démocra 11 680 € 450034301 100 TRANSITIONS - 95 GONESSE Services du Premier ministre: 163 - Jeunesse et vie associative € 2 000 498303320 1000 VISAGES - 91 Culture et communication: 224 - Transmission des savoirs8et démocra 000 € 498303320 1000 VISAGES - 91 Services du Premier ministre: 163 - Jeunesse et vie associative € 10 000 511996035 1001 COULEURS CHEZ MME BELMOKHTAR - 02 Services du Premier ministre: 163 - Jeunesse et vie associative € 483 449328814 1001 PATTES - 37 Services du Premier ministre: 163 - Jeunesse et vie associative € 3 000 398540997 10200 ZIMAGES - 10 BAR SUR AUBE Services du Premier ministre: 163 - Jeunesse et vie associative € 7 390 410532584 117 ANIMATIONS JEUNES - 09 LA BASTIDE DE SEROU Services du Premier ministre: 163 - Jeunesse et vie associative € 12 317 … … … … Dataset : PLF2012-Jaune-Données Associations subventionnées
  • 48. Does my high school suck? Geolocalized high school results Datasets : Indicateurs de valeur ajoutée des lycées d‟enseignement général et technique, indicateurss de valeur ajoutée des lycées d‟enseignement professionnel, Géolocalisation des établissements d'enseignement du premier degré et du second degré du ministère de l‟éducation nationale, de la jeunesse et de la vie associative
  • 49. The most dangerous roads Datasets : informations sur la localisation des accidents corporels de la circulation sur 5 années france métropolitaine
  • 50. Where do I drink le vin rouge with le fromage ? Jeu de données : aire géographique des AOC de A à L, aire géographique des AOC de M à Z
  • 51. Le catalogue data.gouv.fr par les chiffres INTERESTING NEW DATASETS
  • 52. How much does a datagov platform cost ? Dataset : « Suivi des dépenses relatives aux marchés de la mission etalab »
  • 53. Every results for the 2012 presidential elections Searching for « présidentielles 2012 » on data.gouv.fr
  • 54. Already having the 2012 French legislative elections data! Searching for « législatives 2012 » on data.gouv.fr
  • 55. Merci ! qunb @qunb cyrille @cyrvin www.qunb.com