Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
683
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Data PublicaHack the data !26 mars 2012
  • 2. • Guillaume Lebourgeois• Ingénieur R&D Data Publica o @glebourg sur Twitter o guillaume.lebourgeois@data-publica.comQui suis-je ?
  • 3. Data Publica développe la connaissance la plus complète et la plus fine des données électroniques françaisesDeux axes de revenu :• Jeux de données sur mesure• Annuaire et Data Store des données françaises : o Des jeux de données de vendeurs tiers o Des jeux de données développés par Data Publica
  • 4. Lannuaire Data PublicaAnnuaire• L’annuaire de données françaises le plus complet (depuis septembre 2010)• Périmètre o public/privé & gratuit/payant o régional/national/européen o Focalisé France• 190 éditeurs, 13.000 jeux de données, 90% de fichiers tableurs• Moteur de recherche• Interviews de spécialistes• Actualités des donnéesData Store depuis octobre 2011
  • 5. Le drame de la data française• 90+% des données o Fichiers XLS o Fichiers PDFLenjeu : pouvoir traiter automatiquement les donnéesPour créer du sensPour croiser des données entre-elles
  • 6. Créer des données structuréesou la clef de tous les possiblesStructure DSPL Mesurer des métriques selon des dimensions •Un fichier XML de description des données •Un fichier CSV détaillant les valeurs par concept •Un fichier CSV par "tranche" de données
  • 7. DSPL : un exemple présidentielhttp://www.data-publica.com/opendata/13242--vox-twitter-2012• dataset.xml o concept candidat o concept bruit o concept popularité o concept jour o slice tweets  dimensions : candidat, jour  metrics : bruit, popularité o table candidats o table tweets
  • 8. Vous avez dit structuré ?Des données structurées dans un format qui permet de définir des métriques et des dimensions, ce sont des données que lon peut faire parler.
  • 9. visualisationOu comment faire parler les donnéesChoisir les données à visualiser Visualiser sur une carte
  • 10. Données structurées ? API !Ou comment redonner la parole aux développeurs... et aux machineshttp://api.data-publica.com/…/content.json? limit=10&filter={revenue_fiscal_par_foyer:{$gt:25000}}
  • 11. Demo visualisateur/apihttp://www.data-publica.com/opendata/12244--faits-constates-par-departement-de-2002-a-2010
  • 12. API Data PublicaDocumentation• http://www.data-publica.com/content/api/• Methode REST• Filtres géolocalisés et conditions sur les colonnesDocumentation des jeux de données dans la fiche• Documentation des attributs• Extraits des valeurs• http://www.data-publica.com/opendata/13242--vox-twitter-2012Signature• il faut un compte sur Data Publica, lib de signature• accès à une interface pour simuler un appel
  • 13. API Data Publica : help !Nous fournissons généreusement deux clients :•Python (abouti)•Java (seulement la signature)https://github.com/datapublica-company/APIFaites du Python, car cest mieux. Tout simplement.
  • 14. Maintenant, à vous de bosserTrois thèmes différents, pour des groupes de 2 à 4 étudiants.• Croisements géographiques• Croisements thématiques• Graphe de connaissances
  • 15. Croisements géographiquesTravailler autour des données qui concernent la Bretagne.• Via lAPI, pour les données géolocalisées• Via parsing de fichiers, pour les données non structuréesProblématique : quelles données croiser ? De quelle manière (uniquement géo ?) ? Comment les représenter ?
  • 16. Croisements thématiquesTravailler autour des données médicalesEx : DÉCÈS DUS AUX ACCIDENTS, PAR SEXE• Via lAPI autour de concepts communs• Via Parsing de fichiers, pour du sur mesureProblématique : Quelles données croiser, sur quels concepts communs ? Est-il possible de croiser avec données hors thème (ex. PIB par habitant) pour trouver des corrélations ? Comment représenter les résultats ?
  • 17. Graphe de connaissancesReprésenter le graphe de connaissances de lopen-data français.Source : site de Data-PublicaMéthode : co-reférence de catégories ; co-référence de tagsPeu de catégories ; beaucoup de tags.Il y aura peut être nécessité dorganiser les tags en thèmes.
  • 18. Visualisations / APIPour sélectionner uniquement les jeux de données disponibles via API, ou bénéficiant dune visualisation, utiliser les facettes du moteur de recherche.
  • 19. Futurs stagiaires ?Contactez-nous !On adore les jeunes motivés et compétents.
  • 20. Hack the data ! Données Publiques, Open Data & Data Store 26 mars 2012guillaume.lebourgeois@data-publica.com