3. Données ? De quoi parle-t-on ?
Des atomes d’information structurés et factuels :
mesures, statistiques, description, coordonnées, horaires,
budgets, données en temps réel, etc.
Plus précisément, par exemple :
hauteur, longueur, durée, délai, matière, quantité,
consommation, prix, températures, vitesses, etc.
Données <> médias
Données <> documents
Données <> informations
4. Données numériques ?
Atomes d’information manipulables sans transformation par des
systèmes informatiques
Données numériques ou pas ?
5. Données numériques ?
Atomes d’information manipulables sans transformation par des
systèmes informatiques
Données numériques
ou pas ?
6. La donnée: un objet difficile à saisir
La donnée c’est intangible (on ne peut pas la toucher).
La donnée c’est toujours construit, contrairement à ce que laisse
croire l’étymologie du mot (latin datum: ce qui est donné, qui ne
fait pas débat, ce qui est exogène).
Yann-Moulier Boutang: “se méfier du naturalisme des données”
Quantifier (au sens: mettre en nombre), c’est faire des choix,
établir des priorités, … Même les unités de mesure sont des
conventions construites (ex. 1 mètre)
7. Et si la donnée était une matière
première… ce serait ?
8. Portrait-robot de la donnée comme
matière première
Une matière première de plus en plus disponible
que l’on produit en plus grande quantité, de manière consciente ou
inconsciente (“traces numériques”)
dont les coûts de production, de collecte et de stockage diminuent
chaque année
Une matière qui ne s’épuise pas quand on la consomme
qui prend de la valeur quand elle circule, pas quand on la stocke
(thésaurisation)
Une matière dont la valeur est souvent dans la réutilisation, pas
uniquement dans l’usage initial
14. 1984 - 2015
Sentinelles, Google Flu Trends: même ambition mais pourtant
source de données, intentionalité, méthodes différentes
coeur de métier vs. sous-produit de l’activité principale
porté par l’acteur public vs. par une multinationale
...
1984-2015
On passe d’une donnée rare à une donnée abondante
15. Ce qui change (1) : la production
Modes de production et d'exploitation ont fortement évolué
Puissance de traitement, de stockage, de mise en réseau
Finesse et multiplication des capteurs
Informatique personnelle (dont base de données)
Capteurs « grand public » (météo, santé, GPS, etc.)
... et vont continuer d'évoluer
Capteurs personnels toujours plus fins et touchant toujours plus
de domaine (montre verte, capteurs ingérables)
Internet des objets
“Digital labour”
Mesure de soi (quantified self)
… vers un nouveau web : le web des données
16. Ce qui change (1) : la production
Bracelet de mesure corporelle
jawbone.com
19. Ce qui change (2) : les producteurs
Le crowdsourcing : la coproduction des données par les “foules”
Des pratiques anciennes toujours plus poussées en botanique,
astronomie, etc.
Un champ du crowdsourcing qui paraît sans limite
OpenStreetMap dans la cartographie
Données environnementales (montre verte)
Cartographie des caméras de surveillance
Capteurs « do it yourself » en tous genres pour moins de 100€ :
comptage d'automobiles, mesures de consommations énergétiques,
etc.
Multisourcing (privé-public / privé-privé / public-privé-public)
21. L'extraction des données des
infobox de wikipédia
+
pages de catégories listant les
œuvres conservées dans tel
musée
=
reconstitution possible de
véritables petits catalogues des
oeuvres
24. nest : thermostat apprenant :
collecte vos données d'usage pour anticiper vos besoins
25. Ce qui change (2)
asthmapolis : capteur connecté d'inhalation de ventoline et réseau communautaire au
service des asthmatiques (alerte, cartographies...)
26. Ce qui change (1 et 2) :
production/producteurs
Des producteurs toujours plus nombreux
Individus de tous types : adultes, enfants, professionnels, amateurs, etc.
Organisations de tous types : entreprises, acteurs publics, associations,
communautés (parfois informelles)
Des producteurs militants aux motivations les plus diverses
Des “malgré eux”, obligés de produire des données pour accéder
à un service
Des M. Jourdain, qui produisent des données sans même le
savoir
Qui ne produit pas de données ? Qu’est-ce qui ne produit pas
de données ?
27. Ce qui change (3) : la quantité, les
big data
Une quantité de données accumulée chaque jour plus
vertigineuse
Cette quantité autorise de nouvelles perspectives
construire des modèles ne sert plus à rien ...
... les réponses sont dans ces très grands volumes de données
La “fin de la théorie” ? (Chris Anderson)
28. Ce qui change (4) : la pluralité des
sources
Plein de manières différentes de mesurer le même phénomène
(les “proxies”)
Exemple: “Combien de touristes sur les Champs Elysées ?”
Enquête quantitative sur le terrain
Analyse des transactions de cartes bancaires (commerces)
Analyse des logs de connexion de téléphonie (Orange, SFR)
Repérage des photos prises sur les lieux et publiés sur Flickr
… mais aussi à partir des tweets (cf. Tourists vs. Locals page suivante)
Conséquence : les données-monopoles sont de plus en plus
rares et bien souvent, si vous n’ouvrez pas vos données, d’autres
le feront à votre place
30. Ce qui change (5) :
1 donnée => de multiples usages
Une donnée n’a plus un seul usage pré-déterminé (valeur de
réutilisation)
On parle d’autonomisation de la donnée
Une donnée génère également d’autres données qui auront
d’autres usages (ombre portée)
Certaines données racontent beaucoup d’autres choses que
leurs usages premiers :
Analyse des logs de connexion de téléphonie (Orange, SFR)
Contenus publiés sur les grandes plate-formes web 2.0 (Flickr, Twitter,
Facebook, Foursquare, etc.)
les requêtes passées aux moteurs de recherche
le wifi de votre téléphone
etc.
31. Ce qui change (5) :
1 donnée => de multiples usages
Projet BANO : base adresse nationale en open data, illustration de la pluralité des
sources (cadastre + open data local + contributeurs OSM)
32. Ce qui change (6) : l’ouverture des
données (open data)
Une idée de départ : les données produites par les acteurs
publics devraient être réutilisables
Une idée déjà à l’oeuvre dans les communautés “Open*” :
Wikipédia, Wikidata, OpenStreetMap, OpenFoodFacts, etc.
Une idée qui s’étend aux entreprises
Un champ qui booste l’innovation car les données sont rendues
très accessibles
33. Ce qui change (2+4+6) : l’ouverture
des données (open data)
pluralité des producteurs
(dont extension des co-producteurs)
+
pluralité des sources (proxies)
+
sources en open data
=
Si vous n’ouvrez pas vos données,
d’autres le feront à votre place
34. Ce qui change (7) : les données liées
des données exprimées dans une même "langue" (RDF)
des identifiants uniques réutilisables pour chaque donnée (URI).
Ex. http://data.bnf.fr/11907966/victor_hugo/
des requêtes multi-sources indépendantes des outils (SPARQL)
des bases de données reliées entre elles
bien adapté aux grands volumes de données froides : données
encyclopédiques, bibliothéconomie, muséographie, référentiels
administratifs, etc.
36. Ce qui change (8) : les données,
éthique et privacy
On dépasse le cadre des données personnelles stricto sensu :
des données qui deviennent réidentifiantes
La société face aux défis du big data : vers de nouvelles formes
de régulation
Par ailleurs, toutes les données sont-elles bonnes à partager
37. Ce qui change : nouveau paysage,
nouveau vocabulaire
Les data : les données. La data : le matériau
Le crowdsourcing, une entrée par le mode de production :
données collectées collaborativement, par les « foules »
Big Data, une entrée par la quantité et la technique : « grosses
données », volumes de données TRÈS importants
Small Data : des données pertinentes adaptées à la
compréhension humaine, une entrée par les usages et usagers
Open Data vs Closed Data (peu utilisé), une entrée par le droit :
des données librement réutilisables (+ faciles d’accès)
Self Data : des données relatives à soi, une entrée par la
destination
Le quantified self : “quantification de soi”, une pratique de collecte
de données par soi-même, sur soi-même
39. On répond à des questions
Quel est le prénom masculin le plus donné à Nice au cours des 5
dernières années ?
Combien de femmes ont une licence sportive de handball dans
ma commune ?
Quelle commune de France accueille le plus grand nombre de
personnes redevables de l’ISF (impôt de solidarité sur la fortune)
?
Qui sont les 200 premiers titres de presse aidés par l’Etat en
2013 ?
Combien d’accidents corporels en 2012 sur la route que
j’emprunte tous les matins ?
...
40. On prend des décisions
Dois-je ouvrir mon magasin dans cette rue du centre-ville ?
Est-ce que cette formation me permettra de trouver un emploi
rapidement ?
Est-ce que c’est rentable d’investir dans des panneaux solaires
dans ma commune ?
Est-ce qu’il vaut mieux prendre les avions d’Air France ou ceux
d’Easy Jet entre Nice et Paris ?
41. On représente des phénomènes
complexes
Visualisation de l’offre de transports de Rennes dans une vidéo
42. On représente des phénomènes
complexes / on débat
La répartition des aides à la presse en France (Samuel Azoulay à
partir de données data.gouv.fr)
43. On représente des phénomènes
complexes / on influence
Les morts par arme à feux
ont baissé après le vote
de la loi “Stand Your
Ground” ?
44. On représente des phénomènes
complexes / on révèle
Les noms de rues comme
révélateurs des inégalités
hommes-femmes ?
48. Les données, c’est pas
trivial
Les difficultés que l’on rencontre,
les défis que cela nous pose
49. L’objet “donnée”
On ne croise pas des données tous les matins en sortant dans la
rue
On ne peut pas “toucher” des données (intangible)
Un objet ingrat, aride
51. Des données de qualité variable (2)
Les Mairies de France ? (par Christian Quest)
52. Des données peu standardisées
Touche la plupart des données hors quelques domaines comme :
les transports (GTFS)
les données géographiques (GPX, KML, etc.)
les oeuvres (Dublin core, MARC, etc.)
...
Un des gros problèmes de “l’offre” actuelle
Des conséquences lourdes
pas de capitalisation des savoirs techniques
des données difficiles à croiser (ex. prénoms)
un marché et des usages qui peinent à décoller
53. Des données pas faciles à trouver
Les liens profonds sont souvent mal référencés sur les moteurs
de recherche, il faut donc d’abord identifier la source qui peut
héberger les données…
Exemple: quelle est la qualité des eaux de baignade des plages
de Vallauris - Golfe Juan ?
recherche sur Google
site de la municipalité avec données datant de 2011 …
un site dédié au niveau national, mais difficile à trouver
54. Des données avec lesquelles on
raconte n’importe quoi ?
Source des données:
OMS via Gapminder
Corrélation ne fait pas
causalité !
55. Des données pas faciles à manipuler
Gros fichiers : exemple fichier des licenciés sportifs par commune
de France : fichier .csv de 120 Mo
TRÈS GROS fichiers : exemple, le DAMIR (Dépenses
d'assurance maladie hors prestations hospitalières)
un fichier de 30 Go pour une année
1 milliard 500 millions de lignes pour 6 ans
formats techniques (OSM)
59. Ce que l’open data a effectivement
produit (5 ans plus tard)
Les acteurs publics, un des premiers réutilisateurs : un des succès
indéniables et un vrai facteur de modernisation de l'action publique
Pour les acteurs publics, également, un rôle “d’enabler” (capacitation)
assumé et lisible : revalorisation de l’action publique, rapprochement
avec les nouveaux acteurs économiques, etc.
Quelques vrais services utiles aux populations
Les données comme objet de débat
La possibilité de jouer, d’explorer, de manipuler de vrais données pour
acculturer et faire grandir tous les acteurs
60. Un paysage des usagers très
mitigé
En deuxième lieu, un profil type : un individu, jeune, mâle, geek
Souvent militant
Assez souvent étudiant, en libéral ou en inter-contrat
Recherchant une visibilité ou du fun : méritocratie, montrer son savoir-
faire pour se « vendre », s'amuser...
D'autres publics présents mais très minoritaires
Des start-ups, quelques PME « techno », des chercheurs, à peu près
aucune PME traditionnelle
Peu de business « pure » open data
Peu ou pas de femmes, d'enfants, de personnes âgées
Peu d'association, de médias
61. … un paysage des usagers qui
s’explique aisément
Aridité des matériaux : de sèches colonnes de chiffres et de code
Une pertinence et une qualité des données aléatoires qui oblige à un
gros travail de retraitement et/ou de croisement
Une importante barrière technique à l'usage
Un vrai manque de lisibilité du côté de l'offre :
Des données pas assez présentes là où sont les gens
Un manque d'éditorialisation qui ne facilite pas la compréhension
Des sachants plus portés sur le code que sur de la médiation
Une acculturation aux données encore faible
62. Capacitation du plus
grand nombre
Écosystème riche
et ouvert
Une appropriation
large par l’ensemble
du tissu économique
Une réelle
appropriation de
l'économie sociale et
solidaire
Donner du pouvoir à
ceux qui en ont déjà
Un sujet de spécialistes
en vase clôt
La naissance de
monopoles industriels
De meilleurs services
pour des citoyens aisés
et insérés
63. La médiation aux données, besoin
criant mais peu adressé
Très peu d’acteurs
EPN à travers les cartoparties
les “cantines” numériques, espaces de co-working, etc.
quelques très rares spécialistes (ANACT, Altercarto…)
Quelles médiations
la mode des événements “en cloche” : hackathons, concours, camps,
cartoparties, etc.
une vraie stimulation de l’écosystème local ...
... mais beaucoup de déchet, le soufflé retombe vite
un vrai besoin de médiations continues
64. La médiation aux données :
quelques principes
Rendre lisible, tangible, sensible, à l’échelle des individus
Manipuler, apprendre par le “faire” : tant qu’une personne n’a pas
manipulée, elle ne se rend pas compte de ces problèmes
Produire des données : un bon producteur/ouvreur de données est un
bon réutilisateur
Une démarche ouverte et collective, parce qu’avec des choses si
neuves l’apprentissage collectif est tellement plus efficace
Le nouveau monde de données requiert de nouvelles médiations qui
sont en cours d’invention, de test.
69. Développer les ressources
Le 02 octobre 2015 HappyTIC 2015 – Grenoble
Favoriser l’émergence d’un réseau d’acteurs
impliqués dans l’ouverture, la diffusion, la
collecte, le traitement et la médiation de la
donnée
70. Développer les usages
Le 02 octobre 2015 HappyTIC 2015 – Grenoble
Convaincre les
acteurs publics de
l'intérêt de
l’ouverture et de la
réutilisation des
données.
72. L’infolab, un “lab” ouvert pour les
données
Dès l’origine pensé pour défendre 3 valeurs :
ouvert
accessible
continu
3 grandes missions de médiation :
initiation/formation
“incubation”
débat
Une très grande variété de formes : thématique, en réseau, de
branche, spécialisé sur des publics, etc.
74. Parmi les résultats de la campagne
Infolab
Un travail sur les compétences relatives aux données
Une charte des infolabs en version beta
Un portail de référence pour la communauté : http://infolabs.io
En cours de finalisation ou publication :
La conception/test/documentation d’un ensemble de méthodologies de
base, clé en main, pour non-spécialistes
Une base de données collaborative de plus de 170 ressources utiles à
la médiation aux données
Un module de formation à la médiation aux données
Plus de 20 projets/réflexions d'infolabs en cours : Lyon, Grenoble,
Brest, Poitou-Charentes, Marseille, Axa, GRdF, etc.
Tous nos travaux sont réutilisables sous licence Creative Commons
CC-BY