Presentation for a theoretical and practical session focused on best practices and data quality principles in the context of data digitization. Includes a short presentation on data quality and coherence (especially on subjects like georeferencing, dates, names and taxa cross-checking), followed by a group discussion on good practices and a practical exercise using simple spreadsheets.
-----
Présentation pour une session pratique et théorique centrée sur les bonnes pratiques et les principes sur la qualité des données dans le contexte de la numérisation de données. Cette session comprend une courte présentation sur la qualité et la cohérence des données (notamment sur les sujets tels que le géoréférencement, les dates, noms scientifiques et vérification de taxons), suivie d’une discussion de groupe sur les bonnes pratiques et un exercice pratique d’utilisation de tableurs.
4. INDEX
Contexte
Flux des données
Qualité des données et
numérisation
Métadonnées
Données taxonomiques
Donnée spatiales
Données de collecte
Données descriptives
Index
5. From data to understanding…
Oceans of data…
Background
6. Des données à la compréhension…
Des océans de données…
Contexte
13. Data quality is a relative concept that depends
on the use of these data.
"The general intent of describing the quality of a
particular dataset or record is to describe the
fitness of that dataset or record for a particular
use that one may have in mind for the data."
Chrisman, 1991
Fitness for use - Definition
Definition
14. La qualité des données est un concept relatif qui
dépend de l’usage qui est fait de ces données…
« L’intention générale, lorsqu’on décrit la qualité d’un
jeu de données ou d’un enregistrement, est de décrire
l’adéquation de ce jeu de données ou enregistrement à
l’usage que l’on souhaite que d’autres personnes en
fassent.»
Chrisman, 1991
« Fitness-for-use »
Adéquation à l’usage - définition
Définition
15. Each institution should have:
1.A vision targeted on data quality
o Don’t « reinvent the wheel » and use standards
o Seek efficiency (in collecting data and quality checks) and avoid
duplicating efforts
o Promote sharing (data, informations, tools, standards…)
o Think at a large scale
o Cater to users and their needs
o Invest in documentation and metadata
1.A policy implementing this vision
1.An implementation strategy for this policy (precise goals at short,
mean and long term)
Data Processing and Quality
Dataworkflow
16. Chaque institution devrait avoir :
1.Une vision ciblant la qualité des données
o Ne pas “réinventer la roue” et utiliser les standards
o Chercher l’efficacité (dans la collecte et l’assurance qualité)
and éviter la duplication d’effort
o Encourager le partage (données, informations et outils)
o Réfléchir à long terme
o Prendre soin des utilisateurs et de leurs besoins
o Investir dans la documentation et les métadonnées
1.Une politique implémentant cette vision
1.Une stratégie d’implémentation pour cette politique (échéances
précises à court, moyen et long terme)
Chaîne des Données et Qualité
Fluxdedonnées
17. Quality loss happens at every step.
The responsibility in terms of data quality has to be assigned at the earlier possible
step of the process.
Dataworkflow
Data Processing and Quality
18. La perte de qualité survient à chaque étape.
La responsabilité en terme de qualité de données doit être assignée le plus
tôt possible dans cette chaîne.
Fluxdedonnées
Chaîne des Données et Qualité
19. Curator
Retranscription quality in the
database
Regular validation tests.
Data regularly saved and
archived
Keep precedent versions
Ensure respect of private life,
intellectual rights, local
traditions and sensibilities ...
Provide quality
documentation (including
known issues about the data)
Take feedback into account
Responsibility for
maintenance but also moral
responsibility to improve data
quality (if possible) for future
uses and users.
Sharing responsibilities
User
Inform data curators about
Mistakes and et omissions in
data and documentation.
Provide feedback to define
future priorities
When using data, determine
whether data are adequate for
intended use and not use them
if this is not the case.
Collector
Labels and logs are as correct,
complete and readable as
possible
Collection methods are vastly
documented
Remarks are clear and non-
ambiguous
Dataflow
20. Conservateur
Qualité des retranscriptions
dans la base de données
Tests de validation réguliers et
documentés.
Les données sont
sauvegardées et archivées
Les versions précédentes sont
conservées
Assurer le respect (vie privées,
propriété intellectuelle, traditions
locales, ...)
Fournir une documentation de
qualité (incluant les problèmes
connus)
Les retours utilisateurs sont
pris en compte
Responsabilité de maintenance
et d’améliorer la qualité des
données pour de futurs
utilisateurs et usages.
Partage des Responsabilités
Utilisateur
Informer les conservateurs des
erreurs et omissions dans les
données et la documentation
Définir les priorités futures
A l’usage, déterminer si les
donnés sont adaptées à
l’usage prévu et ne pas les
utiliser de façon non-adéquate.
Collecteur
L’étiquetage et les journaux
sont corrects, aussi complets
que possible et lisibles
Les méthodes de collecte
sont largement documentées
Les remarques sont claires et
non-ambiguës
Fluxdedonnées
21. What can the digitization team do?
1. Help document the data(set) through metadata
and record-level annotations
2. Ensure the maximum quality possible when
digitizing:
1. Taxonomic data
2. Geographical data
3. Collection and collector data
4. Descriptive data
Dataworkflow
22. Que peuvent faire les équipes de numérisation ?
1. Aider à documenter le(s) jeu(x) de données
grâce aux métadonnées et annotations sur les
occurrences
2. S’assurer de la meilleure qualité possible lors
de la numérisation :
1. Données taxonomiques
2. Données géographiques
3. Données sur la collection et le collecteur
4. Données descriptives
Fluxdedonnées
23. Metadata = « Data about the data »
• Describe content, accessibility, completeness...
• About the dataset
• Error documentation
• Documentation of validation process, data cleaning
and data correcting
Metadata must be rich enough to allow data (re)use by a third
party without them having to refer to the data source.
Metadata
Documenting quality during digitization
24. Métadonnées = « Données sur les données »
• Décrivent le contenu, l’accessibilité, la complétude, ...
• A propos du dataset
• Documentation de l’erreur
• Documentation des procédures de validation, de
nettoyage et de correction appliquées
Les métadonnées doivent être suffisamment riches pour permettre
l’usage des données par des tiers sans devoir se référer à la source
de ces données.
Métadonnées
Documentation de la qualité pendant la numérisation
25. • Names (scientific, vernacular, rank, hierarchy, …)
• Statuts (synonyms, valid names, …)
• References (author, date and location)
• Identification (by whom and when?)
• Quality terms (ID certainty, …)
Taxonomicdata
Taxonomic data: definition
26. • Noms (scientifique, vernaculaire, rang, hiérarchie, …)
• Statuts (synonymes, nom valide, …)
• Références (auteur, date et lieu)
• Détermination (par qui et quand ?)
• Champs relatifs à la qualité
(certitude, …)
Donnéestaxonomiques
Données taxonomiques : définition
27. Scientific/vernacular name = entry point
Risk of propagating errors during the whole
data publishing process
Possible errors and solutions:
• Incorrect identifications (calls for help from a taxonomist)
• Typos (data cleaning)
• Wrong format (data cleaning)
Errors can affect scientific and vernacular names, from all
taxonomic ranks
Taxonomicdata
Taxonomic data
28. Souvent le nom = point d’entrée
Risque de propagation des erreurs tout au long du
processus de publication des données
Erreurs possibles et solutions :
• Identification incorrectes (requiert l’aide d’un taxonomiste)
• Erreurs orthographiques (nettoyage des données)
• Mauvais format (nettoyage des données)
Les erreurs peuvent concerner noms scientifiques et noms
communs, à tous les niveaux de taxonomie
Donnéestaxonomiques
Données taxonomiques
29. • Missing data (e.g.: subspecies written but not the species)
• Incorrect values (typos, wrong column, symbols « ?? », …)
• Non-atomic values (e.g.: « subsp. bicostasa » in a single term)
• Uncertainty on at least one name of the binominal nomenclature
• Duplicates (synonyms, several valid names…)
• Inconsistent data after to databases fusion using several
checklists
Taxonomicdata
Taxonomic data: common MISTAKES to avoid
30. • Données manquantes (ex : sous-espèce renseignée mais pas
l’espèce)
• Valeurs incorrectes (fautes de frappe, mauvaise colonne,
symboles « ?? », …)
• Valeurs non-atomiques (ex : « subsp. bicostasa » dans un seul
champ
• Incertitude sur un des noms de la nomenclature binomiale
• Valeurs dupliquées (synonymes, plusieurs noms valides…)
• Données inconsistantes suite à la fusion de deux bases de
données utilisant différents référentiels
Donnéestaxonomiques
Données taxonomiques : ERREURS à éviter
31. Spatial data (textual or geo-referenced) are one of the
key information to determine the fitness-for-use of
biodiversity primary data:
• Species distribution modelling
• Selection of areas to protect
• Resources and environment
management
• ...
Spatialdata
Spatial data: definition
32. Les données spatiales (textuelles ou géoréférencées)
représentent un des aspects cruciaux pour déterminer
l’adéquation à l’usage des données primaires de biodiversité:
• Modélisation de la distribution des espèces
• Sélections des zones à protéger
• Gestion de l’environnement et
des ressources
• ...
Donnéesspatiales
Données spatiales : définition
33. What are we talking about?
• Latitude and longitude
• Area
• Point + radius
• Bounding box = rectangle calculated from
the coordinates of two points)
• Polyline
• Grid reference
Spatialdata
Spatial data: definition (2)
34. De quoi s’agit-il ?
• Latitude et longitude
• Aire
• Point + rayon
• Boîte englobante (bounding box = rectangle
calculé à partir des coordonnées de deux points)
• Polyline
• Référence de grille
Donnéesspatiales
Données spatiales : définition (2)
37. • Coordinates: a code documenting a position on Earth,
expressed with a SRS (spatial reference system). Most of
the time: latitude/longitude
• Georeferencing: the process of assigning a geographical
reference to a given record.
• Datum: geodetic system
Spatialdata
Spatial data: a few more definitions
38. • Coordonnées : un code documentant une position sur la
surface de la terre, exprimé suivant un SRS (spatial
reference system). En pratique; souvent latitude/longitude
• Géoréférencement : le procédé qui consiste à assigner une
référence géographique à un enregistrement donné.
• Datum : système géodésique
Donnéesspatiales
Données spatiales : quelques définitions
39. • Coordinates inversion
• Null values
• Unknown datum
• Inadapted SRS
• Conversion issues.
Spatial data: common MISTAKES to avoid
Early GBIF map showing USA data, making evident some
common mistakes:
● 0,0 coordinates (Greenwich meridian and Equator)
● Reverse coordinates (mirror effect on China and slight
mirror effect west of Chile)
Spatialdata
40. • Inversion des coordonnées
• Valeur(s) zéro
• Système géodésique ou
datum inconnu
• SRS inadapté
• Problèmes de conversion.
Donnéesspatiales
Données spatiales : ERREURS à éviter
Ancienne carte GBIF que présentait les données des États
Unis, montrant des exemples d’erreurs communes :
● Coordonnées 0, 0 (méridien de Greenwich et Equateur)
● Coordonnées inversées (miroir sur la Chine et léger
miroir à l’ouest du Chili)
41. • Collector name
• Collect date
• Additional information: habitat, soil, meteorological
conditions…
Relevance depends on dataset type:
• Static collection (museum) : collector name and ID, date,
habitat, capture technique...
• Observations: observation length, area, time of day, activity,
sex of the observed specimen…
• Sampling-event data: sampling methods, grid size, frequency,
collection of reference specimens
Collectiondata
Collection data: definition
42. • Nom du collecteur
• Date de collecte
• Informations supplémentaires: habitat, sol, conditions
météorologiques…
La pertinence dépend du type de jeu de données:
• Collection statique (musée) : nom et ID du collecteur, date,
habitat, méthode de capture ...
• Observations: +durée d’observation, zone, période de la
journée, activité, sexe du spécimen observé…
• Échantillonnage et inventaires exhaustifs : +méthode, taille
de la grille, fréquence, si des spécimens de référence ont été
collecté (+références)
Donnéesdecollecte
Données de collecte et de collecteur : définition
43. • Exactitude: names of the collector(s), date,…
• Consistency: use of a controlled vocabulary for soils,
habitats…
• Completeness: some terms are very rarely completed
(flowering period, associated species…) which can
impede data (re)use
Collectiondata
Collection data: factors
44. • Exactitude: nom du ou des collecteurs, date,…
• Cohérence: utilisation d’une terminologie (différente
pour les sols, les habitats…)
• Complétude : certains champs sont très rarement
renseignés (floraison, espèces associées…) ce qui peut
limiter la réutilisation des données
Données de collecte et de collecteur : facteurs
Donnéesdecollecte
45. • Variable quality: historical data impossible to check, data
description too expensive on time/money, subjectivity (colour
or abundance estimation…)
• Often data relative to the whole taxonomic rank and not the
specimen in particular
• Completeness: generally impossible to achieve on a given
specimen
• Consistency: some traits can be non consistent
o FLOWER_COLOUR = Carmine
o FLOWER_COLOUR = Crimson
Descriptivedata
Descriptive data: factors
46. • Qualité très variable : données historiques impossibles à
vérifier, description trop coûteuse en temps/argent, subjectivité
(estimation des couleurs, de l’abondance…)
• Souvent des données s’appliquant au niveau taxonomique et
pas au niveau du spécimen
• Complétude : généralement impossible à atteindre sur un
même spécimen
• Cohérence: attributs non consistants
o FLOWER_COLOUR = MAUVE
o FLOWER_COLOUR= violet clair
Donnéesdescriptives
Données descriptives : facteurs
47. 23 AUGUST 2016
THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Reminders about Data Quality
Sharon Grant & Sophie Pamerlon
48. 23 AOÛT 2016
THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Rappels sur la qualité des
données Sharon Grant et Sophie Pamerlon