SlideShare a Scribd company logo
1 of 48
23 AUGUST 2016
THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Reminders about Data Quality
Sharon Grant & Sophie Pamerlon
23 AOÛT 2016
THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Rappels sur la qualité des
données Sharon Grant et Sophie Pamerlon
INDEX
Background
Data Workflow
Data Quality and
Digitization
Metadata
Taxonomic information
Spatial information
Collection information
Descriptive information
Index
INDEX
Contexte
Flux des données
Qualité des données et
numérisation
Métadonnées
Données taxonomiques
Donnée spatiales
Données de collecte
Données descriptives
Index
From data to understanding…
Oceans of data…
Background
Des données à la compréhension…
Des océans de données…
Contexte
…rivers of information…
Background
…des rivières d’informations…
Contexte
… streams of knowledge…
Background
… des ruisseaux de connaissances …
Contexte
…droplets of understanding
Background
…des gouttes de compréhension
Contexte
Data quality is a relative concept that depends
on the use of these data.
"The general intent of describing the quality of a
particular dataset or record is to describe the
fitness of that dataset or record for a particular
use that one may have in mind for the data."
Chrisman, 1991
Fitness for use - Definition
Definition
La qualité des données est un concept relatif qui
dépend de l’usage qui est fait de ces données…
« L’intention générale, lorsqu’on décrit la qualité d’un
jeu de données ou d’un enregistrement, est de décrire
l’adéquation de ce jeu de données ou enregistrement à
l’usage que l’on souhaite que d’autres personnes en
fassent.»
Chrisman, 1991
« Fitness-for-use »
Adéquation à l’usage - définition
Définition
Each institution should have:
1.A vision targeted on data quality
o Don’t « reinvent the wheel » and use standards
o Seek efficiency (in collecting data and quality checks) and avoid
duplicating efforts
o Promote sharing (data, informations, tools, standards…)
o Think at a large scale
o Cater to users and their needs
o Invest in documentation and metadata
1.A policy implementing this vision
1.An implementation strategy for this policy (precise goals at short,
mean and long term)
Data Processing and Quality
Dataworkflow
Chaque institution devrait avoir :
1.Une vision ciblant la qualité des données
o Ne pas “réinventer la roue” et utiliser les standards
o Chercher l’efficacité (dans la collecte et l’assurance qualité)
and éviter la duplication d’effort
o Encourager le partage (données, informations et outils)
o Réfléchir à long terme
o Prendre soin des utilisateurs et de leurs besoins
o Investir dans la documentation et les métadonnées
1.Une politique implémentant cette vision
1.Une stratégie d’implémentation pour cette politique (échéances
précises à court, moyen et long terme)
Chaîne des Données et Qualité
Fluxdedonnées
Quality loss happens at every step.
The responsibility in terms of data quality has to be assigned at the earlier possible
step of the process.
Dataworkflow
Data Processing and Quality
La perte de qualité survient à chaque étape.
La responsabilité en terme de qualité de données doit être assignée le plus
tôt possible dans cette chaîne.
Fluxdedonnées
Chaîne des Données et Qualité
Curator
Retranscription quality in the
database
Regular validation tests.
Data regularly saved and
archived
Keep precedent versions
Ensure respect of private life,
intellectual rights, local
traditions and sensibilities ...
Provide quality
documentation (including
known issues about the data)
Take feedback into account
Responsibility for
maintenance but also moral
responsibility to improve data
quality (if possible) for future
uses and users.
Sharing responsibilities
User
Inform data curators about
Mistakes and et omissions in
data and documentation.
Provide feedback to define
future priorities
When using data, determine
whether data are adequate for
intended use and not use them
if this is not the case.
Collector
Labels and logs are as correct,
complete and readable as
possible
Collection methods are vastly
documented
Remarks are clear and non-
ambiguous
Dataflow
Conservateur
Qualité des retranscriptions
dans la base de données
Tests de validation réguliers et
documentés.
Les données sont
sauvegardées et archivées
Les versions précédentes sont
conservées
Assurer le respect (vie privées,
propriété intellectuelle, traditions
locales, ...)
Fournir une documentation de
qualité (incluant les problèmes
connus)
Les retours utilisateurs sont
pris en compte
Responsabilité de maintenance
et d’améliorer la qualité des
données pour de futurs
utilisateurs et usages.
Partage des Responsabilités
Utilisateur
Informer les conservateurs des
erreurs et omissions dans les
données et la documentation
Définir les priorités futures
A l’usage, déterminer si les
donnés sont adaptées à
l’usage prévu et ne pas les
utiliser de façon non-adéquate.
Collecteur
L’étiquetage et les journaux
sont corrects, aussi complets
que possible et lisibles
Les méthodes de collecte
sont largement documentées
Les remarques sont claires et
non-ambiguës
Fluxdedonnées
What can the digitization team do?
1. Help document the data(set) through metadata
and record-level annotations
2. Ensure the maximum quality possible when
digitizing:
1. Taxonomic data
2. Geographical data
3. Collection and collector data
4. Descriptive data
Dataworkflow
Que peuvent faire les équipes de numérisation ?
1. Aider à documenter le(s) jeu(x) de données
grâce aux métadonnées et annotations sur les
occurrences
2. S’assurer de la meilleure qualité possible lors
de la numérisation :
1. Données taxonomiques
2. Données géographiques
3. Données sur la collection et le collecteur
4. Données descriptives
Fluxdedonnées
Metadata = « Data about the data »
• Describe content, accessibility, completeness...
• About the dataset
• Error documentation
• Documentation of validation process, data cleaning
and data correcting
Metadata must be rich enough to allow data (re)use by a third
party without them having to refer to the data source.
Metadata
Documenting quality during digitization
Métadonnées = « Données sur les données »
• Décrivent le contenu, l’accessibilité, la complétude, ...
• A propos du dataset
• Documentation de l’erreur
• Documentation des procédures de validation, de
nettoyage et de correction appliquées
Les métadonnées doivent être suffisamment riches pour permettre
l’usage des données par des tiers sans devoir se référer à la source
de ces données.
Métadonnées
Documentation de la qualité pendant la numérisation
• Names (scientific, vernacular, rank, hierarchy, …)
• Statuts (synonyms, valid names, …)
• References (author, date and location)
• Identification (by whom and when?)
• Quality terms (ID certainty, …)
Taxonomicdata
Taxonomic data: definition
• Noms (scientifique, vernaculaire, rang, hiérarchie, …)
• Statuts (synonymes, nom valide, …)
• Références (auteur, date et lieu)
• Détermination (par qui et quand ?)
• Champs relatifs à la qualité
(certitude, …)
Donnéestaxonomiques
Données taxonomiques : définition
Scientific/vernacular name = entry point
Risk of propagating errors during the whole
data publishing process
Possible errors and solutions:
• Incorrect identifications (calls for help from a taxonomist)
• Typos (data cleaning)
• Wrong format (data cleaning)
Errors can affect scientific and vernacular names, from all
taxonomic ranks
Taxonomicdata
Taxonomic data
Souvent le nom = point d’entrée
Risque de propagation des erreurs tout au long du
processus de publication des données
Erreurs possibles et solutions :
• Identification incorrectes (requiert l’aide d’un taxonomiste)
• Erreurs orthographiques (nettoyage des données)
• Mauvais format (nettoyage des données)
Les erreurs peuvent concerner noms scientifiques et noms
communs, à tous les niveaux de taxonomie
Donnéestaxonomiques
Données taxonomiques
• Missing data (e.g.: subspecies written but not the species)
• Incorrect values (typos, wrong column, symbols « ?? », …)
• Non-atomic values (e.g.: « subsp. bicostasa » in a single term)
• Uncertainty on at least one name of the binominal nomenclature
• Duplicates (synonyms, several valid names…)
• Inconsistent data after to databases fusion using several
checklists
Taxonomicdata
Taxonomic data: common MISTAKES to avoid
• Données manquantes (ex : sous-espèce renseignée mais pas
l’espèce)
• Valeurs incorrectes (fautes de frappe, mauvaise colonne,
symboles « ?? », …)
• Valeurs non-atomiques (ex : « subsp. bicostasa » dans un seul
champ
• Incertitude sur un des noms de la nomenclature binomiale
• Valeurs dupliquées (synonymes, plusieurs noms valides…)
• Données inconsistantes suite à la fusion de deux bases de
données utilisant différents référentiels
Donnéestaxonomiques
Données taxonomiques : ERREURS à éviter
Spatial data (textual or geo-referenced) are one of the
key information to determine the fitness-for-use of
biodiversity primary data:
• Species distribution modelling
• Selection of areas to protect
• Resources and environment
management
• ...
Spatialdata
Spatial data: definition
Les données spatiales (textuelles ou géoréférencées)
représentent un des aspects cruciaux pour déterminer
l’adéquation à l’usage des données primaires de biodiversité:
• Modélisation de la distribution des espèces
• Sélections des zones à protéger
• Gestion de l’environnement et
des ressources
• ...
Donnéesspatiales
Données spatiales : définition
What are we talking about?
• Latitude and longitude
• Area
• Point + radius
• Bounding box = rectangle calculated from
the coordinates of two points)
• Polyline
• Grid reference
Spatialdata
Spatial data: definition (2)
De quoi s’agit-il ?
• Latitude et longitude
• Aire
• Point + rayon
• Boîte englobante (bounding box = rectangle
calculé à partir des coordonnées de deux points)
• Polyline
• Référence de grille
Donnéesspatiales
Données spatiales : définition (2)
Spatialdata
Data based on a grid
Donnéesspatiales
Données basées sur une grille
• Coordinates: a code documenting a position on Earth,
expressed with a SRS (spatial reference system). Most of
the time: latitude/longitude
• Georeferencing: the process of assigning a geographical
reference to a given record.
• Datum: geodetic system
Spatialdata
Spatial data: a few more definitions
• Coordonnées : un code documentant une position sur la
surface de la terre, exprimé suivant un SRS (spatial
reference system). En pratique; souvent latitude/longitude
• Géoréférencement : le procédé qui consiste à assigner une
référence géographique à un enregistrement donné.
• Datum : système géodésique
Donnéesspatiales
Données spatiales : quelques définitions
• Coordinates inversion
• Null values
• Unknown datum
• Inadapted SRS
• Conversion issues.
Spatial data: common MISTAKES to avoid
Early GBIF map showing USA data, making evident some
common mistakes:
● 0,0 coordinates (Greenwich meridian and Equator)
● Reverse coordinates (mirror effect on China and slight
mirror effect west of Chile)
Spatialdata
• Inversion des coordonnées
• Valeur(s) zéro
• Système géodésique ou
datum inconnu
• SRS inadapté
• Problèmes de conversion.
Donnéesspatiales
Données spatiales : ERREURS à éviter
Ancienne carte GBIF que présentait les données des États
Unis, montrant des exemples d’erreurs communes :
● Coordonnées 0, 0 (méridien de Greenwich et Equateur)
● Coordonnées inversées (miroir sur la Chine et léger
miroir à l’ouest du Chili)
• Collector name
• Collect date
• Additional information: habitat, soil, meteorological
conditions…
Relevance depends on dataset type:
• Static collection (museum) : collector name and ID, date,
habitat, capture technique...
• Observations: observation length, area, time of day, activity,
sex of the observed specimen…
• Sampling-event data: sampling methods, grid size, frequency,
collection of reference specimens
Collectiondata
Collection data: definition
• Nom du collecteur
• Date de collecte
• Informations supplémentaires: habitat, sol, conditions
météorologiques…
La pertinence dépend du type de jeu de données:
• Collection statique (musée) : nom et ID du collecteur, date,
habitat, méthode de capture ...
• Observations: +durée d’observation, zone, période de la
journée, activité, sexe du spécimen observé…
• Échantillonnage et inventaires exhaustifs : +méthode, taille
de la grille, fréquence, si des spécimens de référence ont été
collecté (+références)
Donnéesdecollecte
Données de collecte et de collecteur : définition
• Exactitude: names of the collector(s), date,…
• Consistency: use of a controlled vocabulary for soils,
habitats…
• Completeness: some terms are very rarely completed
(flowering period, associated species…) which can
impede data (re)use
Collectiondata
Collection data: factors
• Exactitude: nom du ou des collecteurs, date,…
• Cohérence: utilisation d’une terminologie (différente
pour les sols, les habitats…)
• Complétude : certains champs sont très rarement
renseignés (floraison, espèces associées…) ce qui peut
limiter la réutilisation des données
Données de collecte et de collecteur : facteurs
Donnéesdecollecte
• Variable quality: historical data impossible to check, data
description too expensive on time/money, subjectivity (colour
or abundance estimation…)
• Often data relative to the whole taxonomic rank and not the
specimen in particular
• Completeness: generally impossible to achieve on a given
specimen
• Consistency: some traits can be non consistent
o FLOWER_COLOUR = Carmine
o FLOWER_COLOUR = Crimson
Descriptivedata
Descriptive data: factors
• Qualité très variable : données historiques impossibles à
vérifier, description trop coûteuse en temps/argent, subjectivité
(estimation des couleurs, de l’abondance…)
• Souvent des données s’appliquant au niveau taxonomique et
pas au niveau du spécimen
• Complétude : généralement impossible à atteindre sur un
même spécimen
• Cohérence: attributs non consistants
o FLOWER_COLOUR = MAUVE
o FLOWER_COLOUR= violet clair
Donnéesdescriptives
Données descriptives : facteurs
23 AUGUST 2016
THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Reminders about Data Quality
Sharon Grant & Sophie Pamerlon
23 AOÛT 2016
THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION
Rappels sur la qualité des
données Sharon Grant et Sophie Pamerlon

More Related Content

What's hot

L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...Lesticetlart Invisu
 
Congress 09 data_share_handout_f
Congress 09 data_share_handout_fCongress 09 data_share_handout_f
Congress 09 data_share_handout_fFyrdaous Lahlou
 
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheAgropolis International
 
Description archivistique
Description archivistiqueDescription archivistique
Description archivistiqueDanis Habib
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesAgropolis International
 
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...Agropolis International
 

What's hot (6)

L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
 
Congress 09 data_share_handout_f
Congress 09 data_share_handout_fCongress 09 data_share_handout_f
Congress 09 data_share_handout_f
 
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
 
Description archivistique
Description archivistiqueDescription archivistique
Description archivistique
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
 
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...
L'Open Access et les Données de la Recherche dans le cadre du Programme Horiz...
 

Similar to Bid CE Workshop 1 session 06 - Data quality during digitization

Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Desconnets Jean-Christophe
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesDesconnets Jean-Christophe
 
structuration des métadonnées de pérennisation
structuration des métadonnées de pérennisationstructuration des métadonnées de pérennisation
structuration des métadonnées de pérennisationPascal Romain
 
Comprendre les Services du savoir
Comprendre les Services du savoirComprendre les Services du savoir
Comprendre les Services du savoirAlbert Simard
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
JIES 2014 A. Giordan - Introduction
JIES 2014 A. Giordan - IntroductionJIES 2014 A. Giordan - Introduction
JIES 2014 A. Giordan - IntroductionGroupe Traces
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Gautier Poupeau
 
Webinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la dataWebinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la dataGroupe EEIE
 
Presentation sur l'archivage à long terme à la MMSH (Aix-en-Provence) par Nic...
Presentation sur l'archivage à long terme à la MMSH (Aix-en-Provence) par Nic...Presentation sur l'archivage à long terme à la MMSH (Aix-en-Provence) par Nic...
Presentation sur l'archivage à long terme à la MMSH (Aix-en-Provence) par Nic...Phonothèque MMSH
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for BioinformaticsKarim Mezhoud
 
Presentation PIN 2011
Presentation PIN 2011Presentation PIN 2011
Presentation PIN 2011Pascal Romain
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifiquelazoumi ouarfli
 
Approches méthodologique d’analyse du web : en finir avec la division quali ...
Approches méthodologique d’analyse du web :  en finir avec la division quali ...Approches méthodologique d’analyse du web :  en finir avec la division quali ...
Approches méthodologique d’analyse du web : en finir avec la division quali ...Amar LAKEL, PhD
 
Les Services du savoir
Les Services du savoirLes Services du savoir
Les Services du savoirAlbert Simard
 

Similar to Bid CE Workshop 1 session 06 - Data quality during digitization (20)

Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...
 
Gestion des métadonnées. ANR PADOUE
Gestion des métadonnées. ANR PADOUEGestion des métadonnées. ANR PADOUE
Gestion des métadonnées. ANR PADOUE
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiatives
 
structuration des métadonnées de pérennisation
structuration des métadonnées de pérennisationstructuration des métadonnées de pérennisation
structuration des métadonnées de pérennisation
 
Comprendre les Services du savoir
Comprendre les Services du savoirComprendre les Services du savoir
Comprendre les Services du savoir
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
JIES 2014 A. Giordan - Introduction
JIES 2014 A. Giordan - IntroductionJIES 2014 A. Giordan - Introduction
JIES 2014 A. Giordan - Introduction
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
 
ontologie de capteurs
ontologie de capteursontologie de capteurs
ontologie de capteurs
 
Webinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la dataWebinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la data
 
Principes de la recherche documentaire
Principes de la recherche documentairePrincipes de la recherche documentaire
Principes de la recherche documentaire
 
Recherche documentaire pour doctorants - Automne 2015
Recherche documentaire pour doctorants - Automne 2015Recherche documentaire pour doctorants - Automne 2015
Recherche documentaire pour doctorants - Automne 2015
 
L'accès unifié à l'information: retour d'expérience Locarchives
L'accès unifié à l'information: retour d'expérience LocarchivesL'accès unifié à l'information: retour d'expérience Locarchives
L'accès unifié à l'information: retour d'expérience Locarchives
 
Presentation sur l'archivage à long terme à la MMSH (Aix-en-Provence) par Nic...
Presentation sur l'archivage à long terme à la MMSH (Aix-en-Provence) par Nic...Presentation sur l'archivage à long terme à la MMSH (Aix-en-Provence) par Nic...
Presentation sur l'archivage à long terme à la MMSH (Aix-en-Provence) par Nic...
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for Bioinformatics
 
Presentation PIN 2011
Presentation PIN 2011Presentation PIN 2011
Presentation PIN 2011
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
 
Approches méthodologique d’analyse du web : en finir avec la division quali ...
Approches méthodologique d’analyse du web :  en finir avec la division quali ...Approches méthodologique d’analyse du web :  en finir avec la division quali ...
Approches méthodologique d’analyse du web : en finir avec la division quali ...
 
Les Services du savoir
Les Services du savoirLes Services du savoir
Les Services du savoir
 

More from Alberto González-Talaván

BID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
BID CE Workshop 1 - Activity X.01 - Wrap-up and EvaluationBID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
BID CE Workshop 1 - Activity X.01 - Wrap-up and EvaluationAlberto González-Talaván
 
Bid ce workshop 1 Activity V.01 - Planning a biodiversity data mobilization...
Bid ce workshop 1   Activity V.01 - Planning a biodiversity data mobilization...Bid ce workshop 1   Activity V.01 - Planning a biodiversity data mobilization...
Bid ce workshop 1 Activity V.01 - Planning a biodiversity data mobilization...Alberto González-Talaván
 
BID CE Workshop 1 - Activity IV.02 - BID Community
BID CE Workshop 1 - Activity IV.02 - BID CommunityBID CE Workshop 1 - Activity IV.02 - BID Community
BID CE Workshop 1 - Activity IV.02 - BID CommunityAlberto González-Talaván
 
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and IntroductionBid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and IntroductionAlberto González-Talaván
 
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1   Session 09 - Biodiversity Data Management ToolsBID CE Workshop 1   Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1 Session 09 - Biodiversity Data Management ToolsAlberto González-Talaván
 
BID CE Workshop 1 session 07 - Digitization Software Example - BIOTA
BID CE Workshop 1   session 07 - Digitization Software Example - BIOTABID CE Workshop 1   session 07 - Digitization Software Example - BIOTA
BID CE Workshop 1 session 07 - Digitization Software Example - BIOTAAlberto González-Talaván
 
BID CE Workshop 1 - session 12 - Basic use of the GBIF IPT
BID CE Workshop 1 -  session 12 - Basic use of the GBIF IPTBID CE Workshop 1 -  session 12 - Basic use of the GBIF IPT
BID CE Workshop 1 - session 12 - Basic use of the GBIF IPTAlberto González-Talaván
 
BID CE Workshop 1 Session 15 - Wrap-up and Evaluation
BID CE Workshop 1   Session 15 - Wrap-up and EvaluationBID CE Workshop 1   Session 15 - Wrap-up and Evaluation
BID CE Workshop 1 Session 15 - Wrap-up and EvaluationAlberto González-Talaván
 
BID CE workshop 1 session 03 - Data mobilization planning
BID CE workshop 1   session 03 - Data mobilization planningBID CE workshop 1   session 03 - Data mobilization planning
BID CE workshop 1 session 03 - Data mobilization planningAlberto González-Talaván
 
BID CE workshop 1 session 08 - Biodiversity Data Cleaning
BID CE workshop 1   session 08 - Biodiversity Data CleaningBID CE workshop 1   session 08 - Biodiversity Data Cleaning
BID CE workshop 1 session 08 - Biodiversity Data CleaningAlberto González-Talaván
 
BID CE workshop 1 session 10 - presentation - Open Refine
BID CE workshop 1   session 10 - presentation - Open RefineBID CE workshop 1   session 10 - presentation - Open Refine
BID CE workshop 1 session 10 - presentation - Open RefineAlberto González-Talaván
 
GBIF Pilot Experience Using Mozilla Open Badges
GBIF Pilot Experience Using Mozilla Open BadgesGBIF Pilot Experience Using Mozilla Open Badges
GBIF Pilot Experience Using Mozilla Open BadgesAlberto González-Talaván
 
Séance 07. Démonstration de la publication des données d'échantillonnage. For...
Séance 07. Démonstration de la publication des données d'échantillonnage. For...Séance 07. Démonstration de la publication des données d'échantillonnage. For...
Séance 07. Démonstration de la publication des données d'échantillonnage. For...Alberto González-Talaván
 
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.Alberto González-Talaván
 
Session 09, Wrap up and evaluation. GB22 Nodes training event.
Session 09, Wrap up and evaluation. GB22 Nodes training event.Session 09, Wrap up and evaluation. GB22 Nodes training event.
Session 09, Wrap up and evaluation. GB22 Nodes training event.Alberto González-Talaván
 
Session 07, Sample-data publishing demo. GB22 Nodes training event.
Session 07, Sample-data publishing demo. GB22 Nodes training event. Session 07, Sample-data publishing demo. GB22 Nodes training event.
Session 07, Sample-data publishing demo. GB22 Nodes training event. Alberto González-Talaván
 
Session 03, Practical demo on how to prepare and map different types of data....
Session 03, Practical demo on how to prepare and map different types of data....Session 03, Practical demo on how to prepare and map different types of data....
Session 03, Practical demo on how to prepare and map different types of data....Alberto González-Talaván
 
Séance 03, Démonstration pratique de comment préparer et mapper different dyp...
Séance 03, Démonstration pratique de comment préparer et mapper different dyp...Séance 03, Démonstration pratique de comment préparer et mapper different dyp...
Séance 03, Démonstration pratique de comment préparer et mapper different dyp...Alberto González-Talaván
 

More from Alberto González-Talaván (20)

BID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
BID CE Workshop 1 - Activity X.01 - Wrap-up and EvaluationBID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
BID CE Workshop 1 - Activity X.01 - Wrap-up and Evaluation
 
Bid ce workshop 1 Activity V.01 - Planning a biodiversity data mobilization...
Bid ce workshop 1   Activity V.01 - Planning a biodiversity data mobilization...Bid ce workshop 1   Activity V.01 - Planning a biodiversity data mobilization...
Bid ce workshop 1 Activity V.01 - Planning a biodiversity data mobilization...
 
BID CE Workshop 1 - Activity IV.02 - BID Community
BID CE Workshop 1 - Activity IV.02 - BID CommunityBID CE Workshop 1 - Activity IV.02 - BID Community
BID CE Workshop 1 - Activity IV.02 - BID Community
 
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and IntroductionBid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
Bid CE Workshop 1 - ONLINE VERSION - Activity 01 - Welcome and Introduction
 
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1   Session 09 - Biodiversity Data Management ToolsBID CE Workshop 1   Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
 
BID CE Workshop 1 session 07 - Digitization Software Example - BIOTA
BID CE Workshop 1   session 07 - Digitization Software Example - BIOTABID CE Workshop 1   session 07 - Digitization Software Example - BIOTA
BID CE Workshop 1 session 07 - Digitization Software Example - BIOTA
 
BID CE Workshop 1 - session 12 - Basic use of the GBIF IPT
BID CE Workshop 1 -  session 12 - Basic use of the GBIF IPTBID CE Workshop 1 -  session 12 - Basic use of the GBIF IPT
BID CE Workshop 1 - session 12 - Basic use of the GBIF IPT
 
BID CE Workshop 1 Session 15 - Wrap-up and Evaluation
BID CE Workshop 1   Session 15 - Wrap-up and EvaluationBID CE Workshop 1   Session 15 - Wrap-up and Evaluation
BID CE Workshop 1 Session 15 - Wrap-up and Evaluation
 
BID CE workshop 1 session 03 - Data mobilization planning
BID CE workshop 1   session 03 - Data mobilization planningBID CE workshop 1   session 03 - Data mobilization planning
BID CE workshop 1 session 03 - Data mobilization planning
 
BID CE workshop 1 session 08 - Biodiversity Data Cleaning
BID CE workshop 1   session 08 - Biodiversity Data CleaningBID CE workshop 1   session 08 - Biodiversity Data Cleaning
BID CE workshop 1 session 08 - Biodiversity Data Cleaning
 
BID CE workshop 1 session 10 - presentation - Open Refine
BID CE workshop 1   session 10 - presentation - Open RefineBID CE workshop 1   session 10 - presentation - Open Refine
BID CE workshop 1 session 10 - presentation - Open Refine
 
BID CE WORKSHOP 1 - Session 01 - Introduction
BID CE WORKSHOP 1 -  Session 01 - IntroductionBID CE WORKSHOP 1 -  Session 01 - Introduction
BID CE WORKSHOP 1 - Session 01 - Introduction
 
GBIF Work Programme 2016 Update
GBIF Work Programme 2016 UpdateGBIF Work Programme 2016 Update
GBIF Work Programme 2016 Update
 
GBIF Pilot Experience Using Mozilla Open Badges
GBIF Pilot Experience Using Mozilla Open BadgesGBIF Pilot Experience Using Mozilla Open Badges
GBIF Pilot Experience Using Mozilla Open Badges
 
Séance 07. Démonstration de la publication des données d'échantillonnage. For...
Séance 07. Démonstration de la publication des données d'échantillonnage. For...Séance 07. Démonstration de la publication des données d'échantillonnage. For...
Séance 07. Démonstration de la publication des données d'échantillonnage. For...
 
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
Session 09, Sommaire et évaluation. Formation GB22 pour points nodaux.
 
Session 09, Wrap up and evaluation. GB22 Nodes training event.
Session 09, Wrap up and evaluation. GB22 Nodes training event.Session 09, Wrap up and evaluation. GB22 Nodes training event.
Session 09, Wrap up and evaluation. GB22 Nodes training event.
 
Session 07, Sample-data publishing demo. GB22 Nodes training event.
Session 07, Sample-data publishing demo. GB22 Nodes training event. Session 07, Sample-data publishing demo. GB22 Nodes training event.
Session 07, Sample-data publishing demo. GB22 Nodes training event.
 
Session 03, Practical demo on how to prepare and map different types of data....
Session 03, Practical demo on how to prepare and map different types of data....Session 03, Practical demo on how to prepare and map different types of data....
Session 03, Practical demo on how to prepare and map different types of data....
 
Séance 03, Démonstration pratique de comment préparer et mapper different dyp...
Séance 03, Démonstration pratique de comment préparer et mapper different dyp...Séance 03, Démonstration pratique de comment préparer et mapper different dyp...
Séance 03, Démonstration pratique de comment préparer et mapper different dyp...
 

Recently uploaded

La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfLa Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfbdp12
 
Cours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationCours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationpapediallo3
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre françaisTxaruka
 
Chana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneChana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneTxaruka
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfRiDaHAziz
 
Apprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursApprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursStagiaireLearningmat
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 37
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 37
 
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfVulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfSylvianeBachy
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx   Film     françaisPas de vagues.  pptx   Film     français
Pas de vagues. pptx Film françaisTxaruka
 
Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Gabriel Gay-Para
 
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 37
 
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxDIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxMartin M Flynn
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx      Film   françaisPas de vagues.  pptx      Film   français
Pas de vagues. pptx Film françaisTxaruka
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfRiDaHAziz
 
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxPrésentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxJCAC
 
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...NaimDoumissi
 

Recently uploaded (18)

La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfLa Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
 
Cours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationCours de Management des Systèmes d'information
Cours de Management des Systèmes d'information
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre français
 
Chana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneChana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienne
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdf
 
Apprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursApprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceurs
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
 
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfVulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx   Film     françaisPas de vagues.  pptx   Film     français
Pas de vagues. pptx Film français
 
Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)
 
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
 
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxDIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx      Film   françaisPas de vagues.  pptx      Film   français
Pas de vagues. pptx Film français
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdf
 
Bulletin des bibliotheques Burkina Faso mars 2024
Bulletin des bibliotheques Burkina Faso mars 2024Bulletin des bibliotheques Burkina Faso mars 2024
Bulletin des bibliotheques Burkina Faso mars 2024
 
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxPrésentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
 
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
 

Bid CE Workshop 1 session 06 - Data quality during digitization

  • 1. 23 AUGUST 2016 THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION Reminders about Data Quality Sharon Grant & Sophie Pamerlon
  • 2. 23 AOÛT 2016 THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION Rappels sur la qualité des données Sharon Grant et Sophie Pamerlon
  • 3. INDEX Background Data Workflow Data Quality and Digitization Metadata Taxonomic information Spatial information Collection information Descriptive information Index
  • 4. INDEX Contexte Flux des données Qualité des données et numérisation Métadonnées Données taxonomiques Donnée spatiales Données de collecte Données descriptives Index
  • 5. From data to understanding… Oceans of data… Background
  • 6. Des données à la compréhension… Des océans de données… Contexte
  • 9. … streams of knowledge… Background
  • 10. … des ruisseaux de connaissances … Contexte
  • 12. …des gouttes de compréhension Contexte
  • 13. Data quality is a relative concept that depends on the use of these data. "The general intent of describing the quality of a particular dataset or record is to describe the fitness of that dataset or record for a particular use that one may have in mind for the data." Chrisman, 1991 Fitness for use - Definition Definition
  • 14. La qualité des données est un concept relatif qui dépend de l’usage qui est fait de ces données… « L’intention générale, lorsqu’on décrit la qualité d’un jeu de données ou d’un enregistrement, est de décrire l’adéquation de ce jeu de données ou enregistrement à l’usage que l’on souhaite que d’autres personnes en fassent.» Chrisman, 1991 « Fitness-for-use » Adéquation à l’usage - définition Définition
  • 15. Each institution should have: 1.A vision targeted on data quality o Don’t « reinvent the wheel » and use standards o Seek efficiency (in collecting data and quality checks) and avoid duplicating efforts o Promote sharing (data, informations, tools, standards…) o Think at a large scale o Cater to users and their needs o Invest in documentation and metadata 1.A policy implementing this vision 1.An implementation strategy for this policy (precise goals at short, mean and long term) Data Processing and Quality Dataworkflow
  • 16. Chaque institution devrait avoir : 1.Une vision ciblant la qualité des données o Ne pas “réinventer la roue” et utiliser les standards o Chercher l’efficacité (dans la collecte et l’assurance qualité) and éviter la duplication d’effort o Encourager le partage (données, informations et outils) o Réfléchir à long terme o Prendre soin des utilisateurs et de leurs besoins o Investir dans la documentation et les métadonnées 1.Une politique implémentant cette vision 1.Une stratégie d’implémentation pour cette politique (échéances précises à court, moyen et long terme) Chaîne des Données et Qualité Fluxdedonnées
  • 17. Quality loss happens at every step. The responsibility in terms of data quality has to be assigned at the earlier possible step of the process. Dataworkflow Data Processing and Quality
  • 18. La perte de qualité survient à chaque étape. La responsabilité en terme de qualité de données doit être assignée le plus tôt possible dans cette chaîne. Fluxdedonnées Chaîne des Données et Qualité
  • 19. Curator Retranscription quality in the database Regular validation tests. Data regularly saved and archived Keep precedent versions Ensure respect of private life, intellectual rights, local traditions and sensibilities ... Provide quality documentation (including known issues about the data) Take feedback into account Responsibility for maintenance but also moral responsibility to improve data quality (if possible) for future uses and users. Sharing responsibilities User Inform data curators about Mistakes and et omissions in data and documentation. Provide feedback to define future priorities When using data, determine whether data are adequate for intended use and not use them if this is not the case. Collector Labels and logs are as correct, complete and readable as possible Collection methods are vastly documented Remarks are clear and non- ambiguous Dataflow
  • 20. Conservateur Qualité des retranscriptions dans la base de données Tests de validation réguliers et documentés. Les données sont sauvegardées et archivées Les versions précédentes sont conservées Assurer le respect (vie privées, propriété intellectuelle, traditions locales, ...) Fournir une documentation de qualité (incluant les problèmes connus) Les retours utilisateurs sont pris en compte Responsabilité de maintenance et d’améliorer la qualité des données pour de futurs utilisateurs et usages. Partage des Responsabilités Utilisateur Informer les conservateurs des erreurs et omissions dans les données et la documentation Définir les priorités futures A l’usage, déterminer si les donnés sont adaptées à l’usage prévu et ne pas les utiliser de façon non-adéquate. Collecteur L’étiquetage et les journaux sont corrects, aussi complets que possible et lisibles Les méthodes de collecte sont largement documentées Les remarques sont claires et non-ambiguës Fluxdedonnées
  • 21. What can the digitization team do? 1. Help document the data(set) through metadata and record-level annotations 2. Ensure the maximum quality possible when digitizing: 1. Taxonomic data 2. Geographical data 3. Collection and collector data 4. Descriptive data Dataworkflow
  • 22. Que peuvent faire les équipes de numérisation ? 1. Aider à documenter le(s) jeu(x) de données grâce aux métadonnées et annotations sur les occurrences 2. S’assurer de la meilleure qualité possible lors de la numérisation : 1. Données taxonomiques 2. Données géographiques 3. Données sur la collection et le collecteur 4. Données descriptives Fluxdedonnées
  • 23. Metadata = « Data about the data » • Describe content, accessibility, completeness... • About the dataset • Error documentation • Documentation of validation process, data cleaning and data correcting Metadata must be rich enough to allow data (re)use by a third party without them having to refer to the data source. Metadata Documenting quality during digitization
  • 24. Métadonnées = « Données sur les données » • Décrivent le contenu, l’accessibilité, la complétude, ... • A propos du dataset • Documentation de l’erreur • Documentation des procédures de validation, de nettoyage et de correction appliquées Les métadonnées doivent être suffisamment riches pour permettre l’usage des données par des tiers sans devoir se référer à la source de ces données. Métadonnées Documentation de la qualité pendant la numérisation
  • 25. • Names (scientific, vernacular, rank, hierarchy, …) • Statuts (synonyms, valid names, …) • References (author, date and location) • Identification (by whom and when?) • Quality terms (ID certainty, …) Taxonomicdata Taxonomic data: definition
  • 26. • Noms (scientifique, vernaculaire, rang, hiérarchie, …) • Statuts (synonymes, nom valide, …) • Références (auteur, date et lieu) • Détermination (par qui et quand ?) • Champs relatifs à la qualité (certitude, …) Donnéestaxonomiques Données taxonomiques : définition
  • 27. Scientific/vernacular name = entry point Risk of propagating errors during the whole data publishing process Possible errors and solutions: • Incorrect identifications (calls for help from a taxonomist) • Typos (data cleaning) • Wrong format (data cleaning) Errors can affect scientific and vernacular names, from all taxonomic ranks Taxonomicdata Taxonomic data
  • 28. Souvent le nom = point d’entrée Risque de propagation des erreurs tout au long du processus de publication des données Erreurs possibles et solutions : • Identification incorrectes (requiert l’aide d’un taxonomiste) • Erreurs orthographiques (nettoyage des données) • Mauvais format (nettoyage des données) Les erreurs peuvent concerner noms scientifiques et noms communs, à tous les niveaux de taxonomie Donnéestaxonomiques Données taxonomiques
  • 29. • Missing data (e.g.: subspecies written but not the species) • Incorrect values (typos, wrong column, symbols « ?? », …) • Non-atomic values (e.g.: « subsp. bicostasa » in a single term) • Uncertainty on at least one name of the binominal nomenclature • Duplicates (synonyms, several valid names…) • Inconsistent data after to databases fusion using several checklists Taxonomicdata Taxonomic data: common MISTAKES to avoid
  • 30. • Données manquantes (ex : sous-espèce renseignée mais pas l’espèce) • Valeurs incorrectes (fautes de frappe, mauvaise colonne, symboles « ?? », …) • Valeurs non-atomiques (ex : « subsp. bicostasa » dans un seul champ • Incertitude sur un des noms de la nomenclature binomiale • Valeurs dupliquées (synonymes, plusieurs noms valides…) • Données inconsistantes suite à la fusion de deux bases de données utilisant différents référentiels Donnéestaxonomiques Données taxonomiques : ERREURS à éviter
  • 31. Spatial data (textual or geo-referenced) are one of the key information to determine the fitness-for-use of biodiversity primary data: • Species distribution modelling • Selection of areas to protect • Resources and environment management • ... Spatialdata Spatial data: definition
  • 32. Les données spatiales (textuelles ou géoréférencées) représentent un des aspects cruciaux pour déterminer l’adéquation à l’usage des données primaires de biodiversité: • Modélisation de la distribution des espèces • Sélections des zones à protéger • Gestion de l’environnement et des ressources • ... Donnéesspatiales Données spatiales : définition
  • 33. What are we talking about? • Latitude and longitude • Area • Point + radius • Bounding box = rectangle calculated from the coordinates of two points) • Polyline • Grid reference Spatialdata Spatial data: definition (2)
  • 34. De quoi s’agit-il ? • Latitude et longitude • Aire • Point + rayon • Boîte englobante (bounding box = rectangle calculé à partir des coordonnées de deux points) • Polyline • Référence de grille Donnéesspatiales Données spatiales : définition (2)
  • 37. • Coordinates: a code documenting a position on Earth, expressed with a SRS (spatial reference system). Most of the time: latitude/longitude • Georeferencing: the process of assigning a geographical reference to a given record. • Datum: geodetic system Spatialdata Spatial data: a few more definitions
  • 38. • Coordonnées : un code documentant une position sur la surface de la terre, exprimé suivant un SRS (spatial reference system). En pratique; souvent latitude/longitude • Géoréférencement : le procédé qui consiste à assigner une référence géographique à un enregistrement donné. • Datum : système géodésique Donnéesspatiales Données spatiales : quelques définitions
  • 39. • Coordinates inversion • Null values • Unknown datum • Inadapted SRS • Conversion issues. Spatial data: common MISTAKES to avoid Early GBIF map showing USA data, making evident some common mistakes: ● 0,0 coordinates (Greenwich meridian and Equator) ● Reverse coordinates (mirror effect on China and slight mirror effect west of Chile) Spatialdata
  • 40. • Inversion des coordonnées • Valeur(s) zéro • Système géodésique ou datum inconnu • SRS inadapté • Problèmes de conversion. Donnéesspatiales Données spatiales : ERREURS à éviter Ancienne carte GBIF que présentait les données des États Unis, montrant des exemples d’erreurs communes : ● Coordonnées 0, 0 (méridien de Greenwich et Equateur) ● Coordonnées inversées (miroir sur la Chine et léger miroir à l’ouest du Chili)
  • 41. • Collector name • Collect date • Additional information: habitat, soil, meteorological conditions… Relevance depends on dataset type: • Static collection (museum) : collector name and ID, date, habitat, capture technique... • Observations: observation length, area, time of day, activity, sex of the observed specimen… • Sampling-event data: sampling methods, grid size, frequency, collection of reference specimens Collectiondata Collection data: definition
  • 42. • Nom du collecteur • Date de collecte • Informations supplémentaires: habitat, sol, conditions météorologiques… La pertinence dépend du type de jeu de données: • Collection statique (musée) : nom et ID du collecteur, date, habitat, méthode de capture ... • Observations: +durée d’observation, zone, période de la journée, activité, sexe du spécimen observé… • Échantillonnage et inventaires exhaustifs : +méthode, taille de la grille, fréquence, si des spécimens de référence ont été collecté (+références) Donnéesdecollecte Données de collecte et de collecteur : définition
  • 43. • Exactitude: names of the collector(s), date,… • Consistency: use of a controlled vocabulary for soils, habitats… • Completeness: some terms are very rarely completed (flowering period, associated species…) which can impede data (re)use Collectiondata Collection data: factors
  • 44. • Exactitude: nom du ou des collecteurs, date,… • Cohérence: utilisation d’une terminologie (différente pour les sols, les habitats…) • Complétude : certains champs sont très rarement renseignés (floraison, espèces associées…) ce qui peut limiter la réutilisation des données Données de collecte et de collecteur : facteurs Donnéesdecollecte
  • 45. • Variable quality: historical data impossible to check, data description too expensive on time/money, subjectivity (colour or abundance estimation…) • Often data relative to the whole taxonomic rank and not the specimen in particular • Completeness: generally impossible to achieve on a given specimen • Consistency: some traits can be non consistent o FLOWER_COLOUR = Carmine o FLOWER_COLOUR = Crimson Descriptivedata Descriptive data: factors
  • 46. • Qualité très variable : données historiques impossibles à vérifier, description trop coûteuse en temps/argent, subjectivité (estimation des couleurs, de l’abondance…) • Souvent des données s’appliquant au niveau taxonomique et pas au niveau du spécimen • Complétude : généralement impossible à atteindre sur un même spécimen • Cohérence: attributs non consistants o FLOWER_COLOUR = MAUVE o FLOWER_COLOUR= violet clair Donnéesdescriptives Données descriptives : facteurs
  • 47. 23 AUGUST 2016 THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION Reminders about Data Quality Sharon Grant & Sophie Pamerlon
  • 48. 23 AOÛT 2016 THE BID PROGRAMME IS FUNDED BY THE EUROPEAN UNION Rappels sur la qualité des données Sharon Grant et Sophie Pamerlon