Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Les métadonnées des images fixes et les médias sociaux
1. 1/43
16e
Journées des Archives
Pérenniser l’éphémère. Archivage et médias sociaux
Louvain-la-Neuve, 9 et 10 mai 2016
http://dejavu.hypotheses.org/
Les métadonnées des images fixes
et les médias sociaux
Patrick Peccatte
Informaticien
Chercheur associé au Laboratoire d'histoire visuelle contemporaine
(Lhivic/EHESS)
peccatte@softexperience.com
Twitter: @ppeccatte
Facebook: patrick.peccatte
Google+: Patrick Peccatte
Flickr: patrickpeccatte et photosnormandie
Tumblr: dubruitausignal.tumblr.com
2. 2/43
Au menu...
Rappel sur les métadonnées des images fixes
Panorama du (non) traitement des métadonnées
des images fixes sur les médias sociaux
Un exemple d'utilisation des métadonnées sur la
plate-forme Flickr:
le projet PhotosNormandie
7. 7/43
Images numériques fixes
Où sont les métadonnées ?
À l'extérieur des données elles-mêmes, dans un
catalogue.
Les métadonnées sont externes.
~ écrire sur l'album de photos
Dans les données elles-mêmes.
Les métadonnées sont internes, "embarquées"
dans les ressources numériques.
~ écrire au verso de la photo
8. 8/43
Quelques techniques de métadonnées
des images numériques fixes
Exif
(EXchangeable Image File)
IPTC/IIM
(International Press and Telecommunications
Council / Information Interchange Model)
XMP
(EXtensible Metadata Platform)
9. 9/43
EXIF
EXIF est une abréviation de EXchangeable Image File.
Développé en octobre 1995 par le JEIDA
(Japan Electronic Industry Development Association).
Ce n'est pas un standard, mais il est supporté par tous les fabricants
d'appareils photographiques numériques (APN)
Définit les paramètres de prise de vue et les réglages de l'appareil au
moment de la capture numérique.
Ce sont des métadonnées de type interne.
✔ fabricant et modèle de l'appareil
✔ hauteur et largeur de l'image
✔ date et heure de la prise de vue
✔ orientation
✔ résolution, temps d'exposition, ouverture
✔ présence d'un flash
✔ coordonnées GPS
✔ etc.
10. 10/43
IPTC
L'IPTC (International Press and Telecommunications
Council) est un consortium qui réunit les principales
agences de presses du monde
L'IPTC développe des standards techniques d'échange
de données pour la presse
Ces standards sont employés par la quasi-totalité des
agences de presse du monde
11. 11/43
IPTC/IIM (1/2)
L'IPTC et la NAA (Newspaper Association of America)
ont créé en 1991 le modèle global de données appelé
Information Interchange Model [IIM]
Sous-ensemble de l'IIM utilisé par Adobe en 1994 pour
définir dans Photoshop les informations associées à
une image
Standard considéré comme obsolète par l'IPTC et
remplacé par XMP
12. 12/43
Métadonnées internes = ensemble de champs
textuels stockés dans le fichier image:
Titre, Légende, Mots-clés, Copyright, etc.
Standard toujours très utilisé dans la presse et
l'édition, bien qu'il soit considéré comme
obsolète
IPTC/IIM (2/2)
13. 13/43
XMP – Extensible Metadata Platform
Créé par Adobe en septembre 2001
Utilise une version simplifiée de RDF
(Resource Description Framework)
●
Standard développé par le W3C, base du Web sémantique
●
Permet d'encoder, échanger et réutiliser des métadonnées
structurées
●
Images munies de métadonnées XMP:
probablement la plus grande collection d'objets décrits en RDF
sur le Web...
●
N'est pas réservé aux images...
Utilise le schéma Dublin Core comme fondation
Standard ISO depuis mars 2012: ISO 16684-1:2012
14. 14/43
Fichier image numérique
Où sont les métadonnées ?
Exif IPTC/IIM
GPS
Autres informations...
XMP XMP
Vignette
intégrée
Catalogue
(informations
externes
explicites)
exploitation
copie externe
contexte de
publication
(sans métadonnées)
15. 15/43
Avantages et inconvénients
des métadonnées internes
Avantage des métadonnées internes :
l'échange est facilité; la ressource numérique
transporte avec elle ses propres métadonnées
lorsqu'elle est téléchargée, copiée, renommée,
compactée, etc.
Inconvénient des métadonnées internes :
il est nécessaire d'extraire les métadonnées et
les copier dans une base de données pour
exploiter une grande collection de ressources
numériques.
~ retourner la photo pour lire la légende
16. 16/43
Contexte de publication
l'exemple de Google Images (1/2)
●
Google Images indexe le contexte de publication,
c'est-à-dire le nom du fichier image et le texte qui
encadre l'image dans la page où elle apparaît
✔
Pour un moteur de recherche généraliste, les images
avec des métadonnées internes constituent une partie
insignifiante des images du web
●
Google Images n'indexe pas les métadonnées
internes des images (IPTC/IIM ou XMP)
✔
Test en indexant une image avec un mot-clé "hapax"
en IPTC/IIM et XMP
17. 17/43
Contexte de publication
l'exemple de Google Images (2/2)
●
Une Interrogation récurrente en SEO (Search Engine
Optimization / Optimisation pour les moteurs de
recherche):
La présence de métadonnées internes aux images
améliore-t-elle le positionnement dans les résultats de
recherche de Google Images ?
La réponse est non
●
Mais Google a probablement des projets internes qui
exploitent les métadonnées internes aux images
18. 18/43
Le Manifeste
"Embedded Metadata Manifesto"
Le Manifeste "Embedded Metadata" (métadonnées
embarquées/intégrées) de l'IPTC définit cinq principes
directeurs pour la création et le stockage des
métadonnées, afin qu'elles soient transportées avec le
fichier chaque fois que c'est possible
Le Manifeste affirme que les métadonnées associées à
une image doivent être persistantes dans toutes les
étapes du flux des informations (workflow)
Le Manifeste s'adresse à tous les organismes qui
gèrent des métadonnées et aux fournisseurs de
matériels et de logiciels dont les systèmes exploitent
des flux de données
20. 20/43
Méthode
Image de test avec un jeu complet de métadonnées
(Exif, IPTC/IIM, XMP) téléchargée sur différents sites
Détail du protocole ici:
http://www.embeddedmetadata.org/social-media-test-procedure.php
21. 21/43
Historique et objectifs
Deux séries de tests en 2013 et 2015
✔
Prendre en compte les nouveaux réseaux sociaux
✔
Observer les évolutions éventuelles
Analyser quelles sont les métadonnées
embarquées qui s'affichent sur chaque plate-forme
de réseau social
Vérifier les métadonnées préservées et celles qui
sont supprimées
22. 22/43
Quatre tests précis
Quelles sont les métadonnées embarquées qui
s'affichent dans l'interface utilisateur ?
Les informations de crédit sont-elles correctement
affichées ?
Vérification des "4C" :
Caption, Creator, Copyright Notice, Creditline
Quelles sont les métadonnées préservées lorsque
l'on récupère l'image depuis un navigateur, à l'aide
d'une commande du genre Save As ?
Quelles sont les métadonnées préservées lorsque
le réseau social propose un téléchargement de
l'image (bouton Download) ?
23. 23/43
Résultats
Ce n'est pas très brillant!
Les réseaux sociaux les plus connus altèrent les
métadonnées embarquées d'une manière ou d'une
autre
La situation se détériore globalement; les résultats
étaient un peu meilleurs en 2013
Quelques détails...
24. 24/43
Dropbox
Aucune métadonnée n'est affichée
Les métadonnées sont préservées uniquement lors
d'un download, elles ne sont pas préservées avec
un Save As
Dégradation:
en 2013, elles étaient préservées avec un Save As
25. 25/43
Facebook
Aucune métadonnée n'est affichée
Seules les métadonnées Copyright Notice et
Creator de l'IPTC/IIM sont préservées avec un
Save As. Toutes les autres sont supprimées.
Légère amélioration depuis 2013:
toutes les métadonnées étaient alors supprimées
avec un Save As
26. 26/43
Facebook - une curiosité intrigante (1/2)
Facebook ajoute systématiquement deux
métadonnées IPTC/IIM
27. 27/43
Facebook - une curiosité intrigante (2/2)
Il est extrêmement difficile de comprendre à quoi
correspondent ces codes générés lors du
téléchargement d'une image sur Facebook
Aucune communication de Facebook sur ce sujet
et le reverse engineering a des limites
L’IPTC ignore tout de cette particularité des images
ayant transité par Facebook
Grâce à ce dispositif, Facebook est peut-être
capable d’effectuer un suivi élémentaire des
images qui ont transité sur la plate-forme
28. 28/43
Flickr
Quelques métadonnées sont affichées
correctement, mais pas toutes les "4C"
Toutes les métadonnées sont préservées lors d'un
download ou un Save As de l'image dans sa
définition originale, mais elles sont supprimées
dans les autres définitions
Dégradation
Vers 2010, toutes les résolutions intermédiaires
proposées par la plate-forme possédaient les
métadonnées de l'image originale
29. 29/43
Google Photos
Quelques métadonnées sont affichées
correctement, mais pas toutes les "4C"
Les métadonnées sont préservées lors d'un
download de l'image originale
Seules les métadonnées Exif sont préservées avec
un Save As sur les images en résolution réduite
Dégradation
En 2013, toutes les métadonnées étaient
préservées avec un Save As sur les images en
résolution réduite
30. 30/43
Instagram
Aucune métadonnée n'est affichée
Aucune sauvegarde n'est possible
En 2013, le Save As était possible mais supprimait
les métadonnées
L'un des pires réseaux sociaux au regard des
métadonnées...
31. 31/43
Pinterest
Aucune métadonnée n'est affichée
Les métadonnées sont préservées avec un Save
As de l'image dans sa définition originale, mais pas
lors d'un download
Non testé en 2013
32. 32/43
Tumblr
Aucune métadonnée n'est affichée
Seules les métadonnées Exif sont préservées avec
un Save As, toutes les autres sont supprimées
Dégradation
En 2013, toutes les métadonnées embarquées
étaient préservées avec un Save As
33. 33/43
Twitter
Aucune métadonnée n'est affichée
Seules les images en résolution réduite sont
disponibles avec un Save As, sans aucune
métadonnées
Inchangé depuis 2013
Lanterne rouge avec Instagram
34. 34/43
Il est pourtant possible de concevoir des réseaux sociaux
respectueux des métadonnées embarquées
L'exemple de Behance
Appartient à Adobe
www.behance.net
Porte-folios d'artistes
Toutes les métadonnées 4C sont correctement
affichées
Plusieurs autres métadonnées (mais pas toutes)
sont également affichées
Toutes les métadonnées sont préservées lors d'un
download et avec un Save As
35. 35/43
Il est aussi possible de travailler avec les métadonnées
embarquées sur un réseau social "médiocre"
Le projet PhotosNormandie sur Flickr
Améliorer la description documentaire d'un fonds de
plus de 3400 photographies historiques sur la
bataille de Normandie
Actif sur la plate-forme grand public Flickr depuis
janvier 2007
www.flickr.com/photos/photosnormandie/
Ouvert à tous.
Une soixantaine de contributeurs (une dizaine
d'intervenants participent régulièrement au projet)
Crowdsourcing (contenus générés par les utilisateurs),
indexation sociale, indexation collaborative, indexation
contributive, redocumentarisation, etc.
36. 36/43
Origine des photos
2760 photos proviennent du site
Archives Normandie 1939-1945 [n'existe plus]
✔
Service public du Conseil Régional de Basse-
Normandie mis en place en 2004
✔
Photos libres de droit issues des
Archives Nationales des États-Unis et du Canada
296 photos de The Allison Collection: photos
transmises par radio en 1944
322 photos proviennent de la bibliothèque de la
ville de Cherbourg-Octeville
163 photos proviennent de la Médiathèque de
Lisieux
37. 37/43
Les légendes des photos
Les légendes des photos sont écrites selon les
standards de métadonnées IPTC/IIM et XMP
Ensemble de champs textuels (Titre, Légende, Mots-clés,
Copyright, etc.) stockés dans le fichier image
S'appuie sur une fonctionnalité peu connue de la
plate-forme Flickr
Renseignement automatique de champs Flickr à partir
des champs IPTC lors du téléchargement d'une photo
40. 40/43
Avantages des métadonnées
embarquées dans les photos
La description textuelle de l'image est
toujours disponible avec l'image et
facilement réutilisable
L'utilisateur reste libre de la technologie de base
de données utilisée pour l'exploitation de son
corpus d'images
Comme les images, les métadonnées
vous appartiennent, elles n'appartiennent
pas à votre prestataire de service
41. 41/43
La mise à jour d'une description est lourde.
Nécessité de recharger la photo contenant la nouvelle
description
Une URL Flickr pointant sur une photo ne peut être
considérée comme stable; le numéro d'identification
Flickr change lorsque l'on télécharge à nouveau
l'image
Mais... Nous pouvons travailler avec les références (ID)
des photos
www.flickr.com/photos/photosnormandie/3019172081/
Numéro d'identification
Ruse....
www.flickr.com/search/?
w=58897785@N00&q=p012516&m=text
ID PhotosNormandie ID Photo
Inconvénients de la méthode (avec Flickr)
42. 42/43
Bilan documentaire
Depuis fin janvier 2007, la galerie et les photos ont été vues
plus de 36 millions de fois (soit plus de 7700 visites par jour)
Grande progression depuis quatre ans
(4500 visites quotidiennes en 2012)
Le 6 juin 2014, près de 200 000 visites
9222 descriptions corrigées et mises à jour
(certaines descriptions ont été corrigées plusieurs fois)
417 photos correspondent à des séquences filmées retrouvées
(plus de 1 sur 10; il doit en exister davantage)