Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Le « lac de données » de l'Ina, un projet
pour placer la donnée au cœur de l’organisation
Séminaire « Nouveaux paradigmes ...
Constats généraux
En guise d’introduction ou de préambule…
Démultiplication des données
L’objet
Structure physique
Structure numérique
1ère question : Quel est ce livre ?
Métadonnée...
Du document à la donnée, un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numé...
La donnée, au centre de l’attention
En 15 ans, de par les évolutions technologiques, de par la montée en puissance du numé...
Les processus : la partie émergée de l’iceberg
• Besoins primaires : production, stockage et restitution
• Modélisation de...
Alors que…
les attentes d’un SI documentaire évoluent pour répondre à tous les constats précédents…
Permettre l’accès à la...
Comment répondre à ces constats?
Quelques propositions de solutions mises en place à l’Ina ces dernières années
Les constats à l’Ina
Des données
éparpillées et silotées
Un (des ?) SI à repenser pour accompagner les
transformations
Des...
Les objectifs
Mette en cohérence les
différents ensembles de données
Assurer l’exploitation, la supervision et l’évolution...
Ingénieurs, chefs de projet, professionnels de l’information, juristes, chercheurs, rédacteurs et journalistes
intègrent p...
Les réalisations : un nouveau modèle conceptuel de données
La mise au point d’un nouveau modèle conceptuel de données co-c...
Les réalisations : une infrastructure technique
• Disposer des différentes familles de bases de données
pour répondre aux ...
Les réalisations : une reprise de l’ensemble des données existantes
Le dépôt légal
Constituer le reflet du flux diffusé de...
Les réalisations : une reprise de l’ensemble des données existantes
Récupération, restructuration, fusion, nettoyage et mi...
Les réalisations : une reprise de l’ensemble des données existantes
Récupération, restructuration, fusion, nettoyage et mi...
Les données à la fin de l’année 2020
• Données pour le moteur de recherche d’ina.fr
• Données de Madelen issues de totem +...
• Données pour le moteur de recherche du hub
issues des bases totem/OGP du lac et du CMS Hub
• Données de Madelen issues d...
Les réalisations : déploiement du TDM
Mise au point et déploiement d’un ensemble d’outils de Text et data
mining pour répo...
En résumé : déployer une gouvernance des données à l’Ina
Mieux maîtriser les données pour
répondre aux usages actuels et f...
CONTACT
4, avenue de l’Europe
94366 Bry-sur-Marne Cedex - France
établissement public à caractère industriel et commercial...
Upcoming SlideShare
Loading in …5
×

of

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 1 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 2 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 3 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 4 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 5 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 6 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 7 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 8 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 9 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 10 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 11 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 12 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 13 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 14 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 15 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 16 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 17 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 18 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 19 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 20 Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation Slide 21
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

0 Likes

Share

Download to read offline

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation

Download to read offline

Support de l'intervention effectuée au cours de la séance dédiée aux lacs de données du séminaire "Nouveaux paradigmes de l'Archive" organisée par le DICEN-CNAM et les Archives nationales

  • Be the first to like this

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation

  1. 1. Le « lac de données » de l'Ina, un projet pour placer la donnée au cœur de l’organisation Séminaire « Nouveaux paradigmes de l’Archive », 15 décembre 2020 Gautier Poupeau gpoupeau@ina.fr @lespetitescases http://www.lespetitescases.net
  2. 2. Constats généraux En guise d’introduction ou de préambule…
  3. 3. Démultiplication des données L’objet Structure physique Structure numérique 1ère question : Quel est ce livre ? Métadonnées descriptives 3ème question : Quels sont les formats des fichiers ? Métadonnées techniques 2ème question : Quels sont tous les fichiers qui résultent de la numérisation ? Structure numérique 4ème question : l’organisation maîtrise-t-elle ces formats ? Référentiel de formats Formats 5ème question : Quand a eu lieu la numérisation et quel est le nom du scanner ? Métadonnées de provenance 6ème question : A quelle page correspond chaque fichier ? Métadonnées de structure 7ème question : Qui, quand et comment un usager a consulté ce livre ? Données d’usage 8ème question : Que contient exactement ce livre ? Contenu exploitable Un exemple : les métadonnées d’un livre dans une collection de bibliothèques 9ème question : Comment valoriser ce livre sur notre site Web et les réseaux sociaux ? Données éditoriales 10ème question : comment réagit-on sur les réseaux sociaux ? Données des utilisateurs 11ème question : que dit-on de ce livre ou de son auteur dans les autres collections ou Wikipedia/Wikidata ? Données interopérables
  4. 4. Du document à la donnée, un changement de granularité En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une modification dans l’appréhension des choses : du document à la donnée et a rendue poreuse la frontière entre données et métadonnées. La description est numérique Le document/support est accessible via une notice qui en décrit la globalité Le document est numérisé ou nativement numérique Le moteur de recherche permet d’accéder au contenu du document Le document est un ensemble de données exploitables Le document lui-même devient une source de données, il n’existe plus de dichotomie entre les métadonnées et les données
  5. 5. La donnée, au centre de l’attention En 15 ans, de par les évolutions technologiques, de par la montée en puissance du numérique, et avec elle de la donnée, dans nos vies, de par la prise de conscience politique et citoyenne, la donnée est peu à peu devenue le centre de toutes les attentions. Traiter et stocker les données en masse Big data Data mining Linked data Exploiter automatiquement les contenus et les données Open Data Rendre accessible les données Permettre l’interopérabilité des données
  6. 6. Les processus : la partie émergée de l’iceberg • Besoins primaires : production, stockage et restitution • Modélisation des processus-métiers • Réponse directe aux besoins des utilisateurs • Entraîne une multiplication des applications • A chaque application, sa logique propre, son format de données, ses propres mécanismes d’accès Les données : la partie immergée de l’iceberg • Les données du SI dépendent de la modélisation des processus • Les données sont enfermées dans chaque application formant des silos de données • Absence de cohérence technique et sémantique entre les silos • Le modèle physique de stockage des données peut être très éloigné du modèle logique ce qui rend difficile la migration, la maintenance et la compréhension du modèle Et pourtant…. Dans la plupart de nos SI, les données restent enfermées, redondées dans des silos applicatifs pensés en fonction de leurs usages et non de leurs logiques….
  7. 7. Alors que… les attentes d’un SI documentaire évoluent pour répondre à tous les constats précédents… Permettre l’accès à la collection Assurer la maîtrise sur le long terme d’une collection de plus en plus hétérogène et de moins en moins physique Permettre aux usagers de trouver la réponse à leur question et plus simplement de trouver le document qui pourrait éventuellement répondre à leur question Replacer la collection elle-même et les données contenues dans les documents de nos collections dans l’ensemble de l’écosystème des données de l’organisation Naviguer et rechercher au sein de collections de différentes organisations composées de documents hétérogènes Assurer la cohérence et la fluidité entre données et métadonnées, entre le contenu et sa (ses) description(s) Enrichir les (méta)données à partir de données d’origines et de natures diverses Permettre l’analyse et l’exploitation en masse des documents eux-mêmes et des métadonnées
  8. 8. Comment répondre à ces constats? Quelques propositions de solutions mises en place à l’Ina ces dernières années
  9. 9. Les constats à l’Ina Des données éparpillées et silotées Un (des ?) SI à repenser pour accompagner les transformations Des nouvelles technologies à intégrer Globalement, nous dressons à partir de 2014 les mêmes constats au sein de l’Ina…. Conclusion : il est nécessaire de repenser globalement tout notre système d’information, mais plutôt que conduire le projet uniquement en fonction des processus métiers, on décide de placer la donnée au cœur de notre réflexion !
  10. 10. Les objectifs Mette en cohérence les différents ensembles de données Assurer l’exploitation, la supervision et l’évolution des systèmes de traitement et de stockage des données Partager une connaissance des données et déployer une gouvernance des données Séparer techniquement et logiquement les données des usages Maîtriser les données et les placer au cœur du SI, de nos usages et de notre organisation
  11. 11. Ingénieurs, chefs de projet, professionnels de l’information, juristes, chercheurs, rédacteurs et journalistes intègrent peu à peu la question de la donnée à leur pratique et à leur réflexion Les acteurs de la transformation Les « métiers » de la donnée Data scientist Architecte de données Ingénieur de la donnée Analyste de la donnée Professionnels de l’information Data ops/DBA
  12. 12. Les réalisations : un nouveau modèle conceptuel de données La mise au point d’un nouveau modèle conceptuel de données co-construit avec les professionnels de la donnée de la DSI et les professionnels de l’information de la Direction des collections pour décrire toutes les données autour des collections. Cartographie des grands ensembles de données de l’Ina Schéma représentant le cœur du nouveau modèle de l’Ina organisé autour de 3 entités principales : le contenu, l’événement et le support
  13. 13. Les réalisations : une infrastructure technique • Disposer des différentes familles de bases de données pour répondre aux différents cas d’usage pour stocker et interroger les données • Penser un système global intégrant à la fois les systèmes de stockage, de traitement, de synchronisation et d’accès aux données • Abstraire la complexité sous-jacente aux autres applications et leur offrir une infrastructure sécurisée et clé en main de stockage et de traitement de données L’infrastructure technique, le « lac de données » en lui-même, une architecture hybride qui assure la séparation entre les données et les usages, stocke les différentes natures de données, centralise les traitements et répond aux différents cas d’usage.
  14. 14. Les réalisations : une reprise de l’ensemble des données existantes Le dépôt légal Constituer le reflet du flux diffusé depuis 1995 Les archives professionnelles Constituer une banque de programmes depuis l’ORTF Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
  15. 15. Les réalisations : une reprise de l’ensemble des données existantes Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
  16. 16. Les réalisations : une reprise de l’ensemble des données existantes Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
  17. 17. Les données à la fin de l’année 2020 • Données pour le moteur de recherche d’ina.fr • Données de Madelen issues de totem + les enrichissements éditoriaux • Données migrées depuis les bases actuelles pour Notilus (jusqu’en 2017) • Données pour le moteur de recherche d’InaMediaPro issues de Totem • Données du moteur de recherche Mediaclip issues du Magento PAV • Données de la transcription effectuée par Vocapia + extractions d’entités nommées (personnes, lieux, organisation) • Données des sous-titres issues des bases DL + extraction d’entités nommées • Données migrées depuis les bases actuelles documentaires et juridiques pour Notilus • Données issues de Wikidata liées à nos bases • Données de la transcription effectuée par Vocapia pour des besoins de recherche + extractions d’entités nommées • Données issues des études menées par David Doukhan sur l’analyse du temps de paroles des hommes et des femmes • Données liées aux droits d’exploitation des contenus vidéos (contributions + droits associés)
  18. 18. • Données pour le moteur de recherche du hub issues des bases totem/OGP du lac et du CMS Hub • Données de Madelen issues de totem + les enrichissements éditoriaux • Données migrées depuis les bases actuelles pour Notilus (jusqu’en 2018) • Données migrées en différentiel depuis Totem • Données pour le moteur de recherche d’InaMediaPro issues de Totem et de la Sonuma • Données du moteur de recherche Mediaclip issues du Magento PAV • Données de la transcription effectuée par Vocapia + extractions d’entités nommées (personnes, lieux, organisation) • Données des sous-titres issues des bases DL + extraction d’entités nommées • Données nécessaires pour l’analyse des journées de programme des chaînes d’info en continu (classif images, OCR, reconnaissance images, analyse de visages) • Données issues de l’analyse du son sur les chaînes de l’Audiovisuel public • Données migrées depuis les bases actuelles documentaires et juridiques pour Notilus • Données issues de Wikidata liées à nos bases • Données d’usage (SVOD/Hub) • Données de la transcription effectuée par Vocapia pour des besoins de recherche + extractions d’entités nommées • Données issues des études menées par David Doukhan sur l’analyse du temps de paroles des hommes et des femmes • Données liées aux droits d’exploitation des contenus vidéos (contributions + droits associés) • Données sur les dossiers de production Les données à la fin de l’année 2021
  19. 19. Les réalisations : déploiement du TDM Mise au point et déploiement d’un ensemble d’outils de Text et data mining pour répondre à des cas d’usages métiers et dont toutes les données sont stockées et interrogeables dans le lac de données selon le modèle conceptuel de l’Ina. Transcription et extraction d’entités nommées Analyse des visages Analyse du son Basée sur les travaux menés par David Doukhan, chercheur à l’Ina Segmentation automatique des journées de programme des chaînes d’information en continu Segmentation et analyse automatique des journaux télévisés
  20. 20. En résumé : déployer une gouvernance des données à l’Ina Mieux maîtriser les données pour répondre aux usages actuels et futurs avec un maximum de réactivité en garantissant la qualité et la disponibilité des données
  21. 21. CONTACT 4, avenue de l’Europe 94366 Bry-sur-Marne Cedex - France établissement public à caractère industriel et commercial RCS Créteil 302 421 193 B institut.ina.fr Merci pour votre attention ! Gautier POUPEAU gpoupeau@ina.fr @lespetitescases

Support de l'intervention effectuée au cours de la séance dédiée aux lacs de données du séminaire "Nouveaux paradigmes de l'Archive" organisée par le DICEN-CNAM et les Archives nationales

Views

Total views

3,815

On Slideshare

0

From embeds

0

Number of embeds

66

Actions

Downloads

16

Shares

0

Comments

0

Likes

0

×