Créer une IA capable de reconnaître des fleurs (ou autres)Olivier Eeckhoutte
Conférence donnée par Olivier Eeckhoutte (Lean Deep) sur le sujet du Deep Learning pour Nutigo. Nutigo est une nouvelle association qui traite des sujets d'innovation.
Créer une IA capable de reconnaître des fleurs (ou autres)Olivier Eeckhoutte
Conférence donnée par Olivier Eeckhoutte (Lean Deep) sur le sujet du Deep Learning pour Nutigo. Nutigo est une nouvelle association qui traite des sujets d'innovation.
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Equipex Biblissima
Présentation des protocoles IIIF dans le cadre de la formation au Diplôme de conservateur de bibliothèque de l'Enssib (DCB 27), à Villeurbanne le 23 janvier 2019. Par Régis Robineau (Biblissima - Campus Condorcet, EPHE-PSL).
Les sites web sont devenus de véritables applications, grâce notamment à l'adoption du model SPA (single page application). Dès lors, il semble logique qu'elles puissent lire et modifier les données de façon plus intuitive et de définir leur propre schéma de données indépendamment du back-end. Il serait élégant de résoudre cette problématique via une solution souple, pérenne et indépendante d'un framework. Heureusement, Facebook et Netflix ont open-sourcé leur réponse respective : GraphQL et FalcorJS. Nous aborderons en détail le fonctionnement de ces librairies et vous donnerons les clés pour faire un choix éclairé
Par Régis Robineau (Ingénieur d'études, coordinateur de l'équipe Biblissima, membre du Technical Review Committee de IIIF).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Deep Learning on Apache Spark: TensorFrames & Deep Learning Pipelines Databricks
TensorFrames: Spark + TensorFlow: Since the creation of Apache Spark, I/O throughput has increased at a faster pace than processing speed. In a lot of big data applications, the bottleneck is increasingly the CPU. With the release of Apache Spark 2.0 and Project Tungsten, Spark runs a number of control operations close to the metal. At the same time, there has been a surge of interest in using GPUs (the Graphics Processing Units of video cards) for general purpose applications, and a number of frameworks have been proposed to do numerical computations on GPUs.In this talk, we will discuss how to combine Apache Spark with TensorFlow, a new framework from Google that provides building blocks for Machine Learning computations on GPUs. Through a binding between Spark and TensorFlow called TensorFrames, distributed numerical transforms on Spark DataFrames and Datasets can be expressed in a high-level language and still rely on highly optimized implementations.The developers of the TensorFrames package will provide an overview, a live demo on Databricks and a presentation of the future plans. For experts, this talk will also include some technical details on design decisions, the current implementation, and ongoing work on speed and performance optimizations for numerical applications.
Présentation par Régis Robineau lors de la journée d’études HIMANIS “Reconnaissance par ordinateur des écritures anciennes : le projet HIMANIS” (Archives nationales, Paris - 29 mai 2018)
L’interopérabilité des images pour la recherche en histoire de l’artEquipex Biblissima
Intervention d'Elizabeth MacDonald et Régis Robineau lors de la journée d'études DAH @ INHA - Rencontre autour de la Digital Art History (Institut national d'histoire de l'art - INHA, Paris, 14 juin 2016)
Vidéo de l'intervention : https://www.youtube.com/watch?v=cybtbIwxS4Y&list=PLsl8NWzVv6T2MC93vmVaT2ku-E6bpsLh4&index=4
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...Aurélia Rostaing
Présentation du projet LectAuRep (Lecture automatique de répertoires) des Archives nationales aux étudiants du MAS ALIS (Master of Advanced Studies in Archival, Library and Information Science), 26 novembre 2019.
La présentation a pour but d'expliquer comment les concepts de Clean Architecture et de l'architecture en oignon ont été utilisés dans un projet phare de iA Groupe Financier pour permettre de travailler en mode agile en réutilisant du code patrimonial.
Karol Deland
Codedarmor 2012 - 06/03 - HTML5, CSS3 et Javascriptcodedarmor
Le web, nouvelle définition : les possibilités étendues de HTML5 marquent un tournant dans le développement de sites et d'applications web riches. Lors de cette soirée, nous ferons une revue des possibilités offertes par HTML5, CSS3 et Javascript, des applications mobiles aux jeux vidéo en passant par la diffusion de médias audio et vidéo.
Présenté par Benjamin Anseaume de Sushee.fr et Erwan Hesry
La présentation de Christelle Molinié, responsable des ressources documentaires au musée Saint Raymond, musée d'archéologie de Toulouse, faite au meetup API(dot)Culture (Bnf, 4 juillet 2019)
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Equipex Biblissima
Présentation des protocoles IIIF dans le cadre de la formation au Diplôme de conservateur de bibliothèque de l'Enssib (DCB 27), à Villeurbanne le 23 janvier 2019. Par Régis Robineau (Biblissima - Campus Condorcet, EPHE-PSL).
Les sites web sont devenus de véritables applications, grâce notamment à l'adoption du model SPA (single page application). Dès lors, il semble logique qu'elles puissent lire et modifier les données de façon plus intuitive et de définir leur propre schéma de données indépendamment du back-end. Il serait élégant de résoudre cette problématique via une solution souple, pérenne et indépendante d'un framework. Heureusement, Facebook et Netflix ont open-sourcé leur réponse respective : GraphQL et FalcorJS. Nous aborderons en détail le fonctionnement de ces librairies et vous donnerons les clés pour faire un choix éclairé
Par Régis Robineau (Ingénieur d'études, coordinateur de l'équipe Biblissima, membre du Technical Review Committee de IIIF).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Deep Learning on Apache Spark: TensorFrames & Deep Learning Pipelines Databricks
TensorFrames: Spark + TensorFlow: Since the creation of Apache Spark, I/O throughput has increased at a faster pace than processing speed. In a lot of big data applications, the bottleneck is increasingly the CPU. With the release of Apache Spark 2.0 and Project Tungsten, Spark runs a number of control operations close to the metal. At the same time, there has been a surge of interest in using GPUs (the Graphics Processing Units of video cards) for general purpose applications, and a number of frameworks have been proposed to do numerical computations on GPUs.In this talk, we will discuss how to combine Apache Spark with TensorFlow, a new framework from Google that provides building blocks for Machine Learning computations on GPUs. Through a binding between Spark and TensorFlow called TensorFrames, distributed numerical transforms on Spark DataFrames and Datasets can be expressed in a high-level language and still rely on highly optimized implementations.The developers of the TensorFrames package will provide an overview, a live demo on Databricks and a presentation of the future plans. For experts, this talk will also include some technical details on design decisions, the current implementation, and ongoing work on speed and performance optimizations for numerical applications.
Présentation par Régis Robineau lors de la journée d’études HIMANIS “Reconnaissance par ordinateur des écritures anciennes : le projet HIMANIS” (Archives nationales, Paris - 29 mai 2018)
L’interopérabilité des images pour la recherche en histoire de l’artEquipex Biblissima
Intervention d'Elizabeth MacDonald et Régis Robineau lors de la journée d'études DAH @ INHA - Rencontre autour de la Digital Art History (Institut national d'histoire de l'art - INHA, Paris, 14 juin 2016)
Vidéo de l'intervention : https://www.youtube.com/watch?v=cybtbIwxS4Y&list=PLsl8NWzVv6T2MC93vmVaT2ku-E6bpsLh4&index=4
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...Aurélia Rostaing
Présentation du projet LectAuRep (Lecture automatique de répertoires) des Archives nationales aux étudiants du MAS ALIS (Master of Advanced Studies in Archival, Library and Information Science), 26 novembre 2019.
La présentation a pour but d'expliquer comment les concepts de Clean Architecture et de l'architecture en oignon ont été utilisés dans un projet phare de iA Groupe Financier pour permettre de travailler en mode agile en réutilisant du code patrimonial.
Karol Deland
Codedarmor 2012 - 06/03 - HTML5, CSS3 et Javascriptcodedarmor
Le web, nouvelle définition : les possibilités étendues de HTML5 marquent un tournant dans le développement de sites et d'applications web riches. Lors de cette soirée, nous ferons une revue des possibilités offertes par HTML5, CSS3 et Javascript, des applications mobiles aux jeux vidéo en passant par la diffusion de médias audio et vidéo.
Présenté par Benjamin Anseaume de Sushee.fr et Erwan Hesry
La présentation de Christelle Molinié, responsable des ressources documentaires au musée Saint Raymond, musée d'archéologie de Toulouse, faite au meetup API(dot)Culture (Bnf, 4 juillet 2019)
APIs are famoulsy used by Facebook, Twitter and the rest. They are more and more used by companies to turn their business around and develop. But APIs are also for museums and cultural institutions. Here's how.
1. IIIF et innovation : rechercher d’image
les collections patrimoniales
• Introduction : recherche d’images
• PoC GallicaPix et API IIIF
• Expérimentation deep learning :
• Classification des genres
• Reconnaissance visuelle
• Cas d’usage pour la recherche
d’information et les humanités
numériques
• Conclusion
« L’Auto » magazine, photo lab (1914)
3. Les bibliothèques comme réservoir
d’images inexploitées
1,2 M documents catalogués
comme « image » (photos, gravures…)
Large réservoir d’illustrations
potentielles :
• manuscrits
• documents imprimés
• archives du web
…
Centaines de millions ?
3
4. Pour la recherche d’information :
“Je cherche des caricatures de George Clemenceau
dans toutes les collections.”
Nouveaux services
4
5. Pour des usages de recherche (par ex. analyse quantitative)
“Je veux compter les visages de femme présents sur la page
de une de Paris-Match entre 1949 et 1959”
Nouveaux services
5
Idem pour L’Excelsior, 1910-1920
6. Focus IIIF
• Les API et protocoles facilitent la R&D
• IIIF rend possible la réutilisation des images
De Gallica (SERP + feuilletage)… … à GallicaPix
SRU, OAI-PMH, IIIF…
7. Focus IIIF
• IIIF permet « d’entrer »
dans le document
https://gallica.bnf.fr/iiif/ark:/12148
/bpt6k716975d/f5/136,461,3155,21
07/800,/0/native.jpg
136,461
3155,2107
8. Focus IIIF
• IIIF permet d’agréger des contenus iconographiques
et de les transformer/enrichir/remédiatiser, etc.
Gallica + The Welcome Collection (via Europeana) dans GallicaPix
Gallica
The Welcome
Collection
9. Approche ETL (Extract-Transform-Load) pour la
reconnaissance et la description automatiques des illustrations
Sur les collections Première Guerre mondiale de Gallica :
photo, presse, magazines, posters, cartes… (1910-1920)
Enrichie avec des techniques deep learning
IIIF est utilisé pour l’enrichissement et la présentation
Preuve de concept : GallicaPix
Des catalogues
et de l’OCR Transformer
et enrichir les
métadonnées
des illustrations
Rechercher des images
(application web)
Extraire Transformer (enrichir) Charger
9ETL approach
10. Transformer et enrichir
Topic modeling
OCR : Google Cloud Vision
Classification des genres : modèle CNN (TensorFlow, Inception)
Reconnaissance visuelle : IBM Watson Visual Recognition, Google
Cloud Vision, OpenCV/dnn, Yolo…
Reconnaissance visuelle
Classification des
genres d’image
Topic Modeling
10ETL approach: Transform & Enrich
OCR
11. Classification de genres
11ETL approach: Transform & Enrich
Classification avec un réseau de neurones artificiels convolutionnel et
une approche « transfer learning »
On veut identifier le « genre » des illustrations (photos, dessins,
cartes, BD, graphiques…)
12. Classification de genres
Transfer learning : seule la dernière couche du réseau
est réentrainée sur un jeu de données ad hoc (12 classes)
4 classes de « bruit » : couverture, page blanche, ornement, texte
12ETL approach: Transform & Enrich
« Bruit »
13. 80% des illustrations n’en sont pas !
Bruit ? Remarque sur l’“OCR mining”
13ETL approach: Extract
OLR (OCR + layout analysis)
20%
80%
91%
9%
OCR
14. Focus IIIF
La création de jeux d’entrainement (ground truth)
est facilitée par IIIF
1. Amorçage du jeu (bootstrap) grâce aux métadonnées
2. Sélection de nouveaux éléments dans la web app
3. Export du jeu (liste d’URL IIIF)
4. Téléchargement des images
5. Entrainement du modèle
Cartes
Le partage des jeux de
données est aussi facilité !
16. Expérimentation sur la détection de soldats
16ETL approach: Transform & Enrich
0% 20% 40% 60% 80% 100%
Métadonnées
(bibliogr.+OCR
IBM Watson
Modèle entraîné
avec Watson
Multimodal :
métadonnées
+ visuel
rappel
70%
20%
50%
17. Les images non segmentées conduisent à des classes génériques :
« cadre », « document », « document imprimé »…
Reconnaissance visuelle : remarques
17ETL approach: Transform & Enrich
18. Ces services génériques fonctionnent sur des documents
patrimoniaux (XIXe, XXe), y compris sur des cas
« difficiles ».
Reconnaissance visuelle : remarques
18ETL approach: Transform & Enrich
19. Mais des limitations existent :
• Généralisation à partir de jeux d’entrainement
majoritairement contemporains
anachronismes (même sur la WW1)
• Généralisation à partir de jeux nécessaire-
ment clos erreurs de classification
• Scènes complexes difficiles à gérer
Reconnaissance visuelle : remarques
Segway
armored vehicule
bourgogne wine label
19ETL approach: Transform & Enrich
car bombing
10 000 classes permettent
de satisfaire des recherches
généralistes sur des
contenus modernes ou
contemporains, mais pas
sur le large spectre des
collections patrimoniales...
20. Focus IIIF
L’analyse d’image est plus facile avec IIIF !
• Traitements basiques avec les
paramètres IIIF (region, rotation)
• Adapter la qualité de l’image
aux attentes du modèle
(size, quality)
• Pas besoin de gérer des fichiers,
pas de stockage local
• La plupart des API acceptent
les URL en entrée
Calèche
x0,y0,w0,h0
Personne
x1,y1,w1,h1
curl -X POST -u "apikey:****" --form
"url=https://gallica.bnf.fr/iiif/ark:/12148/bpt6k960
4090x/f1/22,781,4334,4751/,700/0/native.jpg"
"https://gateway.watsonplatform.net/visual-
recognition/api/v3/classify?version=2018-03-19"
21. Focus IIIF
Points d’attention :
• Le téléchargement peut être lent par rapport à du local
• Peut mettre sous pression les serveurs IIIF locaux…
L’usage de IIIF pour le prototypage et la production peut
altérer la qualité de service des vrais « utilisateurs »
GallicaPix est #4 !
La plupart des 830k
appels sont dév+prod
Top 8 des consommateurs de l’API Gallica IIIF Image
Service IIIF Image
à la BnF :
• 5 serveurs
• Proliant BL460c G7
(2 Xeon CPU E5649,
2,53 Ghz, 24 coeurs)
• 10 M appels/mois
22. Rechercher
Dans une base XML (BaseX)
Avec XQuery
Présentation avec IIIF
Métadonnées Image
Métadonnées Catalogue
OCR
22Image Retrieval
http://demo14-18.bnf.fr:8984/rest?run=findIllustrations-form.xq
http://gallicastudio.bnf.fr
Base 14-18 :
200 k illustrations
65 k pubs illustrées
Extraites de 500 k pages
23. Cas d’usage : recherche encyclopédique sur un nom
Les descripteurs textuels sont utilisés (métadonnées et OCR).
“George Clemenceau” : 140 ill. dans Gallica/Images, >900 dans GallicaPix
Les caricatures
sont trouvées avec
la facette “dessin”
23Image Retrieval
gallica.pix
24. Cas d’usage : recherche encyclopédique sur un concept
Une recherche sur le mot-clé “avion” renvoie du bruit…
(portraits d’aviateur, photographies aériennes…)
24Image Retrieval
gallica.pix
25. Cas d’usage : recherche encyclopédique sur un concept
En utilisant les classes visuelles (airplane), le bruit peut être filtré
(au prix de quelques faux positifs !)
25Image Retrieval
Concepts overcome silent metadata or
silent OCR, multilanguage barrier, lexical
evolution (from “aéronef” to “avion”)
gallica.pix
Les portraits
d’aviateurs sont
trouvés avec la
facette “Personne” gallica.pix
26. Cas d’usage: recherche multimodale
Les classes visuelles, le texte et les métadonnées sont utilisés.
Recherche de visuels relatifs aux destructions urbaines consécutives à
la bataille de Verdun :
class=(”street” OR ”house” OR ”ruin”) AND keyword=”Verdun”
26Image Retrieval
gallica.pix
27. Expérimentation sur la détection de personne
Watson réalise détections de visage et de genre :
• “Visages”: rappel=43 %, précision=99,9 %
27ETL approach: Transform & Enrich
29. Digital Humanities
Cas d’usage : humanités numériques
Projet ANR Numapresse, collaboration avec la BnF :
• Reconnaissance automatique des visages et genres dans Paris-Match
et L’Excelsior (pages de une, période de 10 ans)
• Post-correction manuelle avec l’éditeur GallicaPix (de 1 heure à 2 jours)
• Analyse de données et datavisualisation
Journée d'étude Numapresse « Paris Match : le poids des mots, le choc des photos » (université Paul-Valéry Montpellier III).
https://www.fabula.org/actualites/journee-d-39-etude-numapresse-paris-match-le-poids-des-mots-le-choc-des-photos-universite-paul-_90246.php
30. Digital Humanities
Cas d’usage : humanités numériques
Hackathon DHH, mai 2019, Helsinki : thème “Newspapers
and Capitalism”, focus sur la publicité
• Reconnaissance automatique (Yolo v3) des moyens de transport
dans le sous-corpus de publicités illustrées de GallicaPix (60 k)
• Post-correction (1 jour), analyse de données et datavisualisation
31. Focus IIIF : humanités numériques
• Les chercheurs sollicitent de plus en plus les institutions
patrimoniales pour la mise à disposition de contenus
iconographiques numérisés. Ils s’essayent désormais à
l’extraction des illustrations de documents textuels
(presse, magazines, encyclopédie et dictionnaires…)
• Un écosystème IIIF peut être mis en place directement
au-dessus des collections numériques des institutions,
à des fins de recherche, grâce aux API IIIF Presentation
et IIIF Search.
• IIIF facilite aussi R&D et expérimentation avec les
techniques d’intelligence artificielle (appliquées aux
images et aux textes).
32. Digital Humanities
Production : comment faire ?
On voit apparaître des pipelines de production IIIF :
• Digirati : “A pluggable IIIF content enrichment pipeline”
• UCLA Library : “Building a Machine Generated Annotations Pipeline”,
Conférence IIIF, juin 2019, Göttingen :
https://drive.google.com/drive/folders/1zpGUxsu_cvKPilxfyaMTq4Zrsyo3bada
DIGIRATI
UCLA
33. Remarques finales sur
• Je n’aurais jamais eu l’idée de démarrer ce projet sans IIIF.
Il m’aurait d’abord fallu mettre en place un serveur d’images !
• IIIF est tellement efficace que nous avons besoin de plus
d’implémentations IIIF…
• Nous avons besoin de l’IA pour tenir le rythme de
l’accroissement de nos collections numériques (numérisées
ET nées numérique) : classifier, filtrer, annoter, enrichir.
Heureusement, IA et IIIF forme un beau tandem (de la création
de jeux d’entrainement à la médiation numérique)
33Conclusion
34. Conclusion
• Un accès unifié à toutes les illustrations d’une collection
encyclopédique est un service innovant répondant à de
réels besoins.
• Il favorisera aussi la réutilisation des illustrations
• La maturité des techniques IA en matière d’indexation
visuelle rend possible leur intégration dans la boite à outils
standard d’une bibliothèque.
• Leurs résultats, mêmes imparfaits, aident à rendre
visibles les illustrations de nos collections.
• Il n’y a pas de solution universelle (ni même
magique) en matière d’indexation visuelle, mais
des applications immédiates sont possibles !
34Conclusion
35. 35Portraits Galery
Merci pour votre attention !
jean-philippe.moreux@bnf.fr
Jeux de données, modèles et scripts :
• api.bnf.fr
• github.com/altomator/Image_Retrieval
Gallica.pix :
• gallicastudio.bnf.fr
• http://demo14-18.bnf.fr:8984/rest?run=findIllustrations-form.xq