La solution GDI (Global Data Inquirer) est une solution de data science développée par Assystem.
Elle permet d’extraire une description exhaustive des installations (ontologies) et d’alimenter :
- des bases de données propriétaires
- des modèles de simulations ou MBSE (ingénierie système basée sur les modèles)
- un moteur de recherche sémantique
Les informations pertinentes accumulées sur toute la durée vie d’une installation, sont ainsi rapidement accessibles malgré la masse de documents.
Bidirectional Encoder Representations from Transformers
Text mining pour industrie
1. Septembre 2019
GDI : Global Data Inquirer for Industry
Solution d’Intelligence Artificielle pour lire comprendre et
structurer les archives techniques d’installations complexes
2. SOMMAIRE
2
01 Les Enjeux
02 Le Contexte
03 Présentation de la solution GDI :
Enjeux, Contexte & Objectifs
Sommaire
04 Solution Innovante:
• Composition
• Architecture
• Classificateur txt, img, plan, schéma
• Conversion + OCR + extraction des tableaux
• Construction et peuplement de l’ontologie
du site
05 Démonstrateur
• Visualisation des doubles, proches &
tableaux
• Moteur de Recherche Sémantique
• Validation et correction de l’ontologie du site
3. Les Enjeux
Depuis près de 60 ans,
les exploitants industriels
produisent des
documents relatifs à
leurs installations, sous
divers formats et sur
divers supports.
Ces informations
concernent divers
domaines et sont
consultées la
maintenance, les audits
et le démantèlement.
Les documents concernent les
Bâtiments, les Equipements , la
Sécurité, la Chimie, le Nucléaire la
Maintenance et les Evolutions ...
Dans le nucléaire un projet de
démantèlement doit présenter un
dossier solide et bien argumenté
aux autorités de sûreté nucléaire.
Une estimation évalue à 14
milliards de documents pour les
installation nucléaires. Avec en
moyenne de 230 000 fichiers et
180 000 documents par
installation.
Ce projet vise à fournir un point
d'entrée unique sur cette masse de
documents, rendre la préparation
des audits plus rapide et plus fiable
afin de réduire considérablement
les provisions pour incertitudes
L'originalité de la solution est de mixer les techniques
traditionnelles d’analyse de texte : classification,
regroupement, annotation et indexation des documents
textuels (GED, moteur de recherche), et les nouvelles
technologies d’IA (apprentissage profond)
3
4. Le Contexte
Les outils d'analyse de texte sont de plus en plus utilisés par les entreprises pour les aider dans leurs activités.
Les sources de textes sont diverses : interactions clients, e-mails, blogs, avis sur les produits, Post sur les réseaux
sociaux, Tweets, Notes et Rapports techniques, archives, REX....
L'objectif principal de l'analyse de texte est de collecter des données structurées et non structurées, de les
analyser et de les utiliser pour la prise de décision commerciale ou opérationnelle.
Textes non
structurés
Données
structurées
Données
identifiées
Analyse des
données
Extraction
4
5. Présentation de la Solution: Objectifs
UtilisateursDonnées d’entrées
Reconnaissance
Textes Scannés
Apprentissage
Profond
Ontologie
Réponses
Trouver rapidement des informations pertinentes dans la masse de données accumulé
pendant la vie d’une installation
Objectifs intermédiaires :
• Transformer des documents papiers ou des images numériques en objets manipulables par des machines
• Classifier et regrouper les documents et leur contenu
• Repérer dans les textes les données pertinentes selon leur syntaxe
• Repérer dans les textes les données pertinentes selon leur sémantique
?
GDI
Classification
5
6. Innovation de la Solution
L’originalité de Solution est de mixer les techniques traditionnelles de capture et de classification des
documents textuels (GED, moteur de recherche) avec utilisation d’ontologie et les nouvelles technologies
de d’apprentissage profond (Deep Learning) d’IA appliquées à la compréhension du langage naturel
6
7. Présentation de Solution: Composition
La solution est composée de différents types de modules
A chacun des modules est construit avec
les meilleures techniques Open Source
(Pytesseract, Google-Vision, Spacy, Scikit-Learn, Elasticsearche, Pytorch, Tensorflow, QaNet, BERT, XLM)
Construction
d’Ontologie
Moteur de
Recherche
sémantique
Modèle Q&R
IA DP
Convertisseur &
OCR+
Modélisation du
site en classes,
sous-classes,
propriétés,
relation à partir
des documents
textes
Convertissage
d’un format à un
format unique pdf
Numérisation
documents
papiers et
reconnaissance
des caractères
Conversion en
texte
Moteur de
recherche
personnalisé et
optimisé à l’aide
de
l’ontologie
propre au
domaine de
recherche
Modèle IA DL de
lecture et
compréhension
de texte en
langage naturel
pour répondre à
des questions
Classificateur
1 2 3 IA DP
Modèle IA DL de
classification des
objets par
pertinence pour
le domaine
Groupage
Classification
Etiquetage
Groupage,
classification et
étiquetage des
documents, plans,
schémas et
images pour
facilité leur
recherche
Modèle
Extracteur de
données IA DP
Modèle IA DL
de recherche
des données
pertinente
directement
dans le texte
en Langage
Naturel et leur
structuration
7
8. Modules
Architecture de la Solution
Conversion et OCR
au format PDF
Classificateur 1 images DL
Texte, Tableau, Plan, Image
Image Plan Texte Tableau
Classificateur 2
images DL
Type d’image
Classificateur 3 DL
Type de plan
Groupage &
Classification
Groupage &
Classification
Groupage &
ClassificationOCR+
Validation Experts
Ontologie du site
peuplée
Etiquetage Métadonnées (Tagging)
Ontologie générique
nucléaire
Bases de
données
Extracteur DL
Validation Experts
Langages et outils de requête
Doc d’ entrée
Modèle Q/R DL
techniques traditionnelles .
(DL: Deep Learning) d’IA
Model MBSE
Par mots clés En langage naturel
avec réponse dans le texte
Moteur de recherche sémantique
Validation manuelle
Constructeur
d’ontologie
8
non
oui
Extracteur de
Tableaux
Légende
Pur
PDF
9. Les Enjeux
Depuis près de 60 ans,
les exploitants industriels
produisent des
documents relatifs à
leurs installations, sous
divers formats et sur
divers supports.
Ces informations
concernent divers
domaines et sont
consultées la
maintenance, les audits
et le démantèlement.
Les documents concernent les
Bâtiments, les Equipements , la
Sécurité, la Chimie, le Nucléaire la
Maintenance et les Evolutions ...
Dans le nucléaire un projet de
démantèlement doit présenter un
dossier solide et bien argumenté
aux autorités de sûreté nucléaire.
Une estimation évalue à 14
milliards de documents pour les
installation nucléaires. Avec en
moyenne de 230 000 fichiers et
180 000 documents par
installation.
Ce projet vise à fournir un point
d'entrée unique sur cette masse de
documents, rendre la préparation
des audits plus rapide et plus fiable
afin de réduire considérablement
les provisions pour incertitudes
L'originalité de la solution est de mixer les techniques
traditionnelles d’analyse de texte : classification,
regroupement, annotation et indexation des documents
textuels (GED, moteur de recherche), et les nouvelles
technologies d’IA (apprentissage profond)
3
11. Construction et Peuplement de l’Ontologie du Site
construction à partir des tableaux et listes par NLP
construction à partie de texte par Deep Learning IA
Ontologie du Site
75 %
25 %
Ontologie du Site est construite par deux méthodes complémentaires : Extraction des tableaux et listes dans les
documents et par Lecture & Compréhension du texte par IA (Apprentissage Profond)
11
12. Modèle IA DL de pour lecture et compréhension de textes nucléaires
IA DL techniques : Lecture et compréhension de textes en français
Adaptation de modèles IA DL Q&R au français et au domaine du démantèlement
Grace l’ajout des 7 243 Q&R spécifiques aux nucléaires
les performances du modèle ont été améliorés de 55% à 63% de bonnes réponses (+8 pts).
Avec d’autres modèle CNN, XLM et BERT et plus de Q&R nucléaires on peut atteindre 85 à 90% de bonnes réponses (en test)
Experts
Jeux d’apprentissage Modèle BiLSTM IA DL Q&R
Traduction de l’anglais au français 110 000 Q&R
basées sur Wikipédia (SQuAD v1.1)
Création de 7 243 Q&R basées sur des
textes nucléaires (Assystem)
12
15. Nouveau Moteur de Recherche Sémantique: Requête
Un interface simple et ergonomique pour des requêtes complexes basées
sur la description et l’historique particulier du Site (ontologie extraite)
15
16. Moteur de Recherche Sémantique: Résultat
Restitution du document avec des annotations claires
permettant de trouver les informations recherchées
16
17. Validation de l’ontologie pour peuplement
Validation des classes et propriétés pour injection dans l’ontologie et son peuplement
17
18. Utilisation directe de l’Ontologie du Site
L’ontologie extraite des données d’entrée permet de restituer une description détaillée et structurée de des
bâtiments, des équipements et de l’historique (analyses, événements, interventions…) du Site.
Cette ontologie peut aussi alimenter des modèles de type MBSE ou des bases de données propriétaires.
Modèle MBSE
Bases de Données propriétaire
Requêtes Directes
Ontologie Extraite
18
19. Comparatif GED vs GDI
19
Fonctionnalité GED GDI
Numérisation et OCRisation √ √
Catégorisation des documents selon plusieurs axes grâce à l’Indexation sur des
Métadonnées : titre, auteur du document, type de document, horodateur, référence, domaine…
√ √
Recherche en texte intégral ou full-text avec application de filtres √ √
Gestion des droits et la sécurité des données √ √
Catégorisation automatique des documents √ √
Recherche des documents doubles ou proches √ √
Extraction des tableaux, listes et glossaires √
Génération et peuplement d’ontologies √
Moteur de recherche sémantique basé sur des ontologies √
Alimentation des bases de données avec requêtes en SQL ou SPARQL √
Interrogation en langage naturel IA, Chatbot √
Extraction, Lecture, catégorisation, des images, plans et schémas √
Moteur de recherche sur les images, plans et schémas √
20. Conclusion
La Solution GDI d’Assystem permet de valoriser la masse d’information contenue dans plusieurs
années et m3 d’archives documentaires.
Elle transforme ces archives difficiles d’accès en données structurées directement exploitable par
un moteur de recherche, une base de donnée, un modèle de type MBSE ou encore un ChatBot.
Pour les ingénieures et techniciens, elle réduit considérablement le temps stérile consacré à la
recherche d’information et optimise le temps pour la conception et le réalisation.
20