SlideShare a Scribd company logo
1 of 21
Download to read offline
Septembre 2019
GDI : Global Data Inquirer for Industry
Solution d’Intelligence Artificielle pour lire comprendre et
structurer les archives techniques d’installations complexes
SOMMAIRE
2
01 Les Enjeux
02 Le Contexte
03 Présentation de la solution GDI :
Enjeux, Contexte & Objectifs
Sommaire
04 Solution Innovante:
• Composition
• Architecture
• Classificateur txt, img, plan, schéma
• Conversion + OCR + extraction des tableaux
• Construction et peuplement de l’ontologie
du site
05 Démonstrateur
• Visualisation des doubles, proches &
tableaux
• Moteur de Recherche Sémantique
• Validation et correction de l’ontologie du site
Les Enjeux
Depuis près de 60 ans,
les exploitants industriels
produisent des
documents relatifs à
leurs installations, sous
divers formats et sur
divers supports.
Ces informations
concernent divers
domaines et sont
consultées la
maintenance, les audits
et le démantèlement.
Les documents concernent les
Bâtiments, les Equipements , la
Sécurité, la Chimie, le Nucléaire la
Maintenance et les Evolutions ...
Dans le nucléaire un projet de
démantèlement doit présenter un
dossier solide et bien argumenté
aux autorités de sûreté nucléaire.
Une estimation évalue à 14
milliards de documents pour les
installation nucléaires. Avec en
moyenne de 230 000 fichiers et
180 000 documents par
installation.
Ce projet vise à fournir un point
d'entrée unique sur cette masse de
documents, rendre la préparation
des audits plus rapide et plus fiable
afin de réduire considérablement
les provisions pour incertitudes
L'originalité de la solution est de mixer les techniques
traditionnelles d’analyse de texte : classification,
regroupement, annotation et indexation des documents
textuels (GED, moteur de recherche), et les nouvelles
technologies d’IA (apprentissage profond)
3
Le Contexte
Les outils d'analyse de texte sont de plus en plus utilisés par les entreprises pour les aider dans leurs activités.
Les sources de textes sont diverses : interactions clients, e-mails, blogs, avis sur les produits, Post sur les réseaux
sociaux, Tweets, Notes et Rapports techniques, archives, REX....
L'objectif principal de l'analyse de texte est de collecter des données structurées et non structurées, de les
analyser et de les utiliser pour la prise de décision commerciale ou opérationnelle.
Textes non
structurés
Données
structurées
Données
identifiées
Analyse des
données
Extraction
4
Présentation de la Solution: Objectifs
UtilisateursDonnées d’entrées
Reconnaissance
Textes Scannés
Apprentissage
Profond
Ontologie
Réponses
Trouver rapidement des informations pertinentes dans la masse de données accumulé
pendant la vie d’une installation
Objectifs intermédiaires :
• Transformer des documents papiers ou des images numériques en objets manipulables par des machines
• Classifier et regrouper les documents et leur contenu
• Repérer dans les textes les données pertinentes selon leur syntaxe
• Repérer dans les textes les données pertinentes selon leur sémantique
?
GDI
Classification
5
Innovation de la Solution
L’originalité de Solution est de mixer les techniques traditionnelles de capture et de classification des
documents textuels (GED, moteur de recherche) avec utilisation d’ontologie et les nouvelles technologies
de d’apprentissage profond (Deep Learning) d’IA appliquées à la compréhension du langage naturel
6
Présentation de Solution: Composition
La solution est composée de différents types de modules
A chacun des modules est construit avec
les meilleures techniques Open Source
(Pytesseract, Google-Vision, Spacy, Scikit-Learn, Elasticsearche, Pytorch, Tensorflow, QaNet, BERT, XLM)
Construction
d’Ontologie
Moteur de
Recherche
sémantique
Modèle Q&R
IA DP
Convertisseur &
OCR+
Modélisation du
site en classes,
sous-classes,
propriétés,
relation à partir
des documents
textes
Convertissage
d’un format à un
format unique pdf
Numérisation
documents
papiers et
reconnaissance
des caractères
Conversion en
texte
Moteur de
recherche
personnalisé et
optimisé à l’aide
de
l’ontologie
propre au
domaine de
recherche
Modèle IA DL de
lecture et
compréhension
de texte en
langage naturel
pour répondre à
des questions
Classificateur
1 2 3 IA DP
Modèle IA DL de
classification des
objets par
pertinence pour
le domaine
Groupage
Classification
Etiquetage
Groupage,
classification et
étiquetage des
documents, plans,
schémas et
images pour
facilité leur
recherche
Modèle
Extracteur de
données IA DP
Modèle IA DL
de recherche
des données
pertinente
directement
dans le texte
en Langage
Naturel et leur
structuration
7
Modules
Architecture de la Solution
Conversion et OCR
au format PDF
Classificateur 1 images DL
Texte, Tableau, Plan, Image
Image Plan Texte Tableau
Classificateur 2
images DL
Type d’image
Classificateur 3 DL
Type de plan
Groupage &
Classification
Groupage &
Classification
Groupage &
ClassificationOCR+
Validation Experts
Ontologie du site
peuplée
Etiquetage Métadonnées (Tagging)
Ontologie générique
nucléaire
Bases de
données
Extracteur DL
Validation Experts
Langages et outils de requête
Doc d’ entrée
Modèle Q/R DL
techniques traditionnelles .
(DL: Deep Learning) d’IA
Model MBSE
Par mots clés En langage naturel
avec réponse dans le texte
Moteur de recherche sémantique
Validation manuelle
Constructeur
d’ontologie
8
non
oui
Extracteur de
Tableaux
Légende
Pur
PDF
Les Enjeux
Depuis près de 60 ans,
les exploitants industriels
produisent des
documents relatifs à
leurs installations, sous
divers formats et sur
divers supports.
Ces informations
concernent divers
domaines et sont
consultées la
maintenance, les audits
et le démantèlement.
Les documents concernent les
Bâtiments, les Equipements , la
Sécurité, la Chimie, le Nucléaire la
Maintenance et les Evolutions ...
Dans le nucléaire un projet de
démantèlement doit présenter un
dossier solide et bien argumenté
aux autorités de sûreté nucléaire.
Une estimation évalue à 14
milliards de documents pour les
installation nucléaires. Avec en
moyenne de 230 000 fichiers et
180 000 documents par
installation.
Ce projet vise à fournir un point
d'entrée unique sur cette masse de
documents, rendre la préparation
des audits plus rapide et plus fiable
afin de réduire considérablement
les provisions pour incertitudes
L'originalité de la solution est de mixer les techniques
traditionnelles d’analyse de texte : classification,
regroupement, annotation et indexation des documents
textuels (GED, moteur de recherche), et les nouvelles
technologies d’IA (apprentissage profond)
3
Chaine de Conversion, OCR et Classification des textes et tableaux
10
Construction et Peuplement de l’Ontologie du Site
construction à partir des tableaux et listes par NLP
construction à partie de texte par Deep Learning IA
Ontologie du Site
75 %
25 %
Ontologie du Site est construite par deux méthodes complémentaires : Extraction des tableaux et listes dans les
documents et par Lecture & Compréhension du texte par IA (Apprentissage Profond)
11
Modèle IA DL de pour lecture et compréhension de textes nucléaires
IA DL techniques : Lecture et compréhension de textes en français
Adaptation de modèles IA DL Q&R au français et au domaine du démantèlement
Grace l’ajout des 7 243 Q&R spécifiques aux nucléaires
les performances du modèle ont été améliorés de 55% à 63% de bonnes réponses (+8 pts).
Avec d’autres modèle CNN, XLM et BERT et plus de Q&R nucléaires on peut atteindre 85 à 90% de bonnes réponses (en test)
Experts
Jeux d’apprentissage Modèle BiLSTM IA DL Q&R
Traduction de l’anglais au français 110 000 Q&R
basées sur Wikipédia (SQuAD v1.1)
Création de 7 243 Q&R basées sur des
textes nucléaires (Assystem)
12
Démonstrateur de la solution
Démonstrateur avec 5 interfaces
13
Modules de visualisation et validation des classifications
14
Nouveau Moteur de Recherche Sémantique: Requête
Un interface simple et ergonomique pour des requêtes complexes basées
sur la description et l’historique particulier du Site (ontologie extraite)
15
Moteur de Recherche Sémantique: Résultat
Restitution du document avec des annotations claires
permettant de trouver les informations recherchées
16
Validation de l’ontologie pour peuplement
Validation des classes et propriétés pour injection dans l’ontologie et son peuplement
17
Utilisation directe de l’Ontologie du Site
L’ontologie extraite des données d’entrée permet de restituer une description détaillée et structurée de des
bâtiments, des équipements et de l’historique (analyses, événements, interventions…) du Site.
Cette ontologie peut aussi alimenter des modèles de type MBSE ou des bases de données propriétaires.
Modèle MBSE
Bases de Données propriétaire
Requêtes Directes
Ontologie Extraite
18
Comparatif GED vs GDI
19
Fonctionnalité GED GDI
Numérisation et OCRisation √ √
Catégorisation des documents selon plusieurs axes grâce à l’Indexation sur des
Métadonnées : titre, auteur du document, type de document, horodateur, référence, domaine…
√ √
Recherche en texte intégral ou full-text avec application de filtres √ √
Gestion des droits et la sécurité des données √ √
Catégorisation automatique des documents √ √
Recherche des documents doubles ou proches √ √
Extraction des tableaux, listes et glossaires √
Génération et peuplement d’ontologies √
Moteur de recherche sémantique basé sur des ontologies √
Alimentation des bases de données avec requêtes en SQL ou SPARQL √
Interrogation en langage naturel IA, Chatbot √
Extraction, Lecture, catégorisation, des images, plans et schémas √
Moteur de recherche sur les images, plans et schémas √
Conclusion
La Solution GDI d’Assystem permet de valoriser la masse d’information contenue dans plusieurs
années et m3 d’archives documentaires.
Elle transforme ces archives difficiles d’accès en données structurées directement exploitable par
un moteur de recherche, une base de donnée, un modèle de type MBSE ou encore un ChatBot.
Pour les ingénieures et techniciens, elle réduit considérablement le temps stérile consacré à la
recherche d’information et optimise le temps pour la conception et le réalisation.
20
Contacts
ALI KABBADJ
TITRE
email@assystem.com
+00 0 00 00 00 00
21
ALI KABBADJ
akabbadj@assystem.com
Tél. : +33 (0)7 68 36 66 35
Tour Egée
9/11, Allée de l'Arche
92400 Courbevoie

More Related Content

Similar to Text mining pour industrie

Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Jeremy Greze
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
7. information modelling
7. information modelling7. information modelling
7. information modellingsugogo
 
Modèles de données et langages de description ouverts 4 - 2021-2022
Modèles de données et langages de description ouverts   4 - 2021-2022Modèles de données et langages de description ouverts   4 - 2021-2022
Modèles de données et langages de description ouverts 4 - 2021-2022François-Xavier Boffy
 
X-Analysis Professional - version française
X-Analysis Professional - version françaiseX-Analysis Professional - version française
X-Analysis Professional - version françaiseFresche Solutions
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4jNeo4j
 
Chap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdfChap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdfBoubakerMedanas
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresRobert Viseur
 
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data LakeGestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data LakeMongoDB
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueGautier Poupeau
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationDenodo
 
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
280219 Webinar Reprenez le Contrôle de Vos Disques RéseauxEverteam
 
Technologies information2emejoursept2013
Technologies information2emejoursept2013Technologies information2emejoursept2013
Technologies information2emejoursept2013FormationAdbs
 
infrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeuxinfrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeuxDesconnets Jean-Christophe
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...Neo4j
 

Similar to Text mining pour industrie (20)

Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?Comment faire parler les data des candidats ?
Comment faire parler les data des candidats ?
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
7. information modelling
7. information modelling7. information modelling
7. information modelling
 
Modèles de données et langages de description ouverts 4 - 2021-2022
Modèles de données et langages de description ouverts   4 - 2021-2022Modèles de données et langages de description ouverts   4 - 2021-2022
Modèles de données et langages de description ouverts 4 - 2021-2022
 
X-Analysis Professional - version française
X-Analysis Professional - version françaiseX-Analysis Professional - version française
X-Analysis Professional - version française
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 
Chap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdfChap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdf
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data LakeGestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
spatial data infrastructure
spatial data infrastructurespatial data infrastructure
spatial data infrastructure
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
280219 Webinar Reprenez le Contrôle de Vos Disques Réseaux
 
Technologies information2emejoursept2013
Technologies information2emejoursept2013Technologies information2emejoursept2013
Technologies information2emejoursept2013
 
infrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeuxinfrastructure de données spatiales: notions et enjeux
infrastructure de données spatiales: notions et enjeux
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
Comment le contexte rend l’IA plus fiable et plus efficace ? - Webinaire 11 f...
 

Recently uploaded

Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxHadJer61
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 

Recently uploaded (6)

Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptx
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 

Text mining pour industrie

  • 1. Septembre 2019 GDI : Global Data Inquirer for Industry Solution d’Intelligence Artificielle pour lire comprendre et structurer les archives techniques d’installations complexes
  • 2. SOMMAIRE 2 01 Les Enjeux 02 Le Contexte 03 Présentation de la solution GDI : Enjeux, Contexte & Objectifs Sommaire 04 Solution Innovante: • Composition • Architecture • Classificateur txt, img, plan, schéma • Conversion + OCR + extraction des tableaux • Construction et peuplement de l’ontologie du site 05 Démonstrateur • Visualisation des doubles, proches & tableaux • Moteur de Recherche Sémantique • Validation et correction de l’ontologie du site
  • 3. Les Enjeux Depuis près de 60 ans, les exploitants industriels produisent des documents relatifs à leurs installations, sous divers formats et sur divers supports. Ces informations concernent divers domaines et sont consultées la maintenance, les audits et le démantèlement. Les documents concernent les Bâtiments, les Equipements , la Sécurité, la Chimie, le Nucléaire la Maintenance et les Evolutions ... Dans le nucléaire un projet de démantèlement doit présenter un dossier solide et bien argumenté aux autorités de sûreté nucléaire. Une estimation évalue à 14 milliards de documents pour les installation nucléaires. Avec en moyenne de 230 000 fichiers et 180 000 documents par installation. Ce projet vise à fournir un point d'entrée unique sur cette masse de documents, rendre la préparation des audits plus rapide et plus fiable afin de réduire considérablement les provisions pour incertitudes L'originalité de la solution est de mixer les techniques traditionnelles d’analyse de texte : classification, regroupement, annotation et indexation des documents textuels (GED, moteur de recherche), et les nouvelles technologies d’IA (apprentissage profond) 3
  • 4. Le Contexte Les outils d'analyse de texte sont de plus en plus utilisés par les entreprises pour les aider dans leurs activités. Les sources de textes sont diverses : interactions clients, e-mails, blogs, avis sur les produits, Post sur les réseaux sociaux, Tweets, Notes et Rapports techniques, archives, REX.... L'objectif principal de l'analyse de texte est de collecter des données structurées et non structurées, de les analyser et de les utiliser pour la prise de décision commerciale ou opérationnelle. Textes non structurés Données structurées Données identifiées Analyse des données Extraction 4
  • 5. Présentation de la Solution: Objectifs UtilisateursDonnées d’entrées Reconnaissance Textes Scannés Apprentissage Profond Ontologie Réponses Trouver rapidement des informations pertinentes dans la masse de données accumulé pendant la vie d’une installation Objectifs intermédiaires : • Transformer des documents papiers ou des images numériques en objets manipulables par des machines • Classifier et regrouper les documents et leur contenu • Repérer dans les textes les données pertinentes selon leur syntaxe • Repérer dans les textes les données pertinentes selon leur sémantique ? GDI Classification 5
  • 6. Innovation de la Solution L’originalité de Solution est de mixer les techniques traditionnelles de capture et de classification des documents textuels (GED, moteur de recherche) avec utilisation d’ontologie et les nouvelles technologies de d’apprentissage profond (Deep Learning) d’IA appliquées à la compréhension du langage naturel 6
  • 7. Présentation de Solution: Composition La solution est composée de différents types de modules A chacun des modules est construit avec les meilleures techniques Open Source (Pytesseract, Google-Vision, Spacy, Scikit-Learn, Elasticsearche, Pytorch, Tensorflow, QaNet, BERT, XLM) Construction d’Ontologie Moteur de Recherche sémantique Modèle Q&R IA DP Convertisseur & OCR+ Modélisation du site en classes, sous-classes, propriétés, relation à partir des documents textes Convertissage d’un format à un format unique pdf Numérisation documents papiers et reconnaissance des caractères Conversion en texte Moteur de recherche personnalisé et optimisé à l’aide de l’ontologie propre au domaine de recherche Modèle IA DL de lecture et compréhension de texte en langage naturel pour répondre à des questions Classificateur 1 2 3 IA DP Modèle IA DL de classification des objets par pertinence pour le domaine Groupage Classification Etiquetage Groupage, classification et étiquetage des documents, plans, schémas et images pour facilité leur recherche Modèle Extracteur de données IA DP Modèle IA DL de recherche des données pertinente directement dans le texte en Langage Naturel et leur structuration 7
  • 8. Modules Architecture de la Solution Conversion et OCR au format PDF Classificateur 1 images DL Texte, Tableau, Plan, Image Image Plan Texte Tableau Classificateur 2 images DL Type d’image Classificateur 3 DL Type de plan Groupage & Classification Groupage & Classification Groupage & ClassificationOCR+ Validation Experts Ontologie du site peuplée Etiquetage Métadonnées (Tagging) Ontologie générique nucléaire Bases de données Extracteur DL Validation Experts Langages et outils de requête Doc d’ entrée Modèle Q/R DL techniques traditionnelles . (DL: Deep Learning) d’IA Model MBSE Par mots clés En langage naturel avec réponse dans le texte Moteur de recherche sémantique Validation manuelle Constructeur d’ontologie 8 non oui Extracteur de Tableaux Légende Pur PDF
  • 9. Les Enjeux Depuis près de 60 ans, les exploitants industriels produisent des documents relatifs à leurs installations, sous divers formats et sur divers supports. Ces informations concernent divers domaines et sont consultées la maintenance, les audits et le démantèlement. Les documents concernent les Bâtiments, les Equipements , la Sécurité, la Chimie, le Nucléaire la Maintenance et les Evolutions ... Dans le nucléaire un projet de démantèlement doit présenter un dossier solide et bien argumenté aux autorités de sûreté nucléaire. Une estimation évalue à 14 milliards de documents pour les installation nucléaires. Avec en moyenne de 230 000 fichiers et 180 000 documents par installation. Ce projet vise à fournir un point d'entrée unique sur cette masse de documents, rendre la préparation des audits plus rapide et plus fiable afin de réduire considérablement les provisions pour incertitudes L'originalité de la solution est de mixer les techniques traditionnelles d’analyse de texte : classification, regroupement, annotation et indexation des documents textuels (GED, moteur de recherche), et les nouvelles technologies d’IA (apprentissage profond) 3
  • 10. Chaine de Conversion, OCR et Classification des textes et tableaux 10
  • 11. Construction et Peuplement de l’Ontologie du Site construction à partir des tableaux et listes par NLP construction à partie de texte par Deep Learning IA Ontologie du Site 75 % 25 % Ontologie du Site est construite par deux méthodes complémentaires : Extraction des tableaux et listes dans les documents et par Lecture & Compréhension du texte par IA (Apprentissage Profond) 11
  • 12. Modèle IA DL de pour lecture et compréhension de textes nucléaires IA DL techniques : Lecture et compréhension de textes en français Adaptation de modèles IA DL Q&R au français et au domaine du démantèlement Grace l’ajout des 7 243 Q&R spécifiques aux nucléaires les performances du modèle ont été améliorés de 55% à 63% de bonnes réponses (+8 pts). Avec d’autres modèle CNN, XLM et BERT et plus de Q&R nucléaires on peut atteindre 85 à 90% de bonnes réponses (en test) Experts Jeux d’apprentissage Modèle BiLSTM IA DL Q&R Traduction de l’anglais au français 110 000 Q&R basées sur Wikipédia (SQuAD v1.1) Création de 7 243 Q&R basées sur des textes nucléaires (Assystem) 12
  • 13. Démonstrateur de la solution Démonstrateur avec 5 interfaces 13
  • 14. Modules de visualisation et validation des classifications 14
  • 15. Nouveau Moteur de Recherche Sémantique: Requête Un interface simple et ergonomique pour des requêtes complexes basées sur la description et l’historique particulier du Site (ontologie extraite) 15
  • 16. Moteur de Recherche Sémantique: Résultat Restitution du document avec des annotations claires permettant de trouver les informations recherchées 16
  • 17. Validation de l’ontologie pour peuplement Validation des classes et propriétés pour injection dans l’ontologie et son peuplement 17
  • 18. Utilisation directe de l’Ontologie du Site L’ontologie extraite des données d’entrée permet de restituer une description détaillée et structurée de des bâtiments, des équipements et de l’historique (analyses, événements, interventions…) du Site. Cette ontologie peut aussi alimenter des modèles de type MBSE ou des bases de données propriétaires. Modèle MBSE Bases de Données propriétaire Requêtes Directes Ontologie Extraite 18
  • 19. Comparatif GED vs GDI 19 Fonctionnalité GED GDI Numérisation et OCRisation √ √ Catégorisation des documents selon plusieurs axes grâce à l’Indexation sur des Métadonnées : titre, auteur du document, type de document, horodateur, référence, domaine… √ √ Recherche en texte intégral ou full-text avec application de filtres √ √ Gestion des droits et la sécurité des données √ √ Catégorisation automatique des documents √ √ Recherche des documents doubles ou proches √ √ Extraction des tableaux, listes et glossaires √ Génération et peuplement d’ontologies √ Moteur de recherche sémantique basé sur des ontologies √ Alimentation des bases de données avec requêtes en SQL ou SPARQL √ Interrogation en langage naturel IA, Chatbot √ Extraction, Lecture, catégorisation, des images, plans et schémas √ Moteur de recherche sur les images, plans et schémas √
  • 20. Conclusion La Solution GDI d’Assystem permet de valoriser la masse d’information contenue dans plusieurs années et m3 d’archives documentaires. Elle transforme ces archives difficiles d’accès en données structurées directement exploitable par un moteur de recherche, une base de donnée, un modèle de type MBSE ou encore un ChatBot. Pour les ingénieures et techniciens, elle réduit considérablement le temps stérile consacré à la recherche d’information et optimise le temps pour la conception et le réalisation. 20
  • 21. Contacts ALI KABBADJ TITRE email@assystem.com +00 0 00 00 00 00 21 ALI KABBADJ akabbadj@assystem.com Tél. : +33 (0)7 68 36 66 35 Tour Egée 9/11, Allée de l'Arche 92400 Courbevoie