Présentation faite par Pierre Col au Meetup Lyon Data Science du 9 juin 2016 : l'intelligence artificielle et le machine learning, appliqués au texte mining (classification automatique, extraction d'entités nommées) permettent d'enrichir des corpus documentaires avec des métadonnées qui vont faciliter la recherche d'information et la navigation dans les documents, qui peuvent être liés selon l'approche du linked data.
Web sémantique et référentiels : l'avenir de l'image sur le Web
Comment l'intelligence artificielle améliore la recherche documentaire
1. Comment l’intelligence artificielle améliore
la recherche documentaire
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@PierreCol – @AntidotNet
2. 2
@AntidotNet
Agenda
● Antidot (en 2 slides)
● Où en est la recherche documentaire ?
● Comment enrichir les documents ?
● Text Mining et IA - créer des métadonnées
● Linked (Open) Data – lier les documents
● Exemples
4. 4
@AntidotNet
Antidot @AntidotNet
● Editeur de logiciels
● moteurs de recherche | enrichissement des données
● depuis 1999 | Paris, Lyon, Aix-en-Provence
● 47 collaborateurs | +150 clients
● Mission : fournir des solutions innovantes qui créent
de la valeur à partir des données et augmentent la
performance opérationnelle de nos clients
8. 8
@AntidotNet
Question :
Que s’est-il passé ces 10 dernières années
dans
le monde du moteur de recherche
documentaire ?
Notre réponse :
Rien de bien passionnant…
10. 10
@AntidotNet
Comment un moteur trouve-t-il ?
● Il recherche dans les documents
les mots-clés renseignés
● Il filtre les résultats trouvés selon les critères
demandés : type de document, taille,
fourchette de prix…
● Et enfin, le plus important : il ordonne les
document dans l’ordre « le plus pertinent »
12. 12
@AntidotNet
Qu’est-ce que la pertinence ?
● Cette méthode de pondération s’appelle TF-
IDF (Term Frequency - Inverse Document
Frequency)
● Elle a été inventée en 1970
par Gerry Salton, appelé le
père de la recherche d’information
16. 16
@AntidotNet
Pertinence des moteurs Web
● Étape 1 - 90s : algorithmes TF-IDF
● Étape 2 - 2000 : Google invente le Page Rank
● Étape 3 - 2005 : explosion du nombre de
paramètres de pondération
● Étape 4 - 2010 : le Machine Learning pour
trouver la meilleure pertinence pour chacun
17. 17
@AntidotNet
Pertinence des moteurs d’entreprise
● TF-IDF est toujours implémenté dans tous les
moteurs de recherche documentaires,
via les algorithmes appelés Best Match ou
Vector Space Model
● L’état de l’art scientifique de ces moteurs de
recherche a 45 ans !
19. 19
@AntidotNet
Disposer d’un contexte riche
● Les résultats sont d’autant plus pertinents que
le moteur de recherche dispose, pour chaque
document, de métadonnées riches
20. 20
@AntidotNet
Disposer d’un contexte riche
● Si nécessaire, avant indexation des
documents, créer des métadonnées pour
● caractériser finement chaque document
● lier les documents entre eux
● Des outils précieux :
● Text Mining / Machine Learning
● Linked Data
21. 21
@AntidotNet
Qu’est-ce que le Text Mining ?
● Fouille de textes : ensemble de
traitements informatiques consistant à
extraire des connaissances dans des
textes produits par des humains pour des
humains.
● Disciplines scientifiques :
● linguistique calculatoire, traitement automatique des
langues,
● apprentissage automatique, intelligence artificielle,
● statistique
22. 22
@AntidotNet
Qu’est-ce que le Machine Learning ?
● Définition : faculté donnée à un
ordinateur d’apprendre un
comportement à partir d’exemples
● Discipline scientifique :
● Intelligence Artificielle
● approche probabiliste ≠ approches par règles
23. 23
@AntidotNet
Disposer d’un contexte riche
● En exploitant les métadonnées, on peut
créer des liens entre documents
issus de silos différents
● Pour cela, on dispose de l’approche et des
standards du web de données : Linked Data
41. 41
@AntidotNet
www.caij.qc.ca
● L’information pour les avocats du Québec
● Une information « en vrac »
● 1,7 M documents sans classement à la source
● 10.000 nouveaux docs chaque mois
● Plan de classement : 600 domaines du droit
● Classer : une tâche surhumaine
● 10 à 15 minutes par document ?
● Un travail évalué à plus de 200 années hommes !
51. 51
@AntidotNet
Un projet mené en 3 mois
● 3 personnes ont travaillé itérativement pour
constituer le corpus d’entraînement :
≈ 20 docs x 600 domaines ≈ 12.000 docs
● 1,7M de documents classés en 10 h, à raison
de 23 ms par document
57. 57
@AntidotNet
Exploiter la variété des documents
● Tirer profit de l’énorme gisement de valeur
des données non structurées :
● documents bureautiques, courriels
● GED – gestion électronique de documents
● CRM – gestion de la relation clients
● ERP – outils de gestion d’entreprise
● …
et de leur richesse sémantique !
70. Des questions ?
Merci de votre attention
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@PierreCol – @AntidotNet
Editor's Notes
Avant de me présenter, une petite question : qui ici était né en 1978 ?
Peu de monde… et cela confirme ce que laisse penser ma barbe blanche : je suis devenu « un vieux con de l’informatique » :-)
En 1978, âgé de 15 ans, je codais mon premier programme en assembleur Z80 ensuite après une école d’ingénieurs en informatique et intelligence artificielle j’ai vu passer plusieurs vagues technologiques et pas des moindres : j’ai d’abord co-écrit un logiciel serveur pour le web 0.0, celui qu’on consultait sur un petit cube marron avec un écran N&B de 24 lignes par 40 caractères Puis j’ai vu les débuts du web il y a un peu plus de 20 ans et travaillé pour un des principaux hébergeurs français, Jet Multimédia, depuis vendu à SFR. J’ai ensuite accompagné le lancement de quelques startup lyonnaises avant de rejoindre l’éditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France où je parle d’infrastructures Internet. Je considère que la combinaison du web, du big data et de l’intelligence artificielle via le machine learning va apporter une accélération extraordinaire, non seulement de l’informatique mais bien au-delà, et pour toute l’humanité.
Distinguons 3 catégories de moteurs de recherche : les grands moteurs du web, les moteurs spécialisés et les moteurs d’entreprise
tf_idf : plus un mot recherché est présent dans le document A et moins ce mot est présent dans les autres documents, alors plus A est jugé pertinent pour ce mot et donc plus le document A doit être mis en tête de liste
Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour suggérer des recherches ou des réponses : top des recherches, produits les plus vus…
Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour ordonner les résultats de réponse : disponibilité, top ventes, marge etc
Les moteurs spécialisés apportent un maximum de filtres pour raccourcir le parcours client
La classification automatique de textes consiste à poser des étiquettes, ou tags, sur les textes. Chaque étiquette caractérise un « sujet » dont parle le texte.
Un corpus représentatif permet d’entraîner le logiciel de classification : il constitue une base de « signatures » caractéristique de chaque tag, qu’il va ensuite utiliser pour classer tous les autres textes. Le traitement du corpus d’entraînement prend quelques minutes, le classement de chaque document ne prenant ensuite que quelques millisecondes.
La première étape est manuelle : elle consiste à poser « à la main » les étiquettes sur les documents. Pour cela, un€ documentaliste choisit des documents, par exemple grâce à un moteur de recherche.
Les tags sont automatique proposés, selon le plan de classement retenu.
On itère pour poser toutes les étiquettes pertinentes sur chaque document.
On lance ensuite le processus d’apprentissage sur ce corpus représentatif : il faut en général entre 20 et 30 documents par étiquette.
Un rapport permet d’évaluer le niveau de qualité (indicateur F1)
On itère ensuite en enlevant / ajoutant des documents pour les tags qui manquent de précision.
On voit ici la précision s’améliorer asymptotiquement au fil des itérations sur le corpus d’entraînement.
En résumé : - à gauche, un apprentissage supervisé qui fait intervenir des experts humains
- à droite, une classification automatique ultra-rapide
Exemple avec le portail ISIDORE du CNRS
ISIDORE - http://www.rechercheisidore.fr - a vocation à agréger toutes les publications scientifiques en sciences humaines et sociales - SHS. Au lancement du projet, il comprenait 1,8 millions de documents, et en fournit aujourd’hui plus du double.
Chaque document a été classé selon la nomenclature officielles des sciences humaines et sociales qui couvre plus de trente disciplines.
Cette classification permet au moteur de recherche de proposer des facettes de filtrage des résultats très utiles.
Autre exemple, au Québec, dans le domaine juridique
L’objectif du CAIJ - http://caij.qc.ca - est de rendre facilement accessible une information foisonnante, et non classée à la source : en effet les avocats sont spécialisés par domaine du droit (famille, travail, pénal..) et n’ont pas de temps à perdre : ils veulent trouver très vite les infos utiles pour leur dossier.
Un classement par des humains était inenvisageable.
Là encore, la classification permet un filtrage très précis des résultats d’une recherche.
Dans un premier temps, des spécialistes du droit (étudiants en 3ème année) ont posé des étiquette spour constituer le corpus d’entraînement
Les étiquettes sont suggérées selon le plan de classement du CAIJ
Comme on l’a vu, la démarche
Chaque entraînement du classifieur automatique fournit un rapport analysé étiquette par étiquette.
Il est important d’avoir une vision globale de la précision
Le projet a été un vrai succès, et en à peine 3 mois.
Autre brique d’enrichissement, l’extraction d’entités nommées
L’idée est de partir d’un texte à plat, et d’en extraire les noms de personnes, de lieux, d’organisation etc. On peut entraîner un extracteur d’entités sur des vocabulaires spécifiques : par exemple dans la santé avec des noms de molécules, de maladies, de médicaments…
Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
Le Linked Data, issu du web des données, permet d’enrichir le contexte de chaque document en le liant à d’autres
Toutes les applications produisent des données non structurées : comment en exploiter le sens ?
Les données sont le principal actif d’une entreprise. Des entreprises sont mortes d’avoir perdu leurs données… et aujourd’hui la plupart des entreprises sous-exploitent cet actif, disséminé dans des silos cloisonnées
En reliant des données et documents, on crée de la « smart information » dans laquelle l’utilisateur pourra naviguer, indépendamment du point d’entrée qui pourra bien sûr être le moteur de recherche.
Le courriel envoyé par le client X de l’entreprise E au commercial Y de votre entreprise parle du projet P, qui implique les produits A et B, etc… En trouvant un de ces documents, on pourra profiter de toutes les informations qui lui sont connexes.
Revenons à ISIDORE
La classification automatique permet de filtrer : ici o, part de plus de 113.000 résultats à une requête
Pour n’en avoir plus qu’un peu plus 2000 en choisissant les documents vieux de moins d’un an.
Une fois sélectionné un document, sont contexte se trouve exposé à droite : la classification, et les sujets / concepts qu’il couvre
En cliquant sur « Rebondir » l’utilisateur peut choisir de naviguer selon énormément d’axes : la source, la collection, la discipline, l’auteur, le type de doc etc. Il s’agit d’une forme de sérendipité orientée répondant exactement aux besoins d’un chercheur.Les chercheurs ont salué l’efficacité d’ISIDORE, qui réduit considérablement le temps passé à constituer une bibliographie
Pour aller plus loin, ISIDORE publie son modèle de données…
… et rend l’ensemble des contenus et de leurs métadonnées accessibles dans le Linked Open Data, via un triple store RDF requêtable en SPARQL.