SlideShare a Scribd company logo
1 of 70
Comment l’intelligence artificielle améliore
la recherche documentaire
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@PierreCol – @AntidotNet
2
@AntidotNet
Agenda
● Antidot (en 2 slides)
● Où en est la recherche documentaire ?
● Comment enrichir les documents ?
● Text Mining et IA - créer des métadonnées
● Linked (Open) Data – lier les documents
● Exemples
3
Antidot en 2 slides
4
@AntidotNet
Antidot @AntidotNet
● Editeur de logiciels
● moteurs de recherche | enrichissement des données
● depuis 1999 | Paris, Lyon, Aix-en-Provence
● 47 collaborateurs | +150 clients
● Mission : fournir des solutions innovantes qui créent
de la valeur à partir des données et augmentent la
performance opérationnelle de nos clients
5
@AntidotNet
Parmi nos clients
● Production de contenus
● Industries
● E-Commerce
● Santé
6
@AntidotNet
Pierre Col @PierreCol
1978
1963
1983
1986
1996
2007
2010
7
Où en est
la recherche
documentaire ?
8
@AntidotNet
Question :
Que s’est-il passé ces 10 dernières années
dans
le monde du moteur de recherche
documentaire ?
Notre réponse :
Rien de bien passionnant…
9
@AntidotNet
3 types de moteurs de recherche
10
@AntidotNet
Comment un moteur trouve-t-il ?
● Il recherche dans les documents
les mots-clés renseignés
● Il filtre les résultats trouvés selon les critères
demandés : type de document, taille,
fourchette de prix…
● Et enfin, le plus important : il ordonne les
document dans l’ordre « le plus pertinent »
11
@AntidotNet
Qu’est-ce que la pertinence ?
Mot
Mot
Mot
Mot
Mot
Mot
Mot
Mot
1
Mot
12
@AntidotNet
Qu’est-ce que la pertinence ?
● Cette méthode de pondération s’appelle TF-
IDF (Term Frequency - Inverse Document
Frequency)
● Elle a été inventée en 1970
par Gerry Salton, appelé le
père de la recherche d’information
13
@AntidotNet
Pertinence des moteurs spécialisés
14
@AntidotNet
Pertinence des moteurs spécialisés
15
@AntidotNet
Pertinence des moteurs spécialisés
16
@AntidotNet
Pertinence des moteurs Web
● Étape 1 - 90s : algorithmes TF-IDF
● Étape 2 - 2000 : Google invente le Page Rank
● Étape 3 - 2005 : explosion du nombre de
paramètres de pondération
● Étape 4 - 2010 : le Machine Learning pour
trouver la meilleure pertinence pour chacun
17
@AntidotNet
Pertinence des moteurs d’entreprise
● TF-IDF est toujours implémenté dans tous les
moteurs de recherche documentaires,
via les algorithmes appelés Best Match ou
Vector Space Model
● L’état de l’art scientifique de ces moteurs de
recherche a 45 ans !
18
Comment améliorer
l’efficacité de la
recherche ?
19
@AntidotNet
Disposer d’un contexte riche
● Les résultats sont d’autant plus pertinents que
le moteur de recherche dispose, pour chaque
document, de métadonnées riches
20
@AntidotNet
Disposer d’un contexte riche
● Si nécessaire, avant indexation des
documents, créer des métadonnées pour
● caractériser finement chaque document
● lier les documents entre eux
● Des outils précieux :
● Text Mining / Machine Learning
● Linked Data
21
@AntidotNet
Qu’est-ce que le Text Mining ?
● Fouille de textes : ensemble de
traitements informatiques consistant à
extraire des connaissances dans des
textes produits par des humains pour des
humains.
● Disciplines scientifiques :
● linguistique calculatoire, traitement automatique des
langues,
● apprentissage automatique, intelligence artificielle,
● statistique
22
@AntidotNet
Qu’est-ce que le Machine Learning ?
● Définition : faculté donnée à un
ordinateur d’apprendre un
comportement à partir d’exemples
● Discipline scientifique :
● Intelligence Artificielle
● approche probabiliste ≠ approches par règles
23
@AntidotNet
Disposer d’un contexte riche
● En exploitant les métadonnées, on peut
créer des liens entre documents
issus de silos différents
● Pour cela, on dispose de l’approche et des
standards du web de données : Linked Data
24
@AntidotNet
L’approche globale d’Antidot
Access
Search
Semantic & Complex
Enrich
Text Mining
Machine Learning
Doc Graph &
Linked Data
25
Classification
automatique
de documents
26
@AntidotNet
Classification automatique de texte
Droit de la famille
Droit fiscal
Droit pénal
27
@AntidotNet
Principe de fonctionnement
Corpus
d’entrainement
Base
d’apprentissage
Traitement statistique
28
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
29
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
30
@AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
31
@AntidotNet
Etape 2 : Lancer le Machine Learning
32
@AntidotNet
Etape 3 : Mesurer le niveau de qualité du ML
33
@AntidotNet
Etape 4 : Itérer pour amélioration de la qualité
Base
d’apprentissage
Base
d’apprentissage
34
@AntidotNet
Etape 4 : Mesurer l’amélioration de la qualité
35
@AntidotNet
En résumé
36
Exemple :
www.rechercheisidore.fr
37
@AntidotNet
www.rechercheisidore.fr
● 2010
● 750 sources
● 1,8 M publications scientifiques en SHS
● dont 100.000 classées par les documentalistes
● 2016
● 3700 sources
● 4,2 M publications classées automatiquement
38
@AntidotNet
Classification automatique
39
@AntidotNet
Classification automatique
40
Exemple :
www.caij.qc.ca
41
@AntidotNet
www.caij.qc.ca
● L’information pour les avocats du Québec
● Une information « en vrac »
● 1,7 M documents sans classement à la source
● 10.000 nouveaux docs chaque mois
● Plan de classement : 600 domaines du droit
● Classer : une tâche surhumaine
● 10 à 15 minutes par document ?
● Un travail évalué à plus de 200 années hommes !
42
@AntidotNet
Classification automatique
43
@AntidotNet
Atelier d’entraînement
44
@AntidotNet
Atelier d’entraînement
45
@AntidotNet
Atelier d’entraînement
46
@AntidotNet
Boucle d’amélioration continue
47
@AntidotNet
48
@AntidotNet
Mesurer la qualité des résultats
49
@AntidotNet
Mesurer la qualité des résultats
50
@AntidotNet
Précision inégalée
51
@AntidotNet
Un projet mené en 3 mois
● 3 personnes ont travaillé itérativement pour
constituer le corpus d’entraînement :
≈ 20 docs x 600 domaines ≈ 12.000 docs
● 1,7M de documents classés en 10 h, à raison
de 23 ms par document
52
Extraction d’entités
nommées
53
@AntidotNet
Extraction d’entités nommées
54
@AntidotNet
Extraction d’entités
55
@AntidotNet
Extraction d’entités
56
Linked (Open) Data
57
@AntidotNet
Exploiter la variété des documents
● Tirer profit de l’énorme gisement de valeur
des données non structurées :
● documents bureautiques, courriels
● GED – gestion électronique de documents
● CRM – gestion de la relation clients
● ERP – outils de gestion d’entreprise
● …
et de leur richesse sémantique !
58
@AntidotNet
Changer de paradigme
● Ne plus considérer les applications mais
SEULEMENT LES DONNÉES
59
@AntidotNet
Relier les données
● Mettre les données de l’entreprise en
commun, les mailler au niveau le plus fin
60
@AntidotNet
Faire émerger l’implicite
61
Exemple :
www.rechercheisidore.fr
62
@AntidotNet
On recherche par mots clés
63
@AntidotNet
On filtre via les facettes
64
@AntidotNet
On sélectionne un document
65
@AntidotNet
On rebondit via les métadonnées
66
@AntidotNet
Modèle de données public
67
@AntidotNet
Accès normalisé RDF / SPARQL
68
Conclusion
69
@AntidotNet
Enrichir et contextualiser pour trouver vite
Des questions ?
Merci de votre attention
Meetup Lyon Data Science – 9 juin 2016
Pierre Col – Directeur Marketing Antidot
@PierreCol – @AntidotNet

More Related Content

What's hot

Introduction à la veille technologique S1E01
Introduction à la veille technologique S1E01Introduction à la veille technologique S1E01
Introduction à la veille technologique S1E01Alain Marois
 
ESET : Intelligence artificielle et Cyber sécurité
ESET : Intelligence artificielle et Cyber sécurité ESET : Intelligence artificielle et Cyber sécurité
ESET : Intelligence artificielle et Cyber sécurité ANSItunCERT
 
Culture numérique - Révision.pdf
Culture numérique - Révision.pdfCulture numérique - Révision.pdf
Culture numérique - Révision.pdfMedBechir
 
The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...
The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...
The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...Neo4j
 
Veille technologique informatique
Veille technologique informatiqueVeille technologique informatique
Veille technologique informatiqueDamien Luciani
 
Utiliser les flux RSS pour sa veille : Pourquoi et comment ?
Utiliser les flux RSS pour sa veille : Pourquoi et comment ?Utiliser les flux RSS pour sa veille : Pourquoi et comment ?
Utiliser les flux RSS pour sa veille : Pourquoi et comment ?URFIST de Paris
 
Les Français, ChatGPT et l'intelligence artificielle
Les Français, ChatGPT et l'intelligence artificielleLes Français, ChatGPT et l'intelligence artificielle
Les Français, ChatGPT et l'intelligence artificielleIpsos France
 
Cours5 evaluer information
Cours5 evaluer informationCours5 evaluer information
Cours5 evaluer informationEvelyne Brémond
 
La veille technologique
La veille technologiqueLa veille technologique
La veille technologiqueMariem SELLAMI
 
Mother of Language`s Langchain
Mother of Language`s LangchainMother of Language`s Langchain
Mother of Language`s LangchainJun-hang Lee
 
Presentation Matinée Gouvernance des donnees
Presentation Matinée Gouvernance des donneesPresentation Matinée Gouvernance des donnees
Presentation Matinée Gouvernance des donneesMicropole Group
 
Tp création-dune-ontologie
Tp création-dune-ontologieTp création-dune-ontologie
Tp création-dune-ontologiemarwa baich
 
Veille StratéGique Et Intelligence éConomique
Veille StratéGique Et Intelligence éConomiqueVeille StratéGique Et Intelligence éConomique
Veille StratéGique Et Intelligence éConomiqueFrancis Belime
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeSCD Paris-Sorbonne
 
Introduction à la veille technologique S2E01 (2013)
Introduction à la veille technologique S2E01 (2013)Introduction à la veille technologique S2E01 (2013)
Introduction à la veille technologique S2E01 (2013)Alain Marois
 

What's hot (20)

Veille juridique et professionnelle
Veille juridique et professionnelleVeille juridique et professionnelle
Veille juridique et professionnelle
 
Digital In Store
Digital In StoreDigital In Store
Digital In Store
 
Introduction à la veille technologique S1E01
Introduction à la veille technologique S1E01Introduction à la veille technologique S1E01
Introduction à la veille technologique S1E01
 
Veille technologique
Veille technologiqueVeille technologique
Veille technologique
 
Organiser une veille juridique
Organiser une veille juridiqueOrganiser une veille juridique
Organiser une veille juridique
 
ESET : Intelligence artificielle et Cyber sécurité
ESET : Intelligence artificielle et Cyber sécurité ESET : Intelligence artificielle et Cyber sécurité
ESET : Intelligence artificielle et Cyber sécurité
 
Culture numérique - Révision.pdf
Culture numérique - Révision.pdfCulture numérique - Révision.pdf
Culture numérique - Révision.pdf
 
The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...
The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...
The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...
 
Veille technologique informatique
Veille technologique informatiqueVeille technologique informatique
Veille technologique informatique
 
Utiliser les flux RSS pour sa veille : Pourquoi et comment ?
Utiliser les flux RSS pour sa veille : Pourquoi et comment ?Utiliser les flux RSS pour sa veille : Pourquoi et comment ?
Utiliser les flux RSS pour sa veille : Pourquoi et comment ?
 
Les Français, ChatGPT et l'intelligence artificielle
Les Français, ChatGPT et l'intelligence artificielleLes Français, ChatGPT et l'intelligence artificielle
Les Français, ChatGPT et l'intelligence artificielle
 
Cours5 evaluer information
Cours5 evaluer informationCours5 evaluer information
Cours5 evaluer information
 
La veille technologique
La veille technologiqueLa veille technologique
La veille technologique
 
Mother of Language`s Langchain
Mother of Language`s LangchainMother of Language`s Langchain
Mother of Language`s Langchain
 
La veille stratégique
La veille stratégiqueLa veille stratégique
La veille stratégique
 
Presentation Matinée Gouvernance des donnees
Presentation Matinée Gouvernance des donneesPresentation Matinée Gouvernance des donnees
Presentation Matinée Gouvernance des donnees
 
Tp création-dune-ontologie
Tp création-dune-ontologieTp création-dune-ontologie
Tp création-dune-ontologie
 
Veille StratéGique Et Intelligence éConomique
Veille StratéGique Et Intelligence éConomiqueVeille StratéGique Et Intelligence éConomique
Veille StratéGique Et Intelligence éConomique
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatisée
 
Introduction à la veille technologique S2E01 (2013)
Introduction à la veille technologique S2E01 (2013)Introduction à la veille technologique S2E01 (2013)
Introduction à la veille technologique S2E01 (2013)
 

Similar to Comment l'intelligence artificielle améliore la recherche documentaire

Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Synaltic Group
 
Santé : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCISanté : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCIFrenchTechCentral
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 
Antidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationDenodo
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousAlexandra Loria
 
Festival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioFestival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioAlexandra Loria
 
Atelier Data&Musée au Ministère de la culture - 12/12/18
Atelier Data&Musée au Ministère de la culture - 12/12/18Atelier Data&Musée au Ministère de la culture - 12/12/18
Atelier Data&Musée au Ministère de la culture - 12/12/18Sandra Davené
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
 Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ... Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...Marc Dutoo
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...PCU Consortium
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteAntidot
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !OCTO Technology
 
Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...Antidot
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4jNeo4j
 

Similar to Comment l'intelligence artificielle améliore la recherche documentaire (20)

Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
Introduction au Plan de Gestion de Données
 
Santé : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCISanté : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCI
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
Antidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenus
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tous
 
Festival Online de la Data-2020-Dremio
Festival Online de la Data-2020-DremioFestival Online de la Data-2020-Dremio
Festival Online de la Data-2020-Dremio
 
Atelier Data&Musée au Ministère de la culture - 12/12/18
Atelier Data&Musée au Ministère de la culture - 12/12/18Atelier Data&Musée au Ministère de la culture - 12/12/18
Atelier Data&Musée au Ministère de la culture - 12/12/18
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
 Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ... Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source ...
 
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source S...
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texte
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
 
Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...Comment mettre en relation 
données et documents pour produire 
une informati...
Comment mettre en relation 
données et documents pour produire 
une informati...
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 

More from Antidot

Antidot Content Classifier
Antidot Content ClassifierAntidot Content Classifier
Antidot Content ClassifierAntidot
 
Cas client CAIJ
Cas client CAIJCas client CAIJ
Cas client CAIJAntidot
 
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Antidot
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Antidot
 
Flyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRFlyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRAntidot
 
WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper Antidot
 
Do’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceDo’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceAntidot
 
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Antidot
 
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Antidot
 
En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?Antidot
 
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Antidot
 
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Antidot
 
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Antidot
 
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Antidot
 
Comment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesComment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesAntidot
 
Wikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux donnéesWikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux donnéesAntidot
 
Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Antidot
 
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Antidot
 
Web sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le WebWeb sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le WebAntidot
 

More from Antidot (20)

Antidot Content Classifier
Antidot Content ClassifierAntidot Content Classifier
Antidot Content Classifier
 
Cas client CAIJ
Cas client CAIJCas client CAIJ
Cas client CAIJ
 
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?
 
Flyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRFlyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FR
 
WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper
 
Do’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceDo’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerce
 
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
 
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
 
En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?
 
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
 
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
 
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
 
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
 
Comment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesComment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertes
 
Wikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux donnéesWikidata : quand Wikipédia s'intéresse aux données
Wikidata : quand Wikipédia s'intéresse aux données
 
Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?Comment booster de 30% et plus le taux de conversion de votre site marchand ?
Comment booster de 30% et plus le taux de conversion de votre site marchand ?
 
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
Antidot Semantic Publishing - Réussir un site éditorial agrégeant plusieurs s...
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
 
Web sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le WebWeb sémantique et référentiels : l'avenir de l'image sur le Web
Web sémantique et référentiels : l'avenir de l'image sur le Web
 

Comment l'intelligence artificielle améliore la recherche documentaire

Editor's Notes

  1. Avant de me présenter, une petite question : qui ici était né en 1978 ? Peu de monde… et cela confirme ce que laisse penser ma barbe blanche : je suis devenu « un vieux con de l’informatique » :-) En 1978, âgé de 15 ans, je codais mon premier programme en assembleur Z80 ensuite après une école d’ingénieurs en informatique et intelligence artificielle j’ai vu passer plusieurs vagues technologiques et pas des moindres : j’ai d’abord co-écrit un logiciel serveur pour le web 0.0, celui qu’on consultait sur un petit cube marron avec un écran N&B de 24 lignes par 40 caractères  Puis j’ai vu les débuts du web il y a un peu plus de 20 ans et travaillé pour un des principaux hébergeurs français, Jet Multimédia, depuis vendu à SFR. J’ai ensuite accompagné le lancement de quelques startup lyonnaises avant de rejoindre l’éditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France où je parle d’infrastructures Internet. Je considère que la combinaison du web, du big data et de l’intelligence artificielle via le machine learning va apporter une accélération extraordinaire, non seulement de l’informatique mais bien au-delà, et pour toute l’humanité.
  2. Distinguons 3 catégories de moteurs de recherche : les grands moteurs du web, les moteurs spécialisés et les moteurs d’entreprise
  3. tf_idf : plus un mot recherché est présent dans le document A et moins ce mot est présent dans les autres documents, alors plus A est jugé pertinent pour ce mot et donc plus le document A doit être mis en tête de liste
  4. Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour suggérer des recherches ou des réponses : top des recherches, produits les plus vus…
  5. Les moteurs spécialisés utilisent avant tout des règles de gestion métier pour ordonner les résultats de réponse : disponibilité, top ventes, marge etc
  6. Les moteurs spécialisés apportent un maximum de filtres pour raccourcir le parcours client
  7. La classification automatique de textes consiste à poser des étiquettes, ou tags, sur les textes. Chaque étiquette caractérise un « sujet » dont parle le texte.
  8. Un corpus représentatif permet d’entraîner le logiciel de classification : il constitue une base de « signatures » caractéristique de chaque tag, qu’il va ensuite utiliser pour classer tous les autres textes. Le traitement du corpus d’entraînement prend quelques minutes, le classement de chaque document ne prenant ensuite que quelques millisecondes.
  9. La première étape est manuelle : elle consiste à poser « à la main » les étiquettes sur les documents. Pour cela, un€ documentaliste choisit des documents, par exemple grâce à un moteur de recherche.
  10. Les tags sont automatique proposés, selon le plan de classement retenu.
  11. On itère pour poser toutes les étiquettes pertinentes sur chaque document.
  12. On lance ensuite le processus d’apprentissage sur ce corpus représentatif : il faut en général entre 20 et 30 documents par étiquette.
  13. Un rapport permet d’évaluer le niveau de qualité (indicateur F1)
  14. On itère ensuite en enlevant / ajoutant des documents pour les tags qui manquent de précision.
  15. On voit ici la précision s’améliorer asymptotiquement au fil des itérations sur le corpus d’entraînement.
  16. En résumé : - à gauche, un apprentissage supervisé qui fait intervenir des experts humains - à droite, une classification automatique ultra-rapide
  17. Exemple avec le portail ISIDORE du CNRS
  18. ISIDORE - http://www.rechercheisidore.fr - a vocation à agréger toutes les publications scientifiques en sciences humaines et sociales - SHS. Au lancement du projet, il comprenait 1,8 millions de documents, et en fournit aujourd’hui plus du double.
  19. Chaque document a été classé selon la nomenclature officielles des sciences humaines et sociales qui couvre plus de trente disciplines.
  20. Cette classification permet au moteur de recherche de proposer des facettes de filtrage des résultats très utiles.
  21. Autre exemple, au Québec, dans le domaine juridique
  22. L’objectif du CAIJ - http://caij.qc.ca - est de rendre facilement accessible une information foisonnante, et non classée à la source : en effet les avocats sont spécialisés par domaine du droit (famille, travail, pénal..) et n’ont pas de temps à perdre : ils veulent trouver très vite les infos utiles pour leur dossier. Un classement par des humains était inenvisageable.
  23. Là encore, la classification permet un filtrage très précis des résultats d’une recherche.
  24. Dans un premier temps, des spécialistes du droit (étudiants en 3ème année) ont posé des étiquette spour constituer le corpus d’entraînement
  25. Les étiquettes sont suggérées selon le plan de classement du CAIJ
  26. Comme on l’a vu, la démarche
  27. Chaque entraînement du classifieur automatique fournit un rapport analysé étiquette par étiquette.
  28. Il est important d’avoir une vision globale de la précision
  29. Le projet a été un vrai succès, et en à peine 3 mois.
  30. Autre brique d’enrichissement, l’extraction d’entités nommées
  31. L’idée est de partir d’un texte à plat, et d’en extraire les noms de personnes, de lieux, d’organisation etc. On peut entraîner un extracteur d’entités sur des vocabulaires spécifiques : par exemple dans la santé avec des noms de molécules, de maladies, de médicaments…
  32. Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
  33. Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction. L’objectif est de favoriser le rebond vers des articles triatant de sujets connexes citant les mêmes personnes, organisations etc. Cet algorithme statistique, donc non basé sur des règles morpho-syntaxiques, est très indépendant des langues
  34. Le Linked Data, issu du web des données, permet d’enrichir le contexte de chaque document en le liant à d’autres
  35. Toutes les applications produisent des données non structurées : comment en exploiter le sens ?
  36. Les données sont le principal actif d’une entreprise. Des entreprises sont mortes d’avoir perdu leurs données… et aujourd’hui la plupart des entreprises sous-exploitent cet actif, disséminé dans des silos cloisonnées
  37. En reliant des données et documents, on crée de la « smart information » dans laquelle l’utilisateur pourra naviguer, indépendamment du point d’entrée qui pourra bien sûr être le moteur de recherche.
  38. Le courriel envoyé par le client X de l’entreprise E au commercial Y de votre entreprise parle du projet P, qui implique les produits A et B, etc… En trouvant un de ces documents, on pourra profiter de toutes les informations qui lui sont connexes.
  39. Revenons à ISIDORE
  40. La classification automatique permet de filtrer : ici o, part de plus de 113.000 résultats à une requête
  41. Pour n’en avoir plus qu’un peu plus 2000 en choisissant les documents vieux de moins d’un an.
  42. Une fois sélectionné un document, sont contexte se trouve exposé à droite : la classification, et les sujets / concepts qu’il couvre
  43. En cliquant sur « Rebondir » l’utilisateur peut choisir de naviguer selon énormément d’axes : la source, la collection, la discipline, l’auteur, le type de doc etc. Il s’agit d’une forme de sérendipité orientée répondant exactement aux besoins d’un chercheur. Les chercheurs ont salué l’efficacité d’ISIDORE, qui réduit considérablement le temps passé à constituer une bibliographie
  44. Pour aller plus loin, ISIDORE publie son modèle de données…
  45. … et rend l’ensemble des contenus et de leurs métadonnées accessibles dans le Linked Open Data, via un triple store RDF requêtable en SPARQL.
  46. Revenons à ISIDORE