Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes
Agence Conseil en stratégie digitale
SEO, CRO, Inbound Marketing, Analytics
Philippe YONNET
Agence Search Foresight – Groupe My Media
13 février 2015
Extraction d’information :
Construisez votre propre
graphe de connaissances
/ PHILIPPE YONNET – DIRECTEUR ASSOCIE SF
L’ORATEUR
Philippe YONNET, 49 ans, a aujourd’hui douze années d’expérience en référencement
naturel.
• Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte
audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin,
LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)
• Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-
Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à
Londres et New-York pendant deux ans, en tant que Directeur SEO International
de Vivastreet, puis en tant que Directeur SEO International et Directeur
Merchandising du comparateur de prix Twenga.
• Philippe YONNET est le fondateur de l’association SEO Camp, qui regroupe les
professionnels du référencement des pays francophones.
Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a
contribué à plusieurs chapitres du livre « réussir son référencement » chez
Eyrolles
Il a fondé le principal évènement sur le référencement en France, les SEO
Camp’us
Il a créé la certification CESEO, qui valide les connaissances des experts
en SEO
Lancé en janvier 2015
Directeur : Stéphane Tolleron
Objectifs :
Réaliser études et tests
Développer des outils et briques
logicielles utiles pour nos clients
Piloter les projets de recherche
Les sujets d’étude :
l’extraction d’information
l’indexation des concepts
Un doctorant en TAL
Le SF Lab
/ Un « graphe de connaissances » limité
6
Le knowledge graph de Google
Annoncé le 16 mai 2012
S’appuie fortement sur freebase
/ Service lancé par Metaweb
7
Freebase
La société Metaweb a été rachetée par Google. L'annonce de ce rachat a été
faite le 16 juillet 20101. Le 16 décembre 2014, Google annonce la fermeture de
Freebase pour le 30 juin 2015 et le transfert de son contenu à Wikidata
/ Le principe
8
Le knowledge graph de Google
Une base d’entités
Reliée à des « faits » sur ces entités
Ainsi que les relations sémantiques
entre les entités, et entre les faits et
les entités
/ Définition
9
Les entités nommées
Les entités nommées désignent des « entités »
concrètes, c’est-à-dire des objets qui existent
dans le monde réel : lieux, personnes,
sociétés, dates, numéros de téléphone…
D’une certaine façon, il s’agit d’une
généralisation de tout ce qu’on appelle
« noms propres » dans le langage courant.
La Reconnaissance d‘Entités Nommées (REN
en français, NER en anglais) est une sous-
tâche primordiale dans l'activité d'extraction
d'information dans des documents
Elle consiste à rechercher des objets textuels
(c'est-à-dire un mot, ou un groupe de mots)
catégorisables dans des classes telles que
noms de personnes, noms d'organisations ou
d'entreprises, noms de lieux, quantités,
distances, valeurs, dates, etc.
Source Basistech
/ Exemple : couleur, taille, âge, profession,capital
social…
12
Les attributs des entités
Les attributs sont soit des propriétés,
soit des caractéristiques
L’attribut est indissociable d’une
valeur
Trouver la valeur d’un attribut est
déjà un challenge, identifier les
attributs associables à une entité est
un défi encore plus grand
/ Identifier les relations sémantiques permet de créer une
ontologie
13
Les relations
Ces relations relient les entités avec leurs attributs
Mais aussi les entités entre elles
Mais aussi avec des classes (regroupements) d’entités
ou d’attributs
Attention au faux ami
Information Retrieval : recherche d’information.
Souvent traduit en extraction d’information, mais c’est
impropre.
Les moteurs de recherche, dans le cadre de leur
fonctionnement classique, utilisent des techniques
d’Information Retrieval.
Information extraction : extraction d’information. C’est
notre sujet d’aujourd’hui. En France on utilise
beaucoup aussi le terme « fouille de textes »
Extraction d’information : définition
L'activité qui consiste à remplir automatiquement
une banque de données à partir de textes écrits
en langue naturelle" (T. Poibeau)
/ Les principaux champs de recherche
18
Les différents domaines en IE
La reconnaissance d’entités nommées (REN)
Déjà présentée…
La résolution des co-références (COR)
La résolution des co-références cherche à établir les relations entre une entité nommée et
toutes les désignations utilisées sur le web, comme par exemple : François Hollande, le
président Hollande, le Président de la République, le Président de la République Française…
La COR est indispensable pour améliorer les applications de la NER.
On appelle cette tâche plus vulgairement « normalisation »
L’extraction d’évènements
Les techniques d’extraction d’évènements visent à reconnaître la mention
d’évènements dans les textes, et à créer une base de données structurée,
comportant un certain nombre d’informations associées à l’évènement comme
le nom de l’évènement, les dates de l’évènement, les protagonistes etc.
L’extraction de relations
/ Le processus d’analyse étape par étape
19
L’extraction d’évènement
L’extraction d’évènement est un problème complexe : le challenge fait partie des
premiers défis que les chercheurs se sont lancés
(implémentation typique dans l’outil GATE de l’université de Sheffield)
LES APPROCHES LES PLUS CLASSIQUES
Les méthodes d’extraction
d’information
/ Les « patrons » sémantiques
21
Méthode 1 : L’utilisation de règles
– règles de type expressions régulières écrites à la main, pour la reconnaissance
des entités nommées en fonction de leur contexte
– gros usage de listes, dictionnaires...
– intérêt : lisibilité (jusqu’à un certain point)
– mais requiert une certaine expertise linguistique
– problème : grande évolutivité des noms, ambiguïtés...
– en général : bonne précision, mauvais rappel !
– exemple (démo) : Unitex
/
23
Méthode 2 : L’apprentissage automatique
Apprentissage automatique supervisé
Problème : nécessite au départ un grand nombre d’exemples annotés à la main
Mais cette approche est plus scalable (meilleur rappel, moins bonne précision)
Apprentissage symbolique
Apprentissage basé sur une grammaire (bof !)
Apprentissage d’une classification (utile pour extraire des couples attributs valeurs)
Approche statistique
Apprentissage s’appuyant sur des modèles graphiques
/ Règles, données extérieures, + apprentissage
automatique
24
L’approche hybride
Découverte semi automatique des patrons
Réutilisation de données existantes
Apprentissage faiblement supervisé
OIE : Open Information Extraction
Exemple issu de : https://perso.limsi.fr/xtannier/fr/Enseignement/m2p_tal/M2PRO_EISD_Intro_EI.pdf
Partir d'un patron déjà déterminé :
<company1> acheter <company2>
Trouver des exemples d'entités instanciant ce patron
<company>IBM</company> a acheté <company>Lotus</company>
➢ achat(IBM, Lotus)
– Collection de nouveaux patrons grâce aux connaissances acquises
Lotus a été acquis par IBM
<company2> être acquis <company1>
L'achat de Lotus par IBM
L'achat de <company2> par <company1>
/ De la donnée à la séquence !
29
Création de nouvelles bases structurées
Exemple : parser des recettes de cuisine pour identifier les ingrédients, les
quantités, et les process !
Si, si, c’est possible
/ Ok pour certaines utilisations, problématique pour
d’autres
33
Un cadre juridique complexe
• Droit d’auteur et droits voisins
• Droit des bases de données
• Propriété intellectuelle
• Droit des marques
• Droit « sui generis »
• …
37
L’Open Information Extraction
Concept popularisé par Oren Etzioni
Système d’apprentissage
automatique faiblement supervisé
Capable d’extraire des informations,
sans dépendance au domaine, et
sans rechercher des types de
relation particuliers
Certaines des technologies
développées par Oren Etzioni ont
été achetées par Google
Conclusion
Indexer des entités, des faits, et des relations devient le
nec plus ultra pour les personnes qui veulent offrir des
services sur le web
Extraire des informations demande l’utilisation de
techniques avancées, mais le domaine a fait
d’énormes progrès, et beaucoup d’outils sont
accessibles et disponibles
Plus la demande pour ces techniques progresse, plus
les technologies se développent rapidement
/ Quelques livres
42
Liens et biblio
Extraction automatique d’information de Thierry Poibeau chez
Hermès Lavoisier
Fouille de textes de Fidelia Ibekwe-SanJuan chez Hermès
Lavoisier
/ Les outils
43
Liens et biblio
Outil d’extraction : Unitex http://www-igm.univ-mlv.fr/~unitex/
Reconnaissance des entités nommées : http://www.opencalais.com/
Outil de visualisation de graphes : Gephi http://gephi.github.io/
OIE – Outil TextRunner : http://openie.cs.washington.edu/
OIE – Outil Reverb : http://reverb.cs.washington.edu/