Advertisement
Advertisement

More Related Content

Slideshows for you(20)

Viewers also liked(20)

Advertisement

Similar to Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes(20)

Advertisement

Faites votre propre Knowledge Graph - L'extraction d'information et la fouille de textes

  1. Agence Conseil en stratégie digitale SEO, CRO, Inbound Marketing, Analytics Philippe YONNET Agence Search Foresight – Groupe My Media 13 février 2015 Extraction d’information : Construisez votre propre graphe de connaissances
  2. / PHILIPPE YONNET – DIRECTEUR ASSOCIE SF L’ORATEUR Philippe YONNET, 49 ans, a aujourd’hui douze années d’expérience en référencement naturel. • Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…) • Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition- Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à Londres et New-York pendant deux ans, en tant que Directeur SEO International de Vivastreet, puis en tant que Directeur SEO International et Directeur Merchandising du comparateur de prix Twenga. • Philippe YONNET est le fondateur de l’association SEO Camp, qui regroupe les professionnels du référencement des pays francophones.  Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son référencement » chez Eyrolles  Il a fondé le principal évènement sur le référencement en France, les SEO Camp’us  Il a créé la certification CESEO, qui valide les connaissances des experts en SEO
  3.  Lancé en janvier 2015  Directeur : Stéphane Tolleron  Objectifs :  Réaliser études et tests  Développer des outils et briques logicielles utiles pour nos clients  Piloter les projets de recherche  Les sujets d’étude :  l’extraction d’information  l’indexation des concepts  Un doctorant en TAL Le SF Lab
  4. QU’EST CE QUE C’EST ? Le « knowledge graph »
  5. / Un « graphe de connaissances » limité 6 Le knowledge graph de Google  Annoncé le 16 mai 2012  S’appuie fortement sur freebase
  6. / Service lancé par Metaweb 7 Freebase  La société Metaweb a été rachetée par Google. L'annonce de ce rachat a été faite le 16 juillet 20101. Le 16 décembre 2014, Google annonce la fermeture de Freebase pour le 30 juin 2015 et le transfert de son contenu à Wikidata
  7. / Le principe 8 Le knowledge graph de Google  Une base d’entités  Reliée à des « faits » sur ces entités  Ainsi que les relations sémantiques entre les entités, et entre les faits et les entités
  8. / Définition 9 Les entités nommées Les entités nommées désignent des « entités » concrètes, c’est-à-dire des objets qui existent dans le monde réel : lieux, personnes, sociétés, dates, numéros de téléphone… D’une certaine façon, il s’agit d’une généralisation de tout ce qu’on appelle « noms propres » dans le langage courant. La Reconnaissance d‘Entités Nommées (REN en français, NER en anglais) est une sous- tâche primordiale dans l'activité d'extraction d'information dans des documents Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. Source Basistech
  9. / Exemple 10 Les entités nommées  Reconnaître les entités avec exactitude n’est pas trivial !
  10. / Mettez un outil de REN dans votre navigateur - 11 - Un outil à tester : Open Calais Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  11. / Exemple : couleur, taille, âge, profession,capital social… 12 Les attributs des entités  Les attributs sont soit des propriétés, soit des caractéristiques  L’attribut est indissociable d’une valeur  Trouver la valeur d’un attribut est déjà un challenge, identifier les attributs associables à une entité est un défi encore plus grand
  12. / Identifier les relations sémantiques permet de créer une ontologie 13 Les relations Ces relations relient les entités avec leurs attributs Mais aussi les entités entre elles Mais aussi avec des classes (regroupements) d’entités ou d’attributs
  13. - 14 - Search Foresight 2015 © Agence Conseil en Stratégie Digitale Et finalement, avec tout ça on a construit un graphe de connaissances !
  14. QU’EST CE QUE C’EST ? L’extraction d’information
  15. Attention au faux ami  Information Retrieval : recherche d’information. Souvent traduit en extraction d’information, mais c’est impropre. Les moteurs de recherche, dans le cadre de leur fonctionnement classique, utilisent des techniques d’Information Retrieval.  Information extraction : extraction d’information. C’est notre sujet d’aujourd’hui. En France on utilise beaucoup aussi le terme « fouille de textes »
  16. Extraction d’information : définition L'activité qui consiste à remplir automatiquement une banque de données à partir de textes écrits en langue naturelle" (T. Poibeau)
  17. / Les principaux champs de recherche 18 Les différents domaines en IE  La reconnaissance d’entités nommées (REN)  Déjà présentée…  La résolution des co-références (COR) La résolution des co-références cherche à établir les relations entre une entité nommée et toutes les désignations utilisées sur le web, comme par exemple : François Hollande, le président Hollande, le Président de la République, le Président de la République Française… La COR est indispensable pour améliorer les applications de la NER. On appelle cette tâche plus vulgairement « normalisation »  L’extraction d’évènements Les techniques d’extraction d’évènements visent à reconnaître la mention d’évènements dans les textes, et à créer une base de données structurée, comportant un certain nombre d’informations associées à l’évènement comme le nom de l’évènement, les dates de l’évènement, les protagonistes etc.  L’extraction de relations
  18. / Le processus d’analyse étape par étape 19 L’extraction d’évènement  L’extraction d’évènement est un problème complexe : le challenge fait partie des premiers défis que les chercheurs se sont lancés (implémentation typique dans l’outil GATE de l’université de Sheffield)
  19. LES APPROCHES LES PLUS CLASSIQUES Les méthodes d’extraction d’information
  20. / Les « patrons » sémantiques 21 Méthode 1 : L’utilisation de règles  – règles de type expressions régulières écrites à la main, pour la reconnaissance des entités nommées en fonction de leur contexte  – gros usage de listes, dictionnaires...  – intérêt : lisibilité (jusqu’à un certain point)  – mais requiert une certaine expertise linguistique  – problème : grande évolutivité des noms, ambiguïtés...  – en général : bonne précision, mauvais rappel !  – exemple (démo) : Unitex
  21. / Unitex - 22 - Démo / Exemple Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  22. / 23 Méthode 2 : L’apprentissage automatique Apprentissage automatique supervisé Problème : nécessite au départ un grand nombre d’exemples annotés à la main Mais cette approche est plus scalable (meilleur rappel, moins bonne précision)  Apprentissage symbolique  Apprentissage basé sur une grammaire (bof !)  Apprentissage d’une classification (utile pour extraire des couples attributs valeurs)  Approche statistique  Apprentissage s’appuyant sur des modèles graphiques
  23. / Règles, données extérieures, + apprentissage automatique 24 L’approche hybride  Découverte semi automatique des patrons  Réutilisation de données existantes  Apprentissage faiblement supervisé  OIE : Open Information Extraction Exemple issu de : https://perso.limsi.fr/xtannier/fr/Enseignement/m2p_tal/M2PRO_EISD_Intro_EI.pdf Partir d'un patron déjà déterminé : <company1> acheter <company2> Trouver des exemples d'entités instanciant ce patron <company>IBM</company> a acheté <company>Lotus</company> ➢ achat(IBM, Lotus) – Collection de nouveaux patrons grâce aux connaissances acquises Lotus a été acquis par IBM <company2> être acquis <company1> L'achat de Lotus par IBM L'achat de <company2> par <company1>
  24. Quelques pistes d’applications pour vos sites
  25. / Extraction de caractéristiques 26 Améliorer vos fiches produits  Exemple : Rakuten Source 01 net
  26. / Fonction avancée de comparaison et d’agrégation - 27 - Agréger des données  Source : https://perso.limsi.fr/xtannier/fr/Enseignement/m2r_tal/M2R_TAL_Extraction_Information.pdf Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  27. / Qualification et structuration 28 Bases d’annonces emploi et de CV
  28. / De la donnée à la séquence ! 29 Création de nouvelles bases structurées  Exemple : parser des recettes de cuisine pour identifier les ingrédients, les quantités, et les process !  Si, si, c’est possible
  29. / Les how to ! - 30 - Application chez Google Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  30. / Réponse : des choses très utiles pour le SEO - 31 - Que peut-on faire avec données ? De nouveaux services pour les internautes ! De nouvelles pages de contenus Un maillage interne plus intelligent grâce à des données plus structurées Plus de pertinence, plus de précision pour vos moteurs de recherche interne Une meilleure expérience utilisateur Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  31. L’aspect juridique - 32 - Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  32. / Ok pour certaines utilisations, problématique pour d’autres 33 Un cadre juridique complexe • Droit d’auteur et droits voisins • Droit des bases de données • Propriété intellectuelle • Droit des marques • Droit « sui generis » • …
  33. Et demain ?
  34. - 35 - Search Foresight 2014 © Agence Conseil en Stratégie Digitale Vers le « Knowledge Vault » chez Google  Knowledge Graph = 500 millions d’entités, 3,5 milliards de « faits », 35000 types de relations différentes  Knowledge Vault = 100 fois plus ?
  35. / La note de « véracité », une alternative au pagerank ? - 36 - Google et la vérification des faits !  http://www.newscientist.com/article/ mg22530102.600-google-wants-to- rank-websites-based-on-facts-not- links.html#.VPbn0yz6WOn  Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources - Xin Luna Dong, Evgeniy Gabrilovich, Kevin Murphy, Van Dang Wilko Horn, Camillo Lugaresi, Shaohua Sun, Wei Zhang Google Inc. Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  36. 37 L’Open Information Extraction  Concept popularisé par Oren Etzioni  Système d’apprentissage automatique faiblement supervisé  Capable d’extraire des informations, sans dépendance au domaine, et sans rechercher des types de relation particuliers  Certaines des technologies développées par Oren Etzioni ont été achetées par Google
  37. / Comprendre la question, identifier la bonne réponse ! - 38 - Application de l’OIE : Textrunner Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  38. Application de l’OIE : Revminer
  39. Conclusion  Indexer des entités, des faits, et des relations devient le nec plus ultra pour les personnes qui veulent offrir des services sur le web  Extraire des informations demande l’utilisation de techniques avancées, mais le domaine a fait d’énormes progrès, et beaucoup d’outils sont accessibles et disponibles  Plus la demande pour ces techniques progresse, plus les technologies se développent rapidement
  40. LIENS ET BIBLIO Pour approfondir le sujet 41
  41. / Quelques livres 42 Liens et biblio Extraction automatique d’information de Thierry Poibeau chez Hermès Lavoisier Fouille de textes de Fidelia Ibekwe-SanJuan chez Hermès Lavoisier
  42. / Les outils 43 Liens et biblio  Outil d’extraction : Unitex http://www-igm.univ-mlv.fr/~unitex/  Reconnaissance des entités nommées : http://www.opencalais.com/  Outil de visualisation de graphes : Gephi http://gephi.github.io/  OIE – Outil TextRunner : http://openie.cs.washington.edu/  OIE – Outil Reverb : http://reverb.cs.washington.edu/
  43. 44 Merci !
  44. www.search-foresight.com Spécialiste de l’accompagnement stratégique en SEO
Advertisement