Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Seo camp2017 Marguerite Leenhardt

3,498 views

Published on

De l'indexation à la donnée sémanqtique

Published in: Internet
  • Be the first to comment

  • Be the first to like this

Seo camp2017 Marguerite Leenhardt

  1. 1. by
  2. 2. CEO, XIKO / PRÉSIDENTE, AFTAL Formation • PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP) • MSc. TAL + MSc. Ingénierie Linguistique Multilingue CEO, XiKO (www.xiko.fr) • KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues • Applications : marketing programmatique, enrichissement sémantique Présidente, AFTAL (@AssoForTAL) • Anciens des Formations en Traitement Automatique des Langues • Association inter-universitaire (Paris, Toulouse, Lille, Tours, …) Avant ça/et aussi… • Expériences en agence et en freelance, R&D Project Manager • Charges d’enseignement (niveau Licence & Master)
  3. 3. CEO, XIKO / PRÉSIDENTE, AFTAL Formation • PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP) • MSc. TAL + MSc. Ingénierie Linguistique Multilingue CEO, XiKO (www.xiko.fr) • KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues • Marketing programmatique, enrichissement sémantique, Insight-as-a-Service Présidente, AFTAL (@AssoForTAL) • Anciens des Formations en Traitement Automatique des Langues • Association inter-universitaire (Paris, Toulouse, Lille, Tours, …) Avant ça/et aussi… • Expériences en agence et en freelance, R&D Project Manager • Charges d’enseignement (niveau Licence & Master)
  4. 4. CEO, XIKO / PRÉSIDENTE, AFTAL Formation • PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP) • MSc. TAL + MSc. Ingénierie Linguistique Multilingue CEO, XiKO (www.xiko.fr) • KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues • Marketing programmatique, enrichissement sémantique, Insight-as-a-Service Présidente, AFTAL (@AssoForTAL) • Anciens des Formations en Traitement Automatique des Langues • Association inter-universitaire (Paris, Toulouse, Lille, Tours, …) Avant ça/et aussi… • Expériences en agence et en freelance, R&D Project Manager • Charges d’enseignement (niveau Licence & Master)
  5. 5. CEO, XIKO / PRÉSIDENTE, AFTAL Formation • PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP) • MSc. TAL + MSc. Ingénierie Linguistique Multilingue CEO, XiKO (www.xiko.fr) • KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues • Marketing programmatique, enrichissement sémantique, Insight-as-a-Service Présidente, AFTAL (@AssoForTAL) • Anciens des Formations en Traitement Automatique des Langues • Association inter-universitaire (Paris, Toulouse, Lille, Tours, …) Avant ça/et aussi… • Expériences en agence et en freelance, R&D Project Manager • Charges d’enseignement (niveau Licence & Master) linkedin.com/in/margueriteleenhardt/
  6. 6. AU CŒUR DES RECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES Traitements automatiques de corpus Contenus textuels Expression écrite en langage naturelANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS
  7. 7. AU CŒUR DES RECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES Traitements automatiques de corpus Contenus textuels Expression écrite en langage naturelANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS
  8. 8. AU CŒUR DES RECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES Traitements automatiques de corpus Contenus textuels Expression écrite en langage naturelANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS LINGUISTIQUE DE CORPUS
  9. 9. AU CŒUR DES RECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES Traitements automatiques de corpus Contenus textuels Expression écrite en langage naturelANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS TRAITEMENT AUTOMATIQUE DES LANGUES LINGUISTIQUE DE CORPUS
  10. 10. QUI INTÈGRE DES TECHNIQUES DE TRAITEMENT AUTOMATIQUE DES LANGUES Dédiées à la recherche documentaire Collections de documents Techniques d’indexation et de rechercheANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS
  11. 11. ANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS QUI INTÈGRE DES TECHNIQUES DE TRAITEMENT AUTOMATIQUE DES LANGUES Dédiées à la recherche documentaire Collections de documents Techniques d’indexation et de recherche
  12. 12. QUI INTÈGRE DES TECHNIQUES DE TRAITEMENT AUTOMATIQUE DES LANGUES Dédiées à la recherche documentaire Collections de documents Techniques d’indexation et de rechercheANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS
  13. 13. L’USAGE ET L’ATTENTE DES UTILISATEURS FINAUX A CHANGÉ L’avènement du Natural Language Search Évolution des algorithmes des moteurs de recherche Évolution des tactiques SEO Système de Questions-Réponses Système de mots-clés Système hybrides + techniques TAL & IA
  14. 14. L’USAGE ET L’ATTENTE DES UTILISATEURS FINAUX A CHANGÉ L’avènement du Natural Language Search Évolution des algorithmes des moteurs de recherche Évolution des tactiques SEO 1996 1998 2017 Questions-Réponses mots-clés hybrides + techniques TAL & IA …
  15. 15. L’USAGE ET L’ATTENTE DES UTILISATEURS FINAUX A CHANGÉ L’avènement du Natural Language Search Évolution des algorithmes des moteurs de recherche Évolution des tactiques SEO 1996 1998 2017 Questions-Réponses mots-clés hybrides + techniques TAL & IA …
  16. 16. L’USAGE ET L’ATTENTE DES UTILISATEURS FINAUX A CHANGÉ L’avènement du Natural Language Search Évolution des algorithmes des moteurs de recherche Évolution des tactiques SEO 1996 1998 2017 Questions-Réponses mots-clés hybrides + techniques TAL & IA …
  17. 17. AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE
  18. 18. AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE
  19. 19. AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE TRAITEMENT AUTOMATIQUE DES LANGUES
  20. 20. AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE
  21. 21. AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE REPRÉSENTATION DU CONTENU DESCRIPTION DU SENS
  22. 22. LA FORME DES MOTS La segmentation en mots Quelle définition du mot ? • Naïve / a-linguistique : chaîne de caractères entre deux séparateurs • Pas si simple en français... complexe dans d’autres langues (ex : pas de « mot graphique » en chinois) Apostrophe Trait d’union Aujourd’hui L’eau Demi-sel Savez-vous UN OU DEUX MOTS ? Flexions Sens Avions Vis Glace Caisse AMBIGUÏTÉS !
  23. 23. LA FORME DES MOTS La segmentation en mots Quelle définition du mot ? • Naïve / a-linguistique : chaîne de caractères entre deux séparateurs • Pas si simple en français... complexe dans d’autres langues (ex : pas de « mot graphique » en chinois) Apostrophe Trait d’union Aujourd’hui L’eau Demi-sel Savez-vous UN OU DEUX MOTS ? Flexions Sens Avions Vis Glace Caisse AMBIGUÏTÉS !
  24. 24. LA FORME DES MOTS La segmentation en mots Quelle définition du mot ? • Naïve / a-linguistique : chaîne de caractères entre deux séparateurs • Pas si simple en français... complexe dans d’autres langues (ex : pas de « mot graphique » en chinois) Apostrophe Trait d’union Aujourd’hui L’eau Demi-sel Savez-vous UN OU DEUX MOTS ? Flexions Sens Avions Vis Glace Caisse AMBIGUÏTÉS !
  25. 25. LE POIDS DES MOTS La pondération Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ? • Les mots « importants » doivent avoir un poids fort • TF-IDF : approche la plus répandue Évaluer le poids d’un terme dans un document vs. un corpus / une collection de documents TF-IDF Ordonner les documents potentiellement pertinents pour répondre à une requête Utilisation du TF-IDF en RI : - décrire les documents dans un modèle vectoriel Mesure de similarité en fonction de la distance entre le vecteur « requête » et les vecteurs « documents » RECHERCHE / APPARIEMENT
  26. 26. LE POIDS DES MOTS La pondération Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ? • Les mots « importants » doivent avoir un poids fort • TF-IDF : approche la plus répandue Évaluer le poids d’un terme dans un document vs. un corpus / une collection de documents TF-IDF Ordonner les documents potentiellement pertinents pour répondre à une requête Utilisation du TF-IDF en RI : - décrire les documents dans un modèle vectoriel Mesure de similarité en fonction de la distance entre le vecteur « requête » et les vecteurs « documents » RECHERCHE / APPARIEMENT
  27. 27. LE POIDS DES MOTS La pondération Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ? • Les mots « importants » doivent avoir un poids fort • TF-IDF : approche la plus répandue Évaluer le poids d’un terme dans un document vs. un corpus / une collection de documents TF-IDF Ordonner les documents potentiellement pertinents pour répondre à une requête Utilisation du TF-IDF en RI : - décrire les documents dans un modèle vectoriel Mesure de similarité en fonction de la distance entre le vecteur « requête » et les vecteurs « documents » RECHERCHE / APPARIEMENT
  28. 28. LE POIDS DES MOTS La pondération Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ? • Les mots « importants » doivent avoir un poids fort • TF-IDF : approche la plus répandue Évaluer le poids d’un terme dans un document vs. un corpus / une collection de documents TF-IDF Ordonner les documents potentiellement pertinents pour répondre à une requête Utilisation du TF-IDF en RI : - décrire les documents dans un modèle vectoriel Mesure de similarité en fonction de la distance entre le vecteur « requête » et les vecteurs « documents » RECHERCHE / APPARIEMENT
  29. 29. LE SENS DES MOTS Décrire le sens des documents Comment « donner du sens » à l’appariement ? • Intégrer des données sémantiques à la représentation des documents • Défi : flexibilité & capacité d’adaptation de la technologie sémantique Défi de robustesse face à la grande variabilité des textes libres sur le web multilingue GESTION DES TEXTES LIBRES (UGC)
  30. 30. LE SENS DES MOTS Décrire le sens des documents Comment « donner du sens » à l’appariement ? • Intégrer des données sémantiques à la représentation des documents • Défi : flexibilité & capacité d’adaptation de la technologie sémantique Défi de robustesse face à la grande variabilité des textes libres sur le web multilingue GESTION DES TEXTES LIBRES (UGC) Entités de recherche Entités Nommées Requête Liens Document Moment … Personne Date Lieu Organisation … Relations Rachat Cause Appartenance … Signaux complexes Perception Conseil Intention d’achat … RECHERCHE / APPARIEMENT
  31. 31. LE SENS DES MOTS Décrire le sens des documents Comment « donner du sens » à l’appariement ? • Intégrer des données sémantiques à la représentation des documents • Défi : flexibilité & capacité d’adaptation de la technologie sémantique Défi de robustesse face à la grande variabilité des textes libres sur le web multilingue GESTION DES TEXTES LIBRES (UGC) Entités de recherche Entités Nommées Requête Liens Document Moment … Personne Date Lieu Organisation … Relations Rachat Cause Appartenance … Signaux complexes Perception Conseil Intention d’achat … RECHERCHE / APPARIEMENT
  32. 32. LE SENS DES MOTS Décrire le sens des documents Comment « donner du sens » à l’appariement ? • Intégrer des données sémantiques à la représentation des documents • Défi : flexibilité & capacité d’adaptation de la technologie sémantique Défi de robustesse face à la grande variabilité des textes libres sur le web multilingue GESTION DES TEXTES LIBRES (UGC) Entités de recherche Entités Nommées Requête Liens Document Moment … Personne Date Lieu Organisation … Relations Rachat Cause Appartenance … Signaux complexes Perception Conseil Intention d’achat … RECHERCHE / APPARIEMENT
  33. 33. DES BÉNÉFICES POTENTIELS Amélioration de l’expérience de recherche Confort de l’utilisateur et performance du système Contextualisation des résultats (donnée sémantique + historique cross-devices + géolocalisation + …) CONFORT Allègement de la charge des calculs sur les centres de données PERFORMANCE
  34. 34. DES BÉNÉFICES POTENTIELS Amélioration de l’expérience de recherche Confort de l’utilisateur et performance du système Contextualisation des résultats (donnée sémantique + historique cross-devices + géolocalisation + …) CONFORT Allègement de la charge des calculs sur les centres de données PERFORMANCE
  35. 35. DES BÉNÉFICES POTENTIELS Amélioration de l’expérience de recherche Confort de l’utilisateur et performance du système Contextualisation des résultats (donnée sémantique + historique cross-devices + géolocalisation + …) CONFORT Allègement de la charge des calculs sur les centres de données PERFORMANCE
  36. 36. UN COÛT RÉEL Adaptation aux nouveaux standards Des efforts pour intégrer le Web Sémantique Adaptation côté éditeurs & référenceurs ROI pas forcément immédiat EFFORTS Indexation sémantique des données non structurées COMPLEXITÉ
  37. 37. UN COÛT RÉEL Adaptation aux nouveaux standards Des efforts pour intégrer le Web Sémantique Adaptation côté éditeurs & référenceurs ROI pas forcément immédiat EFFORTS Indexation sémantique des données non structurées COMPLEXITÉ
  38. 38. UN COÛT RÉEL Adaptation aux nouveaux standards Des efforts pour intégrer le Web Sémantique Adaptation côté éditeurs & référenceurs ROI pas forcément immédiat EFFORTS Indexation sémantique des données non structurées COMPLEXITÉ
  39. 39. POUR RÉPONDRE AUX BESOINS MÉTIER Avec robustesse et flexibilité Enrichissement sémantique du contenu en minimisant les coûts / les efforts  Même sur les sites qui n’intègrent pas de descripteurs structurés pour le Web Sémantique  En complément des descripteurs existants pour le Web Sémantique  Gestion des signaux sémantiques complexes  Robustesse face à la grande variabilité des textes libres sur le web multilingue
  40. 40. POUR RÉPONDRE AUX BESOINS MÉTIER Quelques applications utiles au SEO SÉLECTION & CATÉGORISATION DE MOTS-CLÉS MAPPING SEGMENTS IAB ENRICHISSEMENT DU CONTENU ÉDITORIALAUDIT SÉMANTIQUE ENRICHISSEMENT TAGGING CATÉGORISATION DE SITES DÉTECTION DES CONTENUS DUPLIQUÉS MAPPING ONTOLOGIES / TAXONOMIES NOUVEAUX ANGLES ÉDITORIAUX ENRICHISSEMENT SÉMANTIQUE SEGMENTATION CONTEXTUELLE
  41. 41. EXEMPLES Case : enrichissement sémantique sur 100 domaines / FR / Régie premium Enrichissement de la taxonomie sur l’ensemble des domaines • Focus : exemple sur la catégorie « AUTO » FAMILIALES INTERMEDIAIRES FORD AMERICAINES BMW DIESEL GASOLINE Quelques catégories découvertes pour enrichir « Auto »
  42. 42. EXEMPLES Case : enrichissement sémantique sur 100 domaines / FR / Régie premium Enrichissement de la taxonomie sur l’ensemble des domaines • Focus : exemple sur la catégorie « AUTO » Exemple de page qualifiée http://bourse.lefigaro.fr/indices-actions/actu-conseils/renault-annonce-des-tarifs-pour-le-nouvel-espace-3992015 QUALIFICATION ECONOMIE - FINANCE AUTO RENAULT GRANDS MONOSPACES FRANÇAISES Taxonomie de base (client) Enrichissements
  43. 43. EXEMPLES Case : enrichissement sémantique sur 100 domaines / FR / Régie premium Enrichissement de la taxonomie sur l’ensemble des domaines • Focus : exemple sur la catégorie « AUTO » QUALIFICATION Exemple de page qualifiée http://www.leparisien.fr/espace-premium/actu/dans-le-retro-la-longue-route-des-vehicules-electriques-21-10-2015-5205945.php Taxonomie de base (client) Enrichissements ACTU HYBRIDE ELECTRIQUE JAPONAISES NISSAN FRANÇAISES COMPACTES RENAULT
  44. 44. EXEMPLES Case : enrichissement sémantique sur 100 domaines / FR / Régie premium Enrichissement de la taxonomie sur l’ensemble des domaines • Focus : exemple sur la catégorie « AUTO » QUALIFICATION Taxonomie de base (client) Enrichissements Exemple de page qualifiée http://forum.doctissimo.fr/viepratique/automobile/67000km-garantie-atlantique-sujet_6086_1.htm N/A AUTO FRANÇAISES RENAULT CITROËN COMPACTES
  45. 45. EXEMPLES Case : identification des centres d’intérêt édito vs. segments d’audience participative / FR / Éditeur Enrichissement des drivers d’intérêt / nouveaux angles éditoriaux (données éditeur) • Focus : exemple sur quelques segments d’audience ciblés Beauty Addict • Focus on health and body in general ; Refine the angles of certain subjects, hair for example Mam’s • Good targeting capabilities for subjects as pregnancy, childlife, educational environment ; refine and focus on Leisure
  46. 46. EXEMPLES Case : identification des centres d’intérêt édito vs. segments d’audience participative / FR / Éditeur Enrichissement des drivers d’intérêt / nouveaux angles éditoriaux (données éditeur) • Focus : exemple sur quelques segments d’audience ciblés Trendista • Good targeting capabilities for clothing, fashion. More focus on brands is needed. This profile is rare in [editors’] forum Working Girl • Focus on Professional life subjects ; take in account women who uses the website for promoting their activity or searching for a job
  47. 47. EXEMPLES Case : détection de brand safety triggers / EN / Démo publique Affiner un ciblage trop large sur la catégorie « ALCOOL » • Améliorer l’adéquation entre le contenu et son environnement KOVERI_health-fitness KOVERI_culture_entertainment KOVERI_content-edito KOVERI_health-fitness_substance-abuse KOVERI_culture_entertainment-television Source: http://www.huffingtonpost.fr/2016/04/04/recettes-pompettes-alcool-anpaa-prevention_n_9609504.html?utm_hp_ref=france# Test realized with our public demo: http://www.xiko.fr/koveri-context-demo/
  48. 48. contact@xiko.fr

×