Successfully reported this slideshow.

Comment penser son contenu e-tourisme pour les moteurs de recherche ? [Frères Peyronnet]

4,576 views

Published on

Les moteurs de recherche utilisent des algorithmes pour qualifier la pertinence des contenus d'une page web.

Pour écrire des contenus - pour l'e-tourisme ici - on peut s'aider d'une analyse algorithmique pour déterminer quels sont les termes importants de la thématique étudiée, et ainsi concevoir des textes qui ont toutes les raisons d'être considérés comme pertinents par un moteur de recherche.

Published in: Science

Comment penser son contenu e-tourisme pour les moteurs de recherche ? [Frères Peyronnet]

  1. 1. COMMENT PENSER SON CONTENU E-TOURISME POUR LES MOTEURS DE RECHERCHE ? Sylvain Peyronnet
  2. 2. SYLVAIN PEYRONNET Fondateur et responsable des ix-labs Professeur des Universités (on leave) @speyronnet http://www.peyronnet.eu http://live.ix-labs.org
  3. 3. algo de classement web QU’EST-CE QU’UN MOTEUR DE RECHERCHE ? classement index analyse de la pertinence analyse de l’importance requête de l’utilisateur classement classement contenu des pages liens entre les pages spider
  4. 4. algo de classement web QU’EST-CE QU’UN MOTEUR DE RECHERCHE ? classement index requête de l’utilisateur classement classement contenu des pages spider Aujourd’hui, on parle de ça ! analyse de la pertinence
  5. 5. LA NOTION DE PERTINENCE Un document est pertinent pour une requête s’il répond au besoin informationnel sous-jacent besoin informationnel « île paradisiaque » requête Résultats pertinent pertinent non pertinent non pertinent
  6. 6. LA NOTION DE PERTINENCE On veut écrire des textes que le moteur va considérer comme pertinents Il faut donc savoir ce que le moteur appelle un texte pertinent Voyons donc le principe (simplifié) de ce qu’est la pertinence d’un point de vue ALGORITHMIQUE
  7. 7. LA NOTION DE PERTINENCE • On va préférer utiliser un modèle de classement de la pertinence, appelé pertinence partielle. ! • Le modèle vectoriel implémente cette notion de pertinence partielle. ! • La pertinence est une notion sémantique, difficile à définir. ! On va faire un abus et considérer que la similarité syntaxique entre documents est une bonne mesure de la pertinence
  8. 8. UN TEXTE EST UNVECTEUR Le petit était perdu dans la forêt Le loup était aussi dans la forêt ? ? ? ? ? ? ? ? ?
  9. 9. LE MODÈLEVECTORIEL (SALTON 1962) • On construit l’espace des termes : c’est un espace de dimension n, où n est le nombre total de termes différents existants dans les documents ! • Chaque document est représenté par un vecteur avec n composants, chaque composant correspond à un terme possible ! • Chaque case contient le poids du terme correspond à la case ! • Il existe plusieurs types de poids
  10. 10. LA LEMMATISATION POUR QUE CE SOIT PLUS SIMPLE POUR LE MOTEUR Le petit était perdu dans la forêt Le loup était aussi dans la forêt petit forêt loup perdre
  11. 11. CALCUL DES POIDS petit perdre forêt loup forêt petit loup perdre forêt 1 1 1 2 petit loup perdre forêt 1 1 1 1 (1,1,1,2) (1,1,1,1) petit loup perdre forêt 1/5 1/5 1/5 2/5 (1/5,1/5,1/5,2/5)
  12. 12. FABRIQUER LEVECTEUR La similarité est donnée par le cosinus de l’angle entre les vecteurs des documents (cosinus de Salton) d1 d2θ On parle d’alignement sémantique
  13. 13. LE MODELEVECTORIEL QUELLE FONCTION DE POIDS CHOISIR ? tf.idf (term frequency - inverse document frequency) ! ! ! ! ! ! La tf.idf favorise les termes qui apparaissent peu souvent pour opérer une classification efficace On n’utilise pas les poids simples !
  14. 14. TF . IDF ! •Term frequency (TF) ! Un terme qui apparaît souvent dans un document a plus de poids qu’un terme qui apparaît peu ! • Inverse Document Frequency (IDF) ! Un terme qui apparaît dans peu de documents est plus discriminant qu’un terme qui apparaît dans beaucoup de documents
  15. 15. QUE FAIRE ? ALIGNEMENT SÉMANTIQUE ! • Pour être pertinent sur un ensemble de mots-clés, un texte doit être en alignement sémantique sur ces mots-clés ! • Impact fort sur la rédaction et l’organisation des contenus ! • Faire une page spécialisée par groupe de requêtes proches !
  16. 16. QUE FAIRE ? TF*IDF ! Pour augmenter sa pertinence pour une thématique particulière : ! • Faire apparaître des termes fréquents de la thématique :
 pour pousser le facteur tf ! •Ajouter quelques termes rares de la thématique :
 Pour pousser le facteur idf ! La rédaction doit être de très bon niveau pour avoir les mots avec le plus d’impacts sur la tf*idf
  17. 17. QUE FAIRE ? TF*IDF ! Pour augmenter sa pertinence pour une thématique particulière : ! • Faire apparaître des termes fréquents de la thématique :
 • Il faut bien connaître sa thématique, évaluer statistiquement son corpus • On veut faire comprendre sans ambiguïté la thématique de la page ! •Ajouter quelques termes rares de la thématique :
 • Faire appel à des experts, des sites de référence, et aux statistiques du corpus pour trouver ces mots. • Attention à la rédaction par des personnes non- averties, de profils différents de la cible
  18. 18. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Un bon corpus est :
 • Représentatif de sa thématique • Volumineux • Toujours imparfait (on ne connait pas ceux utilisés par les moteurs de recherche)
  19. 19. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Pour constituer un corpus, on va :
 • sélectionner des sites web • scrapper les pages de ces sites • extraire les mots des pages en les comptant • calculer les co-occurences • stocker les mots en base de données pour permettre une réutilisation sans douleur
  20. 20. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Prendre les sites de référence
 
 musée rouen rouen- musees.fr/ www.rouentouris me.com www.amis- musees-rouen.fr/ www.museedes antiquites.fr/
  21. 21. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Scrapper des pages de ces sites
 Exemple
 • on peut utiliser scrapy, un logiciel open source
 • http://scrapy.org/
 • Code en python, donc compatible Windows, Linux, Mac OS X
  22. 22. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Extraire les mots des pages, les compter les stocker
 Utiliser Scrapy : après le crawl ! • Il faut extraire les entrées du fichier de résultats • Il faut nettoyer les entrées (accents, balises, sauts de lignes, etc.) • il faut compter • il faut stocker le corpus dans une base de données
  23. 23. QUE FAIRE ? CONSTRUIRE UN CORPUS ! Stockage en base de données :
 ! id mot quantite entite 1 moyen age 11 0 2 musée 7619 0 3 egypte 10 0 4 oeuvre 92 0 5 visite 2183 0 6 rouen 166 1 7 lillebonne 148 1 8 ivoire 505 1 9 rouen 1645 1 10 attendu 146 0
  24. 24. On ajoute dans les textes des termes qui sont fréquemment associés aux mots qu’on va viser. QUE FAIRE ? COOCCURRENCE ! vélo balade saint-raphael vélo balade saint-raphael VTT esterel verdon +
  25. 25. QUE FAIRE ? CO-OCCURRENCE ! Mesurer la "compatibilité" de 2 termes DICE MUTUAL INFORMATION (MIM) EXPECTED MIM (EMIM) CHI 2
  26. 26. trmm itto ortuno almagreb yuca … forest tree rain fish water
 … itto biofunction almagreb jack fruit adeo … forest rain exotic banana jungle … QUE FAIRE ? CO-OCCURRENCE : EXEMPLE ! TROPICAL DICE CHI 2MIM EMIM dataset :TREC News Stories ≅ ≅
  27. 27. EN PRATIQUE ! balade vtt saint raphael
  28. 28. EN PRATIQUE ! Choisir les sites référents pour une requête balade vtt saint raphael ! http://www.esterel-cotedazur.com/loisirs/circuits-velo-de-route/ http://www.visorando.com/randonnee-saint-raphael-var.html http://www.utagawavtt.com/circuits-vtt-proches?topo=1582&dist=20 http://balado.planet.fr/idee-balade/provence-alpes-cote-d-azur/var/esterel-vtt/idb/2434 http://www.cyclisme-mag.com/Lifestyle/Voyages/Articles/Parcourir-L-Esterel-a-VTT-8901/ http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo/parcours-cyclable-du-littoral http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo http://var.decouverte.pagesperso-orange.fr/nature/indexvtt.htm http://www.velo101.com/forum/voirsujet/entrainement-sur-agay-83--18927 http://www.voiesvertes.com/htm/departement83.htm http://www.provenceweb.fr/var/cyclo/randonnees/b21.htm http://www.var.fr/deplacements/circuit-de-randonnee/pcl http://www.gralon.net/tourisme/sports-et-loisirs/info-natura-bike-balade-en-velo-saint-raphael-19030.htm http://www.theoule-sur-mer.org/modules/news/article.php?storyid=243 http://www.ot-lalondelesmaures.fr/la-londe-cote-terre/loisirs-et-activites/balades-et-randonnees.htm http://www.af3v.org/-Fiche-VVV-.html?voie=35 http://www.lelavandou.eu/var/cyclo-rando.htm http://jeanmimivelo.free.fr/baladavelo.htm
  29. 29. EN PRATIQUE ! Faire un scrap des sites 1-grams 2-grams ! http://www.esterel-cotedazur.com/loisirs/circuits-velo-de-route/ http://www.visorando.com/randonnee-saint-raphael-var.html http://www.utagawavtt.com/circuits-vtt-proches?topo=1582&dist=20 http://balado.planet.fr/idee-balade/provence-alpes-cote-d-azur/var/esterel-vtt/idb/2434 http://www.cyclisme-mag.com/Lifestyle/Voyages/Articles/Parcourir-L-Esterel-a-VTT-8901/ http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo/parcours-cyclable-du-littoral http://www.visitvar.fr/provence-cote-azur/le-var-cote-velo http://var.decouverte.pagesperso-orange.fr/nature/indexvtt.htm http://www.velo101.com/forum/voirsujet/entrainement-sur-agay-83--18927 http://www.voiesvertes.com/htm/departement83.htm http://www.provenceweb.fr/var/cyclo/randonnees/b21.htm http://www.var.fr/deplacements/circuit-de-randonnee/pcl http://www.gralon.net/tourisme/sports-et-loisirs/info-natura-bike-balade-en-velo-saint-raphael-19030.htm http://www.theoule-sur-mer.org/modules/news/article.php?storyid=243 http://www.ot-lalondelesmaures.fr/la-londe-cote-terre/loisirs-et-activites/balades-et-randonnees.htm http://www.af3v.org/-Fiche-VVV-.html?voie=35 http://www.lelavandou.eu/var/cyclo-rando.htm http://jeanmimivelo.free.fr/baladavelo.htm
  30. 30. EN PRATIQUE ! Faire un scrap des sites 1-grams 2-grams Calculer les IDF Calculer les co- occurrences
  31. 31. EN PRATIQUE ! Résumer l’information
  32. 32. EN PRATIQUE ! Résumer l’information
  33. 33. EN PRATIQUE ! Et finalement : Rédiger ! ! Disclaimer : je ne suis pas rédacteur, et pas de la région ;)
  34. 34. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  35. 35. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  36. 36. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  37. 37. EN PRATIQUE ! Et finalement : Rédiger ! Si vous voulez faire du vélo dans le Var cet été, prenez votreVTT pour parcourir les alentours de Saint-Raphael. ! Vous pouvez prendre le départ près du littoral, pour un parcours qui vous mènera au pied de l’Esterel.
  38. 38. ET MAINTENANT ? !
  39. 39. Pertinence, corpus, co-occurences, rédaction… A vous de jouer ! ET MAINTENANT ? !

×