Faculté PolytechniqueSéminaire M@rsouin 2012Le chercheur peut-il se fier aux volumétries   indiquées par les moteurs de re...
Contexte (1/2)   Point de départ :          Démarrage dune recherche nécessitant une mesure       de la popularité dentre...
Contexte (2/2)   Intérêt ?          Littérature professionnelle encourageant lusage des       APIs.          De nombreus...
Points forts et points faibles des   moteurs commerciaux (1/2)   Points forts :          Index de grande taille.        ...
Points forts et points faibles des   moteurs commerciaux (2/2)   Points faibles (suite) :          Évolutions dans le tem...
Problème de la volumétrie   Volumétrie : nombre de résultats estimé pour     chaque requête.          Les problèmes connu...
Hypothèses   Trois hypothèses testées :          1. Les requêtes complexes, ou booléennes, donnent       des résultats co...
Méthodologie   Hypothèse 1 :      Les rapports q1 et q2 doivent tendre vers 1.   Hypothèse 2 :      Rapports des volumét...
Résultats : Hypothèse 1   Rapport entre les nombres de résultats obtenus et     attendus dans le cas de requêtes booléenne...
Résultats : Hypothèse 2   Rapport entre nombre de résultats estimés.   Résultats :          Nombre de résultats envoyés p...
Résultats : Hypothèse 3   Corrélations entre nombre de résultats estimés.   Résultats :          Corrélations globalement...
Discussion   Apport :      Confirmation globale des résultats de recherche antérieurs.      Mise en évidence de nouveaux...
Perspectives   Déjà fait :          Fonctionnement de la dernière API Google ?          Comparable à lancienne API.    ...
Merci pour votre attention.                                  Des questions ?                       Cette présentation est ...
Contact   Dr Ir Robert Viseur   Assistant @UMONS      UMONS, Faculté Polytechnique      Rue de Houdain, 9      B-7000 M...
Upcoming SlideShare
Loading in …5
×

Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

487 views

Published on

Les moteurs de recherche commerciaux tels que Google, Bing ou Yahoo! ont séduit les chercheurs de diverses disciplines pour l'utilisation des résultats de recherche ou du nombre
de résultats estimé. La webométrie est la discipline dédiée à l'étude de ces pratiques. De nombreuses études montrent les limites des moteurs en la matière. Ces études deviennent cependant rapidement dépassées du fait des modifications régulièrement apportées aux techniques d'indexation, à la syntaxe d'interrogation ou aux interfaces de programmation (APIs). Cette recherche s'attachera à confirmer les limites mises en évidence pour les moteurs de recherche Bing et Google, et identifiera de nouvelles limitations liées à l'utilisation des opérateurs booléens.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
487
On SlideShare
0
From Embeds
0
Number of Embeds
23
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

  1. 1. Faculté PolytechniqueSéminaire M@rsouin 2012Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?Dr Ir Robert ViseurBrest, 24-25 mai 2012
  2. 2. Contexte (1/2) Point de départ :  Démarrage dune recherche nécessitant une mesure de la popularité dentreprises, de marques, de produits sur Internet, utilisant les APIs de moteurs de recherche.  Constat : problèmes dans les volumétries des résultats de recherche (testé avec Google). → Question :  Peut-on se fier aux volumétries estimées par les moteurs de recherche ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 2
  3. 3. Contexte (2/2) Intérêt ?  Littérature professionnelle encourageant lusage des APIs.  De nombreuses recherches utilisent les résultats issus des moteurs de recherches commerciaux.  Usages variés : traitement de la langue, analyse des sentiments (texte), analyse des performances des entreprises, évaluation automatique de la qualité de revues ou darticles, etc. Cadre théorique existant :  Webométrie : étude quantitative des phénomènes relatifs au Web (voir notamment Thelwall).  Exemple déléments étudiés : classements et volumétries.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 3
  4. 4. Points forts et points faibles des moteurs commerciaux (1/2) Points forts :  Index de grande taille.  Richesse de la syntaxe dinterrogation (opérateurs). Points faibles :  Secret des algorithmes de classements.  Existence dassociations préférentielles entre sites commerciaux et moteurs de recherche.  Biais géographiques.  Interdiction des requêtes automatiques.  Obligation de passer par des APIs.  Passage progressif vers un modèle payant (pour tous les moteurs).  Diverses restrictions dutilisation (utilisation des données, trafic maximum autorisé, etc.).Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 4
  5. 5. Points forts et points faibles des moteurs commerciaux (2/2) Points faibles (suite) :  Évolutions dans le temps.  Exemple : Yahoo ! → nouvel algorithme de classement, évolution de la syntaxe disponible, passage au modèle payant, etc. Alternatives :  Utilisation dune méthode de prédiction des volumétries.  Création dindex spécialisés (ex.: technologies libres comme Lucene, SolR, etc.).Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 5
  6. 6. Problème de la volumétrie Volumétrie : nombre de résultats estimé pour chaque requête.  Les problèmes connus :  Instabilité dans le temps (répétition de requêtes).  Différences entre le nombre estimé dans la WUI et le nombre estimé dans lAPI.  Manque flagrant de fiabilité pour certaines requêtes.  Exemple : « link: » sous Google.  Obsolescence rapide des études pratiques compte tenu de la vitesse dévolution des APIs (et plus largement des moteurs de recherche).  Voir notamment : Mayr et Tosques, 2005 ; McCown et Nelson, 2007.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 6
  7. 7. Hypothèses Trois hypothèses testées :  1. Les requêtes complexes, ou booléennes, donnent des résultats conformes à la théorie des ensembles.  2. La volumétrie donnée par lAPI est différente de la volumétrie donnée par la WUI.  3. La volumétrie donnée par lAPI nest pas proportionnelle à la volumétrie donnée par la WUI.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 7
  8. 8. Méthodologie Hypothèse 1 :  Les rapports q1 et q2 doivent tendre vers 1. Hypothèse 2 :  Rapports des volumétries (WUI et API). Hypothèse 3 :  Corrélation entre volumétries (WUI et API) Au total : 120 requêtes.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 8
  9. 9. Résultats : Hypothèse 1 Rapport entre les nombres de résultats obtenus et attendus dans le cas de requêtes booléennes. Résultats :  Bing : ok ; Google : nok.  Remarques :  Interprétation de lopérateur AND dans Google ?  Attention à lécriture de lopérateur OR (vs or)!Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 9
  10. 10. Résultats : Hypothèse 2 Rapport entre nombre de résultats estimés. Résultats :  Nombre de résultats envoyés par lAPI << WUI (Google).  Phénomène de « Danse » sous Bing ?  Comptabilisation différente dans Bing et Google ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 10
  11. 11. Résultats : Hypothèse 3 Corrélations entre nombre de résultats estimés. Résultats :  Corrélations globalement fortes pour Google.  Différence entre requêtes simples et composées ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 11
  12. 12. Discussion Apport :  Confirmation globale des résultats de recherche antérieurs.  Mise en évidence de nouveaux problèmes liés aux requêtes composées. Bing :  Meilleure fiabilité générale comparé à Google.  Phénomène de « Danse » ? Google :  Index de tailles différentes entre API et WUI (McCown et Nelson, 2007) ?  Différentes méthodes de comptabilisation des pages similaires ou dupliquées ?  Différences explicables par le mécanisme danalyse des requêtes entrées par les utilisateurs  (ex. : Cutts, 2010) ? Recommandations (si API nécessaire):  Privilégier Bing (pour le moment...).  Analyse préalable des données extraites par API avant utilisation.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 12
  13. 13. Perspectives Déjà fait :  Fonctionnement de la dernière API Google ?  Comparable à lancienne API.  Influence du ciblage géographique sur les volumétries.  Comportement différent pour Google si ciblage géographique (Web français vs Web mondial). A faire :  Tests sur Yahoo! (après basculement sur technologie Microsoft)  Tests sur des moteurs de recherche spécialisés (ex. : Google News).  Mise en œuvre de jeux de données plus importants. Remarque :  Mise à jour : annonce du passage de Bing au modèle payant.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 13
  14. 14. Merci pour votre attention. Des questions ? Cette présentation est diffusée sous licence CC-BY-ND.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 14
  15. 15. Contact Dr Ir Robert Viseur Assistant @UMONS  UMONS, Faculté Polytechnique  Rue de Houdain, 9  B-7000 Mons  Mail : robert.viseur@umons.ac.be Guideur technologique @CETIC  CETIC  Rue des Frères Wright, 29/3  B-6041 Charleroi  Mail : robert.viseur@cetic.be Plus dinfos : www.robertviseur.beUniversité de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 15

×