Outils de recherche et de veille sur le web en SHS
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Outils de recherche et de veille sur le web en SHS

on

  • 6,366 views

TD réalisé dans le cadre des formations des doctorants de l'Université Rennes 2, 2009-2010

TD réalisé dans le cadre des formations des doctorants de l'Université Rennes 2, 2009-2010

Statistics

Views

Total Views
6,366
Views on SlideShare
6,330
Embed Views
36

Actions

Likes
9
Downloads
230
Comments
0

4 Embeds 36

http://www.slideshare.net 17
http://www.formationsport.fr 17
http://formationsport.fr 1
http://www.pearltrees.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

Outils de recherche et de veille sur le web en SHS Presentation Transcript

  • 1. Recherche d’informations sur le web en SHS Maîtrise de l’IST 2009-2010 Ecoles Doctorales - Urfist - SCD Université Rennes 2 jeudi 4 février 2010 1
  • 2. Rappels : la stratégie de recherche • Définir mots-clés et expressions de recherche appropriés (dictionnaires, encyclopédies) • Penser aux synonymes, attention à la polysémie, traduire les termes ! • Construire ses requêtes, utiliser les opérateurs et parenthèses • Multiplier et confronter les sources ! • Consulter l’aide et utiliser le mode « recherche avancée » des outils • Restreindre et élargir sa recherche, en utilisant nouveaux termes apparus dans les premiers résultats • Evaluer, vérifier et contrôler vos sources ! jeudi 4 février 2010 2
  • 3. Le web • Explosion documentaire • Espace de production et de diffusion de l’information • Démocratisation de l’information • Utopie de la mémoire collective et de l’encyclopédie universelle jeudi 4 février 2010 3
  • 4. Les limites du web • Infobésité ou Information Overflow ou Info-Zapping • Gratuité VS Sphère commerciale • Publicité VS Légitimité • Autorité VS Popularité • Affluence VS Influence Will Lion, information hydrant, Juillet 8, 2008, Flickr, http://www.flickr.com/photos/will-lion/2595497078/. jeudi 4 février 2010 4
  • 5. Web invisible Selon étude BrightPlanet (07/01) : web invisible serait 500 fois plus vaste que le web indexé par les moteurs de recherche Causes : • pages dynamiques (bases de données, formulaire de recherche) • les sites sur accès restreints • le format des données (flash) • pages interdites au référencement jean-louis Zimmermann, iceberggros_indic, Août 30, 2009, Flickr, http://www.flickr.com/photos/jeanlouis_zimmermann/3870653226/. jeudi 4 février 2010 5
  • 6. Des outils nombreux et complexes Typologie vaste (annuaires, moteurs, moissonneurs, social bookmarking, etc) Impossible de ts les connaître / maîtriser (nécessité d’une sélection / évaluation des + pertinents -> selon besoin informationnel) Danger : céder à la facilité devant simplicité apparente (75% des internautes passent 3/4 de leur temps à chercher !) Hybridation des outils (fonctionnalités et données) = nécessité de bien les appréhender Emily, The Right Tool, Mars 10, 2009, Flickr, http://www.flickr.com/photos/ebarney/3348965007/. jeudi 4 février 2010 6
  • 7. Outil : quel corpus ? • Les outils propres au web (interrogeant l’ensemble ou partie du web) • ceux qui possèdent leur propre base, index et interface de recherche (moteurs de recherche) • ceux qui possèdent un module d’interrogation mais exploite les données (index) d’autres outils • Les outils disponibles / accessibles via le web (bases de données, catalogues de bibliothèques) jeudi 4 février 2010 7
  • 8. L’indexation et la couverture des outils • Le mode d’indexation ? • les outils dits “humains” (annuaires, signets) • les outils automatiques (moteurs de recherche) • La couverture ? • les outils généralistes (ex : Google,Yahoo) • les outils spécialisés, selon thématique, type, support, langue, etc. (ex : Google Scholar, etc.) jeudi 4 février 2010 8
  • 9. Les modalités de recherche • La recherche par critères sur plein texte (ex : moteurs de recherche) • La navigation par arborescence ou facettes, parcours de recherche : l’utilisateur répond à des propositions (ex : annuaires) • La recherche basée sur des logiques statistiques / linguistiques (clustering des résultats, prise en compte du sens et du contexte des termes de recherche) • La recherche par associations de mots/objets (grâce aux ontologies, index, thesaurus, facettes) • La recherche par citations : part de l’hypothèse que si un document cite un autre document alors il existe un lien entre les deux (Page Rank de Google) • La sérendipité, reproduit les mécanismes de la découverte scientifique jeudi 4 février 2010 9
  • 10. Annuaires / Répertoires / Portails Explorer un sujet, repérer des ressources • Spécialisés / thématiques / généralistes • Accéder à des ressources et services validées par des spécialistes, offrant certaines garanties scientifiques. • Recherche par arborescence / par catégories • Avantages : qualitatifs, limitation du bruit, choix des informations, classification, point d'accès unique et simplifié • Inconvénients : silence, mise à jour, non Quinn Dombrowski, Day 129: Directory is Such a Big Word, Mai 9, 2009, Flickr, http://www.flickr.com/photos/quinnanya/3517363882/. exhaustif, etc jeudi 4 février 2010 10
  • 11. signets-universités Ressources sélectionnées par des BU http://www.signets-universites.fr/ jeudi 4 février 2010 11
  • 12. Intute : Social Sciences http://www.intute.ac.uk/socialsciences/ jeudi 4 février 2010 12
  • 13. Liens Socio http://www.liens-socio.org/ jeudi 4 février 2010 13
  • 14. Calame Répertoire de bases de données françaises en SHS http://calame.ish-lyon.cnrs.fr/ jeudi 4 février 2010 14
  • 15. Ménestrel « études médiévales » sur internet http://menestrel.in2p3.fr jeudi 4 février 2010 15
  • 16. Sociopôle http://www.sociopole.cnrs.fr/ jeudi 4 février 2010 16
  • 17. DADI Répertoire de BDD gratuites disponibles sur Internet http://dadi.univ-lyon1.fr/ jeudi 4 février 2010 17
  • 18. EBSCO Open Science Directory http://www.opensciencedirectory.net/ jeudi 4 février 2010 18
  • 19. Digital Research Tools http://digitalresearchtools.pbworks.com/ jeudi 4 février 2010 19
  • 20. Les Moteurs de recherche Première porte d’accès sur le web Malgré une situation d’oligopole dans les usages (Google,Yahoo, Bing) de nombreux moteurs de recherche existent ! A. Serres, ML Malingre, (Propositions de) Typologies des moteurs de recherche, Mars 2009, http://www.sites.univ- rennes2.fr/urfist/files/ TypologieMoteurs_mars09.doc Succès de Google : interface épurée + taille de l’index + Page Ranking Source : AT Internet Institute : Baromètre des moteurs - Déc 2009 jeudi 4 février 2010 20
  • 21. Moteurs de recherche Fonctionnement L'exploration ou crawl : le Web exploré par un robot (crawler, spider) qui suit tous les hyperliens et repère les ressources jugées intéressantes L'indexation : consiste à extraire et à enregistrer dans une base (sous la forme d’un gigantesque index) les mots considérés comme significatifs de chaque ressource repérée. Permet au moteur de retrouver rapidement où se situe un terme significatif donné. Les termes non significatifs s'appellent des mots vides de sens(« de », « le »…) La recherche : partie requête du moteur. Un algorithme pour présenter les résultats des recherches par ordre de pertinence. L'algorithme tient compte du contexte du mot-clé (titre, paragraphe, hyperlien) et de la ressource elle-même (ressources liées, popularité) Source : R. Viseur, CETIC jeudi 4 février 2010 21
  • 22. Moteurs de recherche Utilisation avancée Filtrer les résultats : Opérateurs booléens : • Par localisations •AND : implicite ; différent de + • Par langues •+ : prend en compte l’orthographe exacte • Par types de ressources : images, audio, •- : exclut un ou plusieurs termes (SAUF) blogs… • Par formats (filetype:) : HTML, PDF, DOC, •OR (ou |) : l’un ou l’autre ou tous les termes PPT, XLS, RTF… Opérateurs linguistiques : • Par dates •Guillemets (“...”) : recherche d’expression • Par champs : titre (intitle:), URL(inurl:), exacte domaine(site:), sites similaires (related:), ressources liées (link:) •parenthèses : pour combiner les requêtes !! • Page en cache (cache:) •Joker et masque (*, $) : remplacer un terme ou un caractère Consulter le comparatif des règles d’interrogation des moteurs Google,Yahoo et Exalead jeudi 4 février 2010 22
  • 23. Moteurs de recherche Avantages et limites Inconvénients : Avantages : • Sélection automatique de l’information • Richesse de l’interrogation, recherche • Hétérogénéité des sources, des formats en texte intégral • Bruit documentaire, pertinence variable, • Plus d'exhaustivité, mise à jour plus publicités rapide • Fonctionnalités variables selon les • Rapidité, immédiateté moteurs (utiliser les supports/aides) • Attention au spamdexing • Publicités ! (positionnement commercial, rachats de mots-clés (adwords) A utiliser pour : • Une première approche • Effectuer des recherches complexes (requêtes construites) • Repérer des sites récents jeudi 4 février 2010 23
  • 24. Moteurs de recherche scientifique Un corpus “dit” scientifique : Des fonctionnalités avancées • sites et portails académiques (.edu, etc.) • Exportation et exploitation de références bibliographiques (dans différents formats : bibTeX, RIS, • bases de revues d'éditeurs (SpringerLink, Refworks, etc.) ScienceDirect, Wiley-Blackwell, IEEE, etc.) • bases de sommaires (Ingenta Connect) • Analyse Bibliométrique (taux de citations, etc.) • bases de données bibliographiques (INIST) • Lien avec résolveur de liens d’une bibliothèque ( partenariat avec les bibliothèques pour faciliter le • catalogues de bibliothèques (WorldCat, lien vers le texte intégral des documents - technologie OpenURL) SUDOC) • bases de brevets • Fonctionnalités avancées de recherche (par auteur, par titre de revue, etc) • ressources en Open Access (archives ouvertes, revues) Exemples : Google Scholar, Scirus, Scitopia.org, Science.gov, Science Research, Scitation, WorldWideScience.org, Science Accelerator, TechXtra jeudi 4 février 2010 24
  • 25. Moteurs de recherche scientifique http://www.scienceresearch.com http://www.scienceaccelerator.gov/ http://scholar.google.fr/ http://worldwidescience.org http://www.scitopia.org http://www.techxtra.ac.uk/ http://www.science.gov http://www.scirus.com jeudi 4 février 2010 25
  • 26. Scirus Créé en 2001 par l’éditeur Elsevier (portail ScienceDirect) Pluridisciplinaire, mais les STM sont les plus représentées Types de documents : articles, pré-publications, thèses, rapports techniques, actes de congrès, brevets, cours, livres,… 3 types de sources : • Journal sources : revues électroniques de grands éditeurs, de sociétés savantes,… (Elsevier, IOP…) • Preferred Web sources : repositories, archives ouvertes ou archive institutionnelles, sociétés savantes (ArXiv.org, CURATOR, LexisNexis, NDLTD, PubMedCentral,…) Guide : Marois, A. SCIRUS :”for scientific information only ?” • Other Web sources : des sites web académiques, http://bibli.ec-lyon.fr/documents/Scirus_support_diff.pdf d’entreprises, sélectionnés (.edu, .ac.uk, .gouv,…) D’après A. Marois jeudi 4 février 2010 26
  • 27. Google Scholar Créé en 2004 par Google (Google Like) Couverture similaire à Scirus mais non énoncée + opacité de l'algorithme Google scholar ne donne : • aucune liste de ses sources • aucune information sur le type de document traité • aucune information sur la période couverte • aucune information sur le volume disponible jeudi 4 février 2010 27
  • 28. La recherche dans Google Scholar Recherche dans le texte intégral et pas Recherche avancée : seulement dans les métadonnées (auteurs, titres, résumés…) • des champs remplissent les fonctions des opérateurs booléens : ex : La recherche simple (langage naturel, mots- recherche d’une expression exacte clés, opérateurs). Utiliser : • rechercher par auteur, nom de publication et intervalle de dates • la langue dans laquelle on veut retrouver • rechercher le terme dans tout le des documents des synonymes document ou uniquement dans le titre • des termes scientifiques • limiter sa recherche aux domaines • l’opérateur author: pour la recherche par scientifiques dans l’interface en anglais auteur jeudi 4 février 2010 28
  • 29. Les résultats dans Google Scholar • Informations présentes : titre du document, auteurs, nom de la revue, date, éditeur, source, une "résumé" généré automatiquement • Référence « normale » : lien vers une référence bibliographique (par ex d’un catalogue de bibliothèque), donne accès au moins au résumé du document. • [DOC] ou [PDF] et [HTML] : le format du document • La présence d’un lien source [format] à droite du résultat indique que le document est accessible en texte intégral (lien direct) • [CITATION] : citation dans un document (bibliographie) • [BOOK] : indique un livre, souvent indisponible en texte intégral jeudi 4 février 2010 29
  • 30. Exploitation des résultats Google Scholar • Localiser dans une bibliothèque à partir du lien « Trouver ce livre dans une bibliothèque » dans Google Book Search ou « SUDOC Catalogue » (cf. préférences) • Gestion des doublons : les différentes versions du document sont regroupées sous la fonction « all X versions ». Est mise en avant la version en accès libre. • « Cited by » identifie, depuis l’index de Google Scholar, le nombre de fois où ce document a été cité par d’autres documents + liens vers ces documents • « Import into ... » (à activer dans préférences) : pour exporter la référence dans son logiciel de gestion bibliographique Sicot J., Google Scholar : guide d'utilisation, 2007 jeudi 4 février 2010 30
  • 31. Search Pigeon open access journals and research tools for researchers in the humanities http://www.searchpigeon.org/ jeudi 4 février 2010 31
  • 32. JURN A curated academic search-engine, indexing 3,565 free ejournals in the arts & humanities http://jurn.org/ jeudi 4 février 2010 32
  • 33. Rechercher dans les AO • Identifier les archives ouvertes (+ de 1400 dans le monde) • L’OpenDOAR : The Directory of Open Access Repositories http:// www.opendoar.org/index.html • Registry of Open Access Repositories (ROAR) http://roar.eprints.org/ • Rechercher des articles scientifiques à l’aide des moissonneurs (harvesters) = « moteurs pour les archives ouvertes » • OAIster http://www.oaister.org (versé dans le WorldCat depuis 2009) • Scientific Commons http://www.scientificcommons.org • Driver (Digital Repository Infrastructure Vision for European Research) http:// search.driver.research-infrastructures.eu/ • Base (Bielefeld Academic Search Engine) http://www.base-search.net • Évaluer une Archive Ouverte • Ranking repositories http://repositories.webometrics.info/ jeudi 4 février 2010 33
  • 34. OpenDOAR http://www.opendoar.org/find.php jeudi 4 février 2010 34
  • 35. ScientificCommons http://www.scientificcommons.org/ jeudi 4 février 2010 35
  • 36. BASE http://www.base-search.net jeudi 4 février 2010 36
  • 37. La recherche dans HAL-SHS http://halshs.archives-ouvertes.fr/ jeudi 4 février 2010 37
  • 38. Networked Digital Library Of Theses and Dissertations TEL : Thèses En Ligne Trouver des thèses en ligne jeudi 4 février 2010 38
  • 39. DOAJ : Directory of Open Access Journals Open J-Gate 4576 revues 6255 revues Trouver des revues en libre accès jeudi 4 février 2010 39
  • 40. Revues.org jeudi 4 février 2010 40
  • 41. Revues.org http://www.revues.org Depuis 1999, Géré par une UMS : le CLEO, soutenue par le TGE Adonis • 224 revues (45 000 articles) • Dont 93 revues en Full Open Access jeudi 4 février 2010 41
  • 42. Persée http://www.persee.fr Depuis 2005, Portail de revues en SHS (MNESR, Univ. Lyon 2, Cines) - coopération avec Cairn et Revues.org 81 revues (99 500 articles) • Diffusion collections rétrospectives de revues (numérisation) • Valorisation publications scientifiques en langue française • Logique d’accès libre (barrière mobile de 2 à 5 ans pour certains éditeurs) jeudi 4 février 2010 42
  • 43. http://www.michael-culture.eu http://www.europeana.eu http://books.google.com/ http://www.archive.org/details/texts http://gallica.bnf.fr/ http://catalog.hathitrust.org/ Bibliothèques Numériques jeudi 4 février 2010 43
  • 44. Blogosphère scientifique en SHS Hypothèses : carnets de recherche en SHS http://www.hypotheses.org/ • Créé en 2008 par le CLEO (Centre pour L’Édition Électronique Ouverte) • Ouvert à tous les chercheurs sur projet validé • Typologie variée : blogs individuels, collectifs, de séminaire, de revue, de projet de recherche • 74 carnets de recherche ! jeudi 4 février 2010 44
  • 45. Google Recherche de Blogs http://blogsearch.google.fr/ jeudi 4 février 2010 45
  • 46. Peter Dutton, Lego People, Novembre 24, 2006, Flickr, http://www.flickr.com/photos/joeshlabotnik/305410323/. S’appuyer sur l’intelligence collective Les réseaux sociaux jeudi 4 février 2010 46
  • 47. Folksonomie Vers des annuaires 2.0 ? Folksonomie : combinaison des termes « folks » (usagers) et « taxinomie » (règle de classification) Systèmes s’appuyant sur réseaux sociaux et permettant aux utilisateurs de donner des indications de contenu aux ressources qu’ils rencontrent, sous la forme de tags (mot- clés) Esprit collaboratif, notion de partage, ouverture, simplicité d’utilisation... Ex : plateformes de partage de signets et de Cambodia4kids.org Beth Kanter, Tags: Keywords to describe digital objects, Octobre 3, 2006, références bibliographiques Flickr, http://www.flickr.com/photos/cambodia4kidsorg/260004685/. jeudi 4 février 2010 47
  • 48. Services de partage de signets • Avantages • Permet un classement des ressources mais aussi une navigation et un • Accès simple aux informations via les tags • Fonctions innovantes de tri ou de classement et de visualisation : nuages de tags • Les tags sont plus précis et répondent mieux au vocabulaire et aux attentes des utilisateurs • Permet de parcourir des sources faisant partie du web invisible • Inconvénients • Mots-clés détournés ou “Folks Bombing” • Problèmes de validité, de cohérence (doublons) et de pérennisation A utiliser pour • Un accès rapide à l’information • Pour mettre en place une veille en utilisant le « tag tracking » (repérage de termes (tags) précis) qui consiste à suivre les ressources annotées avec un mot-clé (tag) précis jeudi 4 février 2010 48
  • 49. Delicious http://delicious.com jeudi 4 février 2010 49
  • 50. Services de partage de ref. bibliographiques • Communautés spécifiques (recherche, académique) • Fonctionnalités spécifiques (formats biblio, interconnexions avec sites d’éditeurs scientifiques, recherches par auteurs, titre, revue,...) • Pourquoi utiliser un service de partage de citations ? • Possibilité de savoir qui lit les mêmes publications que vous • Possibilité de voir la bibliographie (publique) de cette personne • S’intégrer à un groupe thématique, éventuellement... • ... ou suivre le travail de ce groupe • Bénéficier de reviews sur des articles • Bénéficier d’une évaluation des articles via un système de vote intégré à la plate- forme • Réaliser une veille via des fils RSS d’après A. Marois jeudi 4 février 2010 50
  • 51. CiteULike http://www.citeulike.org/ jeudi 4 février 2010 51
  • 52. Texte Connotea http://www.connotea.org/ jeudi 4 février 2010 52
  • 53. Zotero jeudi 4 février 2010 53
  • 54. Twitter Veille partagée / Veille mutualisée jeudi 4 février 2010 54
  • 55. Topsy Moteur de recherche pour Twitter http://topsy.com/ jeudi 4 février 2010 55
  • 56. FriendFeed : “References Wanted” http://friendfeed.com/references-wanted jeudi 4 février 2010 56
  • 57. Nouvelles formes de diffusion de l’IST • Trouver les diaporamas d’une soutenance, d’une présentation à un colloque / une conférence • Trouver une vidéo illustrant un projet de recherche, etc (YouTube edu)... • Podcast audio : iTunes U • Trouver des images libres de droits (http://www.flickr.com/ creativecommons/) jeudi 4 février 2010 57
  • 58. La veille informationnelle ? La recherche d’information : énergie, temps, analyse, stratégie Nécessité de rentabiliser sa recherche (veille) : suivi des nouveautés sur une sujet, mise à jour des informations Économie par la création d’alertes, sauvegardes de recherche = déléguer la recherche ! Mike Lee, Newspaper RSS Feed Icon, Juin 6, 2009 Flickr, http://www.flickr.com/photos/curiouslee/3602683294/. jeudi 4 février 2010 58
  • 59. http://cravingideas.blogs.com/backinskinnyjeans/2006/09/how_to_explain_.html Mener une veille avec les flux RSS jeudi 4 février 2010 59
  • 60. Les flux RSS ? • RSS = Rich Site Summary (sommaire d’un site enrichi) • RSS = Really Simple Syndication (souscription vraiment simple) • Un flux RSS = un fichier (format XML) ou fil de contenu qui va stocker et diffuser les dernières mises à jour d’un site web (ou blogs (hypotheses.org), sites d’actualités (Le Monde), site institutionnel (Rennes 2), Archives ouvertes (HAL), revues scientifiques (Cairn, TicToCs), social bookmarking (Delicious), etc) • Autre avantage : RSS déconnecte le texte de sa mise en forme. A partir d’un flux RSS, il est possible de lire le contenu d’un site A sur un site B ! jeudi 4 février 2010 60
  • 61. jeudi 4 février 2010 61
  • 62. jeudi 4 février 2010 62
  • 63. jeudi 4 février 2010 63
  • 64. jeudi 4 février 2010 64
  • 65. Intérêts des flux RSS • Recevoir automatiquement les mises à jour d’un site sans avoir à retourner sur ce dernier • Suivre l’activité de plusieurs sites à partir d’un seul point d’entrée (“guichet unique” = rôle de l’agrégateur) • S’abonner aux flux RSS des sommaires de revues • Possibilité de catégoriser / d’organiser ses abonnements (flux rss) + filtres + tags • Alimenter une véritable base de connaissances • Moins intrusif que l’e-mail (pubs, spams) jeudi 4 février 2010 65
  • 66. Entrez dans le flux Repérer les sites & services proposant un flux RSS (ou fil RSS, Syndication RSS, RSS feeds, etc) Icône identifiable (sur la page ou au niveau de l’URL) Choisir un lecteur de flux RSS (ou Agrégateur, ou Reader), en ligne (Google Reader, feedly, netvibes) ou un logiciel client (Firefox, Thunderbird, feeddemon) jeudi 4 février 2010 66
  • 67. RSS & OPML ? • Importer et Exporter sa liste de Flux (sauvegarde) • Echanger et partager sa liste d’abonnements jeudi 4 février 2010 67
  • 68. TiCToCs Recevoir les tables des matières de revues par fils RSS http://www.tictocs.ac.uk/ jeudi 4 février 2010 68
  • 69. jeudi 4 février 2010 69
  • 70. Pour aller plus loin URFIST de Rennes • Supports de formation • REPERE (Formist - sur la recherche d’information ENSSIB) • Sélection de ressources Et bientôt : sur les outils de recherche • Form@doct !! Autres site du réseau des URFIST (Bordeaux, Lyon, Paris, Nice, Strasbourg, Toulouse) jeudi 4 février 2010 70