Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Outils de recherche et de veille sur le web en SHS
1. Recherche d’informations sur le web
en SHS
Maîtrise de l’IST 2009-2010
Ecoles Doctorales - Urfist - SCD Université Rennes 2
jeudi 4 février 2010 1
2. Rappels : la stratégie de
recherche
• Définir mots-clés et expressions de recherche appropriés (dictionnaires,
encyclopédies)
• Penser aux synonymes, attention à la polysémie, traduire les termes !
• Construire ses requêtes, utiliser les opérateurs et parenthèses
• Multiplier et confronter les sources !
• Consulter l’aide et utiliser le mode « recherche avancée » des outils
• Restreindre et élargir sa recherche, en utilisant nouveaux termes apparus
dans les premiers résultats
• Evaluer, vérifier et contrôler vos sources !
jeudi 4 février 2010 2
3. Le web
• Explosion documentaire
• Espace de production et de diffusion de
l’information
• Démocratisation de l’information
• Utopie de la mémoire collective et de
l’encyclopédie universelle
jeudi 4 février 2010 3
4. Les limites du web
• Infobésité ou Information
Overflow ou Info-Zapping
• Gratuité VS Sphère
commerciale
• Publicité VS Légitimité
• Autorité VS Popularité
• Affluence VS Influence Will Lion, information hydrant, Juillet 8, 2008,
Flickr, http://www.flickr.com/photos/will-lion/2595497078/.
jeudi 4 février 2010 4
5. Web invisible
Selon étude BrightPlanet (07/01) :
web invisible serait 500 fois plus
vaste que le web indexé par les
moteurs de recherche
Causes :
• pages dynamiques (bases de
données, formulaire de recherche)
• les sites sur accès restreints
• le format des données (flash)
• pages interdites au référencement
jean-louis Zimmermann, iceberggros_indic, Août 30, 2009,
Flickr, http://www.flickr.com/photos/jeanlouis_zimmermann/3870653226/.
jeudi 4 février 2010 5
6. Des outils nombreux et
complexes
Typologie vaste (annuaires, moteurs,
moissonneurs, social bookmarking, etc)
Impossible de ts les connaître / maîtriser
(nécessité d’une sélection / évaluation des +
pertinents -> selon besoin informationnel)
Danger : céder à la facilité devant simplicité
apparente (75% des internautes passent 3/4 de
leur temps à chercher !)
Hybridation des outils (fonctionnalités et
données) = nécessité de bien les appréhender Emily, The Right Tool, Mars 10, 2009, Flickr, http://www.flickr.com/photos/ebarney/3348965007/.
jeudi 4 février 2010 6
7. Outil : quel corpus ?
• Les outils propres au web (interrogeant l’ensemble
ou partie du web)
• ceux qui possèdent leur propre base, index et interface de recherche
(moteurs de recherche)
• ceux qui possèdent un module d’interrogation mais exploite les données
(index) d’autres outils
• Les outils disponibles / accessibles via le web
(bases de données, catalogues de bibliothèques)
jeudi 4 février 2010 7
8. L’indexation et la
couverture des outils
• Le mode d’indexation ?
• les outils dits “humains” (annuaires, signets)
• les outils automatiques (moteurs de recherche)
• La couverture ?
• les outils généralistes (ex : Google,Yahoo)
• les outils spécialisés, selon thématique, type, support,
langue, etc. (ex : Google Scholar, etc.)
jeudi 4 février 2010 8
9. Les modalités de recherche
• La recherche par critères sur plein texte (ex : moteurs de recherche)
• La navigation par arborescence ou facettes, parcours de recherche :
l’utilisateur répond à des propositions (ex : annuaires)
• La recherche basée sur des logiques statistiques / linguistiques
(clustering des résultats, prise en compte du sens et du contexte des
termes de recherche)
• La recherche par associations de mots/objets (grâce aux ontologies,
index, thesaurus, facettes)
• La recherche par citations : part de l’hypothèse que si un document
cite un autre document alors il existe un lien entre les deux (Page
Rank de Google)
• La sérendipité, reproduit les mécanismes de la découverte scientifique
jeudi 4 février 2010 9
10. Annuaires / Répertoires / Portails
Explorer un sujet, repérer des ressources
• Spécialisés / thématiques / généralistes
• Accéder à des ressources et services
validées par des spécialistes, offrant
certaines garanties scientifiques.
• Recherche par arborescence / par
catégories
• Avantages : qualitatifs, limitation du bruit,
choix des informations, classification,
point d'accès unique et simplifié
• Inconvénients : silence, mise à jour, non Quinn Dombrowski, Day 129: Directory is Such a Big Word, Mai 9, 2009,
Flickr, http://www.flickr.com/photos/quinnanya/3517363882/.
exhaustif, etc
jeudi 4 février 2010 10
11. signets-universités
Ressources sélectionnées par des BU
http://www.signets-universites.fr/
jeudi 4 février 2010 11
12. Intute : Social Sciences
http://www.intute.ac.uk/socialsciences/
jeudi 4 février 2010 12
13. Liens Socio
http://www.liens-socio.org/
jeudi 4 février 2010 13
14. Calame
Répertoire de bases de données françaises en SHS
http://calame.ish-lyon.cnrs.fr/
jeudi 4 février 2010 14
15. Ménestrel
« études médiévales » sur internet
http://menestrel.in2p3.fr
jeudi 4 février 2010 15
16. Sociopôle
http://www.sociopole.cnrs.fr/
jeudi 4 février 2010 16
17. DADI
Répertoire de BDD gratuites disponibles sur Internet
http://dadi.univ-lyon1.fr/
jeudi 4 février 2010 17
18. EBSCO
Open Science Directory
http://www.opensciencedirectory.net/
jeudi 4 février 2010 18
20. Les Moteurs de recherche
Première porte d’accès sur le web
Malgré une situation d’oligopole dans les
usages (Google,Yahoo, Bing) de nombreux
moteurs de recherche existent !
A. Serres, ML Malingre, (Propositions de)
Typologies des moteurs de recherche,
Mars 2009, http://www.sites.univ-
rennes2.fr/urfist/files/
TypologieMoteurs_mars09.doc
Succès de Google : interface épurée +
taille de l’index + Page Ranking
Source : AT Internet Institute : Baromètre des moteurs - Déc 2009
jeudi 4 février 2010 20
21. Moteurs de recherche
Fonctionnement
L'exploration ou crawl : le Web exploré par un robot
(crawler, spider) qui suit tous les hyperliens et repère les
ressources jugées intéressantes
L'indexation : consiste à extraire et à enregistrer dans une
base (sous la forme d’un gigantesque index) les mots
considérés comme significatifs de chaque ressource repérée.
Permet au moteur de retrouver rapidement où se situe un
terme significatif donné. Les termes non significatifs
s'appellent des mots vides de sens(« de », « le »…)
La recherche : partie requête du moteur. Un algorithme
pour présenter les résultats des recherches par ordre de
pertinence. L'algorithme tient compte du contexte du mot-clé
(titre, paragraphe, hyperlien) et de la ressource elle-même
(ressources liées, popularité)
Source : R. Viseur, CETIC
jeudi 4 février 2010 21
22. Moteurs de recherche
Utilisation avancée
Filtrer les résultats : Opérateurs booléens :
• Par localisations
•AND : implicite ; différent de +
• Par langues
•+ : prend en compte l’orthographe exacte
• Par types de ressources : images, audio,
•- : exclut un ou plusieurs termes (SAUF)
blogs…
• Par formats (filetype:) : HTML, PDF, DOC,
•OR (ou |) : l’un ou l’autre ou tous les termes
PPT, XLS, RTF…
Opérateurs linguistiques :
• Par dates
•Guillemets (“...”) : recherche d’expression
• Par champs : titre (intitle:), URL(inurl:),
exacte
domaine(site:), sites similaires (related:),
ressources liées (link:) •parenthèses : pour combiner les requêtes !!
• Page en cache (cache:) •Joker et masque (*, $) : remplacer un terme ou
un caractère
Consulter le comparatif des règles d’interrogation des moteurs Google,Yahoo et Exalead
jeudi 4 février 2010 22
23. Moteurs de recherche
Avantages et limites
Inconvénients : Avantages :
• Sélection automatique de l’information • Richesse de l’interrogation, recherche
• Hétérogénéité des sources, des formats en texte intégral
• Bruit documentaire, pertinence variable, • Plus d'exhaustivité, mise à jour plus
publicités rapide
• Fonctionnalités variables selon les • Rapidité, immédiateté
moteurs (utiliser les supports/aides)
• Attention au spamdexing
• Publicités ! (positionnement commercial,
rachats de mots-clés (adwords)
A utiliser pour :
• Une première approche
• Effectuer des recherches complexes (requêtes construites)
• Repérer des sites récents
jeudi 4 février 2010 23
24. Moteurs de recherche
scientifique
Un corpus “dit” scientifique : Des fonctionnalités avancées
• sites et portails académiques (.edu, etc.) • Exportation et exploitation de références
bibliographiques (dans différents formats : bibTeX, RIS,
• bases de revues d'éditeurs (SpringerLink,
Refworks, etc.)
ScienceDirect, Wiley-Blackwell, IEEE, etc.)
• bases de sommaires (Ingenta Connect) • Analyse Bibliométrique (taux de citations, etc.)
• bases de données bibliographiques (INIST) • Lien avec résolveur de liens d’une bibliothèque
( partenariat avec les bibliothèques pour faciliter le
• catalogues de bibliothèques (WorldCat, lien vers le texte intégral des documents -
technologie OpenURL)
SUDOC)
• bases de brevets • Fonctionnalités avancées de recherche (par auteur, par
titre de revue, etc)
• ressources en Open Access (archives ouvertes,
revues)
Exemples : Google Scholar, Scirus, Scitopia.org, Science.gov, Science Research, Scitation,
WorldWideScience.org, Science Accelerator, TechXtra
jeudi 4 février 2010 24
25. Moteurs de recherche
scientifique
http://www.scienceresearch.com
http://www.scienceaccelerator.gov/
http://scholar.google.fr/
http://worldwidescience.org http://www.scitopia.org
http://www.techxtra.ac.uk/ http://www.science.gov http://www.scirus.com
jeudi 4 février 2010 25
26. Scirus
Créé en 2001 par l’éditeur Elsevier (portail
ScienceDirect)
Pluridisciplinaire, mais les STM sont les plus
représentées
Types de documents : articles, pré-publications,
thèses, rapports techniques, actes de congrès,
brevets, cours, livres,…
3 types de sources :
• Journal sources : revues électroniques de grands
éditeurs, de sociétés savantes,… (Elsevier, IOP…)
• Preferred Web sources : repositories, archives ouvertes
ou archive institutionnelles, sociétés savantes
(ArXiv.org, CURATOR, LexisNexis, NDLTD,
PubMedCentral,…)
Guide : Marois, A. SCIRUS :”for scientific information only ?”
• Other Web sources : des sites web académiques, http://bibli.ec-lyon.fr/documents/Scirus_support_diff.pdf
d’entreprises, sélectionnés (.edu, .ac.uk, .gouv,…)
D’après A. Marois
jeudi 4 février 2010 26
27. Google Scholar
Créé en 2004 par Google (Google Like)
Couverture similaire à Scirus mais non
énoncée + opacité de l'algorithme
Google scholar ne donne :
• aucune liste de ses sources
• aucune information sur le type de document
traité
• aucune information sur la période couverte
• aucune information sur le volume disponible
jeudi 4 février 2010 27
28. La recherche dans
Google Scholar
Recherche dans le texte intégral et pas Recherche avancée :
seulement dans les métadonnées (auteurs,
titres, résumés…) • des champs remplissent les fonctions
des opérateurs booléens : ex :
La recherche simple (langage naturel, mots- recherche d’une expression exacte
clés, opérateurs). Utiliser :
• rechercher par auteur, nom de
publication et intervalle de dates
• la langue dans laquelle on veut retrouver • rechercher le terme dans tout le
des documents des synonymes
document ou uniquement dans le titre
• des termes scientifiques • limiter sa recherche aux domaines
• l’opérateur author: pour la recherche par scientifiques dans l’interface en anglais
auteur
jeudi 4 février 2010 28
29. Les résultats
dans Google Scholar
• Informations présentes : titre du document, auteurs, nom de la
revue, date, éditeur, source, une "résumé" généré automatiquement
• Référence « normale » : lien vers une référence bibliographique (par
ex d’un catalogue de bibliothèque), donne accès au moins au résumé
du document.
• [DOC] ou [PDF] et [HTML] : le format du document
• La présence d’un lien source [format] à droite du résultat indique que
le document est accessible en texte intégral (lien direct)
• [CITATION] : citation dans un document (bibliographie)
• [BOOK] : indique un livre, souvent indisponible en texte intégral
jeudi 4 février 2010 29
30. Exploitation des résultats
Google Scholar
• Localiser dans une bibliothèque à partir du lien « Trouver ce livre dans une
bibliothèque » dans Google Book Search ou « SUDOC Catalogue » (cf.
préférences)
• Gestion des doublons : les différentes versions du document sont
regroupées sous la fonction « all X versions ». Est mise en avant la version
en accès libre.
• « Cited by » identifie, depuis l’index de Google Scholar, le nombre de fois où
ce document a été cité par d’autres documents + liens vers ces documents
• « Import into ... » (à activer dans préférences) : pour exporter la référence
dans son logiciel de gestion bibliographique
Sicot J., Google Scholar : guide d'utilisation, 2007
jeudi 4 février 2010 30
31. Search Pigeon
open access journals and research tools for researchers in the humanities
http://www.searchpigeon.org/
jeudi 4 février 2010 31
32. JURN
A curated academic search-engine, indexing 3,565 free ejournals in the arts &
humanities
http://jurn.org/
jeudi 4 février 2010 32
33. Rechercher dans les AO
• Identifier les archives ouvertes (+ de 1400 dans le monde)
• L’OpenDOAR : The Directory of Open Access Repositories http://
www.opendoar.org/index.html
• Registry of Open Access Repositories (ROAR) http://roar.eprints.org/
• Rechercher des articles scientifiques à l’aide des moissonneurs
(harvesters) = « moteurs pour les archives ouvertes »
• OAIster http://www.oaister.org (versé dans le WorldCat depuis 2009)
• Scientific Commons http://www.scientificcommons.org
• Driver (Digital Repository Infrastructure Vision for European Research) http://
search.driver.research-infrastructures.eu/
• Base (Bielefeld Academic Search Engine) http://www.base-search.net
• Évaluer une Archive Ouverte
• Ranking repositories http://repositories.webometrics.info/
jeudi 4 février 2010 33
34. OpenDOAR
http://www.opendoar.org/find.php
jeudi 4 février 2010 34
35. ScientificCommons
http://www.scientificcommons.org/
jeudi 4 février 2010 35
36. BASE
http://www.base-search.net
jeudi 4 février 2010 36
37. La recherche dans HAL-SHS
http://halshs.archives-ouvertes.fr/
jeudi 4 février 2010 37
38. Networked Digital Library Of Theses and Dissertations TEL : Thèses En Ligne
Trouver des thèses en ligne
jeudi 4 février 2010 38
39. DOAJ : Directory of Open Access Journals Open J-Gate
4576 revues 6255 revues
Trouver des revues
en libre accès
jeudi 4 février 2010 39
41. Revues.org
http://www.revues.org
Depuis 1999, Géré par une
UMS : le CLEO, soutenue par
le TGE Adonis
• 224 revues (45 000
articles)
• Dont 93 revues en Full
Open Access
jeudi 4 février 2010 41
42. Persée
http://www.persee.fr
Depuis 2005, Portail de revues en SHS
(MNESR, Univ. Lyon 2, Cines) - coopération
avec Cairn et Revues.org
81 revues (99 500 articles)
• Diffusion collections rétrospectives de
revues (numérisation)
• Valorisation publications scientifiques en
langue française
• Logique d’accès libre (barrière mobile de
2 à 5 ans pour certains éditeurs)
jeudi 4 février 2010 42
44. Blogosphère scientifique
en SHS
Hypothèses : carnets de
recherche en SHS
http://www.hypotheses.org/
• Créé en 2008 par le CLEO (Centre
pour L’Édition Électronique Ouverte)
• Ouvert à tous les chercheurs sur
projet validé
• Typologie variée : blogs individuels,
collectifs, de séminaire, de revue, de
projet de recherche
• 74 carnets de recherche !
jeudi 4 février 2010 44
45. Google
Recherche de Blogs
http://blogsearch.google.fr/
jeudi 4 février 2010 45
46. Peter Dutton, Lego People, Novembre 24, 2006, Flickr, http://www.flickr.com/photos/joeshlabotnik/305410323/.
S’appuyer sur l’intelligence collective
Les réseaux sociaux
jeudi 4 février 2010 46
47. Folksonomie
Vers des annuaires 2.0 ?
Folksonomie : combinaison des termes «
folks » (usagers) et « taxinomie » (règle de
classification)
Systèmes s’appuyant sur réseaux sociaux et
permettant aux utilisateurs de donner des
indications de contenu aux ressources qu’ils
rencontrent, sous la forme de tags (mot-
clés)
Esprit collaboratif, notion de partage,
ouverture, simplicité d’utilisation...
Ex : plateformes de partage de signets et de
Cambodia4kids.org Beth Kanter, Tags: Keywords to describe digital objects, Octobre 3, 2006,
références bibliographiques Flickr, http://www.flickr.com/photos/cambodia4kidsorg/260004685/.
jeudi 4 février 2010 47
48. Services de partage de signets
• Avantages
• Permet un classement des ressources mais aussi une navigation et un
• Accès simple aux informations via les tags
• Fonctions innovantes de tri ou de classement et de visualisation : nuages de tags
• Les tags sont plus précis et répondent mieux au vocabulaire et aux attentes des
utilisateurs
• Permet de parcourir des sources faisant partie du web invisible
• Inconvénients
• Mots-clés détournés ou “Folks Bombing”
• Problèmes de validité, de cohérence (doublons) et de pérennisation
A utiliser pour
• Un accès rapide à l’information
• Pour mettre en place une veille en utilisant le « tag tracking » (repérage de termes
(tags) précis) qui consiste à suivre les ressources annotées avec un mot-clé (tag)
précis
jeudi 4 février 2010 48
49. Delicious
http://delicious.com
jeudi 4 février 2010 49
50. Services de partage de ref.
bibliographiques
• Communautés spécifiques (recherche, académique)
• Fonctionnalités spécifiques (formats biblio, interconnexions avec sites
d’éditeurs scientifiques, recherches par auteurs, titre, revue,...)
• Pourquoi utiliser un service de partage de citations ?
• Possibilité de savoir qui lit les mêmes publications que vous
• Possibilité de voir la bibliographie (publique) de cette personne
• S’intégrer à un groupe thématique, éventuellement...
• ... ou suivre le travail de ce groupe
• Bénéficier de reviews sur des articles
• Bénéficier d’une évaluation des articles via un système de vote intégré à la plate-
forme
• Réaliser une veille via des fils RSS
d’après A. Marois
jeudi 4 février 2010 50
51. CiteULike
http://www.citeulike.org/
jeudi 4 février 2010 51
52. Texte
Connotea
http://www.connotea.org/
jeudi 4 février 2010 52
57. Nouvelles formes de diffusion de
l’IST
• Trouver les diaporamas d’une
soutenance, d’une
présentation à un colloque /
une conférence
• Trouver une vidéo illustrant
un projet de recherche, etc
(YouTube edu)...
• Podcast audio : iTunes U
• Trouver des images libres de
droits (http://www.flickr.com/
creativecommons/)
jeudi 4 février 2010 57
58. La veille
informationnelle ?
La recherche d’information :
énergie, temps, analyse, stratégie
Nécessité de rentabiliser sa
recherche (veille) : suivi des
nouveautés sur une sujet, mise à
jour des informations
Économie par la création
d’alertes, sauvegardes de
recherche = déléguer la
recherche ! Mike Lee, Newspaper RSS Feed Icon, Juin 6, 2009
Flickr, http://www.flickr.com/photos/curiouslee/3602683294/.
jeudi 4 février 2010 58
60. Les flux RSS ?
• RSS = Rich Site Summary (sommaire d’un site enrichi)
• RSS = Really Simple Syndication (souscription vraiment
simple)
• Un flux RSS = un fichier (format XML) ou fil de contenu
qui va stocker et diffuser les dernières mises à jour d’un
site web (ou blogs (hypotheses.org), sites d’actualités (Le
Monde), site institutionnel (Rennes 2), Archives
ouvertes (HAL), revues scientifiques (Cairn, TicToCs),
social bookmarking (Delicious), etc)
• Autre avantage : RSS déconnecte le texte de sa mise en
forme. A partir d’un flux RSS, il est possible de lire le
contenu d’un site A sur un site B !
jeudi 4 février 2010 60
65. Intérêts des flux RSS
• Recevoir automatiquement les mises à jour d’un site
sans avoir à retourner sur ce dernier
• Suivre l’activité de plusieurs sites à partir d’un seul
point d’entrée (“guichet unique” = rôle de
l’agrégateur)
• S’abonner aux flux RSS des sommaires de revues
• Possibilité de catégoriser / d’organiser ses
abonnements (flux rss) + filtres + tags
• Alimenter une véritable base de connaissances
• Moins intrusif que l’e-mail (pubs, spams)
jeudi 4 février 2010 65
66. Entrez dans le flux
Repérer les sites & services
proposant un flux RSS (ou fil RSS,
Syndication RSS, RSS feeds, etc)
Icône identifiable (sur la page ou au
niveau de l’URL)
Choisir un lecteur de flux RSS (ou
Agrégateur, ou Reader), en ligne
(Google Reader, feedly, netvibes) ou
un logiciel client (Firefox,
Thunderbird, feeddemon)
jeudi 4 février 2010 66
67. RSS & OPML ?
• Importer et Exporter sa
liste de Flux
(sauvegarde)
• Echanger et partager sa
liste d’abonnements
jeudi 4 février 2010 67
68. TiCToCs
Recevoir les tables des matières de revues par fils RSS
http://www.tictocs.ac.uk/
jeudi 4 février 2010 68
70. Pour aller plus loin
URFIST de Rennes
•
Supports de formation
• REPERE (Formist -
sur la recherche
d’information ENSSIB)
•
Sélection de ressources
Et bientôt :
sur les outils de
recherche • Form@doct !!
Autres site du réseau des
URFIST (Bordeaux, Lyon,
Paris, Nice, Strasbourg,
Toulouse)
jeudi 4 février 2010 70