Recherche Information Web SHS

2,505 views

Published on

Recherche Information Web SHS

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,505
On SlideShare
0
From Embeds
0
Number of Embeds
29
Actions
Shares
0
Downloads
75
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Recherche Information Web SHS

  1. 1. La Recherche d’Information sur le Web <ul><li>De la documentation électronique de votre université aux outils du Web </li></ul><ul><li>Gabriel Gallezot - Urfist Paca-c 10/12/07 </li></ul><ul><li>Gallezot-at-unice.fr </li></ul>29/11/07
  2. 2. Programme : <ul><li>Rappel sur la Recherche d’Information (RI) </li></ul><ul><ul><li>contexte de la RI, Usage de l’info, Appropriation des outils </li></ul></ul><ul><ul><li>formulation des requêtes (des questions) </li></ul></ul><ul><ul><li>l’Indexation : notion centrale </li></ul></ul><ul><li>Panorama et utilisation des outils de recherche du web </li></ul><ul><ul><li>les bases de données </li></ul></ul><ul><ul><li>Dico & co </li></ul></ul><ul><ul><li>OA & co </li></ul></ul><ul><ul><li>Outils 2.0 </li></ul></ul><ul><ul><li>Moteurs et outils connexes </li></ul></ul><ul><ul><li>les répertoires </li></ul></ul>
  3. 3. <ul><li>Le contexte de la Recherche d'Information </li></ul>
  4. 4. Types de documents Formats de documents Accès aux documents … Usage de l’information Rechercher: IR/épistémè Base Bibliographiques Banques de données Revues, ouvrages Colloques Site web, page perso, blog Liste de discussion Editeurs, agrégateurs Archives Ouvertes Bibliothèques
  5. 5. Les ressources <ul><li>En BU </li></ul><ul><li>Les catalogues </li></ul><ul><li>Les bases de données </li></ul><ul><li>Les périodiques </li></ul><ul><li>Les encyclopédies et dictionnaires </li></ul><ul><li>Les livres électroniques </li></ul><ul><li>Les cédéroms </li></ul><ul><li>Web « gratuit » </li></ul><ul><ul><li>les bases de données </li></ul></ul><ul><ul><li>Dico & co </li></ul></ul><ul><ul><li>OA & co </li></ul></ul><ul><ul><li>Outils 2.0 </li></ul></ul><ul><ul><li>Moteurs et outils connexes </li></ul></ul><ul><ul><li>les répertoires </li></ul></ul>
  6. 6. Source : Info@vis La RI en contexte - différentes sources - différents outils - différents contextes
  7. 7. Appropriation des outils The Machine is Us/ing Us Introducing the book
  8. 8. La Recherche d’Information - Bien appréhender votre question - Bien appréhender ce que vous cherchez et où vous le cherchez - Comprendre l’envers du “décor” : l’indexation - Bien gérer ses requ êtes
  9. 9. Quelques questions <ul><li>Quels documents sont d'intérêt pour moi (ma question) ? </li></ul><ul><li>Est-ce que d'autres documents assez proches de mon intérêt peuvent être également considérés ? </li></ul><ul><li>Les titres d'autres documents pourraient-ils déclencher des idées valables pour ma recherche d'information ? </li></ul><ul><li>Comment mes mots-clés sont-ils réellement distribués dans un des document ? </li></ul><ul><li>.... </li></ul><ul><li>Trois notions à considérer : </li></ul><ul><li>Relevance (correspondance a ma question)‏ </li></ul><ul><li>Pertinence (ce qui m'intéresse vraiment) </li></ul><ul><li>Serendipity (quelle chose que je ne recherchais pas mais qui pourrait également m'intéresser) </li></ul>
  10. 10. <ul><li>Chercher une aiguille dans une botte de foin c’est : </li></ul><ul><li>trouver une aiguille connue dans une botte de foin connue </li></ul><ul><li>trouver une aiguille connue dans une botte de foin inconnue </li></ul><ul><li>trouver une aiguille inconnue dans une botte de foin inconnue </li></ul><ul><li>trouver n'importe quelle aiguille dans une botte de foin </li></ul><ul><li>trouver […] [Koll, 00] </li></ul>Aiguille(s) et botte(s) de foin <ul><li>=> 3 façons de recherche l’information </li></ul><ul><li>« chercher de l'information sur un objet bien défini ; </li></ul><ul><li>chercher de l'information sur un objet incomplètement décrit mais qui sera reconnaissable dès qu'un le rencontrera ; </li></ul><ul><li>trouver de l'information de manière fortuite . » (Toms) ‏ </li></ul>
  11. 11. Où chercher ? Web visible et Web 2.0 Web invisible P2P <ul><li>Contenu indexable, </li></ul><ul><li>contenu taggé </li></ul><ul><li>bases de données spécialisées </li></ul><ul><li>Contenu dynamique </li></ul><ul><li>Index partiel des sites </li></ul><ul><li>Interdiction d’indexation </li></ul><ul><li>Information contenue sur les ordinateurs individuels </li></ul><ul><li>plusieurs millions d’ordinateurs inter-connectés </li></ul><ul><li>10 Milliards de </li></ul><ul><li>Pages web </li></ul><ul><li>Forum de </li></ul><ul><li>discussion </li></ul>À partir de Source : Eric Boutin
  12. 12. La notion d’indexation (une notion transversale et centrale) ‏ <ul><li>Indexer/classer pour retrouver (mots clés/répertoire, …) ‏ </li></ul><ul><li>Les métadonnées (entête) ‏ </li></ul><ul><li>La structuration du document (corps) ‏ </li></ul><ul><li>Classification : </li></ul><ul><ul><li>Index </li></ul></ul><ul><ul><li>Thésaurus </li></ul></ul><ul><ul><li>Taxonomie </li></ul></ul><ul><ul><li>Facette </li></ul></ul><ul><ul><li>Ontologie </li></ul></ul>
  13. 13. Gestion du bruit et du silence Documents non relevants Documents relevants Corpus Bien gérer VOS REQUETES !
  14. 14. non relevants (bruit) ‏ relevants Documents retrouvés Documents non retrouvés Relevants (silence) ‏ non relevants Documents retrouvés Document non retrouvés Optimiser sa recherche d'information Bien gérer VOS REQUETES !
  15. 15. Les opérateurs booléens <ul><ul><li>Exemple </li></ul></ul><ul><ul><ul><li>Ensemble A </li></ul></ul></ul><ul><ul><ul><ul><li>cours </li></ul></ul></ul></ul><ul><ul><ul><ul><li>tutorial </li></ul></ul></ul></ul><ul><ul><ul><li>Ensemble B </li></ul></ul></ul><ul><ul><ul><ul><li>tutorial </li></ul></ul></ul></ul><ul><ul><ul><ul><li>gratuit </li></ul></ul></ul></ul><ul><ul><ul><li>Ensemble C </li></ul></ul></ul><ul><ul><ul><ul><li>Payant </li></ul></ul></ul></ul>Tutorial Cours gratuit tutorial payant Protection cours ou tutorial tutorial et gratuit cours sauf payant cours OR AND AND NOT Les booléens sur GIRI : http:// www.bibl. ulaval .ca /vitrine/ giri /mod3/ booleen. htm
  16. 16. Les types de recherche <ul><li>La recherche lexicale (+morphologique) : la recherche d'un mot ou d'un groupe de mots, notamment par le biais de requêtes booléennes (et, ou, etc.). Une fonction à laquelle s'ajoutent des opérateurs d'adjacence et de proximité. Tous des moteurs proposent en général ce type de possibilités. </li></ul><ul><li>La recherche syntaxique : elle permet de retrouver un terme quelle que soit sa déclinaison (plurielle, conjuguée, etc.), et d'étendre la recherche aux mots synonymes ou de même racine étymologique. Cette recherche offre également des modules de recherche floue ou de phonétisation. </li></ul><ul><li>La recherche statistique : lorsque la recherche s'effectue sur les mots, une analyse statistique permet de calculer la pertinence de ces mots par rapport au référentiel documentaire. </li></ul><ul><li>La recherche sémantique : l'opération s'effectue à partir d'une analyse du sens de la requête, c'est-à-dire en recherchant les mots sémantiquement proches de ceux qu'elle utilise. La recherche s'appuie alors sur un dictionnaire sémantique qui, à chaque mot de la langue, associe leurs différents sens. </li></ul><ul><li>La combinaison des recherches sémantique, syntaxique, lexicale et statistique permet aux éditeurs de proposer des fonctions avancées : résumé de documents, classement et sélection optimisés des réponses, jusqu'aux assistants de requêtes (conçus pour permettre à l'utilisateur d'affiner sa demande en lui proposant des requêtes connexes ou enrichies) </li></ul>
  17. 17. Exemples d’outils (panorama)
  18. 18. Les bases de données <ul><li>Gallica : http: //gallica . bnf .fr </li></ul><ul><li>DAF ( didactique et acquisition du français langue maternelle) : http://www.inrp.fr/daf/web/ </li></ul><ul><li>Article Inist : (catalogues : http://services. inist . fr/public/fre/conslt .htm </li></ul><ul><li>Images : http://www. jupiterimages . fr (regroupe Librededroits.com, Goodshoot, AgenceImages et Stockimage) </li></ul><ul><li>Sons : L’encyclopedie Sonore, http: //e-sonore .u-paris10. fr/e-sonore/main . php ? daj=search_small & sid= & ref=CAE92LEG08 </li></ul><ul><li>Librairies en ligne (Amazon, chapitre.com, …) ‏ </li></ul>
  19. 19. Dico and Co <ul><li>Wikipedia : http: //fr . wikipedia . org/wiki/Accueil </li></ul><ul><li>Les dictionnaires : http://www. dictionnaire-mediadico .com/ http://www. les-dictionnaires .com/ </li></ul><ul><li>TermScience (lexiques, dictionnaires, thesaurus) : http://www.termsciences.fr </li></ul><ul><li>CNRTL : Centre National de Ressources Textuelles et (Morphologies, Lexicographie, Etymologie, Synonymie, Antonymie, Proxémie, Concordance) http://www. cnrtl . fr/lexicographie/ </li></ul>
  20. 20. OA & Co <ul><li>HAL : http: //hal . archives-ouvertes . fr/ </li></ul><ul><li>Revues.org : http://www.revues.org/ </li></ul><ul><li>OAIster : http://www. oaister . org/ </li></ul>
  21. 21. Outils du web2.0 (fonction recherche uniquement) <ul><li>Signets : Del.ici.ous ( http: //del . icio .us/ ), digg ( http://www. digg . com/ ), … : </li></ul><ul><li>Ref biblio : CiteUlike ( http://www. citeulike . org/ ), Bibsonomy ( http://www. bibsonomy . org/ ), … : </li></ul><ul><li>illustrations : Flickr ( http://www. flickr . com/ ), youtube ( http://www. youtube . com/ ), … : </li></ul><ul><li>Présentations (PPT : http://www. slideshare .net ) </li></ul>
  22. 22. Les outils de recherche du web (moteurs, annuaires et autres) <ul><li>Google scholar : http: //scholar . google . com </li></ul><ul><li>Google book : http://books. google . com/ </li></ul><ul><li>Lecdi : http://www.lecdi.net/ </li></ul><ul><li>In extenso : http://www. in-extenso . org/ </li></ul><ul><li>Exalead http://www. exalead . fr </li></ul><ul><li>Kvisu : http: //beta . kvisu . com/ </li></ul><ul><li>Ixquick http://www.eu. ixquick . com/fra/ </li></ul><ul><li>Wayback machine http://www.archive. org/ </li></ul><ul><li>Wikio (blogs) : http://www. wikio . fr/blogs </li></ul><ul><li>Yahoo (Mindset) : http: //mindset . research . yahoo . com/ </li></ul><ul><li>Open directory project http://www. dmoz . org/ </li></ul>
  23. 23. Les répertoires <ul><li>Répertoire critique en SHS http://album.revues.org/ </li></ul><ul><li>Répertoire de Bases de données en SHS, CALAME : http://calame. ish-lyon . cnrs . fr/ </li></ul><ul><li>Répertoire de revues Open Access, DOAJ : http://www. doaj .org/ </li></ul><ul><li>Répertoire d'Archive Ouverte, OpenDOAR : http://www. opendoar .org/ </li></ul><ul><li>Répertoire du CHU de Rouen (revues dans le domaine Biomed) : http://www. chu-rouen . fr/documed/cbc .html </li></ul><ul><li>Répertoire de ressources « academiques » : Bubl , http: //bubl .ac. uk/ </li></ul><ul><li>Répertoire de BdD gratuites (Dadi) : http://dadi.enssib.fr/ </li></ul><ul><li>Répertoire web2.0 : http://www.go2web20.net/ </li></ul><ul><li>Search engines watch : http: //searchenginewatch . com/showPage .html?page=links </li></ul>
  24. 24. « Mon environnement de recherche » <ul><li>Quelques exemples </li></ul><ul><li>Mes extensions FF (“mes moteurs”, zotero,…) </li></ul><ul><li>Mon moteur de recherche (co-op/customsearch) ‏ </li></ul><ul><li>Mon portail : Ning, netvibe, Igoogle, facebook, … </li></ul>
  25. 25. Vos questions ?
  26. 26. … et en plus
  27. 27. Moteurs (remarques) ‏ <ul><li>Interfaçage : http://www. touchgraph . com/TGGoogleBrowser .html </li></ul><ul><li>Comprendre la relation entre les moteurs : http://www.search-this. com/search_engine_decoder .asp </li></ul>
  28. 28. Méthodologie de recherche <ul><li>2 guides </li></ul><ul><li>CERISE : http:// web. ccr . jussieu . fr / urfist /cerise/ </li></ul><ul><li>InfoSphere : http:// www. bibliotheques . uqam .ca / InfoSphere / sciences_humaines /index1.html </li></ul><ul><li>Et aussi REPERE : http://repere.enssib.fr/frontOffice/afficheArticle.asp?idTheme=13 </li></ul>
  29. 29. Stratégie de requête (exemple) ‏ silence bruit Inurl:durand in title  « durand pierre » Site: durand inurl:durand  intitle: « durand pierre » « durand pierre » Durand pierre Google Source : Eric boutin
  30. 30. Les deux aspects des outils de recherche Base de données Propagation electrons : Collecte et stockage Fournir à L’internaute 10 à 20 réponses pertinentes 2 1 Source : Eric Boutin
  31. 31. Le point de départ de Google « un article scientifique tire sa légitimité de la reconnaissance par ses pairs » Analyse de la citation : SCI Eugène Garfield Duchemin Bla bla bla Dugenet (89) ‏ Dugenet Bla bla bla Dumoulin (79) ‏ Article 1 Article 2 Chaque page web a un poids appelé Pagerank PAGERANK ( Google ) ‏ A B C Yahoo! E F Linux.org A better than B A is linked to by more popular sites than B ( whatever the query is ) ‏ PAGERANK ( Google ) ‏ A B C Yahoo! E F Linux.org A est meilleur que B A reçoit des liens émanant de sites plus populaires que B quelle que soit la requête Source : Eric Boutin Comprendre le ranking : http://professeurs.esiea.fr/wassner/?2007/06/03/74-l-algorithme-pagerank-comment-ca-marche

×