Recherche web

3,352
-1

Published on

Notes de cours sur la recherche web
(Automne 2012)

Published in: Education
2 Comments
1 Like
Statistics
Notes
  • MÀJ: J'ai remplacé la version PPT par la Keynote (plus stable) en attendant la 'réparation' du PPT...
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Plusieurs liens de cette présentation ne sont pas actifs (au 25 sept. 2012) à cause du passage de Keynote à PPT. Je vais réparer cela dès que possible. Merci de votre compréhension !
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total Views
3,352
On Slideshare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
50
Comments
2
Likes
1
Embeds 0
No embeds

No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • Recherche web

    1. 1. REP2400Internet et relations publiques La recherche web A2012 1
    2. 2. Cinq de ces dix propriétés sont des moteurs de recherche (ou variantes)... Source: http://stephenslighthouse.com/2012/03/14/how-people-spend-their-time-online/ Les chiffres diffèrent beaucoup entre le graphique ci-dessus et cette autre compilation de http://www.ebizmba.com/articles/search-engines Difficile aussi de croire que FB recevait 137 millions de visiteurs unique par mois au début de 2012 ! Leçon # 1: ne jamais se fier sur une seule ressource 2
    3. 3. Source: Top-10 US sites & Social Networks 2011 (Hitwise) http://www.hitwise.com/us/datacenter/main/dashboard-10133.html Top 15 search engines (September 2012) http://www.ebizmba.com/articles/search-engines 3
    4. 4. Source: Top-20 US sites & engines en 2010 (Hitwise)http://www.hitwise.com/us/datacenter/main/dashboard-10133.html Voir aussi:Search Engine Trends (Bing dépasse Yahoo en 2012) http://www.experian.com/hitwise/online-trends-search-engine.html 4
    5. 5. Quelques mythes On trouve tout dans Internet Cest facile de chercher et de trouver Les sources sont fiables et à jour... LES RECHERCHES DANS INTERNET PEUVENT SE FAIRE À PARTIR DES RESSOURCES SUIVANTES, ENTRE AUTRES : Moteurs de recherche et Annuaires (catologues/répertoires) + Les Newgroups (groupes de discussion) dont les contenus peuvent être accessibles avec un lecteur de nouvelles... http://alt.binaries.movies.french.usenetor.com/ http://groups.google.com/group/tourisme-recherches-institutions-pratiques?lnk= Par le biais du web, les «news» étaient accessibles avec Google Groupes (désactivé en 2011 mais 20 ans d’archives toujours disponibles...) Les blogues Certains réseaux sociaux ouverts (ou par compte Google) Sites de signets sociaux Twitter (temps réel) Le Web profond dit invisible 5
    6. 6. Tendances en recherche web Socialisation Personnalisation Localisation (mobilité)Voir mon billet au sujet de La recherche web en 2012 (et la présentation de Karen Blakeman) http://patriceleroux.blogspot.ca/2012/04/la-recherche-web-en-2012.html 6
    7. 7. (RAPPEL) Personnalisation de la recherche... Source: Eli Pariser, Beware online «filter bubbles» (2011) http://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles.html Voir aussi : Google Personalisation: Web History isn’t the only problem (Karen Blakeman)http://www.rba.co.uk/wordpress/2012/02/22/google-personalisation-web-history-isnt-the-only-problem/ 7
    8. 8. Source: Advanced Web Searching (Karen Blakeman)http://fr.slideshare.net/KarenBlakeman/advanced-web-searching-ifeg-3rd-april-2012Google Dashboardhttps://www.google.com/dashboard/ 8
    9. 9. Règles de confidentialité Google http://www.google.com/policies/privacy/Voir aussi:Google personalisation: web history isn’t the only problem (Karen Blakeman)http://www.rba.co.uk/wordpress/2012/02/22/google-personalisation-web-history-isnt-the-only-problem/ 9
    10. 10. Supprimer les cookies permet de dépersonnaliser la recherche selon vos activités passées et votre historique de navigation... 10
    11. 11. Chrome et Firefox 11
    12. 12. La recherche «adaptée»... Les résultats obtenus par ma propre recherche risquent d’être assez différents des vôtres ! Quand Google omet des mots que vous avez inscrits...Source: Dear Google, stop messing with my search (Karen Blakeman)http://www.rba.co.uk/wordpress/2011/11/08/dear-google-stop-messing-with-my-search/ 12
    13. 13. Google: un cas particulier (ancienne interface ci-dessus) http://www.google.ca/ 13
    14. 14. La fonction Recherche avancée de Google n’est plus aussi apparente qu’auparavant... Elle apparaît dans le menu outil lors de l’affichage d’un résultat de recherche et non plus sur sa page d’accueilIl faut développer le réflexe d’utiliser les fonctions de recherche avancée...http://www.google.ca/advanced_search?hl=fr 14
    15. 15. 15
    16. 16. [...] «So what’s our straightforward definition of the ideal search engine?Your best friend with instant access to all the world’s facts and a photographicmemory of everything you’ve seen and know. That search engine could tailoranswers to you based on your preferences, your existing knowledge and the bestavailable information; it could ask for clarification and present the answers inwhatever setting or media worked best.» [...]Marissa Mayer, V-P, Recherche-Produits et expérience utilisateur (chez Google jusqu’en 2012)Source: http://googleblog.blogspot.com/2008/09/future-of-search.htmlUne pub de Google durant le SuperBowl de 2010 (une vidéo disponible depuis plusieurs mois...)http://www.youtube.com/watch?v=nnsSUqgkDwUIs Google Making Us Stupid ? (Nicholas Carr)http://www.theatlantic.com/doc/200807/googleTraduction française :(Framablog)http://www.framablog.org/index.php/post/2008/12/07/est-ce-que-google-nous-rend-idiotAre we renting our collective intelligence to Google ? (Matteo Pasquinelli)http://mastersofmedia.hum.uva.nl/2009/11/16/matteo-pasquinelli-are-we-renting-our-collective-intelligence-to-google/ 16
    17. 17. PageRank de GooglePageRank est un champion de la démocratie : il profite des innombrables liens du Web pour évaluer le contenu des pages Web-- et leur pertinence vis-à-vis des requêtes exprimées. Le principe de PageRank est simple : tout lien pointant de la page A à lapage B est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation aunombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liensprésents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » dautres pages.Source:http://www.google.ca/intl/fr/why_use.htmlPlusieurs centaines de millions de requêtes par jour !Des fonctions et services moins connus ou utilisés...Le choix parmi 45 langues (2012):http://www.google.ca/preferences?hl=fr#languages Google News/Actualités (+4500 sources médias dont 500 en français)http://news.google.com/news?cf=all&ned=fr_ca&ict=ln Alerte Google (monitoring de lactualité)http://www.google.ca/alertshttp://www.googlealert.com Google Imageshttp://images.google.ca/Google Scholar (en français aussi maintenant)http://scholar.google.com/ 17
    18. 18. Google...suiteGoogle Blog Searchhttp://blogsearch.google.com/La numérisation de tous les livres...http://books.google.com/Localisation de magasins pour les achats:(ancien Froogle/Google Shopping)http://www.google.com/productsRecherches dans un lieu géographique précis. (Google Maps)http://local.google.com/Google Earth (Images satellites...)http://earth.google.com/Rechercher dans les données publiqueshttp://www.google.com/publicdata/directory#Moteur de recherches personnalisées Googlehttp://www.google.com/cse/Google (vue densemble des services et options)http://www.google.com/help/features.htmlLe blogue Inside Searchhttp://insidesearch.blogspot.ca/ Quelques bonnes références:Guide Google de Nancy Blachmanhttp://www.googleguide.com/Centre d’aide de Google:http://www.google.com/support/ 18
    19. 19. Google: Pas seulement qu’un algorithme...Source: http://www.davidcarlehq.com/2012/09/le-guide-de-levaluateur-google-coule-en-ligne-voici-les-criteres-de-qualite-de-lalgorithme-naturel/Lien vers le document «coulé»... : http://pdfcast.org/pdf/google-guidelinesVoir aussi: Google Search Ranking factors 2012 (Martin Missfeldt)http://www.tagseoblog.com/google-search-ranking-factors-2012-infographic 19
    20. 20. Tendances des recherches sur Googlehttp://www.google.com/insights/search/?hl=fr 20
    21. 21. http://www.google.com/trends 21
    22. 22. Google Goggles Recherche visuelle/photographique Il n’y a plus d’entrée de texte... Application pour mobile http://www.google.com/mobile/goggles/#textVoir entrevue avec Marissa Mayer, V-P Google, produits de recherche et expérience-utilisateur (LeWeb/Paris/2009)http://www.ustream.tv/recorded/2759667Pour la musique, voir http://www.shazam.com/ 22
    23. 23. Recherche par imagehttp://images.google.fr/ 23
    24. 24. Recherche par image (tout de même assez précis comme résultat)http://images.google.fr/ 24
    25. 25. Recherche par image par le biais de Google Imageshttp://images.google.fr/Aucune différence entre une image de moi, une image prise par moi (de quelqu’un d’autre) ou d’une imagede moi prise par quelqu’un d’autre...ou encore d’images d’autres Patrice Leroux de ce monde... 25
    26. 26. Pourquoi la vidéo domine la recherche ? (enfin presque...)«Pourquoi préfère-t-on passer plus de temps à regarder la TV qu’à lire la presse ? Nous sommes tout simplementfainéants. C’est plus facile et surtout plus accessible de s’informer avec des images animées, qu’avec du textestatique.» (Laurent Maisonnave) http://www.youtube.com/ YouTube 1er moteur de recherche devant Google (Laurent Maisonnave) http://zelaurent.com/video-news/youtube-1er-moteur-de-recherche-devant-google/ 26
    27. 27. Recherche sociale de Google: http://www.youtube.com/watch?v=aYf5iSA6t6g Accéder aux recherches sociales de Google: http://www.google.com/support/websearch/bin/answer.py?answer=165228Explication vidéo de Matt Cutts: http://www.youtube.com/watch?v=BlpTjP6h6Ms Voir aussi Social Search: http://www.socialsearch.com/ 27
    28. 28. Recherche avec les mots Internet et relations publiques dans Google+ parmi Tout (la priorité desrésultats proviendraient tout de même de mes cercles). 28
    29. 29. Recherche avec les mots Internet relations publiques dans Google avec la fonction Mot à mot Voir colonne de gauche sous Tous les résultats 29
    30. 30. Recherche avec les mots New York dans Google+ parmi mes cercles 30
    31. 31. Recherche avec les mots New York dans Google+ parmi la rubrique De vous (donc de moi seulement) 31
    32. 32. La recherche dans Internet (WWW) Comment les données sont-elles cataloguées et indexées ? Quelques outils de recherche disponibles. Les techniques à utiliser. Les comportements des chercheurs Vers la recherche collaborative ?Bots, Blogs and news Agregators (mis à jour en 2011) par Marcus P. Zillmanhttp://www.botsblogs.com/100 useful tips to search the deep web (Alisa Miller)http://www.online-college-blog.com/features/100-useful-tips-and-tools-to-research-the-deep-web/ 32
    33. 33. 20  +  stats  on  user  behaviour  (e-­‐Consultancyh7p://econsultancy.com/us/blog/7027-­‐20-­‐stats-­‐you-­‐might-­‐not-­‐know-­‐about-­‐user-­‐search-­‐behaviour 33
    34. 34. Source: Longer search queries of eight or more words increase 3% in september 2011http://www.hitwise.com/us/about-us/press-center/press-releases/google-share-of-searches-66-percent-in-sept-2011/ 34
    35. 35. Catalogues, annuaires et répertoires:Les informations sont constituées, organisées en catégorieset même filtrées par des personnes. (pensez curation web)Lintervention humaine faisait en sorte que linformationétait souvent moins à jour quavec les moteurs.Par contre, plusieurs répertoires sont devenus hybrides en intégrant à la fois unrépertoire et un moteur. Exemple: YahooLa recherche dinformation se fait donc plutôt parnavigation dans le classement (hiérarchies et répertoiresstructurés par des humains).On gagne en qualité ce qu’on perd en quantité ?Avec le phénomène «l’infobésité», les annuaires etcatalogues pourraient renaître...(curation)Exemple : http://www.mahalo.com/ 35
    36. 36. Répertoires et annuaires généralistes (quelques exemples) Purdue (OWL) Search & Directory list https://owl.english.purdue.edu/owl/resource/558/06/ Family Friendly Sites: http://familyfriendlysites.com/ World Site Index: http://www.worldsiteindex.com/ Greenstalk:http://www.greenstalk.com/ Open Directory Project (AOL): http://www.dmoz.org/ Links To Go: http://www.links2go.com/ Splash Directory: http://www.splashdirectory.com/ Global Web Links: http://www.global-weblinks.com/ Annuaires et répertoires spécialisés Jobboom:http://www.jobboom.com/ Passeport santé:http://www.passeportsante.net/ France Culture: http://www.culture.fr/fr/sections/Voir aussi:Les 25 répertoires les plus puissants sur la toilehttp://www.searchenginepeople.com/francais/liste-des-25-repertoires-les-plus-puissants-sur-la-toile 36
    37. 37. Internet Archive : un vrai trésor.http://archive.org/À la recherche de sites disparus... avec son Way Back Machine (+150 milliards de documents)http://www.archive.org/ 37
    38. 38. Moteurs de recherche :Il sagit de programmes informatiques permettant defaire des recherches dans les bases de données, conçues parles robots collecteurs.Dans Internet, les moteurs nous proposent leur informationgrâce à 3 fonctions ou étapes principales :1) Un robot collecteur : ( crawler, spider, bot)Il indexe le web automatiquement 24 heures par jouren "glanant" (en scannant) les informations dans le textevisible dun site (les premiers mots ou phrases) et dans letexte invisible (i.e. dans le code HTML, où on retrouve lesméta-étiquettes, entre autres).N.B. : Les meilleurs robots peuvent indexer plusieurs millions de pages par jour ( ilsprennent quelques semaines pour faire le tour du Web en entier). 38
    39. 39. Le robot visite chaque page (ou pages représentatives)dun site (qui veut bien être trouvé ou découvert !) et litles pages ainsi que les hyperliens offerts dans le but dedécouvrir les autres pages (ou fichiers).2) Un programme crée un index ou catalogue immense(base de données/statique) à partir des sites (fichiers)visités.3) Un autre programme (le service de requêtes) reçoitvotre requête, la compare à ses entrées de données(catalogue) et renvoie ses résultats.Cest dans la fenêtre de requête des moteurs quon tape lesinformations et quon interroge leurs bases de données.La recherche dinformation se fait donc par interrogation.Il existe des milliers de moteurs de recherche...Search Engine Colossus (par pays, par thèmes, etc.)http://www.searchenginecolossus.com/ 39
    40. 40. Principales techniques de rechercheIdentification du sujet :Contexte et objet de la recherche; délimitation de la recherche(langues, pays, etc.); genre de réponses désirées.Quelle est votre connaissance sémantique du sujet ou de la disciplinerecherchée ?Formulation du sujet :Quels mots ou expressions précisent ou traduisent le mieux lesconcepts de la recherche; choix de mots-clés et de termes àretenir; trouver des équivalences (synonymes, acronymes et motsen anglais ou dans une autre langue). 40
    41. 41. Recherche sur les termes exactesExemple concernant lexactitude des termes anglais sur Google...  Source: http://www.googleguide.com/interpreting_queries.html 41
    42. 42. La stratégie de recherche inclut la traduction de mots clés etleur regroupement en fonctions de règles syntaxiquespropres aux moteurs de recherche.On peut combiner des mots ou des termes dans le but detraduire la requête en une expression de recherche.Attention aux majuscules et minuscules sur certains moteursRequête saisie en minusculesToutes les occurrences seront recherchées : ibm trouve ibm, IBM ou IbmRequête saisie en majusculesIdem: IBM trouve IBM, ibm, Ibm ou IbMLettres accentuéesLoccurrence exacte est recherchée :électricité trouve électricité mais pas electricite ou electricité(HotBot)Requête saisie sans accentsToutes les occurrences sont recherchées :electricite trouve electricite, électricité ou electricité (pas toujours vrai sur certainsmoteurs) 42
    43. 43. Requête saisie sans accentsToutes les occurrences sont recherchées :electricite trouve electricite, électricité ou electricité (pas toujours vrai sur certainsmoteurs).Ordre des motsSur certains moteurs, la recherche (Paris Montréal) ne donne pas les mêmes résultats que larecherche (Montréal Paris) surtout pour le classement des résultats.Majuscules, minuscules et accents sur GoogleLes recherches Google ne tiennent pas compte de la « casse » des lettres (MAJUSCULES/minuscules).Quelle que soit la typographie utilisée, Google interprète toujours les lettres composant vostermes de recherche comme des minuscules.Par défaut, les recherches Google ne tiennent pas compte des accents ou autres signesdiacritiques (cédille, tilde espagnol, umlaut allemand, etc.).Ainsi les termes [FRANÇAIS] et [FRANCAIS] retrouvent les mêmes pages.Pour indiquer que ces deux termes ont une signification différente, utilisez-les l’un après l’autre.Google ne prend plus en compte le signe plus ( + ) devant un mot.Pour certains mots français dont la graphie est semblable à langlais (éléphant/elephant), il vaut mieux insérer les accents,SI on veut obtenir uniquement des documents en français. Par contre, pour les mots français dont la graphie na pas de correspondance en anglais, on favorisera un meilleur taux derappel (résultat) si le mot en question nest pas accentué, i.e. zebre ou lieu de zèbre. 43
    44. 44. Les 3 opérateurs "booléens"Nommés ainsi en lhonneur de Georges Boole (1815-1864) mathématicien etlogicien anglais, inventeur de la logique symbolique moderne et de lalgèbrebooléienne.1-(AND) (Principe dassociation)Représenté par le symbole + ou la saisie en majuscules AND.Sur Google, le + est implicite et on ne peut plus l’utiliser pour «forcer» la présence d’unmot. Il faut utiliser l’expression (champ) intext: ou la fonction Mot à mot (voir menudans la colonne de gauche de Google)Correspond à la conjonction ET en français.Exemple : la requête moteur de recherche en français force Google à trouver les pagesqui contiennent à la fois les mots moteur ET recherche ET français.+moteur +recherche +françaisDans certains cas, Google peut omettre certains mots de votre expression de recherche...Les articles, adjectifs indéfinis, préposition et/ou déterminants de toutes sortes (le, la, les, en, des, du,pour, et, ou etc..) sont ignorés. Les Américains appellent ces mots des "Stop Words" ou mots-vides. 44
    45. 45. 2-(OR/OU)(Principe de regroupement) Parfois représenté par le symbole ( | ) Correspond à la conjonction OU en français.Exemple : moteur OU recherche OU français force le moteur à trouver les pages quicontiennent lun ou lautre des mots, soit moteur, soit recherche, soit français ou les trois. Avec Google, lopérateur OU doit être saisi en MAJUSCULE obligatoirement. Source:http://support.google.com/websearch/bin/answer.py?hl=fr&answer=136861&topic=1221265&ctx=topic Le sigle | est rarement utilisé pour le OU mais fonctionne dans Google. 45
    46. 46. Dans les deux exemples suivants, le moteur tentera de trouver despages contenant au moins le premier de ces mots, les deuxpremiers ou les trois à la fois: blouse, shirt, chemise.Cliquez sur les expressions de recherche suivantes (si ça nefonctionne pas, réécrivez-les telles quelles dans Google…)[ blouse OU shirt OU chemise ][ blouse|shirt|chemise ]Remarque: avec lopérateur OR un espace doit précéder le motalors que le signe | ne nécessite aucun espace précédant le mot.Source: http://www.googleguide.com/or_operator.html 46
    47. 47. 3-(NOT/ANDNOT)(Principe dexclusion)Représenté par le symbole (-)Correspond à SAUF/Excepté en français.Exemple : moteur -voiture forcerait le moteur à trouver les pages quicontiennent le mot moteur mais SANS le mot voiture.Avec Google, lopérateur (-) doit être utilisé devant le mot à exclure (sans espace) etnon le NOT ou ANDNOTSi on veut trouver plus facilement une recette de "salsa", on risque davoir de meilleurs résultats avec:En anglais: [ salsa -dance] j’obtiens quand même des résultats reliés à la danse...En anglais: [ salsa salsa -dance ] La répétition du mot salsa semble avoir porté fruit...En français [ salsa -musique -danse -cours ]Avec la combinaison suivante, je devrais trouver en théorie des informations avec les mots moteuret hybride mais sans les mots voiture et automobile[-voiture -automobile moteur hybride]Différence avec lordre suivant ?[moteur hybride -voiture -automobile][moteur moteur hybride -voiture -automobile] et avec la répétition du mot moteur ?Combien de mots-clés peut-on utiliser dans une requête ?Jusquà 32 mots incluant les opérateurs mais pas les "stop-words", i.e. les articles, pronoms ou conjonctions, etc.: Exemple: le,du, des, quand, ou, où (mots-vides) 47
    48. 48. Lutilisation de parenthèses (Hotbot)Lorsquon utilise simultanément plusieurs opérateurs booléens pour raffiner une recherche, on peut utiliser les parenthèses. Exemples : salade (thon AND Crabe) -Cesar = Je veux avoir des informations sur des salades de thon, de crabe ou les deux, mais pas dinformations sur la salade césar Les parenthèses permettent aussi de coupler des requêtes : Exemple : (+moteur +voiture) -(+moteur +recherche) Seul Hotbot acceptait encore bien les parenthèses... 48
    49. 49. Les opérateurs de proximitéLadjacence (ADJ) ( base de données)Pour introduire une proximité nette entre les motsExemple :Relations ADJ Publiques. Dans Google «Relations Publiques» (ou fonction Mot à mot)Public ADJ RelationsN.B.: Très peu de moteurs acceptent ladjacence (ADJ) et les résultats sont peuconcluants dans Google avec cet opérateur...mais cela pourrait être utile ailleurs...La proximité (~) (base de données)Pour introduire une notion de proximité entre des mots mais pas aussi nette que l’ADJ.Les mots doivent être proches lun de lautre. Représenté par le sigle NEAR ou ONEARet aussi par le symbole ~Exemple :conception AND fabrication NEAR ordinateuroucomputer NEAR translation=computer ~translationIl sagit donc dune recherche sur la conception et la fabrication assistées parordinateur (CAO-FAO) et sur la traduction assistée par ordinateur (TAO). 49
    50. 50. Dans Google, on utilise le symbole ~ pour trouver un synonyme dumot quon fait précédé par ~.Exemple: [~portable]Exemple: [~portable téléphonie -ordinateur]Google trouve des informations similaires à quelques mots ou àtous les mots dune requête précédée du ~Le masque (?)Le masque sert à spécifier le nombre exact de caractères à rechercher (ou quand oncherche des mots différenciés que par un seul caractère)On représente le masque par le symbole ? (interrogation)wom?n(woman, women)français?? (française et françaises) 50
    51. 51. Les guillemetsPour trouver un groupe de mots ou une phrase exacte. Pour trouver une expression particulière... On utilisera les guillemets. Représenté par "_" Exemple:"moteur de recherche" recherche les trois mots les uns à côté des autres et dans cet ordre. "Histoire de la renaissance italienne" ou "Post-secondary education in the USA" N.B.: Les guillemets fonctionnent assez bien avec certains «autres» moteurs mais parfois Google demande de les retirer... 51
    52. 52. La troncature (base de données) Pour faire une recherche sur une partie dun mot.Utilisez la troncature pour obtenir de linformation à partir dun même radical (troncature à gauche) ou dun suffixe (troncature à droite).Représentée par le symbole * (astérisque) appelé aussi en anglais Wildcard Exemples: bio* peut chercher.. (biologie, biographie, biochimie, biotechnologie, biochemistry, biography, biology, etc.) *sexuel peut chercher… (transexuel, homosexuel, bisexuel) Notez bien que - dans Google - la troncature placée avant ou après un mot peut chercher aussi des termes généralement associés au mot en question (dans une requête plus complexe). Voir diapo #57 par exemple. 52
    53. 53. Avec Google on peut utiliser le * pour tenter de trouver un ou desmots manquants dans une phrase ou pour trouver des ressourcesdans lesquelles apparaissent des mots quon fait précéder dusigne *Exemple: [*google *ma *vie]Si vous nêtes pas certain du titre dun livre (ou d’une chanson)mais que vous en connaissez quelques mots, Google peut vousaider à retrouver le titre précis.Comment sintitulait déjà un des livres de J.K. Rowling?? ? ? [Harry Potter et les * de la mort] ? ? ?Source: http://www.googleguide.com/wildcard_operator.html 53
    54. 54. Les méta-données ou la recherche par zonespécifiqueIl est aussi très utile de connaître la spécificité des documentsInternet en utilisant les métadonnées ou les champs à inscrire dansla fenêtre de requête. On nomme aussi ces champs oumétadonnées recherche linguistique ou par zone.Exemples de métadonnées (champs par zones) les plus connues :Avec Google:title: ou intitle:Récupère les sites dont le titre spécifié apparaît dans une page.title:soleil trouve toutes les pages contenant le mot soleil dans le titre.N.B.: Parfois ce champ sécrit intitle: au lieu de title:url: ou inurl:Récupère selon combinaison (nom du serveur, répertoire, fichier)url:jardin récupère ou trouve toutes les pages de tous les serveurs ayant le mot jardin ànimporte quel endroit : nom de domaine (URL), répertoire daccès, nom de fichiers. 54
    55. 55. intext:Récupère des documents contenant un mot particulier.intext:impluvium trouve des documents contenant le mot impluvium.inlink:curation inlink:lapresse.caRecherche des documents qui contiennent le mot curation soit dans le site de www.lapresse.ca ou quinomme la presse ou y pointe un lien.site: et -site:Recherche à l’intérieur d’un site spécifiquegaz de schiste site:gouv.qc.ca trouve des documents contenant les mots gaz de schiste, maisseulement sur le site du gouvernement du QuébecL’expression -site: est particulièrement utile pour exclure spécifiquement un nom de domaine.gaz de schiste -site:gouv.qc.cagaz de schiste -url:gouv.qc.ca (-url fonctionne aussi bien) 55
    56. 56. Est-il possible de combiner une zone avec un opérateur ? OUI !Exemples :allinurl: www.honda.com +hybrid (mais on n’a plus besoin du + chez Google)On recherche des documents qui contiennent le mot hybridesur le site http://www.honda.com/intitle:education superieure frOn recherche des ressources dont le titre porte précisément sur léducation supérieureet on tient à ce que ces informations soient en français.filetype:pdf curation francais (cherche un document Pdf sur la curation en français)Peut on combiner deux zones ? NON ! OUI ! (voir prochaine diapo)inurl:garden intext:rosesLes opérateurs (anciens moteurs)http://searchengineshowdown.com/features/Boolean Logichttp://internettutorials.net/boolean.asp 56
    57. 57. Source:  How to use Google Search More effectively (Josh Catone) [Infog.]http://mashable.com/2011/11/24/google-search-infographic/ 57
    58. 58. OU ? Google decides that coots are really lions (Karen Blakeman) http://www.rba.co.uk/wordpress/2011/02/12/google-decides-that-coots-are-really-lions/ Update: http://www.rba.co.uk/wordpress/2011/02/21/update-on-coots-vs-lions/Source : Image du macrouleAuteur: Luc Viatour http://commons.wikimedia.org/wiki/User:Lviatourhttp://fr.wikipedia.org/wiki/Fichier:Fulica_atra_Luc_Viatour.jpgSource: Image du lionAuteur: James Temple http://www.flickr.com/photos/82932964@N00/312326732https://commons.wikimedia.org/wiki/File:Panthera_leo_Sabi_Sands.jpg#filehistory 58
    59. 59. Source: Advanced Web Searching (Karen Blakeman)http://fr.slideshare.net/KarenBlakeman/advanced-web-searching-ifeg-3rd-april-2012 59
    60. 60. Source: Advanced Web Searching (Karen Blakeman)http://fr.slideshare.net/KarenBlakeman/advanced-web-searching-ifeg-3rd-april-2012 60
    61. 61. Autres moteurs HotBot:http://www.hotbot.com/ AOL Search:http://search.aol.com/ Lycos: http://www.lycos.com/ Search Cube: http://www.search-cube.com/ Exalead:http://www.exalead.com/search/ Quixey: http://www.quixey.com/RéférenceSearch Engine Watchhttp://searchenginewatch.com/reports 61
    62. 62. http://www.bing.com/Introducing the New Bing: Spend Less Time Searching, More Time Doing http://www.bing.com/community/site_blogs/b/search/archive/2012/05/10/spend-less-time-searching-more-time-doing-introducing-the-new-bing.aspx Bing’s Advanced Search Operators: 8 Tips for Better Searcheshttp://www.howtogeek.com/106751/how-to-use-bings-advanced-search-operators-8-tips-for-better-searches/ 62
    63. 63. «I also don’t know which papers written by Scott Wilson were written by the Scott I know andwhich one’s were written by the Scott Wilson who is based at the University of British Columbia. Will the real Scott Wilson please stand up ! » Analyse du service Academic Search de Microsoft (Brian kelly)http://ukwebfocus.wordpress.com/2011/09/20/will-the-real-scott-wilson-please-stand-up-please-stand-up/ Academic Search de Microsoft http://academic.research.microsoft.com/ 63
    64. 64. http://www.ask.com/ 64
    65. 65. http://search.yahoo.com/ http://ca.yahoo.com/ 65
    66. 66. http://www.yandex.com/ 66
    67. 67. http://duckduckgo.com/Voir aussi: http://duckduckgo.com/goodies.htmlCe moteur a affiché une ressource que je ne retrouvais plus sur Google (avec mon nom comme requète...)Translating Tweetdeck: http://tweetdeck.posterous.com/translating-tweetdeck-the-next-five-languages 67
    68. 68. Search Team ( vers de la recherche web collaborative ?) http://searchteam.com/ 68
    69. 69. Recherche avancée de Flickr http://www.flickr.com/search/advanced/Voir aussihttp://www.morguefile.com/ 69
    70. 70. Méta-moteursMetaCrawler: http://www.metacrawler.com/Beaucoup: http://www.beaucoup.com/Surfwax:http://www.surfwax.com/Clusty: http://clusty.com/Mamma:http://www.mamma.com/Dogpile: http://www.dogpile.com/IceRocket: http://www.icerocket.com/Applications à téléchargerWebFerret:http://www.webferret.com/Copernic:http://www.copernic.com/Références: UC Berleleyhttp://www.lib.berkeley.edu/TeachingLib/Guides/Internet/MetaSearch.htmlRBS Search strategies (Karen Blakeman)http://www.rba.co.uk/search/index.shtml 70
    71. 71. Mais SURTOUT... Il faut lire les "modes demploi", les guides et les FAQ de chacun des moteurs et savoir comment utiliser lesfonctions de recherche raffinée telles le "Advanced Search", le "Power Search" et le "Related Search".Apprenez à lire (à interpréter) rapidement les informations (sites)que vous retournent les moteurs, notamment grâce aux titres, aux résumés, à ladresse web (nom de domaine)... 71
    72. 72. Autres ressources pour la rechercheGroupes de discussionhttp://groups.google.com/BlogPulsehttp://www.blogpulse.com/Technoratihttp://technorati.com/La recherche de périodiques électroniques par le biais du réseau des bibliothèques de lUniversité deMontréalPériodiques électroniques (UdeM)http://opurl.bib.umontreal.ca:9003/sfx_local/a-z/defaultLe portail de la Bibliothèque et Archives nationales du Québechttp://www.banq.qc.ca/Voir aussi Questia (Plus grande bibliothèque en ligne ?)http://www.questia.com/ 72
    73. 73. Ne pas oublier Twitter pour la recherche en temps réel ! http://search.twitter.comMais voir aussi OneRiot:http://www.oneriot.comReal-Time Search and your businesshttp://www.clickz.com/3636242 73
    74. 74. Utilisation des opérateurs pour plus de précision sur Twitter 74
    75. 75. Problèmes ??? Difficultés ??? Pas assez de résultats ? (silence) Trouver de nouveaux synonymes, acronymes ou termes plus conceptuels se rapprochant de votre recherche. Trop de résultats ? (bruit) Utiliser les opérateurs booléens et combiner certains mots; Utiliser des métadonnés (champs); Utiliser les fonctions de recherche raffinée des moteurs. 75
    76. 76. Évaluation et validation de linformation trouvée Quelques concepts importants: Fiabilité (auteur, expertise) Objectifs/Buts (éditorial, pour ou contre une cause?) Équilibre ( faits bruts, point de vue différent ?) Mise à jour (actualité, date de parution ?) Type de couverture (rapport complet, études, petit paragraphe ?) Les sources semblent bien documentées ? (liens fonctionnels, sites reconnus, etc.) Autres sources Web offrant lien vers le site en question ? Quel rang dans un moteur de recherche ? Équilibre ? (opinions, biais, pamphlet, autres points de vue ?) Types de référence offerts (Livre blanc, rapport, petit paragraphe ?) Pertinence (rapport statistique ou article) Réputation et crédibilité de la source (commanditaire ?) Reconnaissance professionnelle ou institutionnelle ? 76
    77. 77. Si cest écrit, cest vrai ? (Réseau UQuébec) http://youtu.be/lXwgv8kq6rA 77
    78. 78. Quelques références utiles.... UQAM/Bibliothèques http://www.bibliotheques.uqam.ca/InfoSphere/sciences/module7/evaluer.html Déterminer la fiabilité de l’information (Bibliothèques UdeM)http://guides.bib.umontreal.ca/disciplines/74-Determiner-la-fiabilite-de-l-information Robert Harris/Virtual Salt http://www.virtualsalt.com/evalu8it.htm Évaluation de l’information présente sur Internet (Université de Lyon) http://sapristi-docinsa.insa-lyon.fr/conseils-pour-chercher/evaluer-linformation 78
    79. 79. Le Web invisible ou profond...Quelques définitionsWeb Invisible: informations que les moteurs de recherche conventionnels ne peuventtrouver et répertorier.Web caché: synonyme de Web invisible.Web profond: terme utilisé d’abord par BrightPlanet qui le préfère à Web invisible. SelonBrightPlanet, les informations ne sont pas nécessairement invisibles mais plutôt cachées.Il sagit dapprendre comment les trouver !Web de surface: informations disponibles par le biais des moteurs et répertoires.La majorité des gens ne savent pas que plusieurs documents parmi les plus crédibles duWeb, c.-à-d. ceux qui font autorité, demeurent "invisibles" auprès des moteurs derecherche comme Google, Yahoo! ou Bing.La plupart de ces documents dits invisibles proviennent des bases de données desuniversités, bibliothèques, agences gouvernementales, associations, entreprises... partoutdans le monde !Références A+DeepWeb (Wikipedia):http://en.wikipedia.org/wiki/Deep_webInventeur du terme «DeepWeb» (Mike. K. Bergman)http://www.mkbergman.com/about-mike/The DeepWeb Internet Tutorialshttp://www.internettutorials.net/deepweb.asp 79
    80. 80. «99% des contenus du web profond demeurent accessibles dans le Web; cependant la plupart se trouve dans des bases de données que les moteurs n’indexent pas». (Steve Gruchawka)Références A+:Deep Web expliqué par osti.gov: http://www.youtube.com/watch?v=YskdGh8XU5IInvisible or Deep Web: What it is, How to find it, and Its inherent ambiguity (UC-Berkeley)http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.htmlVoir autre vidéo Deep Web: http://www.osti.gov/media/DeepWebVideoSource de l’image Iceberg: http://elibrary.icrisat.org/Google Search/Surface Web.htmSource du graphique: http://21cif.com/resources/materials/webinar/ 80
    81. 81. Web profond: exemples de sites contenant des bases de donnés qu’il faut interroger pour accéder aux informations.Références A+:Steve Gruchawka: http://techdeepweb.comSource de l’image: http://pipl.com/help/deep-web/ 81
    82. 82. Le Web profond, cest aussi...Pages discrètes: existantes mais non liées par des hyperliensBases de données accessibles à travers une requête ou formulairePages générées de façon dynamique (ASP, Cold Fusion);Il est plus facile (et aussi moins onéreux) de générer une réponse de façon dynamiquepar requête plutôt que dentreposer (archiver) toutes les pages possibles contenanttoutes les réponses possibles de toutes les questions possibles...Pages contenant des scripts (code avec un "?" par exemple)Par exemple, Google Scholar ne peut que pointer vers des citations de références depériodiques très spécialisés (revues savantes, etc.). Il ne peut aller directement vers uncontenu complet et protégé (mot de passe, abonnement payant, etc.) des bases dedonnées des grandes universités.Véritable Intranet (entre les murs dun immeuble, sans plus)Ex: Compagnies dassuranceIntranet/Extranet/ou wiki interne:Le wiki interne de la Faculté de léducation permanentehttps://intrawiki.umontreal.ca/Une recherche dans une bibliothèque virtuelle.(La requête disparaît lorsque la session se termine). 82
    83. 83. Pourquoi les moteurs nindexent pas tout le Web ?Les robots des moteurs sont surtout conçus pour chercher des pages en HTML(statiques) qui reposent dans un serveur.Depuis 2005-2006,plusieurs moteurs comme Google peuvent trouver des pagesdynamiques (avec un lien stable)...Un moteur ne peut pas "penser" ni taper du texte...(code utilisateur, mot de passe,autre texte, opérateurs propres au moteur de recherche interne).On entend souvent dire que les méthodes de recherche de base et leur technologiesnont pas évolué de manière vraiment significative depuis les débuts dInternet...On commence à entendre parler de "smart robots" qui pourraient indexés le Webprofond. C’est déjà commencé...Seuls des fichiers HTML, les fichiers musicaux ( MP3, midi, etc.) et certaines images (gif,jpg) accompagnés de texte sont indexés convenablement.Tout ce qui est en «flash» n’est pas indexé.... 83
    84. 84. Comment trouver des informations du Web profond ?Pensez toujours en fonctions des bases de donnéesBases de données:“Ensemble structuré déléments dinformation, généralement agencés sous forme de tables, dans lesquels lesdonnées sont organisées selon certains critères en vue de permettre leur exploitation”.Source: Grand dictionnaire http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8355656Mot clé à ajouter à votre requête: databaseCertains répertoires du Web permettent la recherche par mot clé ou par navigation àlintérieur de liens pointant vers des bases de données...Exemples (par où commencer):Infomine: http://infomine.ucr.eduInternet Public Library (IPL2): http://www.ipl.org Répertoire des bases de données gratuites disponibles dans Internethttp://dadi.univ-lyon1.fr/Libdex (Index des grandes bibliothèques du monde entier)http://www.libdex.com/ 84
    85. 85. 1e niveau de recherche: Accès à une base de données par le biais d’un moteur conventionnel. 2e niveau:interrogation profonde d’une base de données. Avec Google, par exemple, on peut trouver des bases de données en ajoutant comme mots clés le mot database: Exemples simples de requêtes de recherche: Accident Avion OR Plane +database (Avec Google) www.google.ca Languages database (Avec Google) database Toxic Products (Google) Autres mots clés à utiliser pour faire des recherches dans le Web profond, en plus des mots reliés à une industrie particulière: Portal Compliance IndexRéférences A+Research Beyond Google:http://oedb.org/library/college-basics/research-beyond-google 85
    86. 86. Web Profond/Recherche sémantiqueQuelques ressourcesList of Academic databases and search engineshttp://en.wikipedia.org/wiki/List_of_academic_databases_and_search_enginesHakia:http://www.hakia.comQuintura:http://www.quintura.comBiznar:http://biznar.com/biznar/Complete planet: http://www.completeplanet.comPipl:http://www.pipl.comDeepPeep:http://www.deeppeep.orgInternet Archive: http://www.archive.orgBeaucoup: http://www.beaucoup.comIncyWincy: http://www.incywincy.com/Deep Web Research 2010 (Marcus P. Zellman)http://www.llrx.com/features/deepweb2010.htmExploring a DeepWeb that Google can’t grasphttp://www.nytimes.com/2009/02/23/technology/internet/23search.html?_r=1&th&emc=thVoir aussi:Ressources d’images (web profond) http://www.readwriteweb.com/archives/digital_image_resources_on_the_deep_web.php 86
    87. 87. Exemples de base de donnés du Web profond (art, littérature, gouvernements, affaires, etc.) Musée du Louvre: http://www.louvre.fr/llv/oeuvres/bdd_oeuvre.jsp?bmLocale=fr_FR Musée Guggenheim: http://www.guggenheim.org/new-york/collections/collection-online Smithsonian Institution:http://www.siris.si.edu Library of Congress:http://www.loc.gov/search/new/ Projet Gutenberg:http://www.gutenberg.org/wiki/Main_Page US Consumer Product Safety Commission:http://www.cpsc.gov/cpscpub/prerel/ prerel.html American Association of Advertising Agencies: http://www.aaaa.org/eweb/ dynamicpage.aspx?webcode=findagency Hoovers: http://www.hoovers.com Documents de la CIA (Accès information/FOI): http://www.foia.cia.gov FreeLunch:http://www.economy.com/freelunch/default.asp FlightWise:http://flightwise.com/default.aspxVoir aussi:99 Resources to Research and Mine the Invisible Webhttp://www.collegedegree.com/library/college-life/99-resources-to/ 87
    88. 88. Un wiki offrant une base de données (entre autres)http://www.alacrawiki.com/ 88
    89. 89. Lambiguïté du Web invisible...   Selon les spécialistes en sciences de linformation de Berkeley, on ne peut toujours savoir ou prévoir quels types de sites ( ou portions de sites) font partie du Web invisible. Voici quelques facteurs :   Quels sites offrent le contenu de leur base de données en pages statiques (visible, hybride, invisible). Politique dinclusion ou dexclusion des moteurs de recherche. Autres exemples de sites dits invisibles NASA Image Exchange http://nix.nasa.gov/ JSTOR project http://www.jstor.org Right-to-Know Network http://www.rtk.net/ National Climatic Data Center http://www.ncdc.noaa.gov/oa/ncdc.html Voir aussi Search Engine Land http://searchengineland.com 89
    90. 90. Source: Advanced Web Searching (Karen Blakeman)http://fr.slideshare.net/KarenBlakeman/advanced-web-searching-ifeg-3rd-april-2012Voir aussi:Sanity Checking Google (The Disruptive Searcher)http://disruptivesearcher.wordpress.com/2012/02/27/sanity-checking-google/ 90
    91. 91. Une recherche efficace et exhaustive favorisera une approche moteur et une approche répertoire multiples.Il faut en effet passer à travers plusieurs outils de recherche. Évitez d’utiliser quun seul outil de recherche. Bonne recherche ! 91
    92. 92. Merci de votre attentionPatrice Lerouxpatrice.leroux@umontreal.cahttp://twitter.com/patricelerouxhttp://patriceleroux.blogspot.com/ 92
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×