SlideShare a Scribd company logo
1 of 59
REP2400
Internet et relations publiques
La recherche
Quelques mythes
On trouve tout dans Internet
C'est facile de chercher et de trouver
Les sources sont fiables et à jour...
LES RECHERCHES DANS INTERNET PEUVENT SE FAIRE À PARTIR
DES RESSOURCES SUIVANTES, ENTRE AUTRES :
Annuaires (catologues/répertoires) et moteurs de recherche
Les Newgroups (groupes de discussion)
Les blogues
Certains réseaux sociaux ouverts (ou par compte Google)
Sites de signets sociaux
Twitter (temps réel)
Le Web profond
Source: Top-20 US sites & engines (Hitwise)
http://www.hitwise.com/us/datacenter/main/dashboard-10133.html
La recherche dans Internet (WWW)
Comment les données sont-elles cataloguées et indexées ?
Quelques outils de recherche disponibles.
Les techniques à utiliser.
Catalogues, annuaires et répertoires:
Les informations sont constituées, organisées en catégories
et même filtrées par des personnes. Pensez aux "Pages
Jaunes" par exemple.
L'intervention humaine fait en sorte que l'information est
souvent moins à jour qu'avec les moteurs.
La recherche d'information se fait alors par navigation
dans le classement (hiérarchies et répertoires structurés).
On perd en quantité ce qu'on gagne en qualité...
Par contre, plusieurs répertoires sont de type hybride et intègrent à la fois un
répertoire et un moteur. Exemple: Yahoo
Répertoires et annuaires généralistes (quelques exemples)
Family Friendly Sites: http://familyfriendlysites.com/
World Site Index: http://www.worldsiteindex.com/
Greenstalk:http://www.greenstalk.com/
Open Directory Project (AOL): http://www.dmoz.org/World/Français/
Links To Go: http://www.links2go.com/
Splash Directory: http://www.splashdirectory.com/
Global Web Links: http://www.global-weblinks.com/
Annuaires et répertoires spécialisés
Jobboom:http://www.jobboom.com/
Passeport santé:http://www.passeportsante.net/
Branchez-vous (affaires): http://mesfinances.branchez-vous.com/
France Culture: http://www.culture.fr/fr/sections/
Références A+:
Les 25 répertoires les plus puissants sur la toile
http://www.searchenginepeople.com/francais/liste-des-25-repertoires-les-plus-puissants-sur-la-toile
Moteurs de recherche :
Il s'agit de programmes informatiques permettant de
faire des recherches dans les bases de données,
conçues par les robots collecteurs.
Dans Internet, les moteurs nous proposent leur
information grâce à 3 fonctions ou étapes principales :
1) Un robot collecteur : ( crawler, spider, bot)
Il indexe le web automatiquement 24 heures par jour
en "glanant" (en scannant) les informations dans le
texte visible d'un site (les premiers mots ou phrases)
et dans le texte invisible (i.e. dans le code HTML, où
on retrouve les méta-étiquettes).
N.B. : Les meilleurs robots peuvent indexer plus de 10 millions de pages par jour (
ils prennent quelques semaines pour faire le tour du Web en entier).
Le robot visite chaque page (ou pages représentatives)
d'un site (qui veut bien être trouvé ou découvert !) et lit
les pages ainsi que les hyperliens offerts dans le but de
découvrir les autres pages (ou fichiers).
2) Un programme crée un index ou catalogue immense
(base de données/statique) à partir des sites (fichiers)
visités.
3) Un autre programme (le service de requêtes) reçoit
votre requête, la compare à ses entrées de données
(catalogue) et renvoie ses résultats.
C'est dans la fenêtre de requête des moteurs qu'on tape les
informations et qu'on interroge leurs bases de données.
La recherche d'information se fait donc par interrogation.
Il existe des milliers de moteurs de recherche...
Search Engine Colossus ( par pays, par thèmes, etc.)
http://www.searchenginecolossus.com/
Google: un cas particulier
http://www.google.ca/
[...] «So what’s our straightforward definition of the ideal search engine?
Your best friend with instant access to all the world’s facts and a photographic
memory of everything you’ve seen and know. That search engine could tailor
answers to you based on your preferences, your existing knowledge and the
best available information; it could ask for clarification and present the answers
in whatever setting or media worked best.» [...]
Marissa Mayer, V-P, Recherche-Produits et expérience utilisateur (Google)
Source: http://googleblog.blogspot.com/2008/09/future-of-search.html
Références A+
Une pub de Google durant le SuperBowl de 2010 (une vidéo disponible depuis plusieurs mois...)
http://www.youtube.com/watch?v=nnsSUqgkDwU
Is Google Making Us Stupid ? (Nicholas Carr)
http://www.theatlantic.com/doc/200807/google
Traduction française :(Framablog)
http://www.framablog.org/index.php/post/2008/12/07/est-ce-que-google-nous-rend-idiot
Are we renting our collective intelligence to Google ? (Matteo Pasquinelli)
http://mastersofmedia.hum.uva.nl/2009/11/16/matteo-pasquinelli-are-we-renting-our-collective-intelligence-to-
google/
PageRank de Google
PageRank est un champion de la démocratie : il profite des innombrables liens du Web pour évaluer le contenu des pages Web -
- et leur pertinence vis-à-vis des requêtes exprimées. Le principe de PageRank est simple : tout lien pointant de la page A à la
page B est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au
nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens
présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages.
Source:http://www.google.ca/intl/fr/why_use.html
Plusieurs centaines de millions de requêtes par jour !
Des fonctions et services moins connus...
Le choix parmi 45 langues (2010):
http://www.google.ca/preferences?hl=fr
Google News/Actualités (+4500 sources médias dont 500 en français)
http://news.google.com/news?cf=all&ned=fr_ca&ict=ln
Alerte Google (monitoring de l'actualité)
http://www.google.ca/alerts
http://www.googlealert.com
Google Images
http://images.google.ca/
Google Scholar (anglais seulement)
http://scholar.google.com/
Google...suite
Google Blog Search
http://blogsearch.google.com/
La numérisation de tous les livres...
http://books.google.com/
Localisation de magasins pour les achats:(ancien Froogle)
http://www.google.com/products
Recherches dans un lieu géographique précis. (Google Maps)
http://local.google.com/
Recherches selon un domaine spécialisé (Special Searches) Gouv. US
http://www.google.com/options/specialsearches.html
Google Earth (Images satellites...)
http://earth.google.com/
Google Labs
http://www.googlelabs.com/
Google (vue d'ensemble des services et options)
http://www.google.com/help/features.html
Google en développement
http://labs.google.com/
Références A+:
Guide Google de Nancy Blachman
http://www.googleguide.com/
Centre d’aide de Google:http://www.google.com/support/
Pourquoi la vidéo domine la recherche ?
Pourquoi préfère-t-on passer plus de temps à regarder la TV qu’à lire la presse ? Nous sommes tout simplement
fainéants. C’est plus facile et surtout plus accessible de s’informer avec des images animées, qu’avec du texte
statique. (Laurent Maisonnave)
http://www.youtube.com/
YouTube 1er moteur de recherche devant Gooogle (Laurent Maisonnave)
http://zelaurent.com/video-news/youtube-1er-moteur-de-recherche-devant-google/
Tendances des recherches sur Google
http://www.google.com/insights/search/?hl=fr
http://www.google.com/trends
Google Goggles
Recherche visuelle/photographique
Il n’y a plus d’entrée de texte...
Application pour mobile
http://www.google.com/mobile/goggles/#text
Voir entrevue avec Marissa Mayer, V-P Google, produits de recherche et expérience-utilisateur (LeWeb/Paris/2009)
http://www.ustream.tv/recorded/2759667
Pour la musique, voir http://www.shazam.com/
http://fastflip.googlelabs.com/
Une tentative de compétition envers les agrégateurs de nouvelles ?
Voir: http://www.nytimes.com/2009/09/15/technology/internet/15google.html?_r=1&partner=rss&emc=rss
Recherche sociale de Google:
http://www.youtube.com/watch?v=aYf5iSA6t6g
Accéder aux recherches sociales de Google:
http://www.google.com/support/websearch/bin/answer.py?answer=165228
Explication vidéo de Matt Cutts: http://www.youtube.com/watch?v=BlpTjP6h6Ms
Voir aussi Social Search: http://www.socialsearch.com/
Voir aussi Vark: http://vark.com/
http://search.yahoo.com/
http://ca.yahoo.com/
http://www.bing.com/
Voir aussi Bing Operators
http://www.bing.com/community/blogs/search/archive/2005/06/24/432439.aspx
http://www.ask.com/
Autres moteurs
HotBot:http://www.hotbot.com/
Cuil:http://www.cuil.com/
AOL Search:http://search.aol.com/
Lycos: http://www.lycos.com/
Search Cube: http://www.search-cube.com/
Exalead:http://www.exalead.com/search/
Référence A+
Search Engine Watch
http://searchenginewatch.com/reports
Hitwise (Experian) data center
http://www.hitwise.com/us/resources/data-center
Une recherche efficace et exhaustive favorisera une
approche moteur et
une approche répertoire multiples.
Il faut en effet passer à travers plusieurs outils de
recherche.
Ne jamais utiliser qu'un seul outil de recherche.
Principales techniques de recherche
Identification du sujet :
Contexte et objet de la recherche; délimitation de la recherche
(langues, pays, etc.); genre de réponses désirées.
Quelle est votre connaissance sémantique du sujet ou de la discipline
recherchée ?
Formulation du sujet :
Quels mots ou expressions précisent ou traduisent le mieux les
concepts de la recherche; choix de mots-clés et de termes à
retenir; trouver des équivalences (synonymes, acronymes et mots
en anglais ou dans une autre langue).
Recherche sur les termes exactes
Exemple concernant l'exactitude des termes anglais sur Google...
Source: http://www.googleguide.com/interpreting_queries.html
La stratégie de recherche inclut la traduction de mots clés et
leur regroupement en fonctions de règles syntaxiques
propres aux moteurs de recherche.
On peut combiner des mots ou des termes dans le but de
traduire la requête en une expression de recherche.
Attention aux majuscules et minuscules sur certains moteurs
Requête saisie en minuscules
Toutes les occurrences seront recherchées : ibm trouve ibm, IBM ou Ibm
Requête saisie en majuscules
Idem: IBM trouve IBM, ibm, Ibm ou IbM
Lettres accentuées
L'occurrence exacte est recherchée :
électricité trouve électricité mais pas electricite ou electricité
(HotBot)
Requête saisie sans accents
Toutes les occurrences sont recherchées :
electricite trouve electricite, électricité ou electricité (pas toujours vrai sur certains
moteurs)
Requête saisie sans accents
Toutes les occurrences sont recherchées :
electricite trouve electricite, électricité ou electricité (pas toujours vrai sur certains
moteurs).
Ordre des mots
Sur certains moteurs, la recherche (Paris Montréal) ne donne pas les mêmes résultats que la
recherche (Monréal Paris) surtout pour le classement des résultats.
Majuscules, minuscules et accents sur Google
Les recherches Google ne tiennent pas compte de la « casse » des lettres
(MAJUSCULES/minuscules).
Quelle que soit la typographie utilisée, Google interprète toujours les lettres composant vos
termes de recherche comme des minuscules.
Par défaut, les recherches Google ne tiennent pas compte des accents ou autres signes
diacritiques (cédille, tilde espagnol, umlaut allemand, etc.).
Ainsi les termes [FRANÇAIS] et [FRANCAIS] retrouvent les mêmes pages.
Pour indiquer que ces deux termes ont une signification différente, utilisez un signe plus ( + ),
soit les termes de recherche [+FRANÇAIS] et [+FRANCAIS].
Pour certains mots français dont la graphie est semblable à l'anglais (éléphant/elephant), il vaut mieux insérer les accents,
SI on veut obtenir uniquement des documents en français.
Par contre, pour les mots français dont la graphie n'a pas de correspondance en anglais, on favorisera un meilleur taux de
rappel (résultat) si le mot en question n'est pas accentué, i.e. zebre ou lieu de zèbre.
Les 3 opérateurs "booléens"
Nommés ainsi en l'honneur de Georges Boole (1815-1864) mathématicien et
logicien anglais, inventeur de la logique symbolique moderne et de l'algèbre
booléienne.
1-(AND) (Principe d'association)
Souvent représenté par le symbole + et la saisie en majuscules
AND. Sur Google, par défaut. Le + est implicite.
Correspond à la conjonction ET en français.
Exemple : la requête moteur de recherche en français force
Google à trouver les pages qui contiennent à la fois les mots moteur
ET recherche ET français.
+moteur +recherche +français
Les articles, adjectifs indéfinis, préposition et/ou déterminants de toutes sortes (le, la, les,
en, des, du, pour, et, ou etc..) sont ignorés. Les Américains appellent ces mots des "Stop
Words" ou mots-vides.
2-(OR)(Principe de regroupement)
Parfois représenté par le symbole ( | )
Correspond à la conjonction OU en français.
Exemple : moteur OR recherche OR français force le moteur à
trouver les pages qui contiennent l'un ou l'autre des mots, soit
moteur, soit recherche, soit français ou les trois.
Avec Google, l'opérateur OR doit être saisi en MAJUSCULE
obligatoirement.
Le OR était l'opérateur par défaut de Gigablast
http://gigablast.com/
Le sigle | est rarement utilisé pour le OR mais fonctionne
dans Google.
Dans les deux exemples suivants, le moteur tentera de trouver des
pages contenant au moins le premier de ces mots, les deux
premiers ou les trois à la fois: blouse, shirt, chemise.
[ blouse OR shirt OR chemise ]
[ blouse|shirt|chemise ]
Remarque: avec l'opérateur OR un espace doit précéder le mot
alors que le signe | ne nécessite aucun espace précédant le mot.
Source: http://www.googleguide.com/or_operator.html
3-(NOT/ANDNOT)(Principe d'exclusion)
Représenté par le symbole (-)
Correspond à SAUF/Excepté en français.
Exemple : +moteur -voiture force le moteur à trouver les pages
qui contiennent le mot moteur mais SANS le mot voiture.
Avec Google, l'opérateur (-) doit être utilisé devant le mot à exclure (sans
espace) et non le NOT ou ANDNOT
Si on veut trouver plus facilement une recette de "salsa", on risque d'avoir de meilleurs résultats
avec:
En anglais: [ salsa –dance –class ]
En français [ salsa -musique -danse -cours ]
Avec la combinaison suivante, je devrais trouver en théorie des informations avec les mots
moteur et hybride mais sans les mots voiture et automobile
[-voiture -automobile moteur hybride]
Différence avec l'ordre suivant ?
[moteur hybride -voiture -automobile]
Combien de mots-clés peut-on utiliser dans une requête ?
Jusqu'à 32 mots incluant les opérateurs mais pas les "stop-words", i.e. les articles, pronoms ou conjonctions, etc.:
Exemple: le, du, des, quand, ou, où ( mots-vides)
L'utilisation de parenthèses
Lorsqu'on utilise simultanément plusieurs opérateurs booléens pour raffiner une
recherche, on peut utiliser les parenthèses.
Exemples :
salade (thon AND Crabe) -Cesar
=
Je veux avoir des informations sur des salades de thon, de crabe ou les deux,
mais pas d'informations sur la salade césar
Les parenthèses permettent aussi de coupler des requêtes :
Exemple :
(+moteur +voiture) -(+moteur +recherche)
Seul Hotbot accepte encore bien les parenthèses...
Les opérateurs de proximité
L'adjacence (ADJ) ( base de données)
Pour introduire une proximité nette entre les mots
Exemple :
Relations ADJ Publiques
Public ADJ Relations
N.B.: Très peu de moteurs acceptent l'adjacence (ADJ) et les résultats sont peu
concluants dans Google avec cet opérateur...mais cela pourrait être utile ailleurs...
La proximité (~) (base de données)
Pour introduire une notion de proximité entre des mots mais pas aussi nette que l’ADJ.
Les mots doivent être proches l'un de l'autre. Représenté par le sigle NEAR ou ONEAR
et aussi par le symbole ~
Exemple :
conception AND fabrication NEAR ordinateur
ou
computer NEAR translation
=
computer ~translation
Il s'agit donc d'une recherche sur la conception et la fabrication assistées par
ordinateur (CAO-FAO) et sur la traduction assistée par ordinateur (TAO).
Dans Google, on utilise le symbole ~ pour trouver un synonyme
du mot qu'on fait précédé par ~.
Exemple: [~portable]
Exemple: [~portable +téléphonie -ordinateur]
Google trouve des informations similaires à quelques mots ou à
tous les mots d'une requête précédée du ~
Le masque (?)
Le masque sert à spécifier le nombre exact de caractères à rechercher (ou quand on
cherche des mots différenciés que par un seul caractère)
On représente le masque par le symbole ? (interrogation)
wom?n
(woman, women)
français?? (française et françaises)
Les guillemets
Pour trouver un groupe de mots ou une phrase exacte.
Pour trouver une expression particulière...
On utilisera les guillemets.
Représenté par "_"
Exemple:
"moteur de recherche" recherche les trois mots les uns à
côté des autres et dans cet ordre.
"Histoire de la renaissance italienne"
ou
"Post-secondary education in the USA"
N.B.: Les guillemets fonctionnent assez bien avec certains «autres»
moteurs mais parfois Google demande de les retirer...
La troncature (base de donnés)
Pour faire une recherche sur une partie d'un mot
Utilisez la troncature pour obtenir de l'information à partir
d'un même radical (troncature à gauche) ou d'un suffixe
(troncature à droite).
Représentée par le symbole * (astérisque) appelé aussi en
anglais (Wildcard )
Exemples:
bio*
(biologie, biographie, biochimie, biotechnologie,
biochemistry, biography, biology, etc.)
*sexuel
(transexuel, homosexuel, bisexuel)
mot*
( moteur, moteurs, motard, motards, motorisé, motte,
motrice, etc.)
Avec Google on utilise le * pour tenter de trouver un ou des mots
manquants dans une phrase ou pour trouver des ressources dans
lesquelles apparaissent des mots qu'on fait précéder du signe *
Exemple: [*google *ma *vie]
Si vous n'êtes pas certain du titre d'un livre (ou d’une chanson)
mais que vous en connaissez quelques mots, Google peut vous
aider à retrouver le titre précis.
Comment s'intitulait déjà le célèbre livre de Dany Laferrière ?
? ? ? [ *faire *l'amour *nègre ] ? ? ?
Source: http://www.googleguide.com/wildcard_operator.html
Les méta-données ou la recherche par zone
spécifique
Il est aussi très utile de connaître la spécificité des documents
Internet en utilisant les métadonnées ou les champs à inscrire dans
la fenêtre de requête. On nomme aussi ces champs ou
métadonnées recherche linguistique ou par zone.
Exemples de métadonnées (champs par zones) les plus connues :
Avec Google, il faut faire précéder chacune par allin:
title: ou allintitle: ou allin
Récupère les sites dont le titre spécifié apparaît dans une page.
allin:soleil trouve toutes les pages contenant le mot soleil dans le titre.
N.B.: Parfois ce champ s'écrit intitle: ou lieu de title:
url: ou allinurl:
Récupère selon combinaison (nom du serveur, répertoire, fichier)
url:jardin récupère ou trouve toutes les pages de tous les serveurs ayant le mot jardin à
n'importe quel endroit : nom de domaine (URL), répertoire d'accès, nom de fichiers.
text: allintext:
Récupère les pages contenant un mot particulier
allintext:impluvium trouve les pages contenant le terme impluvium
like:
Récupère les pages semblables ou en rapport avec l'adresse
like:www.amazon.com récupère des sites vendant des livres semblables à
amazon.com
inlink:
Récupère les sites offrant un lien vers un site particulier
(référence)
inlink:www.cyberpresse.ca
On recherche des documents (sites web) qui contiennent un lien vers une page
de site dont l'adresse contient l'expression www.cyberpresse.ca
Est-il possible de combiner une zone avec un opérateur ? OUI !
Exemples :
allinurl: www.honda.com +hybrid
On recherche des documents qui contiennent le mot hybride
sur le site www.honda.ca/
allintitle:éducation supérieure +fr
On recherche des sites ou pages web dont le titre porte
précisément sur l'éducation supérieure et on tient à ce
que ces informations proviennent de sites hébergés sur des
serveurs de France.
Peut on combiner deux zones ? NON !
allinurl:garden allintext:css
Référence A+:
Les opérateurs (anciens moteurs)
http://searchengineshowdown.com/features/
Boolean Logic
http://internettutorials.net/boolean.asp
Il faut développer le réflexe d’utiliser les fonctions de recherche avancée...
http://www.google.ca/advanced_search?hl=fr
Méta-moteurs
MetaCrawler: http://www.metacrawler.com/
Beaucoup: http://www.beaucoup.com/
Surfwax:http://www.surfwax.com/
Clusty: http://clusty.com/
Mamma:http://www.mamma.com/
Dogpile: http://www.dogpile.com/
IceRocket: http://www.icerocket.com/
Applications à télécharger
WebFerret:http://www.webferret.com/
Copernic:http://www.copernic.com/
Référence A+: UC Berleley
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/MetaSearch.html
Mais SURTOUT...
Il faut lire les "modes d'emploi", les guides et les FAQ de
chacun des moteurs et savoir comment utiliser les
fonctions de recherche raffinée telles le "Advanced Search",
le "Power Search" et le "Related Search".
Apprenez à lire (à interpréter) rapidement les informations (sites)
que vous retournent les moteurs, notamment grâce aux titres, aux
résumés, à l'adresse web (nom de domaine)...
Autres ressources pour la recherche
Groupes de discussion
http://groups.google.com/
Recherche de blogues de Google
http://blogsearch.google.fr/blogsearch/advanced_blog_search
BlogPulse
http://www.blogpulse.com/
Technorati
http://technorati.com/
La recherche de périodiques électroniques par le biais du réseau des bibliothèques de l'Université de
Montréal
Entente entre Eureka.cc et biblio branchée
http://www.bib.umontreal.ca/SB/PEL/
Le portail de la Bibliothèque et Archives nationales du Québec
http://www.banq.qc.ca/
Voir aussi Questia (Plus grande bibliothèque en ligne ?)
http://www.questia.com/
À la recherche de sites disparus... sur Internet Archive avec son Way Back Machine (+150 milliards de
documents)
http://www.archive.org/
Problèmes ??? Difficultés ???
Pas assez de résultats ? (silence)
Trouver de nouveaux synonymes, acronymes ou termes
plus conceptuels se rapprochant de votre recherche.
Trop de résultats ? (bruit)
Utiliser les opérateurs booléens et combiner certains
mots;
Utiliser des métadonnés (champs);
Utiliser les fonctions de recherche raffinée des moteurs.
Évaluation et validation de l'information trouvée
Quelques concepts importants:
Fiabilité (auteur, expertise)
Objectifs/Buts (éditorial, pour ou contre une cause?)
Équilibre ( faits bruts, point de vue différent ?)
Mise à jour (actualité, date de parution ?)
Type de couverture (rapport complet, études, petit paragraphe ?)
Les sources semblent bien documentées ?
(liens fonctionnels, sites reconnus, etc.)
Autres sources Web offrant lien vers le site en question ?
Quel rang dans un moteur de recherche ?
Équilibre ? (opinions, biais, pamphlet, autres points de vue ?)
Types de référence offerts (Livre blanc, rapport, petit paragraphe ?)
Pertinence (rapport statistique ou article)
Réputation et crédibilité de la source (commanditaire ?)
Reconnaissance professionnelle ou institutionnelle ?
Quelques références utiles....
UQAM/Bibliothèques
http://www.bibliotheques.uqam.ca/InfoSphere/sciences/module7/evaluer.html
Critères d'analyse du web de l'Université Laval
http://www.fl.ulaval.ca/icarish/guide/module_3/criteres/m3_crit_intro.html
Robert Harris/Virtual Salt
http://www.virtualsalt.com/evalu8it.htm
Ne pas oublier Twitter pour la recherche en temps réel
http://search.twitter.com/
Mais voir aussi OneRiot:
http://www.oneriot.com/
Référence A+:
Real-Time Search and your business
http://www.clickz.com/3636242
Le Web invisible ou profond...
Quelques définitions
Web Invisible: informations que les moteurs de recherche conventionnels ne peuvent
trouver et répertorier.
Web caché: synonyme de Web invisible.
Web profond: terme utilisé d’abord par BrightPlanet qui le préfère à Web invisible. Selon
BrightPlanet, les informations ne sont pas nécessairement invisibles mais plutôt cachées.
Il s'agit d'apprendre comment les trouver !
Web de surface: informations disponibles par le biais des moteurs et répertoires.
La majorité des gens ne savent pas que plusieurs documents parmi les plus crédibles du
Web, c.-à-d. ceux qui font autorité, demeurent "invisibles" auprès des moteurs de
recherche comme Google, Yahoo! ou Bing.
La plupart de ces documents dits invisibles proviennent des bases de données des
universités, bibliothèques, agences gouvernementales, associations, entreprises... partout
dans le monde !
Références A+
DeepWeb (Wikipedia):
http://en.wikipedia.org/wiki/Deep_web
Inventeur du terme «DeepWeb» (Mike. K. Bergman)
http://www.mkbergman.com/about-mike/
The DeepWeb Internet Tutorials
http://www.internettutorials.net/deepweb.asp
99% des contenus du web profond demeurent accessibles dans le Web; cependant la plupart se
trouve dans des bases de données que les moteurs n’indexent pas. (Steve Gruchawka)
Références A+:
Deep Web expliqué par osti.gov: http://www.youtube.com/watch?v=YskdGh8XU5I
Invisible or Deep Web: What it is, How to find it, and Its inherent ambiguity (UC-Berkeley)
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html
Voir autre vidéo Deep Web: http://www.osti.gov/media/DeepWebVideo
Source de l’image Iceberg: http://elibrary.icrisat.org/Google%20Search/Surface%20Web.htm
Source du graphique: http://21cif.com/resources/materials/webinar/
Web profond: exemples de sites contenant des bases de donnés qu’il faut
interroger pour accéder aux informations.
Références A+:
Steve Gruchawka: http://techdeepweb.com/
Source de l’image: http://pipl.com/help/deep-web/
Le Web profond, c'est aussi...
Pages discrètes: existantes mais non liées par des hyperliens
Bases de données accessibles à travers une requête ou formulaire
Pages générées de façon dynamique (ASP, Cold Fusion);
Il est plus facile (et aussi moins onéreux) de générer une réponse de façon dynamique
par requête plutôt que d'entreposer (archiver) toutes les pages possibles contenant
toutes les réponses possibles de toutes les questions possibles...
Pages contenant des scripts (code avec un "?" par exemple)
Par exemple, Google Scholar ne peut que pointer vers des citations de références de
périodiques très spécialisés (revues savantes, etc.). Il ne peut aller directement vers un
contenu complet et protégé (mot de passe, abonnement payant, etc.) des bases de
données des grandes universités.
Véritable Intranet (entre les murs d'un immeuble, sans plus)
Ex: Compagnies d'assurance
Intranet/Extranet:
L'Intranet de la Faculté de l'éducation permanente
http://ocean.sim.umontreal.ca/fep/
Une recherche dans une bibliothèque virtuelle.
(La requête disparaît lorsque la session se termine).
Pourquoi les moteurs n'indexent pas tout le Web ?
Les robots des moteurs sont surtout conçus pour chercher des pages en HTML
(statiques) qui reposent dans un serveur.
Depuis 2005-2006,plusieurs moteurs comme Google peuvent trouver des pages
dynamiques (avec un lien stable)...
Un moteur ne peut pas "penser" ni taper du texte...(code utilisateur, mot de passe,
autre texte, opérateurs propres au moteur de recherche interne).
On entend souvent dire que les méthodes de recherche de base et leur technologies
n'ont pas évolué de manière vraiment significative depuis les débuts d'Internet...
On commence à entendre parler de "smart robots" qui pourraient indexés le Web
profond. C’est déjà commencé...
Seuls des fichiers HTML, les fichiers musicaux ( MP3, midi, etc.) et les images (gif, jpg)
accompagnés de texte sont indexés convenablement.
Comment trouver des informations du Web profond ?
Pensez toujours en fonctions des bases de données
Bases de données:
“Ensemble structuré d'éléments d'information, généralement agencés sous forme de tables, dans lesquels les
données sont organisées selon certains critères en vue de permettre leur exploitation”.
Source: Grand dictionnaire http://www.granddictionnaire.com/btml/fra/r_motclef/index1024_1.asp
Mot clé à ajouter à votre requête: database
Certains répertoires du Web permettent la recherche par mot clé ou par navigation à
l'intérieur de liens pointant vers des bases de données...
Exemples (par où commencer):
Intute: http://www.intute.ac.uk/
Infomine: http://infomine.ucr.edu/
Internet Public Library (IPL2): http://www.ipl.org/
Répertoire des bases de données gratuites disponibles dans Internet
http://dadi.univ-lyon1.fr/
1e niveau de recherche:
Accès à une base de données par le biais d’un moteur conventionnel.
2e niveau:interrogation profonde d’une base de données.
Avec Google, par exemple, on peut trouver des bases de données en ajoutant comme mots clés le
mot database:
Exemples simples de requêtes de recherche:
Accident +Avion (plane) +database (Avec Google)
database plane accidents (Avec CUIL)
Languages +database (Avec Google)
Langues bases de données (Avec CUIL)
database +Toxic +Products (Google)
Toxic Products Database (avec CUIL/sans opérateurs)
Autres mots clés à utiliser pour faire des recherches dans le Web profond, en plus des mots reliés à une
industrie particulière:
Portal
Compliance
Index
Références A+
Research Beyond Google:
http://oedb.org/library/college-basics/research-beyond-google
Web Profond/Recherche sémantique
Quelques ressources et moteurs
Weitzenegger: http://www.weitzenegger.de/en/deepweb.html
Hakia:http://www.hakia.com/
Freebase: http://www.freebase.com/
Quintura:http://www.quintura.com/
Biznar:http://biznar.com/biznar/
Complete planet: http://www.completeplanet.com/
Pipl:http://www.pipl.com/
Kosmix: http://www.kosmix.com/
DeepPeep:http://www.deeppeep.org/
Turbo10:http://turbo10.com/
Internet Archive: http://www.archive.org/
Genius Find: http://www.geniusfind.com/
Beaucoup: http://www.beaucoup.com/
IncyWincy: http://www.incywincy.com/
Références A+
Deep Web Research 2010 (Marcus P. Zellman)
http://www.llrx.com/features/deepweb2010.htm
Exploring a DeepWeb that Google can’t grasp
http://www.nytimes.com/2009/02/23/technology/internet/23search.html?_r=1&th&emc=th
Voir aussi:Ressources d’images (web profond)
http://www.readwriteweb.com/archives/digital_image_resources_on_the_deep_web.php
Exemples de base de donnés du Web profond
(art, littérature, gouvernements, affaires, etc.)
Musée du Louvre: http://www.louvre.fr/llv/oeuvres/bdd_oeuvre.jsp?bmLocale=fr_FR
Musée Guggenheim: http://www.guggenheim.org/new-york/collections/collection-online
Smithsonian Institution:http://www.siris.si.edu/
Library of Congress:http://www.loc.gov/search/new/
Projet Gutenberg:http://www.gutenberg.org/wiki/Main_Page
US Consumer Product Safety
Commission:http://www.cpsc.gov/cpscpub/prerel/prerel.html
American Association of Advertising Agencies:
http://www.aaaa.org/eweb/dynamicpage.aspx?webcode=findagency
Hoovers: http://www.hoovers.com/
Documents de la CIA (Accès information/FOI): http://www.foia.cia.gov/
FreeLunch:http://www.economy.com/freelunch/default.asp
FlightWise:http://flightwise.com/default.aspx
Références A+:
99 Resources to Research and Mine the Invisible Web
http://www.collegedegree.com/library/college-life/99-resources-to/
L'ambiguïté du Web invisible...
Selon les spécialistes en sciences de l'information de Berkeley, on ne peut toujours savoir ou
prévoir quels types de sites ( ou portions de sites) font partie du Web invisible.
Voici quelques facteurs :
Quels sites offrent le contenu de leur base de données en pages statiques (visible, hybride,
invisible).
Politique d'inclusion ou d'exclusion des moteurs de recherche.
Autres exemples de sites dits invisibles
NASA Image Exchange
http://nix.nasa.gov/
JSTOR project
http://www.jstor.org/
Right-to-Know Network
http://www.rtk.net/
National Climatic Data Center
http://www.ncdc.noaa.gov/oa/ncdc.html
Voir aussi Search Engine Land
http://searchengineland.com/
Merci de votre attention
• Patrice Leroux
• patrice.leroux@umontreal.ca
• http://twitter.com/patriceleroux
• http://patriceleroux.blogspot.com/

More Related Content

What's hot

Outils Web 2.0 pour les militants et ONG
Outils Web 2.0 pour les militants et ONGOutils Web 2.0 pour les militants et ONG
Outils Web 2.0 pour les militants et ONGdiatribekarma
 
Twitter comme outil académique
Twitter comme outil académiqueTwitter comme outil académique
Twitter comme outil académiqueURFIST de Paris
 
Twitter : un outil de veille et de communication professionnelle (version 10/...
Twitter : un outil de veille et de communication professionnelle (version 10/...Twitter : un outil de veille et de communication professionnelle (version 10/...
Twitter : un outil de veille et de communication professionnelle (version 10/...URFIST de Paris
 
Cours referencement origine
Cours referencement origineCours referencement origine
Cours referencement origineRémi Bachelet
 
Les outils de recherche et veille sur le web
Les outils de recherche et veille sur le webLes outils de recherche et veille sur le web
Les outils de recherche et veille sur le webechangeurba
 
E-réputation,Nécéssité de gérer son image sur le web #wasexotweetup Numéro 5
E-réputation,Nécéssité de gérer son image sur le web #wasexotweetup Numéro 5E-réputation,Nécéssité de gérer son image sur le web #wasexotweetup Numéro 5
E-réputation,Nécéssité de gérer son image sur le web #wasexotweetup Numéro 5Stévy-Ferry WALLACE
 
Essai moreno-magaly.doc
Essai moreno-magaly.docEssai moreno-magaly.doc
Essai moreno-magaly.docMagaly Moreno
 
Mettre en place et optimiser une veille professionnelle
Mettre en place et optimiser une veille professionnelleMettre en place et optimiser une veille professionnelle
Mettre en place et optimiser une veille professionnelleDiane Le Hénaff
 
Du bon usage de google : la recherche d'information sur le Web
Du bon usage de google : la recherche d'information sur le WebDu bon usage de google : la recherche d'information sur le Web
Du bon usage de google : la recherche d'information sur le WebChristophe Charmetton
 
Présentation du Web Invisible
Présentation du Web InvisiblePrésentation du Web Invisible
Présentation du Web InvisibleIANTE Réunion
 
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique MesguichBnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique MesguichBibliolab
 
Web Search - Reflexions : Ch.1 "Réfléchir - Agir"
Web Search - Reflexions : Ch.1 "Réfléchir - Agir"Web Search - Reflexions : Ch.1 "Réfléchir - Agir"
Web Search - Reflexions : Ch.1 "Réfléchir - Agir"Thomas LEONETTI
 
Outils de recherche du web : approfondir Google
Outils de recherche du web : approfondir GoogleOutils de recherche du web : approfondir Google
Outils de recherche du web : approfondir GoogleURFIST de Rennes
 
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...URFIST de Paris
 
Recherche eveillée sur Internet : mode d'emploi - BFR Consultants
Recherche eveillée sur Internet : mode d'emploi - BFR ConsultantsRecherche eveillée sur Internet : mode d'emploi - BFR Consultants
Recherche eveillée sur Internet : mode d'emploi - BFR ConsultantsBéatrice Foenix-Riou
 

What's hot (20)

Outils Web 2.0 pour les militants et ONG
Outils Web 2.0 pour les militants et ONGOutils Web 2.0 pour les militants et ONG
Outils Web 2.0 pour les militants et ONG
 
Twitter comme outil académique
Twitter comme outil académiqueTwitter comme outil académique
Twitter comme outil académique
 
Cgo&co ujjef-210510
Cgo&co ujjef-210510 Cgo&co ujjef-210510
Cgo&co ujjef-210510
 
Twitter : un outil de veille et de communication professionnelle (version 10/...
Twitter : un outil de veille et de communication professionnelle (version 10/...Twitter : un outil de veille et de communication professionnelle (version 10/...
Twitter : un outil de veille et de communication professionnelle (version 10/...
 
Cours referencement origine
Cours referencement origineCours referencement origine
Cours referencement origine
 
Les outils de recherche et veille sur le web
Les outils de recherche et veille sur le webLes outils de recherche et veille sur le web
Les outils de recherche et veille sur le web
 
E-réputation,Nécéssité de gérer son image sur le web #wasexotweetup Numéro 5
E-réputation,Nécéssité de gérer son image sur le web #wasexotweetup Numéro 5E-réputation,Nécéssité de gérer son image sur le web #wasexotweetup Numéro 5
E-réputation,Nécéssité de gérer son image sur le web #wasexotweetup Numéro 5
 
Essai moreno-magaly.doc
Essai moreno-magaly.docEssai moreno-magaly.doc
Essai moreno-magaly.doc
 
Google
GoogleGoogle
Google
 
Mettre en place et optimiser une veille professionnelle
Mettre en place et optimiser une veille professionnelleMettre en place et optimiser une veille professionnelle
Mettre en place et optimiser une veille professionnelle
 
Du bon usage de google : la recherche d'information sur le Web
Du bon usage de google : la recherche d'information sur le WebDu bon usage de google : la recherche d'information sur le Web
Du bon usage de google : la recherche d'information sur le Web
 
Folkso
FolksoFolkso
Folkso
 
Erepday 2013-rich-snippets
Erepday 2013-rich-snippetsErepday 2013-rich-snippets
Erepday 2013-rich-snippets
 
Présentation du Web Invisible
Présentation du Web InvisiblePrésentation du Web Invisible
Présentation du Web Invisible
 
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique MesguichBnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
 
Web2.0urfist
Web2.0urfistWeb2.0urfist
Web2.0urfist
 
Web Search - Reflexions : Ch.1 "Réfléchir - Agir"
Web Search - Reflexions : Ch.1 "Réfléchir - Agir"Web Search - Reflexions : Ch.1 "Réfléchir - Agir"
Web Search - Reflexions : Ch.1 "Réfléchir - Agir"
 
Outils de recherche du web : approfondir Google
Outils de recherche du web : approfondir GoogleOutils de recherche du web : approfondir Google
Outils de recherche du web : approfondir Google
 
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
Atelier sur les logiciels et services Web gratuits pouvant être utiles en thè...
 
Recherche eveillée sur Internet : mode d'emploi - BFR Consultants
Recherche eveillée sur Internet : mode d'emploi - BFR ConsultantsRecherche eveillée sur Internet : mode d'emploi - BFR Consultants
Recherche eveillée sur Internet : mode d'emploi - BFR Consultants
 

Viewers also liked

Relations_medias_pour_MSullivan
Relations_medias_pour_MSullivanRelations_medias_pour_MSullivan
Relations_medias_pour_MSullivanPatrice Leroux
 
Relations avec les médias
Relations avec les médiasRelations avec les médias
Relations avec les médiasPatrice Leroux
 
Pesquisa AvançAda Na Internet 2009
Pesquisa AvançAda Na Internet 2009Pesquisa AvançAda Na Internet 2009
Pesquisa AvançAda Na Internet 2009Luis Vidigal
 
Logminingsurvey
LogminingsurveyLogminingsurvey
Logminingsurveydrewz lin
 
IBM Web Content Management - Melhores práticas
IBM Web Content Management - Melhores práticasIBM Web Content Management - Melhores práticas
IBM Web Content Management - Melhores práticasrodrigoareis
 
Introduction to Ext JS 4
Introduction to Ext JS 4Introduction to Ext JS 4
Introduction to Ext JS 4Stefan Gehrig
 
Curso de marketing em mídias sociais
Curso de marketing em mídias sociaisCurso de marketing em mídias sociais
Curso de marketing em mídias sociaisEdney Souza
 
JSF Testing - Tools und Technics
JSF Testing - Tools und TechnicsJSF Testing - Tools und Technics
JSF Testing - Tools und Technicsadesso AG
 
Attack_Simulation_and_Threat_Modeling
Attack_Simulation_and_Threat_ModelingAttack_Simulation_and_Threat_Modeling
Attack_Simulation_and_Threat_ModelingOluseyi Akindeinde
 

Viewers also liked (20)

Curation edp2500
Curation edp2500Curation edp2500
Curation edp2500
 
Intro rep2400 a12
Intro rep2400 a12Intro rep2400 a12
Intro rep2400 a12
 
Relations_medias_pour_MSullivan
Relations_medias_pour_MSullivanRelations_medias_pour_MSullivan
Relations_medias_pour_MSullivan
 
Intro1 REP2400
Intro1 REP2400 Intro1 REP2400
Intro1 REP2400
 
Twitter (2)
Twitter (2)Twitter (2)
Twitter (2)
 
Relations avec les médias
Relations avec les médiasRelations avec les médias
Relations avec les médias
 
Pesquisa AvançAda Na Internet 2009
Pesquisa AvançAda Na Internet 2009Pesquisa AvançAda Na Internet 2009
Pesquisa AvançAda Na Internet 2009
 
Logminingsurvey
LogminingsurveyLogminingsurvey
Logminingsurvey
 
IBM Web Content Management - Melhores práticas
IBM Web Content Management - Melhores práticasIBM Web Content Management - Melhores práticas
IBM Web Content Management - Melhores práticas
 
JSF2 and JSP
JSF2 and JSPJSF2 and JSP
JSF2 and JSP
 
Clase2
Clase2Clase2
Clase2
 
Introduction to Ext JS 4
Introduction to Ext JS 4Introduction to Ext JS 4
Introduction to Ext JS 4
 
Curso de marketing em mídias sociais
Curso de marketing em mídias sociaisCurso de marketing em mídias sociais
Curso de marketing em mídias sociais
 
Infolitigpart1
Infolitigpart1Infolitigpart1
Infolitigpart1
 
JSF Testing - Tools und Technics
JSF Testing - Tools und TechnicsJSF Testing - Tools und Technics
JSF Testing - Tools und Technics
 
Attack_Simulation_and_Threat_Modeling
Attack_Simulation_and_Threat_ModelingAttack_Simulation_and_Threat_Modeling
Attack_Simulation_and_Threat_Modeling
 
00 a linguagem html
00 a linguagem html00 a linguagem html
00 a linguagem html
 
document
documentdocument
document
 
Portfolio
PortfolioPortfolio
Portfolio
 
Daron Yöndem - ie8 Ebook Tr
Daron Yöndem - ie8 Ebook TrDaron Yöndem - ie8 Ebook Tr
Daron Yöndem - ie8 Ebook Tr
 

Similar to Recherche

Etat de l'art de la recherche en Ligne
Etat de l'art de la recherche en LigneEtat de l'art de la recherche en Ligne
Etat de l'art de la recherche en LigneGeliMeng
 
Etat De Lart De La Recherche En Ligne
Etat De Lart De La Recherche En LigneEtat De Lart De La Recherche En Ligne
Etat De Lart De La Recherche En Lignemenggeli
 
Cours Search Marketing - 1 Introduction - IAE Lille
Cours Search Marketing -  1 Introduction - IAE LilleCours Search Marketing -  1 Introduction - IAE Lille
Cours Search Marketing - 1 Introduction - IAE LilleRenaud JOLY
 
Référencement et analyse site internet doc de travail
Référencement et analyse site internet doc de travailRéférencement et analyse site internet doc de travail
Référencement et analyse site internet doc de travailSéverine Alix
 
Cours referencement origine
Cours referencement origineCours referencement origine
Cours referencement origineRémi Bachelet
 
Competitic Adoptez une stratégie de referencement naturel efficace - numeriqu...
Competitic Adoptez une stratégie de referencement naturel efficace - numeriqu...Competitic Adoptez une stratégie de referencement naturel efficace - numeriqu...
Competitic Adoptez une stratégie de referencement naturel efficace - numeriqu...COMPETITIC
 
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEOATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEOLaurent P. PRO
 
Rapport De Veille
Rapport De VeilleRapport De Veille
Rapport De VeilleTrochet
 
SEO principes - referencement seo - version 2010
SEO   principes - referencement seo - version 2010SEO   principes - referencement seo - version 2010
SEO principes - referencement seo - version 2010JCDomenget
 
Recherche d'infos sur Internet
Recherche d'infos sur InternetRecherche d'infos sur Internet
Recherche d'infos sur Internetmichelenorris
 
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"Olivier kra kouassi
 
Mieux chercher et mieux se positionner sur les moteurs de recherche
Mieux chercher et mieux se positionner sur les moteurs de rechercheMieux chercher et mieux se positionner sur les moteurs de recherche
Mieux chercher et mieux se positionner sur les moteurs de rechercheLaurent Hentz
 
Référencement et analyse de sites Internet
Référencement et analyse de sites InternetRéférencement et analyse de sites Internet
Référencement et analyse de sites InternetCEFAC
 
Utiliser Le MultiméDia Dans Un Projet Danimation
Utiliser Le MultiméDia Dans Un Projet DanimationUtiliser Le MultiméDia Dans Un Projet Danimation
Utiliser Le MultiméDia Dans Un Projet DanimationBibliothèques Brest
 
La recherche d\'information sur internet
La recherche d\'information sur internetLa recherche d\'information sur internet
La recherche d\'information sur internetalexartiste
 
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
Du seo d'hier au référencement de demain   un avenir plein de ressources (m...Du seo d'hier au référencement de demain   un avenir plein de ressources (m...
Du seo d'hier au référencement de demain un avenir plein de ressources (m...semrush_webinars
 

Similar to Recherche (20)

Tout trouver sur le web : les bonnes techniques de recherche !
Tout trouver sur le web : les bonnes techniques de recherche !Tout trouver sur le web : les bonnes techniques de recherche !
Tout trouver sur le web : les bonnes techniques de recherche !
 
Etat de l'art de la recherche en Ligne
Etat de l'art de la recherche en LigneEtat de l'art de la recherche en Ligne
Etat de l'art de la recherche en Ligne
 
Etat De Lart De La Recherche En Ligne
Etat De Lart De La Recherche En LigneEtat De Lart De La Recherche En Ligne
Etat De Lart De La Recherche En Ligne
 
Cours Search Marketing - 1 Introduction - IAE Lille
Cours Search Marketing -  1 Introduction - IAE LilleCours Search Marketing -  1 Introduction - IAE Lille
Cours Search Marketing - 1 Introduction - IAE Lille
 
Référencement et analyse site internet doc de travail
Référencement et analyse site internet doc de travailRéférencement et analyse site internet doc de travail
Référencement et analyse site internet doc de travail
 
Cours referencement origine
Cours referencement origineCours referencement origine
Cours referencement origine
 
Se faire connaitre sur le web
Se faire connaitre sur le webSe faire connaitre sur le web
Se faire connaitre sur le web
 
Competitic Adoptez une stratégie de referencement naturel efficace - numeriqu...
Competitic Adoptez une stratégie de referencement naturel efficace - numeriqu...Competitic Adoptez une stratégie de referencement naturel efficace - numeriqu...
Competitic Adoptez une stratégie de referencement naturel efficace - numeriqu...
 
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEOATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
ATELIER ANT N°8 - RÉFÉRENCEMENT NATUREL - SEO
 
Rapport De Veille
Rapport De VeilleRapport De Veille
Rapport De Veille
 
SEO principes - referencement seo - version 2010
SEO   principes - referencement seo - version 2010SEO   principes - referencement seo - version 2010
SEO principes - referencement seo - version 2010
 
Recherche d'infos sur Internet
Recherche d'infos sur InternetRecherche d'infos sur Internet
Recherche d'infos sur Internet
 
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"
 
Mieux chercher et mieux se positionner sur les moteurs de recherche
Mieux chercher et mieux se positionner sur les moteurs de rechercheMieux chercher et mieux se positionner sur les moteurs de recherche
Mieux chercher et mieux se positionner sur les moteurs de recherche
 
Référencement 2.0 et 3.0
Référencement 2.0 et 3.0Référencement 2.0 et 3.0
Référencement 2.0 et 3.0
 
Référencement et analyse de sites Internet
Référencement et analyse de sites InternetRéférencement et analyse de sites Internet
Référencement et analyse de sites Internet
 
E Reputation Lingway
E Reputation LingwayE Reputation Lingway
E Reputation Lingway
 
Utiliser Le MultiméDia Dans Un Projet Danimation
Utiliser Le MultiméDia Dans Un Projet DanimationUtiliser Le MultiméDia Dans Un Projet Danimation
Utiliser Le MultiméDia Dans Un Projet Danimation
 
La recherche d\'information sur internet
La recherche d\'information sur internetLa recherche d\'information sur internet
La recherche d\'information sur internet
 
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
Du seo d'hier au référencement de demain   un avenir plein de ressources (m...Du seo d'hier au référencement de demain   un avenir plein de ressources (m...
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
 

More from Patrice Leroux

Rep2400 plan cours_h2019_sl
Rep2400 plan cours_h2019_slRep2400 plan cours_h2019_sl
Rep2400 plan cours_h2019_slPatrice Leroux
 
Rep2400 lectures h2019
Rep2400 lectures h2019Rep2400 lectures h2019
Rep2400 lectures h2019Patrice Leroux
 
Rep2400 lectures h2017
Rep2400 lectures h2017Rep2400 lectures h2017
Rep2400 lectures h2017Patrice Leroux
 
Entrevue avec les médias (FESP)
Entrevue avec les médias (FESP)Entrevue avec les médias (FESP)
Entrevue avec les médias (FESP)Patrice Leroux
 
Rep2400 plan cours_h2016
Rep2400 plan cours_h2016Rep2400 plan cours_h2016
Rep2400 plan cours_h2016Patrice Leroux
 
Utilisation d'une communauté (dév. projet)
Utilisation d'une communauté (dév. projet)Utilisation d'une communauté (dév. projet)
Utilisation d'une communauté (dév. projet)Patrice Leroux
 
Reputation p leroux_bio_qc_2014
Reputation p leroux_bio_qc_2014Reputation p leroux_bio_qc_2014
Reputation p leroux_bio_qc_2014Patrice Leroux
 
Eréputation_PLeroux_TCTIC14
Eréputation_PLeroux_TCTIC14Eréputation_PLeroux_TCTIC14
Eréputation_PLeroux_TCTIC14Patrice Leroux
 
Vocabulaire des relations publiques (II)
Vocabulaire des relations publiques (II)Vocabulaire des relations publiques (II)
Vocabulaire des relations publiques (II)Patrice Leroux
 
Relations avec les médias
Relations avec les médiasRelations avec les médias
Relations avec les médiasPatrice Leroux
 
Responsabilité sociale 2013
Responsabilité sociale 2013Responsabilité sociale 2013
Responsabilité sociale 2013Patrice Leroux
 
Identites_Statuts_Pouvoir_(3)
Identites_Statuts_Pouvoir_(3)Identites_Statuts_Pouvoir_(3)
Identites_Statuts_Pouvoir_(3)Patrice Leroux
 
Relations avec les médias
Relations avec les médiasRelations avec les médias
Relations avec les médiasPatrice Leroux
 
Planification stratégique: médias sociaux
Planification stratégique: médias sociauxPlanification stratégique: médias sociaux
Planification stratégique: médias sociauxPatrice Leroux
 

More from Patrice Leroux (20)

Rep2400 plan cours_h2019_sl
Rep2400 plan cours_h2019_slRep2400 plan cours_h2019_sl
Rep2400 plan cours_h2019_sl
 
Rep2400 lectures h2019
Rep2400 lectures h2019Rep2400 lectures h2019
Rep2400 lectures h2019
 
Rep2400 lectures h2017
Rep2400 lectures h2017Rep2400 lectures h2017
Rep2400 lectures h2017
 
Rep2400 h17 ss
Rep2400 h17 ssRep2400 h17 ss
Rep2400 h17 ss
 
Entrevue avec les médias (FESP)
Entrevue avec les médias (FESP)Entrevue avec les médias (FESP)
Entrevue avec les médias (FESP)
 
Rep2400 plan cours_h2016
Rep2400 plan cours_h2016Rep2400 plan cours_h2016
Rep2400 plan cours_h2016
 
Utilisation d'une communauté (dév. projet)
Utilisation d'une communauté (dév. projet)Utilisation d'une communauté (dév. projet)
Utilisation d'une communauté (dév. projet)
 
Reputation p leroux_bio_qc_2014
Reputation p leroux_bio_qc_2014Reputation p leroux_bio_qc_2014
Reputation p leroux_bio_qc_2014
 
Eréputation_PLeroux_TCTIC14
Eréputation_PLeroux_TCTIC14Eréputation_PLeroux_TCTIC14
Eréputation_PLeroux_TCTIC14
 
Vocabulaire des relations publiques (II)
Vocabulaire des relations publiques (II)Vocabulaire des relations publiques (II)
Vocabulaire des relations publiques (II)
 
Relations avec les médias
Relations avec les médiasRelations avec les médias
Relations avec les médias
 
Responsabilité sociale 2013
Responsabilité sociale 2013Responsabilité sociale 2013
Responsabilité sociale 2013
 
Identites_Statuts_Pouvoir_(3)
Identites_Statuts_Pouvoir_(3)Identites_Statuts_Pouvoir_(3)
Identites_Statuts_Pouvoir_(3)
 
Gestion de crise_v4
Gestion de crise_v4Gestion de crise_v4
Gestion de crise_v4
 
Entreprise20 2013
Entreprise20 2013Entreprise20 2013
Entreprise20 2013
 
Relations avec les médias
Relations avec les médiasRelations avec les médias
Relations avec les médias
 
Monitoring 4
Monitoring 4Monitoring 4
Monitoring 4
 
Planification stratégique: médias sociaux
Planification stratégique: médias sociauxPlanification stratégique: médias sociaux
Planification stratégique: médias sociaux
 
Reseaux sociaux 2013
Reseaux sociaux 2013Reseaux sociaux 2013
Reseaux sociaux 2013
 
Twitter v5 2013
Twitter v5 2013Twitter v5 2013
Twitter v5 2013
 

Recherche

  • 1. REP2400 Internet et relations publiques La recherche
  • 2. Quelques mythes On trouve tout dans Internet C'est facile de chercher et de trouver Les sources sont fiables et à jour... LES RECHERCHES DANS INTERNET PEUVENT SE FAIRE À PARTIR DES RESSOURCES SUIVANTES, ENTRE AUTRES : Annuaires (catologues/répertoires) et moteurs de recherche Les Newgroups (groupes de discussion) Les blogues Certains réseaux sociaux ouverts (ou par compte Google) Sites de signets sociaux Twitter (temps réel) Le Web profond
  • 3. Source: Top-20 US sites & engines (Hitwise) http://www.hitwise.com/us/datacenter/main/dashboard-10133.html
  • 4. La recherche dans Internet (WWW) Comment les données sont-elles cataloguées et indexées ? Quelques outils de recherche disponibles. Les techniques à utiliser.
  • 5. Catalogues, annuaires et répertoires: Les informations sont constituées, organisées en catégories et même filtrées par des personnes. Pensez aux "Pages Jaunes" par exemple. L'intervention humaine fait en sorte que l'information est souvent moins à jour qu'avec les moteurs. La recherche d'information se fait alors par navigation dans le classement (hiérarchies et répertoires structurés). On perd en quantité ce qu'on gagne en qualité... Par contre, plusieurs répertoires sont de type hybride et intègrent à la fois un répertoire et un moteur. Exemple: Yahoo
  • 6. Répertoires et annuaires généralistes (quelques exemples) Family Friendly Sites: http://familyfriendlysites.com/ World Site Index: http://www.worldsiteindex.com/ Greenstalk:http://www.greenstalk.com/ Open Directory Project (AOL): http://www.dmoz.org/World/Français/ Links To Go: http://www.links2go.com/ Splash Directory: http://www.splashdirectory.com/ Global Web Links: http://www.global-weblinks.com/ Annuaires et répertoires spécialisés Jobboom:http://www.jobboom.com/ Passeport santé:http://www.passeportsante.net/ Branchez-vous (affaires): http://mesfinances.branchez-vous.com/ France Culture: http://www.culture.fr/fr/sections/ Références A+: Les 25 répertoires les plus puissants sur la toile http://www.searchenginepeople.com/francais/liste-des-25-repertoires-les-plus-puissants-sur-la-toile
  • 7. Moteurs de recherche : Il s'agit de programmes informatiques permettant de faire des recherches dans les bases de données, conçues par les robots collecteurs. Dans Internet, les moteurs nous proposent leur information grâce à 3 fonctions ou étapes principales : 1) Un robot collecteur : ( crawler, spider, bot) Il indexe le web automatiquement 24 heures par jour en "glanant" (en scannant) les informations dans le texte visible d'un site (les premiers mots ou phrases) et dans le texte invisible (i.e. dans le code HTML, où on retrouve les méta-étiquettes). N.B. : Les meilleurs robots peuvent indexer plus de 10 millions de pages par jour ( ils prennent quelques semaines pour faire le tour du Web en entier).
  • 8. Le robot visite chaque page (ou pages représentatives) d'un site (qui veut bien être trouvé ou découvert !) et lit les pages ainsi que les hyperliens offerts dans le but de découvrir les autres pages (ou fichiers). 2) Un programme crée un index ou catalogue immense (base de données/statique) à partir des sites (fichiers) visités. 3) Un autre programme (le service de requêtes) reçoit votre requête, la compare à ses entrées de données (catalogue) et renvoie ses résultats. C'est dans la fenêtre de requête des moteurs qu'on tape les informations et qu'on interroge leurs bases de données. La recherche d'information se fait donc par interrogation. Il existe des milliers de moteurs de recherche... Search Engine Colossus ( par pays, par thèmes, etc.) http://www.searchenginecolossus.com/
  • 9. Google: un cas particulier http://www.google.ca/
  • 10. [...] «So what’s our straightforward definition of the ideal search engine? Your best friend with instant access to all the world’s facts and a photographic memory of everything you’ve seen and know. That search engine could tailor answers to you based on your preferences, your existing knowledge and the best available information; it could ask for clarification and present the answers in whatever setting or media worked best.» [...] Marissa Mayer, V-P, Recherche-Produits et expérience utilisateur (Google) Source: http://googleblog.blogspot.com/2008/09/future-of-search.html Références A+ Une pub de Google durant le SuperBowl de 2010 (une vidéo disponible depuis plusieurs mois...) http://www.youtube.com/watch?v=nnsSUqgkDwU Is Google Making Us Stupid ? (Nicholas Carr) http://www.theatlantic.com/doc/200807/google Traduction française :(Framablog) http://www.framablog.org/index.php/post/2008/12/07/est-ce-que-google-nous-rend-idiot Are we renting our collective intelligence to Google ? (Matteo Pasquinelli) http://mastersofmedia.hum.uva.nl/2009/11/16/matteo-pasquinelli-are-we-renting-our-collective-intelligence-to- google/
  • 11. PageRank de Google PageRank est un champion de la démocratie : il profite des innombrables liens du Web pour évaluer le contenu des pages Web - - et leur pertinence vis-à-vis des requêtes exprimées. Le principe de PageRank est simple : tout lien pointant de la page A à la page B est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages. Source:http://www.google.ca/intl/fr/why_use.html Plusieurs centaines de millions de requêtes par jour ! Des fonctions et services moins connus... Le choix parmi 45 langues (2010): http://www.google.ca/preferences?hl=fr Google News/Actualités (+4500 sources médias dont 500 en français) http://news.google.com/news?cf=all&ned=fr_ca&ict=ln Alerte Google (monitoring de l'actualité) http://www.google.ca/alerts http://www.googlealert.com Google Images http://images.google.ca/ Google Scholar (anglais seulement) http://scholar.google.com/
  • 12. Google...suite Google Blog Search http://blogsearch.google.com/ La numérisation de tous les livres... http://books.google.com/ Localisation de magasins pour les achats:(ancien Froogle) http://www.google.com/products Recherches dans un lieu géographique précis. (Google Maps) http://local.google.com/ Recherches selon un domaine spécialisé (Special Searches) Gouv. US http://www.google.com/options/specialsearches.html Google Earth (Images satellites...) http://earth.google.com/ Google Labs http://www.googlelabs.com/ Google (vue d'ensemble des services et options) http://www.google.com/help/features.html Google en développement http://labs.google.com/ Références A+: Guide Google de Nancy Blachman http://www.googleguide.com/ Centre d’aide de Google:http://www.google.com/support/
  • 13. Pourquoi la vidéo domine la recherche ? Pourquoi préfère-t-on passer plus de temps à regarder la TV qu’à lire la presse ? Nous sommes tout simplement fainéants. C’est plus facile et surtout plus accessible de s’informer avec des images animées, qu’avec du texte statique. (Laurent Maisonnave) http://www.youtube.com/ YouTube 1er moteur de recherche devant Gooogle (Laurent Maisonnave) http://zelaurent.com/video-news/youtube-1er-moteur-de-recherche-devant-google/
  • 14. Tendances des recherches sur Google http://www.google.com/insights/search/?hl=fr
  • 16. Google Goggles Recherche visuelle/photographique Il n’y a plus d’entrée de texte... Application pour mobile http://www.google.com/mobile/goggles/#text Voir entrevue avec Marissa Mayer, V-P Google, produits de recherche et expérience-utilisateur (LeWeb/Paris/2009) http://www.ustream.tv/recorded/2759667 Pour la musique, voir http://www.shazam.com/
  • 17. http://fastflip.googlelabs.com/ Une tentative de compétition envers les agrégateurs de nouvelles ? Voir: http://www.nytimes.com/2009/09/15/technology/internet/15google.html?_r=1&partner=rss&emc=rss
  • 18. Recherche sociale de Google: http://www.youtube.com/watch?v=aYf5iSA6t6g Accéder aux recherches sociales de Google: http://www.google.com/support/websearch/bin/answer.py?answer=165228 Explication vidéo de Matt Cutts: http://www.youtube.com/watch?v=BlpTjP6h6Ms Voir aussi Social Search: http://www.socialsearch.com/ Voir aussi Vark: http://vark.com/
  • 20. http://www.bing.com/ Voir aussi Bing Operators http://www.bing.com/community/blogs/search/archive/2005/06/24/432439.aspx
  • 22. Autres moteurs HotBot:http://www.hotbot.com/ Cuil:http://www.cuil.com/ AOL Search:http://search.aol.com/ Lycos: http://www.lycos.com/ Search Cube: http://www.search-cube.com/ Exalead:http://www.exalead.com/search/ Référence A+ Search Engine Watch http://searchenginewatch.com/reports Hitwise (Experian) data center http://www.hitwise.com/us/resources/data-center
  • 23. Une recherche efficace et exhaustive favorisera une approche moteur et une approche répertoire multiples. Il faut en effet passer à travers plusieurs outils de recherche. Ne jamais utiliser qu'un seul outil de recherche.
  • 24. Principales techniques de recherche Identification du sujet : Contexte et objet de la recherche; délimitation de la recherche (langues, pays, etc.); genre de réponses désirées. Quelle est votre connaissance sémantique du sujet ou de la discipline recherchée ? Formulation du sujet : Quels mots ou expressions précisent ou traduisent le mieux les concepts de la recherche; choix de mots-clés et de termes à retenir; trouver des équivalences (synonymes, acronymes et mots en anglais ou dans une autre langue).
  • 25. Recherche sur les termes exactes Exemple concernant l'exactitude des termes anglais sur Google... Source: http://www.googleguide.com/interpreting_queries.html
  • 26. La stratégie de recherche inclut la traduction de mots clés et leur regroupement en fonctions de règles syntaxiques propres aux moteurs de recherche. On peut combiner des mots ou des termes dans le but de traduire la requête en une expression de recherche. Attention aux majuscules et minuscules sur certains moteurs Requête saisie en minuscules Toutes les occurrences seront recherchées : ibm trouve ibm, IBM ou Ibm Requête saisie en majuscules Idem: IBM trouve IBM, ibm, Ibm ou IbM Lettres accentuées L'occurrence exacte est recherchée : électricité trouve électricité mais pas electricite ou electricité (HotBot) Requête saisie sans accents Toutes les occurrences sont recherchées : electricite trouve electricite, électricité ou electricité (pas toujours vrai sur certains moteurs)
  • 27. Requête saisie sans accents Toutes les occurrences sont recherchées : electricite trouve electricite, électricité ou electricité (pas toujours vrai sur certains moteurs). Ordre des mots Sur certains moteurs, la recherche (Paris Montréal) ne donne pas les mêmes résultats que la recherche (Monréal Paris) surtout pour le classement des résultats. Majuscules, minuscules et accents sur Google Les recherches Google ne tiennent pas compte de la « casse » des lettres (MAJUSCULES/minuscules). Quelle que soit la typographie utilisée, Google interprète toujours les lettres composant vos termes de recherche comme des minuscules. Par défaut, les recherches Google ne tiennent pas compte des accents ou autres signes diacritiques (cédille, tilde espagnol, umlaut allemand, etc.). Ainsi les termes [FRANÇAIS] et [FRANCAIS] retrouvent les mêmes pages. Pour indiquer que ces deux termes ont une signification différente, utilisez un signe plus ( + ), soit les termes de recherche [+FRANÇAIS] et [+FRANCAIS]. Pour certains mots français dont la graphie est semblable à l'anglais (éléphant/elephant), il vaut mieux insérer les accents, SI on veut obtenir uniquement des documents en français. Par contre, pour les mots français dont la graphie n'a pas de correspondance en anglais, on favorisera un meilleur taux de rappel (résultat) si le mot en question n'est pas accentué, i.e. zebre ou lieu de zèbre.
  • 28. Les 3 opérateurs "booléens" Nommés ainsi en l'honneur de Georges Boole (1815-1864) mathématicien et logicien anglais, inventeur de la logique symbolique moderne et de l'algèbre booléienne. 1-(AND) (Principe d'association) Souvent représenté par le symbole + et la saisie en majuscules AND. Sur Google, par défaut. Le + est implicite. Correspond à la conjonction ET en français. Exemple : la requête moteur de recherche en français force Google à trouver les pages qui contiennent à la fois les mots moteur ET recherche ET français. +moteur +recherche +français Les articles, adjectifs indéfinis, préposition et/ou déterminants de toutes sortes (le, la, les, en, des, du, pour, et, ou etc..) sont ignorés. Les Américains appellent ces mots des "Stop Words" ou mots-vides.
  • 29. 2-(OR)(Principe de regroupement) Parfois représenté par le symbole ( | ) Correspond à la conjonction OU en français. Exemple : moteur OR recherche OR français force le moteur à trouver les pages qui contiennent l'un ou l'autre des mots, soit moteur, soit recherche, soit français ou les trois. Avec Google, l'opérateur OR doit être saisi en MAJUSCULE obligatoirement. Le OR était l'opérateur par défaut de Gigablast http://gigablast.com/ Le sigle | est rarement utilisé pour le OR mais fonctionne dans Google.
  • 30. Dans les deux exemples suivants, le moteur tentera de trouver des pages contenant au moins le premier de ces mots, les deux premiers ou les trois à la fois: blouse, shirt, chemise. [ blouse OR shirt OR chemise ] [ blouse|shirt|chemise ] Remarque: avec l'opérateur OR un espace doit précéder le mot alors que le signe | ne nécessite aucun espace précédant le mot. Source: http://www.googleguide.com/or_operator.html
  • 31. 3-(NOT/ANDNOT)(Principe d'exclusion) Représenté par le symbole (-) Correspond à SAUF/Excepté en français. Exemple : +moteur -voiture force le moteur à trouver les pages qui contiennent le mot moteur mais SANS le mot voiture. Avec Google, l'opérateur (-) doit être utilisé devant le mot à exclure (sans espace) et non le NOT ou ANDNOT Si on veut trouver plus facilement une recette de "salsa", on risque d'avoir de meilleurs résultats avec: En anglais: [ salsa –dance –class ] En français [ salsa -musique -danse -cours ] Avec la combinaison suivante, je devrais trouver en théorie des informations avec les mots moteur et hybride mais sans les mots voiture et automobile [-voiture -automobile moteur hybride] Différence avec l'ordre suivant ? [moteur hybride -voiture -automobile] Combien de mots-clés peut-on utiliser dans une requête ? Jusqu'à 32 mots incluant les opérateurs mais pas les "stop-words", i.e. les articles, pronoms ou conjonctions, etc.: Exemple: le, du, des, quand, ou, où ( mots-vides)
  • 32. L'utilisation de parenthèses Lorsqu'on utilise simultanément plusieurs opérateurs booléens pour raffiner une recherche, on peut utiliser les parenthèses. Exemples : salade (thon AND Crabe) -Cesar = Je veux avoir des informations sur des salades de thon, de crabe ou les deux, mais pas d'informations sur la salade césar Les parenthèses permettent aussi de coupler des requêtes : Exemple : (+moteur +voiture) -(+moteur +recherche) Seul Hotbot accepte encore bien les parenthèses...
  • 33. Les opérateurs de proximité L'adjacence (ADJ) ( base de données) Pour introduire une proximité nette entre les mots Exemple : Relations ADJ Publiques Public ADJ Relations N.B.: Très peu de moteurs acceptent l'adjacence (ADJ) et les résultats sont peu concluants dans Google avec cet opérateur...mais cela pourrait être utile ailleurs... La proximité (~) (base de données) Pour introduire une notion de proximité entre des mots mais pas aussi nette que l’ADJ. Les mots doivent être proches l'un de l'autre. Représenté par le sigle NEAR ou ONEAR et aussi par le symbole ~ Exemple : conception AND fabrication NEAR ordinateur ou computer NEAR translation = computer ~translation Il s'agit donc d'une recherche sur la conception et la fabrication assistées par ordinateur (CAO-FAO) et sur la traduction assistée par ordinateur (TAO).
  • 34. Dans Google, on utilise le symbole ~ pour trouver un synonyme du mot qu'on fait précédé par ~. Exemple: [~portable] Exemple: [~portable +téléphonie -ordinateur] Google trouve des informations similaires à quelques mots ou à tous les mots d'une requête précédée du ~ Le masque (?) Le masque sert à spécifier le nombre exact de caractères à rechercher (ou quand on cherche des mots différenciés que par un seul caractère) On représente le masque par le symbole ? (interrogation) wom?n (woman, women) français?? (française et françaises)
  • 35. Les guillemets Pour trouver un groupe de mots ou une phrase exacte. Pour trouver une expression particulière... On utilisera les guillemets. Représenté par "_" Exemple: "moteur de recherche" recherche les trois mots les uns à côté des autres et dans cet ordre. "Histoire de la renaissance italienne" ou "Post-secondary education in the USA" N.B.: Les guillemets fonctionnent assez bien avec certains «autres» moteurs mais parfois Google demande de les retirer...
  • 36. La troncature (base de donnés) Pour faire une recherche sur une partie d'un mot Utilisez la troncature pour obtenir de l'information à partir d'un même radical (troncature à gauche) ou d'un suffixe (troncature à droite). Représentée par le symbole * (astérisque) appelé aussi en anglais (Wildcard ) Exemples: bio* (biologie, biographie, biochimie, biotechnologie, biochemistry, biography, biology, etc.) *sexuel (transexuel, homosexuel, bisexuel) mot* ( moteur, moteurs, motard, motards, motorisé, motte, motrice, etc.)
  • 37. Avec Google on utilise le * pour tenter de trouver un ou des mots manquants dans une phrase ou pour trouver des ressources dans lesquelles apparaissent des mots qu'on fait précéder du signe * Exemple: [*google *ma *vie] Si vous n'êtes pas certain du titre d'un livre (ou d’une chanson) mais que vous en connaissez quelques mots, Google peut vous aider à retrouver le titre précis. Comment s'intitulait déjà le célèbre livre de Dany Laferrière ? ? ? ? [ *faire *l'amour *nègre ] ? ? ? Source: http://www.googleguide.com/wildcard_operator.html
  • 38. Les méta-données ou la recherche par zone spécifique Il est aussi très utile de connaître la spécificité des documents Internet en utilisant les métadonnées ou les champs à inscrire dans la fenêtre de requête. On nomme aussi ces champs ou métadonnées recherche linguistique ou par zone. Exemples de métadonnées (champs par zones) les plus connues : Avec Google, il faut faire précéder chacune par allin: title: ou allintitle: ou allin Récupère les sites dont le titre spécifié apparaît dans une page. allin:soleil trouve toutes les pages contenant le mot soleil dans le titre. N.B.: Parfois ce champ s'écrit intitle: ou lieu de title: url: ou allinurl: Récupère selon combinaison (nom du serveur, répertoire, fichier) url:jardin récupère ou trouve toutes les pages de tous les serveurs ayant le mot jardin à n'importe quel endroit : nom de domaine (URL), répertoire d'accès, nom de fichiers.
  • 39. text: allintext: Récupère les pages contenant un mot particulier allintext:impluvium trouve les pages contenant le terme impluvium like: Récupère les pages semblables ou en rapport avec l'adresse like:www.amazon.com récupère des sites vendant des livres semblables à amazon.com inlink: Récupère les sites offrant un lien vers un site particulier (référence) inlink:www.cyberpresse.ca On recherche des documents (sites web) qui contiennent un lien vers une page de site dont l'adresse contient l'expression www.cyberpresse.ca
  • 40. Est-il possible de combiner une zone avec un opérateur ? OUI ! Exemples : allinurl: www.honda.com +hybrid On recherche des documents qui contiennent le mot hybride sur le site www.honda.ca/ allintitle:éducation supérieure +fr On recherche des sites ou pages web dont le titre porte précisément sur l'éducation supérieure et on tient à ce que ces informations proviennent de sites hébergés sur des serveurs de France. Peut on combiner deux zones ? NON ! allinurl:garden allintext:css Référence A+: Les opérateurs (anciens moteurs) http://searchengineshowdown.com/features/ Boolean Logic http://internettutorials.net/boolean.asp
  • 41. Il faut développer le réflexe d’utiliser les fonctions de recherche avancée... http://www.google.ca/advanced_search?hl=fr
  • 42. Méta-moteurs MetaCrawler: http://www.metacrawler.com/ Beaucoup: http://www.beaucoup.com/ Surfwax:http://www.surfwax.com/ Clusty: http://clusty.com/ Mamma:http://www.mamma.com/ Dogpile: http://www.dogpile.com/ IceRocket: http://www.icerocket.com/ Applications à télécharger WebFerret:http://www.webferret.com/ Copernic:http://www.copernic.com/ Référence A+: UC Berleley http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/MetaSearch.html
  • 43. Mais SURTOUT... Il faut lire les "modes d'emploi", les guides et les FAQ de chacun des moteurs et savoir comment utiliser les fonctions de recherche raffinée telles le "Advanced Search", le "Power Search" et le "Related Search". Apprenez à lire (à interpréter) rapidement les informations (sites) que vous retournent les moteurs, notamment grâce aux titres, aux résumés, à l'adresse web (nom de domaine)...
  • 44. Autres ressources pour la recherche Groupes de discussion http://groups.google.com/ Recherche de blogues de Google http://blogsearch.google.fr/blogsearch/advanced_blog_search BlogPulse http://www.blogpulse.com/ Technorati http://technorati.com/ La recherche de périodiques électroniques par le biais du réseau des bibliothèques de l'Université de Montréal Entente entre Eureka.cc et biblio branchée http://www.bib.umontreal.ca/SB/PEL/ Le portail de la Bibliothèque et Archives nationales du Québec http://www.banq.qc.ca/ Voir aussi Questia (Plus grande bibliothèque en ligne ?) http://www.questia.com/ À la recherche de sites disparus... sur Internet Archive avec son Way Back Machine (+150 milliards de documents) http://www.archive.org/
  • 45. Problèmes ??? Difficultés ??? Pas assez de résultats ? (silence) Trouver de nouveaux synonymes, acronymes ou termes plus conceptuels se rapprochant de votre recherche. Trop de résultats ? (bruit) Utiliser les opérateurs booléens et combiner certains mots; Utiliser des métadonnés (champs); Utiliser les fonctions de recherche raffinée des moteurs.
  • 46. Évaluation et validation de l'information trouvée Quelques concepts importants: Fiabilité (auteur, expertise) Objectifs/Buts (éditorial, pour ou contre une cause?) Équilibre ( faits bruts, point de vue différent ?) Mise à jour (actualité, date de parution ?) Type de couverture (rapport complet, études, petit paragraphe ?) Les sources semblent bien documentées ? (liens fonctionnels, sites reconnus, etc.) Autres sources Web offrant lien vers le site en question ? Quel rang dans un moteur de recherche ? Équilibre ? (opinions, biais, pamphlet, autres points de vue ?) Types de référence offerts (Livre blanc, rapport, petit paragraphe ?) Pertinence (rapport statistique ou article) Réputation et crédibilité de la source (commanditaire ?) Reconnaissance professionnelle ou institutionnelle ?
  • 47. Quelques références utiles.... UQAM/Bibliothèques http://www.bibliotheques.uqam.ca/InfoSphere/sciences/module7/evaluer.html Critères d'analyse du web de l'Université Laval http://www.fl.ulaval.ca/icarish/guide/module_3/criteres/m3_crit_intro.html Robert Harris/Virtual Salt http://www.virtualsalt.com/evalu8it.htm
  • 48. Ne pas oublier Twitter pour la recherche en temps réel http://search.twitter.com/ Mais voir aussi OneRiot: http://www.oneriot.com/ Référence A+: Real-Time Search and your business http://www.clickz.com/3636242
  • 49. Le Web invisible ou profond... Quelques définitions Web Invisible: informations que les moteurs de recherche conventionnels ne peuvent trouver et répertorier. Web caché: synonyme de Web invisible. Web profond: terme utilisé d’abord par BrightPlanet qui le préfère à Web invisible. Selon BrightPlanet, les informations ne sont pas nécessairement invisibles mais plutôt cachées. Il s'agit d'apprendre comment les trouver ! Web de surface: informations disponibles par le biais des moteurs et répertoires. La majorité des gens ne savent pas que plusieurs documents parmi les plus crédibles du Web, c.-à-d. ceux qui font autorité, demeurent "invisibles" auprès des moteurs de recherche comme Google, Yahoo! ou Bing. La plupart de ces documents dits invisibles proviennent des bases de données des universités, bibliothèques, agences gouvernementales, associations, entreprises... partout dans le monde ! Références A+ DeepWeb (Wikipedia): http://en.wikipedia.org/wiki/Deep_web Inventeur du terme «DeepWeb» (Mike. K. Bergman) http://www.mkbergman.com/about-mike/ The DeepWeb Internet Tutorials http://www.internettutorials.net/deepweb.asp
  • 50. 99% des contenus du web profond demeurent accessibles dans le Web; cependant la plupart se trouve dans des bases de données que les moteurs n’indexent pas. (Steve Gruchawka) Références A+: Deep Web expliqué par osti.gov: http://www.youtube.com/watch?v=YskdGh8XU5I Invisible or Deep Web: What it is, How to find it, and Its inherent ambiguity (UC-Berkeley) http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html Voir autre vidéo Deep Web: http://www.osti.gov/media/DeepWebVideo Source de l’image Iceberg: http://elibrary.icrisat.org/Google%20Search/Surface%20Web.htm Source du graphique: http://21cif.com/resources/materials/webinar/
  • 51. Web profond: exemples de sites contenant des bases de donnés qu’il faut interroger pour accéder aux informations. Références A+: Steve Gruchawka: http://techdeepweb.com/ Source de l’image: http://pipl.com/help/deep-web/
  • 52. Le Web profond, c'est aussi... Pages discrètes: existantes mais non liées par des hyperliens Bases de données accessibles à travers une requête ou formulaire Pages générées de façon dynamique (ASP, Cold Fusion); Il est plus facile (et aussi moins onéreux) de générer une réponse de façon dynamique par requête plutôt que d'entreposer (archiver) toutes les pages possibles contenant toutes les réponses possibles de toutes les questions possibles... Pages contenant des scripts (code avec un "?" par exemple) Par exemple, Google Scholar ne peut que pointer vers des citations de références de périodiques très spécialisés (revues savantes, etc.). Il ne peut aller directement vers un contenu complet et protégé (mot de passe, abonnement payant, etc.) des bases de données des grandes universités. Véritable Intranet (entre les murs d'un immeuble, sans plus) Ex: Compagnies d'assurance Intranet/Extranet: L'Intranet de la Faculté de l'éducation permanente http://ocean.sim.umontreal.ca/fep/ Une recherche dans une bibliothèque virtuelle. (La requête disparaît lorsque la session se termine).
  • 53. Pourquoi les moteurs n'indexent pas tout le Web ? Les robots des moteurs sont surtout conçus pour chercher des pages en HTML (statiques) qui reposent dans un serveur. Depuis 2005-2006,plusieurs moteurs comme Google peuvent trouver des pages dynamiques (avec un lien stable)... Un moteur ne peut pas "penser" ni taper du texte...(code utilisateur, mot de passe, autre texte, opérateurs propres au moteur de recherche interne). On entend souvent dire que les méthodes de recherche de base et leur technologies n'ont pas évolué de manière vraiment significative depuis les débuts d'Internet... On commence à entendre parler de "smart robots" qui pourraient indexés le Web profond. C’est déjà commencé... Seuls des fichiers HTML, les fichiers musicaux ( MP3, midi, etc.) et les images (gif, jpg) accompagnés de texte sont indexés convenablement.
  • 54. Comment trouver des informations du Web profond ? Pensez toujours en fonctions des bases de données Bases de données: “Ensemble structuré d'éléments d'information, généralement agencés sous forme de tables, dans lesquels les données sont organisées selon certains critères en vue de permettre leur exploitation”. Source: Grand dictionnaire http://www.granddictionnaire.com/btml/fra/r_motclef/index1024_1.asp Mot clé à ajouter à votre requête: database Certains répertoires du Web permettent la recherche par mot clé ou par navigation à l'intérieur de liens pointant vers des bases de données... Exemples (par où commencer): Intute: http://www.intute.ac.uk/ Infomine: http://infomine.ucr.edu/ Internet Public Library (IPL2): http://www.ipl.org/ Répertoire des bases de données gratuites disponibles dans Internet http://dadi.univ-lyon1.fr/
  • 55. 1e niveau de recherche: Accès à une base de données par le biais d’un moteur conventionnel. 2e niveau:interrogation profonde d’une base de données. Avec Google, par exemple, on peut trouver des bases de données en ajoutant comme mots clés le mot database: Exemples simples de requêtes de recherche: Accident +Avion (plane) +database (Avec Google) database plane accidents (Avec CUIL) Languages +database (Avec Google) Langues bases de données (Avec CUIL) database +Toxic +Products (Google) Toxic Products Database (avec CUIL/sans opérateurs) Autres mots clés à utiliser pour faire des recherches dans le Web profond, en plus des mots reliés à une industrie particulière: Portal Compliance Index Références A+ Research Beyond Google: http://oedb.org/library/college-basics/research-beyond-google
  • 56. Web Profond/Recherche sémantique Quelques ressources et moteurs Weitzenegger: http://www.weitzenegger.de/en/deepweb.html Hakia:http://www.hakia.com/ Freebase: http://www.freebase.com/ Quintura:http://www.quintura.com/ Biznar:http://biznar.com/biznar/ Complete planet: http://www.completeplanet.com/ Pipl:http://www.pipl.com/ Kosmix: http://www.kosmix.com/ DeepPeep:http://www.deeppeep.org/ Turbo10:http://turbo10.com/ Internet Archive: http://www.archive.org/ Genius Find: http://www.geniusfind.com/ Beaucoup: http://www.beaucoup.com/ IncyWincy: http://www.incywincy.com/ Références A+ Deep Web Research 2010 (Marcus P. Zellman) http://www.llrx.com/features/deepweb2010.htm Exploring a DeepWeb that Google can’t grasp http://www.nytimes.com/2009/02/23/technology/internet/23search.html?_r=1&th&emc=th Voir aussi:Ressources d’images (web profond) http://www.readwriteweb.com/archives/digital_image_resources_on_the_deep_web.php
  • 57. Exemples de base de donnés du Web profond (art, littérature, gouvernements, affaires, etc.) Musée du Louvre: http://www.louvre.fr/llv/oeuvres/bdd_oeuvre.jsp?bmLocale=fr_FR Musée Guggenheim: http://www.guggenheim.org/new-york/collections/collection-online Smithsonian Institution:http://www.siris.si.edu/ Library of Congress:http://www.loc.gov/search/new/ Projet Gutenberg:http://www.gutenberg.org/wiki/Main_Page US Consumer Product Safety Commission:http://www.cpsc.gov/cpscpub/prerel/prerel.html American Association of Advertising Agencies: http://www.aaaa.org/eweb/dynamicpage.aspx?webcode=findagency Hoovers: http://www.hoovers.com/ Documents de la CIA (Accès information/FOI): http://www.foia.cia.gov/ FreeLunch:http://www.economy.com/freelunch/default.asp FlightWise:http://flightwise.com/default.aspx Références A+: 99 Resources to Research and Mine the Invisible Web http://www.collegedegree.com/library/college-life/99-resources-to/
  • 58. L'ambiguïté du Web invisible... Selon les spécialistes en sciences de l'information de Berkeley, on ne peut toujours savoir ou prévoir quels types de sites ( ou portions de sites) font partie du Web invisible. Voici quelques facteurs : Quels sites offrent le contenu de leur base de données en pages statiques (visible, hybride, invisible). Politique d'inclusion ou d'exclusion des moteurs de recherche. Autres exemples de sites dits invisibles NASA Image Exchange http://nix.nasa.gov/ JSTOR project http://www.jstor.org/ Right-to-Know Network http://www.rtk.net/ National Climatic Data Center http://www.ncdc.noaa.gov/oa/ncdc.html Voir aussi Search Engine Land http://searchengineland.com/
  • 59. Merci de votre attention • Patrice Leroux • patrice.leroux@umontreal.ca • http://twitter.com/patriceleroux • http://patriceleroux.blogspot.com/