1. Le tuto des p'tits trucs de la Doc !
Le Web invisible
Françoise Grave
2. Un p'tit dessin, peut-être ?
Jean-Louis Zimmermann, source : Flickr, sous licence Creative
Commons
http://www.flickr.com/photos/jeanlouis_zimmermann/3870653226/
3. Une définition en langue française ?
La définition des Signets de la Bnf :
« Le web invisible cache la partie du Web correspondant à l'ensemble
des documents qui ne sont pas indexés par les moteurs de recherche
traditionnels ».
Grand dictionnaire terminologique ( office québecois de la langue
française) :
« Les ressources du Web invisible comprennent, entre autres, les sites
Web construits autour d'une base de données (interrogeables
uniquement avec un moteur de recherche interne), les pages
accessibles par un formulaire de recherche, les pages protégées par un
mot de passe, les pages interdites aux robots d'indexation, les pages
écrites dans des formats propriétaires, les Intranet et les Extranet ».
4. Web profond, Web caché, web invisible, deep Web
Comment accéder à ce Web des profondeurs ?
On peut télécharger des logiciels pour explorer ce Web abyssal.
C'est très pratique pour éviter d' être repéré par la police politique
lorsque l'on vit dans un état totalitaire.
Hélas, ce Web caché est très prisé des pervers en tout genre notamment
des pédophiles.
On évoque aussi le « Dark Web » refuge des opposants, libertaires et
criminels de tout poil.
On peut aussi utiliser des outils de recherche ou des moteurs
spécialisés.
Mias quel intérêt de fouiller le Web invisible ?
5. Web invisible ou Web profond : quelques chiffres
● D'après le site Savoirs CDI , le web caché, ou Web profond, ou
Web invisible, serait 300 à 550 fois plus important que le Web
visible.
● Pour le site Intelligence-center.com, le chiffre est de 260 fois le web
de surface.
● D'après Wikipédia, une étude de 2008 estimerait à 70 ou 75% les
pages non référencées par les moteurs classiques.
● D'après Benoit Dupont, directeur du centre international de
criminologie de l' université de Montréal, le web que l'on connaît
totaliserait 10%, 90% du Web appartiennent au « Deep web ».
Et ce serait possible d' être plus précis ?
Non, pas vraiment : le Web, représente des milliards de pages.
6. Web invisible ou Web profond : quelques chiffres
● D'après le site Savoirs CDI , le web caché, ou Web profond, ou
Web invisible, serait 300 à 550 fois plus important que le Web
visible.
● Pour le site Intelligence-center.com, le chiffre est de 260 fois le web
de surface.
● D'après Wikipédia, une étude de 2008 estimerait à 70 ou 75% les
pages non référencées par les moteurs classiques.
● D'après Benoit Dupont, directeur du centre international de
criminologie de l' université de Montréal, le web que l'on connaît
totaliserait 10%, 90% du Web appartiennent au « Deep web ».
Et ce serait possible d' être plus précis ?
Non, pas vraiment : le Web, représente des milliards de pages.
7. Le web invisible : des ressources de qualité
Tous les documents ne peuvent être indexés par des moteurs classiques : Yahoo, Bing,
Google ( encore que le dernier cité est aussi cité pour ses capacités à chercher dans le
deep Web).
● Certains documents sont trop volumineux : bases de données.
● Certaines pages sont protégées par leur créateur ( fichier inséré dans le code source
ou mot de passe), ou des accès sont payants.
Le Web surfacique (pour frimer dans la cour de récré uniquement, mais l'expression
existe ) vous propose des ressources de piètre qualité, mais le web profond cache des
pépites dont un grand nombre en accès libre, gratuit :
Base de données, articles scientifiques, rapports , publications gouvernementales,
thèses, portails divers, ressources de bibliothèques, livres numériques...
Il semblerait qu'on puisse accéder à des répertoires FTP, des contenus générés par des
web apps, des dépôts de binaires NNTP, des fichiers financiers d'entreprises cotées en
bourse...
8. Les outils ou moteurs spécialisés
quelques outils conseillés par : comment ça marche ?
http://www.commentcamarche.net/faq/31357-chercher-de-l-information-sur-le-web-invisible
Base :
http://www.base-search.net/
Un outil de recherche pour les sciences :
http://www.scienceresearch.com/scienceresearch/
Un méta-moteur pour 60 bases de données :
http://worldwidescience.org/
Médecine : Mednar
http://mednar.com/
Commerce : Biznar.com :
http://mednar.com/
9. Quelques outils en vrac pour fouiller le Web
InfoMine, créé par la bibliothèque de l' Université de Californie :
http://infomine.ucr.edu/
TechXtra : publications universitaires et étudiantes du domaine public
http://www.techxtra.ac.uk/index.html
Le projet Virtual Library :
http://vlib.org/
Xrefer :
http://www.xrefer.com/
Profusion :
http://www.profusion.com/
10. Quelques catalogues de bibliothèques
OCLC :
http://www.oclc.org/home.en.html
Libdex :
http://www.libdex.com/
Le portail revues.org :
http://www.revues.org/
Et nous terminons par la BnF :
http://www.bnf.fr/fr/acc/x.accueil.html
11. La suite...
Thunderstone :
http://search.thunderstone.com/texis/websearch19/
Et les coups de cœur de la Doc :
Le catalogue de la BnF, déjà mentionné.
Internet Archive, le must. 5000 films du domaine public, des classiques,
à visionner et bien d'autres documents : photographies, publications...
https://archive.org/index.php
Tout est légal ! Une mine de ressources .
Dadi : un portail de bases de données, avec un classement par la Dewey
si on le souhaite. Non, ce n'est pas Marcel !( toute ma jeunesse...)
http://dadi.univ-lyon1.fr/
12. Pour terminer
Bon, Google scholar, est intéressant, soyons honnête :
http://scholar.google.fr/
La version définitive de ce tutoriel sera mise en ligne avec les travaux de
mon groupe du MOOC Doc Tice, sur CDI virtuel ( Barbara Alhomme,
Françoise Grave, Noëlle Michaud).
En attendant, bonne pêche dans les profondeurs du Web !
http://commons.wikimedia.org/wiki/File:Saint-Cassien_pecheur.jpg