TROUVER & EXPLOITER L’INFORMATION SCIENTIFIQUE ET TECHNIQUE
Web Invisible et Deep Web
1. WEB INVISIBLE
ET DEEP WEB
Cours de recherche d’information avancée
Antoine PY et Baptiste Buisson
2. • Introduction sur le Web Invisible
• Les 4 niveaux d’invisibilité
• Les serveurs classiques
• L’évolution
• L’utilité
• Les outils pour explorer ce monde caché
• Comment naviguer sur le web de façon anonyme
Antoine PY et Baptiste Buisson
2
Sommaire
3. Qu’est ce que le Web Invisible?
C’est l’ensemble des pages internet non-indexées par les
moteurs de recherche traditionnels
DEEP WEB WEB PROFOND WEB CACHE WEB INVISIBLE
Antoine PY et Baptiste Buisson
3
Introduction
4. Antoine PY et Baptiste Buisson
4
Introduction
Un Web caché…
5. • The Opaque Web
Pages susceptibles d’être indexées mais qui ne le sont pas.
The opaque Web : nearly visible web
Pourquoi?
- Création de nouvelles pages (pas de détection du robot
« spider »)
- Limitation du moteur sur le nombre de page d’un site
- La page possède peu de backlinks
Antoine PY et Baptiste Buisson
5
Le Web Invisible
Les 4 niveaux d’invisibilités
6. • The Opaque Web
• The Private Web
Pages exclues volontairement par les Webmasters
Web invisible: la partie immergé de l’Iceberg
Antoine PY et Baptiste Buisson
6
Le Web Invisible
Les 4 niveaux d’invisibilités
7. • The OpaqueWeb
• The Private Web
• The Proprietary Web
- Identification nécessaire (l’indexage par le robot est bloqué)
Web invisible: la partie immergé de l’Iceberg
Antoine PY et Baptiste Buisson
7
Le Web Invisible
Les 4 niveaux d’invisibilités
8. • The Opaque Web
• The Private Web
• The Proprietary Web
• The Truly Invisible web
Toute indexation est impossible en raison des formats
inconnus, de la structure ou de la taille hors norme des informations.
Les pages générées dynamiquement ne peuvent également pas
être gérées par les moteurs de recherche.
Les banques de données: une partie intégrante du Web
Antoine PY et Baptiste Buisson
8
Le Web Invisible
Les 4 niveaux d’invisibilités
9. Une requête consomme autant qu’une ampoule pendant 1h
Antoine PY et Baptiste Buisson
9
Les serveurs classiques
Historique:
• Les banques de données sont apparues en 1960.
Objectif: Une volonté d’améliorer l’efficacité du web.
• Depuis 1970 des serveurs sont crées par plusieurs
sociétés privées.
10. Contenu plus qualifié, plus précis, plus vérifié et plus vaste
Antoine PY et Baptiste Buisson
10
Des informations structurées et validées
• Les bases de données hébergent une information structurée et
variée.
- Références avec résumé et indexation d’articles…
- Brevets américains, européens…
- Références avec indexation de brevets
- Textes intégrals de milliers de titres de presse
- Informations marketing
11. Contenu plus qualifié, plus précis, plus vérifié et plus vaste
Antoine PY et Baptiste Buisson
11
Des ressources difficiles d’accès
• Les bases de données sont plus difficiles d’accès que
celle du web visible
- Accès réservé aux abonnées
- Accès Payant
- Connaissance des langages
12. En 2000: la taille du web invisible croissait plus vite que le
web visible. Ceci n’est plus d’actualité. Pourquoi?
• L’indexation de nouveaux formats de fichier
Fichier .pdf (document de qualité): publications scientifiques et
universitaires, rapports de chercheurs…
Fichier .doc, .xls, .ppt, .rtf, .ps
• Les partenariats avec des éditeurs de banques de données
Pages dynamiques
Accord signé entre l’Inst-Cnrs (17 millions de bibliographie)
avec Google
La croissance de la taille du Web invisible s’atténue de plus en plus
Antoine PY et Baptiste Buisson
12
L’évolution
13. • Trouver des documents supplémentaires
• Informations plus pertinentes
• Elargir son champ de recherche
Taille web visible: 167 téraoctets
Tailles web invisible: 91 000 téraoctet
Antoine PY et Baptiste Buisson
13
Utilité des recherches dans le deep web
14. Les informations à trouver:
- Revues éléctroniques
- Livres électroniques
- Catalogues en ligne
- Des articles
Le web invisible est 544 fois plus grand que le web visible
Antoine PY et Baptiste Buisson
14
Les outils
Le fonctionnement:
- Recherche par catégorie
- Possibilité de modifier sa recherche: options de recherche
15. Les informations à trouver:
- Ressources pertinentes sur
beaucoups de sujets
Antoine PY et Baptiste Buisson
15
Les outils
Le fonctionnement:
- Recherche par catégorie et par mots-clés
16. Les informations à trouver:
- Ressources pertinentes sur
beaucoups de sujets
Antoine PY et Baptiste Buisson
16
Le fonctionnement:
- Recherche par catégorie
Les outils
17. Les informations à trouver:
- Sujets académiques
- Dictatitiels sur des techniques
efficaces de recherche
d’internet
Antoine PY et Baptiste Buisson
17
Les outils
Le fonctionnement:
- Recherche par mots-clés ou par sujet
18. Les informations à trouver:
- Encyclopédies
- Atlas
- Bibliographie
Antoine PY et Baptiste Buisson
18
Le fonctionnement:
- Recherche par mots-clés
Les outils
19. Moteurs de recherche pour étudiants
Trouver du contenu sur l’ingénierie,
les mathématiques et l’informatique
Types d’information:
- Nouvelles sur l’industrie
- Offres d’emploi
- Rapports techniques
- Sites web pertinents
Antoine PY et Baptiste Buisson
19
Le fonctionnement:
- Recherche par mots-clés
Les outils
20. Antoine PY et Baptiste Buisson
20
Les outils
Méta-moteur
- Nombreuses possibilités de personnalisation et de
paramétrage
- Trouver les informations les plus récentes
21. • DeepWeb ≠ DarkWeb ≠ Darknet
DarkWeb: le côté « malsain » du DeepWeb
Darknets: réseaux privés virtuels, souvent de petites tailles
et dans le but d’échanger des fichiers,
The internet behind the internet
Antoine PY et Baptiste Buisson
21
Le DarkWeb
22. Plusieurs Outils existent:
• TOR (The Onion Router)
• Base-search.net
• D’autres moteurs de recherche spécialisés
The internet behind the internet
Antoine PY et Baptiste Buisson
22
Comment y accéder?
Avec Google Chrome Avec TOR
23. The internet behind the internet
Antoine PY et Baptiste Buisson
23
Les Outils
24. The internet behind the internet
Antoine PY et Baptiste Buisson
24
Les Outils
25. • Béatrice Foenix-Riou : « Recherche éveillé sur Internet: mode d’emploi »
• « Web profond ». Encyclopédie en ligne. Wikipédia, s. d. http://fr.wikipedia.org/wiki/Web_profond
• « Cinq moteurs de recherche pour explorer le darknet ». Site d’information sur les nouvelles technologies. Parlons Geek, s. d.
http://www.parlonsgeek.com/cinq-moteurs-de-recherche-pour-explorer/.
• « Clearing Up Confusion – Deep Web vs. Dark Web », 27 mars 2014.
http://www.brightplanet.com/2014/03/clearing-confusion-deep-web-vs-dark-web/
• « Deep Web, Dark Web, les parties immergées d’Internet | Panoptinet », s. d.
http://www.panoptinet.com/cybersecurite-decryptee/deep-web-dark-web-les-parties-immergees-dinternet/
• Dejonckheere, Eric. « AYA.io - Recherche dans le Web profond ». Blog. AYA.io, 22 juin 2013. http://aya.io/blog/deep-web-search/.
• « La recherche d’Informations sur le Web », s. d. http://c.asselin.free.fr/french/invisible_web.htm.
• « MemoAV_WebInvisible - Memo_WebInvisible.pdf ».
http://bibliotheque.unice.fr/services-et-formations/aide-et-formation/documents/Memo_WebInvisible.pdf.
• « Rechercher l’information - Les informations du web invisible ». http://www.c2imes.org/MODULES/B2/co/I_E_partieB.html.
• Digimind, Découvrir et exploiter le web invisible pour la veille stratégique: http://www.esi.ac.ma/Dossiers/20140126070100.pdf
Antoine PY et Baptiste Buisson
25
Bibliographie