Slideshare.net (beta)

 

All comments

Add a comment on Slide 1

If you have a SlideShare account, login to comment; else you can comment as a guest


Showing 1-50 of 0 (more)

Le web invisible

From jdeyaref, 4 months ago

192 views  |  0 comments  |  0 favorites  |  0 downloads
 
 
 

Groups / Events

 

 
Embed
options

More Info

This slideshow is Public
Total Views: 192
on Slideshare: 192
from embeds: 0

Slideshow transcript

Slide 1: Le web invisible Journées Ascodocpsy 24 septembre 2004 ©Armelle Thomas - Septembre 2004 1

Slide 2: Le web invisible, cet inconnu :-) ©Armelle Thomas - Septembre 2004 2

Slide 3: Fil conducteur… 2. Revenir aux bases pour éclaircir la suite 4. Le web invisible : Définitions et incertitudes 6. Le web invisible : méthodologies de recherche 8. En guise de conclusion ©Armelle Thomas - Septembre 2004 3

Slide 4: La recherche d’information passe de plus en plus par l’interface web Capitalisation de Exploitation de l’information interne l’information externe Intranet …………….Extranet…………….Internet ©Armelle Thomas - Septembre 2004 4

Slide 5: Dispersion et hétérogénéité de l’info sur le web ( rappel)  Grande hétérogénéité dans les contenus et les publics (grand public et professionnels) ; diversité des objectifs de diffusion  Contenus en renouvellement perpétuel (quelle durée de vie des pages ?) – Mais « archivage » du web.  « Granularité des contenus » : la page, l’article sur la page, l’image, la vidéo, le programme logiciel, la bdd acessible depuis la page, etc.  Instabilité des localisations  Fragmentation plus ou moins importante, selon les disciplines  Multilinguisme et couverture géographique mondiale  Information gratuite et payante (tendance à la valeur ajoutée payante). ©Armelle Thomas - Septembre 2004 5

Slide 6: Web invisible, oui, mais aussi « silence »  On parle beaucoup de bruit dans le cadre de recherche d’info sur internet  Mais n’oublions pas le silence : Les moteurs n’indexent pas la totalité du web Des sites sont mal indexés (ou pas en totalité) La question est mal posée / Les moteurs restent assez « frustres » L’utilisateur ne consulte qu’une infime partie des résultats à une requête. ©Armelle Thomas - Septembre 2004 6

Slide 7: Un préalable indispensable …  Page web : document en langage HTML qui correspond à UN fichier informatique. Une page web peut contenir du texte, des images, du son, des animations. Elle peut être « statique » (html pur) ou « dynamique » (générée à la volée). La page statique est enregistrée sur le serveur web, à la différence de la page dynamique, dont le contenu est stocké dans des bases de données. ©Armelle Thomas - Septembre 2004 7

Slide 8: Bases de données : technologies très diverses  Quelles bases de données ? • Groupware (Lotus Notes, Ms Exchange, etc..) • Bases de données relationnelles propriétaires (Oracle, File Maker, etc..) • Php / My SQL • Logiciels documentaires (Ever, Alexandrie, etc..) • Catalogues de bibliothèques (Z 3950) • Gestion de documents (ex Documentum) Web • Progiciels intégrés (ERP) • Etc….  Aujourd’hui souvent « à interface web » • Mais comment se fait la connexion ? • Quels scripts, quels langages, quelles passerelles ?  Le « boom » des pages dynamiques ©Armelle Thomas - Septembre 2004 8

Slide 9: Les moteurs de recherche travaillent avec trois types d’agents  Le spider (crawler) sonde l’Internet en passant de site en site, le plus souvent en exploitant les liens hypertextes  L’index classe l’information : le spider lui renvoie les informations collectées pour analyse. Construction d’un index des mots rencontrés et stockage de l’ensemble dans une base de données  Le module de recherche interroge la base et présente les résultats A noter : • L’importance des méta-données • L’importance des liens entre les sites • L’importance du référencement • La difficulté des moteurs avec les pages dynamiques ©Armelle Thomas - Septembre 2004 9

Slide 10: Fil conducteur… 2. Revenir aux bases pour éclaircir la suite 4. Le web invisible : Définitions et incertitudes 6. Le web invisible : méthodologies de recherche 8. En guise de conclusion ©Armelle Thomas - Septembre 2004 10

Slide 11: INVISIBLE ? AUX MOTEURS DE RECHERCHE ©Armelle Thomas - Septembre 2004 11

Slide 12: Une définition complète du web invisible (définition mise au point par les formateurs ADBS) C’est l’ensemble des pages non localisables et/ou non indexables par les outils classiques de recherche du web. Il correspond à plusieurs types de ressources  Pages dont les caractéristiques techniques rendent difficile l’indexation par les moteurs : frames, javascrips, technologies propriétaires (flash, active X, java, etc.)  Pages qui n’ont fait l’objet ni d’un référencement direct, ni d’aucun lien d’une autre page  Pages nécessitant une identification de la part de l’internaute  Pages dont le contenu indique aux moteurs qu’ils ne doivent pas l’indexer  Pages produite à partir de bases de données ou d’applications, et dont l’URL comporte des paramètres non exploitables par la plupart des moteurs  Page produite à partir de données saisies par l’utilisateur via un formulaire html. Exemple : les résultats de l’interrogation d’une base de données avec des critères de recherche entrés par l’utilisateur.  Pages issues du « pear to pear » !! ©Armelle Thomas - Septembre 2004 12

Slide 13: Ce que n’est pas le web invisible ( mais cela peut se discuter…) Certaines pages sont visibles et indexables, mais très complexes à trouver : elles ne font néanmoins pas partie du web invisible :  Les moteurs de recherche limitent la « profondeur de crawl » de leurs robots (spiders, crawlers) : ainsi, une page située loin dans l’arborescence peut échapper, tout au moins pour un moment, à la capture et à l’indexation. Cela peut être vrai pour un moteur, et faux pour d’autres  Des pages naissent et meurent avant que le moteur n’ait pu les atteindre  De nombreuses pages personnelles sont très peu référencées par les outils classiques : il faut connaître l’adresse, y parvenir par les hasards de la navigation, ou utiliser des outils très spécifiques ©Armelle Thomas - Septembre 2004 13

Slide 14: Un fabuleux volume d’informations  On connaît (à quelques centaines de millions près) la taille du web visible : environ 10 milliards de pages  On ne connaît pas du tout la taille du web invisible : certains auteurs soutiennent que le meilleur moteur n’indexe que 3 à 10 % du web total ; l’étude de Bright Planet (2000) parle de 350.000 bases de données disponibles représentant 550 milliards de pages et 500 fois la surface du web visible . www.brightplanet.com , majoritairement gratuites.  A noter : le serveur de bases de données Dialog annonce quelque 6 milliards de pages « à lui tout seul » ! ©Armelle Thomas - Septembre 2004 14

Slide 15: Deux certitudes dans un océan d’incertitudes ! Le web invisible croît plus rapidement que le web visible Le web invisible contient des ressources de qualité supérieure au web visible ( pour les professionnels ) ©Armelle Thomas - Septembre 2004 15

Slide 16: Une appellation qui tend à « passer de mode »  « Web invisible », « deep web »… Des appellations pas très claires, mais qui concernent surtout pour les professionnels, les informations contenues dans des bases de données.  Multiplication des bases de données à interface web : le web devient l’interface universelle, html le format de référence (le « tout html »)  Explosion des pages dynamiques de tout acabit, notamment du fait du développement des langages comme php. Finalement, on ne « produit » plus beaucoup en html. Généralisation d’un « web dynamique ». L’expression web invisible a vieilli ©Armelle Thomas - Septembre 2004 16

Slide 17: Fil conducteur… 2. Revenir aux bases pour éclaircir la suite 4. Le web invisible : Définitions et incertitudes 6. Le web invisible : méthodologies de recherche 8. En guise de conclusion ©Armelle Thomas - Septembre 2004 17

Slide 18: Les règles d’or de la recherche (rappel)  Se poser les bonnes question, affiner sa requête (cf recherche d’info traditionnelle), choisir ses stratégies et ses mots-clés… Garder une approche multi-sources, multi-stratégies de recherche, être agile, savoir rebondir… Utiliser différents outils Trouver de bons points de repère Utiliser son carnet d’adresses Analyser l’information (esprit critique, évaluation) Savoir se limiter dans le temps Rester clair sur ses objectifs, ses choix, et … Garder le cap ©Armelle Thomas - Septembre 2004 18

Slide 19: Comment faire pour obtenir ?  Les pages n’ayant fait l’objet ni d’un  Les pages nécessitant une référencement direct, ni d’aucun lien identification de la part de l’internaute d’une autre page Il n’y a pas mille solutions : La seule, et d’ailleurs la Il n’y a pas mille solutions : bonne consiste à être « aux aguets », en activant son La seule, et d’ailleurs la réseau, en lisant les revues bonne, consiste à être inscrit spécialisées, en étant abonnés sur ces sites ! aux bonnes listes de diffusion / de discussion, en discutant, en Pour cela ? Voir ci-contre :-) « chatant » ©Armelle Thomas - Septembre 2004 19

Slide 20: Les bases de données Contenu Contenu De plus en plus de professionnel mal référencé bdd disponibles Optimiser ses recherches en focalisant sur le web invisible ©Armelle Thomas - Septembre 2004 20

Slide 21: Les bases de données, Au cœur de la richesse du web invisible Equations de recherche bdd Méta-moteurs « client » type Copernic Centres de ressources Méta-moteur spécialisé Sites portail, ou répertoire spécialisé Répertoires de bdd à interface web ©Armelle Thomas - Septembre 2004 21

Slide 22: Les grands répertoires  DADI http://dadi.enssib.fr près de 900 bdd gratuites (classification Dewey) (Jean-Pierre Lardy).  The invisible web directory http://www.invisible-web.net près de 1000 bdd majoritairement gratuites(Chris Sherman et Gary Price)  CompletePlanet www.completeplanet.com (Bright Planet) Penser aussi aux répertoires spécialisés qui ont souvent une section bases de données. ©Armelle Thomas - Septembre 2004 22

Slide 23: Et encore ?  L’identification des ressources du web invisible passe en bonne partie par une culture significative du web dans son domaine : Connaître les portails thématiques, se tenir au courant, être inscrit aux lettres de diffusion thématiques pertinentes, se prévoir des journées spécifiques « découvertes », … et mettre en bookmarks les pages utiles.  Utiliser les différents process et outils décrits auparavant, en ayant toujours établi auparavant sa stratégie de recherche en fonction de ses besoins (de quoi ai-je besoin ? : références bibliographiques, texte intégral, statistiques, diaporamas, etc. En provenance de quels types d’éditeurs)  Travailler ses équations de recherche pour les bdd en tenant compte des fonctionnalités spécifiques de chaque base ©Armelle Thomas - Septembre 2004 23

Slide 24: Fil conducteur… 2. Revenir aux bases pour éclaircir la suite 4. Le web invisible : Définitions et incertitudes 6. Le web invisible : méthodologies de recherche 8. En guise de conclusion ©Armelle Thomas - Septembre 2004 24

Slide 25: En guise de conclusion Risquons un peu de prospective à partir des tendances en cours  Un web invisible en forte croissance : notamment bien entendu les bases de données accessible via le web (tend à devenir l’interface « universelle ») ou via des web « parallèles » sécurisés  Un web professionnel de plus en plus dynamique  Des moteurs de plus en plus performants (cf Google)  Des référenceurs de plus en plus imaginatifs : permettre l’indexation de pages a priori non indexables  Le développement des moteurs spécialisés, indexant plus finement les pages dans leur thématique  Le développement des méta-moteurs spécialisés sur le web, au-delà des méta-moteurs clients  La nécessité affirmée des professionnels de l’information comme « cartographes de l’internet » ©Armelle Thomas - Septembre 2004 25

Slide 26: La surveillance automatisée : des solutions qui deviennent matures Les agents d’alerte permettent de mettre sous surveillance les résultats de requête sur des bases de données. ©Armelle Thomas - Septembre 2004 26