Slideshow transcript
Slide 1: Le web invisible Journées Ascodocpsy 24 septembre 2004 ©Armelle Thomas - Septembre 2004 1
Slide 2: Le web invisible, cet inconnu :-) ©Armelle Thomas - Septembre 2004 2
Slide 3: Fil conducteur… 2. Revenir aux bases pour éclaircir la suite 4. Le web invisible : Définitions et incertitudes 6. Le web invisible : méthodologies de recherche 8. En guise de conclusion ©Armelle Thomas - Septembre 2004 3
Slide 4: La recherche d’information passe de plus en plus par l’interface web Capitalisation de Exploitation de l’information interne l’information externe Intranet …………….Extranet…………….Internet ©Armelle Thomas - Septembre 2004 4
Slide 5: Dispersion et hétérogénéité de l’info sur le web ( rappel) Grande hétérogénéité dans les contenus et les publics (grand public et professionnels) ; diversité des objectifs de diffusion Contenus en renouvellement perpétuel (quelle durée de vie des pages ?) – Mais « archivage » du web. « Granularité des contenus » : la page, l’article sur la page, l’image, la vidéo, le programme logiciel, la bdd acessible depuis la page, etc. Instabilité des localisations Fragmentation plus ou moins importante, selon les disciplines Multilinguisme et couverture géographique mondiale Information gratuite et payante (tendance à la valeur ajoutée payante). ©Armelle Thomas - Septembre 2004 5
Slide 6: Web invisible, oui, mais aussi « silence » On parle beaucoup de bruit dans le cadre de recherche d’info sur internet Mais n’oublions pas le silence : Les moteurs n’indexent pas la totalité du web Des sites sont mal indexés (ou pas en totalité) La question est mal posée / Les moteurs restent assez « frustres » L’utilisateur ne consulte qu’une infime partie des résultats à une requête. ©Armelle Thomas - Septembre 2004 6
Slide 7: Un préalable indispensable … Page web : document en langage HTML qui correspond à UN fichier informatique. Une page web peut contenir du texte, des images, du son, des animations. Elle peut être « statique » (html pur) ou « dynamique » (générée à la volée). La page statique est enregistrée sur le serveur web, à la différence de la page dynamique, dont le contenu est stocké dans des bases de données. ©Armelle Thomas - Septembre 2004 7
Slide 8: Bases de données : technologies très diverses Quelles bases de données ? • Groupware (Lotus Notes, Ms Exchange, etc..) • Bases de données relationnelles propriétaires (Oracle, File Maker, etc..) • Php / My SQL • Logiciels documentaires (Ever, Alexandrie, etc..) • Catalogues de bibliothèques (Z 3950) • Gestion de documents (ex Documentum) Web • Progiciels intégrés (ERP) • Etc…. Aujourd’hui souvent « à interface web » • Mais comment se fait la connexion ? • Quels scripts, quels langages, quelles passerelles ? Le « boom » des pages dynamiques ©Armelle Thomas - Septembre 2004 8
Slide 9: Les moteurs de recherche travaillent avec trois types d’agents Le spider (crawler) sonde l’Internet en passant de site en site, le plus souvent en exploitant les liens hypertextes L’index classe l’information : le spider lui renvoie les informations collectées pour analyse. Construction d’un index des mots rencontrés et stockage de l’ensemble dans une base de données Le module de recherche interroge la base et présente les résultats A noter : • L’importance des méta-données • L’importance des liens entre les sites • L’importance du référencement • La difficulté des moteurs avec les pages dynamiques ©Armelle Thomas - Septembre 2004 9
Slide 10: Fil conducteur… 2. Revenir aux bases pour éclaircir la suite 4. Le web invisible : Définitions et incertitudes 6. Le web invisible : méthodologies de recherche 8. En guise de conclusion ©Armelle Thomas - Septembre 2004 10
Slide 11: INVISIBLE ? AUX MOTEURS DE RECHERCHE ©Armelle Thomas - Septembre 2004 11
Slide 12: Une définition complète du web invisible (définition mise au point par les formateurs ADBS) C’est l’ensemble des pages non localisables et/ou non indexables par les outils classiques de recherche du web. Il correspond à plusieurs types de ressources Pages dont les caractéristiques techniques rendent difficile l’indexation par les moteurs : frames, javascrips, technologies propriétaires (flash, active X, java, etc.) Pages qui n’ont fait l’objet ni d’un référencement direct, ni d’aucun lien d’une autre page Pages nécessitant une identification de la part de l’internaute Pages dont le contenu indique aux moteurs qu’ils ne doivent pas l’indexer Pages produite à partir de bases de données ou d’applications, et dont l’URL comporte des paramètres non exploitables par la plupart des moteurs Page produite à partir de données saisies par l’utilisateur via un formulaire html. Exemple : les résultats de l’interrogation d’une base de données avec des critères de recherche entrés par l’utilisateur. Pages issues du « pear to pear » !! ©Armelle Thomas - Septembre 2004 12
Slide 13: Ce que n’est pas le web invisible ( mais cela peut se discuter…) Certaines pages sont visibles et indexables, mais très complexes à trouver : elles ne font néanmoins pas partie du web invisible : Les moteurs de recherche limitent la « profondeur de crawl » de leurs robots (spiders, crawlers) : ainsi, une page située loin dans l’arborescence peut échapper, tout au moins pour un moment, à la capture et à l’indexation. Cela peut être vrai pour un moteur, et faux pour d’autres Des pages naissent et meurent avant que le moteur n’ait pu les atteindre De nombreuses pages personnelles sont très peu référencées par les outils classiques : il faut connaître l’adresse, y parvenir par les hasards de la navigation, ou utiliser des outils très spécifiques ©Armelle Thomas - Septembre 2004 13
Slide 14: Un fabuleux volume d’informations On connaît (à quelques centaines de millions près) la taille du web visible : environ 10 milliards de pages On ne connaît pas du tout la taille du web invisible : certains auteurs soutiennent que le meilleur moteur n’indexe que 3 à 10 % du web total ; l’étude de Bright Planet (2000) parle de 350.000 bases de données disponibles représentant 550 milliards de pages et 500 fois la surface du web visible . www.brightplanet.com , majoritairement gratuites. A noter : le serveur de bases de données Dialog annonce quelque 6 milliards de pages « à lui tout seul » ! ©Armelle Thomas - Septembre 2004 14
Slide 15: Deux certitudes dans un océan d’incertitudes ! Le web invisible croît plus rapidement que le web visible Le web invisible contient des ressources de qualité supérieure au web visible ( pour les professionnels ) ©Armelle Thomas - Septembre 2004 15
Slide 16: Une appellation qui tend à « passer de mode » « Web invisible », « deep web »… Des appellations pas très claires, mais qui concernent surtout pour les professionnels, les informations contenues dans des bases de données. Multiplication des bases de données à interface web : le web devient l’interface universelle, html le format de référence (le « tout html ») Explosion des pages dynamiques de tout acabit, notamment du fait du développement des langages comme php. Finalement, on ne « produit » plus beaucoup en html. Généralisation d’un « web dynamique ». L’expression web invisible a vieilli ©Armelle Thomas - Septembre 2004 16
Slide 17: Fil conducteur… 2. Revenir aux bases pour éclaircir la suite 4. Le web invisible : Définitions et incertitudes 6. Le web invisible : méthodologies de recherche 8. En guise de conclusion ©Armelle Thomas - Septembre 2004 17
Slide 18: Les règles d’or de la recherche (rappel) Se poser les bonnes question, affiner sa requête (cf recherche d’info traditionnelle), choisir ses stratégies et ses mots-clés… Garder une approche multi-sources, multi-stratégies de recherche, être agile, savoir rebondir… Utiliser différents outils Trouver de bons points de repère Utiliser son carnet d’adresses Analyser l’information (esprit critique, évaluation) Savoir se limiter dans le temps Rester clair sur ses objectifs, ses choix, et … Garder le cap ©Armelle Thomas - Septembre 2004 18
Slide 19: Comment faire pour obtenir ? Les pages n’ayant fait l’objet ni d’un Les pages nécessitant une référencement direct, ni d’aucun lien identification de la part de l’internaute d’une autre page Il n’y a pas mille solutions : La seule, et d’ailleurs la Il n’y a pas mille solutions : bonne consiste à être « aux aguets », en activant son La seule, et d’ailleurs la réseau, en lisant les revues bonne, consiste à être inscrit spécialisées, en étant abonnés sur ces sites ! aux bonnes listes de diffusion / de discussion, en discutant, en Pour cela ? Voir ci-contre :-) « chatant » ©Armelle Thomas - Septembre 2004 19
Slide 20: Les bases de données Contenu Contenu De plus en plus de professionnel mal référencé bdd disponibles Optimiser ses recherches en focalisant sur le web invisible ©Armelle Thomas - Septembre 2004 20
Slide 21: Les bases de données, Au cœur de la richesse du web invisible Equations de recherche bdd Méta-moteurs « client » type Copernic Centres de ressources Méta-moteur spécialisé Sites portail, ou répertoire spécialisé Répertoires de bdd à interface web ©Armelle Thomas - Septembre 2004 21
Slide 22: Les grands répertoires DADI http://dadi.enssib.fr près de 900 bdd gratuites (classification Dewey) (Jean-Pierre Lardy). The invisible web directory http://www.invisible-web.net près de 1000 bdd majoritairement gratuites(Chris Sherman et Gary Price) CompletePlanet www.completeplanet.com (Bright Planet) Penser aussi aux répertoires spécialisés qui ont souvent une section bases de données. ©Armelle Thomas - Septembre 2004 22
Slide 23: Et encore ? L’identification des ressources du web invisible passe en bonne partie par une culture significative du web dans son domaine : Connaître les portails thématiques, se tenir au courant, être inscrit aux lettres de diffusion thématiques pertinentes, se prévoir des journées spécifiques « découvertes », … et mettre en bookmarks les pages utiles. Utiliser les différents process et outils décrits auparavant, en ayant toujours établi auparavant sa stratégie de recherche en fonction de ses besoins (de quoi ai-je besoin ? : références bibliographiques, texte intégral, statistiques, diaporamas, etc. En provenance de quels types d’éditeurs) Travailler ses équations de recherche pour les bdd en tenant compte des fonctionnalités spécifiques de chaque base ©Armelle Thomas - Septembre 2004 23
Slide 24: Fil conducteur… 2. Revenir aux bases pour éclaircir la suite 4. Le web invisible : Définitions et incertitudes 6. Le web invisible : méthodologies de recherche 8. En guise de conclusion ©Armelle Thomas - Septembre 2004 24
Slide 25: En guise de conclusion Risquons un peu de prospective à partir des tendances en cours Un web invisible en forte croissance : notamment bien entendu les bases de données accessible via le web (tend à devenir l’interface « universelle ») ou via des web « parallèles » sécurisés Un web professionnel de plus en plus dynamique Des moteurs de plus en plus performants (cf Google) Des référenceurs de plus en plus imaginatifs : permettre l’indexation de pages a priori non indexables Le développement des moteurs spécialisés, indexant plus finement les pages dans leur thématique Le développement des méta-moteurs spécialisés sur le web, au-delà des méta-moteurs clients La nécessité affirmée des professionnels de l’information comme « cartographes de l’internet » ©Armelle Thomas - Septembre 2004 25
Slide 26: La surveillance automatisée : des solutions qui deviennent matures Les agents d’alerte permettent de mettre sous surveillance les résultats de requête sur des bases de données. ©Armelle Thomas - Septembre 2004 26




Add a comment on Slide 1
If you have a SlideShare account, login to comment; else you can comment as a guest- Favorites & Groups
Showing 1-50 of 0 (more)