Búsqueda Avanzada de Información
           en Internet
         Leonardo Machett


           Bogotá, 2009
¿Por qué la búsqueda y la
recuperación de información en
Internet son tareas frecuentemente
tediosas y difíciles?
El fases de la Historia según Giambattista Vico
     en su obra: Principios de una Ciencia Nueva




  Edad           Edad...
La imprenta de
Johannes Gutenberg
(Fresco Biblioteca Pública de Nueva York)
Quino. Sociedad de la información.
Vinton G.   Cerf
Sir Timothy John Berners-Lee
Azul profundo: net, ca, us
Verde: com, org
Rojo: mil, gov, edu
Amarillo: jp, cn, tw, au, de
Magenta: uk, it, pl, fr
Dorado...
El ciclo de la Información




http://www.libraries.psu.edu/instruction/infocycle/infocycle.html
¿Qué es Internet?

TCP/IP
                                       HTTP (WWW)
                          TELNET




         ...
¿Qué es y no es la Web?
   ¿Qué no es   ¿Qué es la
    la Web?       Web?
¿Qué diferencias hay entre la recuperación
 en la Web y la recuperación tradicional?
           Recuperación             R...
Una anatomía de la URL (Localizador
          Uniforme de Recursos)




http://www.javeriana.edu.co/biblos/tesis/TESIS16.p...
Una anatomía de la URL
Dominios: La ICANN es el acrónimo en inglés de la Corporación de Internet para la
Asignación de Nom...
La Web
                             Indizable




    Estática


                                                  Pública...
Umberto Eco

quot;Un exceso de información puede ser tan peligroso como una carenciaquot;

SEGÚN UMBERTO ECO, LOS EUROPEOS...
La Recuperación de Información

                                   ciencias de la
                                   compu...
La RI como sistema de comunicación
             asíncrono


 Productor de                   Consumidores
 Información     ...
Problema de los tres lenguajes

                                                                             •Es en el que...
Modelo elemental para la RI según
                       Ingwersen
         http://vip.db.dk/pi/iri/files/Ingwersen_IRI.pd...
El Proceso Genérico de Recuperación de Información Tramullas (2001)

                                 Necesidad de
       ...
¿Cómo funciona un motor de búsqueda?

               Almacena
                                                   Busca en ...
Zipf y Luhn


                          Términos
                          con
             Términos     mucha
           ...
¿Qué significa Pensar?
La clave de buscar gravita en preguntarse: ¿Cómo pensamos?
(El pensador de Rodin exposición en Suiz...
Charles Sanders Peirce
Tipos de razonamiento analizados por
               Pierce

                            Deductivo
            Inductivo


...
Aplicando lo anterior a la
  Recuperación de Información

Deductivo   • Directorios Web


            • Motores de Búsqued...
David   Filo   Jerry Wang
http://www.yahoo.com/
                    Captura de pantalla enero 1997 fuente: www.archive.org
Larry Page
Sergey   Brin
http://www.google.com/
Stephen   Wolfram
http://www.wolframalpha.com/
A la hora de preparar una búsqueda… ¿Qué escoger?
Directorio Web




 http://www.dmoz.org/
Motor de Búsqueda




http://www.exalead.com/search/
Metabuscador




http://www.dogpile.com/
Recuperar a partir de operadores
              búsqueda en Google
Link: Lista todos los enlaces, que teniendo page rank 4 ...
Motores de Multimedia
•   Sonidos
•   http://www.musicovery.com/
•   http://www.midomi.com/
•   http://www.musipedia.org/q...
Web invisible
• www.internetinvisible.com
• www.completeplanet.com
Otros recursos para recuperar
   información en la web
http://www.archive.org/
http://pro.corbis.com/
http://www.midomi.com/
http://www.kartoo.com/
¿Qué es la Web                         Es una extensión de la Web actual dotada de significado, esto es, un
              ...
http://193.108.42.79/ikea-es/flash_files/bot.html
DESARROLLAR HABILIDADES
INFORMATIVAS
1. Los libros están para el      Shiyali Ramamrita Ranganathan
uso

2. Cada libro tiene su lector


3. Cada lector tiene s...
Necesidad              Valoración                                 Uso de la Información
   Decisión                Análisi...
… La Biblioteca
    generalmente esta
orientada al usuario pero…
            Nini Marshall en la película: “hay que educar...
… Existe algo llamado ¡Ansiedad
   causada por la Biblioteca!
La Ansiedad de la Biblioteca ¿Qué es y
          Por qué sucede?
          Ansiedad   Satisfacción
La Ansiedad de la Biblioteca ¿Qué es y
          Por qué sucede?
          Bibliotecario   Bibliotecario
               ay...
¿Qué es la Ansiedad causada por la
            Biblioteca?
Es una combinación de emociones
experimentadas por muchos usuar...
¿Qué es la Ansiedad causada por la
            Biblioteca?     (continuación)

  – Carece de seguridad en si mismo acerca ...
¿Qué es la Ansiedad causada por la
            Biblioteca?
           El usuario e incluso el referencista
           son ...
Ante ello uno como bibliotecario debe tener una
          … ena disposición de servicio
Ante ello uno como referenciasta debe tener
    una buena disposición para ayudar
¿Qué Podemos Hacer para Aliviar la
    Ansiedad de la Biblioteca?
Modelos




               MODELO GAVILÁN


  http://www.eduteka.org/imprimible.php?num=487&catx=1
“que cada ojo trate por
  cuenta propia, sin fiarse
  en mediador .”

           William Shakespeare,
      Mucho ruido y ...
¿Qué es el pensamiento crítico?
• Mona McCormick:
  – Es la habilidad para distinguir los hechos de la
    ficción, para e...
Evaluar sitios Web
• Accesibilidad
  – W3C MarkUp Validation
    Service. http://validator.w3.org/ Servicio de
    Verific...
Taller de Evaluación
• http://lemachett.googlepages.com/tallerbibliotic
Si consideramos los motores de búsqueda en la Web
actuales llegamos a la conclusión:
    •Se siguen utilizando los índices...
Cambios en la RI en un entorno
            “interactivo”



                                                   Por primera...
Preguntas a futuro de la RI en un
     entorno “interactivo”
           • En el mundo dinámico de la Web y de las Bibliote...
Cuestiones prácticas
Seguridad
 • Transacciones Seguras

Intimidad
 • Con frecuencia, las personas están dispuestas a sacr...
Para saber más
• Opte Project: http://opte.org/maps/
• Web Semántica:
  http://www.w3c.es/Divulgacion/Guiasbreves/We
  bSe...
Recuerde que de usted depende hacer un buen
uso de las herramientas e igualmente debe velar
   por lograr que sus usuarios...
Leonardo MACHETT
 ALFABETIZACIÓN INFORMACIONAL
       lemachett@gmail.com
http://bajoelmanzano.blogspot.com
          Twit...
Presentación  Taller Búsqueda de información avanzada en Internet
Presentación  Taller Búsqueda de información avanzada en Internet
Presentación  Taller Búsqueda de información avanzada en Internet
Upcoming SlideShare
Loading in …5
×

Presentación Taller Búsqueda de información avanzada en Internet

8,107
-1

Published on

Presentación de Leonardo Machett - Docente de Ciencia de la Información - Bibliotecología - Pontificia Universidad Javeriana.

Participación en la jornada de capacitación del Primer Encuentro de Bibliotecas en Tecnologías de Información y Comunicación - Bibliotic 2009

Bogotá - Colombia, mayo 12 al 15 de 2009

Published in: Technology
2 Comments
5 Likes
Statistics
Notes
No Downloads
Views
Total Views
8,107
On Slideshare
0
From Embeds
0
Number of Embeds
18
Actions
Shares
0
Downloads
290
Comments
2
Likes
5
Embeds 0
No embeds

No notes for slide

Presentación Taller Búsqueda de información avanzada en Internet

  1. 1. Búsqueda Avanzada de Información en Internet Leonardo Machett Bogotá, 2009
  2. 2. ¿Por qué la búsqueda y la recuperación de información en Internet son tareas frecuentemente tediosas y difíciles?
  3. 3. El fases de la Historia según Giambattista Vico en su obra: Principios de una Ciencia Nueva Edad Edad Edad Edad de Nueva Edad Teocrática Aristocrática Democrática Caos Democrática
  4. 4. La imprenta de Johannes Gutenberg (Fresco Biblioteca Pública de Nueva York)
  5. 5. Quino. Sociedad de la información.
  6. 6. Vinton G. Cerf
  7. 7. Sir Timothy John Berners-Lee
  8. 8. Azul profundo: net, ca, us Verde: com, org Rojo: mil, gov, edu Amarillo: jp, cn, tw, au, de Magenta: uk, it, pl, fr Dorado: br, kr, nl Blanco: desconocido Mapa parcial de Internet por Opte Project (15 de enero de 2005)
  9. 9. El ciclo de la Información http://www.libraries.psu.edu/instruction/infocycle/infocycle.html
  10. 10. ¿Qué es Internet? TCP/IP HTTP (WWW) TELNET NNTP (news) y FTP y P2P IPTV (Tv) SMTP (mail), GOPHER y VoIP e IRC WHAIS Acceso Remoto a otras máq. (juegos en línea)
  11. 11. ¿Qué es y no es la Web? ¿Qué no es ¿Qué es la la Web? Web?
  12. 12. ¿Qué diferencias hay entre la recuperación en la Web y la recuperación tradicional? Recuperación Recuperación tradicional en la WWW no hay permanencia, los principio de autoridad documentos cambian de forma y lugar intentos de normalización uso de lenguajes en la descripción de documentales contenidos interfaz homogénea de interfaces diversas interrogación carencia de control control terminológico terminológico
  13. 13. Una anatomía de la URL (Localizador Uniforme de Recursos) http://www.javeriana.edu.co/biblos/tesis/TESIS16.pdf
  14. 14. Una anatomía de la URL Dominios: La ICANN es el acrónimo en inglés de la Corporación de Internet para la Asignación de Nombres y Números. Dominios de primer nivel Dominios geográficos: • com para compañías y empresas comerciales • co Colombia • net para organizaciones relacionadas • uk Reino Unido con Internet • org para organizaciones que no se pueden clasificar en ninguna otra • es España categoría • fr Francia • edu para instituciones educativas • gov para el gobierno • ca Canadá • mil para las Fuerzas Armadas • biz para negocios y empresas • it Italia comerciales • info para proveedores de servicios de • eu Unión Europea información • name o ~ para páginas personales • tv Tuvalu
  15. 15. La Web Indizable Estática Pública Semántica Dinámica Invisible Fuente: Ricardo Baeza Yates. http://www.dcc.uchile.cl/~rbaeza/inf/webfaces.gif
  16. 16. Umberto Eco quot;Un exceso de información puede ser tan peligroso como una carenciaquot; SEGÚN UMBERTO ECO, LOS EUROPEOS SABEN CADA VEZ MENOS DE HISTORIA POR CULPA DE INTERNET. En : El Clarín [Texto en línea], Buenos Aires : (24, Oct., 2006); [Citado el 24 de octubre de 2006]. Disponible en Internet: <http://www.clarin.com/diario/2006/10/24/um/m-01296295.htm>
  17. 17. La Recuperación de Información ciencias de la computación física matemáticas ciencias de la estadística Recuperación información de Información Lingüística bibliotecología arquitectura psicología de información cognitiva
  18. 18. La RI como sistema de comunicación asíncrono Productor de Consumidores Información Selección de de Información documentos (Autores de (Usuarios de Documentos) Información)
  19. 19. Problema de los tres lenguajes •Es en el que el usuario plantea la necesidad Lenguaje natural (humano): Lenguaje controlado: •Adecuar lo expresado por el usuario en expresiones de conceptos delineados y relaciones a los términos y relaciones que puedan haber sido utilizados para Lenguaje de representar el contenido de los documentos (predicción) interrogación del Motor •Transformar las expresiones resultantes en un lenguaje que extrae del sistema y aquellos documentos que cumplen los requisitos establecidos (práctica)
  20. 20. Modelo elemental para la RI según Ingwersen http://vip.db.dk/pi/iri/files/Ingwersen_IRI.pdf Representación Consulta del Archivo Invertido del Documento (Función de usuario emparejamiento)
  21. 21. El Proceso Genérico de Recuperación de Información Tramullas (2001) Necesidad de Información Definición de la necesidad del usuario Selección y ordenación de las fuentes y recursos de información a utilizar Consulta de los recursos de información Evaluación de resultados Revisión y toma de decisiones Presentación al usuario
  22. 22. ¿Cómo funciona un motor de búsqueda? Almacena Busca en el Información Índice Envía la consulta Crawler o Archivo Motor de Solicitud de Indexador Indice Búsqueda información Consigue la Adquiere lista de concordancias Regresa resultados en formato HTML (Vínculos) Información Página de Páginas HTML Resultados El usuario abre una de las paginas encontradas
  23. 23. Zipf y Luhn Términos con Términos mucha cercanos a frecuencia la Términos Constante con baja frecuencia
  24. 24. ¿Qué significa Pensar? La clave de buscar gravita en preguntarse: ¿Cómo pensamos? (El pensador de Rodin exposición en Suiza)
  25. 25. Charles Sanders Peirce
  26. 26. Tipos de razonamiento analizados por Pierce Deductivo Inductivo Abductivo Razonamiento
  27. 27. Aplicando lo anterior a la Recuperación de Información Deductivo • Directorios Web • Motores de Búsqueda Inductivo • Metabuscadores • En desarrollo (Búsqueda y Abductivo recuperación en lenguaje natural)
  28. 28. David Filo Jerry Wang
  29. 29. http://www.yahoo.com/ Captura de pantalla enero 1997 fuente: www.archive.org
  30. 30. Larry Page Sergey Brin
  31. 31. http://www.google.com/
  32. 32. Stephen Wolfram
  33. 33. http://www.wolframalpha.com/
  34. 34. A la hora de preparar una búsqueda… ¿Qué escoger?
  35. 35. Directorio Web http://www.dmoz.org/
  36. 36. Motor de Búsqueda http://www.exalead.com/search/
  37. 37. Metabuscador http://www.dogpile.com/
  38. 38. Recuperar a partir de operadores búsqueda en Google Link: Lista todos los enlaces, que teniendo page rank 4 o más, Inurl: Busca la palabra que le especifiquemos en la url, pero apuntan a nuestra página. Su uso es sencillo: no pide que todas estén en la url como allinurl. link:www.direccion.com Intitle: Busca la palabra que le especifiquemos en el título, Allinurl: Muestra todas las páginas indexadas de un dominio pero no es necesario que todas estén en el título. Por ejemplo indicado, o bien, las páginas que tienen todas las palabras intile:clave1 clave2 Busca clave1 en la url. especificadas en su url. Su sintaxis es: Cache: Nos lleva directamente a la versión que tiene google allinurl:www.dominio.com de una determinada página. cache:www.dominio.com Y Allintitle: Muestra las páginas que tienen todas las palabras directamente a la caché que tiene almacenada google de especificadas en su título. allintitle: palabra1 palabra2 www.dominio.com. Devuelve las páginas que tienen palabra1 y palabra2 en su Related: Según google nos muestra sitios relacionados con la título. dirección que le especifiquemos, a saber que criterio sigue, Allintext: Páginas que tengan todas las claves especificadas porque los resultados más que malos, son nulos. No merece dentro de su body. la pena usarlo. Allinanchor: Páginas que tengan en el texto que las apuntan Stocks: Nos lleva a Yahoo Finance y nos muestra información las palabras especificadas. de tipo financiero relacionada con la marca que le Site: Indica un determinado dominio que le indiquemos para indiquemos. realizar la búsqueda. Carece de sentido si no le especificamos Filetype: Busca un tipo de documento especificado, por algo más. Un ejemplo de su uso sería: site:www.dominio.com ejemplo: filetype:doc clave Busca ficheros '.doc' relacionados +palabra Esto busca todas las páginas con alguna ocurrencia con 'clave'. ¿Útil, no?. 'palabra' dentro del dominio especificado. Define: Este es el comando más reciente; busca la definición Info: Nos muestra información sobre la página principal de un de una palabra indicada, de momento sólo funciona con dominio especificado.info:www.dominio.com palabras en inglés. Uso: define:mouth. http://www.google.com/
  39. 39. Motores de Multimedia • Sonidos • http://www.musicovery.com/ • http://www.midomi.com/ • http://www.musipedia.org/query_by_humming.0.html • http://tunespotting.com/ • Imágenes • http://www.snaptell.com/ • http://pro.corbis.com/ • http://browse.deviantart.com/
  40. 40. Web invisible • www.internetinvisible.com • www.completeplanet.com
  41. 41. Otros recursos para recuperar información en la web
  42. 42. http://www.archive.org/
  43. 43. http://pro.corbis.com/
  44. 44. http://www.midomi.com/
  45. 45. http://www.kartoo.com/
  46. 46. ¿Qué es la Web Es una extensión de la Web actual dotada de significado, esto es, un espacio donde la información tendría un significado bien definido, de manera Semántica? que pudiera ser interpretada tanto por agentes humanos como por agentes computerizados. (Tomado de: Lamarca) El objetivo de la Web Semántica es que la Web pase de ser una colección de documentos a Fuente: Mapa conceptual de la Web Semántica. Keilyn Rodríguez Perojo y Rodrigo Ronda León. quot;Web Semántica: un nuevo enfoque para la organización y recuperación de información en la webquot;. convertirse en una base de conocimiento. Acimed, vol. 13, núm. 6, November-December 2005. http://bvs.sld.cu/revistas/aci/vol13_6_05/aci030605.htm
  47. 47. http://193.108.42.79/ikea-es/flash_files/bot.html
  48. 48. DESARROLLAR HABILIDADES INFORMATIVAS
  49. 49. 1. Los libros están para el Shiyali Ramamrita Ranganathan uso 2. Cada libro tiene su lector 3. Cada lector tiene su libro 4. Salve el tiempo del lector, o él salvara su propio tiempo tomando un atajo a la información , a costa de su calidad 5. La biblioteca es un organismo vivo que crece
  50. 50. Necesidad Valoración Uso de la Información Decisión Análisis Aplicación Expresión Generalización Aprendizaje Inicio Evaluación Uso Localización Organización Comunicación Búsqueda Categorización Uso ético Selección Estructuración Reconocimientos Recuperación Organización Estándares de estilo [*] IFLA. Guidelines on information literacy for lifelong learning. Veracruz : La federación, 2006. 60 p. [Texto en línea]. [Consultado el: 3 de septiembre de 2006]. Disponible en Internet: <http://www.ifla.org/VII/s42/pub/IL-Guidelines2006.pdf>.
  51. 51. … La Biblioteca generalmente esta orientada al usuario pero… Nini Marshall en la película: “hay que educar a Nini” Afiche de la Biblioteca Nacional de la Argentina 2005
  52. 52. … Existe algo llamado ¡Ansiedad causada por la Biblioteca!
  53. 53. La Ansiedad de la Biblioteca ¿Qué es y Por qué sucede? Ansiedad Satisfacción
  54. 54. La Ansiedad de la Biblioteca ¿Qué es y Por qué sucede? Bibliotecario Bibliotecario ayer hoy Custodio Ayudantes Guardián Guías
  55. 55. ¿Qué es la Ansiedad causada por la Biblioteca? Es una combinación de emociones experimentadas por muchos usuarios (especialmente por los que pisan por primera vez una biblioteca. Se caracteriza porque el usuario: • Comienza a sentirse abrumado por el tamaño de los libros o de los resultados de una búsqueda. • No sabe como buscar información, ni como esta organizada la biblioteca o la web. Fuente: http://www.smcm.edu/Users/cerabinowitz/BYTE/sld005.htm
  56. 56. ¿Qué es la Ansiedad causada por la Biblioteca? (continuación) – Carece de seguridad en si mismo acerca de cómo comenzar a trabajar en las tareas y trabajos asignados. – Sentimiento de ineptitud (“Soy el único que no sabe”) – Vacila para preguntar (“Yo se que esta es una pregunta tonta…”) Fuente: http://www.smcm.edu/Users/cerabinowitz/BYTE/sld005.htm
  57. 57. ¿Qué es la Ansiedad causada por la Biblioteca? El usuario e incluso el referencista son de cierta manera detectives que tiene que descifrar códigos confusos , perderse en laberintos y hoy en día lidiar con las TIC, la cual aumenta su ansiedad en caso de no dominarla
  58. 58. Ante ello uno como bibliotecario debe tener una … ena disposición de servicio
  59. 59. Ante ello uno como referenciasta debe tener una buena disposición para ayudar
  60. 60. ¿Qué Podemos Hacer para Aliviar la Ansiedad de la Biblioteca?
  61. 61. Modelos MODELO GAVILÁN http://www.eduteka.org/imprimible.php?num=487&catx=1
  62. 62. “que cada ojo trate por cuenta propia, sin fiarse en mediador .” William Shakespeare, Mucho ruido y pocas nueces
  63. 63. ¿Qué es el pensamiento crítico? • Mona McCormick: – Es la habilidad para distinguir los hechos de la ficción, para establecer opiniones, y para reflexionar sobre el por qué aceptamos los “hechos” y estamos de acuerdo con las opiniones de otros.
  64. 64. Evaluar sitios Web • Accesibilidad – W3C MarkUp Validation Service. http://validator.w3.org/ Servicio de Verificación de marcas o etiquetas del W3C que chequea si los documentos HTML son conformes con las Recomendaciones del W3C World Wide Web Consortium para los estándares HTML y XHTML.
  65. 65. Taller de Evaluación • http://lemachett.googlepages.com/tallerbibliotic
  66. 66. Si consideramos los motores de búsqueda en la Web actuales llegamos a la conclusión: •Se siguen utilizando los índices que son muy similares a los utilizados por los bibliotecarios hace un siglo. •¿Qué ha cambiado entonces en la Búsqueda?
  67. 67. Cambios en la RI en un entorno “interactivo” Por primera vez El avance en las en la historia, Es más barato 1 tener acceso a diversas fuentes de información 2 TIC ha proporcionado un mayor acceso a las redes. 3 muchas personas tienen acceso libre a la publicación en un gran medio
  68. 68. Preguntas a futuro de la RI en un entorno “interactivo” • En el mundo dinámico de la Web y de las Bibliotecas 1 digitales ¿Cuáles son las técnicas que permiten recuperar información de mayor calidad? A gente que le resulta difícil o imposible hacerlo 2 • ¿Cuáles son las técnicas que indizan más rápido, reduciendo el tiempo de consulta? 3 • ¿Cómo mejoramos la comprensión del comportamiento del usuario en relación al diseño y desarrollo de nuevas estrategias de recuperación de información?
  69. 69. Cuestiones prácticas Seguridad • Transacciones Seguras Intimidad • Con frecuencia, las personas están dispuestas a sacrificar su intimidad por información con tal de que no se convierta esta en información pública Derechos de autor • Legislación , Fare use, CC, Derechos de Autor, Canón, Digitalización • OCR (Google Books) El intercambio de idioma de la recuperación • Se consulta en un idioma y se recuperan los documentos en otros idiomas
  70. 70. Para saber más • Opte Project: http://opte.org/maps/ • Web Semántica: http://www.w3c.es/Divulgacion/Guiasbreves/We bSemantica • Hakia vs Google: http://club.hakia.com/challenge/default2.aspx?q = • Noticia sobre Wolfram-Alpha: http://www.elpais.com/articulo/internet/primer/ buscador/inteligente/elpeputec/20090507elpepu net_3/Tes
  71. 71. Recuerde que de usted depende hacer un buen uso de las herramientas e igualmente debe velar por lograr que sus usuarios desarrollen sus propias habilidades en el acceso, la evaluación y el uso de la información en la Web.
  72. 72. Leonardo MACHETT ALFABETIZACIÓN INFORMACIONAL lemachett@gmail.com http://bajoelmanzano.blogspot.com Twitter: lemachett
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×