Your SlideShare is downloading. ×
alfin07.01 - ed 02. herramientas para la búsqueda y recuperación de información
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

alfin07.01 - ed 02. herramientas para la búsqueda y recuperación de información

2,077
views

Published on

Tutorial correspondiente al curso alfin 07 del Programa de alfabetización informacional de la BUJA

Tutorial correspondiente al curso alfin 07 del Programa de alfabetización informacional de la BUJA

Published in: Education, Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,077
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
89
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. alfin07.01 universidad de jaén vicerrectorado de extensión universitaria, deportes y proyección institucional edición 02. 2012
  • 2. es saber cuándo y por qué necesitas información, dónde encontrarla, y cómo evaluarla, utilizarla y comunicarla de manera ética alfabetización informacional Competencia 1. Comprender la necesidad de información. Competencia 2. Conocer los recursos disponibles. Competencia 3. Saber cómo encontrar la información. Competencia 4. Comprender la necesidad de evaluar los resultados. Competencia 5. Saber cómo trabajar con los resultados y explotarlos. Competencia 6. Comprender la necesidad de ética en el uso de la información. Competencia 7. Saber cómo comunicar y compartir tus resultados. Competencia 8. Saber cómo gestionar lo que has encontrado.
  • 3. ● alfin.06 recursos informativos en las distintas Áreas ● alfin.07 herramientas para la búsqueda y recuperación de información ● alfin.08 evaluación de la información ● alfin.09 derechos de autor y propiedad intelectual ● alfin.10 edición electrónica. publicar en la red. la web 2.0 ● alfin.11 gestores bibliográficos
  • 4. objetivo Conocer los motores de búsqueda: qué son y para qué sirven. Capacitar al usuario en el manejo de ResearchPro, el motor de búsqueda implementado en la Biblioteca de la Universidad de Jaén.
  • 5. contenidos Motores de búsqueda en la Web Buscadores Metabuscadores Directorios Estrategias de búsqueda en la red Los mejores buscadores y Metabuscadores Generación Google e información científica Nuevos portales bibliotecarios Concepto de metabúsqueda Tipos de productos de metabúsquedas Metabuscadores Herramientas de portales bibliotecarios Soluciones comerciales La biblioteca de la Universidad de Jaén Colección digital ResearchPro Ejercicios prácticos
  • 6. nunca antes tanta información ha sido accesible desde múltiples plataformas Alfin 07. herramientas para la búsqueda y recuperación de información
  • 7. Aparecen nuevos conceptos…que nos suenan a todos •infosociedad •infoestructura •sociedad informacional •sociedad red •interconectividad •tecnocultura •ciberespacio •net.cultura ...
  • 8. pero también hablamos de ... exclusión digital brecha digital
  • 9. •Alfabetización en herramientas: conocimiento y uso de las herramientas de TI •Alfabetización en recursos: conocimiento de las formas y métodos de acceso a los recursos informacionales •Alfabetización investigadora: uso de TI para la investigación y el trabajo académico •Alfabetización en las tecnologías incipientes: capacidad para comprender las innovaciones en TI y para tomar decisiones inteligentes •Alfabetización crítica: capacidad para evaluar de forma crítica los beneficios y costes de las TI ... Shapiro y Hughes
  • 10. ¿Qué es Internet? • Un inmenso conjunto de redes de ordenadores que se encuentran interconectadas entre sí, dando lugar a la mayor red de redes de ámbito mundial • Millones de equipos comparten información y recursos, y millones de personas se comunican entre sí de forma electrónica • Un fenómeno sociocultural de importancia creciente, una nueva forma de entender las comunicaciones que está transformando el mundo
  • 11. 4 adjetivos • grande : la mayor red de redes de ordenadores del mundo (y la que más deprisa crece) • cambiante: en continua adaptación a las nuevas necesidades y circunstancias • diversa: da cabida a todos los equipos, fabricantes redes, tecnologías y medios físicos de transmisión, usuarios, etc • descentralizada: no existe una autoridad central, es una “unión cooperativa” en la que cada una de las miles de redes conectadas conserva su independencia, aunque hay unas normas y procedimientos comunes que garantizan la intercomunicación.
  • 12. cómo y cuándo.. Internet, que se originó en el ámbito militar durante la guerra fría, se había desarrollado más allá de los propósitos originales como resultado de su uso por parte la comunidad científica internacional, que necesitaba nuevos sistemas de distribución de la información en el principio fue un desarrollo del Departamento de Defensa USA…y estamos en los años 60
  • 13. A finales de la década de los ochenta la interconexión de miles de redes de área local había convertido Internet en el mayor almacén de datos que jamás hubiese existido, pero también en el más caótico
  • 14. ¿cómo funciona? La característica primordial de Internet es la de ser un sistema universal de comunicaciones capaz de acomodar la más absoluta diversidad. El aglutinante es el conjunto de normas y lenguajes comunes de comunicación entre sistemas, conocido como familia de protocolos TCP/IP que permiten la transmisión de datos
  • 15. Este nombre genérico engloba más de 100 normas o protocolos abiertos que se han convertido en estándar “de facto”. Cada uno da solución a un aspecto específico. Su nombre hace referencia a los dos protocolos más importantes: -IP (Internet Protocol): transmite los datos de un lugar a otro de forma fragmentada (en paquetes) -TCP (Transmission Control Protocol) :asegura una comunicación segura y fiable
  • 16. Entre estos 100, muchos nos son familiares: •HTTP (HyperText Transfer Protocol), que es el que se utiliza para acceder a las páginas web •FTP (File Transfer Protocol) para transferencia de archivos •SMTP (Simple Mail Transfer Protocol) y el POP (Post Office Protocol) para correo electrónico •TELNET para acceder a equipos remotos
  • 17. la arquitectura de la red Sigue el modelo cliente-servidor: un paradigma de división del trabajo informático en el que las tareas se reparten entre un número de clientes que efectúan peticiones de servicios de acuerdo con un protocolo, y un número de servidores que las atienden
  • 18. Las nuevas tecnologías permitirán la idea de una red de elementos de información libremente accesible alrededor del mundo y será posible en la World-Wide-Web
  • 19. Internet como telaraña: el World-Wide-Web El proyecto World-Wide-Web del CERN, dirigido por Tim Berners-Lee, supone otra vuelta de tuerca en el intento de poner efectivamente al alcance de los usuarios el espacio virtual de conocimiento que es Internet: un interface unificado para el acceso a información distribuida CERN Organización Europea para la Investigación Nuclear
  • 20. Se pretendía que los recursos disponibles en formato electrónico, que residen en ordenadores distintos conectados a la red, fuesen accesibles para cada investigador desde su terminal, de forma transparente y exento de dificultades, sin necesidad de aprender a utilizar varios programas distintos. Además, debería posibilitarse el salto entre elementos de información conexos. Los recursos existentes deberían integrarse en una red hipertextual distribuida gestionada por ordenadores.
  • 21. la explosión Web Las primeras instalaciones del WWW para uso interno del CERN estuvieron listas en 1991. Ese mismo año el sistema se abrió ya a Internet El éxito del WWW, el crecimiento de la telaraña, ha sido espectacular
  • 22. qué era necesario?  Diseñar e implementar un nuevo protocolo que permitiera realizar saltos hipertextuales: Este protocolo se denomina HTTP (HyperText Transfer Protocol) y es el "lenguaje" que "hablan" los servidores del WWW.  Inventar una lengua para representar hipertextos que incluyera información sobre la estructura y el formato de representación y, especialmente, indicar origen y destino de saltos hipertextuales. Este lenguaje es el HTML o (HyperTextex Markup Language).  Desarrollar aplicaciones cliente (navegadores) para todo tipo de plataforma y resolver el problema de cómo acceder a información que está almacenada y es accesible a través de protocolos diversos (FTP, HTTP,TELNET etc.) y representar información multiformato (texto, gráficos, sonidos, vídeo, etc.) : Netscape, Internet Explorer, Mozilla..
  • 23. quién no conoce estos logos?
  • 24. Direcciones URL Las páginas Web que encontramos en Internet se designan mediante lo que se llama la dirección URL (Universal Resource Locator: Localizador Universal de Recursos). Cuando queremos cargar de la red una página, escribimos su dirección URL en la celda dispuesta para este propósito en el navegador. Ejemplo: http://www.microsoft.com. Una URL tiene tres partes:  Siglas del Protocolo: indican qué protocolo vamos a usar para la transmisión de datos. Normalmente, se pone después del protocolo los siguientes caracteres: “://”, por lo que las siglas del protocolo de páginas Web serán: “http://”.  Nombre de Dominio del ordenador servidor : indica qué ordenador servidor de Internet nos va a dar la información solicitada. Las tres letras “w” del principio indican que el ordenador está destinado a servir páginas Web en Internet. 28
  • 25. ejemplos de dominios de nivel superior geográficos ejemplos de dominios de nivel superior genéricos Cada nombre de dominio termina en un dominio de nivel superior que es siempre o bien uno de una pequeña lista de nombres genéricos (tres o más caracteres), o un código territorial de dos carácteres . 29
  • 26. Ips, dominios, URL Una IP es un número que identifica de forma jerárquica un dispositivo dentro de una red (por ejemplo 192.0.32.10 ) Un dominio de Internet es un nombre base que agrupa a un conjunto de dispositivos. No es más que un alias (o seudónimo) de una dirección IP. El Sistema de Nombres de Dominio (Domain Name System, DNS) traduce los nombres de dominios y sus correspondientes direcciones IP. (192.0.32.10 = example.com) Una URL (uniform resource locator = localizador uniforme de recursos) es una secuencia de caracteres, de acuerdo a un formato modélico y estándar, que se usa para nombrar recursos en Internet para su localización o identificación, como por ejemplo documentos textuales, imágenes, videos, presentaciones digitales, etc. 30
  • 27. Evolución de internet • Etapa militar. ARPANET, departamento de defensa de Estados Unidos (1969) proyecto para enlazar ordenadores para intercambiar datos y programas sin necesidad de utilizar otros dispositivos. En 1979 se componía de más de 100 ordenadores y en 1980 se establecen los protocolos TCP/IP. • Etapa universitaria y de investigación. En 1983 se separa la red militar de la red civil, la red civil dará lugar a internet, más de 500 ordenadores de instituciones de investigación de Estados Unidos se intercambiaban información. Se estable el sistema DNS (Nombre de dominio) • Etapa popular. En 1989, ya había más de 100000 ordenadores conectados. El CERN establece la primera versión de Word Wilde web, con el objetivo de intercambiar información que incluya texto, imágenes y sonido entre científicos. En esta época se produce el desarrollo del ordenador personal, de las redes de comunicaciones y de los proveedores de servicios, la red deja de ser algo científico • Etapa comercial. En los años 90 la popularidad de internet hace que las empresas vean en ella una nueva forma de negocio y de dar a conocer sus productos y servicios. • Web 2.0 en el 2001 se produce la crisis de “la burbuja tecnológica” desaparecieron muchas empresas.com y se acuña el término web 2.0. basado en la arquitectura de la participación, involucrar al propio ciudadano y conseguir su colaboración para dar valor añadido a los servicios creando sus contenidos y organizando los mismos. • Web móvil. contenido + participación + movilidad. Se pierde calidad pero se gana inmediatez
  • 28. explosión informativa en la web Para organizar la masa de información se vienen desarrollando herramientas documentales que pretenden hacer posible una recuperación rápida, efectiva y eficiente de la información Son sistemas IR conocidos como buscadores, absolutamente imprescindibles a la hora de movernos por la red
  • 29. En la actualidad encontramos 3 líneas claras de investigación en el desarrollo de internet • Aumento de la facilidad de uso Búsqueda en Lenguaje Natural, extensión semántica (sinónimos, errores..), traducción.... • Aumento de la potencia de búsqueda Facilitadores de búsquedas (agentes), metabuscadores... • Mejora de los criterios de relevancia 33
  • 30. de dónde obtenemos información hoy…?  buscadores el 85% de los internautas comienzan por ahí (Michael K. Bergman: The Deep Web: Surfacing Hidden Value - 2003)  bases de datos  sitios especializados o portales dedicados  revistas científicas  sitios integradores ….
  • 31. • acelerada tasa de crecimiento • incremento de la tasa de obsolescencia • amplia variabilidad en la calidad y fidelidad de los datos • amplia variación en los tipos de comunicación • gran número de fuentes, formatos y presentaciones por su propia naturaleza la información presenta de forma permanente:
  • 32. Cosas a tener en cuenta • internet visible:  25.000 millones de páginas.  7.3 millones de paginas diarias se indexan.  40% son alcanzadas por los buscadores.  páginas estáticas • internet invisible  550 veces mayor que la web visible  páginas generadas en forma dinámica, Bases de datos en la web, diferentes tipo de archivos. 2Internet en uno que suman 7500 terabytes de información
  • 33. Proceso de documentación • Necesidad de información • Definición de la búsqueda (qué recurso usar, qué ecuación de búsqueda realizar) • Recuperación de la información • Evaluación de la pertinencia de la misma • Almacenamiento y tratamiento documental (descripción del contenido del documentos, descriptores, etiquetas, palabras clave, resumen,…) 37
  • 34. Digital information Fluency Model
  • 35. Cosas a tener en cuenta • No toda la información está accesible directamente a través de Google • Hay una enorme cantidad de información de alta calidad (información estructurada) en bases de datos y otros recursos electrónicos no buscables directamente mediante Google • Esta parte de la web se llama “Internet invisible” (recursos de pago, bases de datos, catálogos de biblioteca,…) 39
  • 36. Al buscar información • Ruido documental. Recuperación de documentos no relevantes a nuestra necesidad de información • Silencio documental. Recuperación de pocos documentos relevantes a nuestra necesidad de información • Relevancia. Pertinencia de la información recuperada con relación a nuestra búsqueda (exhaustividad / precisión) • Infoxicación. Sobreabundancia de información. 40
  • 37. Necesidad del proceso documental • Es necesario conocer los recursos de información para elegir los más pertinentes a nuestras necesidades y realizar búsquedas de información eficaces (rápidas, exhaustivas, precisas y relevantes) • También la manera de interrogarlos, exportar la información a sistemas de almacenamiento locales, extraer conocimiento de la información rescatada en el entorno web y ponerla en relación con la información procedente de otras fuentes 41
  • 38. ¿Dónde buscamos información? ¿Saben que hay más información además de Internet? Seleccionar aquella fuente de información o recurso que nos será de utilidad: libros de texto, diccionarios, enciclopedias, tesis, bases de datos, catálogos colectivos, portales generales o temáticos, catálogos comerciales, instituciones, etc. Es conveniente utilizar una combinación de distintas fuentes.
  • 39. • Concretar los resultados: expresiones exactas, elimina términos • Ser preciso: limita por tipo de documento, idioma
  • 40. Estrategia de búsqueda • Definición conceptos – Descomposición tema en conceptos – Búsqueda de términos: sinónimos, genéricos, específicos, equivalencias idiomáticas • Traducción conceptos – Lenguaje libre: título, resumen, palabras clave – Lenguaje controlado: descriptores, materias • Ecuación de búsqueda – Operadores booleanos – Operadores de truncamiento – Operadores de proximidad – Operadores de comparación 44Delgado-López-Cózar, 1998
  • 41. Operadores Booleanos: AND, OR, NOT Cancer AND Pulmon 45 Cancer OR Pulmon Cancer NOT Pulmon Ejemplo y figuras extraídos de http://www.dsp.umh.es/docent/internet/boole.htm
  • 42. Otros operadores • Proximidad: cancer NEAR pulmon Busca documentos donde ambas palabras aparezcan próximas • Truncamiento: Biblio* (también puede usarse según la fuente de datos otros como ? $ !) Busca documentos donde aparezca esa raíz de la palabra: biblioteca, bibliotecarios, bibliografía, bibliometría, bibliofilia,… • Comparación: > < = ≤ ≥ ≠ 46
  • 43. Tipología de fuentes • Fuentes de información primarias. Aquélla que contiene información original (noticia, artículo, libro, fotografía, vídeo) • Fuentes de información secundarias. Recopilan la información contenida en documentos primarios (bases de datos, catálogos de bibliotecas, índices, sumarios, buscadores,…) 47
  • 44. Recursos para la investigación • Directorios • Motores de búsqueda - Generales - Especializados - Personalizados - Metabuscadores - Agentes de búsqueda • Catálogos de bibliotecas • Repositorios científicos y/o docentes • Bibliotecas digitales • Bases de datos • Fuentes oficiales 48
  • 45. aprender a buscar Es necesario definir una estrategia correcta: perder un poco de tiempo y pensar qué opciones seguir 1. Definir el objetivo y distinguir entre búsquedas generales (todo sobre un tema) y una búsqueda más concreta (una persona, una dirección, una página web, un fichero) 2. Pensar qué sabemos (parte de una dirección, el idioma, el país...) 3. Extraer palabras clave para expresar la búsqueda 4. Escoger el buscador más apropiado y consultar las ayudas para acertar en la forma de expresar la pregunta
  • 46. los buscadores 2 tipos, 2 filosofías: • directorios o índices temáticos (buscadores por categorías) • motores de búsqueda (buscadores por contenido) • La diferencia fundamental, es que los índices mantienes su base de datos “manualmente”, se estructuran por temas o categorías • Los motores emplean robots de búsqueda (spiders): potentes programas que se dedican a recorrer la Web recopilando e indizando todo el texto que encuentran.
  • 47. Buscadores vs. Directorios • Existen dos formas básicas de obtener información en la web: – La Navegación  Directorios – La Interrogación  Motores de búsqueda • Creación: – Directorios: creados y mantenidos mediante esfuerzo intelectual. – Buscadores: búsqueda de forma automática mediante programas informáticos • Resultados: – Sitios web (Directorios) vs. Páginas web y documentos (Buscadores)
  • 48. ¿Qué es un buscador? • Los buscadores, o motores de búsqueda, son sistemas de información documental que permiten realizar consultas y recuperar información contenida en la Web. • Hoy día estas aplicaciones se han convertido en la principal herramienta para acceder a los contenidos de la Web.
  • 49. La elección entre motores y directorios, y dentro de cada grupo la inclinación hacia uno en concreto, debe hacerse conociendo lo que podemos esperar de ellos, las posibilidades que nos ofrecen y los servicios de valor añadido que presentan estos sistemas de recuperación de información directorios versus motores
  • 50. • Tipo de sitio web que contiene un conjunto de enlaces organizados a otros sitios web, bajo una estructura jerárquica • Muy comunes en los comienzos de Internet Directorios
  • 51. Poco usados en la actualidad debido a: 1. estética poco atractiva (colecciones de enlaces) 2. incapacidad para clasificar la información de Internet de forma automática 3. lentitud respecto a los buscadores 4. Desactualización 5. Reflejan la visión del mundo de quien los elabora
  • 52. Sin embargo, la navegación a través de directorios (browsing) es común en sitios web de éxito, complementando a los motores de búsqueda internos Las webs, y especialmente las tiendas online siempre intentan ofrecerle al usuario la mayor gama de opciones para que accedan a sus productos La categorización de la información (arquitectura de contenidos) determina en gran medida el grado de éxito de una web Amazon. http://www.amazon.com/Subjects- Books/b/ref=sv_b_1?ie=UTF8&node=1000 El Corte Inglés. http://www.elcorteingles.es
  • 53. Un directorio de direcciones de sitios web donde miles de usuarios hacen de editores clasificando y manteniendo actualizadas las direcciones y descripciones del mismo. Colaboran de forma desinteresada más de 46.000 personas de todo el mundo y hay clasificados más de 3 millones de sitios web
  • 54. El Open Directory Project es el directorio editado por personas más extenso y más completo del Web. Su construcción y mantenimiento son realizados por una gran comunidad global de editores voluntarios.
  • 55. Son más útiles para buscar por áreas de interés temático que por palabras. Otros directorios y guías
  • 56. Motores de búsqueda Los motores emplean un robot de búsqueda : potentes programas que se dedican a recorrer la Web recopilando e indizando todo el texto que encuentran, formando grandes bases de datos en lasque se realizará la búsqueda por medio de palabras clave.
  • 57. Funciones de un motor de búsqueda 1. Acceder a sitios web, localizar y descargar documentos. 2. Extraer el contenido textual (y multimedia) de los documentos descargados. 3. Analizar e indexar el contenido de los documentos para construir los índices del motor. 4. Realizar el análisis de enlaces de cada página y otorgar alguna medida de popularidad. 5. Permitir la formulación de consultas mediante palabras clave. 6. Facilitar el acceso a los resultados de una consulta ordenándolos conforme a unos criterios de relevancia.
  • 58. Componentes de un motor de búsqueda • Un motor de búsqueda consta de un conjunto de programas que trabajan cooperativamente. Son: 1. Rastreador del motor de búsqueda o Spider. 2. Sistema de recuperación de información: • Índices directos • Índices invertidos 3. Interfaz: • Formulario de consulta • Página de resultados 4. Software de relevancia.
  • 59. Interfaz de consulta • El formulario de consulta para enviar la pregunta a otra parte del sistema que compara los términos de la pregunta con los índices y filtra las páginas • Nos presenta los resultados de la forma más clara y eficiente a través de la página de resultados. • Los resultados deben presentar un orden significativo aqui interviene el algoritmo de de calculo de relevancia que es lo que va a marcar la diferencia entre un buscador y otro
  • 60. Página de resultados (I) • Presenta la lista de documentos organizados en un ranking. Ofrece las siguientes informaciones: – Título de la página (o del documento). – El tipo del documento (cuando no es HTML). – Unas líneas de descripción del contenido del documento. – URL de la página. – Tamaño de la página web. y opciones:
  • 61. Página de resultados (II) • Opciones: – Obtener una versión traducida de la página con traducción automática (en general muy deficiente). – Ver la página en la caché – Buscar páginas con contenidos similares. – Navegación secuencial entre los resultados o yendo a una página de resultados concreta (hasta la página 90 más o menos). – Restringir la siguiente búsqueda a los resultados obtenidos.
  • 62. Presentación de resultados Clusters Se agrupan objetos similares mediante algoritmos matemáticos, agrupa los resultados en conjuntos en función de la similitud de contenidos Relevancia criterios internos aspectos estadísticos de ocurrencia de la palabra o palabras de la pregunta y de el lugar que ocupa en la página . criterios externos que se basan en el análisis de enlaces de la página considerada.
  • 63. se impuso desde el principio no sólo por la relevancia de los resultados ofrecidos como buscador sino también por su diseño austero y simplicidad de uso. 1995: la fecha Sergey Brin, Larry Page:los nombres
  • 64. el comienzo y curiosidades • Alumnos de la universidad de Stanford, comienzan a trabajar en el “Digital Library Project” en un algoritmo de búsqueda de datos que posteriormente sería la base de Google • En enero de 1996 comienzan el trabajo en su buscador al que llaman BackRub. Un año después este buscador ya tenía indexadas 24 millones de páginas. • Google viene de Googol que es como originariamente debía haberse llamado. El Googol es un número matemático, el 1 seguido de 100 ceros, que no tiene ninguna utilidad relevante, pero al representar una cantidad tan alta fue el elegido por Larry y Sergey. El nombre a este número fue dado por el matemático estadounidense Edward Kasner que le pidió a su sobrino que inventase un nombre para un número muy grande. El libro apareció en 1938 bajo el título “Las matemáticas y la imaginación”. • Cuando se fue a registrar el nombre para el buscador, un error tipográfico hizo que se registrase Google en lugar de Googol, algo que a la larga ha salido bien ya que Googol era un dominio que ya estaba comprado. • Aunque si nos pusiésemos extremadamente escrupulosos, habría que decir que ya existía un Google antes de que el sobrino de Edward Kasner bautizase así a un número y posteriormente un error tipográfico le diese nombre a un buscador de internet. Pues al parecer el Google es un horrible monstruo que vive en un lejano país, según The Google Book, un libro para niños escrito en 1913.
  • 65. • Simplicidad de uso • Puede utilizarse en más de 100 idiomas • Admite operadores booleanos • Acepta palabras como Site: define : • Algoritmo de búsqueda PageRank • Puede leer el contenido de ficheros en formatos distintos a HTML
  • 66. «La misión de Google es organizar la información mundial, haciéndola usable y universalmente accesible. Fundado en 1998 por Larry Page y Sergey Brin, salió a bolsa el 19 de Agosto de 200» El Planeta: Google :una industria ramificada Por Gurus Stein el 8 Febrero, 2010 70 que cotiza en bolsa
  • 67. PageRank Es el núcleo del software de Google: un sistema de clasificación de páginas. Basado en la extensa estructura de vínculos de la web, como indicador del valor de una página individual: intrepreta un link desde A a B, como un voto de la página A a la página B. Revisa además del número de links que una página recibe, la página que emite el voto. Los votos emitidos por páginas en sí mismas “importantes” pesan más
  • 68. Google • Mantiene todas las ventajas de un robot de búsqueda automática (consigue rastreos muy amplios) pero intenta eliminar el problema de información de baja calidad • Aplica como criterio principal para ordenar los resultados el criterio de cita bibliográfica y no el número de veces que una palabra clave se repite en una página (por ejemplo) • Su algoritmo mide 200 variables que cambian constantemente para clasificar la información
  • 69. • Google se está convirtiendo en un motor de búsqueda que comprende no sólo el contenido, sino también personas y las relaciones. Ha incorporado nuevas funcionalidades que le acercan al concepto de web social. • Resultados personales, que permiten encontrar la información personalizad, tales como Google + fotos y mensajes, grupos de amigos • Perfiles de búsqueda, que permiten encontrar de inmediato a la gente que te interesa. Las personas y páginas, nos permite encontrar perfiles de las personas y las páginas relacionadas con un tema específico o área de interés, y seguirlos con unos pocos clics. Google social
  • 70. Google: Un buscador y mucho más La barra de Google nos permite utilizar diversas herramientas con un solo clic y personalizarla añadiendo vínculos a distintas páginas
  • 71. 75 Operadores … mejorar la búsqueda •Búsqueda de inclusión: + un espacio antes de su uso •Búsqueda de exclusión: - colocado delante del término que quieres excluir, dejando un espacio •Búsqueda mediante el operador or •Definiciones define: •Buscar frases completas: las comillas •Búsqueda de dominios: término específico de búsqueda seguido de site dos puntos y el nombre del sitio web Ejemplo: Préstamo site:www.ujaen.es/serv/biblio/ •Búsqueda de intervalos numéricos: Buscar un televisor que cueste entre 1000 y 1500 euros, Televisor 1000..1500 €
  • 72. 76
  • 73. 77 Opciones de búsqueda -filtro por tipo de información: noticias, imágenes, blogs,… - Idioma - Fechas – rango de fechas - -páginas visitadas o no
  • 74. Detección de errores 80
  • 75. La búsqueda avanzada nos permite buscar por frase exacta, excluir palabras, seleccionar idioma, región, formato… Motores e búsqueda en formato PDF
  • 76. 83 Funciones especiales en la búsqueda de Google • CALCULADORA • Ejemplo: (4*5)/10 • CONVERSIÓN DE MONEDA • Ejemplo: 100 eur a usd
  • 77. Google ha ido introduciendo mejoras en sus búsquedas: • Hace correcciones automáticas de ortografía • personaliza la búsqueda mediante el uso de la información tales como los sitios que ha visitado antes • incluye sinónimos de los términos de la búsqueda • la búsqueda de palabras con la misma raíz Además en el menú lateral ofrece la posibilidad de una serie de herramientas como Verbatim que fuerza una búsqueda exactamente con los términos solicitados. Una búsqueda estándar incluye una serie de automatizaciones para mejorar su precisión, como corrector de escritura, personalización en base a tu historial de navegación, inclusión de sinónimos, supresión de términos que considere opcionales, etc.
  • 78. También podemos buscar imágenes
  • 79. Y videos
  • 80. YouTube También tiene su apartado académico http://www.youtube.com/edu
  • 81. http://www.google.es/coop/cse/
  • 82. Y buscar códigos, blogs, grupos, ver quien enlaza con nuestra página, crear nuestra página y nuestro blog... Su propio laboratorio donde cada día se prueban nuevas ideas
  • 83. Otros motores muy conocidos
  • 84. Más allá de Google: Nuevos motores de búsqueda • Google, a pesar de tener la mayor base de datos de páginas en la web y de poseer una relevancia adecuada, sufre de un defecto grave: devuelve demasiados resultados y, por tanto, es difícil clasificar la información • intentan reemplazar a Google, al atacar los defectos de éste. Algunos mejoran la relevancia de resultados de búsqueda, otros mejoran la clasificación • ejemplos son: Teoma – Vivisimo - clusty
  • 85. Busca mejorar la relevancia, ya que estudia la reputación de una página entre sus otras similares que tratan el mismo tema. Teoma busca páginas que concuerden con los términos de la búsqueda. El grupo resultante se organiza por tópicos, y el motor determina cuáles son los sitios más adecuados luego de contar cuántos links conducen a esa página en otros sitios que forman parte de una comunidad temática. Eso garantiza, por lo menos, una opinión experta.
  • 86. Yippy utiliza inteligencia artificial para agrupar las páginas y organizarlas como un árbol jerárquico ("cluster" significa rama o racimo). A su vez, las ramas son desplegables, lo cual nos permite ir profundizando en los resultados seleccionados, de una forma bastante natural. Eso facilita que se pueda encontrar la información con mayor facilidad y rapidez. http://search.yippy.com/
  • 87. TouchGraph hace: crea bolas relacionadas entre ellas cuyo tamaño es proporcional a la relevancia del resultado. El gráfico central es un conjunto de esferas mostrando los resultados más importantes en google Es la versión de pago de Google Algunos ejemplos
  • 88. Amazon.com ha puesto a funcionar oficialmente su buscador A9.com A diferencia de sus principales competidores –Google, Yahoo y Microsoft–, los resultados en A9 se despliegan en dos columnas: por un lado, las páginas relacionadas con el término tecleado, y por el otro, la imágenes que se ajustan a los criterios de búsqueda. Además, los resultados de texto incorporan un botón que redirigen a Alexa (subsidiaria de Amazon) y que informa del número de visitas, páginas que enlazan o persona de contacto de la Web sobre la que se pincha. Entre las novedades que incorpora este nuevo buscador, destaca la posibilidad de guardar favoritos y hacer búsquedas en ellos, o contar con un ‘diario’ en el que añadir notas a los resultados.
  • 89. la web semántica Web extendida y más… http://www.w3c.es/
  • 90. • “Dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de más semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias a la utilización de una infraestructura común, mediante la cual, es posible compartir, procesar y transferir información de forma sencilla. Esta Web extendida y basada en el significado, se apoya en lenguajes universales que resuelven los problemas ocasionados por una Web carente de semántica en la que, en ocasiones, el acceso a la información se convierte en una tarea difícil y frustrante. si tenemos curiosidad: http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica
  • 91. una web inteligente • Implica dotar a le red de un alto grado de inteligencia y modificar mucha de las premisas sobre las que opera actualmente • Será una extensión de las capacidades de la actual red mediante lenguajes y herramientas que permitan almacenar la información estructurada de tal forma que su significado sea comprensible para las máquinas desde el punto de vista del análisis semántico
  • 92. No busca por palabras claves sino a partir de preguntas tal como las formularíamos nosotros
  • 93. metabuscadores Los metabuscadores permiten realizar preguntas desde una única pantalla una búsqueda y lanzarla al mismo tiempo contra múltiples motores (Lycos, Infoseek, Excite, Altavista, etc) No buscan por sí mismos: se limitan a pedir a otros que busquen por él, lo que permite buscar en varios buscadores al mismo tiempo Comparan los enlaces devueltos para evitar repeticiones y colocarán primero los más repetidos ya que se consideran más importantes al estar dados de alta en más buscadores
  • 94. El término metabuscador o megabuscador, o también metaengine, megasearcher, parallel search engine, multiple search engine, etc, designa interfaces en las que se pueden usar varios motores de búsqueda al mismo tiempo.
  • 95. http://www.metacrawler.com/
  • 96. http://www.dogpile.com/ http://www.dogpile.com/
  • 97. Agentes de búsqueda • Los agentes inteligentes permiten rastrear la web, encontrar cambios en páginas web predeterminadas y recuperar los resultados de una búsqueda predefinida, incluso en la web invisible • Aunque puede ser muy útil para determinados usuarios expertos, en general estas herramientas han sido superadas por el RSS y los agregadores • Ejemplo: Copernic Agent y Copernic Tracker http://www.copernic.com/en/products/agent/ http://www.copernic.com/en/products/tracker/ 123
  • 98. Creación de alertas y suscripción a listas de correo • Alertas: configurar una búsqueda de información para que se actualice periódicamente con los nuevos resultados hallados mediante un correo electrónico • Listas de correo: Suscripción a un servicio de información de carácter especializado y periódico Productos de Google como News o Blogs, bases de datos científicas como WOS o Scopus o fuentes oficiales como el BOJA permiten la suscripción a la información de nuestro interés 124
  • 99. Alertas de Google Académico 125
  • 100. Suscripción a lista de correo 126
  • 101. RSS • Sin embargo muchas webs permiten suscribirse a sus contenidos mediante RSS • Esta tecnología posibilita acceder a la información de nuestro interés a medida que ésta se va generando. • Es necesario un programa llamado agregador o lector de feeds (o lector RSS) para acceder a los contenidos 127
  • 102. Agregación y sindicación de contenidos • Agregación: consiste en "absorber" de fuentes de contenidos externas los archivos RSS • Sindicación: redifusión de contenidos desde una fuente original a otro sitio web, es decir, poner contenidos a disposición de terceros (publicar), generalmente de forma gratuita 128
  • 103. 129
  • 104. Herramientas para la agregación • Son los agregadores de contenidos. También llamados lectores de feeds, lectores RSS, readers, ... • Programas a través de los cuales accedemos a todos los contenidos a los que estamos suscritos • Son el punto de acceso más rápido y eficaz al menú informativo diario • Podemos suscribirnos a noticias, secciones, blogs, búsquedas predeterminadas, fotos, vídeos, audio,…es decir, a cualquier contenido que publique un canal RSS 130
  • 105. Herramientas para la agregación • Hay muchos agregadores distintos, aunque el más popular es Google Reader • Los canales RSS se distinguen por incorporar este icono naranja o bien la palabra RSS, Suscribirse, o alguno de los iconos de los agregadores • Es difícil localizarlos; según el tipo de navegador que usemos aparecerá en la barra de URL, en la esquina inferior derecha, en una columna de la página, o al pie de la misma • Hay varias formas de suscribirnos, siendo la más fácil pinchar directamente en el botón de RSS 131
  • 106. ventajas • Único punto de acceso para conocer las últimas novedades de nuestro interés • No tenemos que buscar la información, la información viene a nosotros • ¡Ahorro de tiempo y dinero! • Posibilidad de marcar favoritos, compartir, archivar 132
  • 107. Desventajas • Coste de adopción alto ya que hay que detectar las fuentes de información relevantes y realizar las suscripciones una a una • Es necesario integrar la lectura de las novedades en la rutina diaria de trabajo, de otro modo enseguida nos veremos desbordados por la información acumulada 133
  • 108. ¿Qué es la web 2.0? • Nace en 2004 como una etiqueta para describir una serie de aplicaciones con éxito tras el estallido de la burbuja puntocom (2001) • Posteriormente se buscaron los puntos comunes entre dichas aplicaciones, definiéndose el concepto de forma operativa • “servicios y aplicaciones web basados en la colaboración y la participación del usuario” • La definición es muy ambigua por lo que es frecuentemente criticada por ser una máscara de márketing de las empresas de Internet • Lo mejor es definirlo en base a ciertas características comunes 135
  • 109. Características de la web 2.0 • Usuario como PRODUCTOR de contenidos • Comunicación multidireccional • Interacción con la tecnología y con los otros usuarios • Todo está la “nube” • Datos, datos, datos • Las actitudes por encima de las tecnologías 136
  • 110. Tres grupos de servicios Web 2.0 La Web como Plataforma Remezclar la Web La Web Social Web2.0 Dídac Margaix, 2009 137
  • 111. La web como plataforma Concepto: Servicios web que sustituyen a las aplicaciones ejecutadas en el ordenador. Ideas clave: – La idea de Beta Perpetuo: cambio y mejora constante – Interfaces de usuario altamente interactivos – Programar para más de un dispositivo Autor: Dídac Margaix 138
  • 112. Remezclar la web • Concepto: Algunos servicios web comparten sus datos, otros los remezclan creando nuevos servicios . • Ideas clave: – Compartir, permitir la reutilización, remezclar. – Mashup o aplicación web híbrida. – Sindicación de contenidos: RSS, Atom, etc. – Originalidad, jugar, probar, experimentar. Autor: Dídac Margaix 139
  • 113. Factores en la adopción web 2.0 • Web 2.0 posible gracias a la popularización de Internet y a la vulgarización de las tecnologías (por ejemplo, el aumento de ancho de banda ha permitido que podamos colgar y ver vídeos, fotos, etc lo cual era imposible hace unos años) • De los 40 principales al Tuenti: Los nativos digitales pasan más tiempo en la web 2.0 que con tv, radio, prensa,… 140
  • 114. Factores en la adopción web 2.0 • Hemos adoptado los servicios de la web 2.0 de forma inconsciente • de repente cuando buscábamos cualquier información caíamos en un blog o un wiki antes que en las tradicionales fuentes de información fiables, reputadas y… estáticas • Esto ha sido posible gracias a las tecnologías que están debajo de la web 2.0 y a los criterios de ordenación de Google (prevalecen fuentes de actualización continua y que reciben gran cantidad de enlaces) 141
  • 115. Contenidos generados por el usuario • Este tipo de contenidos ha crecido exponencialmente en los últimos años • Tipos: blogs, microblogs, foros, wikis, listas de correo, opiniones en sitios de comercio electrónico (amazon, ebay), reseñas en webs de viajes, alojamientos, propiedades en webs de compra-venta (idealista, fotocasa) • Dudas sobre la calidad 142
  • 116. Web 1.0 Web 2.0 143 Contenido estático contenido dinámico Usuarios lectores usuarios productores Directorios/Taxonomías Tags/Folksonomías Actualización escasa Actualización continua Tecnologías complejas Tecnologías sencillas Monólogo Diálogo
  • 117. Calidad de la información • Es uno de los temas esenciales de discusión sobre la web 2.0 • ¿Quién asegura la calidad de la información existente en blogs, wikis, redes sociales, microblogs? • Aplicar criterios de calidad formales y de contenido • Productor de la información (personal, institucional, empresarial), información sobre el autor, cv, • ¿Información – opinión? • ¿Aporta referencias, enlaces a otras fuentes? • ¿Sesgos políticos, culturales – intereses económicos? • Actualización – periodicidad • Estructura - Diseño 144
  • 118. Tipos de herramientas • Blogs (blogger) • Wikis (wikipedia) • Microblogs (twitter) • Redes sociales (facebook) • Mashups (google maps) • Vídeos (youtube) • Música (spotify) • Fotos (flickr) • Sitios de favoritos (del.icio.us) • Gestores de referencias (mendeley) 145
  • 119. Los Microblogs • Servicio que permite a sus usuarios enviar mensajes de sólo texto vía SMS, mensajería instantánea, sitios web o mediante aplicaciones ad hoc • Espacio muy limitado (140 caracteres en el caso de Twitter, la aplicación más popular de microblogging) • Es como los “urgentes” de un periódico • Habitualmente, un titular y un enlace 146
  • 120. En contra • ¿Se puede decir algo realmente útil en 140 caracteres? • ¿Capacidad de síntesis o simplificación de los contenidos? • Mayoría de mensajes intrascendentes (buenos días!; voy a comer, etc,…) • Es disruptiva (nos interrumpe nuestras actividades) y adictiva 147
  • 121. A favor • Si un artículo científico se puede condensar en un abstract, un post o una noticia se pueden condensar en un twitt. • Twitter es “en directo”: inmediatez, economía de la atención • Multitud de funciones: filtro social de recomendaciones, archivo de enlaces, fuente de información,… 148
  • 122. Twitter es cada vez más una herramienta de la cual tirar para informarse. Es un espacio donde se junta muchísima gente y genera mensajes y más mensajes, muchos de los cuales son pistas en forma de enlace a cualquier parte: una foto, un artículo, un video, una presentación, etc. Una base logística de la información en la que la gente a la que sigues te configura la agenda de desplazamientos por internet. Yo selecciono para los que me siguen y los que sigo seleccionan para mi. Uno como individuo que se informa tiene en ese entorno dos niveles de selección: Selecciona a la gente a la que sigue De entre el contenido que esa gente selecciona, selecciona el que le interesa La primera es una tarea que hay que ir haciendo: hay perfiles que antes interesaban y ahora no, hay otros que son un descubrimiento y a partir del cual encontramos otros que igualmente nos interesan. Es algo que se suele hacer, pero no cada día. En cambio, la selección del contenido que se nos expone cuando visitamos el timeline de Twitter sí que es algo continuo. El problema suele ser de exceso de líneas a seguir y no de defecto: si algo es especialmente relevante, es fácil que me acabe llegando de cualquier manera porque justamente los mensajes tienden a repetirse (varias personas recomendando lo mismo es algo usual y lógico cuando uno tiene unos intereses determinados y sigue a personas afines). 149
  • 123. Los Sitios de redes sociales • Sitios web que nos permiten construir un perfil dentro de una plataforma en línea y desarrollar las relaciones con otros usuarios de la misma (adaptado de Arroyo, 2008) • Así, interactuamos con las personas (yo, mis amigos, los amigos de mis amigos,…) • … y con los objetos (fotos, texto, vídeo, enlaces, acontecimientos – míos, de mis amigos, de los amigos de mis amigos,…) • Ampliamente conocidas y usadas por usuarios de todo tipo, en especial, jóvenes. 150
  • 124. Algunas redes sociales populares • Facebook • MySpace • Tuenti LinkedIn Xing Orientación personal Orientación profesional 151
  • 125. Un web Log, también llamado bitácora, es un sitio Web donde se recopilan cronológicamente mensajes de uno o varios autores, sobre una temática particular siempre conservando el autor. Son paginas Web, generalmente personales. Pagina compuesta de una sola plantilla y los formularios se cargan en un formulario muy simple. BLOG
  • 126. Gestor de contenidos pequeño y especializado De costo muy bajo y gratuito Fácil de configurar Publicación facil y desde cualquier sitio Las entradas son mostradas en orden inverso Interfaz fácil de usar Búsquedas por fecha y por categoría Posibilidad de añadir comentarios a las Entradas Blogroll de sitios de Internet Capacidad de suscripción (RSS)
  • 127. http://es.wikipedia.org/wiki/Wiki
  • 128. Características  Dificultad en el control de la información  Niveles de privacidad  Contenidos de carácter informal  Todo tipo de usuarios 158
  • 129. más información en infobib@ujaen.es universidad de jaén vicerrectorado de extensión universitaria, deportes y proyección institucional 2012