2. BUSCADORES Y MÉTODOS DE
BÚSQUEDA
• Hasta ahora resultaba inédito que una formación política recurriese
al buscador Google para poner en evidencia a sus oponentes
políticos y destacar asimismo sus virtudes. Esto es lo que ha logrado
la agrupación territorial de la formación política de Izquierda Unida
de Asturias en su canal de Youtube. En él se ha insertado un vídeo
en el que, amparándose en la neutralidad del buscador, lo ponen a
prueba para comprobar qué resultados se obtienen al aplicar la
siguiente sintaxis de búsqueda literal: "ladrones en el (nombre del
partido político)".
• Naturalmente el impacto mediático que ha generado ha
distorsionado la presentación de resultados. Si aplicamos esta
sintaxis de búsqueda ahora mismo no obtendremos los mismos
datos, pero si la repetimos con la sintaxis de búsqueda adecuada y
en un período cronológico anterior a la edición del vídeo
obtendremos resultados muy aproximados.
3. ¿Qué es un Buscador?
Son gigantescas bases de datos que contienen información sobre cientos de miles de páginas de Internet. Se clasifican por distintos niveles de
categorías y subcategorías, facilitándonos asi el proceso de localización. Cada dirección almacenada en un Buscador tiene asociada una serie de
palabras clave, que en definitiva, serán las que nos permitan Ilegar hasta ellas. En un buscador puedes distinguir un espacio o cuadro de texto y
diferentes categorías que nos servirán para limitar la búsqueda según el segmento de información que más nos interese. El resto de elementos
que componen la página son, en su mayoría, servicios de valor añadidos del Web (Ej. Correo electrónico – Email) o publicidad que no intervienen
en las capacidades de búsqueda del sistema.
Uso básico de un buscador:
• Ejecuta el explorador de Internet y escribe la dirección de la herramienta de búsqueda de información o buscador deseado.
• En la casilla de texto escribe la palabra relacionada con la información que desees encontrar.
• Haz clic en el botón de “Buscar”.
• Aparecerá una lista con todos aquellos sitios web registrados en el buscador que se relacionen con el término introducido.
• Luego selecciona haciendo clic en el hiperenlace asociado al web que desees visitar.
*Recuerda:
En la red se encuentra mucha información útil, pero no siempre es la que deseamos. Un buscador va a identificar el término pero no el contenido
del web, por tanto, si deseas limitar tu búsqueda a información más específica, debes utilizar métodos avanzados de búsqueda.
Otros servicios de los que dispone un buscador:
• Búsqueda de imágenes y videos
• Búsqueda de archivos de música y sonidos
¿Cómo ajustar los resultados de la búsqueda?
1. Uso de comillas para la entrada de nombres o frases. Ej. “Juan Pablo II” o “herramientas de búsqueda”
2. En una búsqueda avanzada también puedes optar por que los resultados de la misma se encuentren en un determinado idioma, palabras
exactas, cantidad de documentos que interas se desglosen en la página de búsqueda, formato, entre otras alternativas. Ej. Google.com
4. • La búsqueda de respuestas, llamado en inglés Question Answering (QA) es un tipo
de recuperación de la información. Dada una cierta cantidad de documentos (tales
como World Wide Web), el sistema debería ser capaz de recuperar respuestas a
preguntas planteadas en lengua natural. QA es observado como un método que
requiere una tecnología de Procesamiento de lenguaje natural más compleja que
otros tipos de sistemas para la Recuperación de documentos, y, en algunos
casos, se le observa como un paso por delante de la tecnología del buscador.
• Un sistema de question answering es uno de los sistemas más complejos en torno
a la recuperación de información. Debemos de tener en cuenta que un sistema
basado en el question-answering es mucho más difícil que un sistema normal que
se encarga de buscar una información en una cantidad más o menos grande de
documentos, ya que estos debe extraer de dichos documentos un fragmento de
texto (mínimo) que responda a una pregunta dada en lenguaje natural. Estos
sistemas están muy ligados a los buscadores web.
• Un sistema de question-answering intenta reconocer un amplio rango de tipos de
cuestiones, incluyendo hechos, listas, definiciones, cómo, cuándo, dónde, por
qué, etc. Dichas búsquedas pueden variar desde pequeñas colecciones de
documentos locales, organizaciones internas de documentos, hasta la web entera
(o una parte de ella).
5. • Arquitectura
• Los primeros sistemas de question-answering se desarrollaron en torno a 1960 y básicamente eran
interfaces de lenguaje natural para sistemas expertos centradas en dominios específicos. En contraste,
los sistemas de question-answering actuales utilizan documentos de texto como base de conocimiento
y combinan diversas técnicas de procesamiento del lenguaje natural.
• Los sistemas actuales suelen incluir un modulo de clasificación de preguntas (question classifier
module) que se encarga de determinar el tipo de pregunta y respuesta. Tras analizar la pregunta, el
sistema utiliza diversos módulos que aplican complejas técnicas de procesamiento de lenguaje natural
aumentando la complejidad entre cada módulo. Tras ello, se aplica un nódulo de recuperación de
documentos que utiliza motores de búsqueda para identificar documentos y párrafo en el documento
que puedan contener la respuesta a la pregunta.
• Posteriormente, se aplica un filtro que se encarga de seleccionar pequeños trozos de texto que
contengan cadenas del mismo tipo al esperado. Por ejemplo, si la pregunta es ¿Quién es el rey de
España?, este filtro buscara textos que contengan nombres. Para finalizar, el modulo de extracción de
respuestas es el encargado de buscar pistas en el texto que determinen si una respuesta candidata es
correcta.
• [editar] Métodos QA
• Un sistema de question-answering es muy dependiente de un buen motor de búsqueda que se
encargue de seleccionar documentos que contengan la respuesta. Parece lógico que grandes
colecciones de documentos tiende a producir mejor rendimiento, a menos que el dominio de la
cuestión sea ortogonal al de la colección. La noción de redundancia de datos en colecciones masivas,
como la web, significa que es probable que parte de la información esté en varios sitios, contextos y
documentos distintos. Esto tiene dos beneficios, se reduce la carga de los sistemas de procesamiento
de lenguaje natural, y que podemos considerar las respuestas correctas como aquellas que aparecen
más veces.
• Podemos hacer una diferenciación entre dos métodos distintos profundidad o anchura:
• En profundidad se utilizan varios métodos para localizar fragmentos de texto de documentos para
después filtrarlos basándose en la presencia de la respuesta deseada. Finalmente, esas respuestas se
ordenan basándose en diferentes criterios.
• Sin embargo, en los casos en los que la reformulación de la pregunta no es suficiente, se debe realizar
un análisis semántico y contextual. Estos sistemas suelen incluir sistema de gestión del conocimiento
representados en ontologías, como WordNet o SUMO.