Your SlideShare is downloading. ×

Resolución de problemas en la búsqueda de información1

350

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
350
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Resolución de problemas en labúsqueda de informaciónPor: Andrés Luna Hernández.FCQ- QFB. 1° “D”- BUAP
  • 2. “La búsqueda de información es el siguiente paso a la determinación de las necesidades de información. Se puede buscar a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas... Conocer y manejar estas herramientas contribuye a una búsqueda de calidad”Búsqueda de informaciónEl proceso de búsqueda se lleva a cabo mediante consultas a la base de datosdonde se almacena la información estructurada, mediante un lenguaje deinterrogación adecuado. Es necesario tener en cuenta los elementos clave quepermiten hacer la búsqueda, determinando un mayor grado de pertinencia yprecisión, como son: los índices, palabras clave, tesauros y los fenómenos que sepueden dar en el proceso como son el ruido y silencio documental. Uno de losproblemas que surgen en la búsqueda de información es si lo que recuperamos es"mucho o poco" es decir, dependiendo del tipo de búsqueda se pueden recuperarmultitud de documentos o simplemente un número muy reducido. A estefenómeno se denomina Silencio o Ruido documental. o Silencio documental: Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda. o Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la estrategia de búsqueda se ha definido demasiado genérica. Concepto de sistema de búsqueda de información Proceso donde se accede a una información previamente almacenada, mediante herramientas informáticas que permiten establecer ecuaciones de búsqueda específicas. Dicha información ha debido de ser estructura previamente a su almacenamiento. Componentes esenciales  Documentos estructurados. Es necesario establecer un proceso donde se establezcan herramientas de indización y control terminológico.  Bases de datos donde estén almacenados los documentos. Definir lenguajes de interrogación y operadores que soportará la base de datos y, establecer que tipo de ecuaciones serán permitidas.
  • 3. ¿Dónde deberíamos buscar? Bases de datos o Las bases de datos son recursos que recopilan todo tipo de información, para atender las necesidades de un amplio grupo de usuarios. Su tipología es variada y se caracterizan por una alta estructuración y estandarización de la información. Internet o Revistas electrónicas o Buscadores. Los buscadores son herramientas que permiten localizar y recuperar la información almacenada en internet. El funcionamiento es parecido a las bases de datos, almacenan las páginas con determinadas características (metadatos) y que posteriormente tras utilizar unas palabras clave emiten un listado de las más relevantes.  o Directorios. Los directorios son listas organizadas que nos permite acceder a la información de forma estructurada y jerárquica. Se clasifican en categorías y el usuario enlaza de lo más general a lo más específico.   Directorio y motores especializados   Meta buscadores.
  • 4.  Son buscadores, con la cualidad de que no sólo buscan en una única base de datos, sino que al introducir los conceptos de búsqueda hace el barrido en distintas bases de datos, de esta forma la amplitud de resultados es mayor. o Buscadores selectivos.   Utilizan una base de datos especializada en una materia.  o Agentes inteligentes  Los agentes inteligentes son herramientas que permiten localizar información de forma automática, sólo necesita que se le definan un perfil de búsqueda y donde debe lanzarla (bases de datos, sitios web, etc.) y, automáticamente va presentando un informe sobre la nueva información que va surgiendo. Lenguajes de indización y control terminológico Índices. o Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son: o Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc. o Índice alfabético: listado de términos alfabéticamente o Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento. o Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.
  • 5.  Palabras clave (Keywords). o Término significativo en lenguaje natural que representa el contenido del documento. o En la búsqueda de información esta opción es esencial ya que nos permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadores. Por ejemplo si utilizamos la palabra flor en cualquier buscador podemos estar buscando, la floristería más cercana, una imagen de flores o un estudio sobre las flores en las distintas estaciones del año. o Meta Keywords. La mayoría de los buscadores utilizan para localizar los recursos, las palabras clave de cada pagina web. Por esta razón es esencial que cada pagina tenga una etiqueta donde se incluyan las palabras clave que la definen, también es importante la definición exacta de cada una de ella pues es a partir de estas los buscadores localizan o no un recurso. o Tesauros  Es un listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas.  Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información  Componentes: Descriptores admitidos o preferentes: son aquellos términos normalizados (donde han sufrido un proceso de expurgo denegando plurales, evitando sinónimos, etc.) que el tesauro los considera aptos para asignarlos a un documento y que posteriormente facilite la recuperación Descriptores no admitidos: son aquellos que aun estando normalizados no se consideran adecuado para utilizarlos (suelen ser sinónimos, términos no utilizados en el campo de actuación, etc.)  Relaciones: Jerárquicas: indican cuando un término es más específico que otro Asociativas: Indican que los términos guardan alguna relación
  • 6. Sinónimos: Indican que dos términos son sinónimos y cual de ellos se utiliza como admitido Lenguajes de interrogación y ecuaciones de búsqueda o Lenguajes  Cada sistema de búsqueda tiene su propio lenguaje de interrogación, que es el que le permite "hablar" en el mismo lenguaje que la base de datos. Este lenguaje como cualquier otro tiene su propia sintaxis que especifica las características especiales de la búsqueda determinando en cada momento la relación que tienen los elementos de búsqueda. Las reglas gramaticales en el lenguaje de interrogación son los operadores. o Cómo plantear una estrategia de búsqueda  No existen pautas que nos indiquen como hacer con exactitud todas las búsqueda debido a que cada consulta es distinta. Por eso es conveniente definir un procedimiento básico de trabajo:  Planteando el tema desde distintos puntos de vista  Determinando que se sabe del tema  Formulando nuestra búsqueda mediante: La selección de palabras clave que representen lo que busco (utilizar diccionarios, sinónimos, tesauros, ontologías, etc.) La traducción de las palabras importantes a otros idiomas (inglés)  Seleccionando las herramientas de búsqueda (índices, motores, meta buscadores). Se recomienda usar distintas herramientas a la vez.  Aplicando las palabras clave en las herramientas de búsqueda seleccionadas Operadores o Lógicos o Boléanos: Permiten convertir las palabras de la consulta en conjuntos matemáticos, y operar con las palabras como si fuesen conjuntos. Las operaciones básicas son la suma (OR), la resta (NOT) y el producto (AND).  Y lógico (AND)  NO lógico (NOT)
  • 7.  O lógico (OR) o Posicionales: Permiten especificar la posición de las palabras dentro del documento.  Cerca (NEAR)  Junto (ADJ)  Frases o Existencia: Indica cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados.  Presencia / Ausencia  Ausencia o Exactitud: Este tipo de operador se utiliza cuando la consulta que se pretende es menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a su raíz.  Proximidad  Por campos CCL (Common Command Language) o Permite restringir las búsquedas mediante calificadores -es decir, la búsqueda se puede llevar a cabo en campos específicos como Autor, título, etc.- es muy utilizado en bases de datos. La característica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lógicos, obteniendo de esta forma una búsqueda muy exhaustiva. Navegación versus Búsqueda de Información Concepto La navegación es el programa que permite consultar y obtener información mediante los sistemas hipertexto. Diferencias La diferencia esencial entre ambos conceptos, radica en la forma de obtener información; mientras que en la recuperación de información se
  • 8. obtiene de forma lineal, la navegación tiene la capacidad de obtener información a través del hipertexto. Esto quiere decir que, la adquisición de conocimiento se realiza paulatinamente y dependiendo del interés del usuario se profundiza a través de los nodos de información en una materia u otra. A continuación se expone una tabla de motores de búsqueda vs directores. Motores de búsqueda Vs. DirectoriosLa información se actualiza La información se actualiza medianteautomáticamente por la red. la mano humana que se da de alta en el directorio cuando crea un lugar web.Recogen toda la información No almacenan todos los contenidosalmacenada en la página. web, solamente los campos más relevantes como son el título, las palabras clave, etc.Almacenan la información Almacenan información mediantemediante una base de datos directorios, clasificados enpropia. categorías.La búsqueda se realiza en la La búsqueda se realizabase de datos mediante la jerárquicamente según lasecuación de búsqueda. categorías establecidas.La presentación de los La presentación de los resultados seresultados se establece por lleva a cabo mediante un listado deorden de relevancia según unos todos los documentoscriterios establecidos en la correspondientes en la categoría, sinecuación de búsqueda. ningún criterio de presentación.Apropiados para localizar Apropiados para localizarinformación específica. información general sobre un tema. Técnicas de búsqueda de información o Sistemas de búsqueda de lógica difusa Esta técnica permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento o Técnicas de ponderación de términos
  • 9. Es común que unos criterios en la búsqueda tenga más valor que otros, por tanto la ponderación pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita. De forma que, el documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.o Técnica de clustering Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking. Algoritmos utilizados para realizar la categorización (cluster):  Algoritmo K-means  COBWEB  Algoritmo EMo Técnicas de retroalimentación por relevancia Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados. Algoritmo Genético: es el que se ha utilizado para llevar a cabo este tipo de técnicas de recuperación.o Técnicas de stemming Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz. Algoritmos utilizados para desechar prefijos y sufijos:
  • 10.  Paice/jusque  S-stemmer / n-gramas  Técnicas lingüísticas Pretenden acotar de una manera eficaz los documentos relevantes. Por esta razón, esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas. Calidad de la búsquedaA continuación se presentan unos criterios básicos para que la búsqueda llevada acabo sea de calidad. o Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos. o Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda. o Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección o Relevancia: Característica de un documento recuperado que cumple con la necesidades de información. o Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados o Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información. o Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados o Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados. o Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección. ConclusiónEs importante haber tomado en cuenta todos los datos aquí explicados y es quees necesario aprender a hacer una buena búsqueda y saber efectuarla.
  • 11. ReferenciasGeneral o Atrévete con internethttp://www.juntadeandalucia.es/averroes/publicaciones/nntt/n ntt_secundaria.pdf o Buscando información en Internet http://www.dsp.umh.es/docent/ienol/motores.htmBuscadores o Todo acerca de Google http://www.google.com.ar/intl/es/about.html o Motor de busqueda http://www.exalead.es/searchOperadores o Operadores altavista http://www.altavista.com/help/adv_search/syntax#url o Operadores lógicos boléanos http://www.dsp.umh.es/docent/internet/boole.htm o Lenguaje de consulta http://www.mcx.es/ISSamples/IXQLANG.HTMTesauros o Tesauro de redes de ordenadores http://www.um.es/~gtiweb/fjmm/tesauro/intro.htm o Tesauros del CINDOC http://thes.cindoc.csic.es/index_esp.html o Tesauro de la UNESCO http://www.ulcc.ac.uk/unesco/ o Tesauro del sistema de información bibliográfica de las Naciones Unidas http://unhq-appspub- 01.un.org/LIB/DHLUNBISThesaurus.nsf/$$searchs?OpenForm o UNE 50-106 directrices para el establecimiento y desarrollo de tesauros monolingüesRecuperación de información o Grupo REINA. Universidad de Salamanca. http://reina.usal.es/index.htm o Recuperación de información webhttp://es.geocities.com/recupdeinformacion_ontologias/recuperac ioninformacion.htm#suamrio o Almacenamiento y recuperación de informaciónhttp://www.bibliodgsca.unam.mx/tesis/tes7cllg/sec_27.ht m  Método clustering http://leo.ugr.es/~elvira/Meetings/Albacete2 002/pedro.pdf  Stemming http://www.comp.lancs.ac.uk/computing/research/st emming/general/ o Lógica difusa http://delta.cs.cinvestav.mx/~gmorales/ldifll/ldifll.html

×