• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Practica5 final
 

Practica5 final

on

  • 476 views

 

Statistics

Views

Total Views
476
Views on SlideShare
476
Embed Views
0

Actions

Likes
0
Downloads
3
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Practica5 final Practica5 final Document Transcript

    • RECUPERACIÓN AUTOMATIZADA DE LA INFORMACIÓN 11 de marzo de 2010 INDIZACIÓN AUTOMATIZADA Practica 5 Raquel Carretero Bailón Licenciatura en Documentación Universidad de Salamanca
    • ÍNDICE 1. INTRODUCCIÓN ..................................................................................................................... 1 2. Entorno .................................................................................................................................. 2 a. Conéctese a su cuenta en FENIX.USAL.ES. ............................................................................ 2 b. Cree un subdirectorio de nombre practica05. ...................................................................... 2 c. Copie en ese directorio los ficheros docs.xml y docs.dtd que se encuentran en directorio /home/rai ...................................................................................................................................... 3 d. Vea el contenido de ambos ficheros ..................................................................................... 3 e. Compruebe que el fichero docs.xml es válido mediante la orden (ejecute xml val -help para obtener ayuda sobre la opción val de xml) ........................................................................... 4 3. Comando de extracción de campos en documentos XML .................................................... 5 a. Utilice la orden siguiente para extraer el contenido del campo TITULO del primer DOC del fichero ........................................................................................................................................... 5 b. Si quiere obtener el título de los primeros tres documentos (&lt; es la entity de <): .......... 6 c. Si quiere obtener los titulos de los documentos 5, 6, 8, 10, 14, 15, 18 y 20 ........................ 7 4. Comandos de sustitución de texto........................................................................................ 8 a. Busque ayuda de la utilidad tr (man tr) ................................................................................ 8 5. Comandos para ordenar y contar palabras ......................................................................... 13 a. Obtenga ayuda del comando sort y del comando uniq, y luego ejecute:........................... 13 b. Si queremos ordenarlos por el número de apariciones en orden de más a menos frecuente: .................................................................................................................................... 14 6. Ejercicios.............................................................................................................................. 15 a. Utilice el fichero ibersid2001.doc y conviértalo a fichero plano ...................................... 15 b. Obtenga todas las palabras del documento anterior ......................................................... 15 c. Obtenga la frecuencia de aparición de cada palabra del fichero ibersid2001.txt .............. 17 d. Ley de Zipf ........................................................................................................................... 18 e. Seleccione las palabras que puedan ser vacías ................................................................... 22 f. Aplique lematización utilizando los lematizadores para el español que se indican ........... 26 7. CONCLUSIONES ................................................................................................................... 47 8. BIBLIOGRAFÍA ...................................................................................................................... 48 I
    • ÍNDICE IMÁGENES Ilustración1 Conexión fénix.usal.es ....................................................................................... 2 Ilustración2 Copiar en el directorio docs.dtd/docs.xml ........................................................ 3 Ilustración3 Contenido fichero.............................................................................................. 3 Ilustración4 Buscar ayuda ..................................................................................................... 4 Ilustración5 Validación fichero docs.xml............................................................................... 4 Ilustración6 Extracción del campo Título .............................................................................. 5 Ilustración7 Título tres primeros documentos...................................................................... 6 Ilustración8 Extracción de campos títulos 5,6,8,10 .............................................................. 7 Ilustración9 Sustitución de caracteres .................................................................................. 8 Ilustración10 Mayúsculas/minúsculas ................................................................................ 8 Ilustración11 Mayúsculas/minúsculas (II) ........................................................................... 9 Ilustración12 Mayúsculas/minúsculas (III) .......................................................................... 9 Ilustración13 Sustitución caracteres acentuados ............................................................. 10 Ilustración14 Sustitución signos de puntuación por + ...................................................... 10 Ilustración15 Sustitución signos de puntuación por espacios en blanco .......................... 10 Ilustración16 Sustitución signos de puntuación por “_” ................................................... 11 Ilustración17 Sustitución signos de puntuación por “__” ................................................ 11 Ilustración18 Sustitución signos puntuación “_” .............................................................. 11 Ilustración19 Sustitución signos de puntuación por saltos de línea ................................. 12 Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación ........... 12 Ilustración21 Palabra por línea ......................................................................................... 12 Ilustración22 Comandos sort y uniq.................................................................................. 13 Ilustración23 Número de apariciones ............................................................................... 14 Ilustración24 Palabras totales ibersid2001.txt .................................................................. 15 Ilustración25 Palabras únicas documento ibersid2001.txt ............................................... 16 Ilustración26 Para cada título de manera independiente................................................. 17 Ilustración27 Filezilla ......................................................................................................... 19 Ilustración28 Ley de Zipf I ................................................................................................. 19 Ilustración29 Ley de Zipf II ................................................................................................ 19 Ilustración30 Ley de Zipf III ............................................................................................... 20 Ilustración31 Ley de Zipf V ................................................................................................ 20 Ilustración32 Ley de Zipf VII .............................................................................................. 20 II
    • Ilustración33 Ley de Zipf VIII ............................................................................................. 21 Ilustración34 Ley de Zipf IX ............................................................................................... 21 Ilustración35 Listado de palabras vacúas .......................................................................... 22 Ilustración36 Excel palabras vacías ................................................................................... 25 Ilustración37 Listado de palabras contenidas en ibersid2001.txt..................................... 26 Ilustración38 Stemmer simple .......................................................................................... 27 Ilustración39 Stemmer wc -w............................................................................................ 28 Ilustración40 snowball ...................................................................................................... 29 Ilustración41 snowball wc -w ............................................................................................ 29 Ilustración42 Contar palabras antes y después ................................................................ 30 III
    • ÍNDICE TABLAS 1. Tabla Diferencias lematización ................................................................................. 46 IV
    • RESUMEN Como conseguir una recuperación efectiva de información, relevante, que se acople a las necesidades del usuario, utilizando diferentes herramientas para realizar una indización automática. PALABRAS CLAVE Palabras vacías, indización automática, lematización, simple-stemming, stemming-snowball V
    • 1. INTRODUCCIÓN La indización automática es la selección de un conjunto de términos que representen íntegramente un documento (texto, imagen, sonido) por medio de un programa informático. Hasta finales de la década de 1950, la indización se venía realizando en las Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene trabajando en automatizar esta tarea. Algunas de los mecanismos que vienen utilizando los programas informáticos para conseguir una indización automática son las siguientes: • Convertir la cadena de entrada a minúsculas • Convertir acentos a formas no acentuadas • Convertir la cadena de entrada en palabras, una en cada línea • Eliminar palabras vacias • Aplicar lematizacion utilizando un par de lematizadores 1
    • 2. Entorno a. Conéctese a su cuenta en FENIX.USAL.ES. Tal y como hemos hecho en las anteriores prácticas nos conectamos a nuestra cuenta de fénix.usal.es sin olvidar cambiar el idioma antes de hacerlo. Ilustración1 Conexión fénix.usal.es b. Cree un subdirectorio de nombre practica05. Utilizamos el comando mkdir seguido del nombre que queramos asignarle, en nuestro caso, practica04, tal que quede de la siguiente manera: mkdir practica05. Una vez realizado este paso, nos introducimos en el subdirectorio recién creado con el comando cd practica05 2
    • c. Copie en ese directorio los ficheros docs.xml y docs.dtd que se encuentran en directorio /home/rai Para llevar a cabo este proceso, es necesario introducir los siguientes comandos: cp home/rai/docs.xml, cp home/rai/docs.dtd Ilustración2 Copiar en el directorio docs.dtd/docs.xml d. Vea el contenido de ambos ficheros Para ver el contenido de los ficheros docs.dtd, así como docs.xml, debemos introducir el comando, ya visto anteriormente en otras prácticas, “more”, seguido del nombre correspondiente, o en su defecto el comando ” less” seguido también del nombre correspondiente, tal como aparece en la imagen inferior. Ilustración3 Contenido fichero 3
    • e. Compruebe que el fichero docs.xml es válido mediante la orden (ejecute xml val -help para obtener ayuda sobre la opción val de xml) Ilustración4 Buscar ayuda Después de comprobar, utilizando la ayuda, cual es la orden que nos interesa ejecutar para poder dar validez al fichero docs.xml, hemos llegado a la conclusión de que la sentencia a utilizar sería: xml val -E docs.xml Ilustración5 Validación fichero docs.xml Tal como apreciamos en la captura de pantalla nos muestra que el fichero docs.xml es válido. 4
    • 3. Comando de extracción de campos en documentos XML a. Utilice la orden siguiente para extraer el contenido del campo TITULO del primer DOC del fichero xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[1]/TITULO" docs.xml -T :eliminar etiquetas Ilustración6 Extracción del campo Título 5
    • b. Si quiere obtener el título de los primeros tres documentos (&lt; es la entity de <): xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position() &lt;=3]/TITULO" docs.xml Ilustración7 Título tres primeros documentos 6
    • c. Si quiere obtener los titulos de los documentos 5, 6, 8, 10, 14, 15, 18 y 20 Para logralo debemos ejecutar la siguiente orden, de tal modo que queden incluidos todos los documentos, y esto se consigue separándolos por el operador OR. xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position()=5 or position()=6 or position()=8 or position()=10 or position()=14 or position()=15 or position()=18 or position()=20]/TITULO" docs.xml Ilustración8 Extracción de campos títulos 5,6,8,10 7
    • 4. Comandos de sustitución de texto a. Busque ayuda de la utilidad tr (man tr) . Realice los siguientes ejemplos para ver su uso. La utilidad tr se utiliza normalmente en modo tubería, es decir, tomando la salida de un comando como entrada para tr. En los siguientes ejemplos recuerde que el comando echo simplemente muestra en pantalla la cadena de texto entrecomillada: esa cadena se utiliza como entrada para el comando tr. echo 'casa' | tr a e Con esta sentencia se sustituye el carácter “a” por el carácter “e” Ilustración9 Sustitución de caracteres echo 'El Señor de los Anillos' | tr A-Z a-z Con esta sentencia, cualquier carácter en mayúsculas aparecerá en minúsculas. Ilustración10 Mayúsculas/minúsculas 8
    • echo 'El SEÑOR de los Anillos' | tr A-Z a-z Con esta sentencia, al igual que en el caso anterior, mostrará todos los caracteres en minúsculas. Ilustración11 Mayúsculas/minúsculas (II) echo 'El SEÑOR de los Anillos' | tr [:upper:] [:lower:] Esta sentencia es otra forma de llevar a cabo la orden anterior, es decir, convertir los caracteres de mayúsculas (upper) a minúsculas (lower). Ilustración12 Mayúsculas/minúsculas (III) 9
    • echo '¡Qué! No. Adiós, María.' | tr aéíóúü aeiou Con esta sentencia cualquier carácter que aparezca acentuado aparecerá sin acentuar. Ilustración13 Sustitución caracteres acentuados echo '¡Qué! No. Adiós, María.' | tr [:punct:] + Con esta sentencia se sustituyen los signos de puntuación por el símbolo “+” Ilustración14 Sustitución signos de puntuación por + echo '¡Qué! No. Adiós, María.' | tr -d [:punct:] Con esta sentencia se sustituyen los signos de puntuación por espacios en blanco Ilustración15 Sustitución signos de puntuación por espacios en blanco 10
    • echo '¡Qué! No. Adiós, María.' | tr [:punct:] '_' Con esta sentencia se sustituyen los signos de puntuación por el símbolo “_” Ilustración16 Sustitución signos de puntuación por “_” echo '¡Qué! No. Adiós, María.' | tr ' [:punct:]' '_' Con esta sentencia se sustituyen los signos de puntuación por el símbolo “_” Ilustración17 Sustitución signos de puntuación por “__” echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' '_' Con esta sentencia se sustituyen los signos de puntuación por el símbolo “__” * Ilustración18 Sustitución signos puntuación “_” 11
    • echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' 'n' Con esta sentencia sustituye cada signo de puntuación por un salto de línea, y ordena. Ilustración19 Sustitución signos de puntuación por saltos de línea echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -s ' [:punct:]' 'n' Estamos en el mismo caso que el anterior ejemplo. Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -cs ' [:alnum:]' 'n' . Con esta sentencia sustituye los espacios por saltos de línea y signos de puntuación, de tal modo que en cada línea tenemos una palabra. Ilustración21 Palabra por línea 12
    • 5. Comandos para ordenar y contar palabras A partir de un texto, el objetivo es obtener una palabra en cada línea, luego ordenarlas y contar las ordenadas, de esa manera tendremos las palabras del texto junto con su frecuencia de aparición. a. Obtenga ayuda del comando sort y del comando uniq, y luego ejecute: echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq –c Ilustración22 Comandos sort y uniq Uniq: muestra en la pantalla una lista de palabras de tal manera que si una palabra es igual a la siguiente no la pone. Sort: para ordenar -c: para contar 13
    • b. Si queremos ordenarlos por el número de apariciones en orden de más a menos frecuente: echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq -c | sort -n –r retorno de carro? -n: salto de línea -r: retorno de carro Ilustración23 Número de apariciones 14
    • 6. Ejercicios a. Utilice el fichero ibersid2001.doc y conviértalo a fichero plano Con la utilidad wvText. almacene el resultado en un fichero de nombre ibersid2001.txt. Como ya hemos visto en anteriores prácticas convierte las palabras de los documentos a texto plano, lo único que debemos hacer es introducir la siguiente orden, poniendo en primer lugar el nombre del documento que queremos convertir con su correspondiente extensión y tras “>”, el nombre del documento con la extensión nueva: WvText ibersid2001.doc > ibersid2001.txt b. Obtenga todas las palabras del documento anterior Teniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos por vocales no acentuadas. Cuente el número de palabras totales y el número de palabras únicas. Palabras totales: cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' 'n' | wc –w Ilustración24 Palabras totales ibersid2001.txt 15
    • Palabras únicas: cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' 'n' | sort | uniq | wc –w Ilustración25 Palabras únicas documento ibersid2001.txt 16
    • c. Obtenga la frecuencia de aparición de cada palabra del fichero ibersid2001.txt Tteniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos por vocales no acentuadas. Debe ordenar el resultado por frecuencia de aparición. Nota: dado que seguramente no verá todas las palabras, redirija la salida para tener un fichero de nombre ibersid2001.frec.txt. Ilustración26 Para cada título de manera independiente 17
    • d. Ley de Zipf La llamada Ley de Zipf, formulada en la década de los cuarenta por el lingüista de Harvard George Kingsley Zipf (1902-1950), afirma que un pequeño número de palabras son utilizadas con mucha frecuencia, mientras que frecuentemente ocurre que un gran número de palabras son poco empleadas. Esta afirmación, expresada matemáticamente quedaría de la siguiente forma: donde Pn representa la frecuencia de una palabra ordenada n-ésima y a es casi 1. Esto significa que el segundo elemento se repetirá aproximadamente con una frecuencia de 1/2 de la del primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente. Una ley no empírica, pero más precisa, derivada de los trabajos de Claude Shannon fue descubierta por Benoît Mandelbrot. En definitiva viene a decir que en todas las lenguas conocidas la longitud de las palabras es inversamente proporcional a su frecuencia de aparición (cuantas más veces aparece una palabra en un idioma, más corta es). Muchos lenguajes artificiales como los élficos de Tolkien o el Klingon de Star Trek no cumplen esta regla. Esto es debido a que la explicación a esta ley se basa en la economía lingüística: las palabras que más utilizamos son más cortas y así requieren menos energía, por ello es el uso de una lengua el que acaba por imponer esta ley. Utilice Excel u OpenOffice Calc para representar la información que ha obtenido, y verifique que la frecuencia de aparición de los términos de este documento siguen una distribución zipfiana. Intente conseguir la regresión logarítmica de los puntos representados (la curva que se ajusta a dichos puntos, según la ley de Zipf) ▪ Nota: tiene la hoja de cálculo en Studium con el nombre ibersid2001.xls 18
    • Utilizamos el Filezilla para disponer del documento, vamos a Excel y abrimos. Ilustración27 Filezilla Ilustración28 Ley de Zipf I Hay que representar la frecuencia frente al orden Ilustración29 Ley de Zipf II 19
    • Asistente para gráficos Ilustración30 Ley de Zipf III Insertamos el gráfico al que hemos llamado “Ley de Zipf” Ilustración31 Ley de Zipf V Primeramente me posiciono en el eje X Ilustración32 Ley de Zipf VII 20
    • A continuación se realiza la misma operación solo que esta vez con el eje Y. Tras esto, en el gráfico se pulsa la opción “agregar línea de tendencia” (potencial) Ilustración33 Ley de Zipf VIII Para verlo solo hay que posicionarse sobre la línea y seleccionar “mostrar gráfico de la ecuación” Ilustración34 Ley de Zipf IX 21
    • e. Seleccione las palabras que puedan ser vacías Luego compare la lista que ha obtenido con una lista estandar Elimine las palabras que considere vacias del fichero ibersid.frec.txt. Ilustración35 Listado de palabras vacúas http://members.unine.ch/jacques.savoy/clef/spanishSmart.txt). 22
    • 1. El 46. I 91. Cual 2. La 47. Han 92. B 3. De 48. Entre 93. Aunque 4. En 49. Aquellos 94. Además 5. Que 50. Son 95. Ya 6. Los 51. Pueden 96. Verse 7. Y 52. Otro 97. Unos 8. Es 53. Mayor 98. Tras 9. Se 54. Lo 99. Todos 10. a 55. Esto 100. Todas 11. Una 56. Tanto 101. Toda 12. Un 57. Sido 102. Solo 13. Para 58. Poco 103. Sino 14. Del 59. Pero 104. Sin 15. Con 60. M 105. Siendo 16. Por 61. Ese 106. Seria 17. Como 62. Esa 107. Ser 18. Mas 63. Decir 108. Según 19. No 64. Debe 109. S 20. Las 65. Mismo 110. Q 21. Of 66. Manera 111. Primeros 22. Cada 67. Dado 112. Primero 23. And 68. Cuenta 113. Otra 24. Al 69. W 114. On 25. De 70. Través 115. Nuestra 26. Uno 71. Tiene 116. Ningún 27. In 72. Tener 117. Nada 28. J 73. Tales 118. Muy 29. Puede 74. Primera 119. Muchos 30. G 75. Poder 120. Mucho 31. Esta 76. Ri 121. More 32. C 77. P 122. Mejor 33. Así 78. Nuevos 123. Mediante 34. También 79. Nuevo 124. Le 35. Otros 80. Nueva 125. K 36. Parte 81. Nj 126. Is 37. Si 82. New 127. Hemos 38. O 83. Hace 128. Ha 39. N 84. Etc 129. Fue 40. Este 85. Et 130. Donde 41. D 86. Esos 131. Desde 42. Sus 87. Ello 132. By 43. Su 88. Ellas 133. Alguna 44. R 89. E 134. 1992b 45. I 90. Dos 135. With 23
    • 136. Where 181. F 137. Veces 182. Estas 138. Unas 183. Esas 139. To 184. Entonces 140. Tienen 185. Ed 141. Those 186. Diversos 142. This 187. Dicho 143. They 188. Df 144. These 189. Dentro 145. Then 190. Demás 146. Their 191. Deben 147. That 192. Dar 148. Tf 193. Cuyos 149. Tendrán 194. Cuyo 150. Tal 195. Cuarto 151. Sobre 196. Cierto 152. Siguientes 197. Casi 153. Siguiente 198. Better 154. Sigue 199. Bastantes 155. Siempre 200. Bastante 156. Segundo 201. Are 157. Second 202. Aquí 158. Sean 203. Aquellas 159. Sea 204. Ambas 160. Podría 205. Algunos 161. Podrá 206. Algún 162. Podemos 207. Ad 163. Otras 208. Acm 164. Other 209. Fin 165. Nr 210. An 166. Mismos 211. Ambos 167. Misma 212. 1992ª 168. Menos 213. Unos 169. Mejores 214. Pues 170. Miles 215. Partir 171. Md 216. Obstante 172. L 217. Ik 173. Lado 218. Existen 174. Junto 219. By 175. Igual 220. Frente 176. Hoy 221. Estos 177. Hay 178. Gran 179. Fueron 180. For 24
    • Ilustración36 Excel palabras vacías 25
    • f. Aplique lematización utilizando los lematizadores para el español que se indican Un s-stemmer para el espanol que elimina terminaciones aplicando las siguientes reglas en el orden que se indican: • si la palabra termina en -eses, sustituya por -es (p.e., corteses → cortes) • si la palabra termina en -es, sustituya por -z (p.e., veces → vez) • elimine las terminaciones -as, -es y -os • elimine las terminaciones -a, -e y –o ▪ Un suffix-stripping denominado Snowball, muy utilizado para gran cantidad de idiomas. Para mas informacion, conectese a http://snowball.tartarus.org/. Ilustración37 Listado de palabras contenidas en ibersid2001.txt cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr -cs '[:alnum:]' 'n' |sort |uniq | more 26
    • Redirijo a ibersid2001.palabras.txt, lo pasaré por un stemmer simple. Asi obtengo las palabras lematixadas con el lematizador simple. Debemos crear un fichero .txt que contenga el listado de palabras resultante después de eliminar las palabras vacías y pasarlo a través de filezilla a práctica05 para poder trabajar sobre él. Stemming es un método para reducir una palabra a su raíz o mejor a un stem o tema. Hay algunos algoritmos de stemming que ayudan en sistemas de recuperación de información. Stemming aumenta el recall que es una medida sobre el número de documentos que se pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos palabras es el mismo ("bibliotec"). cat ibersid2001.palabras.txt | stemmer-simple-spanish | more Ilustración38 Stemmer simple Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w). Con el stemmer simple observamos que nos devuelve un resultado de exactamente 650 palabras. 27
    • cat ibersid2001.palabras.txt | stemmer-simple-spanish | sort |uniq | wc -w Ilustración39 Stemmer wc -w Si quiero repetir el proceso pero con el snowball: Se trata de un pequeño lenguaje para el manejo de strings que permite implementar algoritmos de normalización del lenguaje (steeming algorithms) mediante sencillos scripts. Posteriormente mediante un compilador se genera una salida en C o en Java. Como en cualquier buscador de calidad pretendíamos conseguir que las consultas fueran case- insensitive y accent-insensitive. Pero además, en esta ocasión también queríamos que las búsquedas fueran independientes, hasta cierto punto, de las terminaciones morfológicas. Es decir, que se pudiera buscar indistintamente por "documentos ténicos" y "documentación técnica", o por "acceso", "accesible", "accesibilidad", etc. Para eso necesitabamos implementar un algoritmo de normalización (stemmer) que redujera los términos de la consulta a las unidades mínimas con significado léxico (lexemas). Este tipo de algoritmos, basados en el algoritmo de Porter 28
    • cat ibersid2001.palabras.txt | stemmer-snowball-spanish | more Ilustración40 snowball Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w). Con el snowball observamos que nos devuelve un resultado de exactamente 572 palabras Ilustración41 snowball wc -w 29
    • Para contar las palabras que hay antes y después de eliminar las palabras vacías se introducen las órdenes que se muestran en la ilustración inferior. Antes: 938 Después: 716 Ilustración42 Contar palabras antes y después Importe estos tres ficheros (ibersid2001.palabras.txt, ibersid2001.lema1.txt e ibersid2001.lema2.txt) a una hoja de cálculo Excel y vea cómo han quedado los términos. Lema1 Lema2 Inersid2001.pal abras.txt 0 0 0 1 1 1 10 10 10 1074 1074 1074 109 109 109 145 145 145 15 15 15 16 16 16 1965 1965 1965 1968 1968 1968 1971 1971 1971 1977 1977 1977 30
    • 1983 1983 1983 1987 1987 1987 1988 1988 1988 1990 1990 1990 1991 1991 1991 1992 1992 1992 1994 1994 1994 1998 1998 1998 2 2 2 200 200 200 2000 2000 2000 215 215 215 22 22 22 24 24 24 241 241 241 26 26 26 263 263 263 28 28 28 288 288 288 292 292 292 297 297 297 3 3 3 300 300 300 313 313 313 32 32 32 323 323 323 363 363 363 37008 37008 37008 392 392 392 4 4 4 41 41 41 461 461 461 467 467 467 5 5 5 500 500 500 513 513 513 523 523 523 53 53 53 6 6 6 7 7 7 70 70 70 8 8 8 94 94 94 abundant abund abundante acces acces acceso acepten acept acepten 31
    • acerc acerc acerca actuand actu actuando acuerd acuerd acuerdo adding adding adding adecuad adecu adecuadas adecuad adecu adecuado adecuad adecu adecuados adicionalment adicional adicionalmente adolec adolec adolece afzaz afzaz afzazo ajustar ajust ajustar ajustaran ajust ajustaran algorithms algorithms algorithms algoritm algoritm algoritmo algoritm algoritm algoritmos allan allan allan allow allow allow allows allows allows alons alons alonso alta alta alta alto alto alto alt altos altos american americ american ampliament ampli ampliamente angel angel angel angul angul angulo annual annual annual anteriorment anterior anteriormente años años años aparec aparec aparece aparecer aparec aparecer aparicion aparicion aparicion apartad apart apartado aplic aplic aplica aplicacion aplicacion aplicacion aplicacion aplic aplicaciones aplicand aplic aplicando aplicar aplic aplicar aplicars aplic aplicarse aplic aplic aplico application application application approach approach approaches aproximacion aproximacion aproximacion arrojar arroj arrojara articul articul articulos asignacion asignacion asignacion 32
    • aspect aspect aspecto aspect aspect aspectos audit audit audit aument aument aumenta aumentar aument aumentar automatic automatic automatic automatic automat automatica baez baez baeza basandos bas basandose base bas base based bas based basicament basic basicamente basic basic basico basic basic basicos belkin belkin belkin beneficios benefici beneficioso berrocal berrocal berrocal bethesd bethesd bethesda bibliotec bibliotec biblioteca binari binari binaria brev brev breve buckley buckley buckley busc busc busca buscador buscador buscadores busqued busqued busqueda busqued busqued busquedas cabo cab cabo calcul calcul calcula calcular calcul calcular calcul calcul calculo calcul calcul calculos cantidad cantid cantidad capacidad capac capacidad caracteristic caracterist caracteristica caracteristic caracterist caracteristicas caracterizacion caracterizacion caracterizacion caracterizador caracteriz caracterizadores caracterizar caracteriz caracterizar carl carl carlos caso cas caso cataloguing cataloguing cataloguing categorizacion categorizacion categorizacion cient cient cientos clas clas clase classification classification classification clav clav clave 33
    • cliffs cliffs cliffs coincidir coincid coincidir coleccion coleccion coleccion combinandol combin combinandola comparar compar comparar complet complet completo compondran compondr compondran compon compon compone component component componentes comportamient comport comportamiento comput comput computa computacion computacion computacion computacional computacional computacional comun comun comun concept concept concepto concept concept conceptos conceptualment conceptual conceptualmente conclusion conclusion conclusiones concretars concret concretarse conferenc conferenc conference conjuncion conjuncion conjunciones conjunt conjunt conjunto conoc conoc conoce conocid conoc conocidas conocid conoc conocido conseguid consegu conseguida conseguir consegu conseguir consider consider considera consideracion consideracion consideracion considerad consider considerados consideran consider consideran considerars consider considerarse consider consider considere consigu consig consigue consiguiend consigu consiguiendo consist cons consiste consisten consist consisten consistency consistency consistency constant constant constantes construccion construccion construccion construy constru construye consult consult consulta consult consult consultas consytency consytency consytency contar cont contar contendran contendr contendran 34
    • contenid conten contenido continuacion continuacion continuacion contrapuest contrapuest contrapuestas contrari contrari contrario contribuyen contribu contribuyen convencional convencional convencional cosen cosen coseno costos costos costoso creat creat creates criteri criteri criterio croft croft croft cuadr cuadr cuadro cual cual cuales cuand cuand cuando cuent cuent cuentas curv curv curva curv curv curvas data dat data debem deb debemos decidir decid decidir decirs dec decirse decrecient decrecient decreciente definid defin definido definitori definitori definitorias degre degre degree demostrad demostr demostrado demuestr demuestr demuestra departament departament departamento describ describ describe describiend describ describiendo describir describ describir descripcion descripcion descripcion descriptor descriptor descriptor descrit descrit descrito dese dese desea desead des deseados dese dese desee destacabl destac destacable destacad destac destacado destacar destac destacar deteccion deteccion deteccion determinad determin determinada determinad determin determinadas determinad determin determinado determinar determin determinar devolviend devolv devolviendo 35
    • devuelt devuelt devueltos dia dia dia diaz diaz diaz diferent diferent diferentes dificil dificil dificil difundid difund difundido direct direct directo discriminacion discriminacion discriminacion discriminar discrimin discriminar discriminatori discriminatori discriminatorio diseñad diseñ diseñadas diseñar diseñ diseñar disminuir disminu disminuir dispon dispon dispone disponer dispon disponer distinguir distingu distinguir distorsion distorsion distorsiones document document document documentacion documentacion documentacion document document documento document document documentos documents documents documents donn donn donna dotars dot dotarse ecuacion ecuacion ecuacion editor editor editor efectivament efect efectivamente efect efect efecto efectuad efectu efectuada efectuar efectu efectuar effect effect effect efficient efficient efficient eficienci eficient eficiencia eficient eficient eficientes ejecutad ejecut ejecutada ejempl ejempl ejemplo ejempl ejempl ejemplos elaboracion elaboracion elaboracion elaborar elabor elaborar electronic electron electronico element element element element element elemento element element elementos elevad elev elevado eliminacion eliminacion eliminacion eliminan elimin eliminan 36
    • eliminarl elimin eliminarlo embarg embarg embargo encontrad encontr encontrados encontrar encontr encontrar encontrars encontr encontrarse engelwood engelwood engelwood englewood englewood englewood entrad entrad entrada environment environment environment escalar escal escalar escas escas escaso español español español esperad esper esperado esquem esquem esquemas establecer establec establecer estandar estandar estandares estim estim estima estimacion estimacion estimacion estimacion estim estimaciones estimar estim estimar estimarl estim estimarlos estimating estimating estimating estudi estudi estudio etiquetad etiquet etiquetado evaluacion evaluacion evaluacion evaluation evaluation evaluation evitar evit evitar examin examin examina examinaron examin examinaron exampl exampl examples exhaustividad exhaust exhaustividad expansion expansion expansion experimental experimental experimental experimental experimental experimentales experimentaron experiment experimentaron experiment experiment experimento experiment experiment experimentos experiments experiments experiments expres expres expresa expresad expres expresadas extens extens extensos extraccion extraccion extraccion extremadament extrem extremadamente facultad facult facultad feedback feedback feedback figu fig figue 37
    • figuerol figuerol figuerola figur figur figura filtrad filtr filtrado finaliz finaliz finaliza followed follow followed form form forma formad form formada formad form formado formalment formal formalmente forman form forman format format formato formul formul formula formulacion formulacion formulacion formulation formulation formulation frak frak frakes francament franc francamente francisc francisc francisco frecuenci frecuenci frecuencia frequency frequency frequency gast gast gasto general general general gomez gomez gomez grad grad grado grams grams grams grup grup grupo habrian habri habrian hall hall hall harter hart harter herramient herramient herramientas hert hert hert hill hill hill hoc hoc hoc homogene homogen homogeneas hooper hoop hooper ide ide ideas identific identif identifica identify identify identify idf idf idf impact impact impact impact impact impacto impid impid impide implic implic implica importanci import importancia important important important important import importante important import importantes 38
    • improvement improvement improvement improving improving improving incapaz incapac incapaces incluir inclu incluir incluy inclu incluye inconsistenci inconsistent inconsistencia increment increment incremento indexacion indexacion indexacion indexer index indexer indexing indexing indexing indican indic indican indicar indic indicar indic indic indice indiz indic indices ineficaz ineficac ineficaces informacion informacion informacion informatic informat informatica informatic informat informaticas information information information informativ inform informativa informativ inform informativas ingl ingles ingles inicial inicial inicial inicial inicial iniciales initial initial initial intent intent intenta interaccion interaccion interaccion interaction interaction interaction interfac interfac interface interfaz interfaz interfaz interindexer interindex interindexer internal internal internal internet internet internet introduccion introduccion introduccion introduction introduction introduction invers invers inversa inversament invers inversamente invers invers inverse invers invers inverso investigacion investigacion investigacion jose jos jose journal journal journal keywords keywords keywords lanzaron lanz lanzaron larg larg largos lematizacion lematizacion lematizacion 39
    • lenguaj lenguaj lenguaje lexic lexic lexicas libr libr libre like lik like linguistic linguist linguisticas list list list llamad llam llamado lopez lopez lopez lugar lugar lugares magnitud magnitud magnitudes management management management mangiaterr mangiaterr mangiaterra manual manual manual manual manual manuales manualment manual manualmente marcar marc marcar marcaron marc marcaron martinez martinez martinez mcgill mcgill mcgill mcgraw mcgraw mcgraw means means means measurements measurements measurements mecanism mecan mecanismo mecanism mecan mecanismos medi medi media medid med medida mejor mejor mejora mejoran mejor mejoran mejorar mejor mejorar metod metod metodos mide mid mide mode mod mode model model modelo model model modelos modern modern modern modification modification modification modo mod modo moment moment momento mostrad mostr mostrado multipalabr multipalabr multipalabra natural natural natural necesari necesari necesario necesidad neces necesidad necesidad neces necesidades negativ negativ negative negativ negat negativo 40
    • negativ negat negativos nist nist nist normalizacion normalizacion normalizacion normalizar normaliz normalizar normalment normal normalmente notablement notabl notablemente notori notori notoria numeric numer numerico numer numer numero obedec obedec obedece objetiv objet objetivo observar observ observar obtencion obtencion obtencion obtener obten obtener obteniend obten obteniendo obteniendos obten obteniendose obtienen obtien obtienen obtuvieron obtuv obtuvieron obviament obvi obviamente obviar obvi obviar ocurrenci ocurrent ocurrencia ofrecen ofrec ofrecen opcion opcion opcion operacion oper operaciones opta opta opta orden orden orden ordenad orden ordenados ordenar orden ordenar organization organization organization origin origin origin original original originales pagin pagin paginas palabr palabr palabra palabr palabr palabras palabr palabr palabras partiend part partiendo pasa pas pasa pas pas pasos peculiaridad peculiar peculiaridades pequeñ pequeñ pequeña pequeñ pequeñ pequeño performanc performanc performance permitan permit permitan permit permit permite permiten permit permiten person person persona 41
    • pertenec pertenec pertenece pertinent pertinent pertinente pertinent pertinent pertinentes peso pes peso pes pes pesos pierden pierd pierden plantear plant plantear polisemi polisemi polisemia pose pose posee posibilidad posibil posibilidad posibiliten posibilit posibiliten posibl posibl posible positiv positiv positive positiv posit positivos pp pp pp precision precision precision precis precis preciso pregunt pregunt preguntas prentic prentic prentice preposicion preposicion preposiciones privilegiar privilegi privilegiar problem problem problema problem problem problemas proceedings proceedings proceedings procesad proces procesadas procesaron proces procesaron proces proces proceso process process process processing processing processing produc produc produce producen produc producen producid produc producidas product product producto proporcion proporcion proporcion proporcional proporcional proporcional proporcionand proporcion proporcionando proporcionen proporcion proporcionen propuest propuest propuesto propuest propuest propuestos provenient provenient provenientes publication publication publication pudieran pud pudieran punt punt punto quality quality quality quaterly quaterly quaterly queri queri queries 42
    • query query query raiz raic raices ranking ranking ranking realimentacion realimentacion realimentacion realimentad realiment realimentada realimentad realiment realimentadas realiz realiz realiza realizad realiz realizada realizad realiz realizado realizar realiz realizar recalcul recalcul recalculo recall recall recall recib recib recibe recoger recog recoger recuperacion recuperacion recuperacion recuperacion recuper recuperaciones recuperad recuper recuperados recuperar recuper recuperar reduccion reduccion reduccion referenci referent referencias refin refin refine relacion relacion relacion relevanc relevanc relevance relevanci relev relevancia relevant relevant relevant relevant relev relevantes represent represent representa representacion representacion representacion representacion represent representaciones representan represent representan representant represent representante resolucion resolucion resolucion resolver resolv resolver respectivament respect respectivamente resultad result resultados resultan result resultan resultand result resultando results results results resumen resum resumen retrieval retrieval retrieval review review review revisar revis revisara revist revist revistas rocchi rocchi rocchio roman rom roman routing routing routing 43
    • salamanc salamanc salamanca salton salton salton san san san satisfac satisfac satisface scienc scienc science seguidament seguid seguidamente seguid segu seguido seguir segu seguir segurament segur seguramente seleccion seleccion selecciona seleccionad seleccion seleccionado seleccionad seleccion seleccionados seleccionar seleccion seleccionar semantic semant semantico semejanz semej semejanza sentid sent sentido señalad señal señalados señalar señal señalar shown shown shown significativ signific significativas siguient siguient siguientes similar similar similares similitud similitud similitud simpl simpl simple sinonimi sinonimi sinonimia sistem sistem sistema sistem sistem sistemas smart smart smart society society society sofisticad sofistic sofisticados somer somer somera spain spain spain spanish spanish spanish special special special stemming stemming stemming stops stops stops structur structur structures stubbs stubbs stubbs subcaden subcaden subcadenas subjetiv subjet subjetiva suel suel suele suelen suel suelen system system system systems systems systems tamañ tamañ tamaños techniqu techniqu technique 44
    • techniqu techniqu techniques technology technology technology tecnic tecnic tecnica tecnic tecnic tecnicas tematic temat tematico term term term termin termin termino termin termin terminos tesin tesin tesina tests tests tests text text text text text texto tiemp tiemp tiempo tiend tiend tiende tipo tip tipo toma tom toma tomar tom tomar totalment total totalmente trabaj trabaj trabajo trec trec trec unidad unidad unidades universidad univers universidad usad usad usado usal usal usal usars usars usarse user user user users users users using using using usually usually usually usuari usuari usuario usuari usuari usuarios util util util util util utiles utilic utilic utilice utiliz utiliz utiliza utilizabl utiliz utilizables utilizacion utilizacion utilizacion utilizad utiliz utilizada utilizad utiliz utilizado utilizad utiliz utilizados utilizand utiliz utilizando utilizar utiliz utilizar utilizaron utiliz utilizaron utilization utilization utilization vaciad vaci vaciado vaci vaci vacias 45
    • valor valor valor valor valor valores vector vector vector vector vector vectores vectorial vectorial vectorial vectorizad vectoriz vectorizada vien vien viene vist vist vista visualizar visualiz visualizar vitori vitori vitoria witghting witghting witghting words words words yat yat yates york york york zazo zaz zazo 1. Tabla Diferencias lematización 46
    • 7. CONCLUSIONES Dados los problemas que plantea el lenguaje natural (información pobremente estructurada, diferentes formatos de documentos, problemas con codificación de la información, problemas de detección y conversión de formatos y codificación, normalización de términos, etc.) se hace necesario el empleo de herramientas especializadas a la hora de tratarlo para conseguir una recuperación óptima de información, que satisfaga las necesidades de la búsqueda. . 47
    • 8. BIBLIOGRAFÍA – Indización automática – la enciclopedia libre. Actualizado el. [On-line] 30 de septiembte. Consulta realizada el 3 de marzo de 2010. URL: http://es.wikipedia.org/wiki/Indizaci%C3%B3n_autom%C3%A1tica – Ley de Zipf – la enciclopedia libre. Actualizado el 9 de octubre. [On-line]. Consulta realizada el 7 de marzo de 2010. URL: http://es.wikipedia.org/wiki/Stemming – Stemming – la enciclopedia libre. Actualizado el 2 de octubre. [On-line]. Consulta realizada el 7 de marzo de 2010 URL:http://es.wikipedia.org/wiki/George_Kingsley_Zipf 48