• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Clasificación Automática de Documentos
 

Clasificación Automática de Documentos

on

  • 3,206 views

Proyecto final de IAA

Proyecto final de IAA

Statistics

Views

Total Views
3,206
Views on SlideShare
3,206
Embed Views
0

Actions

Likes
0
Downloads
112
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft Word

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Clasificación Automática de Documentos Clasificación Automática de Documentos Document Transcript

    • Clasificación Automática utilizando Clustering (Kmeans, EM) de la Colección 20 NewsGroup<br />Santiago Fernando Suárez S.<br />Inteligencia Artificial Avanzada<br />Escuela de Ciencias de la Computación<br />UNIVERSIDAD TECNICA PARTICULAR DE LOJA<br />sfsuarez@utpl.edu.ec<br />RESUMEN<br />General Terms: Algorithms, Categorization Text<br />Palabras claves<br />Clasificador, modelo vectorial, clustering, Minería de texto.<br />Abstract<br />En este trabajo se presenta un estudio comparativo de categorización de documentos entre los algoritmos de clustering K-means, EM sobre un conjunto de datos pertenecientes al repositorio 20 News Group, además se presenta una recopilación de trabajos que abordan el mismo problema, se exponen las técnicas empleadas y algunos resultados obtenidos. Asimismo se habla de las ventajas y desventajas de los métodos de clasificación supervisado, semi-supervisado y no supervisado. Se aborda también sobre los modelo de representación de los documentos, se presenta una descripción sobre el modelo vectorial utilizado en la Recuperación de Información ahora aplicado a la categorización de documentos.<br />Introducción<br />Este proyecto está enfocado al análisis y experimentación del aprendizaje automático teniendo como herramienta la clasificación. Esta actividad aunque parece trivial para el ser humano para un computador no lo es tanto, ya que todos los escenarios y las posibles combinaciones entre las variables no son siempre los mismos, para solucionar este y otros problemas aparecen las técnicas clasificación supervisada; que a partir de un conjunto de entrenamiento previamente preparado por un agente humano se procede a sacar el conocimiento necesario para la clasificación de nuevos casos. <br />Planteamiento del Problema<br />La cantidad de documentos presentes en la red es cada vez mayor, la información se encuentran contenido en repositorios tanto públicos como privados. La diversidad de contenidos a si como su diversidad hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano.<br />Esto hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano.<br />Objetivos<br />El presente proyecto tiene como objetivo conocer los modelos de agrupación más efectivos para la clasificación de. Además se contemplan que dicho clasificador cuente con las siguientes características:<br />Cuente con un modelo flexible de representación de documentos<br />Independiente del dominio.- Que no está restringido a un solo campo si no que sea de propósito general.<br />Que trabaje de igual forma con contenido estructurado como no estructurado.<br />Trabajos Realizados<br />Existen gran variedad de trabajos relacionados con este tema, entre esos podemos mencionar el trabajo de Guzmán (2009) el cual utiliza una categorización semiautomática de documentos, específicamente el algoritmo selft-training; este funciona con un número pequeño de instancias categorizadas previamente mano y luego utiliza la web como un corpus referencial, para obtener nuevos casos de entrenamiento y así aumentar la diferencia entre los patrones de cada clase, así como también la eficacia del clasificador. Siguiendo la misma línea de clasificación semi-automática se encuentra Aparicio (2008) en donde se utilizan la variante multimonial del clasificador Naive Bayes para generar un modelo de mezclas de términos en base a la longitud del documento y así calcular la probabilidad. También se utiliza el algoritmo EM (Expectation-Maximization) como primer paso se estima el valor esperado de la clase dada para encontrar los máximos locales de los parámetros del modelo estimado, luego se maximiza la probabilidad de los parámetros utilizando los valores del paso anterior. En Figuerola (2000) se hace uso del modelo vectorial de los sistemas de Recuperación de Información (RI) para generar vectores patrón para el entrenamiento, estos son de tipo binario los cuales reflejan la ocurrencia de términos en los documentos, a cada término se le asigna un peso calculado a partir de la propuesta de Salton (1968), el proceso de reconocimiento de patrones de cada clase se hace utilizando el algoritmo de Rochio.<br />En Cruz (2006) se hace una clasificación de críticas de cine, lo particular de este trabajo es que utiliza bigramas los cuales sirven de entrada al algoritmo PMI-IR (Pointwise Mutual Information-Information Retrieval) para el cálculo de la orientación semántica (positivas o negativas) de las críticas, la clasificación en si es la suma de las orientaciones semánticas. Martín (2009) también enfoca su trabajo en la clasificación de críticas de cine, en este trabajo los documentos a clasificar pasan por una actividades previa basado en actividades de Procesamiento de Lenguaje Natural (segmentación, lematización, desambiguación semántica) la clasificación se la realiza utilizando los algoritmos KNN y K Nearest Neightbour. En Rangel (2004) se hace una clasificación de páginas Web para un dominio específico (Teatro) utiliza el método Bow y la validación cruzada para verificar la adecuación de la colección de entrenamiento, la clasificación se realiza usando el algoritmo de Naive Bayes, obteniendo muy bueno resultados. Zubiaga (2009) también trabaja con la clasificación de páginas web, para ello utiliza el algoritmo SVM (Support Vector Machine) ya que estos no requieren una selección o reducción de términos, tampoco un ajuste de parámetros lo que facilita su directo uso sobre los documentos a clasificar. Yoliz (2003) utiliza los algoritmos genéticos, en este trabajo los documentos son representados mediante la numeración de grupo la cual contiene varios parámetros (Cantidad de documentos, cantidad de grupos, similitud) para el cruzamiento de cromosomas utilizan una solución creada en base a los requerimientos del problema, los resultados de este trabajo son mejores que los obtenidos con el algoritmo “Bisecting K-Means con refinamiento”. En Lilac (2009) se propone a la clasificación automática de los documentos utilizando el algoritmo A- Priori, se pone especial interés en el análisis de las relaciones entre el conjunto de documentos de una clase y los términos que contienen, produciendo un conjunto de reglas basado en los términos y sus frecuencias en cada categoría. Fawad (2009) utiliza el método de clasificación x-Sim clustering, la idea principal de este algoritmo es aprender de la matriz de similitud de los documentos y la matriz de similitud entre las palabras los patrones en cada iteración, los experimentos mostraron que este enfoque aporta iguales o mejores resultados que utilizando el método de SVM.<br />Como se ha revisado existen formas supervisadas y no supervisadas para resolver el problema de clasificación de documentos, también se presenta un interés en técnicas semi-supervisadas ya que estas dedican el menor esfuerzo en la creación del conjunto de entrenamiento. Asimismo la naturaleza de la clasificación ha evolucionado, en un principio solo se basaba en la similitud sintáctica de palabras pero actualmente se están considerando y utilizando sistemas de clasificación que comprendan el sentido de los términos de los documentos (similitud semántica).<br />Metodología<br />Elección del Clasificador<br />De los trabajos revisados podemos destacar que existen varias formas de solucionar este problema, entre estás se destacan las técnicas semi-supervisadas las cuales tienen la capacidad de trabajar con un número reducido de ejemplares de entrenamiento lo cual las hace atractivas frente a las técnicas supervisadas, las cuales demanda importantes recursos (tiempo, personal) para la construcción del conjunto de entrenamiento.<br /> Las técnicas no supervisadas sobresalen por el hecho de que extraen las clases de los propios datos, no necesitan pre-procesamiento y los datos no etiquetados son más fáciles de encontrar en la red, sin embargo; según lo expone Chapelle (2005) las técnicas supervisadas ofrecen resultados más precisos frente a las técnicas no supervisadas y semi-supervisadas; en cambio, Díaz (2007) sostiene que las técnicas como Kohonen y Clustering (técnicas no supervisadas) son las que mejor se adaptan a la dinámica de la producción de información actual.<br />A lo que se refiere a los métodos se ha encontrado en varias oportunidades a Naive Bayes [Rangel (2004), Martín (2009)] su uso radica en que permiten calcular de forma explícita la probabilidad asociada a cada una de las hipótesis posibles, lo que constituye una gran ventaja sobre otras técnicas, Mitchell (1997).<br /> <br />También en la literatura revisada se ha encontrado varias implementaciones de clustering [Aparicio (2008), Fawad (2009)] estos algoritmos se acercan más a la realidad de la información en la red, trabajan directamente sobre los documentos no necesitan ni de estructuración ni categorización previa, trabajan descubriendo grupos. <br />Aunque los métodos bayesianos parecen reunir todas las características ideales, pero el consumo de tiempo y recursos para construir el modelo de entrenamiento pesa, la cantidad de información en la red necesita de métodos automáticos para su procesamiento, los algoritmos de clustering se adaptan fácilmente a las necesidades de la red; así lo expone Díaz (2007) estos algoritmos son capaces de de filtrar la red descubriendo relaciones y agrupamiento importantes en los documentos.<br /> Teniendo presente sus ventajas en este trabajo se emplearan los algoritmos de clustering, principalmente se utilizarán el SimpleKmeans, el algoritmo EM y CobWeb, de los cuales explotaremos su simplicidad de uso, y eficiencia.<br />SimpleKMeans: Es un algoritmo clasificado como Método de Particionado y Recolocación. Este método representa cada uno de los clusters por la media (o media ponderada) de sus puntos, es decir, por su centroide. Este método únicamente se puede aplicar a atributos numéricos, la representación mediante centroides tiene la ventaja de que tiene un significado gráfico y estadístico inmediato. La suma de las discrepancias entre un punto y su centroide, expresado a través de la distancia apropiada, se usa como función objetivo. La función objetivo, suma de los cuadrados de los errores entre los puntos y sus centroides respectivos, es igual a la varianza total dentro del propio clúster. La suma de los cuadrados de los errores se puede racionalizar, como el negativo del log-likelihood, para modelos mixtos que utilicen distribuciones normales.<br />EM: Asigna a cada instancia una distribución de probabilidad de pertenencia a cada cluster. Este algoritmo tiene la capacidad de decidir cuántos clusters crear basado en validación cruzada, o en su defecto especificar explícitamente a priori cuantos debe generar. Asumiendo que todas lo atributos atributos son variables aleatorias independientes utiliza el modelo Gaussiano finito de mezclas. Este es más complejo que el KMedias, ya que requiere muchas más operaciones.<br /> <br />Cobweb: Es un algoritmo de clustering jerárquico, utiliza aprendizaje incremental, realizando agrupaciones instancia a instancia. Durante la ejecución del algoritmo se forma un árbol (árbol de clasificación) donde cada hoja representan los segmentos y el nodo raíz representa el conjunto de datos de entrada. Las instancias se añaden una a una y el árbol se va actualizando en cada paso. Cada actualización debe encontrar el mejor sitio donde debe ir la nueva instancia, esta operación puede necesitar de la reestructuración de todo el árbol o simplemente la inclusión de la instancia en un nodo que ya existía. <br />Este algoritmo utiliza dos parámetros: <br />a) Acuity: La utilidad de categoría es una estimación de la media y la desviación estándar del valor de los atributos, este parámetro en si representa la medida de error de un nodo con una sola instancia, es decir, establece la varianza mínima de un atributo. <br />b) Cut-off: Utilizado para evitar el crecimiento desmesurado del número de segmentos. Indica en que grado se debe producir la utilidad de categoría para que la instancia sea tenida en cuenta de manera individual.<br />Representación de los Documentos<br />La representación de los documentos consiste en transformar el contenido de cada documento en un formato común y manejable para el algoritmo de clasificación, existen varias tipos de representación, entre estas se encuentra la representación Vectorial utilizada para operaciones de RI, también son utilizadas ampliamente para procesos de categorización de documentos. Este trabajo utiliza este tipo de representación la cual consiste en la representación lógica que trabaja con un vector de pesos wij, el cual indica el grado de relevancia del término ti en el documento dj, esta relevancia está sujeta a la frecuencia con que el término ti aparece en el documento dj. <br /> t1t2t3…ti…tmd1w11w12w13…w1i…w1md2w21w22w23…w2i…w2m……………………diwi1wi2wi31…wij…wim……………………dnwn1wn3wn3…wnj…wnm<br />Tabla 1: Matriz de frecuencia de términos Llidó (2002)<br />Conjunto de Entrenamiento y Pruebas<br />Los casos que sirve de entrenamiento y pruebas fueron recolectados del repositorio 20-newsgroup el cual es un conjunto de documentos cortos sobre noticias, se encuentra dividido en 20 categorías, para efectos de este trabajo se han considerado las categorías de: Atheism, Baseball, Motorcycles, Politics, Electronics las cuales hablan religión, deprotes, motos, políticos y electrónica. De esta colección se ha escogido el 60% (749) como conjunto de entrenamiento y el restante (40% - 499) serán tomados para probar el clasificador.<br />ClaseInstanciasAtheism214Baseball120Motorcycles315Politics419Electronics180Total1248<br />Tabla 2: Conjunto de Categorías<br />Los atributos con los que se trabajan son 3:<br />Preparación de Datos<br />Una vez obtenidos los datos, los cuales se encontraban en forma física (documentos) se procedió a indexarlos con la con la finalidad de obtener una vista lógica del contenido de los documentos lo que en si es importante al proyecto y más fácil de manejar, todo el contenido de los documentos se almacenó en un índice del cual se extrajo los atributos con los cuales se va a trabajar:<br />Nombre: El nombre del documento por el cual se lo identificará.<br />Contenido (Contents): El cual guarda el contenido de los documentos en formato plano.<br />Clase: Es un valor nominal que representa a la clase que pertenece <br />Una vez obtenidos los identificados los parámetros con los que se va a trabajar existen unos pasos previos que se tienen que tienen que realizar y los cuales se detallan enseguida.<br />Pre-procesado de Datos<br />Previos al proceso de clasificación y test debemos trabajar con los datos ya que los atributos en su mayoría son de tipo texto y los algoritmos de clustering no pueden trabajar con esta clase de datos, es por eso que se hace uso de los filtros que provee Weka para el pre-procesado.<br />StringtoNominal: Este filtro se encarga de nominalizar los atributos de tipo texto en los data set, en nuestro caso será aplicado al atributo Titulo. <br />StringToWordVector: Transforma el contenido de cada documento tipo texto en vectores de pesos, utiliza un stemmer, un tokenizador y un archivo pasado pro parámetro que contiene el listado de stopword (palabras vacías), los resultados que arrojan son: {12,14,56,23,66,11,34} <br />Remove: En este punto la variable que contiene la clase a la que pertenece cada documento resulta irrelevante para el análisis esa así que se procede a eliminarla.<br />NumericToBinary: Este se encarga de transformar a binarios cada número del vector de representación, es aplicado al contenido cada documento. <br />BestFirst: busca en el espacio de atributos aquellos subconjuntos de atributos más representativos utilizando la estrategia greedy hillclimbing con backtracking. <br />CfsSubsetEval : Evalúa un subconjunto de atributos considerando la habilidad predictiva individual de cada variable, así como el grado de redundancia entre ellas. Se prefieren  los subconjuntos de atributos que estén altamente correlacionados con la clase y tengan baja intercorrelación<br />Estos filtros permiten encontrar los atributos más representativos para cada clase, del conjunto de datos destacan los siguientes atributos:<br />Tabla 3: Subconjuntos de atributos representativos del conjunto de datos<br />GainRatioAttributeEval: evalúa cada atributo midiendo su razón de beneficio con respecto a la clase.<br />Ranker: devuelve una lista ordenada de los atributos según su calidad.<br />Estos dos algoritmos permiten evaluar los atributos de manera individual y permite obtener los mejor posicionados a continuación se presenta una lista de los mismos.<br />Tabla 4: Lista de atributos con los mejores promedios según su calidad<br />Herramientas a utilizar<br />Las herramientas que se van a utilizar en este proyecto son:<br />Netbeans, Como entorno de desarrollo <br />Librería Apache Lucene para el pre procesamiento de los documentos: Remoción de palabras vacías, análisis de frecuencia de términos<br />WEKA, librearía especializada en algoritmos de aprendizaje automático, entre estos se encuentra los algoritmos a Implementar: SimplekMeans, EM,CobWeb<br />Pruebas<br />Definición de las Métricas<br />Para medir el funcionamiento de cada técnica se utilizarán las medidas de precisión y exhaustividad y utilizadas para las operaciones de RI además de la distribución F, ya que son ampliamente utilizadas en problemas de clasificación de documentos [Figuerola (2000), Téllez (2003)]. Estas se calculan a partir de las siguientes ecuaciones:<br />R= aa+c Precisión<br />P=aa+b Exhaustividad<br />Donde: <br />a es el número de documentos pertenecientes a una clase y adscritos a esa clase<br />b es el número de documentos no pertenecientes a una clase pero asignados a esa clase<br />c es el número de documentos pertenecientes a una clase no asignados a esa clase<br />Además se analizan la desviación estándar y la taza de error para conjunto de datos para analizar la efectividad de cada técnica empleada, estos datos son provistos por Weka. <br />3.3 Interpretación de los resultados<br />Kmeans:<br />Al utilizar este algoritmo con los valores por defecto (Iteraciones 500 y seed 10) no se obtuvo buenos resultados, la clasificación fue mediocre para las clases expuestas, por tal motivo se procedió a utilizar el mismo conjunto de datos variando las iteraciones y el seed todo esto con el fin de mejorar los resultados, después de haber hecho varias corridas, se llego a un punto máximo donde la clasificación no podía mejorar más (ver tabla 4), el cambio del método para calcular la distancia fue preponderante ya que con la Distancia Euclideana los resultados no superan el 45% de precisión en cambio con la distancia de Manhattan se alcanzó un valor máximo de precisión de 56 % (corrida 5 y 6). Esto tiene su razón de ser ya que el resultado final del Cluster depende radicalmente a la medida de asociación utilizada Mahía (2009) <br />Tabla 5: Configuraciones y resultados de 13 corridas con simplekmeans<br />A pesar de que se utilizó las configuraciones de la corrida con los mejores resultados, aun se mantiene el problema de la clase baseball cuyos elementos el clasificador no puede catalogar.<br />Tabla 6: Resultados de la corrida 6<br />Esto se debe a que los elementos de esta clase tienen un valor demasiado pequeño de heterogeneidad con respecto a los demás, es decir que su similaridad es tan inapreciables que el clasificador termina asignándolos a clases diferentes Esto puede ser corregido con un pre-procesamiento de datos más profundo. Mahía (2009) propone algunas técnicas para contrarrestar este problema: una correlación de conexión entre variables y Medidas de similitud para variables nominales binarias.<br />A continuación se presenta la matriz de clasificación resultante con los valores de cada clase.<br />Tabla 7: Matriz de Confusión SimpleKMeans<br />EM<br />La clasificación con esta técnica se encontró la mejor configuración en la tercera corrida con superiores resultados que aplicando simpleKmeans. En esta técnica se redujo el número de iteraciones a 50 y elseed se mantuvo en 100 para obtener resultados deseados. <br />Tabla 8: Resultados de la corrida 3<br />En la siguiente tabla se muestran la matriz de confusión resultante de la configuración empleada, los resultados son muy buenos a pesar de que persiste el problema de la clase baseball cuyos elementos han sido asignados a otras clases.<br />Tabla 9: Matriz de Confusión EM <br />EM Computacional es costoso pero posee mayores beneficios a los que se refiere a clasificación ya que posee un método iterativo e incremental basado en la maximización de la probabilidad, aunque para este caso dicha maximización abarco las instancias de la clase baseball aunque este punto puede ocasionar problemas en futuras clasificaciones puede ser remediado con un mejor reprocesamiento de los datos.<br />Conclusiones y trabajo futuro<br />En este trabajo se han llegado a las siguientes conclusiones:<br />Conclusiones<br />No todas las agrupaciones generadas por los algoritmos clustering son representativas.<br />El algoritmo clustering no puede recuperarse de decisiones incorrectas.<br />El coste computacional de los algoritmo de clustering crece a razón de On2 <br />Se debe conocer bien la naturaliza del problema para cuestiones de pre-procesado de datos e interpretación de resultados<br />Los caracteres especiales, números y palabras vacías afectan gravemente el proceso de clasificación.<br />Se pueden mejorar los resultados de clasificación aplicando mecanismos de Procesamiento de Lenguaje Natural (PLN)<br />La selección de atributos (BestFirst, Raker, GainRatioAttributeEval, CfsSubsetEval) ayudan a mejorar enormemente la clasificación<br />La exhaustividad no necesariamente está relacionada con la precisión.<br />Para una clasificación efectiva se debe considerar la distribución de los atributos en cada clase para medir si son representativos.<br />Bibliografía<br />Aparicio, R. y Acuña, E (2008). “Clasificación Semi-Supervisada de Documentos”. Departamento de Ciencias Matemáticas, Universidad de Puerto Rico. Extraído el 5 de mayo de 2010 desde: www.iiis.org/CDs2008/CD2009CSC/CISCI2009/PapersPdf/C758MD.pdf<br />Chapelle O. and Zien A.” Semi-Supervised classification by low density separation”. 10th workshop on AI and stat Extraído el 10 de Mayo de 2010 desde: http://www.kyb.mpg.de/publications/pdfs/pdf2899.pdf<br />Cruz, F. Troyano, J y Ortega, J. (2006) “Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español”. Universidad de Sevilla-España. Extraído el 3 de Mayo de 2010 desde: www.sepln.org/revistaSEPLN/revista/41/sec3-art2.pdf<br />Fawad, S. y Bisson, G. (2009) “Text Categorization Using Word Similarities Based on Higher Order Co-occurrences”. Extraído el 10 de Mayo de 2010 desde: http://www.siam.org/proceedings/datamining/2010/dm10_001_hussains.pdf<br />Figuerola, C. Zazo, A. y Alonso, L. (2000). “Categorización de documentos en español: algunos resultados experimentales“. Universidad de Salamanca. Facultad de Documentación. España – Salamanca. Extraído el 17 de abril de 2010 desde: reina.usal.es/papers/figuerola2000categorizacion.pdf<br />Guzman, R. (2009).”Categorización Semi-automática de documentos usando la Web como corpus”. Universidad Politécnica de Valencia. Valencia-España. Extraído el 15 de abril de 2010 desde http://dspace.upv.es/xmlui/handle/10251/6562.<br />Lilac, A. “Auto Classification for Search Intelligence”. Extraído el 13 de Mayo de 2010 desde: http://www.waset.org/journals/waset/v49/v49-150.pdf<br />Martin, M. y Villena, J. (2009). “Sistema de Clasificación Automática de Críticas de Cine”. Universidad Carlos III. Madrid-España. Extraído el 6 de Mayo de 2010 desde: http://e-archivo.uc3m.es/bitstream/10016/5846/1/PFC_Miriam_Martin_Garcia.pdf<br />Mitchell, T. (1997). “Machine Learning”, McGraw-Hill. Extraído el 10 de Mayo de 2010 desde: http://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf<br />Rangel, M. y Penas, A. (2004):”Clasificación de Páginas Web en Dominio Específico”. Universidad de Madrid. Extraído el 10 de Mayo de 2010 desde: http://www.sepln.org/revistaSEPLN/revista/41/sec3-art4.pdf<br />Salton, G. (1968). “Automatic Organization Retrieval”. Universidad de Michigan. New York: McGraw-Hill. <br />Yolis, E. (2003):” ALGORITMOS GENÉTICOS APLICADOS A LA CATEGORIZACIÓN AUTOMÁTICA DE DOCUMENTOS”. Universidad de Buenos Aires. Extraído el 10 de Mayo de 2010 desde: http://laboratorios.fi.uba.ar/lsi/yolis-tesisingenieriainformatica.pdf<br />Zubiaga, A. (2009): “Aproximaciones a SVM semisupervisado multiclase para clasificación de páginas web”. Extraído el 9 de Mayo de 2010 desde: www.sepln.org/revistaSEPLN/revista/.../03Articulos-p16-63a70.pdf<br />Figueras, S. (2001): " Análisis de conglomerados o cluster" . Universidad de Zaragoza – España. Extraído el 9 de Mayo de 2010 desde: http://www.5campus.org/leccion/cluster<br />Téllez, A. (2003) y otros. “Aplicando la Clasificación de Texto en la Extracción de Información”. Instituto Nacional de Astrofísica Óptica y Electrónica. Puebla –México. Universidad Politécnica de Valencia. Valencia, España. Extraído el 5 de mayo de 2010 desde: http://ccc.inaoep.mx/~mmontesg/publicaciones/2004/IEconClasificacion-tallerENC04.pdf<br />Díaz, C. (2007): “CLASIFICACIÓN NO SUPERVISADA”. Universidad Carlos III. Extraído el 5 de mayo de 2010 desde: http://clustering.50webs.com/docs/clasificacion_no_supervisada.pdf<br />Llidó, María D. (2002). Extracción y Recuperación de Información Temporal. Tesis Doctoral. Universidad Jaume I. Extraído el 12 de Diciembre de 2009 desde http://www.tesisenxarxa.net/TESIS_UJI/AVAILABLE/TDX-0630104-124212//llido.pdf<br />Maldonado M. (2002). Hermes: Servidor y biblioteca de modelos de recuperación de información. Tesis. Universidad de las Américas Puebla. Extraído el 19 de Enero de 2010 desde: http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/maldonado_n_mf/capitulo_2.html.<br />Mahía, R (2009):” INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO”. Universidad Autónoma de Madrid. UDI de Econometría e Informática - Dpto. Economía Aplicada. Extraído el01 de Junio de 2010 desde: http://www.uam.es/personal_pdi/economicas/rmc/documentos/cluster.PDF<br />