New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)
Upcoming SlideShare
Loading in...5
×
 

New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

on

  • 422 views

In the last few years there has been a rapid increase in the amount of electronically available data. This has fostered the emergence of novel data mining and machine learning applications able to ...

In the last few years there has been a rapid increase in the amount of electronically available data. This has fostered the emergence of novel data mining and machine learning applications able to extract information and knowledge. A significant proportion of these data sources are in the form of natural text, something which involves difficulties not present in other domains, such as their unstructured nature and the high dimensionality of the datasets. Natural text has to be preprocessed so that it can be analyzed by computers, and learning algorithms have to be able to cope with such high-dimensional feature spaces. Text mining techniques are invaluable to extract knowledge from natural text, as well as from other types of unstructured, alphabet-based data such as DNA strings.

Many of these data sources are not available as closed-ended datasets, but rather as data streams of examples that arrive in a sequence over time. This includes many text data sources, such as web pages, emails or blog posts. Given the unbounded nature of these datasets, it is important to work with scalable algorithms that use reduced time and memory. Additionally, it is important for the algorithms to be able to adapt to changes in the underlying statistical distributions governing the data. This is especially difficult in the case of data streams, because of their high dimensionality. In order for text streams to be computationally tractable, it is necessary to previously reduce the dimensionality of the datasets, employing only the most relevant terms in the learning algorithms. However, the importance of the terms change over time, which in practice means that it is necessary to work under the assumption of a dynamic feature space. Keeping track of this evolving high-dimensional feature space is an intrinsically complex problem, since the importance of each feature depends on the others.

Such challenges are tackled in this thesis. We present GNUsmail, a framework for text stream classification in the domain of electronic email, and use it to study the nature of concept drift in text streams. We introduce a framework for adaptive classification, ABC-DynF, which is able to adapt to dynamic feature spaces, incorporating new features and labels to previously existing models. We also study the problem of summarization in text streams, and propose TF-SIDF / BM25, an approach for approximate weighting function approximation which makes it possible to extract keywords and construct word clouds from text streams in an efficient way. Finally, we present STFSIDF, an incremental approach for online feature selection which minimizes the number of weight recalculations while keeping continuously updated lists of the most relevant features. STFSIDF uses approximate algorithms to reduce the space complexity derived from the high dimensionality of the data sources.

Statistics

Views

Total Views
422
Views on SlideShare
422
Embed Views
0

Actions

Likes
0
Downloads
5
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Diferenciar en dos partes: con datasets estáticos (los 2 primeros puntos) y dinámicos/flujos (lo demás)
  • Le dedicamos un punto a cada objetivo, predecidos de una discusión sobre la minería de textos, y seguido de las conclusiones
  • Tabla 2.1: ilustra la parte de preparación de los datos
  • ->El gráfico de la derecha ilustra las diferentes partes del preprocesamiento-> Pasar “de puntillas” por la reducción de dimensionalidad (no da tiempo)
  • -> Idea general de este capítulo: plataforma para clasificación de flujos de correo electrónico-> ¿Qué pasaría si, en esta fuente de datos, no hubiésemos incorporado la información del Mundial, aunque antes funcionase bien el modelo? Que no estaríamos capturando una información muy importante sobre la asociación España-fútbol
  • -> Los algoritmos de detección de cambio de concepto se basan en general en comparación de ventanas de ejemplos, mediante tests estadísticos, aunque por falta de tiempo no voy a discutir ejemplos concretos-> Evaluación precuencial: tenemos un flujo. Llega un ejemplo. Emitimos una medida de desempeño tras tratar de clasificarlo, y la añadimos a la media. Después, añadimos la información del ejemplo al modelo de clasificación, y asi-> Pesimista, porque tiene en cuenta el principio (cuando no había aprendido demasiado bien el modelo)-> Las mejoras permiten darle más peso a las últimas instancias
  • Puede parecer raro hablar de ADN en una tesis sobre lenguaje natural, pero hay que tener en cuenta que el ADN son cadenas de símbolos con una semántica (“el lenguaje de la vida”).Por lo tanto, los planteamos usar técnicas de TM para extraer informaicón biológica
  • El problema en el ADN es cómo extraer subcadenas, que en el lenguaje natural es un problema más fácil.Lo hacemos en dos fases:1) Usamos el algoritmo SANSPOS paralelo para extraer palabras frecuentes2) Usamos la función AV para filtrar las palabras realmente relevantes (muchas son frecuentes porque forman parte de una palabra frecuente).Para usar AV: en cada palabra se miran las subcadenas para las que no hay valor añadido, y se añaden a una lista de “tabús”¿Cómo funciona AV?
  • ElmtDNA se transmite por vía materna, y es útil para estudiar los movimientos de las poblacionesPrincipal diferencia: no usamos atributos proporcionados por los expertos, sino que mediante minería de datos encontramos los atributos más adecuados
  • Dos estrategias básicas de transformación de problemas: binarizatorias (se tienen en cuenta las etiquetas por separado) y tipo LP (se tienen en cuenta conjuntos de etiquetas)
  • Los resultados indican que la dependencia entre etiquetas es más importante en recall
  • Aquí empieza la segunda parte de la tesis, dedicada a flujos de texto
  • Idea: plataforma que implemente estos métodos para clasificación de correo electrónico
  • Vemos como la proporción de número de mensajes es diferente en el primer 30% y el 100%, lo que indica la ocurrencia de cambio de concepto
  • Explicar lo que simbolizan las gráficas antes de explicar el resultadoObservaciones:El ganador es OzaBag sobre Nnge, usando detector de cambio de concepto (DDM)Vemos como, si usamos fading factors, el resultado es más altoTest de McNemar: según los FN y FP, se computa si hay diferencia significativa o no. Con fading factors hay menos diferencia significativa (el principio del flujo tiene menos importancia)
  • Observaciones:El ganador es OzaBag sobre Nnge, usando detector de cambio de concepto (DDM)Vemos como, si usamos fading factors, el resultado es más altoTest de McNemar: según los FN y FP, se computa si hay diferencia significativa o no. Con fading factors hay menos diferencia significativa (el principio del flujo tiene menos importancia)
  • En este capítulo introducimos el concepto de espacios de atributos dinámicos
  • Origen: estancia en Aveiro. Construye una capa adicional sobre Ad…SL.Los ejemplos llegan en batchUsamos Chi^2, porque necesita exactamente los mismos contadores que las redes bayesianas (tenemos una tabla de estadísticas suficientes)
  • Aquí no se muestran p-values, sino valores en bruto (usando las configuraciones que hemos fijado en los puntos anteriores), y el ranking.
  • Aquí no se muestran p-values, sino valores en bruto (usando las configuraciones que hemos fijado en los puntos anteriores), y el ranking.
  • Idea de estas funciones: una palabra es relevante si aparece mucho en un documento, y poco en los demás (discriminativa)Para calcular las palabras relevantes de un documento, necesitamos dos cosas:La frecuencia de las palabras de ESE documento (sin tener en cuenta el pasado)El número de documentos en el que ha aparecido cada palabra (hace falta tener en cuenta el pasado ->problema de complejidad)Para b, usamos Count-min sketch
  • Para cadio ratio de compresión, comparamos diferente número de funciones hash. Resultado: mejor, height = 2 ( para reducir el error en la cuenta de los elementos comparativamente pequeños)Hablar aquí de distribución de Zipf
  • Segundo nivel: resumir categorías
  • Aquí medimos la relevancia respecto a una “CATEGORIA”, no documento.Hemos elegido TF-IDF en vez de otras funciones porque
  • Aproximar TF y IDF apartePara calcular SIDF: hariá falta saber para cuántas categorías la cuenta de una palabra es 0. Pero los sketches no aproximan bien esta cantidad, a causa de las colisiones. Por lo tanto, es necesario otro tipo de estructuras: filtros de Bloom.
  • Reducción
  • TODO visualization?
  • TODO visualization?

New trends in data mining theory and applications for natural language text classification (Ph.D. presentation) New trends in data mining theory and applications for natural language text classification (Ph.D. presentation) Presentation Transcript

  • Tesis DoctoralJosé Mª Carmona CejudoDirectores:Rafael Morales BuenoManuel Baena GarcíaUniversidad de Málaga6 de junio de 2013Nuevas tendencias en fundamentosteóricos y aplicaciones de la mineríade datos aplicada a la clasificación detextos en lenguaje natural
  • Why text mining? Nowadays, most information is stored as documents in natural language Applications: blog mining, spam detection, web page clustering,recommender systems, analysis of medical literature, and much moreWhy is it challenging? Unstructured information High dimensionality (large vocabulary) Massive, unbounded data sources Changes in underlying statistical distributions over time (concept change)2
  • Objectives of this thesis Application to DNA strings Application of multilabel classification to electronic mail Study of concept drift in email data streams. GNUsmail framework Study of dynamical attribute spaces in text streams. Is it useful? What’s thebest strategy? ABC-DynF framework Efficient strategies for document summarization using reduced space. TF-SIDF/BM25 Efficient strategies for feature selection in text streams using reducedspace. STFSIDF Open source and replicable experimentation3Applications inbounded datasetsStudy ofdata streams
  •  Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributosdinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions4Aplicacionesdatasets cerradosFlujos dedatos
  •  Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributosdinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions5
  •  Minería de textos: minería de datos para documentos en lenguaje natural Minería de datos: extracción de información de grandes cantidades de datos Tareas:◦ Clasificación◦ Regresión◦ Clustering◦ Reglas de asociación Proceso en varias fases:◦ Comprensión del dominio de aplicación◦ Preparación de los datos◦ Modelado◦ Evaluación◦ Despliegue6
  • Preprocesamiento de texto: Tokenization Stemming Eliminación de stop-words Transformación a espacio vectorial Pesos:◦ Binarios◦ Frecuencia◦ Según función de relevancia (peso)7April is the cruellest month, breedingLilacs out of the dead land, mixingMemory and desire (. . .)[’april’, ’is’, ’the’, ’cruellest’, ’month’,’breeding’, ’lilacs’, ’out’, ’of’, ’the’,’dead’, ’land’, ’mixing’, ’memory’, ’and’,’desire’][’april’, ’be’, ’the’, ’cruel’, ’month’,’breed’, ’lilac’, ’out’, ’of’, ’the’, ’dead’,’land’, ’mix’, ’memory’, ’and’, ’desire’[’april’, ’cruel’, ’month’, ’breed’,’lilac’,’dead’, ’land’, ’mix’, ’memory’,‘desire’, ](The waste land, T.S. Eliot)Reducción de dimensionalidad: Selección de términos◦ Estrategia wrapper (funciones de relevancia)◦ Estrategia de filtrado Extracción de términostokenizationstemmingeliminar stop-words
  • 8Algoritmos de clasificación: Probabilísticos (Naïve Bayes) SVMs Redes neuronales Basados en ejemplos (lazy) Árboles de decisión Multiclasificadores (ensemble learning)o Boosting, baggingEvaluación Medidas de evaluacióno Precisión, recall, F1 Comparación de algoritmoso Validación cruzadao Tests estadísticosEntrenamientoEvaluación4 foldcross validationIteración 1Iteración 2Iteración 3Iteración 4
  •  Escenario: fuentes de datosno acotadas Limitaciones computacionales◦ No se almacenan los ejemplos◦ Modelos incrementales◦ Limitaciones de espacio ytiempo9 Cambios de concepto◦ Repentino o gradual◦ Real o virtual
  •  Algoritmos de clasificación. Dos filosofías:◦ Estrategia wrapper◦ Adaptación Algunos algoritmos influyentes:◦ VFDT◦ UFFT◦ Algoritmos ensemble (OzaBoost/OzaBag)10 Algoritmos de detección de cambiode conceptoo ADWINo Statistical Process Controlo Page-Hinkley Testo DDM / EDDMo Etc… Evaluacióno Validación cruzada: no sirveo Evaluación precuencial. Estadístico pesimista.o Mejora: fading factors / sliding windows. Trabajo de J. Gama [111]
  • Necesarios algoritmos aproximados para reducción de espacio(estimación de frecuencias, top-k, …) Basados en contadores: se mantienen contadores para unsubconjunto de todos los ítems posibles. Basados en sketches:◦ Se proyectan los contadores a un espacio de menordimensionalidad, usando funciones hash◦ Aplicaciones: problema top-k, estimación de frecuencias11
  • Count-Min Sketch. Cormode y Mathukrishnan, 2005 [202] Estructura matricial C (h filas, w columnas) Procedimento de actualización: cuando llega un item i, hj(i) secomputa para cada fila j, incrementando en 1 unidad el valor de C[j,h_j[(i)]] Procedimiento de estimación: freq[i] ≈ minkC[k, hk(i)] Propiedad importante: para obtener una aproximación con error ε yprobabilidad δ, necesitamos un ancho de e/ε, y log(1/ δ) funcioneshash12
  • Filtros de Bloom Estructura de datos probabilística paracomprobar eficientemente si unelemento es miembro de un conjunto Array de m bits y k funciones hash Añadir elemento i: cada una de las kposiciones del array que corresponden a isegún las funciones hash se pone a 1 Comprobar si un elemento está en elconjunto: si alguna de las k posicionesestá a 0, el elemento no está en elconjunto.13
  •  Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributosdinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions14
  •  ADN (ácido desoxirribonucleico): largascadenas de nucleótidos (Adenina,Timina, Citosina, Guanina) que setransforman en proteínas. Cadenas de símbolos de un alfabetoΣ={A,T,C,G}15 Nuestra idea: tratar las cadenas de ADN como si fueran cadenas delenguaje natural Minería de textos para extraer información biológica
  •  Necesario descubrir subcadenas relevantes en ADN (frecuentes, y nosólo por formar parte de otra subcadena frecuente) Nuestra propuesta: dos fases:1. Extracción de subcadenas frecuentes (SANSPOS paralelo)2. Filtrado de subcadenas relevantes (función de relevancia Added Value)16
  • 17 ADN mitocondrial (mtDNA).Poblaciones organizadas enhaplogrupos Relación evolutiva entre grupospoblacionales (antropología)Clasificación de mtADN enhaplogrupos Extracción de características: SANSPOSparalelo y filtrado por AV Modelado: SVM Base de datos de 1400 secuencias de mtDNAhumano, organizadas por haplogrupos Resultados similares a encontrados enliteratura, p.e. Wong et al. [65] Atributos encontrados automáticamente(no proporcionados por expertos)Source: Wikipedia
  •  Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta en email Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributosdinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions18
  •  Minería multietiqueta: varias etiquetas para cada instancia Motivación: a veces, una sola etiqueta no basta (muy restrictivo) Métodos:◦ Transformación del problema◦ Adaptación del algoritmo Métodos de transformación del problema:◦ Binarios (BR, CLR)◦ Label Powerset y derivados (LP, RAkEL, PPT, EPPT) Medidas de evaluación:◦ Basadas en instancias◦ Basadas en etiquetas19
  •  Estudio experimental: correo electrónico Dataset: Versión multietiqueta de ENRON (con y sin preprocesamientolingüístico) Algoritmos:◦ Trasformación de dataset: BR, CLR, LP, RAkEL, PPT, EPPT◦ Algoritmos base: SVM (kernel lineal y polinomial), NN-ge (basado en ejemplos, congeneralización), IB-k (vecino más cercano),C4.5 (árboles de decisión), Naïve Bayes Observaciones sobre los resultados:◦ El preprocesamiento mejora significativamente los resultados◦ Para medidas en recall, funciona mejor EPPT.◦ Para las demás medidas, funcionan bien los algoritmos que implican binarización◦ Es decir: la relación entre etiquetas es más importante para el recall que para la precisión20
  •  Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributosdinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions21
  •  Correo electrónico como flujo de datos de texto GNUsmail: http://code.google.com/p/gnusmail. Clasificación de flujos decorreo electrónico Arquitectura en capas◦ Acceso a correo◦ Procesamiento de texto◦ Aprendizaje (online y batch)◦ Evaluación Plataforma abierta a la incorporación de nuevos métodos22
  •  Corpus ENRON: corpus de datasets de correo electrónico 10 datasets en total, eliminando carpetas no tópicas y pequeñas Algunos desafíos:◦ Desbalance en número de mensajes◦ Aparición de carpetas nuevas◦ Ejemplo: distribución de mensajes en carpetas en kitchen-l en el primer 30% (a) y el flujo completo (b)23a)b)Carpeta nºNº de mensajesCarpeta nºNº de mensajesPrimer 30% del flujo 100% del flujo
  • 24Comparación de algoritmos en el dataset beck-sPrecisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995)Ganador:OzaBag sobre NNge (con DDM)
  • 25Comparación de algoritmos en el dataset kitchen-lPrecisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995)Ganador:OzaBag sobre NNge (con DDM)Cambio de concepto
  •  Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributosdinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions26
  •  Dificultad de la minería de textos: alta dimensionalidad El conjunto de atributos relevantes evoluciona Necesario espacio de atributos dinámico◦ Los clasificadores deben ser capaces de usar atributos cambiantes Para tratar con flujos de datos de alta dimensionalidad: ABC-DynF◦ Sucesor de AdPreqFr4SL [156]. Monitorización del estado de aprendizaje yacciones adaptativas◦ ABC-DynF Incluye gestión de relevancia de atributos (filter approach)27
  •  ABC-DynF (http://abcdynf.sourceforge.net): estrategiasadaptativas de AdPreqFr4SL + gestión de espacio deatributos dinámico Clasificador base: redes bayesianas. Lista actualizada deatributos más relevantes (chi cuadrado) Tabla de estadísticas suficientes compartida por elclasificador bayesiano y por la función chi cuadrado Para cada batch de datos, se actualizan las estadísticas detodos los atributos (entrenamiento) Para predecir: se usan sólo los k atributos con más relevancia28
  •  Estudio experimental: estrategiasadaptativas Se comparan 4 estrategias◦ Adapt00 (no se monitoriza cambio de conceptoni se actualizan atributos)◦ Adapt10 (se monitoriza cambio de concepto, nose actualizan atributos)◦ Adapt01 (no se monitoriza cambio de concepto,se actualizan atributos)◦ Adapt11 (se monitoriza cambio de concepto y seactualizan atributos) P-values (Friedman): 0.00667(F1), 6.03 10−9 (error percentual). Test Finner: Adapt01 y Adapt11 nosignificativamente diferentes29
  •  Estudio experimental: ¿cuándoactualizar espacio de atributos? Se comparan 3 estrategias◦ Cambiar para cada batch◦ Cambiar cuando deja demejorar el desempeño◦ Cambiar sólo para reconstruirel modelo Resultado: Es mejor cambiar losatributos para cada batch, pero ladiferencia no es significativa (p-value > 0.05)30
  •  Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributosdinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions31
  •  Selección de atributos para resumen automático, usandofunciones de relevancia (TF-IDF, BM25) Palabras clave (keywords) y nubes de palabras (word clouds) Prohibitivo mantener todos los contadores necesarios Soluciones históricas: usar sólo parte de los documentos Problemas:◦ Pérdida semántica◦ La complejidad sigue siendo lineal Nuestra propuesta: uso de algoritmos aproximados paraestimación de contadores y listas top-k32
  •  Usando Count-Min sketch para aproximar TF-IDF y BM2533)(ˆlog),(),(itfdDjiTFjiTFSIDF5.0)(ˆ5.0)(ˆlog25.275.0)()(3),(25,,iijijitfdtfdDavgdlDdtfdtfjiSBMdonde:› |D|: número de documentos› df(ti): documentos donde aparece ti› f(ti, dj): frecuencia absoluta del término ti en el documento dj› avgdl: tamaño media de las categorías› TF(i,j): f(ti, dj): frecuencia relativa del término ti en el documento dj Count-Min sketch para aproximar el número de documentos en el que aparececada término ti, Los términos TF no dependen del pasado (no hace falta mantener contadores)
  • Experimentación Diferentes configuraciones (alto/ancho) de lossketches para un mismo tamaño Medidas de evaluación:◦ Recall: Proporción de coincidencias entre listas top-k exacta y aproximada(mejor mientras más grande)◦ Distancia de Spearman: tiene en cuenta el orden de los términos según surelevancia (mejor mientras más pequeña) Datasets usados:◦ Reuters◦ Pubmed Central◦ Ambos han sido reordenados cronológicamente34
  • Aplicación 1: extracción de palabras clave. Mejor resultado con 2 funciones hash35Reuters PMCObservación: mejores resultados con 2 funciones hashSpearman distanceRecall
  •  Otra aplicación: nubes de palabras para resumir categorías Para cada categoría, se seleccionan las k palabras clave más frecuentes Se representan en una nube de palabras según su frecuencia36
  •  Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributosdinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions37
  •  Extracción de atributos eficiente en flujos de texto, usando algoritmosaproximados STFSIDF: Count-Min Sketch para aproximar TFIDF Objetivo: selección dinámica de atributos en espacio reducido (usandoespacio de atributos dinámico)38
  •  STFSIDF: aproximación de funcionesusando sketches y filtros de Bloom Para TF usamos un sketch (CMterms) quealmacena pares (término, categoría), ycontadores para el tamaño de cadacategoría (CL) Para IDF necesitamos otro sketch (CMcat)y una estructura que calcule si un par(término, categoría) ha aparecido o no◦ Los sketches no pueden aproximar bien cuenta 0◦ Usamos para esto filtros de Bloom (BF)39
  • Experimentación: aplicación a la clasificación de textos40ReutersPMCTest de McNemarPrecuencialPrecuencialVersión exactaVersióncon sketches
  •  Minería de textos Aplicación: análisis de ADN Clasificación multietiqueta Minería de flujos de texto y GNUsmail ABC-DynF: minería de flujos de datos con atributosdinámicos TF-SIDF/SBM25: resumen de documentos en flujos STFSIDF para clasificación de flujos de texto Conclusions41
  •  Competitive performance of DNA classification using pure textmining techniques (without features provided by biologists) We have shown that email streams are affected by concept drift (oftenvirtual), and have published GNUSmail for email stream classification We have shown that it is advantegous to handle dynamic featurespaces when dealing with high-dimensional data streams (such as text) We have published an open-source framework for data streamsclassification with dynamic feature spaces (ABC-DynF)42
  •  We have seen that it is recommendable to handle concept drifts andchanges in the feature space simultaneously (Adapt11 strategy) We have shown that better results are obtained if the feature space isupdated regardless of the learning state We have shown that it is possible to use approximate algorithms tosummarize documents, reducing space without significatively affectingaccuracy (TF-SIDF/SBM25) Finally, we have proposed a method for reducing the space needed foronline feature selection in data streams, using sketches and Bloom filters(STFSIDF), without significatively affecting classification performance43
  •  Extending GNUsmail to different domains Use of different weighting functions Extending ABC-DynF with non-Bayesian base models Handling sketch degradation due to saturation (hash function collisions) Studying the problem of multi-label text stream mining Use of other kinds of features (including exogenous knowledge such asontologies)44
  • Journal articles: Baena-García, M; Carmona-Cejudo, J.M.; Morales-Bueno, R. String analysis by sliding positioning strategy. Journal ofComputer and System Sciences. Available online 19 March 2013, ISSN 0022-0000, 10.1016/j.jcss.2013.03.004 Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection andadaptive strategies for email foldering using the ABC-DynF framework. Knowledge-Based Systems. Available online 1 April2013, ISSN 0950-7051, 10.1016/j.knosys.2013.03.006Contributions in international conferences: Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. Feature extraction formulti-label learning in the domain of email classification. Proceedings of CIDM 2011 Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection andadaptive strategies for email foldering , 11th International Conference on Intelligent Systems Design and Applications (ISDA) Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Gama, J.; Morales-Bueno, R. OnlineEvaluation of Email Streaming Classifiers Using GNUsmail. IDA 2011 Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. GNUsmail: OpenFramework for On-line Email Classification. ECAI 2010 Baena-García, M; Carmona-Cejudo, J.M.; Castillo, G.; Morales-Bueno, R. Term Frequency, Sketched Inverse DocumentFrequency, 11th International Conference on Intelligent Systems Design and Applications (ISDA) Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. Online Calculation of Word-Clouds forEfficient Label Summarization, 11th International Conference on Intelligent Systems Design and Applications (ISDA)45
  • 46