Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

Evaluación de diferentes estrategias de muestreo para tratar
el problema de la construcción del diccionario para un
clasificador Naïves Bayes de tuits.
Francisco Berrizbeitia
Noviembre 2014

Queremos encontrar una manera automática de
clasificar Tuits
Machine Learning: Clasificadores automáticos

Agenda
• Bag Of Words
• El problema de la selección de atributos o generación del
diccionario
• Preprocesamiento:
– Eliminación de ruido
– Eliminación de terminaciones
• Descripción de los datos
• Descripción de método propuesto
• Resultados
• Observaciones
• Conclusiones

Bag of Words
El tratamiento de tuits en un contexto de
clasificación se realiza utilizando la técnica de
«Bag Of Words»

Selección de atributos
Uno de los problemas al trabajar con esta técnica es el que el
número de dimensiones puede llegar a ser demasiado
grande.
Quisiéramos construir un diccionario con el menor número de
palabras posibles que nos permita tener una cobertura de al
menos 2 palabras para cada tuit

Construcción del diccionario
Para atacar este problema primeros se eliminar las palabras
muy comunes que no aportaran ningún valor discriminatorio
(Stopwords).
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official

Construcción del diccionario
Un segundo paso consiste el eliminar las terminaciones
(Stemming) tratando de encontrar las raíces de las palabras.
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official
obama administr back sanction venezuela offici
Existen varia técnicas para hacer esto, nosotros utilizamos el
algoritmo de Porter

Planteamiento del problema
Queremos responder las siguientes preguntas:
• ¿Cuántos tuits necesito para construir un diccionario que
me garantice una buena cobertura?
• ¿La calidad del diccionario en términos de cobertura
variará si el conjunto de tuits para crear el diccionario se
toma utilizando MAS o Estratificando por temas?

Método Utilizado
Para obtener el número
de tuits que requerimos
para el diccionario,
diseñamos e
implementamos el
siguiente algoritmo.

Método Utilizado
Una vez obtenido el número de tuits utilizando el algoritmo
anterior , generamos un diccionario utilizando MAS y uno
realizando muestreo estratificado por temas.
Para medir la calidad del diccionario se obtuvieron varias
muestras de 100 mensajes (Utilizando MAS) y se cuantifico la
cobertura sobre la muestra.

Descripción de los datos
• Se recuperaron 6793 tuits, en idioma ingles, creados entre
el 18 y el 20 de Noviembre sobre los siguientes temas
• Obama: 1000
• ukraine: 681
• ISIS: 547
• New York: 1080
• Siria: 119
• FARC: 102
• Venezuela: 450
• London: 862
• gunman: 627
• ferguson: 754
• amnesty: 571

Descripción de los datos
• Sobre este conjunto de datos se realizo un MAS de 3000
elementos para asegurar la aleatoriedad de la población
• A los mensajes de esta nueva población se le aplicaron los
procesos de reducción de ruido y stemming.
• Todos los experimentos se hicieron sobre los mensajes sin
Stop Words y Stemmed

Resultados
Se corrió el algoritmo cuatro veces variando los parámetros
de ganancia de información y el umbral de parada.
5 tuits seguidos aportaron menos de 2
palabras nuevas al diccionario

Resultados
Se genero un diccionario realizando un MAS de 234 tuits
sobre la población y se cuantifico la cobertura en 5 muestras
independientes de la misma población.

Resultados
Se genero otro diccionario realizando un muestreo
estratificado por temas de 234 tuits sobre la población y se
cuantifico la cobertura en 5 muestras independientes de la
misma población.
La cantidad de tuits a tomar por estrato se calculo de la siguiente manera:
1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional
2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.

Resultados
Ambos diccionarios de comportan de manera muy similar

Resultados
La tasa de cobertura es ligeramente mejor para el diccionario
generado a través de un MAS

Conclusiones
• Al parecer es posible construir un diccionario con una
cobertura superior al 95% con unos 240 tuits generando
un diccionario de cerca de 1100 entradas.
• Estratificar por temas no aporta ninguna ganancia en la
construcción del diccionario.

Gracias
Francisco Berrizbeitia
Noviembre 2014

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

Recommended

Recommended

More Related Content

Similar to Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

Similar to Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits (20)

More from Francisco Berrizbeitia

More from Francisco Berrizbeitia (20)

Recently uploaded

Recently uploaded (20)

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits