SlideShare a Scribd company logo
1 of 20
Evaluación de diferentes estrategias de muestreo para tratar
el problema de la construcción del diccionario para un
clasificador Naïves Bayes de tuits.
Francisco Berrizbeitia
Noviembre 2014
Queremos encontrar una manera automática de
clasificar Tuits
Machine Learning: Clasificadores automáticos
Agenda
• Bag Of Words
• El problema de la selección de atributos o generación del
diccionario
• Preprocesamiento:
– Eliminación de ruido
– Eliminación de terminaciones
• Descripción de los datos
• Descripción de método propuesto
• Resultados
• Observaciones
• Conclusiones
Bag of Words
El tratamiento de tuits en un contexto de
clasificación se realiza utilizando la técnica de
«Bag Of Words»
Bag of words
Selección de atributos
Uno de los problemas al trabajar con esta técnica es el que el
número de dimensiones puede llegar a ser demasiado
grande.
Quisiéramos construir un diccionario con el menor número de
palabras posibles que nos permita tener una cobertura de al
menos 2 palabras para cada tuit
Construcción del diccionario
Para atacar este problema primeros se eliminar las palabras
muy comunes que no aportaran ningún valor discriminatorio
(Stopwords).
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official
Construcción del diccionario
Un segundo paso consiste el eliminar las terminaciones
(Stemming) tratando de encontrar las raíces de las palabras.
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official
obama administr back sanction venezuela offici
Existen varia técnicas para hacer esto, nosotros utilizamos el
algoritmo de Porter
Planteamiento del problema
Queremos responder las siguientes preguntas:
• ¿Cuántos tuits necesito para construir un diccionario que
me garantice una buena cobertura?
• ¿La calidad del diccionario en términos de cobertura
variará si el conjunto de tuits para crear el diccionario se
toma utilizando MAS o Estratificando por temas?
Método Utilizado
Para obtener el número
de tuits que requerimos
para el diccionario,
diseñamos e
implementamos el
siguiente algoritmo.
Método Utilizado
Una vez obtenido el número de tuits utilizando el algoritmo
anterior , generamos un diccionario utilizando MAS y uno
realizando muestreo estratificado por temas.
Para medir la calidad del diccionario se obtuvieron varias
muestras de 100 mensajes (Utilizando MAS) y se cuantifico la
cobertura sobre la muestra.
Descripción de los datos
• Se recuperaron 6793 tuits, en idioma ingles, creados entre
el 18 y el 20 de Noviembre sobre los siguientes temas
• Obama: 1000
• ukraine: 681
• ISIS: 547
• New York: 1080
• Siria: 119
• FARC: 102
• Venezuela: 450
• London: 862
• gunman: 627
• ferguson: 754
• amnesty: 571
Descripción de los datos
• Sobre este conjunto de datos se realizo un MAS de 3000
elementos para asegurar la aleatoriedad de la población
• A los mensajes de esta nueva población se le aplicaron los
procesos de reducción de ruido y stemming.
• Todos los experimentos se hicieron sobre los mensajes sin
Stop Words y Stemmed
Resultados
Se corrió el algoritmo cuatro veces variando los parámetros
de ganancia de información y el umbral de parada.
5 tuits seguidos aportaron menos de 2
palabras nuevas al diccionario
Resultados
Se genero un diccionario realizando un MAS de 234 tuits
sobre la población y se cuantifico la cobertura en 5 muestras
independientes de la misma población.
Resultados
Se genero otro diccionario realizando un muestreo
estratificado por temas de 234 tuits sobre la población y se
cuantifico la cobertura en 5 muestras independientes de la
misma población.
La cantidad de tuits a tomar por estrato se calculo de la siguiente manera:
1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional
2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.
Resultados
Ambos diccionarios de comportan de manera muy similar
Resultados
La tasa de cobertura es ligeramente mejor para el diccionario
generado a través de un MAS
Conclusiones
• Al parecer es posible construir un diccionario con una
cobertura superior al 95% con unos 240 tuits generando
un diccionario de cerca de 1100 entradas.
• Estratificar por temas no aporta ninguna ganancia en la
construcción del diccionario.
Gracias
Francisco Berrizbeitia
Noviembre 2014

More Related Content

Similar to Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESAN
Yabed Contreras Zambrano
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
mercenaries128
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
mercenaries128
 
Busqueda de la informacion en internet susy
Busqueda de la informacion en internet susyBusqueda de la informacion en internet susy
Busqueda de la informacion en internet susy
susana030198
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
Tania Gabriela
 
Unidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónUnidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la información
Eduardo Mendez
 

Similar to Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits (20)

Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESAN
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internet
 
Busqueda de informacion en internet
Busqueda de informacion en internet Busqueda de informacion en internet
Busqueda de informacion en internet
 
Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internet
 
1.busquedad de informacion en internet
1.busquedad  de informacion en internet1.busquedad  de informacion en internet
1.busquedad de informacion en internet
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Busqueda de la informacion en internet
Busqueda de la informacion en internet Busqueda de la informacion en internet
Busqueda de la informacion en internet
 
Busqueda de la informacion en internet susy
Busqueda de la informacion en internet susyBusqueda de la informacion en internet susy
Busqueda de la informacion en internet susy
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. Búsqueda de información en internet
1.  Búsqueda de información en internet1.  Búsqueda de información en internet
1. Búsqueda de información en internet
 
Unidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónUnidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la información
 
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
 
Cómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitalesCómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitales
 
Búsqueda de la información en Internet. Capítulo 1.
 Búsqueda de la información en Internet. Capítulo 1. Búsqueda de la información en Internet. Capítulo 1.
Búsqueda de la información en Internet. Capítulo 1.
 
Búsqueda de información en internet
Búsqueda de información en internetBúsqueda de información en internet
Búsqueda de información en internet
 

More from Francisco Berrizbeitia

Trabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaTrabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimedia
Francisco Berrizbeitia
 
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Francisco Berrizbeitia
 
Formación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFormación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en mano
Francisco Berrizbeitia
 
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualTrabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Francisco Berrizbeitia
 
Emprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoEmprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exito
Francisco Berrizbeitia
 

More from Francisco Berrizbeitia (20)

News construction from microblogging posts using open data
News construction from microblogging posts using open data News construction from microblogging posts using open data
News construction from microblogging posts using open data
 
News construction from microblogging post using open data
News construction from microblogging post using open dataNews construction from microblogging post using open data
News construction from microblogging post using open data
 
Autosimilaridad en vinculaciones
Autosimilaridad en vinculacionesAutosimilaridad en vinculaciones
Autosimilaridad en vinculaciones
 
Vinculaciones autosimilares
Vinculaciones autosimilaresVinculaciones autosimilares
Vinculaciones autosimilares
 
Trabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaTrabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimedia
 
Introducción al el mercadeo en Internet
Introducción al el mercadeo en InternetIntroducción al el mercadeo en Internet
Introducción al el mercadeo en Internet
 
¿ Cómo empezar con mi sitio web?
¿ Cómo empezar con mi sitio web?¿ Cómo empezar con mi sitio web?
¿ Cómo empezar con mi sitio web?
 
2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela
 
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
 
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
 
Formación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFormación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en mano
 
Listado de cursos manual rse
Listado de cursos manual rseListado de cursos manual rse
Listado de cursos manual rse
 
Text mining
Text miningText mining
Text mining
 
AID Aprendizaje - Nosotros
AID Aprendizaje - NosotrosAID Aprendizaje - Nosotros
AID Aprendizaje - Nosotros
 
Keylight ae user guide
Keylight ae user guideKeylight ae user guide
Keylight ae user guide
 
Personalizacion de blogspot
Personalizacion de blogspotPersonalizacion de blogspot
Personalizacion de blogspot
 
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualTrabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
 
Clase 3 estrategias de difusion
Clase 3   estrategias de difusionClase 3   estrategias de difusion
Clase 3 estrategias de difusion
 
Emprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoEmprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exito
 
Clase02
Clase02Clase02
Clase02
 

Recently uploaded

Sapiro, Gisèle. - La sociología de la literatura [ocr] [2016].pdf
Sapiro, Gisèle. - La sociología de la literatura [ocr] [2016].pdfSapiro, Gisèle. - La sociología de la literatura [ocr] [2016].pdf
Sapiro, Gisèle. - La sociología de la literatura [ocr] [2016].pdf
frank0071
 
Sloterdijk, Peter. - Crítica de la razón cínica [2019].pdf
Sloterdijk, Peter. - Crítica de la razón cínica [2019].pdfSloterdijk, Peter. - Crítica de la razón cínica [2019].pdf
Sloterdijk, Peter. - Crítica de la razón cínica [2019].pdf
frank0071
 
Introduccion-a-la-Cinematica, conceptos de cinematica
Introduccion-a-la-Cinematica, conceptos de cinematicaIntroduccion-a-la-Cinematica, conceptos de cinematica
Introduccion-a-la-Cinematica, conceptos de cinematica
GabrielGutirrez37
 

Recently uploaded (20)

taller de rocas IGNEAS petrografia de rocas igneas y texturas
taller de rocas IGNEAS petrografia de rocas igneas y texturastaller de rocas IGNEAS petrografia de rocas igneas y texturas
taller de rocas IGNEAS petrografia de rocas igneas y texturas
 
Explorando la materia con Dinámica Molecular
Explorando la materia con Dinámica MolecularExplorando la materia con Dinámica Molecular
Explorando la materia con Dinámica Molecular
 
1. Introducción a la Química Analítica.pdf
1. Introducción a la Química Analítica.pdf1. Introducción a la Química Analítica.pdf
1. Introducción a la Química Analítica.pdf
 
LINEAMIENTOS DE PRACTICA PECUARIA PARA EL DESARROLLO LOCAL DE LA GANDERIA BOV...
LINEAMIENTOS DE PRACTICA PECUARIA PARA EL DESARROLLO LOCAL DE LA GANDERIA BOV...LINEAMIENTOS DE PRACTICA PECUARIA PARA EL DESARROLLO LOCAL DE LA GANDERIA BOV...
LINEAMIENTOS DE PRACTICA PECUARIA PARA EL DESARROLLO LOCAL DE LA GANDERIA BOV...
 
adenohipófisis para estudiantes endocrino
adenohipófisis para estudiantes endocrinoadenohipófisis para estudiantes endocrino
adenohipófisis para estudiantes endocrino
 
introducción y características de la materia viva
introducción y características de la materia vivaintroducción y características de la materia viva
introducción y características de la materia viva
 
norma de refuerzo escolar para primaria y secundaria
norma de refuerzo escolar para primaria y secundarianorma de refuerzo escolar para primaria y secundaria
norma de refuerzo escolar para primaria y secundaria
 
10 etapas del proceso administrativo.pptx
10 etapas del proceso administrativo.pptx10 etapas del proceso administrativo.pptx
10 etapas del proceso administrativo.pptx
 
TONICORP Enfriamiento Rápido y Eficiente a Través del Ciclo de Refrigeración....
TONICORP Enfriamiento Rápido y Eficiente a Través del Ciclo de Refrigeración....TONICORP Enfriamiento Rápido y Eficiente a Través del Ciclo de Refrigeración....
TONICORP Enfriamiento Rápido y Eficiente a Través del Ciclo de Refrigeración....
 
Clase 7 Sistema nervioso. Anatomia Veterinaria
Clase 7 Sistema nervioso. Anatomia VeterinariaClase 7 Sistema nervioso. Anatomia Veterinaria
Clase 7 Sistema nervioso. Anatomia Veterinaria
 
Gasometria arterial medicina udabollllkk
Gasometria arterial medicina udabollllkkGasometria arterial medicina udabollllkk
Gasometria arterial medicina udabollllkk
 
Sapiro, Gisèle. - La sociología de la literatura [ocr] [2016].pdf
Sapiro, Gisèle. - La sociología de la literatura [ocr] [2016].pdfSapiro, Gisèle. - La sociología de la literatura [ocr] [2016].pdf
Sapiro, Gisèle. - La sociología de la literatura [ocr] [2016].pdf
 
Sloterdijk, Peter. - Crítica de la razón cínica [2019].pdf
Sloterdijk, Peter. - Crítica de la razón cínica [2019].pdfSloterdijk, Peter. - Crítica de la razón cínica [2019].pdf
Sloterdijk, Peter. - Crítica de la razón cínica [2019].pdf
 
Introduccion-a-la-Cinematica, conceptos de cinematica
Introduccion-a-la-Cinematica, conceptos de cinematicaIntroduccion-a-la-Cinematica, conceptos de cinematica
Introduccion-a-la-Cinematica, conceptos de cinematica
 
clase catedra paz de sexto a noveno.docx
clase catedra paz de sexto a noveno.docxclase catedra paz de sexto a noveno.docx
clase catedra paz de sexto a noveno.docx
 
PTI PEDIA PURPURA TROMBOCITOPENIA IDIOPATICA.pptx
PTI PEDIA PURPURA TROMBOCITOPENIA IDIOPATICA.pptxPTI PEDIA PURPURA TROMBOCITOPENIA IDIOPATICA.pptx
PTI PEDIA PURPURA TROMBOCITOPENIA IDIOPATICA.pptx
 
Matematicas Financieras ejercicios tarea
Matematicas Financieras ejercicios tareaMatematicas Financieras ejercicios tarea
Matematicas Financieras ejercicios tarea
 
Músculos de cabeza y cuello clasificacion segun rouviere
Músculos de cabeza y cuello clasificacion segun rouviereMúsculos de cabeza y cuello clasificacion segun rouviere
Músculos de cabeza y cuello clasificacion segun rouviere
 
docsity-triptico-de-desastres-naturales.docx
docsity-triptico-de-desastres-naturales.docxdocsity-triptico-de-desastres-naturales.docx
docsity-triptico-de-desastres-naturales.docx
 
ESTENOSIS - INSUFICIENCIA AORTICA Y PULMONAR.pptx
ESTENOSIS - INSUFICIENCIA AORTICA Y PULMONAR.pptxESTENOSIS - INSUFICIENCIA AORTICA Y PULMONAR.pptx
ESTENOSIS - INSUFICIENCIA AORTICA Y PULMONAR.pptx
 

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

  • 1. Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción del diccionario para un clasificador Naïves Bayes de tuits. Francisco Berrizbeitia Noviembre 2014
  • 2. Queremos encontrar una manera automática de clasificar Tuits Machine Learning: Clasificadores automáticos
  • 3. Agenda • Bag Of Words • El problema de la selección de atributos o generación del diccionario • Preprocesamiento: – Eliminación de ruido – Eliminación de terminaciones • Descripción de los datos • Descripción de método propuesto • Resultados • Observaciones • Conclusiones
  • 4. Bag of Words El tratamiento de tuits en un contexto de clasificación se realiza utilizando la técnica de «Bag Of Words»
  • 6. Selección de atributos Uno de los problemas al trabajar con esta técnica es el que el número de dimensiones puede llegar a ser demasiado grande. Quisiéramos construir un diccionario con el menor número de palabras posibles que nos permita tener una cobertura de al menos 2 palabras para cada tuit
  • 7. Construcción del diccionario Para atacar este problema primeros se eliminar las palabras muy comunes que no aportaran ningún valor discriminatorio (Stopwords). Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official
  • 8. Construcción del diccionario Un segundo paso consiste el eliminar las terminaciones (Stemming) tratando de encontrar las raíces de las palabras. Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official obama administr back sanction venezuela offici Existen varia técnicas para hacer esto, nosotros utilizamos el algoritmo de Porter
  • 9. Planteamiento del problema Queremos responder las siguientes preguntas: • ¿Cuántos tuits necesito para construir un diccionario que me garantice una buena cobertura? • ¿La calidad del diccionario en términos de cobertura variará si el conjunto de tuits para crear el diccionario se toma utilizando MAS o Estratificando por temas?
  • 10. Método Utilizado Para obtener el número de tuits que requerimos para el diccionario, diseñamos e implementamos el siguiente algoritmo.
  • 11. Método Utilizado Una vez obtenido el número de tuits utilizando el algoritmo anterior , generamos un diccionario utilizando MAS y uno realizando muestreo estratificado por temas. Para medir la calidad del diccionario se obtuvieron varias muestras de 100 mensajes (Utilizando MAS) y se cuantifico la cobertura sobre la muestra.
  • 12. Descripción de los datos • Se recuperaron 6793 tuits, en idioma ingles, creados entre el 18 y el 20 de Noviembre sobre los siguientes temas • Obama: 1000 • ukraine: 681 • ISIS: 547 • New York: 1080 • Siria: 119 • FARC: 102 • Venezuela: 450 • London: 862 • gunman: 627 • ferguson: 754 • amnesty: 571
  • 13. Descripción de los datos • Sobre este conjunto de datos se realizo un MAS de 3000 elementos para asegurar la aleatoriedad de la población • A los mensajes de esta nueva población se le aplicaron los procesos de reducción de ruido y stemming. • Todos los experimentos se hicieron sobre los mensajes sin Stop Words y Stemmed
  • 14. Resultados Se corrió el algoritmo cuatro veces variando los parámetros de ganancia de información y el umbral de parada. 5 tuits seguidos aportaron menos de 2 palabras nuevas al diccionario
  • 15. Resultados Se genero un diccionario realizando un MAS de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población.
  • 16. Resultados Se genero otro diccionario realizando un muestreo estratificado por temas de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población. La cantidad de tuits a tomar por estrato se calculo de la siguiente manera: 1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional 2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.
  • 17. Resultados Ambos diccionarios de comportan de manera muy similar
  • 18. Resultados La tasa de cobertura es ligeramente mejor para el diccionario generado a través de un MAS
  • 19. Conclusiones • Al parecer es posible construir un diccionario con una cobertura superior al 95% con unos 240 tuits generando un diccionario de cerca de 1100 entradas. • Estratificar por temas no aporta ninguna ganancia en la construcción del diccionario.