Minería de datos (práctica twitter)

918 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
918
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
21
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Minería de datos (práctica twitter)

  1. 1. MD twitter + @NoxJio
  2. 2. Porqué twitter? ● Red social: tiempo real. ● Rica fuente de información que está madura para hacer minería de datos. En promedio, los usuarios de Twitter generan 140 millones de tweets por día en una variedad de temas
  3. 3. Objetivos ● Analizar texto plano, normalizarlo y extraer lo relevante de lo abundante. ● Realizar un estudio básico de la información estadística aplicando algoritmos de extracción de información, segmentación y clasificación sobre dichos datos.
  4. 4. Paso 1: recuperar datos (tweets) ● A través de una servicio gratuito [Topsy's OtterApi] que permite obtener los últimos tweets sobre determinado tema: – http://otter.topsy.com/searchdate.rss?q=juegos%20ol%C3%ADmpicos&window=d28 ● Se obtiene un XML con la información de los últimos tweets al respecto [juegos olímpicos p.e.] en el siguiente formato:
  5. 5. Paso 2: Introducir info en un sistema de Minería de Datos ● Cuál?: ● http://rapid-i.com/content/view/181/190/ ● Cómo?: en base a un lector XML o vía Xpath, que la misma plataforma ofrece para parsear los datos.
  6. 6. Paso 3: Procesar información ● Tokenizar: Separar las palabras de los tweets una a una. ● Stopwords: Eliminar aquellas palabras no relevantes (como él, la, los, ser, estar, etc…) ● Vectorizar los tweets: Necesitamos convertir cada tweet en un vector de palabras [representarlo como una fila en una tabla, en el que la primera columna será el id del texto, y tendrá otras tantas columnas como el conjunto de palabras de todos los textos, y en el valor de la columna, aparecerá un valor, indicando la relevancia de dicha palabra en ese texto, con respecto a los demás]. ● Todo este proceso es realizado de manera automática por la plataforma a través de un algoritmo llamado TF/IDF..
  7. 7. Paso 4: Primer análisis de cuáles son las palabras que aparecen en un conjunto de tweets
  8. 8. Paso 5: ● Averiguar si existen grupos de palabras que se agrupen en distintas categorías que expliquen cómo distintos grupos de personas hablan de temas diferentes, y cuáles son esos temas. ● Cómo?: Aplicando un algoritmo de clasificación sobre los distintos vectores de palabras, que los agrupe por similitud [Clustering with k-medoids].. en conjunto con técnicas de optimización de la información sobre el conjunto de datos [Algoritmos Genéticos]..
  9. 9. Resultados del paso 5: Segmentos De esta forma, vemos que en Twitter, se está hablando, acerca de los Juegos Olímpicos, en 5 categorías diferentes, con temáticas diferentes. A partir de aquí, podemos sacar las estadísticas y gráficas que queramos..
  10. 10. Gráfica 1: ¿de qué se habla más?
  11. 11. Gráfica 2: ¿quién habla de qué?
  12. 12. Gráfica 3: ¿cuándo se habla de qué?
  13. 13. .. Podríamos saber, en base a un texto dado, cuál sería su autor, o a qué categoría pertenecería ..
  14. 14. Conclusiones ● Se ha transformado un proceso aparentemente muy complejo de tratamiento de textos en lenguaje natural, a un formato vectorizado que nos permite realizar cualquier operación de análisis, comparación, clasificación e incluso predicción. ● Este es un ejemplo simple de cómo, aplicando algoritmos muy maduros sobre problemas complejos, podemos dar solución a necesidades reales actuales.
  15. 15. Fuente Aplicación de Minería de Datos a Conjuntos de Textos. Como analizar “twitter”.. ● Ibermática, Agosto 02, 2012. http://rtdibermatica.com/?p=945

×