Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Taller de Text Mining en Twitter con R

542 views

Published on

Taller práctico de introducción a técnicas de Text Mining con lenguaje R. El taller consiste en analizar un de tweets, del cual se tratará de extraer conocimiento. Se analizan las palabras frecuentes, la asociación entre ellas, buscamos descubrir insigths y averiguar si existen conjuntos temáticos.

El taller es una introducción básica a las técnicas de Text Mining, tan útiles hoy en día para descubrir insights en los conjuntos de textos que forman parte de nuestro ecosistema de datos (redes sociales, comentarios de usuarios, correos electrónicos, campos de texto abierto en encuestas,...), pero que muchas veces no sabemos aprovechar.

Published in: Data & Analytics
  • Be the first to comment

Taller de Text Mining en Twitter con R

  1. 1. Octubre.2016 Taller de introducción a técnicas de Text Mining en Twitter con R @Legado y @zigiella
  2. 2. Índice 1. Quiénes somos 2. Contexto 3. Qué es R 4. Los datos textuales 5. Cómo obtener información de estos datos  6. Demo en R a) Preprocesado b) Stemming c) Inspeccionar palabras frecuentes d) Asociaciones e) Plot de asociaciones f) Nube de palabras g) Clúster i. Dendograma ii. K-means   7. Interpretación y conclusiones 8. Anexo 1: Conectarse a Twitter 9. Anexo 2: Instalar paquetes necesarios
  3. 3. QUIÉNES SOMOS ¡Hola!
  4. 4. Consultor Freelance @Legado
  5. 5. Juandy ● Jefe de campamento y algo friki. ● Escritor frustrado (por ahora). ● Viajero por necesidad. ● Jugador de fútbol americano. ● Filólogo. @Legado
  6. 6. @zigiella INGENIERÍA INFORMÁTICA DATA MANAGEMENT & ANALYTICS PSICOLOGÍA ExecutiveMBA EMPRENDEDURÍA BUSINESS MANAGEMENT MARKETING ADVERTISING
  7. 7. Bea ● Nativa digital de la generación X! ● Tech+Digital+Business. ● Aprendizaje non stop. ● Retos non stop. ● Me gusta que los planes salgan bien. @zigiella
  8. 8. CONTEXTO Dónde, qué, por qué y eso...
  9. 9. TRANSFORMACIÓN DIGITAL BIG DATA CULTURA DATA DRIVEN EL DATO VALOR TOMA DE DECISIONES TRANSVERSAL
  10. 10. RBreve introducción breve
  11. 11. ● Software de análisis de datos. ● Ciencia, medicina, psicología, economía,... ● Gratuito, libre y de código abierto. ● Gran comunidad. ● Muchos paquetes. ● Bla, bla, bla,... ● Fin de la intro breve.
  12. 12. Origen: DataCamp
  13. 13. LA TEORÍA Comencemos a entender
  14. 14. Datos textuales – Qué son
  15. 15. Datos textuales – Qué son
  16. 16. Datos textuales – Qué son
  17. 17. Datos textuales – Qué son
  18. 18. Datos textuales – Qué son
  19. 19. Datos textuales – Qué son
  20. 20. Datos textuales – Qué son
  21. 21. Datos textuales – Qué son
  22. 22. Datos textuales – Qué son
  23. 23. Datos textuales – Qué son
  24. 24. Datos textuales – Qué son Voice to text
  25. 25. Datos textuales – Qué son Focus groups Libros Investigaciones Documentos oficiales Texto …
  26. 26. CASOS DE USO REALES ¿Pero esto es útil?
  27. 27. Caso de uso real MARCA DE BEBIDAS MARCA DE COCHES E-COMMERCE DE MODA
  28. 28. Caso de uso real Necesitamos conectar con las tendencias en nuestro e-commerce Scrapping Frecuencia Asociación Topics Descripciones Etiquetas Taxonomía Posicionamiento E-COMMERCE DE MODA
  29. 29. Caso de uso real Necesitamos conocer a tiempo posibles amenazas hacia la marca Salud Medio ambiente Nutrición Bulos Sistema de alerta temprana MARCA DE BEBIDAS
  30. 30. Caso de uso real MARCA DE COCHES Necesitamos encontrar la forma de volver a conectar con la audiencia: conocer sus nuevos territorios e intereses, y descubrir insights para trabajar la reconexión.
  31. 31. Caso de uso real Movilidad Medios de transporte Sensaciones Problemas MARCA DE COCHES
  32. 32. EL NEGOCIO Herramientas
  33. 33. El negocio
  34. 34. El negocio 30.000€ y 50.000€ Anuales Wordcloud Ásociación Topics en líneas temporales Clustering
  35. 35. Gratis Un buen comienzo
  36. 36. TALLER PRÁCTICO Ya es la hora de hacer cositas en R...
  37. 37. Se trata de un ejercicio de iniciación a las técnicas de Text Mining. Tenemos un dataset compuesto de un conjunto de tweets recién extraídos de Twitter y vamos a tratar de averiguar qué temas tratan. El esquema del proceso a realizar es el siguiente: Conjunto de tweets Preproceso Creación de Corpus Creación Matriz Términos Docs Análisis ¡¡¡Al final, a la máquina le damos números!!!
  38. 38. Corpus Tweet Tweet Tweet Tweet Tweet Tweet Minería
  39. 39. Corpus Tweet Tweet Tweet Tweet Tweet Tweet Minería
  40. 40. Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet
  41. 41. Preprocesado Minería Pasar texto a minúsculas Quitar todo aquello que no es útil en el análisis Quitar signos de puntuación Quitar números Quitar expresiones Stemming Preprocesado
  42. 42. Preprocesado - Stemming Arbolado Arboleda Arbóreo Arbolitos Árbol Stemming
  43. 43. ¡Son matrices con mucho “sparsity”!
  44. 44. Asociación Árbol ipsum dolor incendio amet, consectetur adipiscing elit. Praesent vestibulum magna sed ante tempus iaculis. Maecenas vitae nisl quam. Integer augue nisi, lacinia in neque sit amet, interdum congue odio. In neque magna, mattis sit amet nisi id, cursus ullamcorper felis. Aenean pharetra porttitor ipsum ut tincidunt. Sed condimentum purus ut leo mattis, quis pretium nunc rhoncus. Ut accumsan orci at orci venenatis, vitae Bosque dui congue. Nulla magna quam, accumsan ac tincidunt id, cursus in massa. Etiam nec eros sit amet eros fringilla varius. Vestibulum ac purus venenatis, malesuada est vitae, molestie dui. Nulla eget neque sit amet odio semper mollis et ornare justo. Etiam lacinia, purus at semper tincidunt, libero metus venenatis sapien, sed convallis quam elit vel sapien. Vivamus porta dictum augue ut ornare. Pellentesque luctus, purus non fringilla ornare, velit est volutpat nulla, eget tempus tellus eros ac ligula. Etiam nulla Arboleda, ultrices vel mauris incendio, mollis ornare massa. Sed aliquam vulputate consectetur. Ut lacinia dignissim nisl vitae consequat. Donec posuere, dui et placerat varius, libero enim laoreet est, quis posuere purus neque nec libero. Nunc aliquet sapien nec convallis rhoncus. Donec ac metus leo.
  45. 45. ¡EMpezamos a saber de qué va la cosa!
  46. 46. Igual “USEFUL” no aporta valor al resultado y debería haberla quitado antes (momento stopwords)... visualizar es super potente para darse cuenta de cosas… :)
  47. 47. SE ven cosas interesantes cuando buscamos los términos que más se relacionan con unos en concreto...
  48. 48. una sencilla visualización superpotente!
  49. 49. Clusterización - Clúster Agrupación (Habitualmente por similitud o por cercanía) Dendograma – Clúster por orden jerárquico
  50. 50. CONCLUSIONES ¿Dónde está el valor verdadero? INTERPRETACIÓN Y DEBATE DE RESULTADOS ¡el dato no habla por nosotros! ¡nosotros hablamos por el dato!
  51. 51. ¡GRACIAS Y HASTA PRONTO! @zigiella @Legado
  52. 52. ANEXO 1 Conectarse a Twitter con R
  53. 53. PASO 1: Para poder conectarnos a Twitter desde R necesitamos tener una cuenta en Twitter y estar logineados. Entonces debemos acceder a https://apps.twitter.com y crear una app: Rellenaremos un sencillo formulario indicando cuatro cosas. Mirad el ejemplo.
  54. 54. PASO 2: Si todo ha ido bien estaremos en la página de la app. Iremos al menú “Keys and Access Tokens y crearemos nuestros tokens: El resultado será similar al que ves y tendrás tus credeciales: Api Key Api Secret Access Token Access Token Secret
  55. 55. Ya podemos ejecutar código R para obtener tweets. Este ejemplo es una pequeña muestra. Tendremos que poner nuestras credenciales en el código. Cuando hagamos setup nos hará una pregunta: Responderemos “Yes” y continuaremos. :)
  56. 56. ANEXO 2 Instalar paquetes necesarios en R
  57. 57. ¡GRACIAS DE NUEVO! @zigiella @Legado

×