Data Mining de la información SocialCaso: Twitter en el PerúJavier Albarracín     /   @jalbarracinAdap – 22 de Noviembre, ...
01   Prometo   brevísima   Introducción :)Data Mining de la Información Social   2
01          Definición de Data Mining     Es un campo de las ciencias de la computación referido al proceso que intenta   ...
01         Libro y Herramienta que no debes perderte: WEKA                                                              Ei...
01         Quantico: bloques de construcción:             Algoritmo de                 Captura y     Segmentación         ...
02   Descubriendo   usuarios peruanos   de twitter en el   mundo del internet   libreData Mining de la Información Social ...
El desafío: Tres usuarios de twitter peruanos... ¿Cómo02          identificar su nacionalidad?                            ...
Seleccionamos una lista de peruanos “Notablemente02          peruanos” y obtuvimos uno a uno todos sus seguidores         ...
La Hipótesis: La proporción típica de “peruanos notables”02          a los que sigue un peruano es mayor a la de un extran...
02          Encontrar el “cut-off” no ha sido tan dificil...                                                              ...
02          Un ejemplo de usuario de twitter “X”, “Y” y “Z”                                                               ...
Hasta el momento hemos analizado 3 países. En Perú02          estimamos 1.3 Millones de Usuarios de Twitter :)            ...
03   Estimando la Edad   (y utilizando un   truco simple para   estimar el género)   de los usuarios de   twitter.Data Min...
Hipótesis “Personas del misma generación siguen a algunos03          usuarios con mayor proporción que otras generaciones”...
Weka: Arbol de decisión utilizando el algoritmo J4803          (C4.5 Open Source – Ross Quinlan)Data Mining de la Informac...
03          Metodología: Grupo de 100 personas se divide en 2 grupos.                              50 50                  ...
Hipótesis “Personas del misma generación siguen a algunos03          usuarios con mayor proporción que otras generaciones”...
03          Interpretando los resultados del modelo   J48 pruned tree*                                                    ...
03          Matriz de Confusión     Grupo: 50 Usuarios con edad conocida (modelo contrastado)     A            B          ...
Estimando “rápidamente” el género de los twitteros:03                                            Seleccionamos los nombres...
04   Creando un   algorítmo de   “análisis del   sentimiento” con   sabor nacional.Data Mining de la Información Social   21
Algoritmo de sentimiento: El objetivo es generar un score de04          sentimiento para la expresión            Limpieza ...
Algoritmo de sentimiento: El objetivo es generar un score de04          sentimiento para la expresión                     ...
05   ¿Qué es lo que   podemos hacer con   tantos juguetes? :)Data Mining de la Información Social   24
05          Geolocalizando la conversación...Data Mining de la Información Social   25
05          QUANTICO TV !Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser la...
05          QUANTICO TV !Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser la...
05 Quantico Trends, hace simple el trabajo de análisis               Revisión de             •   Lectura ad-hoc de medios ...
muchas gracias!Data Mining de la información SocialCaso: Twitter en el PerúJavier Albarracín     /   @jalbarracinAdap – 22...
Upcoming SlideShare
Loading in...5
×

Quantico: Data Mining de la Informacion Social

10,941

Published on

Presentación de Modelos Matemáticos detrás de las estimaciones de Nacionalidad, Edad, y Género de los usuarios de Twitter. Estos modelos son los que soportan nuestra plataforma Quántico.

Published in: Self Improvement
2 Comments
7 Likes
Statistics
Notes
No Downloads
Views
Total Views
10,941
On Slideshare
0
From Embeds
0
Number of Embeds
23
Actions
Shares
0
Downloads
58
Comments
2
Likes
7
Embeds 0
No embeds

No notes for slide

Quantico: Data Mining de la Informacion Social

  1. 1. Data Mining de la información SocialCaso: Twitter en el PerúJavier Albarracín / @jalbarracinAdap – 22 de Noviembre, 2012
  2. 2. 01 Prometo brevísima Introducción :)Data Mining de la Información Social 2
  3. 3. 01 Definición de Data Mining Es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Fuente: Facebook NOV 2012 y Twitter (Estimación Quántico) NOV 2012Data Mining de la Información Social 3
  4. 4. 01 Libro y Herramienta que no debes perderte: WEKA Eibe Frank & Ian Witten ● Explica como funcionan los algorítmos. ● Te ayuda a seleccionar el mejor abordaje a problemas particulares, comparar y evaluar los resultados de diferentes técnicas. ● Cubre técnicas de mejoramiento de performance. ● Muestra como usar el software Weka Machine Learning. http://www.cs.waikato.ac.nz/ml/weka/Data Mining de la Información Social 4
  5. 5. 01 Quantico: bloques de construcción: Algoritmo de Captura y Segmentación Sentimiento Almacenamiento de Usuarios Procesamiento Social Big Data de Lenguaje Intelligence “Real-time” Modelo de Actitudes Analisis InfluenciaData Mining de la Información Social 5
  6. 6. 02 Descubriendo usuarios peruanos de twitter en el mundo del internet libreData Mining de la Información Social 6
  7. 7. El desafío: Tres usuarios de twitter peruanos... ¿Cómo02 identificar su nacionalidad? Fuente: Twitter / Noviembre 2012Data Mining de la Información Social 7
  8. 8. Seleccionamos una lista de peruanos “Notablemente02 peruanos” y obtuvimos uno a uno todos sus seguidores @larepublica_pe @RicardoMoran 262.768 seguidores 65.768 seguidores @elcomercio @Ollanta_HumalaT 481.019 seguidores 436.420 seguidores 500 ~ Peruanos “Notablemente Peruanos” @Uterope @JulianaOxenford Seleccionados 62.137 seguidores 59.173 seguidores @elmorsa @CuchoPenaloza 14.432 seguidores 20.167 seguidores* “Notablemente peruano” = Estamos seguros que son usuarios que son ampliamente conocidos en Perú. No estamos hablando de nacionalidad. Fuente: Twitter / Noviembre 2012Data Mining de la Información Social 8
  9. 9. La Hipótesis: La proporción típica de “peruanos notables”02 a los que sigue un peruano es mayor a la de un extranjero. Tú X ? ? ? ? ? > ? ? ? ? ? ? p(PeruanosN) p(PeruanosN) Fuente: Twitter / Noviembre 2012Data Mining de la Información Social 9
  10. 10. 02 Encontrar el “cut-off” no ha sido tan dificil... p(Peruanos) 2.5 millones de peruanos que siguen a “peruanos notables” Probabilidad de “Ser Peruano” X p >= 99% Y Probabilidad de “Ser Peruano” p >=70% 1.3MM Probabilidad de “Ser Peruano” Z p < 70% Fuente: Twitter / Noviembre 2012Data Mining de la Información Social 10
  11. 11. 02 Un ejemplo de usuario de twitter “X”, “Y” y “Z” ? X Y Z Fuente: Twitter / Noviembre 2012Data Mining de la Información Social 11
  12. 12. Hasta el momento hemos analizado 3 países. En Perú02 estimamos 1.3 Millones de Usuarios de Twitter :) HONDURAS: 1.2MM fb ~0.2MM tw NICARAGUA: 0.8MM fb ~0.2MM tw PANAMA: 1.0MM fb ~0.3MM tw MEXICO: 39.38MM fb ~8MM tw COLOMBIA: 17.4MM fb ~3.5MM tw GUATEMALA: 2.2MM fb ~0.3MM VENEZUELA: 9.9MM fb 2.7MM tw COSTA RICA: 1.9MM fb ~0.3MM ECUADOR: 5MM fb 0.8MM BRASIL: 60.6MM fb PERU: 9.5MM fb ~15.0MM tw 1.3MM tw BOLIVIA: 1.7MM fb PARAGUAY: 1.3MM fb ~0.2MM tw ~0.1MM tw URUGUAY: 1.6MM fb CHILE: 9.7MM fb ~0.3MM tw ~2.5MM tw ARGENTINA: 20.4MM fb ~2.5MM tw 182MM Usuarios de facebook ~38 MM Usuarios de twitter Fuente: Facebook NOV 2012 y Twitter (Estimación Quántico) NOV 2012Data Mining de la Información Social 12
  13. 13. 03 Estimando la Edad (y utilizando un truco simple para estimar el género) de los usuarios de twitter.Data Mining de la Información Social 13
  14. 14. Hipótesis “Personas del misma generación siguen a algunos03 usuarios con mayor proporción que otras generaciones” @spencerlandia @adammoband @nelsonmanrique @padelriol @merinobeatrizData Mining de la Información Social 14
  15. 15. Weka: Arbol de decisión utilizando el algoritmo J4803 (C4.5 Open Source – Ross Quinlan)Data Mining de la Información Social 15
  16. 16. 03 Metodología: Grupo de 100 personas se divide en 2 grupos. 50 50 Con edad conocida, nos Con edad conocida, nos servirá para diseñar el servirá para probar el modelo. modelo.Data Mining de la Información Social 16
  17. 17. Hipótesis “Personas del misma generación siguen a algunos03 usuarios con mayor proporción que otras generaciones” Clasificador Influenciador Twitter Muestra: 100Usuarios con edad conocida Muestra: 50 Usuarios con edad conocida 22 23 24 26 28 32 38 40 44 46 48 50 O @usuarioperiodista1 O Usuarios Influenciadores (con >5,000 followers) @usuarioperiodista2 Y @usuariomusico1 M @usuariomusico2 Y @usuariocanaltv1 O @usuarioartista1 M @usuariopolitico1 Y @usuarioartista2 M @usuarioperiodista3 M @usuariopolitico2 Y @usuarioradio1 O @usuarioliderop1Data Mining de la Información Social 17
  18. 18. 03 Interpretando los resultados del modelo J48 pruned tree* Modelo Generado ---------------------- 50 Correctly Classified Instances 48 P_Y <= 15 95.4545 % | P_T <= 14 Incorrectly Classified Instances 2 | | P_M <= 88: “36 - 45 Años” 4.5455 % | | P_M > 88: “25 - 35 Años” Kappa statistic 0.938 Mean absolute error 0.0394 | P_T > 14: “>45 Años” Total Number of Instances 50 P_Y > 15 | P_Y <= 25: “25 - 35 Años” Modelo Contrastado | P_Y > 25: “< 25 Años” 50 Correctly Classified Instances 46 90.9091 % Incorrectly Classified Instances 4 9.0909 %* Este no es el modelo final, este es un modelo simplificado para la presentación, pero válido y funcional.Data Mining de la Información Social 18
  19. 19. 03 Matriz de Confusión Grupo: 50 Usuarios con edad conocida (modelo contrastado) A B C D <-- clasificado como === Detailed Accuracy By Class === 17 0 0 0 A = <25 años TP Rate FP Rate ROC Area Class 1 0.030 0.998 < 25 Años 0.938 0.058 0.981 25 - 35 Años 1 15 0 0 B = 25-35 años 0.833 0 0.982 36 - 45 Años 0.800 0.026 0.978 > 45 Años 0.909 0.035 0.987 weighted avg. 0 1 10 1 C = 36-45 años 0 1 0 4 D = >45 años* Este no es el modelo final, este es un modelo simplificado para la presentación, pero válido y funcional.Data Mining de la Información Social 19
  20. 20. Estimando “rápidamente” el género de los twitteros:03 Seleccionamos los nombres que más se repiten... 20133 Luis M 1.3MM 17026 Jose MBase Total Usuarios de Twitter Peruanos 1MM 16478 Carlos M 15664 Juan M 11274 Jorge M 9013 Maria F 8516 Miguel M 6632 Cesar M 6470 Diego M 5936 Victor M 5775 Daniel M 5616 Julio M 5208 Ana F 5127 David M 5081 Claudia F Luis Tula Maryo 5005 Manuel M 4630 Andrea F 2300 12000+ 4590 Diana F Nombres únicos ordenados del más repetido al menos repetido 4565 Javier MDe la base de 1.3 MM de Twitteros pudimos colocarle género con un alto grado de precisión a 1MMData Mining de la Información Social 20
  21. 21. 04 Creando un algorítmo de “análisis del sentimiento” con sabor nacional.Data Mining de la Información Social 21
  22. 22. Algoritmo de sentimiento: El objetivo es generar un score de04 sentimiento para la expresión Limpieza de Diccionario Reglas “Lemmatización” Texto Palabras y Frases de Contexto bieeeeen jugado! detestando todo Potencia: “Detestar” -> -3 “muy bueno” vs. “bueno” “Bien” -> +1 bien jugado! detestar todo “la rompen” -> +2 Negación: “no es bueno” Typos Lemas Ppos/Pneg ReglasData Mining de la Información Social 22
  23. 23. Algoritmo de sentimiento: El objetivo es generar un score de04 sentimiento para la expresión -3 Sentimiento Categoria Que basuuuuraaa el patita de serv. al cliente por eso -6 no compraré ni muerto en crappybrand. Intención de -3 Sentimiento CompraData Mining de la Información Social 23
  24. 24. 05 ¿Qué es lo que podemos hacer con tantos juguetes? :)Data Mining de la Información Social 24
  25. 25. 05 Geolocalizando la conversación...Data Mining de la Información Social 25
  26. 26. 05 QUANTICO TV !Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser lanzada en unas semanas.Data Mining de la Información Social 26
  27. 27. 05 QUANTICO TV !Data “DUMMY” no es información real. Solamente como ejemplo de una posible visualización a ser lanzada en unas semanas.Data Mining de la Información Social 27
  28. 28. 05 Quantico Trends, hace simple el trabajo de análisis Revisión de • Lectura ad-hoc de medios nacionales millones de • 1.3 Millones+ de Twitteros Peruanos mapeados fuentes • Páginas de Facebook peruanas (abiertas) • Miles de blogs peruanos, videos youtube, foros, webs… Organizamos • Clasificamos “keywords” de la Empresa y la competencia y clasificamos • Clasificamos por negocios : Marcas, Categorias, Temas.. los temas • Clasificaciones adicionales (ej. “Evento1”, “Evento2”) Asignación de score de • Se le asigna un score de sentimiento automáticamente sentimiento • Expresiones “locales” (ej. “que mostra la promo”) Generación • La herramienta envía alertas automáticas de acuerdo a distintos criterios definidos. de Alertas e Informes • Se generan informes periódicos que se comparten internamente con los diferentes stakeholders.Data Mining de la Información Social 28
  29. 29. muchas gracias!Data Mining de la información SocialCaso: Twitter en el PerúJavier Albarracín / @jalbarracinAdap – 22 de Noviembre, 2012
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×