Desarrollo de una herramienta de planificación social media

1,508
-1

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,508
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Desarrollo de una herramienta de planificación social media

  1. 1. Pablo Aragón Asenjo Director: Íñigo García Morte Ponente: Fernando Tricas García Julio de 2010 DESARROLLO DE UNA HERRAMIENTA DE PLANIFICACIÓN SOCIAL MEDIA EN LA BLOGOSFERA ESPAÑOLA
  2. 2. ÍNDICE • INTRODUCCIÓN Contexto Objetivos • BLOGOSFERA Análisis Conclusiones • ARQUITECTURA Diseño distribuido Rastreo Extracción Indexación Agrupamiento • RESULTADO Resultados funcionales Resultados estadístico Conclusiones Trabajo Futuro Reconocimientos
  3. 3. ÍNDICE • INTRODUCCIÓN Contexto Objetivos • BLOGOSFERA Análisis Conclusiones • ARQUITECTURA Diseño distribuido Rastreo Extracción Indexación Agrupamiento • RESULTADO Resultados funcionales Resultados estadístico Conclusiones Trabajo Futuro Reconocimientos
  4. 4. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Contexto: Cierzo Development CONTEXTO OBJETIVOS • Marketing online y gestión de la reputación en Internet • Ubicada en el CEEI de Aragón • Plataforma SMMART Contexto: Cierzo Development
  5. 5. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS CONTEXTO OBJETIVOS Contexto: Social Media BLOGOSFERA
  6. 6. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS CONTEXTO OBJETIVOS Contexto: Social Media BLOGOSFERA RECUPERACIÓN IDENTIFICACIÓN
  7. 7. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS CONTEXTO OBJETIVOS Contexto: Social Media BLOGOSFERA CLIENTE RECUPERACIÓN IDENTIFICACIÓN MONITORIZACIÓN
  8. 8. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS CONTEXTO OBJETIVOS Contexto: Social Media BLOGOSFERA CLIENTE RECUPERACIÓN IDENTIFICACIÓN MONITORIZACIÓN PLANIFICACIÓN
  9. 9. 1. Adquirir el conocimiento necesario en las tecnologías Amazon EC2, Hadoop, Nutch, Lucene y Solr 2. Implementar un sistema de rastreo de la blogosfera española, extracción de entidades de posts e indexación de las mismas 3. Desarrollar un sistema de agrupamiento de posts en conversaciones INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS CONTEXTO OBJETIVOS Contexto: Objetivos
  10. 10. ÍNDICE • INTRODUCCIÓN Contexto Objetivos • BLOGOSFERA Análisis Conclusiones • ARQUITECTURA Diseño distribuido Rastreo Extracción Indexación Agrupamiento • RESULTADO Resultados funcionales Resultados estadístico Conclusiones Trabajo Futuro Reconocimientos
  11. 11. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS ANÁLISIS CONCLUSIONES Análisis: Estimaciones de la blogosfera • Technorati (2007) Más de 112 millones de blogs • Blogpulse (2009) Más de 126 millones de blogs • Bitacoras.com (2010) 417371 blogs en español
  12. 12. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Análisis: 1º Proceso de expansión ANÁLISIS CONCLUSIONES
  13. 13. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Análisis: 2º Proceso de expansión ANÁLISIS CONCLUSIONES
  14. 14. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Resultados • Grandes volúmenes de información • Aparición de nuevos blogs • Variaciones en la frecuencia de publicación ANÁLISIS CONCLUSIONES
  15. 15. ÍNDICE • INTRODUCCIÓN Contexto Objetivos • BLOGOSFERA Análisis Conclusiones • ARQUITECTURA Diseño distribuido Rastreo Extracción Indexación Agrupamiento • RESULTADO Resultados funcionales Resultados estadístico Conclusiones Trabajo Futuro Reconocimientos
  16. 16. Amazon EC2 es el servicio de computación en nube perteneciente a Amazon Servidores y discos duros configurables Plataforma escalable de almacenamiento, transferencia y computación bajo demanda INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO Diseño distribuido: Amazon EC2
  17. 17. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Diseño distribuido: MapReduce en Hadoop DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO Framework de computación a gran escala • Paradigma de programación MapReduce • Sistema distribuido de ficheros
  18. 18. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Diseño distribuido: MapReduce en Hadoop DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO MAP Entrada: (k1,v1) Salida: list(k2,v2)
  19. 19. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Diseño distribuido: MapReduce en Hadoop DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO REDUCE Entrada: (k2,list(v2)) Salida: list(v3) MAP Entrada: (k1,v1) Salida: list(k2,v2)
  20. 20. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Diseño distribuido: Sistema Distribuido de Ficheros de Hadoop DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO • Hadoop Distributed FileSystem divide los ficheros en fragmentos • Cada fragmento se replica en varios nodos
  21. 21. Diseño distribuido: Argumentos a favor de Hadoop DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO • Alta tolerancia a fallos • Gestión de memoria • Coste económico • Comparación con otras tecnologías INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS
  22. 22. Diseño distribuido: Módulos del sistema DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS
  23. 23. DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS CrawlDb • URL • Última consulta • Estado • Metadatos Segment • URL • Contenido HTML • Enlaces salientes Módulo de rastreo: Estructura y flujo de datos
  24. 24.  Filtros positivos y negativos de URLS  Identificador del motor  Retardo entre consultas sucesivas  Volumen y concurrencia de los threads Módulo de rastreo: Parámetros de configuración DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS
  25. 25. 1. Distinción entre URLS de blogs y posts 2. Relevancia social del blog 3. Frecuencia de publicación 4. Idioma Módulo de rastreo: Factores de rastreo DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS
  26. 26.  Detector de frecuencias de publicación  Identificación de la frecuencia de blogs  Mecanismo de expiración de posts  Detección de idiomas basado en n-gramas  Inclusión de metainformación en CrawldB  Lenguaje  Número de consultas  Herramientas de gestión de CrawlDb Módulo de rastreo: Implementaciones sobre Nutch DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS
  27. 27. DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO Módulo de rastreo: Esquema final INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS
  28. 28. Módulo de extracción DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Extracción de las entidades de un post  XPath  Densidad de texto en el HTML
  29. 29. Módulo de indexación DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO  Búsqueda a texto completo  Ordenación de resultados  Lematización de tokens  Filtrado de palabras frecuentes  Interfaz web de administración  Replicación de índices INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS
  30. 30. El módulo de agrupamiento realiza: 1. Tokenización de entidades 2. Generación de una matrices de tokens y distancias 3. Algoritmo de clusterización Los resultados corresponden con las conversaciones que forman los posts Módulo de agrupamiento DISEÑO DISTRIBUIDO RASTREO EXTRACCIÓN INDEXACIÓN AGRUPAMIENTO INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS
  31. 31. ÍNDICE • INTRODUCCIÓN Contexto Objetivos • BLOGOSFERA Análisis Conclusiones • ARQUITECTURA Diseño distribuido Rastreo Extracción Indexación Agrupamiento • RESULTADO Resultados funcionales Resultados estadístico Conclusiones Trabajo Futuro Reconocimientos
  32. 32. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Resultados funcionales: Herramienta de planificación RESULTADOS FUNCIONALES RESULTADOS ESTADÍSTICOS CONCLUSIONES TRABAJO FUTURO RECONOCIMIENTOS La integración del índice de posts, el módulo de agrupamiento y la interfaz web conforma la herramienta de planificación social media
  33. 33. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Resultados estadísticos: Volumen de posts RESULTADOS FUNCIONALES RESULTADOS ESTADÍSTICOS CONCLUSIONES TRABAJO FUTURO RECONOCIMIENTOS • Pocos blogs de elevado volumen • Más blogs con un volumen intermedio • Muchos blogs de volumen ínfimo
  34. 34. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Resultados estadísticos: Puntuación de blogs RESULTADOS FUNCIONALES RESULTADOS ESTADÍSTICOS CONCLUSIONES TRABAJO FUTURO RECONOCIMIENTOS Gráfica análoga a la anterior  El modelo se ajusta a la realidad
  35. 35. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Resultados estadísticos: Detección de idioma RESULTADOS FUNCIONALES RESULTADOS ESTADÍSTICOS CONCLUSIONES TRABAJO FUTURO RECONOCIMIENTOS
  36. 36. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Conclusiones RESULTADOS FUNCIONALES RESULTADOS ESTADÍSTICOS CONCLUSIONES TRABAJO FUTURO RECONOCIMIENTOS 1. Implementación de un sistema que cumple los requisitos propuestos 2. Diseño de una arquitectura con un alto grado de escalabilidad 3. El modelo implementado se ajusta a la realidad de la blogosfera
  37. 37. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Trabajo futuro RESULTADOS FUNCIONALES RESULTADOS ESTADÍSTICOS CONCLUSIONES TRABAJO FUTURO RECONOCIMIENTOS 1. Utilización de esta arquitectura en nuevos productos
  38. 38. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Trabajo futuro RESULTADOS FUNCIONALES RESULTADOS ESTADÍSTICOS CONCLUSIONES TRABAJO FUTURO RECONOCIMIENTOS 1. Utilización de este diseño distribuido en nuevos productos 2. Replicación del sistema para otras fuentes del social media
  39. 39. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Trabajo futuro RESULTADOS FUNCIONALES RESULTADOS ESTADÍSTICOS CONCLUSIONES TRABAJO FUTURO RECONOCIMIENTOS 1. Utilización de este diseño distribuido en nuevos productos 2. Replicación del sistema para otras fuentes del social media 3. Implementación de productos que consumen estas fuentes
  40. 40. INTRODUCCIÓN BLOGOSFERA ARQUITECTURA RESULTADOS Reconocimientos RESULTADOS FUNCIONALES RESULTADOS ESTADÍSTICOS CONCLUSIONES TRABAJO FUTURO RECONOCIMIENTOS Presentación en el Congreso Apache Lucene Eurocon 2010
  41. 41. Muchas gracias por su atención…

×