Your SlideShare is downloading. ×
0
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Desarrollo de una herramienta de planificación social media
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Desarrollo de una herramienta de planificación social media

1,201

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,201
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. DESARROLLO DE UNA HERRAMIENTA DE PLANIFICACIÓN SOCIAL MEDIA EN LA BLOGOSFERA ESPAÑOLA Pablo Aragón Asenjo Director: Íñigo García Morte Ponente: Fernando Tricas García Julio de 2010
  • 2. ÍNDICE• INTRODUCCIÓN Contexto Objetivos• BLOGOSFERA Análisis Conclusiones• ARQUITECTURA Diseño distribuido Rastreo Extracción Indexación Agrupamiento• RESULTADO Resultados funcionales Resultados estadístico Conclusiones Trabajo Futuro Reconocimientos
  • 3. INTRODUCCIÓN BLOGOSFERA CONTEXTO ARQUITECTURA OBJETIVOS RESULTADOS Contexto: Cierzo DevelopmentContexto: Cierzo Development • Marketing online y gestión de la reputación en Internet • Ubicada en el CEEI de Aragón • Plataforma SMMART
  • 4. INTRODUCCIÓN BLOGOSFERA CONTEXTO ARQUITECTURA OBJETIVOS RESULTADOSContexto: Social Media PLANIFICACIÓN CLIENTE MONITORIZACIÓN BLOGOSFERA RECUPERACIÓN IDENTIFICACIÓN
  • 5. INTRODUCCIÓN BLOGOSFERA CONTEXTO ARQUITECTURA OBJETIVOS RESULTADOSContexto: Objetivos 1. Adquirir el conocimiento necesario en las tecnologías Amazon EC2, Hadoop, Nutch, Lucene y Solr 2. Implementar un sistema de rastreo de la blogosfera española, extracción de entidades de posts e indexación de las mismas 3. Desarrollar un sistema de agrupamiento de posts en conversaciones
  • 6. ÍNDICE• INTRODUCCIÓN Contexto Objetivos• BLOGOSFERA Análisis Conclusiones• ARQUITECTURA Diseño distribuido Rastreo Extracción Indexación Agrupamiento• RESULTADO Resultados funcionales Resultados estadístico Conclusiones Trabajo Futuro Reconocimientos
  • 7. INTRODUCCIÓN BLOGOSFERA ANÁLISIS ARQUITECTURA CONCLUSIONES RESULTADOSAnálisis: Estimaciones de la blogosfera • Technorati (2007) Más de 112 millones de blogs • Blogpulse (2009) Más de 126 millones de blogs • Bitacoras.com (2010) 417371 blogs en español
  • 8. INTRODUCCIÓN BLOGOSFERA ANÁLISIS ARQUITECTURA CONCLUSIONES RESULTADOSAnálisis: 1º Proceso de expansión
  • 9. INTRODUCCIÓN BLOGOSFERA ANÁLISIS ARQUITECTURA CONCLUSIONES RESULTADOSAnálisis: 2º Proceso de expansión
  • 10. INTRODUCCIÓN BLOGOSFERA ANÁLISIS ARQUITECTURA CONCLUSIONES RESULTADOSResultados• Grandes volúmenes de información• Aparición de nuevos blogs• Variaciones en la frecuencia de publicación
  • 11. ÍNDICE• INTRODUCCIÓN Contexto Objetivos• BLOGOSFERA Análisis Conclusiones• ARQUITECTURA Diseño distribuido Rastreo Extracción Indexación Agrupamiento• RESULTADO Resultados funcionales Resultados estadístico Conclusiones Trabajo Futuro Reconocimientos
  • 12. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTODiseño distribuido: Amazon EC2 Amazon EC2 es el servicio de computación en nube perteneciente a Amazon Servidores y discos duros configurables Plataforma escalable de almacenamiento, transferencia y computación bajo demanda
  • 13. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTODiseño distribuido: MapReduce en Hadoop Framework de computación a gran escala • Paradigma de programación MapReduce • Sistema distribuido de ficheros
  • 14. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTODiseño distribuido: MapReduce en HadoopMAPEntrada: (k1,v1)Salida: list(k2,v2)
  • 15. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTODiseño distribuido: MapReduce en HadoopMAPEntrada: (k1,v1)Salida: list(k2,v2)REDUCEEntrada: (k2,list(v2))Salida: list(v3)
  • 16. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTODiseño distribuido: Sistema Distribuido de Ficheros de Hadoop • Hadoop Distributed FileSystem divide los ficheros en fragmentos • Cada fragmento se replica en varios nodos
  • 17. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTODiseño distribuido: Argumentos a favor de Hadoop• Alta tolerancia a fallos• Gestión de memoria• Coste económico• Comparación con otras tecnologías
  • 18. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTODiseño distribuido: Módulos del sistema
  • 19. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTOMódulo de rastreo: Estructura y flujo de datosCrawlDb • URL • Última consulta • Estado • MetadatosSegment • URL • Contenido HTML • Enlaces salientes
  • 20. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTOMódulo de rastreo: Parámetros de configuración Filtros positivos y negativos de URLS Identificador del motor Retardo entre consultas sucesivas Volumen y concurrencia de los threads
  • 21. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTOMódulo de rastreo: Factores de rastreo 1. Distinción entre URLS de blogs y posts 2. Relevancia social del blog 3. Frecuencia de publicación 4. Idioma
  • 22. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTOMódulo de rastreo: Implementaciones sobre Nutch Detector de frecuencias de publicación Identificación de la frecuencia de blogs Mecanismo de expiración de posts Detección de idiomas basado en n-gramas Inclusión de metainformación en CrawldB Lenguaje Número de consultas Herramientas de gestión de CrawlDb
  • 23. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTOMódulo de rastreo: Esquema final
  • 24. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTOMódulo de extracción Extracción de las entidades de un post XPath Densidad de texto en el HTML
  • 25. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTOMódulo de indexación Búsqueda a texto completo Ordenación de resultados Lematización de tokens Filtrado de palabras frecuentes Interfaz web de administración Replicación de índices
  • 26. DISEÑO DISTRIBUIDO INTRODUCCIÓN RASTREO BLOGOSFERA EXTRACCIÓN ARQUITECTURA INDEXACIÓN RESULTADOS AGRUPAMIENTOMódulo de agrupamientoEl módulo de agrupamiento realiza:1. Tokenización de entidades2. Generación de una matrices de tokens y distancias3. Algoritmo de clusterizaciónLos resultados corresponden con las conversaciones queforman los posts
  • 27. ÍNDICE• INTRODUCCIÓN Contexto Objetivos• BLOGOSFERA Análisis Conclusiones• ARQUITECTURA Diseño distribuido Rastreo Extracción Indexación Agrupamiento• RESULTADO Resultados funcionales Resultados estadístico Conclusiones Trabajo Futuro Reconocimientos
  • 28. RESULTADOS FUNCIONALES INTRODUCCIÓN RESULTADOS ESTADÍSTICOS BLOGOSFERA CONCLUSIONES ARQUITECTURA TRABAJO FUTURO RESULTADOS RECONOCIMIENTOSResultados funcionales: Herramienta de planificación La integración del índice de posts, el módulo de agrupamiento y la interfaz web conforma la herramienta de planificación social media
  • 29. RESULTADOS FUNCIONALES INTRODUCCIÓN RESULTADOS ESTADÍSTICOS BLOGOSFERA CONCLUSIONES ARQUITECTURA TRABAJO FUTURO RESULTADOS RECONOCIMIENTOSResultados estadísticos: Volumen de posts • Pocos blogs de elevado volumen • Más blogs con un volumen intermedio • Muchos blogs de volumen ínfimo
  • 30. RESULTADOS FUNCIONALES INTRODUCCIÓN RESULTADOS ESTADÍSTICOS BLOGOSFERA CONCLUSIONES ARQUITECTURA TRABAJO FUTURO RESULTADOS RECONOCIMIENTOSResultados estadísticos: Puntuación de blogs Gráfica análoga a la anterior El modelo se ajusta a la realidad
  • 31. RESULTADOS FUNCIONALES INTRODUCCIÓN RESULTADOS ESTADÍSTICOS BLOGOSFERA CONCLUSIONES ARQUITECTURA TRABAJO FUTURO RESULTADOS RECONOCIMIENTOSResultados estadísticos: Detección de idioma
  • 32. RESULTADOS FUNCIONALES INTRODUCCIÓN RESULTADOS ESTADÍSTICOS BLOGOSFERA CONCLUSIONES ARQUITECTURA TRABAJO FUTURO RESULTADOS RECONOCIMIENTOSConclusiones1. Implementación de un sistema que cumple los requisitos propuestos2. Diseño de una arquitectura con un alto grado de escalabilidad3. El modelo implementado se ajusta a la realidad de la blogosfera
  • 33. RESULTADOS FUNCIONALES INTRODUCCIÓN RESULTADOS ESTADÍSTICOS BLOGOSFERA CONCLUSIONES ARQUITECTURA TRABAJO FUTURO RESULTADOS RECONOCIMIENTOSTrabajo futuro1. Utilización de esta arquitectura en nuevos productos
  • 34. RESULTADOS FUNCIONALES INTRODUCCIÓN RESULTADOS ESTADÍSTICOS BLOGOSFERA CONCLUSIONES ARQUITECTURA TRABAJO FUTURO RESULTADOS RECONOCIMIENTOSTrabajo futuro1. Utilización de este diseño distribuido en nuevos productos2. Replicación del sistema para otras fuentes del social media
  • 35. RESULTADOS FUNCIONALES INTRODUCCIÓN RESULTADOS ESTADÍSTICOS BLOGOSFERA CONCLUSIONES ARQUITECTURA TRABAJO FUTURO RESULTADOS RECONOCIMIENTOSTrabajo futuro1. Utilización de este diseño distribuido en nuevos productos2. Replicación del sistema para otras fuentes del social media3. Implementación de productos que consumen estas fuentes
  • 36. RESULTADOS FUNCIONALES INTRODUCCIÓN RESULTADOS ESTADÍSTICOS BLOGOSFERA CONCLUSIONES ARQUITECTURA TRABAJO FUTURO RESULTADOS RECONOCIMIENTOSReconocimientos Presentación en el Congreso Apache Lucene Eurocon 2010
  • 37. Muchas gracias por su atención…

×