Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data: Experiencias (académicas) reales

1,934 views

Published on

Charla en las Jornadas Big Data Canarias 2016

Published in: Software
  • Be the first to comment

Big Data: Experiencias (académicas) reales

  1. 1. Big Data: experiencias (académicas) reales Marcos Colebrook Santamaría Carlos J. Pérez González José L. Roda García Jornadas #BigDataCanarias 21-22 diciembre 2016
  2. 2. Contenidos ■ Un poco de retrospectiva ■ Proyectos Fin de Carrera (PFC) y Trabajos Fin de Grado (TFG) sobre Big Data: ● PFC: Hadoop + MapReduce (2014) ● TFG: Análisis de ficheros log de la WiFi-ULL (2015) ● TFG: Análisis de los incidentes del 1·1·2 (2016) ● TFG: Módulo BI para la plataforma X4Apps (2016) ● TFG: Despliegue de clúster Spark sobre Docker (2016) ■ PFC y TFG sobre Genómica: ● PFC: IonGAP (2014) ● TFG: QuiimeApp (2016) ● TFG: Notebook de Jupyter para el MinION (2016) ■ Otros proyectos relacionados: ● TFG: Extracción y visualización de info legal (2015) ■ ¿Preguntas? 2
  3. 3. Conclusiones: ■ Big Data: tecnología emergente, pero verdadera oportunidad de mercado. ■ Data Scientist/Engineer: ● Matemáticas+Estadística ● R, Python, Hadoop, Spark, D3, Java, etc. ● Curiosidad ● Storytelling: comunicación de resultados. ■ Tendencias: ● Visualización de datos ● Modelos predictivos ● Social Analytics ● Spark / Storm vs. Hadoop Un poco de retrospectiva: 16-6-2014 3Jornadas #BigDataCanarias 21-22 diciembre 2016
  4. 4. PFC: Hadoop+MapReduce (1) 4Jornadas #BigDataCanarias 21-22 diciembre 2016 Procesando Big Data mediante MapReduce (2014) Autores: Alejandro Tejera, Jaime Corrales Directores: José L. Roda, Marcos Colebrook ■ Primer proyecto dirigido en ETSII y una primera aproximación al tópico Big Data ■ Esquema: ● Introducción a Big Data ● Técnicas y algoritmos ● Hadoop y MapReduce ● Casos de estudio ■ Tecnología: Java y Hadoop 2 sobre los casi 200 PCs del Centro de Cálculo ETSII.
  5. 5. PFC: Hadoop+MapReduce (2) 5Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ● Cálculo de la temperatura máxima de datos meteorológicos: reducción del tiempo de cómputo en un 90%. ● Análisis del weblog del Centro de Cálculo: detección de IPs conflictivas. ● Búsqueda de duplicados en el registro de padrón: comparando 106 registros (+detalles luego) ● Estudio estadístico del contexto: buenos resultados con corpus de 4GB y solo 16 nodos.
  6. 6. TFG: Análisis de ficheros log de la WiFi-ULL (1) 6Jornadas #BigDataCanarias 21-22 diciembre 2016 Análisis de ficheros log de la WiFi-ULL usando técnicas de Big Data (2015) Autor: Víctor Plaza Directores: Marcos Colebrook, José L. Roda ■ Objetivo: dado un rango de fechas obtener tuplas (Fecha, Hora, Acceso Campus Virtual, IP, MAC, Punto acceso, Coord. GPS) ■ Esquema: ● Estado del arte ● Problemática ● Fases y Desarrollo del proyecto ■ Tecnología: Python y Hadoop 2 sobre cluster de 5-7 nodos.
  7. 7. TFG: Análisis de ficheros log de la WiFi-ULL (2) 7Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: se pudieron relacionar diferentes logs de los servidores, del DNS, de la WiFi, del DHCP, y de la geolocalización de los edificios, en base a un rango de fechas y horas, para obtener: ■ Para + info: riull.ull.es/xmlui/handle/915/1412
  8. 8. TFG: Análisis de ficheros log de la WiFi-ULL (3) 8Jornadas #BigDataCanarias 21-22 diciembre 2016
  9. 9. TFG: Análisis de los incidentes del 1·1·2 (1) Análisis de los incidentes del CECOES 1·1·2 utilizando técnicas de Ciencia de los Datos (2016) Autor: Teno González Directores: Marcos Colebrook, Carlos J. Pérez ■ Objetivo: creación de una interfaz que muestra info extraída de los 7 millones de registros (2005-2014) como gráficas dinámicas o mapas. ■ Esquema: ● Estado del arte ● Problemática ● Fases y desarrollo del proyecto ■ Tecnología: R+Shiny y RStudio para el desarrollo. 9Jornadas #BigDataCanarias 21-22 diciembre 2016
  10. 10. TFG: Análisis de los incidentes del 1·1·2 (2) 10Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: limpieza y carga optimizada de datos, además de una web intuitiva (más detalles en la siguiente charla) ■ Para + info: riull.ull.es/xmlui/handle/915/2616
  11. 11. TFG: Módulo BI para plataforma X4Apps (1) Módulo de Inteligencia de Negocio para la plataforma X4Apps (2016) Autor: Sandro Chinea Director: Marcos Colebrook ■ Objetivo: diseño de un módulo de BI para la plataforma X4Apps de desarrollo para móviles. ■ Esquema: ● Estado del arte ● Desarrollo de la solución ■ Se analizaron tecnologías como MongoDB, Hadoop, y Pentaho. 11Jornadas #BigDataCanarias 21-22 diciembre 2016
  12. 12. TFG: Módulo BI para plataforma X4Apps (2) 12Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes:
  13. 13. TFG: Despliegue de clúster Spark sobre Docker (1) Despliegue de un clúster Spark sobre Docker para Big Data (2016) Autor: Sergio Martín Directores: Marcos Colebrook, Carlos J. Pérez ■ Objetivo: desarrollo y despliegue de un cluster Spark 2.0.0 sobre Docker 1.12 ■ Esquema: ● Análisis del problema ● Solución basada en Docker 1.11 ● Solución basada en Docker 1.12 ● Ejecución y benchmarks 13Jornadas #BigDataCanarias 21-22 diciembre 2016
  14. 14. TFG: Despliegue de clúster Spark sobre Docker (2) 14Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ■ Para + info: riull.ull.es/xmlui/handle/915/3088
  15. 15. PFC y TFG en Bioinformática (1) 15Jornadas #BigDataCanarias 21-22 diciembre 2016 Fuente: www.genome.gov/sequencingcostsdata
  16. 16. PFC y TFG en Bioinformática (2) 16Jornadas #BigDataCanarias 21-22 diciembre 2016
  17. 17. PFC: IonGAP (1) IonGAP – an Integrated Genome Assembly Platform for Ion Torrent Data (2014) Autor: Adrián Baez Directores: Marcos Colebrook, José L. Roda ■ Objetivo: desarrollo de una web pública para el ensamblado de genomas bacterianos y su análisis posterior. ■ Esquema: ● The genome assembler ● A genome assembly and analysis pipeline ● IonGAP web service ● Parallel assembly of large genomes ■ Tecnologías: Django, Apache Web Server, HTML+CSS+JavaScript y apps libres para análisis genómico. 17Jornadas #BigDataCanarias 21-22 diciembre 2016
  18. 18. PFC: IonGAP (2) 18Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes:
  19. 19. PFC: IonGAP (3) IonGAP: integrative bacterial genome analysis for Ion Torrent sequence data (2015). A. Baez-Ortega, F. Lorenzo-Diaz, M. Hernandez, C.I. Gonzalez-Vila, J.L. Roda-Garcia, M. Colebrook, C. Flores, Bioinformatics, 31(17). iongap.hpc.iter.es 19Jornadas #BigDataCanarias 21-22 diciembre 2016
  20. 20. TFG: QuiimeApp (1) QiimeApp – Una plataforma web para análisis metagenómicos (2016) Autor: Víctor Juidías Directores: Marcos Colebrook, José L. Roda ■ Objetivo: desarrollo de app para procesar y analizar datos metagenómicos obtenidos por secuenciación masiva de ADN. ■ Esquema: ● Estado del arte ● Diseño y desarrollo de la app ● Resultados ■ Tecnologías: la app base es QIIME (Python), la cual permite realizar análisis metagenómicos sobre comunidades microbianas. 20Jornadas #BigDataCanarias 21-22 diciembre 2016 $ split_libraries_fastq.py -i lane1_read1.fastq.gz -b lane1_barcode.fastq.gz --rev_comp_mapping_barcodes -o slout_q20/ -m map.txt -q 19
  21. 21. PFC: QuiimeApp (2) 21Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ■ Para + info: riull.ull.es/xmlui/handle/915/2614
  22. 22. TFG: Notebook de Jupyter para el MinION (1) Herramienta bioinformática usando Jupyter para el secuenciador de ADN MinION (2016) Autor: Héctor Rodríguez Directores: Marcos Colebrook, José L. Roda ■ Objetivo: desarrollo de un notebook de Jupyter para trabajar con el secuenciador MinION de Nanopore. ■ Esquema: ● Estado del arte ● Diseño y desarrollo de la solución ● Resultados ■ Tecnologías: Jupyter (IPython) y varias apps libres y abiertas específicas del MinION. 22Jornadas #BigDataCanarias 21-22 diciembre 2016
  23. 23. TFG: Notebook de Jupyter para el MinION (2) 23Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ■ Para + info: riull.ull.es/xmlui/handle/915/3089
  24. 24. TFG en NLP de textos legales 24Jornadas #BigDataCanarias 21-22 diciembre 2016
  25. 25. TFG: Extracción y visualización de info legal (1) Extracción y visualización de información de textos legales (2015) Autor: Francisco J. Rodríguez Directores: Isabel Sánchez, Marcos Colebrook ■ Objetivo: visualización de info estructurada a partir de un corpus de textos de jurisprudencia (CENDOJ) para obtener conclusiones sobre las sentencias (fav. / desfav. / parcial) usando NLP. ■ Esquema: ● Desarrollo del proyecto ● Diseño e implementación ● Resultados ■ Tecnologías: Java, FreeLing, PDFBox, HTML+CSS+JavaScript, D3. 25Jornadas #BigDataCanarias 21-22 diciembre 2016
  26. 26. TFG: Extracción y visualización de info legal (2) 26Jornadas #BigDataCanarias 21-22 diciembre 2016 ■ Resultados interesantes: ■ Para + info: riull.ull.es/xmlui/handle/915/845
  27. 27. ■ Desde 2014, se han propuesto y desarrollado varios PFC y TFG en Big Data usando herramientas abiertas y de software libre. ■ Son proyectos piloto o PoC (Proof of Concept) que nos permiten adquirir know-how para proyectos más complejos. ■ A partir de estos PFC/TFG, tenemos buena experiencia con proyectos financiados/subvencionados con contratos menores (<18K) que permiten contratar becarios al menos 12 meses. ■ Para ello, habrá que firmar un convenio (marco y específico) de colaboración con ULL.Y la autorización para difundir los resultados en forma de publicación científica (revista, congreso, libro). Conclusiones 27Jornadas #BigDataCanarias 21-22 diciembre 2016
  28. 28. ¡¡ GRACIAS !! ¿Preguntas? 28Jornadas #BigDataCanarias 21-22 diciembre 2016

×