SlideShare a Scribd company logo
1 of 37
Download to read offline
DESARROLLO E IMPLEMENTACIÓN DE UNA 
PLATAFORMA BIOINFORMÁTICA 
PARA ANÁLISIS RNA-SEQ BASADA EN GALAXY 
Autores: Cristian Alejandro Rojas 
Luis Miguel Gutierrez 
Dirigido por: M.Sc Nelson Enrique Vera
Agenda 
❏ Introducción 
❏ Formulación del problema 
❏ Metodología 
❏ Resultados 
❏ Conclusiones 
❏ Trabajos futuros
INTRODUCCIÓN
Convenio IGUN-CECAD
Artículos Generados 
IGUN 
❏ The Transcriptome of the Caribbean Reef-building Coral Diploria strigosa 
Reveals a Highly Complex Immune Repertoire. 
❏ THE TRANSCRIPTOME OF Hydractinia symbiolongicarpus REVEALS A 
COMPLEX IMMUNE SYSTEM. 
U. Distrital 
❏ Automatic BLAST for Massive Sequencing - ABMS, Proceedings of the 
2nd Colombian Congress on Computational Biology and Bioinformatics 
(CCBCOL). 
❏ MAFA: A web based software to automate functional annotation of 
genomes and transcriptomes. Tecnura.
Ponencias 
❏ LACCEI 2013, Cancún-México, Automatic BLAST for Massive Sequencing 
- ABMS 
❏ CCBCOL 2013, Manizales-Colombia, Presentation and Evaluation of 
ABMS (Automatic Blast for Massive Sequencing) 
❏ IWBBIO 2014, Granada-España, Massive Automatic Functional 
Annotation MAFA
FORMULACIÓN DEL 
PROBLEMA
Evolución de la secuenciación 
Método de Sanger: 
Secuenciación por 
Dideoxinucleótidos 
NGS - Next Generation Sequencing: 
High-throughput sequencing 
U$2400 por 
1M bases 
U$0.05 - U$0.15 
Por 1M bases 
Hasta 52.5 Kbases 
por corrida 
Hasta 600 Gbases 
por corrida 
Datos tomados de: http://www.the-scientist.com/?articles.view/articleNo/15939/title/DNA-Sequencing-Industry-Sets-its-Sights-on-the-Future/
RNA-Seq 
El RNA-Seq es un poderoso 
método de descubrimiento, 
perfilamiento y 
cuantificación de transcritos 
de ARN. 
Aplicaciones clínicas y 
biomédicas. 
Facilitar estudio de otros 
organismos. 
Datos tomados de: http://www.rna-seqblog.com/rna-seq-library-prep-introduction/
Principales dificultades de un 
análisis RNA-Seq
Principales dificultades de un 
análisis RNA-Seq 
❏ Se requiere de computación de alto desempeño 
para su ejecución. 
❏ Herramientas no amigables para el usuario. 
❏ Formatos de entrada y salida confusos para un 
usuario final. 
❏ El usuario debe saber e integrar etapas del 
proceso.
Formulación del problema 
¿Cómo diseñar y desarrollar una herramienta 
que integre, automatice y facilite el análisis de 
de datos transcriptómicos?
Justificación 
Nuevas áreas de investigación 
Fortalece estudio de mecanismos de 
respuesta inmune en varios organismos.
Objetivo general 
Desarrollar una plataforma bioinformática basada en 
Galaxy orientada al análisis de datos RNA-Seq de acuerdo 
a las necesidades del Grupo de Inmunología Evolutiva 
(GIE) del Instituto de Genética de la Universidad Nacional 
(IGUN), haciendo uso del Centro de Cómputo de Alto 
Desempeño de la Universidad Distrital (CECAD).
Objetivos específicos 
❏ Estudiar los procesos que hacen parte de un análisis RNA-Seq. 
❏ Diseñar un pipeline que automatice los procesos 
normalmente usados en un análisis RNA-Seq. 
❏ Integrar herramientas bioinformáticas requeridas para 
realizar un análisis RNA-Seq. 
❏ Desplegar en producción la plataforma desarrollada en un 
servidor del CECAD para el público en general y así 
fortalecer la imagen de investigación de la Universidad 
Distrital.
METODOLOGÍA 
Estudio de 
requerimientos 
Diseño de 
arquitectura y 
selección de 
herramientas 
Implementación, 
configuración, 
personalización e 
integración de 
herramientas a la 
plataforma 
Acondicionamiento de 
infraestructura 
Procesos necesarios 
para RNA-Seq y 
requerimientos de la 
plataforma 
Listado de 
herramientas a 
integrar 
Evaluación Documentación 
Equipo con 
herramientas 
instaladas 
Plataforma 
funcional 
Documentación 
técnica y de usuario 
Satisfacción de 
requerimientos y cuadro 
comparativo.
Análisis de requerimientos 
❏ Reuniones con los investigadores del IGUN. 
❏ Se evidenciaron las siguientes necesidades principales: 
❏ Soporte de todos los procesos de análisis 
transcriptómico. 
❏ Interfaz de usuario amigable. 
❏ Contar con gestión de usuarios.
Selección de herramientas 
❏ Búsqueda de herramientas bioinformáticas disponibles 
para cada proceso. Revisión de bibliotecas digitales 
(Pubmed), journals y foros dedicados a bioinformática. 
❏ Selección de herramientas por su aceptación en la 
comunidad científica. 
❏ Búsqueda de plataforma base que permitiera la 
solución del problema formulado.
RESULTADOS
Flujo de trabajo
Arquitectura general
Módulo de preprocesamiento
Módulo de preprocesamiento
Módulo de mapeo
Módulo de Mapeo
Módulo de ensamblaje
Módulo de ensamblaje
Módulo de anotación
Módulo de anotación
Módulo de expresión diferencial
Módulo de expresión diferencial
Módulo de estimación de abundancia
Módulo de estimación de 
abundancia
Utilidades 
● Samtools 
○ Organización, mezcla, indexación. 
● CummeRbund 
○ Acceso, exploración, graficación. 
● EMBOSS: Transeq 
○ Traduce secuencias a péptidos
Demostración
Trabajos futuros 
● Escalabilidad horizontal 
○ Sistema distribuido 
● Herramientas 
○ Aprendizaje de máquina
Conclusiones 
● Se logró diseñar un pipeline que automatiza los procesos que hacen parte 
de un análisis RNA-Seq, a partir del estudio de dichos procesos. 
● Se desarrolló y puso en producción un software que Integra herramientas 
bioinformáticas requeridas para realizar un análisis RNA-Seq. 
● Se encontraron posibles trabajos futuros para mejorar la eficiencia de la 
plataforma y ampliar el área de trabajo en bioinformática.

More Related Content

Similar to Desarrollo e implentación de una plataforma bioinformática para el análisis RNA-Seq

Para la correcta aprendizaje BORRADOR YANA-1.pptx
Para la correcta aprendizaje BORRADOR YANA-1.pptxPara la correcta aprendizaje BORRADOR YANA-1.pptx
Para la correcta aprendizaje BORRADOR YANA-1.pptx
StevenRojasGuerrero1
 
Sistema de informacion
Sistema de informacionSistema de informacion
Sistema de informacion
Yhinmy Romero
 

Similar to Desarrollo e implentación de una plataforma bioinformática para el análisis RNA-Seq (20)

Para la correcta aprendizaje BORRADOR YANA-1.pptx
Para la correcta aprendizaje BORRADOR YANA-1.pptxPara la correcta aprendizaje BORRADOR YANA-1.pptx
Para la correcta aprendizaje BORRADOR YANA-1.pptx
 
Investigacion unidad5
Investigacion unidad5Investigacion unidad5
Investigacion unidad5
 
Evaluación del Sistema de Procesamiento de Grabdes Volúmenes de Datos Científ...
Evaluación del Sistema de Procesamiento de Grabdes Volúmenes de Datos Científ...Evaluación del Sistema de Procesamiento de Grabdes Volúmenes de Datos Científ...
Evaluación del Sistema de Procesamiento de Grabdes Volúmenes de Datos Científ...
 
Impacto del GIS Libre y los Estándares Abiertos en el Estado y la Academia - ...
Impacto del GIS Libre y los Estándares Abiertos en el Estado y la Academia - ...Impacto del GIS Libre y los Estándares Abiertos en el Estado y la Academia - ...
Impacto del GIS Libre y los Estándares Abiertos en el Estado y la Academia - ...
 
Presentacion3
Presentacion3Presentacion3
Presentacion3
 
Investigacion
InvestigacionInvestigacion
Investigacion
 
Investigacion
InvestigacionInvestigacion
Investigacion
 
Comunicacion cientifica
Comunicacion cientificaComunicacion cientifica
Comunicacion cientifica
 
Tópicos Avanzados
Tópicos AvanzadosTópicos Avanzados
Tópicos Avanzados
 
Clase 11
Clase 11Clase 11
Clase 11
 
Cali moreno-doc-final-v7
Cali moreno-doc-final-v7Cali moreno-doc-final-v7
Cali moreno-doc-final-v7
 
Sistema de informacion
Sistema de informacionSistema de informacion
Sistema de informacion
 
Investigacion unidad 5.docx
Investigacion unidad 5.docxInvestigacion unidad 5.docx
Investigacion unidad 5.docx
 
Guía análisis
Guía análisis Guía análisis
Guía análisis
 
Procesos, Daniel Victor Guebel
Procesos, Daniel Victor GuebelProcesos, Daniel Victor Guebel
Procesos, Daniel Victor Guebel
 
Prototipo De Sistema Experto Para El Mantenimiento de PCs
Prototipo De Sistema Experto Para El Mantenimiento de PCsPrototipo De Sistema Experto Para El Mantenimiento de PCs
Prototipo De Sistema Experto Para El Mantenimiento de PCs
 
Digitales ii 2012
Digitales ii 2012Digitales ii 2012
Digitales ii 2012
 
Framework en Software Libre para la implantación de aplicaciones web en el do...
Framework en Software Libre para la implantación de aplicaciones web en el do...Framework en Software Libre para la implantación de aplicaciones web en el do...
Framework en Software Libre para la implantación de aplicaciones web en el do...
 
MetodologíA Multicriterio Aplicada A La IdentificacióN De Proyectos De Agua Y...
MetodologíA Multicriterio Aplicada A La IdentificacióN De Proyectos De Agua Y...MetodologíA Multicriterio Aplicada A La IdentificacióN De Proyectos De Agua Y...
MetodologíA Multicriterio Aplicada A La IdentificacióN De Proyectos De Agua Y...
 
Desarrollo de Sistemas de Información Bioclimática
Desarrollo de Sistemas de Información BioclimáticaDesarrollo de Sistemas de Información Bioclimática
Desarrollo de Sistemas de Información Bioclimática
 

More from Cristian Alejandro Rojas Quintero (8)

Tipos de datos en R
Tipos de datos en RTipos de datos en R
Tipos de datos en R
 
Análisis de datos: R vs Python
Análisis de datos: R vs PythonAnálisis de datos: R vs Python
Análisis de datos: R vs Python
 
Lenguaje de programación Ruby
Lenguaje de programación RubyLenguaje de programación Ruby
Lenguaje de programación Ruby
 
Metasploit
MetasploitMetasploit
Metasploit
 
Tutorial freeradius + Mysql
Tutorial freeradius + MysqlTutorial freeradius + Mysql
Tutorial freeradius + Mysql
 
Nmap
NmapNmap
Nmap
 
High Performance Computing con Software libre
High Performance Computing con Software libreHigh Performance Computing con Software libre
High Performance Computing con Software libre
 
Hpc
HpcHpc
Hpc
 

Recently uploaded

Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
AnnimoUno1
 

Recently uploaded (11)

EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 

Desarrollo e implentación de una plataforma bioinformática para el análisis RNA-Seq

  • 1. DESARROLLO E IMPLEMENTACIÓN DE UNA PLATAFORMA BIOINFORMÁTICA PARA ANÁLISIS RNA-SEQ BASADA EN GALAXY Autores: Cristian Alejandro Rojas Luis Miguel Gutierrez Dirigido por: M.Sc Nelson Enrique Vera
  • 2. Agenda ❏ Introducción ❏ Formulación del problema ❏ Metodología ❏ Resultados ❏ Conclusiones ❏ Trabajos futuros
  • 5. Artículos Generados IGUN ❏ The Transcriptome of the Caribbean Reef-building Coral Diploria strigosa Reveals a Highly Complex Immune Repertoire. ❏ THE TRANSCRIPTOME OF Hydractinia symbiolongicarpus REVEALS A COMPLEX IMMUNE SYSTEM. U. Distrital ❏ Automatic BLAST for Massive Sequencing - ABMS, Proceedings of the 2nd Colombian Congress on Computational Biology and Bioinformatics (CCBCOL). ❏ MAFA: A web based software to automate functional annotation of genomes and transcriptomes. Tecnura.
  • 6. Ponencias ❏ LACCEI 2013, Cancún-México, Automatic BLAST for Massive Sequencing - ABMS ❏ CCBCOL 2013, Manizales-Colombia, Presentation and Evaluation of ABMS (Automatic Blast for Massive Sequencing) ❏ IWBBIO 2014, Granada-España, Massive Automatic Functional Annotation MAFA
  • 8. Evolución de la secuenciación Método de Sanger: Secuenciación por Dideoxinucleótidos NGS - Next Generation Sequencing: High-throughput sequencing U$2400 por 1M bases U$0.05 - U$0.15 Por 1M bases Hasta 52.5 Kbases por corrida Hasta 600 Gbases por corrida Datos tomados de: http://www.the-scientist.com/?articles.view/articleNo/15939/title/DNA-Sequencing-Industry-Sets-its-Sights-on-the-Future/
  • 9. RNA-Seq El RNA-Seq es un poderoso método de descubrimiento, perfilamiento y cuantificación de transcritos de ARN. Aplicaciones clínicas y biomédicas. Facilitar estudio de otros organismos. Datos tomados de: http://www.rna-seqblog.com/rna-seq-library-prep-introduction/
  • 10. Principales dificultades de un análisis RNA-Seq
  • 11. Principales dificultades de un análisis RNA-Seq ❏ Se requiere de computación de alto desempeño para su ejecución. ❏ Herramientas no amigables para el usuario. ❏ Formatos de entrada y salida confusos para un usuario final. ❏ El usuario debe saber e integrar etapas del proceso.
  • 12. Formulación del problema ¿Cómo diseñar y desarrollar una herramienta que integre, automatice y facilite el análisis de de datos transcriptómicos?
  • 13. Justificación Nuevas áreas de investigación Fortalece estudio de mecanismos de respuesta inmune en varios organismos.
  • 14. Objetivo general Desarrollar una plataforma bioinformática basada en Galaxy orientada al análisis de datos RNA-Seq de acuerdo a las necesidades del Grupo de Inmunología Evolutiva (GIE) del Instituto de Genética de la Universidad Nacional (IGUN), haciendo uso del Centro de Cómputo de Alto Desempeño de la Universidad Distrital (CECAD).
  • 15. Objetivos específicos ❏ Estudiar los procesos que hacen parte de un análisis RNA-Seq. ❏ Diseñar un pipeline que automatice los procesos normalmente usados en un análisis RNA-Seq. ❏ Integrar herramientas bioinformáticas requeridas para realizar un análisis RNA-Seq. ❏ Desplegar en producción la plataforma desarrollada en un servidor del CECAD para el público en general y así fortalecer la imagen de investigación de la Universidad Distrital.
  • 16. METODOLOGÍA Estudio de requerimientos Diseño de arquitectura y selección de herramientas Implementación, configuración, personalización e integración de herramientas a la plataforma Acondicionamiento de infraestructura Procesos necesarios para RNA-Seq y requerimientos de la plataforma Listado de herramientas a integrar Evaluación Documentación Equipo con herramientas instaladas Plataforma funcional Documentación técnica y de usuario Satisfacción de requerimientos y cuadro comparativo.
  • 17. Análisis de requerimientos ❏ Reuniones con los investigadores del IGUN. ❏ Se evidenciaron las siguientes necesidades principales: ❏ Soporte de todos los procesos de análisis transcriptómico. ❏ Interfaz de usuario amigable. ❏ Contar con gestión de usuarios.
  • 18. Selección de herramientas ❏ Búsqueda de herramientas bioinformáticas disponibles para cada proceso. Revisión de bibliotecas digitales (Pubmed), journals y foros dedicados a bioinformática. ❏ Selección de herramientas por su aceptación en la comunidad científica. ❏ Búsqueda de plataforma base que permitiera la solución del problema formulado.
  • 30. Módulo de expresión diferencial
  • 31. Módulo de expresión diferencial
  • 32. Módulo de estimación de abundancia
  • 33. Módulo de estimación de abundancia
  • 34. Utilidades ● Samtools ○ Organización, mezcla, indexación. ● CummeRbund ○ Acceso, exploración, graficación. ● EMBOSS: Transeq ○ Traduce secuencias a péptidos
  • 36. Trabajos futuros ● Escalabilidad horizontal ○ Sistema distribuido ● Herramientas ○ Aprendizaje de máquina
  • 37. Conclusiones ● Se logró diseñar un pipeline que automatiza los procesos que hacen parte de un análisis RNA-Seq, a partir del estudio de dichos procesos. ● Se desarrolló y puso en producción un software que Integra herramientas bioinformáticas requeridas para realizar un análisis RNA-Seq. ● Se encontraron posibles trabajos futuros para mejorar la eficiencia de la plataforma y ampliar el área de trabajo en bioinformática.