SlideShare una empresa de Scribd logo
1 de 24
APLICACIÓN DE TÉCNICAS DE
OPTIMIZACIÓN Y BIG DATA AL
PROBLEMA DE BÚSQUEDA DE
HOMOLOGÍAS EN BASES DE DATOS
BIOLÓGICAS
TRABAJO FIN DE MASTER
MASTER EN INGENIERÍA MATEMÁTICA
Gabriel Antonio Valverde Castilla
Dirigido por:
Dra. Beatriz González-Pérez
Dra. Victoria López López
CONTENIDO
2
Motivación
3
Paquetes de R
4
Bases De Datos
 NoSql
 Nuevo sistema de bases de datos más
genérico que los convencionales
buscando rendimiento, velocidad y
generalidad.
 Genómica
 Pioneros en las bases de datos abiertas
concienciados con su valor. NCBI EBI.
Genbank 28.000 millones de pares
de bases (nucleótidos),
correspondientes a más de 22
millones de secuencias
 Fasta
 Formato genérico para tratar con
datos de secuencias de nucleótidos y
aminoácidos que hemos utilizado.
5
FASTA
6
 Biostrings
 Seqirn
7
Alineamiento de Secuencias
8
Al realizar alineamiento de secuencias hemos
de tener en cuenta:
 Tipo de alineamiento
 ADN (más sensible) o traducción
 Elegir un sistema de puntuaciones
adecuado. PAM BLOSUM.
 Métodos estadísticos para explicarlo.
http://ubio.bioinfo.cnio.es/people/fabascal/Teaching/Alineamiento_secuencias/teoria.html
Algoritmo: Needleman - Wunsch
H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80
P -8 -2 -9 -17 -25 -33 -41 -49 -57 -55 -73
A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60
W -24 -26 -11 -6 -7 -15 -5 -13 -21 -29 -37
H -32 -14 18 -13 -8 -9 -13 -7 -3 -11 -19
E -40 -22 -8 -16 -16 -9 -12 -15 -5 3 -5
A -48 -80 -16 -3 -11 -11 -12 -12 -15 -5 2
E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1
tij = max(ti-1,j-1+ s(xi,yj),ti,j-1+d, ti,j-1+d)
s(xi,yj) = valor matriz de sustitución
Blosum62 en nuestro caso
t23 = max(t12+ s(xP,yE),t2,2+d, t2,3+d)
t23 = max(-8+ 1,-2-8, -16-8) = -9
H E A G AW GHE_E
_ _ A _ AW _HEAE
H E A G A W G H E _ E
_ P A _ _ W _ H E A E
Implementación
9
Problema de complejidad
Paralelizable
doParallel
CPU 8 Núcleos
RAM 16GB
Hard Disck1TB
B-trees Split + Combine
Rm rhdfs rhbase plyrr
Sandbox MV
5 instancias EMR
m3.large
CPU 2 a 3,3ghz
RAM de 7.5 GB
SSD de 32 GB
Método I: R Localmente
10
Método I: R Localmente
11
 Librerías de R utilizadas:
PAQUETE DE R DEFINICION FUNCIONES
Data.Table [14R] Paquete que mediante el uso de árboles
binarios y otras forma de optimización en el
uso de índices, ha mejorado el rendimiento de
los objetos data.frame.
Nos permite hacer operaciones típicas de las
bases de datos, como son select, where, by, y
crear nuevas columnas de forma ágil.
As.data.table: Convierte en
data.table otros objetos de r.
.SD: permite aplicar una función
a varias columnas de un
data.table.
setkey: Permite definir una
columna como clave para realizar
operaciones por grupo.
Plyr Facilita el cálculo vectorial y también consta de
distintas funciones típicas de la gestión de
bases de datos. Existe una versión para trabajar
con Hadoop.
Ddply, permite crear nuevas
variables a partir de las variables
que forman el conjunto de datos.
parallel Nos permite realizar paralelización local en el
número de nodos de forma transparente en R.
Foreach, aplica un for sobre el
conjunto definido, fragmentando
el conjunto de datos en memoria
para establecer acceso
distribuido en función de los
nodos.
MétodoII : MapReduce R + Hadoop
12
HDFS
13
 Sistema de distribución
de archivos de Hadoop.
Ventajas:
 Crecimiento
horizontal vs
problemas de
espacio.
 Replicas vs Fallos del
sistema.
 Distribución vs Tiempo
de acceso
 Paralelización vs
Tiempo de ejecución
 Inconvenientes:
 Elevada latencia con
pequeños datos
 Cambios se
introducen siempre al
final
 No se permite
escritura simultanea
sobre ficheros
HDFS
14
MapReduce
15
16
Escenario
17
Problema de complejidad
Paralelizable
doParallel
CPU 8 Núcleos
RAM 16GB
Hard Disck1TB
B-trees Split + Combine
Rm rhdfs rhbase plyrr
Sandbox MV
5 instancias EMR
m3.large
CPU 2 a 3,3ghz
RAM de 7.5 GB
SSD de 32 GB
http://www.uniprot.org/uniprot/Q6GZX4?version=*
Salida Local
18
Salida RHadoop
19
Salida RHadoop
20
MODELO 5 10 50 100 500 1000 5000 10000 50000
Parallel.Data.Table 2.23 3.331 17.478 30.312 146.370 381.348 2555.176 6736.128 31940.7
Data.Table 2.448 15.162 25.104 123.121 232.023 1133.982 23009.212
Plyr 13.43 21.046 110.6 202.194 983.3782 2612.60 20480.52
Plyr + Doparallel 3.8 6.599 21.805 37.390 166.271 420.072 2694.451 7850.012 26675.06
RHadoop 120.352 115.142 117.367 95.604 125.883 196.19 661.689 1029.46 6171.976
Comparativa
21
Comparativa
22
Conclusión
 Cuantificar el alineamiento global de toda una base de datos de
cadenas con una dada en busca de homología se ha conseguido.
 El tiempo de ejecución de este proceso ha sido reducido tanto en
el modo local como en un clúster de máquinas.
 Me he introducido en el mundo del Big Data y he desarrollado el
proyecto sobre Hadoop, he comprobando su eficacia sobre una
red de máquinas instauradas en la nube y he aprendido a
configurarlo para obtener los mejores resultados.
 Me he familiarizado con la terminología y la ciencia bioestadística.
 Trabajo Futuro
23
24
GRACIAS

Más contenido relacionado

Similar a APLICACIÓN DE TÉCNICAS DE OPTIMIZACIÓN Y BIG DATA AL PROBLEMA DE BÚSQUEDA DE HOMOLOGÍAS EN BASES DE DATOS BIOLÓGICAS

Que es la supercomputacion una explicacion orientada al mundo empresarial
Que es la supercomputacion   una explicacion orientada al mundo empresarialQue es la supercomputacion   una explicacion orientada al mundo empresarial
Que es la supercomputacion una explicacion orientada al mundo empresarialCein
 
Mantén el ReadyNAS siempre en forma
Mantén el ReadyNAS siempre en formaMantén el ReadyNAS siempre en forma
Mantén el ReadyNAS siempre en formaNETGEAR Iberia
 
Diseño eficiente de algoritmos Parallel Prefix sobre GPUs
Diseño eficiente de algoritmos Parallel Prefix sobre GPUsDiseño eficiente de algoritmos Parallel Prefix sobre GPUs
Diseño eficiente de algoritmos Parallel Prefix sobre GPUsFacultad de Informática UCM
 
Parallel Programming Plataforms
Parallel Programming PlataformsParallel Programming Plataforms
Parallel Programming PlataformsRaquel Solano
 
Monitoreo tunning postgresql_2011
Monitoreo tunning postgresql_2011Monitoreo tunning postgresql_2011
Monitoreo tunning postgresql_2011Lennin Caro
 
Practices: Deduplicación en el backup de datos- OpenExpo Day 2015
Practices: Deduplicación en el backup de datos- OpenExpo Day 2015Practices: Deduplicación en el backup de datos- OpenExpo Day 2015
Practices: Deduplicación en el backup de datos- OpenExpo Day 2015OpenExpoES
 
Introducción a los Lenguajes de Programación para Procesamiento de Altas Pres...
Introducción a los Lenguajes de Programación para Procesamiento de Altas Pres...Introducción a los Lenguajes de Programación para Procesamiento de Altas Pres...
Introducción a los Lenguajes de Programación para Procesamiento de Altas Pres...Diego Fernando Marin
 
Afinamiento de la_base_de_datos
Afinamiento de la_base_de_datosAfinamiento de la_base_de_datos
Afinamiento de la_base_de_datosUTN
 
High Availability, Load Balancing and Replication on Linux
High Availability, Load Balancing and Replication on LinuxHigh Availability, Load Balancing and Replication on Linux
High Availability, Load Balancing and Replication on LinuxOlaf Reitmaier Veracierta
 
⭐⭐⭐⭐⭐ SOLUCIÓN EVALUACIÓN SISTEMAS EMBEBIDOS, 2do Parcial (2020 PAO 2)
⭐⭐⭐⭐⭐ SOLUCIÓN EVALUACIÓN SISTEMAS EMBEBIDOS, 2do Parcial (2020 PAO 2)⭐⭐⭐⭐⭐ SOLUCIÓN EVALUACIÓN SISTEMAS EMBEBIDOS, 2do Parcial (2020 PAO 2)
⭐⭐⭐⭐⭐ SOLUCIÓN EVALUACIÓN SISTEMAS EMBEBIDOS, 2do Parcial (2020 PAO 2)Victor Asanza
 
Pablo Doval | Plain Concepts | Open Data
Pablo Doval | Plain Concepts | Open DataPablo Doval | Plain Concepts | Open Data
Pablo Doval | Plain Concepts | Open DataSmash Tech
 
Parallel Programming Plataforms
Parallel Programming PlataformsParallel Programming Plataforms
Parallel Programming PlataformsVeronica Ramirez
 
Programacion en ambientes heterogeneos
Programacion en ambientes heterogeneosProgramacion en ambientes heterogeneos
Programacion en ambientes heterogeneositatitat
 
Bases De Datos Paralelas
Bases De Datos ParalelasBases De Datos Paralelas
Bases De Datos Paralelaspineda2
 

Similar a APLICACIÓN DE TÉCNICAS DE OPTIMIZACIÓN Y BIG DATA AL PROBLEMA DE BÚSQUEDA DE HOMOLOGÍAS EN BASES DE DATOS BIOLÓGICAS (20)

Que es la supercomputacion una explicacion orientada al mundo empresarial
Que es la supercomputacion   una explicacion orientada al mundo empresarialQue es la supercomputacion   una explicacion orientada al mundo empresarial
Que es la supercomputacion una explicacion orientada al mundo empresarial
 
PostgreSQL BDR - Altenwald.pdf
PostgreSQL BDR - Altenwald.pdfPostgreSQL BDR - Altenwald.pdf
PostgreSQL BDR - Altenwald.pdf
 
Mantén el ReadyNAS siempre en forma
Mantén el ReadyNAS siempre en formaMantén el ReadyNAS siempre en forma
Mantén el ReadyNAS siempre en forma
 
Diseño eficiente de algoritmos Parallel Prefix sobre GPUs
Diseño eficiente de algoritmos Parallel Prefix sobre GPUsDiseño eficiente de algoritmos Parallel Prefix sobre GPUs
Diseño eficiente de algoritmos Parallel Prefix sobre GPUs
 
Parallel Programming Plataforms
Parallel Programming PlataformsParallel Programming Plataforms
Parallel Programming Plataforms
 
Monitoreo tunning postgresql_2011
Monitoreo tunning postgresql_2011Monitoreo tunning postgresql_2011
Monitoreo tunning postgresql_2011
 
Practices: Deduplicación en el backup de datos- OpenExpo Day 2015
Practices: Deduplicación en el backup de datos- OpenExpo Day 2015Practices: Deduplicación en el backup de datos- OpenExpo Day 2015
Practices: Deduplicación en el backup de datos- OpenExpo Day 2015
 
Introducción a los Lenguajes de Programación para Procesamiento de Altas Pres...
Introducción a los Lenguajes de Programación para Procesamiento de Altas Pres...Introducción a los Lenguajes de Programación para Procesamiento de Altas Pres...
Introducción a los Lenguajes de Programación para Procesamiento de Altas Pres...
 
TS-h3088XU-RP QNAP
TS-h3088XU-RP QNAPTS-h3088XU-RP QNAP
TS-h3088XU-RP QNAP
 
Afinamiento de la_base_de_datos
Afinamiento de la_base_de_datosAfinamiento de la_base_de_datos
Afinamiento de la_base_de_datos
 
High Availability, Load Balancing and Replication on Linux
High Availability, Load Balancing and Replication on LinuxHigh Availability, Load Balancing and Replication on Linux
High Availability, Load Balancing and Replication on Linux
 
Sistemas operativos y Ley de Amdahl
Sistemas operativos y Ley de AmdahlSistemas operativos y Ley de Amdahl
Sistemas operativos y Ley de Amdahl
 
Raids
RaidsRaids
Raids
 
⭐⭐⭐⭐⭐ SOLUCIÓN EVALUACIÓN SISTEMAS EMBEBIDOS, 2do Parcial (2020 PAO 2)
⭐⭐⭐⭐⭐ SOLUCIÓN EVALUACIÓN SISTEMAS EMBEBIDOS, 2do Parcial (2020 PAO 2)⭐⭐⭐⭐⭐ SOLUCIÓN EVALUACIÓN SISTEMAS EMBEBIDOS, 2do Parcial (2020 PAO 2)
⭐⭐⭐⭐⭐ SOLUCIÓN EVALUACIÓN SISTEMAS EMBEBIDOS, 2do Parcial (2020 PAO 2)
 
Complejidad de Algoritmos
Complejidad de AlgoritmosComplejidad de Algoritmos
Complejidad de Algoritmos
 
Pablo Doval | Plain Concepts | Open Data
Pablo Doval | Plain Concepts | Open DataPablo Doval | Plain Concepts | Open Data
Pablo Doval | Plain Concepts | Open Data
 
Parallel Programming Plataforms
Parallel Programming PlataformsParallel Programming Plataforms
Parallel Programming Plataforms
 
Parallel Programming
Parallel ProgrammingParallel Programming
Parallel Programming
 
Programacion en ambientes heterogeneos
Programacion en ambientes heterogeneosProgramacion en ambientes heterogeneos
Programacion en ambientes heterogeneos
 
Bases De Datos Paralelas
Bases De Datos ParalelasBases De Datos Paralelas
Bases De Datos Paralelas
 

Más de Victoria López

Alan turing uva-presentationdec-2019
Alan turing uva-presentationdec-2019Alan turing uva-presentationdec-2019
Alan turing uva-presentationdec-2019Victoria López
 
Seminar UvA 2018- socialbigdata
Seminar UvA  2018- socialbigdataSeminar UvA  2018- socialbigdata
Seminar UvA 2018- socialbigdataVictoria López
 
BIG DATA EN CIENCIAS DE LA SALUD Y CIENCIAS SOCIALES
BIG DATA EN CIENCIAS DE LA SALUD Y CIENCIAS SOCIALESBIG DATA EN CIENCIAS DE LA SALUD Y CIENCIAS SOCIALES
BIG DATA EN CIENCIAS DE LA SALUD Y CIENCIAS SOCIALESVictoria López
 
ICCES'2016 BIG DATA IN HEALTHCARE AND SOCIAL SCIENCES
ICCES'2016  BIG DATA IN HEALTHCARE AND SOCIAL SCIENCESICCES'2016  BIG DATA IN HEALTHCARE AND SOCIAL SCIENCES
ICCES'2016 BIG DATA IN HEALTHCARE AND SOCIAL SCIENCESVictoria López
 
Presentación Gupo G-TeC en Social Big Data
Presentación Gupo G-TeC en Social Big DataPresentación Gupo G-TeC en Social Big Data
Presentación Gupo G-TeC en Social Big DataVictoria López
 
Big data systems and analytics
Big data systems and analyticsBig data systems and analytics
Big data systems and analyticsVictoria López
 
Big Data. Complejidad,algoritmos y su procesamiento
Big Data. Complejidad,algoritmos y su procesamientoBig Data. Complejidad,algoritmos y su procesamiento
Big Data. Complejidad,algoritmos y su procesamientoVictoria López
 
G te c sesion1a-bioinformatica y big data
G te c sesion1a-bioinformatica y big dataG te c sesion1a-bioinformatica y big data
G te c sesion1a-bioinformatica y big dataVictoria López
 
G te c sesion1b-casos de uso
G te c sesion1b-casos de usoG te c sesion1b-casos de uso
G te c sesion1b-casos de usoVictoria López
 
G te c sesion2a-data collection
G te c sesion2a-data collectionG te c sesion2a-data collection
G te c sesion2a-data collectionVictoria López
 
G tec sesion2b-host-cloud y cloudcomputing
G tec sesion2b-host-cloud y cloudcomputingG tec sesion2b-host-cloud y cloudcomputing
G tec sesion2b-host-cloud y cloudcomputingVictoria López
 
G te c sesion3a-bases de datos modernas
G te c sesion3a-bases de datos modernasG te c sesion3a-bases de datos modernas
G te c sesion3a-bases de datos modernasVictoria López
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduceVictoria López
 
G te c sesion4a-bigdatasystemsanalytics
G te c sesion4a-bigdatasystemsanalyticsG te c sesion4a-bigdatasystemsanalytics
G te c sesion4a-bigdatasystemsanalyticsVictoria López
 
G te c sesion4b-complejidad y tpa
G te c sesion4b-complejidad y tpaG te c sesion4b-complejidad y tpa
G te c sesion4b-complejidad y tpaVictoria López
 
Open Data para Smartcity-Facultad de Estudios Estadísticos
Open Data para Smartcity-Facultad de Estudios EstadísticosOpen Data para Smartcity-Facultad de Estudios Estadísticos
Open Data para Smartcity-Facultad de Estudios EstadísticosVictoria López
 
Deep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel ValverdeDeep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel ValverdeVictoria López
 
Fortune Time Institute: Big Data - Challenges for Smartcity
Fortune Time Institute: Big Data - Challenges for SmartcityFortune Time Institute: Big Data - Challenges for Smartcity
Fortune Time Institute: Big Data - Challenges for SmartcityVictoria López
 
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a  Deep Learning by Gabriel Valverde CastillaCurso Big Data. Introducción a  Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde CastillaVictoria López
 

Más de Victoria López (20)

Alan turing uva-presentationdec-2019
Alan turing uva-presentationdec-2019Alan turing uva-presentationdec-2019
Alan turing uva-presentationdec-2019
 
Seminar UvA 2018- socialbigdata
Seminar UvA  2018- socialbigdataSeminar UvA  2018- socialbigdata
Seminar UvA 2018- socialbigdata
 
Jornada leiden short
Jornada leiden shortJornada leiden short
Jornada leiden short
 
BIG DATA EN CIENCIAS DE LA SALUD Y CIENCIAS SOCIALES
BIG DATA EN CIENCIAS DE LA SALUD Y CIENCIAS SOCIALESBIG DATA EN CIENCIAS DE LA SALUD Y CIENCIAS SOCIALES
BIG DATA EN CIENCIAS DE LA SALUD Y CIENCIAS SOCIALES
 
ICCES'2016 BIG DATA IN HEALTHCARE AND SOCIAL SCIENCES
ICCES'2016  BIG DATA IN HEALTHCARE AND SOCIAL SCIENCESICCES'2016  BIG DATA IN HEALTHCARE AND SOCIAL SCIENCES
ICCES'2016 BIG DATA IN HEALTHCARE AND SOCIAL SCIENCES
 
Presentación Gupo G-TeC en Social Big Data
Presentación Gupo G-TeC en Social Big DataPresentación Gupo G-TeC en Social Big Data
Presentación Gupo G-TeC en Social Big Data
 
Big data systems and analytics
Big data systems and analyticsBig data systems and analytics
Big data systems and analytics
 
Big Data. Complejidad,algoritmos y su procesamiento
Big Data. Complejidad,algoritmos y su procesamientoBig Data. Complejidad,algoritmos y su procesamiento
Big Data. Complejidad,algoritmos y su procesamiento
 
G te c sesion1a-bioinformatica y big data
G te c sesion1a-bioinformatica y big dataG te c sesion1a-bioinformatica y big data
G te c sesion1a-bioinformatica y big data
 
G te c sesion1b-casos de uso
G te c sesion1b-casos de usoG te c sesion1b-casos de uso
G te c sesion1b-casos de uso
 
G te c sesion2a-data collection
G te c sesion2a-data collectionG te c sesion2a-data collection
G te c sesion2a-data collection
 
G tec sesion2b-host-cloud y cloudcomputing
G tec sesion2b-host-cloud y cloudcomputingG tec sesion2b-host-cloud y cloudcomputing
G tec sesion2b-host-cloud y cloudcomputing
 
G te c sesion3a-bases de datos modernas
G te c sesion3a-bases de datos modernasG te c sesion3a-bases de datos modernas
G te c sesion3a-bases de datos modernas
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduce
 
G te c sesion4a-bigdatasystemsanalytics
G te c sesion4a-bigdatasystemsanalyticsG te c sesion4a-bigdatasystemsanalytics
G te c sesion4a-bigdatasystemsanalytics
 
G te c sesion4b-complejidad y tpa
G te c sesion4b-complejidad y tpaG te c sesion4b-complejidad y tpa
G te c sesion4b-complejidad y tpa
 
Open Data para Smartcity-Facultad de Estudios Estadísticos
Open Data para Smartcity-Facultad de Estudios EstadísticosOpen Data para Smartcity-Facultad de Estudios Estadísticos
Open Data para Smartcity-Facultad de Estudios Estadísticos
 
Deep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel ValverdeDeep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel Valverde
 
Fortune Time Institute: Big Data - Challenges for Smartcity
Fortune Time Institute: Big Data - Challenges for SmartcityFortune Time Institute: Big Data - Challenges for Smartcity
Fortune Time Institute: Big Data - Challenges for Smartcity
 
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a  Deep Learning by Gabriel Valverde CastillaCurso Big Data. Introducción a  Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla
 

Último

El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 

Último (20)

El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 

APLICACIÓN DE TÉCNICAS DE OPTIMIZACIÓN Y BIG DATA AL PROBLEMA DE BÚSQUEDA DE HOMOLOGÍAS EN BASES DE DATOS BIOLÓGICAS

  • 1. APLICACIÓN DE TÉCNICAS DE OPTIMIZACIÓN Y BIG DATA AL PROBLEMA DE BÚSQUEDA DE HOMOLOGÍAS EN BASES DE DATOS BIOLÓGICAS TRABAJO FIN DE MASTER MASTER EN INGENIERÍA MATEMÁTICA Gabriel Antonio Valverde Castilla Dirigido por: Dra. Beatriz González-Pérez Dra. Victoria López López
  • 5. Bases De Datos  NoSql  Nuevo sistema de bases de datos más genérico que los convencionales buscando rendimiento, velocidad y generalidad.  Genómica  Pioneros en las bases de datos abiertas concienciados con su valor. NCBI EBI. Genbank 28.000 millones de pares de bases (nucleótidos), correspondientes a más de 22 millones de secuencias  Fasta  Formato genérico para tratar con datos de secuencias de nucleótidos y aminoácidos que hemos utilizado. 5
  • 8. 8 Al realizar alineamiento de secuencias hemos de tener en cuenta:  Tipo de alineamiento  ADN (más sensible) o traducción  Elegir un sistema de puntuaciones adecuado. PAM BLOSUM.  Métodos estadísticos para explicarlo. http://ubio.bioinfo.cnio.es/people/fabascal/Teaching/Alineamiento_secuencias/teoria.html Algoritmo: Needleman - Wunsch H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -41 -49 -57 -55 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -26 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -5 3 -5 A -48 -80 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1 tij = max(ti-1,j-1+ s(xi,yj),ti,j-1+d, ti,j-1+d) s(xi,yj) = valor matriz de sustitución Blosum62 en nuestro caso t23 = max(t12+ s(xP,yE),t2,2+d, t2,3+d) t23 = max(-8+ 1,-2-8, -16-8) = -9 H E A G AW GHE_E _ _ A _ AW _HEAE H E A G A W G H E _ E _ P A _ _ W _ H E A E
  • 9. Implementación 9 Problema de complejidad Paralelizable doParallel CPU 8 Núcleos RAM 16GB Hard Disck1TB B-trees Split + Combine Rm rhdfs rhbase plyrr Sandbox MV 5 instancias EMR m3.large CPU 2 a 3,3ghz RAM de 7.5 GB SSD de 32 GB
  • 10. Método I: R Localmente 10
  • 11. Método I: R Localmente 11  Librerías de R utilizadas: PAQUETE DE R DEFINICION FUNCIONES Data.Table [14R] Paquete que mediante el uso de árboles binarios y otras forma de optimización en el uso de índices, ha mejorado el rendimiento de los objetos data.frame. Nos permite hacer operaciones típicas de las bases de datos, como son select, where, by, y crear nuevas columnas de forma ágil. As.data.table: Convierte en data.table otros objetos de r. .SD: permite aplicar una función a varias columnas de un data.table. setkey: Permite definir una columna como clave para realizar operaciones por grupo. Plyr Facilita el cálculo vectorial y también consta de distintas funciones típicas de la gestión de bases de datos. Existe una versión para trabajar con Hadoop. Ddply, permite crear nuevas variables a partir de las variables que forman el conjunto de datos. parallel Nos permite realizar paralelización local en el número de nodos de forma transparente en R. Foreach, aplica un for sobre el conjunto definido, fragmentando el conjunto de datos en memoria para establecer acceso distribuido en función de los nodos.
  • 12. MétodoII : MapReduce R + Hadoop 12
  • 13. HDFS 13  Sistema de distribución de archivos de Hadoop. Ventajas:  Crecimiento horizontal vs problemas de espacio.  Replicas vs Fallos del sistema.  Distribución vs Tiempo de acceso  Paralelización vs Tiempo de ejecución  Inconvenientes:  Elevada latencia con pequeños datos  Cambios se introducen siempre al final  No se permite escritura simultanea sobre ficheros
  • 16. 16
  • 17. Escenario 17 Problema de complejidad Paralelizable doParallel CPU 8 Núcleos RAM 16GB Hard Disck1TB B-trees Split + Combine Rm rhdfs rhbase plyrr Sandbox MV 5 instancias EMR m3.large CPU 2 a 3,3ghz RAM de 7.5 GB SSD de 32 GB http://www.uniprot.org/uniprot/Q6GZX4?version=*
  • 21. MODELO 5 10 50 100 500 1000 5000 10000 50000 Parallel.Data.Table 2.23 3.331 17.478 30.312 146.370 381.348 2555.176 6736.128 31940.7 Data.Table 2.448 15.162 25.104 123.121 232.023 1133.982 23009.212 Plyr 13.43 21.046 110.6 202.194 983.3782 2612.60 20480.52 Plyr + Doparallel 3.8 6.599 21.805 37.390 166.271 420.072 2694.451 7850.012 26675.06 RHadoop 120.352 115.142 117.367 95.604 125.883 196.19 661.689 1029.46 6171.976 Comparativa 21
  • 23. Conclusión  Cuantificar el alineamiento global de toda una base de datos de cadenas con una dada en busca de homología se ha conseguido.  El tiempo de ejecución de este proceso ha sido reducido tanto en el modo local como en un clúster de máquinas.  Me he introducido en el mundo del Big Data y he desarrollado el proyecto sobre Hadoop, he comprobando su eficacia sobre una red de máquinas instauradas en la nube y he aprendido a configurarlo para obtener los mejores resultados.  Me he familiarizado con la terminología y la ciencia bioestadística.  Trabajo Futuro 23