Victoria López, vlopezlo@ucm.es,
1
Despacho 309 Facultad de Informática
1.
2.
3.
4.
5.
6.
7.

Introducción a la Bioinformática
Estructura de proteínas y ácidos nucleicos
Análisis de Secuencias
B...
– Compilador de R : http://cran.r-project.org/
– Libros: http://www.r-project.org/
• Manuals  contributed documentation:
...
• Exposiciones teóricas basadas en la bibliografía y en
artículos. Sesiones prácticas con R.
• Presentación de los trabajo...
07/03/2014

Introducción a la Bioinformática

5
We are drowning in information and starved for
knowledge
John Naisbitt
Who on efficient work is bent,
Must choose the fitt...
•
•
•
•
•
•
•

07/03/2014

Introducción: La explosión de información
Sobre información biológica
Pero,… qué es la bioinfor...
• El fin del siglo XX ha visto una explosión de información
provinente de los seres vivos, especialmente en biología
molec...
El crecimiento explosivo de datos
Hace ...
Nucleótidos

26 años (1982)

Antes
680338 pb
(GenBank)

Ahora
> Miles de
millon...
(1982-2000)

07/03/2014

Introducción a la Bioinformática

10
07/03/2014

Introducción a la Bioinformática

11
• La información biológica se encuentra
– codificada en los genes y
– se expresa a partir / mediante los genes
• Esta idea...
07/03/2014

Introducción a la Bioinformática

13
• La biología se enfrenta con el problema de la
decodificación del lenguaje biológico
– Como se codifica la información en...
07/03/2014

Introducción a la Bioinformática

15
• Los ácidos nucleicos (AN) contienen la
información para generar los organismos:
DNA  RNA  PROTEINAS  Función

• Las p...
07/03/2014

Introducción a la Bioinformática

17
• Las secuencias biológicas se organizan en
grupos con un significado, en general
desconocido para nosotros
• Podemos dist...
• Las secuencias, establecidas
experimentalmente se representan como
cadenas de un alfabeto y se comparan
– Regiones comun...
• Nace a partir del
– desarrollo de nuevas tecnologías y de
– su aplicación para la generación de grandes
cantidades de da...
Chemistry
Biology
Molecular
biology

Mathematics
Statistics

Bioinformatics
Computer
Science
Informatics

Medicine

Physic...
07/03/2014

Introducción a la Bioinformática

22
• Computational biology applies the techniques of
computer science, applied mathematics and statistics to
address biologic...
The future of genomics rests on the foundation of the Human Genome Project

07/03/2014

Introducción a la Bioinformática

...
07/03/2014

Introducción a la Bioinformática

25
• Organización de la información
– Bases y bancos de datos
– Algoritmos y herramientas de explotación
• Análisis e interpr...
07/03/2014

Introducción a la Bioinformática

27
AGAGTTCTGCTC G
AG G GTTATG C G C G

07/03/2014

Introducción a la Bioinformática

28
07/03/2014

Introducción a la Bioinformática

29
07/03/2014

Introducción a la Bioinformática

30

30
Datos

Recursos y
herramientas
bioinformáticos

Conocimiento

• Como quiera que se defina, desde donde quiera que se mire,...
• Debe tener “sólidos conocimientos” en
– Alguna disciplina biológica
• Bioquímica, Genética,…
– Entornos de desarrollo in...
• Gestión de la información
– Implementación y explotación de bases de dados
locales o en internet.
– Instalación, manteni...
• Centros Especializados
– EBI, NCBI, EMBL.
– INB / Plataforma Bioinformatica de la UAB.
• Servicios Bioinformáticos de ce...
• Usualmente, aunque no necesariamente la BIF tiene
vocación “universal”, de acceder al máximo de usuarios:
– Suele buscar...
• Existen multitud de recursos gratuitos
– 2can en el EBI
– Tutoriales del NCBI
– Cursos “locales”
• Introducción a la Bio...
07/03/2014

Introducción a la Bioinformática

37
• Buena parte del trabajo en bioinformática consiste en la
construcción y/o explotación de bases de datos de
información b...
• La WWW ha revolucionado la provisión de servicios en
bioinformática
• Muchas cosas pueden hacerse a través de internet s...
• Centros importantes a nivel mundial
– EMBL / EBI (www.embl.org / www.ebi.ac.uk )
– NCBI ( www.ncbi.nlm.nih.gov )
– DDBJ ...
07/03/2014

Introducción a la Bioinformática

41
1.

2.

3.

Clasificación de un hongo, comparando una secuencia
suya con las de una base de datos para determinar si
las h...
• Unos investigadores han detectado una
infección fúngica en un cultivo agrario.
• En caso de duda en la identificación di...
• Obtenemos la secuencia siguiente
• gtttacgctctacaaccctttgtgaacatacctacaactgtt
gcttcggcgggtagggtctccgcgaccctcccggcctcccgc...
1. Vía internet accedemos al EBI: European
Bioinformatics Institute
2. Aquí escogemos la opción “Tools” y
1. Seleccionamos...
07/03/2014

Introducción a la Bioinformática

46
07/03/2014

Introducción a la Bioinformática

47
07/03/2014

Introducción a la Bioinformática

48
07/03/2014

Introducción a la Bioinformática

49
07/03/2014

Introducción a la Bioinformática

50
•
•
•
•

FASTA searches a protein or DNA sequence data bank
version 3.3t09 May 18, 2001
Please cite:
W.R. Pearson & D.J. L...
• RASMOL es un programa para visualizar
estructuras moleculares en tres dimensiones
• Haciendo click aquí podéis acceder a...
• Haciendo click aquí se accede al Bioinformatics
Web Practical del servicio de Bioinformática de
la Universidad de Manche...
07/03/2014

Introducción a la Bioinformática

54
Traducción de la secuencia y búsqueda en OWL

07/03/2014

Introducción a la Bioinformática

55
La secuencia ha sido identificada

07/03/2014

Introducción a la Bioinformática

56
• En organismos vivos (in vivo)
• En entornos o ambientes artificiales (in vitro)

• Mediante chips de silicona con los qu...
2. Estructura de proteínas y
ácidos nucleicos

58
• Proteínas presentes en la alimentación
• Compuestas por aminoácidos (aa)
– Moléculas orgánicas complejas hechas de carbo...
60
61
• Los aminoácidos tienen tres representaciones
diferentes:
– Mediante su nombre (Glutamina, Tirosina, …)
– Mediante un cód...
• Propiedades básicas de las proteínas:
– Un tipo de proteína contiene siempre exactamente el
mismo número de aminoácidos ...
• Nacimiento 13 de agosto de 1918
• Conocido por:
• Su trabajo sobre la bioquímica de los ácidos nucleicos.
• Su trabajo s...
• Años 60: ordenadores poco potentes, no se pueden
ejecutar búsquedas ni realizar reconocimiento de
secuencias con agilida...
Las 20 moléculas de aminoácidos en las proteínas tienen cuerpos diferentes. La
raíz o nivel superior es el código de un am...
Los enlaces peptídicos o enlaces entre dos aminoácidos (enlace amina) son reacciones
químicas entre el grupo amino (NH2) d...
Estructuras 3D
• Una molécula de proteína es una cadena de
eslabones no flexibles, la estructura es rígida,
compacta y bie...
Estructuras 3D
• La función de la proteína es una consecuencia
directa de su estructura 3D, es decir, de su
forma o shape....
John Cowdery Kendrew
• Oxford, Inglaterra 1917 - Cambridge 1997
• Químico inglés galardonado con el Premio Nobel de Químic...
Max Ferdinand Perutz
• Viena, 19 de mayo de 1914 - Cambridge, 6 de febrero de
2002
• Fue un químico británico, de origen a...
Definición de proteína
• Las proteínas son compuestos químicos
formados por la combinación de veinte pequeñas
moléculas de...
Bioinformática de la Proteína
• Recuperación de secuencias de proteínas desde bases
de datos en Internet.
• Cálculo de la ...
Análisis de las secuencias de ADN
El ADN es otro tipo de macromolécula (ácido
dexioribonucleico) parecida a la proteína.
S...
Tabla de la codificación de los nucleótidos
Estructura del ADN
• Hasta los años 70 no pudo determinarse la secuencia de
moléculas del ADN ni su alfabeto de 4 nucleóti...
AND: Doble Hélice
• Una secuencia de ADN siempre se define como la
sucesión de sus nucleótidos desde el 5‟ hasta el 3‟.
• ...
AND: Doble Hélice

•La mayoría de los programas de Data Mining, como por
ejemplo BLAST, tienen en cuenta las dos cadenas p...
Propiedad de encadenamiento
• Esta propiedad de la estructura del ADN es la piedra
angular para determinar la estructura y...
Relación Proteína, DNA, RNA
Secuencias palíndromas en el ADN

• ATGCTGA…. Y ….TCAGCAT corresponden a cadenas
enfrentadas.
• Otra propiedad fascinante ...
Secuencias palíndromas en el ADN
• Las secuencias palíndromas juegan un papel muy
importante porque por ejemplo, la mayorí...
Subsecuencias Palíndromas
• Un ejercicio clásico en bioinformática es la búsqueda de
subsecuencias palíndromas o casi palí...
El RNA
• El ADN o ácido dexioribonucléico es el nucléico más
conocido y dignificado de la familia de macromoléculas.
• Su ...
El RNA
Diferencias entre el DNA y el RNA
• Difieren en un único nucleótido: el uracil (U) en el RNA
sustituye a la timina (T) en ...
La estructura del RNA
• Aunque la molécula de RNA consta de una única
cadena de nucleótidos su tendencia natural es la
bús...
La estructura del RNA
• Una vez sintetizada cada molécula de RNA adopta un plegado
compacto rápidamente tratando de empare...
Codificación del DNA

• De los cientos de miles de secuencias de proteínas que
actualmente contienen las Bases de Datos só...
Transformación de ADN en proteínas.
• Cuando se conoce una secuencia de DNA, ésta se puede
traducir en la correspondiente ...
El Código Genético
El Código Genético
• Cómo usar la tabla de los códigos de la genética
estándar :
Paso 1. Leer la secuencia de ADN.
Paso 2....
Ventajas de la codificación
• Si la secuencia de ADN está correctamente orientada de 5‟
a 3‟ el resultado de la secuencia ...
Más observaciones relativas a la
codificación de secuencias de DNA.
• La proteína resultante de los procesos de secuenciac...
Más observaciones relativas a la
codificación de secuencias de DNA.
• Un intervalo de una secuencia de ADN que contenga un...
¿Qué estudia la bioinformática del DNA y
del RNA?
• Recuperación de secuencias de ADN de las bases de
datos
• Computación ...
Trabajando con el genoma completo

• En 1977 se descubrió la primera técnica verdaderamente
eficiente para la secuenciació...
La genómica

• La genómica es el estudio del mapa genético y se basa
en el análisis completo de la secuencia del genoma
me...
La genómica

• En contraste con los análisis gen a gen que se realizaban en los
inicios de la bioinformática, ahora las se...
La genómica: Ejemplo.
La figura representa el genoma
completo de la bacteria Rickettsia
conorii. Esta molécula de DNA circ...
RESUMEN: La información biológica
• Los ácidos nucleicos (AN) contienen la información
para generar los organismos:
DNA  ...
2-Alineamiento de secuencias

07/03/2014

Introducción a la Bioinformática

102
1. Conceptos básicos
2. Métodos gráficos de alineamiento
3. Puntuación de los alineamientos
4. Programación dinámica
5. Mé...
• El alineamiento de secuencias es probablemente la
herramienta más utilizada en bioinformática
• Su objetivo es alinear d...
• Mediante un alineamiento global entre genomas se
puede
– identificar repeticiones internas (S1 vs S1) o
– encontrar secu...
• Existen muchos programas disponibles en WWW para
alinear secuencias y buscarlas en las BD
• Si se pretende que el result...
• Alineamiento de dos secuencias
– Métodos gráficos: Dotplot. Es intuitivo, pero difícil de cuantificar
– Algoritmos óptim...
• Es el procedimiento consistente en comparar dos
(“pairwise”) o más (“multiple”) secuencias buscando los
caracteres o pat...
2 Secuencias no alineadas
L G P S S K
L N I
T K S
Alineamiento global
L G P S
│
L N ▬ I

T

S

A

Alineamiento local
▬ ▬ ▬...
I
I
I

M
M
N
I
I
I

07/03/2014

A
P
F

G
R
A

M ▬ ▬
M P R
N F ▬

I
A
L
A
A
A

N
C
I
G
C
L

A
T
B
▬
T
▬

B
I
L
I
I
I

L
C
E...
07/03/2014

Introducción a la Bioinformática

111
• Se obtienen disponiendo dos secuencias S y T en los
márgenes horizontal y vertical de una tabla
• y marcando con una cru...
• Para facilitar la visualización, se opta a menudo por
mostrar únicamente las diagonales formadas por un
número mínimo de...
07/03/2014

Introducción a la Bioinformática

114
07/03/2014

Introducción a la Bioinformática

115
07/03/2014

Introducción a la Bioinformática

116
07/03/2014

Introducción a la Bioinformática

117
• Para cuantificar la similitud entre dos cadenas, S y T,
definimos sistemas de puntuaciones de forma que
para cada alinea...
• Una vez establecido un sistema de puntuación la
puntuación de una pareja de caracteres s,t alineados se
define como p(s,...
S=
T=
p(s,t)

T
T
1

G
A
0

C
A
0

A
G
0

G
T
0

T

S=
T=
p(s,t)

A
A
1

T
T
1

G
A
0

C
A
0

A
▬
-1

G
G
1

T
T
1

3

S=
...
Puntuación con esquema simple
S=
T=
p(s,t)

S=
T=
p(s,t)

07/03/2014

T
-1

T
T
1

Y
G
0

G
Y
0

A
A
1

P
P
1

P
P
1

W
P
...
• Los dos alineamientos del ejemplo anterior puntúan
igual. Sin embargo
– a) conserva residuos comunes (T,A, P, S)
– b) co...
• Una forma usual de definir el sistema de puntuación es
utilizando una matriz de sustitución
• Es una tabla que contiene ...
Secuencia 1

actaccagttcatttgatacttctcaaa

Secuencia 2

Matriz identidad
P(i,i)=1,
P (i,j)=0
o alguna variante
P(i,i)=0.9,...
• Los AA tienen distintas propiedades  posibilidades
distintas de ser sustituidos unos por otros en la
tiny
evolucion
ali...
• Las matrices de puntuación se construyen para que
reflejen:
– El nº de mutaciones necesario para convertir una secuencia...
• No hay una matriz única que se pueda usar siempre.
• Pero se pueden escoger según la familia de proteínas y
grado de sim...
• Ciertas sustituciones de AA son muy comunes en
proteínas homólogas. Otras no lo son en absoluto.
• Esto puede interpreta...
• En la construcción de matrices de sustitución se
utilizaron dos tipos de modelos probabilísticos para las
sustituciones....
•

•
•

•

La probabilidad de las substituciones bajo el
modelo de homología se estima a partir de
alineamientos entre sec...
• Las matrices de sustitución contienen para cada sustitución el
logaritmo de la razón entre la probabilidad de la sustitu...
• Derivadas de alineamientos globales de familias de proteínas.
• Dayhoff et al., 1978 escogieron familias de proteínas cu...
PAM 250

A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
W
Y
V
B
Z
07/03/2014

A
2
-2
0
0
-2
0
0
1
-1
-1
-2
-1
-1
-3
1
1
1
-6
-3
0
2
1...
BLOSUM (Blocks Substitution Matrix)

• Derived from alignments of domains of distantly related
proteins (Henikoff & Heniko...
BLOSUM (Blocks Substitution Matrix)

• Sequences within blocks are clustered according to their level of identity.
• Clust...
TIPS on choosing a scoring matrix

• Generally, BLOSUM matrices perform better than PAM matrices
for local similarity sear...
• En un sistema de puntuación es importante definir el
coste de insertar o eliminar un residuo, lo que en el
alineamiento ...
Coste de
apertura
de gap

Coste de
extensión
del gap

Grande

Grande

Pocas inserciones o eliminaciones
Bueno para proteín...
07/03/2014

Introducción a la Bioinformática

139
• Un algoritmo para obtener el alineamiento óptimo es:
– Construir todos los posibles alineamientos
– Calcular la puntuaci...
• La idea básica de la programación dinámica es
una técnica de diseño de algoritmos consistente
en
– Considerar, en primer...
• Los dos más conocidos son
– Needleman y Wunsch (1970) para alineamientos globales
– Smith y Waterman (1981), una variant...
143
• Problema del ascensor (variante del famoso problema de
la mochila)
• Función objetivo 1: Maximizar el número de personas...
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
Alineamiento de Secuencias
Se denomina alineamiento de secuencias en bioinformática al proceso
de representar y comparar d...
Alineamiento de Secuencias

167
Alineamiento de Secuencias
• En secuencias de proteínas el grado de similitud entre los
aminoácidos en posiciones concreta...
Alineamiento de Secuencias
Representación de alineamientos
Se representan normalmente con un formato gráfico y de texto.
E...
Alineamiento de Secuencias

Las columnas alineadas contienen caracteres idénticos o similares.
Muchos programas de visuali...
Tipos de alineamiento
Hay tres tipos fundamentales: global, local e híbrido.
• Los alineamientos globales intentan alinear...
Alineamientos globales:
Algoritmo de Needleman-Wunsch
El algoritmo Needleman-Wunsch realiza un alineamiento global de dos
...
Alineamientos globales:
Algoritmo de Needleman-Wunsch
La puntuación para caracteres alineados está especificada por
una ma...
Con una penalidad por hueco de -5, tendríamos la siguiente puntuación:

Alineamientos globales:
Algoritmo de Needleman-Wun...
Alineamientos globales:
Algoritmo de Needleman-Wunsch
Para encontrar el alineamiento con más puntuación se utilizan matric...
Alineamientos globales:
Algoritmo de Needleman-Wunsch
Cuando el algoritmo progresa, el elemento Fij de la matriz puede ser...
Alineamientos globales:
Algoritmo de Needleman-Wunsch
El pseudo-código del algoritmo que calcula la matriz A es el siguien...
Alineamientos globales:
Algoritmo de Needleman-Wunsch
Una vez que la matriz F está calculada, la puntuación máxima para cu...
Alineamientos globales:
Algoritmo de Needleman-Wunsch
AlineamientoA  “”
AlineamientoB  “”
i  long(A)
j  long(B)
while ...
Alineamientos locales:
Algoritmo Smith-Waterman

El algoritmo Smith-Waterman es un famoso algoritmo para realizar
alineami...
Alineamientos locales:
Algoritmo Smith-Waterman
El retroceso comienza en la celda de la matriz con el puntaje más alto y c...
Alineamientos locales:
Algoritmo Smith-Waterman
Otro motivo para usar alineamientos locales es que existe un modelo estadí...
1.
2.
3.
4.

La bioinformática y las bases de datos
Las bases de datos en biología molecular
Formato de la información alm...
• El proyecto genoma humano y similares genera un
inmenso flujo de información
• Para poder utilizar esta información, ha ...
• Búsqueda de información.
– Por palabra clave, números de acceso, autores...
• Búsqueda de homologías
– ¿Hay secuencias i...
• Los proveedores de recursos
– Centros o organizaciones especializadas en tener
y mantener las bases de datos.
• Bases de...
• El National Center for Biotechnology Information
(NCBI) centraliza los bancos de datos y aplicacions
de EEUU
• El Europe...
• Existen cientos de BD en número tan elevado que no es
práctico enumerarlas (aunque aquí lo intentan)
• Por el tipo de in...
• Organización de los artículos publicados en la revistas
de ámbito científico.
– Pubmed (NCBI)
– Medline (EBI)
– Biocatal...
• Son BD que contienen información sobre la clasificación
de los seres vivos
• Esta clasificación es básicamente jerárquic...
• Las bases de datos de ácidos nucleicos reciben las
secuencias de los laboratorios experimentales y las
organizan haciénd...
• Se encargan de mantener y actualizar las secuencias
y las anotaciones de genomas completos.
– Ensembl (EBI)
– Genome vie...
• Secuencias primarias de aminoácidos
– Sin revisión humana
• Trembl (EBI)
• nr (NCBI)
– Con revisión de la anotación
• Sw...
• Estructuras secundarias o dominios. Varían según la
fuente de las proteínas y el análisis que se realiza sobre
ellas.
– ...
• Estructuras tridimensionales de macromoléculas con las
coordenadas en el espacio de cada átomo.
– PDB: Base de datos pri...
•

Bases de datos con las imágenes y resultados
obtenidos por arrays de expresión.
– ArrayExpress (EBI)
– Riken Expression...
• La calidad de la información en una base de datos, está
muy relacionada con su estructura
• Este aspecto también es cruc...
Introducción a la Bioinformática

199
Introducción a la Bioinformática

200
Introducción a la Bioinformática

201
SRS y Entrez

Introducción a la Bioinformática
•
•
•
•
•

La extracción de información
SRS Inicio y búsqueda rápida
Busquedas mejoradas
Visualización de los resultados
E...
• La búsqueda y extracción de información de las BD se
realiza con herramientas específicas como SRS o
Entrez
• Suelen est...
• Sequence Retrieval System
• Es el sistema de recuperación de la información
disponible en el EBI
• Dispone de muchas pos...
• Tras iniciar la sesión se accede a la página
principal Top Page
• Desde esta página es posible…
– Seleccionar la base de...
Introducción a la Bioinformática
• Más completa
• Permite combinar campos y términos
–
–
–
–
–

Elegir “Standard Query”
Introducir términos de búsqueda
Sel...
Introducción a la Bioinformática
Introducción a la Bioinformática
• Haciendo doble click sobre los resultados se accede a
la información contenida en la BD de donde procede
• Es posible vi...
Introducción a la Bioinformática
Introducción a la Bioinformática
Introducción a la Bioinformática
• Si se desea precisar aún más la búsqueda
– Por un rango de fechas determinado
– Por la longitud de la secuencia
–…
Puede...
Introducción a la Bioinformática
Introducción a la Bioinformática
• En ocasiones puede ser conveniente combinar varias
consultas
– Por ejemplo si se desea utilizar operadores distintos
ent...
• Podemos variar la formas de visualizar los resultados
mediante las vistas
– La vista estándar muestra tan sólo un listad...
• El objetivo usual de realizar búsquedas es realizar algún
tipo de análisis con las secuencias halladas
• Alunos análisis...
• Es posible enlazar varias bases de datos de forma que
una vez efectuada una consulta, se acceda a la BD
enlazada para vi...
222
• Especificación FASTA del NCBI
• >identificador |descriptor
• ^A para varias cabeceras

• Estos datos se guardan en archi...
El formato puede complicarse mucho con el añadido de otros parámetros y
bloques de cabecera (ejemplo con Swiss-Prot)

224
• Procesos:
– Transcripción: interacciones que activan copias
– Splicing: se produce el RNA mensajero (mRNA)
– Traducción:...
Bioinformática

226
1.

2.

3.

Búsqueda de señales. La maquinaria celular reconoce
secuencias mas o menos conservadas en el DNA
genómico.
Est...
El DNA codificante tiene una composición de nucleótidos
diferente al resto de DNA genómico, debido a que ha de
codificar p...
Algunos programas de predicción de genes permiten el
uso de homologías con secuencias conocidas para
mejorar las prediccio...
•

•

Predicción sintética: se deduce la secuencia de
aminoácidos codificada en una cadena de ADN
genómico generando model...
Información utilizada para encontrar genes:
1. Búsqueda de señales. La maquinaria celular reconoce
secuencias más o menos ...
El DNA codificante tiene una composición de nucleótidos
diferente al resto de DNA genómico, debido a que ha de
codificar p...
Algunos programas de predicción de genes permiten el
uso de homologías con secuencias conocidas para
mejorar las prediccio...
Integrando la información

geneid como ejemplo
de programa de
predicción de genes.
Estructura jerárquica :
señales - exone...
• Los exones son las regiones de un gen que no son
separadas durante el proceso de splicing y, por tanto, se
mantienen en ...
1.

Necesitamos un conjunto de genes conocidos para
validar las predicciones.
2. Conceptos básicos para medir la fiabilida...
Sensibilidad y especificidad (estadística)
Dado un estimador para una variable estadística discreta binaria se definen:
La...
Introducción a la Bioinformática

238
• El objetivo de este proyecto fue estudiar la eficiencia
de los programas de predicción de genes en una
región de 2.9 Mb ...
Introducción a la Bioinformática

240
Introducción a la Bioinformática

241
• Las predicciones cubren un 95% del proteoma.
• La predicción a nivel de nucleótido mejor que a nivel de
exón.
• Muy baja...
• La expresión génica es el proceso por medio del cual todos los
organismos procariotas y eucariotas transforman la inform...
•

•

•

Métodos estadísticos para detectar la diferenciación entre genes
expresados.
Un Chip de ADN (del inglés DNA micro...
245
En Bioinformática

246
247
248
249
250
07/03/2014

Introducción a la Bioinformática

251
252
•
•
•
•
•
•

Introducción
Matrices PAM
Ejemplo de Matriz PAM
Matrices BLOSUM
Ejemplo de Matriz BLOSUM
Referencias
•
•

•
•

•

Una matriz de sustitución se elabora bajo una teoría
de evolución.
El resultado de la comparación de dos o má...
X matriz única para uso siempre.

• Familia de proteínas + grado de similitud >.
• • Las más utilizadas.

– PAM: Percent A...
• La cuestión era observar qué sustituciones ocurrian
entre
proteínas homólogas en un tiempo evolutivo
.
• PAM = cambio de...
Las matrices dan los cambios
esperados para un periodo de tiempo
evolutivo, la similaridad de la
secuencia decrece como lo...
Una unidad PAM es una medida arbitraria de divergencia evolutiva en la que se asume
que el 1% de los aminoácidos han cambi...
BLOSUM

PAM
MATRIZ PAM
• Nº sustituciones aa. = matriz PAM-1.
• La matriz PAM-1 = variación media 1% posiciones aa .
• Las matrices PA...
• alienaron 1572 secuencias de 71 proteínas diferentes
• se calculó la tasa de Mutaciones Aceptadas por la
selección natural (Aij las veces que i cambia a j en
todas las compara...
• calcularon la mutabilidad de cada aminoácido, la
tendencia del aminoácido j a ser sustituido, mj
• Es la propensión que ...
• PAM 1 (es decir 1 cambio en 100 aminoácidos) con las
siguientes formulas
• La matriz M1 establece una unidad de cambio
evolutivo.
La PAM 1 acepta una mutación cada 100 aminoácidos

• Aplicaciones...
Los datos fueron multiplicados por 10,000 para facilitar la presentación
• posteriormente se calculó la matriz log odds tomando los
resultados del punto anterior y aplicando la siguiente
manera:
...
• i -> j = j -> i
Porque para dos secuencias cualquiera, el a.a
ancestro en el árbol filogenético no es conocido
usualment...
Calculo para obtener el Log odds score
por cambios entre Phe y Try en una PAM
250
• Calculamos la frecuencia de cambio de F x Y
0.0021.
• Calculamos los valores de PAM250.
• En PAM250 el valor de frecuenc...
• De la misma forma para Y x F.
• 0.20/0.03 = 6.7
Log(6.7) = 0.83
• 0.83 x 10 = 8.3

Calculamos el promedio de 5.7 y 8.3 =...
MDM Mutation Data Matrix
• Para obtener matrices PAM de mayor distancia (por
ejemplo PAM 100) se multiplica por si misma el número
de veces que sea...
• Calcular la matriz "Log Odds" de similaridad: Se
divide cada elemento de la Matriz de
probabilidad de Mutación (M), entr...
PAM250
A

B

N

D

C

Q

E

G

H

I

L

K

M

F

P

S

T

W

Y

V

A (Ala)

13

6

9

9

5

8

9

12

6

8

6

7

7

4

11...
Objetivo.Detectar similaridad de secuencias.
Premisa: El score de alineamiento sin gaps puede ser más alto,
cuando se usa ...
PAM 250

A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
B
Z

W

A
2
-2
0
0
-2
0
0
1
-1
-1
-2
-1
-1
-3
1
1
1
-6
-3
0
2
1

R
-2
6
0...
• Muchas secuencias se desvian de la
composición promedio.
• Se encontraron reemplazos muy poco
frecuentes que no se podia...
•Steve Henikoff, 1992
•Basadas en la comparación de
BLOQUES de secuencias derivadas de
la base de datos Blocks.
•Valores b...
•
•

Matrices BLOSUM difieren en el porcentaje de identidad de
agrupamiento.
BLOSUM 62 es derivada de bloques que tienen u...
PAM

•
•
•
•
•
•

Basada en modelo evolutivo.
Calculada a partir de
alineamientos globales.
Construida a partir de una
can...
Proteína de rata vs.
proteína de ratón

Proteína de rata vs.
proteína de bacteria
Matriz

Uso

% Similaridad

PAM140
BLOSUM9
0

Alineamientos pequeños, alta
similitud

70 – 90

PAM160
BLOSUM8
0

Miembros ...
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Upcoming SlideShare
Loading in …5
×

Bioinformatics Biostatistics with dynamic programming and sequence alignment

1,109 views

Published on

Bioinformatics Biostatistics with dynamic programming and sequence alignment. Data bases in biology. Optimization, algorithms and methods

Published in: Technology

Bioinformatics Biostatistics with dynamic programming and sequence alignment

  1. 1. Victoria López, vlopezlo@ucm.es, 1 Despacho 309 Facultad de Informática
  2. 2. 1. 2. 3. 4. 5. 6. 7. Introducción a la Bioinformática Estructura de proteínas y ácidos nucleicos Análisis de Secuencias Bases de datos en Biología Análisis de datos: técnicas de agrupamiento Minería de datos en Bioinformática Lenguaje R* y aplicaciones a Bioinformática 2
  3. 3. – Compilador de R : http://cran.r-project.org/ – Libros: http://www.r-project.org/ • Manuals  contributed documentation: – “Applied Statistics for Bioinformatics Using R” by Wim Krijnen – “Statistics Using R with Biological Examples” by Kim Seefeld and Ernst Linder – “Practical Regression and Anova using R” by Julian Faraway – “R and Data Mining: Examples and Case Studies” by Yanchang Zhao 3
  4. 4. • Exposiciones teóricas basadas en la bibliografía y en artículos. Sesiones prácticas con R. • Presentación de los trabajos por parte de los alumnos: exposiciones individuales del tema desarrollado a partir de los documentos proporcionados en el Campus Virtual y vía Web (documentación utilizada en clase, presentaciones y artículos). Criterios de evaluación: • Asistencia y participación en las discusiones (30%), trabajo práctico individual y exposición (70%) 4
  5. 5. 07/03/2014 Introducción a la Bioinformática 5
  6. 6. We are drowning in information and starved for knowledge John Naisbitt Who on efficient work is bent, Must choose the fittest instrument. Goehthe (Fausto) 07/03/2014 Introducción a la Bioinformática 6
  7. 7. • • • • • • • 07/03/2014 Introducción: La explosión de información Sobre información biológica Pero,… qué es la bioinformática? Los grandes bloques temáticos de la BIF Los grandes centros y bancos de datos Un poco de práctica Referencias Introducción a la Bioinformática 7
  8. 8. • El fin del siglo XX ha visto una explosión de información provinente de los seres vivos, especialmente en biología molecular – Secuenciación de genomas – Secuencia y estructura de proteínas – Estudios sobre la expresión simultánea de muchos genes bajo muchas condiciones diferentes. 07/03/2014 Introducción a la Bioinformática 8
  9. 9. El crecimiento explosivo de datos Hace ... Nucleótidos 26 años (1982) Antes 680338 pb (GenBank) Ahora > Miles de millones Proteínas 26 años 1500 300.000 DNA continuo 16 años 73 kb > 270 Mbases SNPs 16 años centenares 11 millones Genomas 11 años 0 organismos 1282 Organismos (mediados 2010) Expresión 07/03/2014 10 años Limitado pocos genes Introducción a la Bioinformática Miles de estudios con miles de genes 9
  10. 10. (1982-2000) 07/03/2014 Introducción a la Bioinformática 10
  11. 11. 07/03/2014 Introducción a la Bioinformática 11
  12. 12. • La información biológica se encuentra – codificada en los genes y – se expresa a partir / mediante los genes • Esta idea se refleja en el Dogma Central de la Biologia Molecular 07/03/2014 Introducción a la Bioinformática 12
  13. 13. 07/03/2014 Introducción a la Bioinformática 13
  14. 14. • La biología se enfrenta con el problema de la decodificación del lenguaje biológico – Como se codifica la información en los genes? – Como (cuando, ...) se traduce esta información? • Ej. Splicing alternativo – Qué determina la estructura de las proteínas? – Como se determina la función de las proteínas • La bioinformática sirve para estudiar como se procesa toda esta información biológica 07/03/2014 Introducción a la Bioinformática 14
  15. 15. 07/03/2014 Introducción a la Bioinformática 15
  16. 16. • Los ácidos nucleicos (AN) contienen la información para generar los organismos: DNA  RNA  PROTEINAS  Función • Las proteínas se forman con aminoácidos (AA) unidos en secuencias lineales • Las instrucciones para definir la secuencia de AA están codificadas en los AN por grupos de tres nucleótidos, en un código genético redundante 07/03/2014 Introducción a la Bioinformática 16
  17. 17. 07/03/2014 Introducción a la Bioinformática 17
  18. 18. • Las secuencias biológicas se organizan en grupos con un significado, en general desconocido para nosotros • Podemos distinguir una jerarquía (niveles de organización) que podemos comparar con – Frases (las proteínas) – Palabras (motivos o configuraciones) – Letras (Los AA o los nucleótidos) 07/03/2014 Introducción a la Bioinformática 18
  19. 19. • Las secuencias, establecidas experimentalmente se representan como cadenas de un alfabeto y se comparan – Regiones comunes asocian las palabras a propiedades comunes de las moléculas – Regiones diferentes revelan palabras con un sentido asociado a propiedades que diferencian a las moléculas – Muchas regiones no contienen información 07/03/2014 Introducción a la Bioinformática 19
  20. 20. • Nace a partir del – desarrollo de nuevas tecnologías y de – su aplicación para la generación de grandes cantidades de datos. • La disciplina científica que engloba todos los aspectos de la adquisición, procesamiento, distribución, análisis, interpretación e integración de la información biológica 07/03/2014 Introducción a la Bioinformática 20
  21. 21. Chemistry Biology Molecular biology Mathematics Statistics Bioinformatics Computer Science Informatics Medicine Physics 07/03/2014 Introducción a la Bioinformática 21
  22. 22. 07/03/2014 Introducción a la Bioinformática 22
  23. 23. • Computational biology applies the techniques of computer science, applied mathematics and statistics to address biological problems. • Bioinformatics is the application of information technology to the field of molecular biology. 07/03/2014 Introducción a la Bioinformática 23
  24. 24. The future of genomics rests on the foundation of the Human Genome Project 07/03/2014 Introducción a la Bioinformática 24
  25. 25. 07/03/2014 Introducción a la Bioinformática 25
  26. 26. • Organización de la información – Bases y bancos de datos – Algoritmos y herramientas de explotación • Análisis e interpretación de resultados experimentales – Secuenciación y análisis de genomas – Genómica Comparatíva – Transcriptómica y expresión génica – Proteómica, redes de interacción PPI • Modelos de Sistemas Biológicos 07/03/2014 Introducción a la Bioinformática 26
  27. 27. 07/03/2014 Introducción a la Bioinformática 27
  28. 28. AGAGTTCTGCTC G AG G GTTATG C G C G 07/03/2014 Introducción a la Bioinformática 28
  29. 29. 07/03/2014 Introducción a la Bioinformática 29
  30. 30. 07/03/2014 Introducción a la Bioinformática 30 30
  31. 31. Datos Recursos y herramientas bioinformáticos Conocimiento • Como quiera que se defina, desde donde quiera que se mire, el papel de la Bioinformática ha sido, es y será crucial para el avance de la Biología y la Medicina del siglo XXI 07/03/2014 Introducción a la Bioinformática 31
  32. 32. • Debe tener “sólidos conocimientos” en – Alguna disciplina biológica • Bioquímica, Genética,… – Entornos de desarrollo informáticos • SO [Linux], Lenguajes[Perl, Java, R], Bases de datos [SQL], Desarrollo web [PHP, ASP, Ajax…] – Alguna disciplina cuantitativa • [Matemáticas, Estadística, Física] Al menos dos de las tres anteriores!! 07/03/2014 Introducción a la Bioinformática 32
  33. 33. • Gestión de la información – Implementación y explotación de bases de dados locales o en internet. – Instalación, mantenimiento de servidores web. • Desarrollo de aplicaciones – Elaboración de programas locales o web, • Explotación y análisis de datos – Microarrays, datos de alto rendimiento 07/03/2014 Introducción a la Bioinformática 33
  34. 34. • Centros Especializados – EBI, NCBI, EMBL. – INB / Plataforma Bioinformatica de la UAB. • Servicios Bioinformáticos de centros de investigación, – UEB, UBB, BU • Universidades, • Laboratorios Farmacéuticos, • … 07/03/2014 Introducción a la Bioinformática 34
  35. 35. • Usualmente, aunque no necesariamente la BIF tiene vocación “universal”, de acceder al máximo de usuarios: – Suele buscarse soluciones WEB – Suele basarse en proyectos [más o menos] open source de distribución libre. • Esto no es del todo general – Por ejemplo Ingenuity Pathway Analysis no es gratis pero es bueno. 07/03/2014 Introducción a la Bioinformática 35
  36. 36. • Existen multitud de recursos gratuitos – 2can en el EBI – Tutoriales del NCBI – Cursos “locales” • Introducción a la Bioinformatica (A. Sanchez UEB/UB) • Invitacio a la Bioinformatica (Plataforma BIF UAB) • Una gran variedad de libros sobre el tema – List of books on bioinformatics • Revistas y sociedades científicas – Bioinformatics, Briefings in Bioinformatics – International Society for Computational Biology 07/03/2014 Introducción a la Bioinformática 36
  37. 37. 07/03/2014 Introducción a la Bioinformática 37
  38. 38. • Buena parte del trabajo en bioinformática consiste en la construcción y/o explotación de bases de datos de información biológica • Se usan, por ejemplo para: – Añadir o buscar información (“anotaciones”) – Buscar similitudes o patrones – Hacer predicciones • De estructura o función en proteínas • De genes en genomas 07/03/2014 Introducción a la Bioinformática 38
  39. 39. • La WWW ha revolucionado la provisión de servicios en bioinformática • Muchas cosas pueden hacerse a través de internet sin que sean necesarias copias locales de las bases de datos o el software para explotarlas • A pesar de esta globalización existen organizaciones que centralizan los recursos 07/03/2014 Introducción a la Bioinformática 39
  40. 40. • Centros importantes a nivel mundial – EMBL / EBI (www.embl.org / www.ebi.ac.uk ) – NCBI ( www.ncbi.nlm.nih.gov ) – DDBJ ( www.ddbj.nig.ac.jp ) • Bases de datos biológicas – – – – 07/03/2014 EMBL DNA sequence database SWISSPROT i TREMBL PIR, PDB Catálogo de bases de datos biológicas www.infobiogen.fr/services/dbcat Introducción a la Bioinformática 40
  41. 41. 07/03/2014 Introducción a la Bioinformática 41
  42. 42. 1. 2. 3. Clasificación de un hongo, comparando una secuencia suya con las de una base de datos para determinar si las hay similares Visualización de estructuras moleculares en tres dimensiones Introducción al análisis de secuencias 07/03/2014 Introducción a la Bioinformática 42
  43. 43. • Unos investigadores han detectado una infección fúngica en un cultivo agrario. • En caso de duda en la identificación directa (crecimiento lento del hongo, características morfológicas similares entre varias especies, etc.) se puede plantear la alternativa siguiente: – Secuenciar un fragmento del ADN del hongo – Buscar en bases de datos moleculares intentando encontrar la misma secuencia o una lo más similar posible (“DB homology search”) 07/03/2014 Introducción a la Bioinformática 43
  44. 44. • Obtenemos la secuencia siguiente • gtttacgctctacaaccctttgtgaacatacctacaactgtt gcttcggcgggtagggtctccgcgaccctcccggcctcccgc ctccgggcgggtcggcgcccgccggaggataaccaaactctg atttaacgacgtttcttctgagtggtacaagcaaataatcaa aacttttaacaaccggatctcttggttctggcatcgatgaag aacgcagcgaaatgcgataagtaatgtgaat 07/03/2014 Introducción a la Bioinformática 44
  45. 45. 1. Vía internet accedemos al EBI: European Bioinformatics Institute 2. Aquí escogemos la opción “Tools” y 1. Seleccionamos Fasta3  2. Seleccionamos en DATABASES : Nucleic ACIDS , FUNGI 3. Enganchamos la secuencia y hacemos la consulta 3. Obtendremos un listado de especies ordenado de mayor a menor similitud 07/03/2014 Introducción a la Bioinformática 45
  46. 46. 07/03/2014 Introducción a la Bioinformática 46
  47. 47. 07/03/2014 Introducción a la Bioinformática 47
  48. 48. 07/03/2014 Introducción a la Bioinformática 48
  49. 49. 07/03/2014 Introducción a la Bioinformática 49
  50. 50. 07/03/2014 Introducción a la Bioinformática 50
  51. 51. • • • • FASTA searches a protein or DNA sequence data bank version 3.3t09 May 18, 2001 Please cite: W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448 • • • • @:1-: 241 nt • • • • • 104701680 residues in 66478 sequences statistics extrapolated from 60000 to 61164 sequences Expectation_n fit: rho(ln(x))= -1.2290+/-0.000361; mu= 72.1313+/- 0.026 mean_var=907.6270+/-295.007, 0's: 68 Z-trim: 4246 B-trim: 15652 in 3/79 Lambda= 0.0426 • • • • • • • • • • • • • FASTA (3.39 May 2001) function [optimized, +5/-4 matrix (5:-4)] ktup: 6 join: 48, opt: 33, gap-pen: -16/ -4, width: 16 Scan time: 3.180 The best scores are: opt bits E(61164) EM_FUN:CGL301988 AJ301988.1 Colletotrichum glo (1484) [f] 1184 88 5.7e-17 EM_FUN:AF090855 AF090855.1 Colletotrichum gloe ( 500) [f] 1205 88 7.3e-17 EM_FUN:CGL301986 AJ301986.1 Colletotrichum glo (1484) [f] 1166 87 1.2e-16 EM_FUN:CGL301908 AJ301908.1 Colletotrichum glo (2868) [f] 1148 87 1.3e-16 EM_FUN:CGL301909 AJ301909.1 Colletotrichum glo (2868) [f] 1148 87 1.3e-16 EM_FUN:CGL301907 AJ301907.1 Colletotrichum glo (2867) [f] 1148 87 1.3e-16 EM_FUN:CGL301919 AJ301919.1 Colletotrichum glo (1171) [f] 1166 87 1.6e-16 EM_FUN:CGL301977 AJ301977.1 Colletotrichum glo (1876) [f] 1148 86 2e-16 EM_FUN:CFR301912 AJ301912.1 Colletotrichum fra (2870) [f] 1137 86 2.1e-16 07/03/2014 vs EMBL Fungi library searching /ebi/services/idata/v225/fastadb/em_fun library Introducción a la Bioinformática 51
  52. 52. • RASMOL es un programa para visualizar estructuras moleculares en tres dimensiones • Haciendo click aquí podéis acceder a una guía rápida del programa desde donde podréis descargarlo, instalarlo y ejecutarlo con facilidad 07/03/2014 Introducción a la Bioinformática 52
  53. 53. • Haciendo click aquí se accede al Bioinformatics Web Practical del servicio de Bioinformática de la Universidad de Manchester (UMBER) • El objetivo de este tutorial es – Dar un vistazo a algunos recursos bioinformáticos existentes en Internet – Adquirir una primera idea sobre que es el análisis de secuencias • A continuación podéis ver algunas de las pantallas que aparecerán 07/03/2014 Introducción a la Bioinformática 53
  54. 54. 07/03/2014 Introducción a la Bioinformática 54
  55. 55. Traducción de la secuencia y búsqueda en OWL 07/03/2014 Introducción a la Bioinformática 55
  56. 56. La secuencia ha sido identificada 07/03/2014 Introducción a la Bioinformática 56
  57. 57. • En organismos vivos (in vivo) • En entornos o ambientes artificiales (in vitro) • Mediante chips de silicona con los que construir microprocesadors (in silicio) 57
  58. 58. 2. Estructura de proteínas y ácidos nucleicos 58
  59. 59. • Proteínas presentes en la alimentación • Compuestas por aminoácidos (aa) – Moléculas orgánicas complejas hechas de carbono, hidrógeno, oxígeno, nitrógeno y sulfuro – C1200H4000O600N300S100 • Interesa estudiar propiedades de las proteínas • Para ello se buscan representaciones adecuadas de su estructura molecular • Las proteínas son „macromoléculas‟: de 100 a 500 aminoácidos. 59
  60. 60. 60
  61. 61. 61
  62. 62. • Los aminoácidos tienen tres representaciones diferentes: – Mediante su nombre (Glutamina, Tirosina, …) – Mediante un código de letra única (Q, Y,…) – Mediante un código de tres letras (Gln, Tyr,…), este último acordado por el IUPAC (International Union of Pure and Applied Chemistry) 62
  63. 63. • Propiedades básicas de las proteínas: – Un tipo de proteína contiene siempre exactamente el mismo número de aminoácidos (también denominados residuos) – Insulina=30glicerinas+44 alcalinas+5tirosinas+… – Los aminoácidos de un tipo de proteína están asociados como una cadena y además se puede conocer el orden exacto de su constitución de aminoácidos. – La primera proteína o secuencia de aminoácidos que se descubrió fue la insulina en 1951 por F. Sanger. Se trata de una cadena formada por 110 residuos. 63
  64. 64. • Nacimiento 13 de agosto de 1918 • Conocido por: • Su trabajo sobre la bioquímica de los ácidos nucleicos. • Su trabajo sobre la estructura de las proteínas, en especial de la insulina. • Sociedades: • Royal Society(1954) • Premios destacados • Premio Nobel de Química (1958). Premio Nobel de Química (1980). Orden del Imperio Británico(1963). Medalla Copley (1977). Orden de Mérito del Reino Unido(1986). Medalla Royal (1977) • Con este investigador y con el estudio de las secuencias moleculares la biología pasó de ser un soft science (frente a la física y a la química) a ser una ciencia fundamental. 64
  65. 65. • Años 60: ordenadores poco potentes, no se pueden ejecutar búsquedas ni realizar reconocimiento de secuencias con agilidad. • Las secuencias se analizan y se comparan manualmente, escribiéndolas en papel y pegándolas en paredes (pattern matching) • Con el estudio, la manipulación y el análisis de las secuencias de proteínas usando computadores se inicia la bioinformática. Hasta los 80 no se revela un avance significativo, pero desde esa fecha, el crecimiento es exponencial debido al avance de la tecnología y los procesadores en particular. 65
  66. 66. Las 20 moléculas de aminoácidos en las proteínas tienen cuerpos diferentes. La raíz o nivel superior es el código de un aminoácido de la tabla o código de una letra, mientras que sus hijos (hooks o ganchos) en el nivel siguiente son siempre de la forma NH2 y COOH, como se muestra en la Figura 1. Estos grupos de átomos se usan para formar los conocidos ‘peptidic bounds’ entre sucesivos residuos de la secuencia. 66
  67. 67. Los enlaces peptídicos o enlaces entre dos aminoácidos (enlace amina) son reacciones químicas entre el grupo amino (NH2) de un aminoácido y el grupo carboxilo (COOH) de otro aminoácido formándose un enlace covalente entre el átomo de carbono y el de nitrógeno: OC-NH con la pérdida de un grupo OH y un H para formar una molécula de agua. La cadena de aminoácidos sólo define la proteína pero no informa por sí misma de las características biológicas o propiedades de dicha proteína. Nos interesa conocer, por ejemplo, la habilidad de la proteína para digerir el azúcar, o para formar parte de un tejido muscular, etc. Estas propiedades vienen dadas por la forma tridimensional que la cadena adopta en su ambiente. 67
  68. 68. Estructuras 3D • Una molécula de proteína es una cadena de eslabones no flexibles, la estructura es rígida, compacta y bien limitada. • Su forma 3D depende de la secuencia y el comportamiento de algunos aminoácidos en determinados ambientes. • La primera estructura 3D de una proteína fue determinada en 1958 por Kendrew y Perutz. • Las proteínas con igual secuencia pueden plegarse en formas similares • Proteínas con estructuras similares pueden codificarse como secuencias similares de aminoácidos.
  69. 69. Estructuras 3D • La función de la proteína es una consecuencia directa de su estructura 3D, es decir, de su forma o shape. • Análisis de la proteína: Secuencia estructura  función • Bioinformática estructural: Representación gráfica de la proteína y su visualización 3D
  70. 70. John Cowdery Kendrew • Oxford, Inglaterra 1917 - Cambridge 1997 • Químico inglés galardonado con el Premio Nobel de Química del año 1962. • Adjunto de Max Perutz en el Laboratorio de Biología Molecular del Britain's Medical Research Council, • Colaboró con él en el estudio de la estructura de las proteínas de los glóbulos rojos, realizando investigaciones paralelas a las de Perutz sobre la proteína muscular denominada mioglobina. • Los diagramas de difracción de rayos X en las cadenas peptídicas que constituyen la molécula de la mioglobina y en la cual se habían fijado previamente átomos pesados de oro o mercurio, le permitieron dilucidar la estructura espacial de esta molécula en 1959. En 1962 compartió con Perutz el Premio Nobel de Química por estos trabajos.
  71. 71. Max Ferdinand Perutz • Viena, 19 de mayo de 1914 - Cambridge, 6 de febrero de 2002 • Fue un químico británico, de origen austríaco, galardonado con el Premio Nobel de Química del año 1962. • En 1953 descubrió que, incorporando un átomo pesado (oro o mercurio) a cada una de las moléculas de la red cristalina de la hemoglobina, se producían pequeñas modificaciones en su correspondiente posición, la interpretación del cual le permitió dar a conocer en 1960 el primer modelo tridimensional de la molécula de la hemoglobina. • En 1959 consiguió determinar la estructura molecular de la mioglobina, por la cual Perutz y Kendrew fueron galardonados con el Premio Nobel de Química de 1962.
  72. 72. Definición de proteína • Las proteínas son compuestos químicos formados por la combinación de veinte pequeñas moléculas denominadas aminoácidos (aa). Químicamente se componen sobretodo de carbono, hidrógeno, oxígeno y nitrógeno aunque también pueden presentar otros elementos (azufre, hierro, fósforo, zinc o cobre). Las proteínas pueden formarse únicamente por aa (holoproteínas) o contar con una parte no proteica (heteroproteínas) y participan en un elevado número de funciones en el organismo. • Montserrat Camiña Tato • Bióloga - Investigación Biomédica - Universidad de Santiago de Compostela
  73. 73. Bioinformática de la Proteína • Recuperación de secuencias de proteínas desde bases de datos en Internet. • Cálculo de la composición de aminoácidos, peso molecular, punto isoeléctrico y otros parámetros de la proteína. • Visualización de estructuras. • Búsqueda de proteínas con estructura similar a una secuencia dada • Clasificación de proteínas en familias. • Búsqueda del mejor alineamiento entre dos o más proteínas • Etc.
  74. 74. Análisis de las secuencias de ADN El ADN es otro tipo de macromolécula (ácido dexioribonucleico) parecida a la proteína. Su estructura es también una cadena, pero en esta caso presenta la forma de una doble hélice y cada enlace de la cadena es una pareja de nucleóticos de un grupo de 4 posibles, frente a los 20 aminoácidos en la proteína. En este sentido la estructura del ADN es más sencilla que la de la proteína. Por eso los estudios sobre el ADN han sido mucho más rápidos.
  75. 75. Tabla de la codificación de los nucleótidos
  76. 76. Estructura del ADN • Hasta los años 70 no pudo determinarse la secuencia de moléculas del ADN ni su alfabeto de 4 nucleótidos. • Estos 4 elementos tienen distintos cuerpos pero el mismo par de ganchos (hooks): 5‟D y 3‟OH. Se asocian de forma similar a como ocurría con la estructura de la proteína.
  77. 77. AND: Doble Hélice • Una secuencia de ADN siempre se define como la sucesión de sus nucleótidos desde el 5‟ hasta el 3‟. • En 1953 se descubrió la forma de doble hélice de la molécula del ADN • Consiste en dos cadenas complementarias respecto a las moléculas enfrentadas. • Los emparejamientos A-T, G-C, etc., se realizan de forma biyectiva uno a uno y con relación recíproca. • A partir de una hebra, se puede deducir la otra complementaria directamente.
  78. 78. AND: Doble Hélice •La mayoría de los programas de Data Mining, como por ejemplo BLAST, tienen en cuenta las dos cadenas pero algunos programas solo analizan la secuencia que dada como cadena única. •Dependiendo del tipo de estudio será importante tener en cuenta las dos cadenas complementarias o una sola.
  79. 79. Propiedad de encadenamiento • Esta propiedad de la estructura del ADN es la piedra angular para determinar la estructura y la secuenciación del ADN. • Por ejemplo, cuando los organismos vivos se reproducen cada uno de sus genes debe multiplicarse. Este proceso no ocurre generando una copia directa sino que se separan dos hebras de ADN y a partir de ellas se generan otras dos complementarias. • Por ello es fundamental comprender esta propiedad de complementariedad en su estructura. • La siguiente imagen representa esta situación.
  80. 80. Relación Proteína, DNA, RNA
  81. 81. Secuencias palíndromas en el ADN • ATGCTGA…. Y ….TCAGCAT corresponden a cadenas enfrentadas. • Otra propiedad fascinante adicional a la complementariedad del ADN es que a veces regiones de ADN pueden corresponder a secuencias que son idénticas cuando se leen desde las dos cadenas complementarias (en la dirección correspondiente). • Estas secuencias se denominan palíndromas porque la lectura de izquierda a derecha coincide con la lectura de derecha a izquierda.
  82. 82. Secuencias palíndromas en el ADN • Las secuencias palíndromas juegan un papel muy importante porque por ejemplo, la mayoría de las encimas restringidas del ADN, llamadas „cutting enzimes‟ tienen secuencias palíndromas y otras secuencias palíndromas sirven como „binding sites‟ (emplazamientos vinculantes), por este tipo de razones esta propiedad es fundamental en acciones de clasificación de secuencias. • Las secuencias palíndromas tienen una fuerte influencia en la estructura 3D de las moléculas de DNA y de RNA
  83. 83. Subsecuencias Palíndromas • Un ejercicio clásico en bioinformática es la búsqueda de subsecuencias palíndromas o casi palíndromas en secuencias de ADN.
  84. 84. El RNA • El ADN o ácido dexioribonucléico es el nucléico más conocido y dignificado de la familia de macromoléculas. • Su tarea es asegurar la conservación de la información genética en el organismo. • El ácido ribonucléico o RNA es un miembro más activo de la familia de los ácidos nucléicos: se sintetiza y se degrada constantemente creando copias de genes disponibles, a modo de fábrica de células.
  85. 85. El RNA
  86. 86. Diferencias entre el DNA y el RNA • Difieren en un único nucleótido: el uracil (U) en el RNA sustituye a la timina (T) en el DNA. • La forma de doble hélice en el DNA es una hélice simple en el RNA. • Debido a sus similitudes, muchos programas no se molestan en diferenciar la codificación y analizan las secuencias de RNA con la notación del DNA.
  87. 87. La estructura del RNA • Aunque la molécula de RNA consta de una única cadena de nucleótidos su tendencia natural es la búsqueda de emparejamientos con secuencias complementarias. • Aunque es una única cadena, se asemeja a la doble cadena del ADN porque se produce el plegado como puede observarse en la figura ; la forma final es de una hélice.
  88. 88. La estructura del RNA • Una vez sintetizada cada molécula de RNA adopta un plegado compacto rápidamente tratando de emparejar el máximo número de nucleótidos manteniendo la geometría de la cadena. • Los bucles (horquillas) son elementos básicos de la estructura. • La estructura 3D está hecha de nucleótidos C-V desemparejados (la horquilla) y de bases emparejadas (el resto). A estas parejas se les llama „stems‟. • La secuencia lineal de estos bloques y horquillas determinan la forma 3D final. La función de las moléculas de RNA también deriva de la forma 3D de su estructura como ocurre con el ADN.
  89. 89. Codificación del DNA • De los cientos de miles de secuencias de proteínas que actualmente contienen las Bases de Datos sólo un pequeño porcentaje corresponde a moléculas que han sido aisladas (por alguien o mediante algún experimento). • Determinar la secuencia de una proteína es mucho más difícil que determinar la secuencia de un ADN. • Todas las proteínas que un organismo dado puede sintetizar están codificadas como la secuencia de DNA de su genoma (tanto si es un microbio como si es un ser humano) • El atajo que usan los biólogos para leer las secuencias de proteínas es leer directamente la secuencia del DNA y extraer de esta secuencia el resto de la información. • De esta forma podemos conocer, por ejemplo, la secuencia de aminoácidos de una proteína aunque nunca haya sido aislada en un tubo de ensayo.
  90. 90. Transformación de ADN en proteínas. • Cuando se conoce una secuencia de DNA, ésta se puede traducir en la correspondiente secuencia de proteínas usando el código genético. • El código genético es universal (salvo algunas excepciones) • Es la solución para relacionar de forma única una secuencia de 4 nucleótidos con un juego de 20 aminoácidos. • Comprender cómo la célula hace esta transformación fue uno de los logros más importantes de la biología en los años 60. • La respuesta final se puede explicar en una pequeña tabla
  91. 91. El Código Genético
  92. 92. El Código Genético • Cómo usar la tabla de los códigos de la genética estándar : Paso 1. Leer la secuencia de ADN. Paso 2. Descomponerla en tripletas sucesivas continuas Paso 3. Traducir cada tripleta en el correspondiente aminoácido.
  93. 93. Ventajas de la codificación • Si la secuencia de ADN está correctamente orientada de 5‟ a 3‟ el resultado de la secuencia de proteína va también del término N al C. • Si se conoce dónde comienza la codificación de la proteína en la secuencia del ADN se puede intentar generar la correspondiente secuencia de aminoácidos usando programas de ordenador (“secuenciación de la proteína”) • Muchos programas de análisis de secuencias ofrecen este tipo de traducciones „on the fly‟ de forma que se pueden procesar secuencias de DNA como secuencias virtuales de proteínas ejecutando el algoritmo correspondiente.
  94. 94. Más observaciones relativas a la codificación de secuencias de DNA. • La proteína resultante de los procesos de secuenciación depende directamente del modo en que se convierten las secuencias de DNA en tripletas. • Se puede hacer como ejercicio las posibilidades del análisis de la cadena de una figura anterior. • Los resultados son diferentes si se comienza la codificación en la primera, en la segunda o en la tercera posición  Tres formas diferentes. • Teniendo en cuenta que la lectura del ADN puede realizarse de izquierda a derecha o al revés, hay seis posibilidades de traducción.
  95. 95. Más observaciones relativas a la codificación de secuencias de DNA. • Un intervalo de una secuencia de ADN que contenga un „stop‟ (traducción de TAA, TGA o TAG) se denomina un „open reading frame‟ (ORF) o estructura de lectura abierta que admite varias codificaciones. • Solo se utiliza una de las 6 posibilidades referidas para codificar cada región de ADN, pero algunas secuencias de ADN no son codificaciones de proteínas y también aparecen grandes trozos de ADN no codificado entre los genes de los organismos. • Gran parte de la bioinformática está dedicada al desarrollo de métodos para localizar regiones de proteína codificadas en las secuencias del DNA y determinar dónde comienzan y dónde finalizan los genes o dónde se interrumpen por intervalos no codificados (denominados „introns‟).
  96. 96. ¿Qué estudia la bioinformática del DNA y del RNA? • Recuperación de secuencias de ADN de las bases de datos • Computación de la composición de nucleótidos • Identificación de lugares restrictivos • Identificación de ORFs • Cálculo del alineamiento óptimo entre dos o más secuencias de DNA • Ensamblar fragmentos de secuencias • Encontrar lugares polimórficos en genes • Etc.
  97. 97. Trabajando con el genoma completo • En 1977 se descubrió la primera técnica verdaderamente eficiente para la secuenciación del ADN. • En 1995 se determinó la primera secuencia de un genoma completo (el microbio Hemophilus infuezae). • En este periodo se crearon las herramientas informáticas más interesantes para la secuenciación del ADN: – programas para alineamiento de secuencias – métodos de clasificación de secuencias – algunas herramientas de visualización.
  98. 98. La genómica • La genómica es el estudio del mapa genético y se basa en el análisis completo de la secuencia del genoma mediante la secuenciación de genomas completos. • En la actualidad tenemos que trabajar con secuencias de DNA mucho más largas (desde aproximadamente un millón de bps para microbios hasta varios billones de bps de longitud para animales y humanos). • Esto supone unas herramientas informáticas capaces de almacenar, consultar, analizar y visualizar objetos enormes (como conjuntos de datos) de forma sencilla para los usuarios.
  99. 99. La genómica • En contraste con los análisis gen a gen que se realizaban en los inicios de la bioinformática, ahora las secuencias de ADN se obtienen frecuentemente sin un conocimiento previo de lo que hay realmente. En esencia, los genes son al mismo tiempo secuencias y descubrimiento de sus componentes. • Otras cosas que puede hacer la bioinformática por el estudio del genoma: – Encontrar qué genomas están disponibles en las bases de datos – Analizar secuencias en genomas específicos – Mostrar genomas mediante programas de visualización – Etc.
  100. 100. La genómica: Ejemplo. La figura representa el genoma completo de la bacteria Rickettsia conorii. Esta molécula de DNA circular es de 1.3 millones de bps de longitud. Cada rectangulito en los dos anillos más externos corresponde a una codificación de proteína del gen en el genoma circular. Cada rectangulito supone unos 1000 bps. Antes de comenzar la secuenciación de este genoma nadie conocía qué genes o proteínas había en esta bacteria así que casi todo lo que se conoce ahora sobre ella ha sido resultado del análisis por medio de la bioinformática.
  101. 101. RESUMEN: La información biológica • Los ácidos nucleicos (AN) contienen la información para generar los organismos: DNA  RNA  PROTEINAS  Función • Las proteínas se forman con aminoácidos (AA) unidos en secuencias lineales • Las instrucciones para definir la secuencia de AA están codificadas en los AN por grupos de tres nucleótidos, en un código genético redundante
  102. 102. 2-Alineamiento de secuencias 07/03/2014 Introducción a la Bioinformática 102
  103. 103. 1. Conceptos básicos 2. Métodos gráficos de alineamiento 3. Puntuación de los alineamientos 4. Programación dinámica 5. Métodos heurísticos 07/03/2014 Introducción a la Bioinformática 103
  104. 104. • El alineamiento de secuencias es probablemente la herramienta más utilizada en bioinformática • Su objetivo es alinear dos o más secuencias (de DNA o proteínas) de forma que puedan destacarse las regiones similares entre las moléculas • Al determinar si una secuencia desconocida es similar, en algún sentido, a secuencias conocidas (e idealmente de estructura y función conocidas) podremos identificarla y predecir su estructura y función 07/03/2014 Introducción a la Bioinformática 104
  105. 105. • Mediante un alineamiento global entre genomas se puede – identificar repeticiones internas (S1 vs S1) o – encontrar secuencias conservadas entre especies (S1 vs S2) • Para predecir la función de una proteína desconocida suele buscarse dominios funcionales comunes, – mediante alineamientos locales entre dos secuencias – mediante alineamientos múltiples entre conjuntos de secuencias • Para buscar una secuencia en una base de datos se alinean por separado distintos fragmentos y se cuantifica el grado de similitud alcanzado • Se pretende predecir la estructura de una secuencia identificándola con otras 07/03/2014 Introducción a la Bioinformática 105
  106. 106. • Existen muchos programas disponibles en WWW para alinear secuencias y buscarlas en las BD • Si se pretende que el resultado de dichos programas sea útil no deben ser “cajas negras” • La correcta elección del programa ( método) y de sus parámetros es muy importante – Una elección inadecuada puede conllevar la no detección de similitudes relevantes 07/03/2014 Introducción a la Bioinformática 106
  107. 107. • Alineamiento de dos secuencias – Métodos gráficos: Dotplot. Es intuitivo, pero difícil de cuantificar – Algoritmos óptimos de alineamiento global (NW) o local (SW) Obtienen el mejor alineamiento posible con programación dinámica Son demasiado exigentes para ser prácticos en búsquedas extensivas • Alineamientos múltiples • Algoritmos heurísticos para búsqueda en bases de datos FASTA, BLAST – Dan soluciones buenas, no necesariamente óptimas – Pueden ser mucho más rápidos 07/03/2014 Introducción a la Bioinformática 107
  108. 108. • Es el procedimiento consistente en comparar dos (“pairwise”) o más (“multiple”) secuencias buscando los caracteres o patrones que aparezcan en el mismo orden en las secuencias • Podemos distinguir entre alineamientos – Globales: Alineamiento de secuencias completas – Locales : Alineamiento de subsecuencias 07/03/2014 Introducción a la Bioinformática 108
  109. 109. 2 Secuencias no alineadas L G P S S K L N I T K S Alineamiento global L G P S │ L N ▬ I T S A Alineamiento local ▬ ▬ ▬ ▬ ▬ ▬ ▬ T ▬ ▬ ▬ ▬ ▬ ▬ ▬ A T K │ K T G Q 07/03/2014 S Q A G K K G G A S I S M R R I L W G D D N A G │ G K │ K G │ G S ▬ S A I M G │ G K │ K G │ G ▬ ▬ ▬ ▬ ▬ ▬ ▬ ▬ Introducción a la Bioinformática R │ R I W L G D │ D N A ▬ ▬ ▬ ▬ ▬ ▬ ▬ ▬ 109
  110. 110. I I I M M N I I I 07/03/2014 A P F G R A M ▬ ▬ M P R N F ▬ I A L A A A N C I G C L A T B ▬ T ▬ B I L I I I L C E E A N A C A ▬ ▬ B LE B B B Introducción a la Bioinformática L L L E E E 110
  111. 111. 07/03/2014 Introducción a la Bioinformática 111
  112. 112. • Se obtienen disponiendo dos secuencias S y T en los márgenes horizontal y vertical de una tabla • y marcando con una cruz (un punto) todas las posiciones en que coinciden los caracteres de S y T – Si son idénticas se observa una diagonal definida – Cuanto más diferentes sean, más difusa será – La aparición de patrones permite revelar estructuras en las secuencias 07/03/2014 Introducción a la Bioinformática 112
  113. 113. • Para facilitar la visualización, se opta a menudo por mostrar únicamente las diagonales formadas por un número mínimo de puntos (umbral de severidad). Cota que se fija como mínimo valor para mostrar la secuencia. • Si el umbral de severidad es alto  – Eliminamos el ruido de fondo (“filtrado alto”) – Solo detecta similitudes muy altas • Si es bajo  – Hay ruido de fondo – Detecta relaciones distantes En Softcomputing se denominan alfa-cortes 07/03/2014 Introducción a la Bioinformática 113
  114. 114. 07/03/2014 Introducción a la Bioinformática 114
  115. 115. 07/03/2014 Introducción a la Bioinformática 115
  116. 116. 07/03/2014 Introducción a la Bioinformática 116
  117. 117. 07/03/2014 Introducción a la Bioinformática 117
  118. 118. • Para cuantificar la similitud entre dos cadenas, S y T, definimos sistemas de puntuaciones de forma que para cada alineamiento se pueda calcular un número tal que, a mayor valor, mayor sea su significación (biológica) • Pueden ser esquemas sencillos como por ej – Coincidencia , S[i]=T[i]  1, – No coincidencia, S[i]#T[i]  0, – Inserción de espacios (gaps)  -1, • o bien sistemas más complejos basados en afinidades químicas o en frecuencias de emparejamiento observadas 07/03/2014 Introducción a la Bioinformática 118
  119. 119. • Una vez establecido un sistema de puntuación la puntuación de una pareja de caracteres s,t alineados se define como p(s,t) • La puntuación (score) de un alineamiento entre S y T p ( s, t ) p S [i ], T [i ] i • Un alineamiento es óptimo si su puntuación es la más grande posible 07/03/2014 Introducción a la Bioinformática 119
  120. 120. S= T= p(s,t) T T 1 G A 0 C A 0 A G 0 G T 0 T S= T= p(s,t) A A 1 T T 1 G A 0 C A 0 A ▬ -1 G G 1 T T 1 3 S= T= p(s,t) 07/03/2014 A A 1 A A 1 T T 1 G ▬ -1 C A 0 A A 1 G G 1 T T 1 4 Introducción a la Bioinformática 2 120
  121. 121. Puntuación con esquema simple S= T= p(s,t) S= T= p(s,t) 07/03/2014 T -1 T T 1 Y G 0 G Y 0 A A 1 P P 1 P P 1 W P 0 C W 0 S S 1 T T 1 T G 0 Y Y 1 G A 0 A P 0 P P 1 P P 1 W W 1 C S 0 S Introducción a la Bioinformática -1 4 4 121
  122. 122. • Los dos alineamientos del ejemplo anterior puntúan igual. Sin embargo – a) conserva residuos comunes (T,A, P, S) – b) conserva residuos menos habituales (W, Y) • El sistema de puntuar los emparejamientos entre AA debería reflejar su relación química y biológica – Residuos similares/distintos deberían puntuar alto/bajo pues el cambiar uno por otro afectará poco/mucho la función de la proteína 07/03/2014 Introducción a la Bioinformática 122
  123. 123. • Una forma usual de definir el sistema de puntuación es utilizando una matriz de sustitución • Es una tabla que contiene las puntuaciones que asignamos a cada pareja posible (sirve para las coincidencias y las no-coincidencias) • El término „sustitución‟ refleja que lo que se pretende al puntuar un emparejamiento es valorar el coste evolutivo de cambiar un residuo por otro 07/03/2014 Introducción a la Bioinformática 123
  124. 124. Secuencia 1 actaccagttcatttgatacttctcaaa Secuencia 2 Matriz identidad P(i,i)=1, P (i,j)=0 o alguna variante P(i,i)=0.9, P (i,j)=-0.1 07/03/2014 taccattaccgtgttaactgaaaggacttaaagact A G C T A 1 0 0 0 G 0 1 0 0 C 0 0 1 0 T 0 0 0 1 Introducción a la Bioinformática Match: 1 Mismatch: 0 Score = 5 124
  125. 125. • Los AA tienen distintas propiedades  posibilidades distintas de ser sustituidos unos por otros en la tiny evolucion aliphatic P C S+S I V A L hydrophobic M Y F small G G CSH T S D K W H N E R Q aromatic positive polar charged 07/03/2014 Introducción a la Bioinformática 125
  126. 126. • Las matrices de puntuación se construyen para que reflejen: – El nº de mutaciones necesario para convertir una secuencia en otra – La similaridad química – Las frecuencias de mutación observadas – La probabilidad de ocurrencia de cada AA. • La más utilizadas son las PAM y las BLOSUM – PAM: Point Accepted Mutation Matrix – BLOSUM: BLOcks SUbstitution Matrix 07/03/2014 Introducción a la Bioinformática 126
  127. 127. • No hay una matriz única que se pueda usar siempre. • Pero se pueden escoger según la familia de proteínas y grado de similitud esperado. • PAM – Derivadas de alineamientos globales de secuencias próximas – A mayor número asumimos que hay nº mayor distancia evolutiva – Mínimo: PAM40 (secs. Similares)  Máx: PAM250 (secs distantes) • BLOSUM – Derivadas de alineamientos locales de secuencias distantes – A mayor número asumimos que mayor proximidad evolutiva – Minimo: BLOSUM90 Maximo: BLOSUM45 (El nº representa porcentaje de identifdad) 07/03/2014 Introducción a la Bioinformática 127
  128. 128. • Ciertas sustituciones de AA son muy comunes en proteínas homólogas. Otras no lo son en absoluto. • Esto puede interpretarse como que: – Las primeras mantienen la función de la proteína (existencia de homología) – Las segundas afectan negativamente a su función (ausencia de homología) • Las sustituciones “inusuales” tendrán menor grado de aceptación por por parte de la selección natural. • Para poder hacer alineamientos que reflejen el proceso evolutivo que ha llevado a cambiar una secuencia por otra es preciso disponer de estimaciones de la frecuencia con que se produce cada cambio o sustitución. • Para responder a esta necesidad se crearon las matrices de sustitución. a la Bioinformática 07/03/2014 Introducción 128
  129. 129. • En la construcción de matrices de sustitución se utilizaron dos tipos de modelos probabilísticos para las sustituciones. – Modelo de homología: La probabilidad de una substitución entre dos AA1 y AA2 depende de si se ve favorecida o no por la evolución. – Modelo nulo: La probabilidad de observar una sustitución depende tan solo de la probabilidad con que se encuentra AA1 y AA2 en la población. 07/03/2014 Introducción a la Bioinformática 129
  130. 130. • • • • La probabilidad de las substituciones bajo el modelo de homología se estima a partir de alineamientos entre secuencias de relación conocida. El valor qij es una estimación de la probabilidad de la sustitución La probabilidad de las sustituciones bajo el modelo nulo se estima simplemente como el producto de las probabilidades de que el aa i sustituya y el aa j sea sustituido. El cociente entre ambas probabilidades nos da una idea de que resulta más verosímil – – 07/03/2014 Hay homología (R > 1, log(R) > 0) Sustitución al azar (R < 1, log(R) < 0) Introducción a la Bioinformática 130
  131. 131. • Las matrices de sustitución contienen para cada sustitución el logaritmo de la razón entre la probabilidad de la sustitución suponiendo homología o suponiendo que se producen al azar. – Si la sustitución se ve favorecida por la selección será más probable observarla que lo que seria de esperar del simple azar  El cociente será superior a uno y el logaritmo positivo. – Si la sustitución se ve desfavorecida por la selección será más plausible observarla por azar que porque se haya conservado evolutivamente  El cociente será menor que uno y el logaritmo negativo. • Las sustituciones con valores positivos en las matrices de sustitución suele corresponderse con AA cuyas propiedades fisicoquímicas son similares. 07/03/2014 Introducción a la Bioinformática 131
  132. 132. • Derivadas de alineamientos globales de familias de proteínas. • Dayhoff et al., 1978 escogieron familias de proteínas cuyos miembros presentaran como mínimo un 85% de identidad. – Para cada familia se construyeron árboles filogenéticos – Se calculó el número de sustituciones para cada aminoácido • El número de sustituciones se utilizó para calcular las matrices PAM-1, que representan aquella situación en que en promedio ha habido sustituciones en tan sólo el 1% de las posiciones. • La construcción de matrices para mayores tasas de sustituciones se realiza mediante un modelo de Markov a partir de la matriz PAM-1. – PAM250 = 250 mutaciones por 100 residuos • Cuanto mayor es el número estamos suponiendo una mayor distancia entre las secuencias que deseamos alinear. 07/03/2014 Introducción a la Bioinformática 132
  133. 133. PAM 250 A R N D C Q E G H I L K M F P S T W W Y V B Z 07/03/2014 A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 -8 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 Introducción a la Bioinformática S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 17 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 133
  134. 134. BLOSUM (Blocks Substitution Matrix) • Derived from alignments of domains of distantly related proteins (Henikoff & Henikoff,1992). A A C E C • Occurrences of each amino acid pair in each column of each block alignment is counted. A A C • The numbers derived from all blocks were E used to compute the BLOSUM matrices. C 07/03/2014 Introducción a la Bioinformática A- C = 4 A- E = 2 C-E =2 A-A = 1 C-C =1 134
  135. 135. BLOSUM (Blocks Substitution Matrix) • Sequences within blocks are clustered according to their level of identity. • Clusters are counted as a single sequence. • Different BLOSUM matrices differ in the percentage of sequence identity used in clustering. • The number in the matrix name (e.g. 62 in BLOSUM62) refers to the percentage of sequence identity used to build the matrix. • Greater numbers mean smaller evolutionary distance. 07/03/2014 Introducción a la Bioinformática 135
  136. 136. TIPS on choosing a scoring matrix • Generally, BLOSUM matrices perform better than PAM matrices for local similarity searches (Henikoff & Henikoff, 1993). • When comparing closely related proteins one should use lower PAM or higher BLOSUM matrices, for distantly related proteins higher PAM or lower BLOSUM matrices. • For database searching the commonly used matrix is BLOSUM62. 07/03/2014 Introducción a la Bioinformática 136
  137. 137. • En un sistema de puntuación es importante definir el coste de insertar o eliminar un residuo, lo que en el alineamiento aparece como un hueco (“gap”) • Suele penalizarse distinto – el primer hueco (“gap opening”) – que los restantes (“gap extension”) que parten de él • La variación de estos parámetros puede tener efectos importantes en el alineamiento final 07/03/2014 Introducción a la Bioinformática 137
  138. 138. Coste de apertura de gap Coste de extensión del gap Grande Grande Pocas inserciones o eliminaciones Bueno para proteínas muy relacionadas Grande Pequeño Algunas inserciones grandes Bueno si puede que se hayan insertado dominios completos Pequeño Grande Muchas inserciones pequeñas Bueno si se trata de proteínas distantes 07/03/2014 Comentario Introducción a la Bioinformática 138
  139. 139. 07/03/2014 Introducción a la Bioinformática 139
  140. 140. • Un algoritmo para obtener el alineamiento óptimo es: – Construir todos los posibles alineamientos – Calcular la puntuación de cada uno – El alineamiento óptimo es el que obtenga el valor más grande (puede haber más de uno!) • El número de alineamientos posibles es muy alto: Si S, T constan de unos 20 caracteres pueden hacer falta más de 240 operaciones!!! 07/03/2014 Introducción a la Bioinformática 140
  141. 141. • La idea básica de la programación dinámica es una técnica de diseño de algoritmos consistente en – Considerar, en primer lugar, los casos más sencillos de un problema – Resolverlos – Combinarlos para obtener la solución de casos más complicados – Hasta resolver el caso completo original 07/03/2014 Introducción a la Bioinformática 141
  142. 142. • Los dos más conocidos son – Needleman y Wunsch (1970) para alineamientos globales – Smith y Waterman (1981), una variante para alineamientos locales • Sirven para alinear tanto DNA como proteínas • Cada algoritmo retorna los alineamientos con la máxima puntuación posible para una matriz de substitución y un coste de “gaps” dados • El alineamiento obtenido no tiene necesariamente un significado biológico 07/03/2014 Introducción a la Bioinformática 142
  143. 143. 143
  144. 144. • Problema del ascensor (variante del famoso problema de la mochila) • Función objetivo 1: Maximizar el número de personas que transportará el ascensor • Función objetivo 2: Maximizar el peso que transportará el ascensor • Datos: – Capacidad del ascensor C=300kg – Pesos de las personas en espera: 30, 40, 50, 70, 90, 150 • Criterio voraz 1: Escoger en cada etapa la persona de menor peso • Criterio voraz 2: Escoger en cada etapa la persona de 144 mayor peso
  145. 145. 145
  146. 146. 146
  147. 147. 147
  148. 148. 148
  149. 149. 149
  150. 150. 150
  151. 151. 151
  152. 152. 152
  153. 153. 153
  154. 154. 154
  155. 155. 155
  156. 156. 156
  157. 157. 157
  158. 158. 158
  159. 159. 159
  160. 160. 160
  161. 161. 161
  162. 162. 162
  163. 163. 163
  164. 164. 164
  165. 165. 165
  166. 166. Alineamiento de Secuencias Se denomina alineamiento de secuencias en bioinformática al proceso de representar y comparar dos o más secuencias o cadenas de ADN o ARN para resaltar sus zonas de similitud, con el fin de descubrir relaciones funcionales o evolutivas entre los genes o proteínas de donde proceden dichas cadenas. Las secuencias alineadas se escriben con los símbolos (códigos) de aminoácidos o nucleótidos en filas de una matriz en las que, si es necesario, se insertan espacios para que las zonas con idéntica o similar estructura se alineen. Cuando dos secuencias en un alineamiento comparten un ancestro común, las no coincidencias pueden interpretarse como mutaciones puntuales y los huecos del alineamiento como mutaciones de inserción o delección introducidas en uno o en ambos linajes en el tiempo que transcurrió desde que divergieron. 166
  167. 167. Alineamiento de Secuencias 167
  168. 168. Alineamiento de Secuencias • En secuencias de proteínas el grado de similitud entre los aminoácidos en posiciones concretas se interpreta como medida de conservación de una región particular entre linajes. • La ausencia de sustituciones o presencia de sustituciones muy conservadas tiene importancia estructural o funcional. • De esta forma el alineamiento de secuencias se utiliza para obtener conclusiones de similitud-no similitud entre las secuencias y deducir propiedades, funcionalidades, etc. • Las técnicas de alineamiento de secuencias también pueden utilizarse con otros tipos de secuencias de símbolos y caracteres para identificación de similitudes en series de letras y palabras del lenguaje humano y también en análisis de datos financieros. 168
  169. 169. Alineamiento de Secuencias Representación de alineamientos Se representan normalmente con un formato gráfico y de texto. En casi todas las representaciones de alineamientos se escriben las secuencias en filas de forma que los residuos alineados aparecen en columnas sucesivas, como se muestra en la siguiente figura. 169
  170. 170. Alineamiento de Secuencias Las columnas alineadas contienen caracteres idénticos o similares. Muchos programas de visualización de secuencias utilizan también esquemas coloreados para mostrar información de las propiedades, por ejemplo, en secuencias de ADN y ARN se asigna a cada base su propio color. Los alineamientos de secuencias pueden almacenarse en una gran variedad de formatos y muchos de estos formatos han sido desarrollados para atender la ejecución de algún programa de alineamiento por lo que muchas veces el formato está asociado al programa, como el formato FASTA y el GenBank. A veces esto provoca problemas de compatibilidad. 170
  171. 171. Tipos de alineamiento Hay tres tipos fundamentales: global, local e híbrido. • Los alineamientos globales intentan alinear cada residuo de cada secuencia. Son más útiles cuando las secuencias iniciales son similares y aproximadamente del mismo tamaño. El algoritmo de Needleman-Wunsch, basado en programación dinámica, es un ejemplo de estrategia general de alineamiento global basado en Programación Dinámica • Los alineamientos locales son más útiles para secuencias diferenciadas en las que se sospecha que existen regiones muy similares. • El algoritmo de Smith-Waterman es un método general de alineamiento local basado en Programación Dinámica • Los métodos híbridos también son conocidos como semiglobales o “glocales” intentan encontrar el mejor alineamiento que incluya el inicio y el final de una u otra secuencia. 171
  172. 172. Alineamientos globales: Algoritmo de Needleman-Wunsch El algoritmo Needleman-Wunsch realiza un alineamiento global de dos secuencias (aquí llamadas A y B). Usado en bioinformática para alinear secuencias de nucleótidos o proteínas. Fue propuesto en 1970 por Saul Needleman y Christian Wunsch en el artículo “A general method applicable to the search for similarities in the amino acid sequence of two proteins”, J Mol Biol. 48(3):443-53. El algoritmo Needleman–Wunsch es un ejemplo de programación dinámica, y está garantizado que encuentra el alineamiento con la puntuación máxima. Needleman–Wunsch fue la primera aplicación de programación dinámica para la comparación de secuencias biológicas. 172
  173. 173. Alineamientos globales: Algoritmo de Needleman-Wunsch La puntuación para caracteres alineados está especificada por una matriz de similitud S(i,j) cuyos valores denotan la similitud de los caracteres i y j de las respectivas secuencias en comparación. Esta usa una penalidad por hueco (gap) lineal, aquí llamada d. Por ejemplo, si la matriz de similitud es: Entonces el alineamiento es: AGACTAGTT AC CGA - - -GACGT 173
  174. 174. Con una penalidad por hueco de -5, tendríamos la siguiente puntuación: Alineamientos globales: Algoritmo de Needleman-Wunsch AG AC TA GTTAC CGA - - - GACGT 174
  175. 175. Alineamientos globales: Algoritmo de Needleman-Wunsch Para encontrar el alineamiento con más puntuación se utilizan matrices bidimensionales. En la matriz bidimensional F hay una columna por cada carácter de la secuencia A, y una fila para cada carácter de la secuencia B. Así si estamos alineando secuencias de tamaños n y m, el tiempo de ejecución del algoritmo es proporcional a la dimensión de la matriz F, es decir, de orden O(nxm) y la cantidad de memoria utilizada también es del mismo orden O(nxm). Sin embargo hay una versión modificada del algoritmo que usa solo O(n+m) espacio, al costo de un tiempo de ejecución más grande. Esta modificación es de hecho una técnica general que aplicamos a muchos algoritmos de programación dinámica; este método fue introducido en el algoritmo de Hirschberg para resolver el problema de la subsecuencia común más larga. 175
  176. 176. Alineamientos globales: Algoritmo de Needleman-Wunsch Cuando el algoritmo progresa, el elemento Fij de la matriz puede ser asignado para ser la puntuación óptima para el alineamiento de los primeros i caracteres en A y los primeros j caracteres en B. El principio de optimización es entonces aplicado como se describe mediante las ecuaciones recurrentes: F(0,j) = d * j F(i,0) = d * i F(i,j) = max(F(i − 1,j − 1) + S(Ai − 1,Bj − 1),F(i,j − 1) + d,F(i − 1,j) + d) 176
  177. 177. Alineamientos globales: Algoritmo de Needleman-Wunsch El pseudo-código del algoritmo que calcula la matriz A es el siguiente: for i=0 a long(A)-1 F(i,0)  d*i for j=0 a long(B)-1 F(0,j)  d*j for i=1 a long(A) for j = 1 a long(B) { Elección1  F(i-1,j-1) + S(A(i-1), B(j-1)) Elección2  F(i-1, j) + d Elección3  F(i, j-1) + d F(i,j)  max(Elección1, Elección2, Elección3) } 177
  178. 178. Alineamientos globales: Algoritmo de Needleman-Wunsch Una vez que la matriz F está calculada, la puntuación máxima para cualquier alineamiento se encuentra en la esquina inferior derecha de la matriz. Para calcular cuál es el alineamiento que produce esa puntuación, empezando desde la celda que se encuentra al fondo a la derecha, y comparar el valor con las tres posibles fuentes (Elección1, Elección2, Elección3) para ver de donde proviene. Si era Elección1, entonces A(i) y B(i) están alineadas, si era Elección2 entonces A(i) está alineado con un gap, y si era Elección3, entonces B(i) está alineada con un gap. 178
  179. 179. Alineamientos globales: Algoritmo de Needleman-Wunsch AlineamientoA  “” AlineamientoB  “” i  long(A) j  long(B) while (i > 0 AND j > 0) { Score  F(i,j) ScoreDiag  F(i – 1, j – 1) ScoreUp  F(i, j – 1) ScoreLeft  F(i – 1, j) if (Score == ScoreDiag + S(A(i-1), B(j-1))) { AlineamientoA  A(i-1) + AlineamientoA AlineamientoB  B(j-1) + AlineamientoB ii–1 jj–1 } else if (Score == ScoreLeft + d) { AlineamientoA  A(i-1) + AlineamientoA AlineamientoB  “-” + AlineamientoB ii–1 } otherwise (Score == ScoreUp + d) { AlineamientoA  “-” + AlineamientoA AlineamientoB  B(j-1) + AlineamientoB jj–1 } } while (i > 0) { AlineamientoA  A(i-1) + AlineamientoA AlineamientoB  “-” + AlineamientoB i <- i – 1 } while (j > 0) { AlineamientoA  “-” + AlineamientoA AlineamientoB  B(j-1) + AlineamientoB jj–1 } 179
  180. 180. Alineamientos locales: Algoritmo Smith-Waterman El algoritmo Smith-Waterman es un famoso algoritmo para realizar alineamientos locales de secuencias; esto es, determinar regiones similares entre dos secuencias de nucleótidos o proteínas. El algoritmo fue propuesto por Temple Smith y Michael Waterman en 1981. Como el algoritmo Needleman-Wunsch, del cual es una variación, Smith-Waterman es un algoritmo de programación dinámica. Como tal, posee la atractiva propiedad que garantiza encontrar el alineamiento local óptimo con respecto al sistema de puntaje que está siendo utilizado (que incluye la matriz de sustitución y el plan de puntaje con interrupciones). La principal diferencia con el algoritmo Needleman-Wunsch es que las celdas negativas de las matrices de puntuación se inicializan a cero, lo cual hace que los alineamientos locales sean visibles. 180
  181. 181. Alineamientos locales: Algoritmo Smith-Waterman El retroceso comienza en la celda de la matriz con el puntaje más alto y continua hasta que una celda con puntaje cero es encontrada, proporcionando el puntaje más alto para el alineamiento local. Una motivación para alineamientos locales es la dificultad para obtener alineamientos correctos en regiones de baja similitud entre secuencias biológicas lejanamente emparentadas, porque las mutaciones agregaron mucho “ruido” con la evolución para permitir una comparación significativa de estas regiones. Los alineamientos locales evitan estas regiones completamente y se concentran en aquellas con un puntaje positivo, por ejemplo, aquellas con señales de similitud conservadas por la evolución. Una prerrequisito para alineamientos locales es una expectativa de puntaje negativo. La expectativa de puntaje es definida como el puntaje promedio que el sistema de puntaje (matriz de sustitución y penalidades por huecos) puede proporcionar para una secuencia aleatoria. 181
  182. 182. Alineamientos locales: Algoritmo Smith-Waterman Otro motivo para usar alineamientos locales es que existe un modelo estadístico confiable (desarrollado por Karlin y Altschul) para alineamientos locales óptimos. El alineamiento de secuencias no relacionadas tiende a producir puntajes de alineamiento local óptimos que siguen una distribución de valores extrema. Esta propiedad permite a los programas producir un valor esperado para el alineamiento óptimo de dos secuencias, el cual es una medida de la frecuencia con que dos secuencias podrían producir un alineamiento óptimo cuyo puntaje es mayor o igual al puntaje observado. Valores muy bajos de expectativa indican que las dos secuencias pueden ser homólogas, lo que significa que podrían tener un ancestro en común. Sin embargo, el algoritmo Smith-Waterman es bastante demandante de recursos de tiempo y memoria: para alinear dos secuencias de longitudes m y n, el tiempo y el espacio requerido son O(mxn). Como resultado, en la práctica es remplazado principalmente por el algoritmo BLAST que si bien no garantiza encontrar los alineamientos óptimos, es mucho más eficiente. 182
  183. 183. 1. 2. 3. 4. La bioinformática y las bases de datos Las bases de datos en biología molecular Formato de la información almacenada Herramientas de búsqueda Introducción a la Bioinformática 184
  184. 184. • El proyecto genoma humano y similares genera un inmenso flujo de información • Para poder utilizar esta información, ha de estar almacenada correctamente • El acceso a la información almacenada ... – Ha de ser rápido – Debe poder hacerse de manera flexible • Esto es posible gracias a la creación de bases de datos y distribución vía Internet. Introducción a la Bioinformática 185
  185. 185. • Búsqueda de información. – Por palabra clave, números de acceso, autores... • Búsqueda de homologías – ¿Hay secuencias igual o parecidas a la mía ? • Búsqueda de patrones – ¿Mi secuencia contienen patrones conocidos? • Predicciones – ¿Puedo encontrar proteínas parecidas a la mía, pero con función conocida? Introducción a la Bioinformática 186
  186. 186. • Los proveedores de recursos – Centros o organizaciones especializadas en tener y mantener las bases de datos. • Bases de datos – Hay mucha variedad y contiene información diversa • Las herramientas – Para encontrar información en las BD – Para contrastar secuencias contra las BD – Para exportar la información Introducción a la Bioinformática 187
  187. 187. • El National Center for Biotechnology Information (NCBI) centraliza los bancos de datos y aplicacions de EEUU • El European Bioinformatics Institute (EBI) realiza una función similar en Europa • GenomeNet reune bases de datos diversas en Japón Introducción a la Bioinformática 188
  188. 188. • Existen cientos de BD en número tan elevado que no es práctico enumerarlas (aunque aquí lo intentan) • Por el tipo de información que contienen distinguimos – – – – – – Bases de datos bibliográficas Bases de datos taxonómicas Bases de datos de nucleótidos Bases de datos genómicas Bases de datos de proteinas Bases de datos de microarrays Introducción a la Bioinformática 189
  189. 189. • Organización de los artículos publicados en la revistas de ámbito científico. – Pubmed (NCBI) – Medline (EBI) – Biocatalog: organización de los artículos por temáticas concretas de biología molecular. Introducción a la Bioinformática 190
  190. 190. • Son BD que contienen información sobre la clasificación de los seres vivos • Esta clasificación es básicamente jerárquica y basada en información molecular • Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos • Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica Introducción a la Bioinformática 191
  191. 191. • Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica • Existen varias BD que intercambian diariamente su contenido – Genbank (NCBI) – EMBL (EBI) – KEGG (Genome net) Introducción a la Bioinformática 192
  192. 192. • Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos. – Ensembl (EBI) – Genome viewer (NCBI) – Goldenpath (UCSC) • Existen también recursos genómicos especializados – – – – Transfact: sitios de unión a factores de transcripción. EST: Expressed Sequence Tags UTRDB: Untranslated regions SpliceSitesDB: Pares de señales de splicing Introducción a la Bioinformática 193
  193. 193. • Secuencias primarias de aminoácidos – Sin revisión humana • Trembl (EBI) • nr (NCBI) – Con revisión de la anotación • Swisprot (EBI) – Bases de datos de proteomas • Proteome analysis (EBI) Introducción a la Bioinformática 194
  194. 194. • Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas. – BLOCKS: Motivos alineados de PROSITE/PRINTS – PROSITE: Expresiones regulares sobre Swiss-prot – PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL – PFAM: Modelos de Markov sobre Swiss-prot – INTERPRO: Integra la información de muchas bases de datos de dominios. Introducción a la Bioinformática 195
  195. 195. • Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo. – PDB: Base de datos principal de estructuras tridimensionales – CATH: Clasificación de PDB en diferentes grupos funcionales y estructurales – MMDB: subset de PDB mantenido por NCBI – MSD: subset de PDB mantenido por EBI Introducción a la Bioinformática 196
  196. 196. • Bases de datos con las imágenes y resultados obtenidos por arrays de expresión. – ArrayExpress (EBI) – Riken Expression Array Database – Eisen Laboratory (Lawrence Berkeley National Lab) Introducción a la Bioinformática 197
  197. 197. • La calidad de la información en una base de datos, está muy relacionada con su estructura • Este aspecto también es crucial para su eficiencia y accesibilidad . • En la actualidad no existe ningún formato único y estándar, usualmente cada base de datos impone su propio formato. Introducción a la Bioinformática 198
  198. 198. Introducción a la Bioinformática 199
  199. 199. Introducción a la Bioinformática 200
  200. 200. Introducción a la Bioinformática 201
  201. 201. SRS y Entrez Introducción a la Bioinformática
  202. 202. • • • • • La extracción de información SRS Inicio y búsqueda rápida Busquedas mejoradas Visualización de los resultados Enlaces a otras bases de datos Introducción a la Bioinformática
  203. 203. • La búsqueda y extracción de información de las BD se realiza con herramientas específicas como SRS o Entrez • Suelen estar asociadas a los bancos de datos – NCBI : Entrez – EBI: SRS • Evolucionan muy rápidamente pasando a incorporar las características que los diferenciaban en anteriores versiones: – La última versión de SRS incorpora un extenso acceso a PubMed como hacía la anterior de Entrez Introducción a la Bioinformática
  204. 204. • Sequence Retrieval System • Es el sistema de recuperación de la información disponible en el EBI • Dispone de muchas posibilidades por lo que se puede trabajar de formas diversas • Haciendo click aquí se accede a tutoriales de distinto nivel en el EBI Introducción a la Bioinformática
  205. 205. • Tras iniciar la sesión se accede a la página principal Top Page • Desde esta página es posible… – Seleccionar la base de datos donde buscar • Puede seleccionarse todo (“all”), uno o más bancos (“SWALL”, “EMBL”,…) o subconjuntos de estos (“TrEMBL”,…) – Realizar consultas sencillas (“Quick search”) mediante un solo término Introducción a la Bioinformática
  206. 206. Introducción a la Bioinformática
  207. 207. • Más completa • Permite combinar campos y términos – – – – – Elegir “Standard Query” Introducir términos de búsqueda Seleccionar campos donde buscar Combinar con AND / OR… Seleccionar formato de salida • En vez de la anterior se puede, p.ej. buscar – Description = “Prion” AND Organism = “Bovin” – Pasamos a obtener 10 resultados Introducción a la Bioinformática
  208. 208. Introducción a la Bioinformática
  209. 209. Introducción a la Bioinformática
  210. 210. • Haciendo doble click sobre los resultados se accede a la información contenida en la BD de donde procede • Es posible visualizar los resultados en distintos formatos • Si, por ejemplo, deseamos proseguir con los análisis podemos obtener la secuencia en formato FASTA seleccionando FastaSeq en el menú View Introducción a la Bioinformática
  211. 211. Introducción a la Bioinformática
  212. 212. Introducción a la Bioinformática
  213. 213. Introducción a la Bioinformática
  214. 214. • Si se desea precisar aún más la búsqueda – Por un rango de fechas determinado – Por la longitud de la secuencia –… Puede realizarse mediante “Extended query” • Por ejemplo se desea averiguar cuantas secuencias de tamaño superior a 200 AA se depositaron el año 2000? Introducción a la Bioinformática
  215. 215. Introducción a la Bioinformática
  216. 216. Introducción a la Bioinformática
  217. 217. • En ocasiones puede ser conveniente combinar varias consultas – Por ejemplo si se desea utilizar operadores distintos entre las partes de la consulta • (“A” y “B”) o (“C” y “D”) pero no “E” • Puede hacerse seleccionando la página Results y en ella marcar – Las consultas que se desea combinar – Los operadores que se desea emplear Introducción a la Bioinformática
  218. 218. • Podemos variar la formas de visualizar los resultados mediante las vistas – La vista estándar muestra tan sólo un listado de los hallazgos – Podemos seleccionar que campos deseamos que aparezcan, de forma que accedamos más rápidamente a la información que nos interesa Introducción a la Bioinformática
  219. 219. • El objetivo usual de realizar búsquedas es realizar algún tipo de análisis con las secuencias halladas • Alunos análisis habituales pueden lanzarse directamente desde la pantalla de resultados – BlastN, NFASTA, Clustalw … Introducción a la Bioinformática
  220. 220. • Es posible enlazar varias bases de datos de forma que una vez efectuada una consulta, se acceda a la BD enlazada para visualizar los resultados de la consulta – Enlazando SWISSPROT con PDB es posible visualizar las estructuras moleculares de las proteínas que hemos hallado en una consulta • Si buscamos “hydrogenase” en SWISSPROT hallamos 970 entradas • Si enlazamos con PDB veremos que se dispone de la estructura 3D (en PDB) de 31 de las anteriores Introducción a la Bioinformática
  221. 221. 222
  222. 222. • Especificación FASTA del NCBI • >identificador |descriptor • ^A para varias cabeceras • Estos datos se guardan en archivos con extensión .fa, .mpfa, .fna, .fas, .fasta, etc. • Existen herramientas para convertir y transformar formatos: – FASTA to multi-FASTA converter – Multi-FASTA to FASTA converter http://www.dnabaser.com/download/Multi-FASTA%20spliter/index.html 223
  223. 223. El formato puede complicarse mucho con el añadido de otros parámetros y bloques de cabecera (ejemplo con Swiss-Prot) 224
  224. 224. • Procesos: – Transcripción: interacciones que activan copias – Splicing: se produce el RNA mensajero (mRNA) – Traducción: se sintetiza la cadena de aminoácidos • Predicción de genes: – Sintética: Se deduce la secuencia de aminoácidos codificada en una cadena de DNA genómico generando modelos computacionales para reproducir el mecanismo biológico que ocurre en la célula. – En genomas procariotas – En genomas eucariotas (más complejo) 225
  225. 225. Bioinformática 226
  226. 226. 1. 2. 3. Búsqueda de señales. La maquinaria celular reconoce secuencias mas o menos conservadas en el DNA genómico. Estadísticos codificantes. Las regiones codificantes tienen propiedades estadísticamente diferentes a las regiones no codificantes. Uso de homología. La similaridad con secuencias conocidas es un indicativo de que esa región pueda contener un gen homólogo. Introducción a la Bioinformática 227
  227. 227. El DNA codificante tiene una composición de nucleótidos diferente al resto de DNA genómico, debido a que ha de codificar para proteínas (es menos aleatorio). Estadístico codificante: es una función que dada una secuencia de DNA, nos devuelve un número relacionado con la probabilidad de que esa secuencia corresponda a una región codificante. Bioinformática 228
  228. 228. Algunos programas de predicción de genes permiten el uso de homologías con secuencias conocidas para mejorar las predicciones. Estas homologías las podemos encontrar en: • Proteínas de otras especies. • Fragmentos genómicos que sabemos que se transcriben (ESTs o cDNAs) • Comparación de genomas completos. Introducción a la Bioinformática 229
  229. 229. • • Predicción sintética: se deduce la secuencia de aminoácidos codificada en una cadena de ADN genómico generando modelos computacionales que reproduzcan el mecanismo biológico de las células. Predicción en genomas procariotas y eucariotas
  230. 230. Información utilizada para encontrar genes: 1. Búsqueda de señales. La maquinaria celular reconoce secuencias más o menos conservadas en el DNA genómico. 2. Estadísticos codificantes. Las regiones codificantes tienen propiedades estadísticamente diferentes a las regiones no codificantes. 3. Uso de homología. La similaridad con secuencias conocidas es un indicativo de que esa región pueda contener un gen homólogo.
  231. 231. El DNA codificante tiene una composición de nucleótidos diferente al resto de DNA genómico, debido a que ha de codificar para proteínas (es menos aleatorio). Estadístico codificante: es una función que dada una secuencia de DNA, nos devuelve un número relacionado (estimador) con la probabilidad de que esa secuencia corresponda a una región codificante. Introducción a la Bioinformática 232
  232. 232. Algunos programas de predicción de genes permiten el uso de homologías con secuencias conocidas para mejorar las predicciones. Estas homologías las podemos encontrar en: • Proteínas de otras especies. • Fragmentos genómicos que sabemos que se transcriben (ESTs o cDNAs) • Comparación de genomas completos. • Geneid es un programa de predicción de genes que integra la información Introducción a la Bioinformática 233
  233. 233. Integrando la información geneid como ejemplo de programa de predicción de genes. Estructura jerárquica : señales - exones - genes Introducción a la Bioinformática 234
  234. 234. • Los exones son las regiones de un gen que no son separadas durante el proceso de splicing y, por tanto, se mantienen en el ARN mensajero maduro. En los genes que codifican una proteína, son los exones los que contienen la información para producir la proteína codificada en el gen. En estos casos, cada exón codifica una porción específica de la proteína completa, de manera que el conjunto de exones forma la región codificante del gen. En eucariotas los exones de un gen están separados por regiones largas de ADN (llamadas intrones) que no codifican.
  235. 235. 1. Necesitamos un conjunto de genes conocidos para validar las predicciones. 2. Conceptos básicos para medir la fiabilidad: • Sensibilidad: proporción de genes reales que han sido predichos. • Especificidad: proporción de predicciones que corresponden con la realidad. Introducción a la Bioinformática 236
  236. 236. Sensibilidad y especificidad (estadística) Dado un estimador para una variable estadística discreta binaria se definen: La sensibilidad nos indica la capacidad de nuestro estimador para dar como casos positivos los casos realmente enfermos; proporción de enfermos correctamente identificados. Es decir, la sensibilidad caracteriza la capacidad de la prueba para detectar la enfermedad en sujetos enfermos. La especificidad nos indica la capacidad de nuestro estimador para dar como casos negativos los casos realmente sanos; proporción de sanos correctamente identificados. Es decir, la especificidad caracteriza la capacidad de la prueba para detectar la ausencia de la enfermedad en sujetos sanos. donde VP es verdaderos positivos y FN falsos negativos. La especificidad de una prueba representa la estimación de la probabilidad de que un sujeto sano tenga un resultado negativo en la prueba (VN, serían los verdaderos negativos; y FP, los falsos positivos). La sensibilidad es la fracción de verdaderos positivos y la especificidad la fracción de verdaderos negativos (FVN) Cada prueba tendrá mayor o menos porcentaje tanto en especificidad (SP) como en sensibilidad (SE) dependiendo de su punto de corte.
  237. 237. Introducción a la Bioinformática 238
  238. 238. • El objetivo de este proyecto fue estudiar la eficiencia de los programas de predicción de genes en una región de 2.9 Mb del genoma de Droshophila Melanogaster (mosca pequeña). • Las predicciones fueron comparadas en base a los resultados de un profundo estudio experimental (2 años recopilando cDNAs) que no fueron revelados hasta el final de la evaluación. Introducción a la Bioinformática 239
  239. 239. Introducción a la Bioinformática 240
  240. 240. Introducción a la Bioinformática 241
  241. 241. • Las predicciones cubren un 95% del proteoma. • La predicción a nivel de nucleótido mejor que a nivel de exón. • Muy baja proporción de genes correctamente predichos. • Métodos optimizados para una especie funcionan mejor. • Ningún programa es perfecto. Introducción a la Bioinformática 242
  242. 242. • La expresión génica es el proceso por medio del cual todos los organismos procariotas y eucariotas transforman la información codificada en los ácidos nucleicos en las proteínas necesarias para su desarrollo y funcionamiento. • En todos los organismos, inclusive los eucariotas, el contenido del ADN de todas sus células es idéntico. Esto quiere decir que contienen toda la información necesaria para la síntesis de todas las proteínas. Pero no todos los genes se expresan al mismo tiempo ni en todas las células. • Hay sólo un grupo de genes que se expresan en todas las células del organismo y codifican proteínas que son esenciales para el funcionamiento general de las células y son conocidos como genes constitutivos (en inglés, housekeeping genes). • En los diferentes tipos de células, los demás genes se expresan o no dependiendo de la función de la célula en un tejido particular.
  243. 243. • • • Métodos estadísticos para detectar la diferenciación entre genes expresados. Un Chip de ADN (del inglés DNA microarray) es una superficie sólida a la cual se une una colección de fragmentos de ADN. Las superficies empleadas para fijar el ADN son muy variables y pueden ser de vidrio, plástico e incluso de silicio. Los chips de ADN se usan para analizar la expresión diferencial de genes, monitorizándose los niveles de miles de ellos de forma simultánea. Su funcionamiento consiste, básicamente, en medir el nivel de hibridación entre la sonda específica (probe, en inglés), y la molécula diana (target), indicándose generalmente mediante fluorescencia y analizándose por análisis de imagen, lo cual nos indicará el nivel de expresión del gen. Suelen utilizarse para identificar genes con una expresión diferencial bajo condiciones distintas. Por ejemplo, para detectar genes que producen ciertas enfermedades mediante la comparación de los niveles de expresión entre células sanas y células que están desarrollando ciertos tipos de enfermedades. 244
  244. 244. 245
  245. 245. En Bioinformática 246
  246. 246. 247
  247. 247. 248
  248. 248. 249
  249. 249. 250
  250. 250. 07/03/2014 Introducción a la Bioinformática 251
  251. 251. 252
  252. 252. • • • • • • Introducción Matrices PAM Ejemplo de Matriz PAM Matrices BLOSUM Ejemplo de Matriz BLOSUM Referencias
  253. 253. • • • • • Una matriz de sustitución se elabora bajo una teoría de evolución. El resultado de la comparación de dos o más secuencias depende fuertemente de la matriz de sustitución que se haya seleccionado. Las matrices de sustitución son utilizadas en los análisis comparativos de secuencias. Los algoritmos de alineamiento (comparación ) funcionan igual con una matriz de distancias o con una matriz de sustitución (aunque se pueden obtener diferentes resultados). Una matriz de distancias es muy útil en la reconstrucción de un árbol filogenético, mientras que una matriz de sustitución es utilizada para realizar En biología evolutiva una matriz de sustitución, o de puntuación, busqueda en bases de datos. describe el ritmo al que un carácter en una secuencia cambia a otro carácter con el tiempo
  254. 254. X matriz única para uso siempre. • Familia de proteínas + grado de similitud >. • • Las más utilizadas. – PAM: Percent Accepted Mutation Matrix • Alineamientos globales de secuencias cercanamente relacionadas. • PAM40 PAM250.: > Nº = > distancia evolutiva – BLOSUM • Alineamientos locales de secuencias distantes • BLOSUM90 BLOSUM45 El Nº = % de identidad
  255. 255. • La cuestión era observar qué sustituciones ocurrian entre proteínas homólogas en un tiempo evolutivo . • PAM = cambio de aa x otro que ha sido "aceptado" por la selección natural (SN). • Los cambios más aceptados por la SN son los de tipo conservativo, ej. isoleucina por valina (hidrofòbicos y de tamaño similar). • Permite relacionar familias de proteínas por su distancia evolutiva.
  256. 256. Las matrices dan los cambios esperados para un periodo de tiempo evolutivo, la similaridad de la secuencia decrece como los genes que codifican la misma proteína divergen con el incremento del tiempo evolutivo.
  257. 257. Una unidad PAM es una medida arbitraria de divergencia evolutiva en la que se asume que el 1% de los aminoácidos han cambiado entre dos proteínas.
  258. 258. BLOSUM PAM
  259. 259. MATRIZ PAM • Nº sustituciones aa. = matriz PAM-1. • La matriz PAM-1 = variación media 1% posiciones aa . • Las matrices PAM para grandes distancias evolutivas puede extrapolarse a partir de la matriz PAM-1. • PAM250 = 250 mutaciones por 100 residuos. • > Nº = > distancia evolutiva
  260. 260. • alienaron 1572 secuencias de 71 proteínas diferentes
  261. 261. • se calculó la tasa de Mutaciones Aceptadas por la selección natural (Aij las veces que i cambia a j en todas las comparaciones) • las secuencias se comparan por pares y los cambios encontrados se presumen que se han presentado por selección natural.
  262. 262. • calcularon la mutabilidad de cada aminoácido, la tendencia del aminoácido j a ser sustituido, mj • Es la propensión que dado un aminoácido j sea reemplazado por cualquier otro aminoácido
  263. 263. • PAM 1 (es decir 1 cambio en 100 aminoácidos) con las siguientes formulas
  264. 264. • La matriz M1 establece una unidad de cambio evolutivo. La PAM 1 acepta una mutación cada 100 aminoácidos • Aplicaciones sucesivas de una matriz M1 a una secuenciapara algún k produce matrices M2, M3, ..., Mn. i k i M ij M ik M kj M 2 ij En general, k unidades de evolución = M k • Los elementos de la matriz PAM 0 son 1 para Mii y 0 para Mij.
  265. 265. Los datos fueron multiplicados por 10,000 para facilitar la presentación
  266. 266. • posteriormente se calculó la matriz log odds tomando los resultados del punto anterior y aplicando la siguiente manera: residuo se divide cada elemento de la matriz PAM 1 entre la ocurrencia del residuo donde fi es la frecuencia de i, y por último se calculó el logaritmo de cada Rij para obtener Sij
  267. 267. • i -> j = j -> i Porque para dos secuencias cualquiera, el a.a ancestro en el árbol filogenético no es conocido usualmente. (Mount 78) • Odds score : Cociente de cambio de substitución de un amino ácido. Permite determinar si las secuencias : – Variación evolutiva autentica – Secuencias aleatorias con ninguna significancia biológica. • El modelo de Darhoff es un proceso de Markov.
  268. 268. Calculo para obtener el Log odds score por cambios entre Phe y Try en una PAM 250
  269. 269. • Calculamos la frecuencia de cambio de F x Y 0.0021. • Calculamos los valores de PAM250. • En PAM250 el valor de frecuencia de F x Y es 0.15. • Para construir nuestra MDM. • 0.15/0.04 =3.75 Log(3.75) = 0.57 • 0.57 x 10 =5.7
  270. 270. • De la misma forma para Y x F. • 0.20/0.03 = 6.7 Log(6.7) = 0.83 • 0.83 x 10 = 8.3 Calculamos el promedio de 5.7 y 8.3 = 7
  271. 271. MDM Mutation Data Matrix
  272. 272. • Para obtener matrices PAM de mayor distancia (por ejemplo PAM 100) se multiplica por si misma el número de veces que sea requiera (en el ejemplo 100 veces.), antes de calcular su log odds, después del paso 6 pero antes del 7
  273. 273. • Calcular la matriz "Log Odds" de similaridad: Se divide cada elemento de la Matriz de probabilidad de Mutación (M), entre la frecuencia de occurrencia de cada aminoácido: • Rij = Mij/fi Donde: R es la matriz "Relatedness Odds". fi es la frecuencia del aminoácido i. La Matriz "Log Odds" (S) se calcula a partir de la matriz "Relatedness Odds" (R) de la siguiente forma: S ij = Log (Rij)
  274. 274. PAM250 A B N D C Q E G H I L K M F P S T W Y V A (Ala) 13 6 9 9 5 8 9 12 6 8 6 7 7 4 11 11 11 2 4 9 R (Arg) 3 17 4 3 2 5 3 2 6 3 2 9 4 1 4 4 3 7 2 2 N (Asn) 4 4 6 7 2 5 6 4 6 3 2 5 3 2 4 5 4 2 3 3 D (Asp) 5 4 8 11 1 7 10 5 6 3 2 5 3 1 4 5 5 1 2 3 C (Cys) 2 1 1 1 52 1 1 2 2 2 1 1 1 1 2 3 2 1 4 2 Q (Gln) 3 5 5 6 1 10 7 3 7 2 3 5 3 1 4 3 3 1 2 3 E (Glu) 5 4 7 11 1 9 12 5 6 3 2 5 3 1 4 5 5 1 2 3 G (Gly) 12 5 10 10 4 7 9 27 5 5 4 6 5 3 8 11 9 2 3 7 H (His) 2 5 5 4 2 7 4 2 15 2 2 3 2 2 3 3 2 2 3 2 I (Ile) 3 2 2 2 2 2 2 2 2 10 6 2 6 5 2 3 4 1 3 9 L (Leu) 6 4 4 3 2 6 4 3 5 15 34 4 20 13 5 4 6 6 7 13 K (Lys) 6 18 10 8 2 10 8 5 8 5 4 24 9 2 6 8 8 4 3 5 M (Met) 1 1 1 1 0 1 1 1 1 2 3 2 6 2 1 1 1 1 1 2 F (Phe) 2 1 2 1 1 1 1 1 3 5 6 1 4 32 1 2 2 4 20 3 P (Pro) 7 5 5 4 3 5 4 5 5 3 3 4 3 2 20 6 5 1 2 4 S (Ser) 9 6 8 7 7 6 7 9 6 5 4 7 5 3 9 10 9 4 4 6 T (Thr) 8 5 6 6 4 5 5 6 4 6 4 6 5 3 6 8 11 2 3 6 W (Trp) 0 2 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 55 1 0 Y (Tyr) 1 1 2 1 3 1 1 1 3 2 2 1 2 15 1 2 2 3 31 2 V (Val) 7 4 4 4 4 4 4 4 5 4 15 10 4 10 5 5 5 72 4 17
  275. 275. Objetivo.Detectar similaridad de secuencias. Premisa: El score de alineamiento sin gaps puede ser más alto, cuando se usa una matríz correcta Base. Homología de proteínas (Distancia evolutiva) PAM 1: 1 mutación cada 100aa PAM 200 PAM120 PAM80 PAM60 : : : : 25% similaridad 40% similaridad 50% similaridad 60% similaridad • La PAM1 por ejemplo es la matriz calculada a partir de comparaciones de secuencias con no más del 1% de divergencia . Otras matrices PAM fueron extrapoladas a partir de PAM1.
  276. 276. PAM 250 A R N D C Q E G H I L K M F P S T W Y V B Z W A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C C Q -2 0 -4 1 -4 1 -5 2 12 -5 -5 4 -5 2 -3 -1 -3 3 -2 -2 -6 -2 -5 1 -5 -1 -4 -5 -3 0 0 -1 -2 -1 -8 -5 -8 0 -4 -2 -2 -3 3 -4 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W W Y -6 -3 2 -4 -4 -2 -7 -4 -8 0 -5 -4 -7 -4 -7 -5 -3 0 -5 -1 -2 -1 -3 -4 -4 -2 0 7 -6 -5 -2 -3 -5 -3 17 17 0 0 10 -6 -2 -4 -2 -4 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6
  277. 277. • Muchas secuencias se desvian de la composición promedio. • Se encontraron reemplazos muy poco frecuentes que no se podian explicar por las probabilidades encontradas. • Cualquier error en la PAM1 es “supermagnificado” en la PAM250 • Los procesos de Markov son una explicacion de la evolución que no obedece a la realidad. La probabilidad: X →Y es distinta a la probabilidad Y→X.
  278. 278. •Steve Henikoff, 1992 •Basadas en la comparación de BLOQUES de secuencias derivadas de la base de datos Blocks. •Valores basados en la frecuencia de sustitución en bloques de alineamientos locales. •Regiones conservadas. >2000 bloques de >500 grupos de proteínas relacionadas.
  279. 279. • • Matrices BLOSUM difieren en el porcentaje de identidad de agrupamiento. BLOSUM 62 es derivada de bloques que tienen una identidad >62% en un alineamiento sin gaps.
  280. 280. PAM • • • • • • Basada en modelo evolutivo. Calculada a partir de alineamientos globales. Construida a partir de una cantidad pequeña de datos. Proteínas cercanamente relacionadas. Matrices son extrapolaciones matemáticas de PAM1. Mayor serie PAM, mayor divergencia. BLOSUM • • • • • • Basado en secuencias conservadas cortas (bloques). Calculada a partir de alineamientos locales. Construida a partir de una gran cantidad de datos. Proteínas evolutivamente divergentes. Cada matriz es resultado de un alineamiento de bloques. Menor serie BLOSUM, mayor divergencia.
  281. 281. Proteína de rata vs. proteína de ratón Proteína de rata vs. proteína de bacteria
  282. 282. Matriz Uso % Similaridad PAM140 BLOSUM9 0 Alineamientos pequeños, alta similitud 70 – 90 PAM160 BLOSUM8 0 Miembros de una familia de proteínas 50 – 60 BLOSUM6 2 Encontrar todas las similitudes potenciales 30 – 40 PAM250 Alineamiento largos, secuencias más divergentes Aproximadamen te 30 PAM250 Alineamiento largos, secuencias más divergentes < 30

×