O documento apresenta uma introdução sobre bancos de dados biológicos, abordando tópicos como biologia básica, história do conceito de BDBs, tipos de BDBs, arquitetura computacional de um BDB e conceitos matemáticos para acesso a dados biológicos. A agenda inclui exemplos práticos de bancos de dados como HIV, Uniprot, Protein Data Bank e Entrez.
More than Just Lines on a Map: Best Practices for U.S Bike Routes
[INTERCULTE2012] Introdução a Banco de Dados Biológicos
1. INTRODUÇÃO A BANCOS DE
DADOS BIOLÓGICOS
FELIPE GUIMARÃES TORRES
COORDENADO PELO PROF. MÁRCIO SOUSSA
NÚCLEO DE SERVIÇOS TECNOLÓGICOS - NST
2. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – CONTATO
FELIPE GUIMARÃES TORRES
fgtorres18@gmail.com
http://www.facebook.com/felipe.g.torres.5
http://www.twitter.com/felipegtorres
http://www.slideshare.net/fgtorres
3.
4. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – AGENDA
9. Conceitos mate-
1. Biologia Básica máticos.
2. Seres vivos 10. Prática.
3. Células 11. TecJorge.
4. DNA 12. Referências.
5. História do con-
ceito de BDB.
6. Evolução de Re-
curso.
7. Bancos de Dados
Biológicos
8. Arquitetura com-
putacional de um
BDB.
12. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – BIOLOGIA BÁSICA
Ácido desoxirribonucléico. Armazena
informações genéticas em genes.
São formados por monômeros
conhecidos como nucleotídeos.
26. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – HISTÓRIA DO CONCEITO DE BSB’S
ILLUMINA HISEQ2000
SANGER TOTAL DE BASES: 35 ~ 200 Gb
TEMPO DA CORRIDA: 1.5 a 8 dias
TOTAL DE BASES: 30~ 350 kb CUSTO: MENOS DE U$1/Mb
TEMPO DA CORRIDA: 15 HORAS
CUSTO: U$1000/Mb
27. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – HISTÓRIA DO CONCEITO DE BSB’S
GRÁFICO DE SEQUÊNCIAS NUCLEOTÍDICAS INSERIDAS NO
GENBANK ENTRE 1995 A 2011.
28. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – HISTÓRIA DO CONCEITO DE BSB’S
GRÁFICO DE SEQUÊNCIAS NUCLEOTÍDICAS INSERIDAS NO
GOLD ENTRE 1997 A 2011.
30. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS –BANCOS DE DADOS BIOLÓGICOS
Banco de dados
biológicos são locais
computacionais para o
armazenamento de
dados biológicos.
31. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS –BANCOS DE DADOS BIOLÓGICOS
Dados Biológicos
Sequências de DNA…
Sequências de Proteínas…
Anotações…
32. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS –BANCOS DE DADOS BIOLÓGICOS
Tipos de BDB
Primários…
Secundários…
Especializados…
33. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS –BANCOS DE DADOS BIOLÓGICOS
Primários…
Armazenam informações biológicas
originais.
Armazenam normalmente em
arquivos de texto. Ex.: Fasta.
34. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS –BANCOS DE DADOS BIOLÓGICOS
Secundários…
Armazenam resultados de análises feitas a
partir de dados primários.
Utilizam SGBD`s e estruturas computacionais
mais complexas.
36. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – ARQUITETURA COMPUTACIONAL DE UM BDB
Modelos de BD
Arquivo de texto….
Relacional…
Orientado a objeto….
37. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – ARQUITETURA COMPUTACIONAL DE UM BDB
Relacional
Planilhas que se relacionam…
Utilizando o conceito de keys…
Largamente utilizado e estável…
38. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – ARQUITETURA COMPUTACIONAL DE UM BDB
Relacional
Exemplo de modelo relacional…
39. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – ARQUITETURA COMPUTACIONAL DE UM BDB
OO
Conceito abstrato de objeto…
Conceito melhorado de keys…
Maior facilidade na abstração…
40. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – ARQUITETURA COMPUTACIONAL DE UM BDB
Orientado a objeto
Exemplo de modelo OO …
42. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS –BANCOS DE DADOS BIOLÓGICOS
Métodos de acesso…
Estruturas de dados que podem ser
armazenadas em memória.
Utilizam SGBD`s e estruturas
computacionais mais complexas.
43. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – CONCEITOS MATEMÁTICOS
Hash Mapping
Conhecida como estrutura key-value…
Armazena chave, valor e um ponteiro…
Alta performace em pesquisas id…
44. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – CONCEITOS MATEMÁTICOS
Hash Mapping
Exemplo de hash…
45. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – CONCEITOS MATEMÁTICOS
Árvore de Sufixos
Utilizado por aplicações para pesquisa…
Resolve alguns problemas de similaridade…
Alta performace em textos…
46. Matematicamente é…
F = {α1, α2, ..., αn}
F* = todas as sequências possíveis com o alfabeto F.
T E F*.
T = “TATA”
c = |T|
Logo:
T[i:j] (1≤ i≤ j≤ c)
T[1:j] = prefixo
T[i:c] = sufixo
Fórmula do prefixo e sufixo…
47. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – CONCEITOS MATEMÁTICOS
Sufixo e Prefixo…
Prefixos Sufixos
R = “AGAGAT” R[1:1] = “A” R[6:6] = “T”
R[1:2] = “AG” R[5:6] = “AT”
|R| = 6
R[1:3] = “AGA” R[4:6] = “GAT”
R[1:4] = “AGAG” R[3:6] = “AGAT”
R[1:5] = “AGAGA” R[2:6] = “GAGAT”
R[1:6] = “AGAGAT” R[1:6] = “AGAGAT”
Exemplo de prefixos e sufixos…
48. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – CONCEITOS MATEMÁTICOS
Árvore de Sufixo…
R = “AGAGAT”
50. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – CONCEITOS MATEMÁTICOS
Visual Suffix Tree…
Software para criação de suffix trees…
Linguagem Java utilizando o jGraph
51. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – CONCEITOS MATEMÁTICOS
Visual Suffix Tree…
52. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – PRÁTICA
HIV Databases
• No HIV Databases estam armazenados dados de sequências
de HIV, epitopos e testes para vacinas.
• Este projeto foi fundado pela Division of AIDS of the National
Institute of Allergy and Infectious Diseases (NIAID)
• Acesso disponível pelo link:
http://www.hiv.lanl.gov/content/index
53. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – PRÁTICA
UNIPROT
• Banco de dados de proteínas e informações
funcionais.
• O UNIPROT é um consórcio entre:
• European Bioinformatics Institute (EBI).
• Swiss Institute of Bioinformatics (SIB).
• Protein Information Resource (PIR).
• Esse banco de dados integrou quatro bancos de
dados em 2002. Swiss-Prot e TrEMBL (EBI e SIB)
e PIR-PSD e iProClass (PIR).
• Acesso disponível pelo link:
http://www.uniprot.org/
54. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – PRÁTICA
PROTEIN DATA BANK
• É um repositório de estruturas tri-dimensionais de proteínas e
ácidos nucléicos.
• A maioria das estruturas foram obtidas por cristalograma ou por
espectroscopia por ressonância magnética.
• A estrutura pode ser visualizada em 3D.
• Acesso disponível pelo link: http://www.rcsb.org/pdb
55. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – PRÁTICA
ENTREZ
• O NCBI alberga dados provenientes da sequenciação de genomas
no seu GenBank e mantém um índice de artigos de investigação
biomédica que disponibiliza nas bases de dados PubMed Central e
PubMed.
• Todas as bases de dados estão disponíveis na Internet através do
motor de busca Entrez. É um grande integrador de dados no NCBI.
• Acesso disponível pelo link: http://www.ncbi.nlm.nih.gov/sites/
gquery
56. INTRODUÇÃO A BANCO DE DADOS BIOLÓGICOS – REFERÊNCIAS
1. Xiong, J. (2006). Essential Bioinformatics. Cambridge University
Press.
2. Andrzej Polanski and Marek Kimmel (1998). Bioinformatics.
Springer.
3. Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland,
T. N. Bhat, Helge Weissig, Ilya N. Shindyalov and Philip E. Bourne
(2000). The Protein Data Bank. Oxford University Press, Nucleic
Acids Research, 2000, Vol. 28, No. 1
4. Robert Schleif, (1993). Genetics and Molecular Biology.
Department of Biology The Johns Hopkins University Baltimore,
Maryland. All rights reserved. Printed in the United States of
America on acid-free paper.
5. Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith
Roberts and Peter Walter, (2008). Molecular biology of the cell.
Published by Garland science, Taylor & Francis Group, LLC, an
informa business, 270 Madison Avenue, NewYork NY f
0016,USA,and 2 park Square,Milton park, Abingdon,OXl4
4RN,UK.