Your SlideShare is downloading. ×
0
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Bioinformática - Bases de dados
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Bioinformática - Bases de dados

307

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
307
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. + Bioinformática Bases de dados biológicos Gabriel da Rocha Fernandes Universidade Católica de Brasília gabrielf@ucb.br - fernandes.gabriel@gmail.com
  • 2. + 2 Bases de dados biológicos n Disponibilizam de dados e informações biológicas. n Bases de dados primárias: depósitos de sequências. n DDBJ (DNA Data Bank of Japan) n EBI n GenBank - NCBI n Bases de dados secundárias: agrupam informações biológicas - genômica, proteômica, metabolômica... n COG/KOG n UniProt n Pfam n KEGG n PDB
  • 3. + 3 NCBI - National Center for Biotechnology Information n Nucleotide - Todas as sequências de nucleotideos. n Proteins - Sequências de aminoácidos. n Genome - Genomas completos. n Taxonomy - Informação taxonômica n dbSNP - Base de dados de variações: SNP, INDEL... n dbEST - Bases contendo sequencias de mRNA. n SRA - Dados de NGS. n CDD - Base de dados de domínios conservados n Pubmed - Artigos.
  • 4. + 4 NCBI n www.ncbi.nlm.nih.gov
  • 5. + 5 NCBI National Institute of Health National Library of Medicine
  • 6. + 6 GenBank
  • 7. + 7 Taxonomy
  • 8. + 8 Genome
  • 9. + 9 COG - Cluster of Orthologous groups n Base de dados do NCBI. n 63 genomas procarióticos e 3 eucarióticos. n Mais que 192 mil entradas em 4872 grupos. n http://www.ncbi.nlm.nih.gov/COG/ n BBH - Bidirectional Best Hit n Agrupa genes ortólogos sob um mesmo identificador. n
  • 10. + 10 Trabalhando com COG
  • 11. + 11 Trabalhando com COG
  • 12. + 12 KEGG - Conjunto de bases de dados integradas n Idealizada em 1995 – mapas metabólicos para o projeto genoma humano. n Sub bases de dados. n "Pathway", "Genes", "Enzyme" e "Compound” no início. n "Genome"em 2000, "Reaction" em 2001, e em 2002 “KEGG Orthology (KO)”
  • 13. + 13 KEGG - Conjunto de bases de dados integradas
  • 14. + 14 Composição n Dados de 1601 genomas completos são utilizados. n Todos os genes e respectivas proteínas mapeadas no genoma. n 99 organismos representados em quase 3,8 milhões de contigs de EST. n 15 Metagenomas.
  • 15. + 15 KEGG Pathway n Agrupainformações de mapas de vias metabólicas e não-metabólicas. n 392 vias. n Através da integração de informações de cada composto e enzima permite o estudo de uma via por completo.
  • 16. + 16 KEGG Pathway
  • 17. + 17 KEGG Reaction !  Contém informações sobre as reações químicas catalizadas pelas enzimas. !  Permite associar a uma enzima ou a um KO. !  Identificação de KO equivalentes
  • 18. + 18 Hierarquia do KEGG !  A fonte de anotação até então disponível – GO (Gene Ontology) não possui uma organização em níveis funcionais.
  • 19. + 19 Hierarquia do KEGG !  Padronização de 4 níveis hierárquicos. !  7 Categorias, 37 subcategorias, 392 vias e 14618 KO. Categoria Sub categoria Via KO !  Anotação automatizada: KAAS e KOBAS
  • 20. + 20 KEGG Orthology (KO) n Integrar a informação genômica às redes protéicas através dos números EC. n Utiliza identificadores comuns nos genomas e nas vias metabólicas. n Gruposeram formados por análise manual de um banco de similaridades combinada com características evolutivas. n Informação propagada utilizando ferramentas computacionais (KOALA) n Peça chave para o sistema hierárquico do KEGG.
  • 21. + 21 KEGG Orthology (KO) !  Identificador do grupo. !  Nome, definição e EC. !  Vias que participa. !  Módulos de vias envolvidos. !  Hierarquia completa. !  Equivalentes em outras bases. !  Genes.
  • 22. + 22 Acessando os dados do KEGG
  • 23. + 23 Trabalhando com os dados do KEGG+--------------------+-----------------------+------------+--------+ +--------+------------------+ | level1 | level2 | pathway | ko | | ko | id | +--------------------+-----------------------+------------+--------+ +--------+------------------+ | Cellular Processes | Cell Growth and Death | Cell cycle | K04381 | | K04381 | hsa:3925 | | K04381 | ptr:456650 | | Cellular Processes | Cell Growth and Death | Cell cycle | K04503 | | K04381 | mmu:16765 | | Cellular Processes | Cell Growth and Death | Cell cycle | K10151 | | K04381 | rno:29332 | | Cellular Processes | Cell Growth and Death | Cell cycle | K10152 | | K04381 | rno:303471 | | Cellular Processes | Cell Growth and Death | Cell cycle | K02089 | | K04381 | cfa:478175 | | Cellular Processes | Cell Growth and Death | Cell cycle | K02091 | | K04381 | bta:539789 | | Cellular Processes | Cell Growth and Death | Cell cycle | K06618 | | K04381 | bta:616317 | | Cellular Processes | Cell Growth and Death | Cell cycle | K04681 | | K04381 | ssc:494463 | | Cellular Processes | Cell Growth and Death | Cell cycle | K06619 | | K04381 | ecb:100057411 | | Cellular Processes | Cell Growth and Death | Cell cycle | K06067 | | K04381 | mdo:100011564 | | Cellular Processes | Cell Growth and Death | Cell cycle | K06620 | | K04381 | oaa:100083723 | | Cellular Processes | Cell Growth and Death | Cell cycle | K09389 | | K04381 | gga:396057 | | Cellular Processes | Cell Growth and Death | Cell cycle | K04682 | | K04381 | xla:380364 | | K04381 | xla:397962 | | Cellular Processes | Cell Growth and Death | Cell cycle | K04683 | | K04381 | xtr:493340 | | Cellular Processes | Cell Growth and Death | Cell cycle | K09392 | | K04381 | dre:550548 | | Cellular Processes | Cell Growth and Death | Cell cycle | K03083 | | K04381 | spu:579431 | | Cellular Processes | Cell Growth and Death | Cell cycle | K04384 | | K04381 | dme:Dmel_CG31641 | | Cellular Processes | Cell Growth and Death | Cell cycle | K04500 | | Cellular Processes | Cell Growth and Death | Cell cycle | K04501 | | Cellular Processes | Cell Growth and Death | Cell cycle | K04377 | | Cellular Processes | Cell Growth and Death | Cell cycle | K10500 | | Cellular Processes | Cell Growth and Death | Cell cycle | K06621 |
  • 24. + 24 Trabalhando com os dados do KEGG+--------+------------+------+ | ko | UniProt_ac | txid | >B3KX76 +--------+------------+------+ MSMHNVKIFMFQLLRGLAYCHHRKILHRDLKPQNLLINERGELKLADFGLARAKSVP| K02087 | B3KX76 | 9606 | TKTYSNEVVTLWYRPPDVLLGSTEYSTPIDMWGVGCIHYEMATGRPLFPGSTVKEEL| K02087 | B4DK59 | 9606 | HLIFRLLGTPTEETWPGVTAFSEFRTYSFPCYLPQPLINHAPR | K02087 | B7Z3D6 | 9606 | | K02087 | O94921 | 9606 | >B4DK59 | K02087 | P06493 | 9606 | MLALTLRPPPLAKSHLKLGGTPAPARVNGKLVALKVIRLQEEEGTPFTAIREASLLK| K02087 | P24941 | 9606 | GLKHANIVLLHDIIHTKETLTLVFEYVHTDLCQYMDKHPGGLHPDNVKLFLFQLLRG| K02087 | Q00526 | 9606 | LSYIHQRYILHRDLKPQNLLISDTGELKLADFGLARAKSVPSHTYSNEVVTLWYRPP| K02087 | Q5H9N4 | 9606 | DVLLGSTEYSTCLDMWGVGCIFVEMIQGVAALPGMKDIQDQLERIFLVLGTPNEDTW| K02087 | Q96Q40 | 9606 | PGVHSLPHFKPERFTLYSSKNLGQAWNKLSYVNHAEDLASKLLQCSPKNRLSAQAAL| K02089 | A4D1G0 | 9606 | SHEYFSDLPPRLWELTDMSSIFTVPNVRLQPEAGESMRAFGKNNSYGKSLSNSKH | K02089 | B2R9A0 | 9606 | | K02089 | P11802 | 9606 | >B7Z3D6 | K02089 | Q00534 | 9606 | MEDYTKIEKIGEGTYGVVYKGRHKTTGQVVAMKKIRLESEEEGVPSTAIREISLLKE| K02089 | Q6LC83 | 9606 | LRHPNIVSLQDVLMQDSRLYLIFEFLSMDLKKYLDSIPPGQYMDSSLVKVKA
  • 25. + 25 Trabalhando com os dados do KEGG !  O resultado de BLAST aponta uma proteína presente na base do KEGG e com isso podemos facilmente associa-la a um KO e a uma via.gnl|UG|Hs#S30142429 Q13616 96.55 29 1 0 72 158 648 676 8e-11 58.2 gnl|UG|Hs#S30142911 P63208 99.13 115 1 0 109 453 1 115 1e-64 236 gnl|UG|Hs#S30143098 P63208 100.00 91 0 0 114 386 1 91 8e-53 193 gnl|UG|Hs#S30143098 P63208 84.62 13 2 0 403 441 98 110 8e-53 25.0 gnl|UG|Hs#S30143241 Q92793 100.00 109 0 0 18 344 1153 1261 1e-66 242 gnl|UG|Hs#S30143494 Q8N3U4 91.67 36 3 0 189 296 1 36 3e-15 71.6 gnl|UG|Hs#S30143519 P01106 98.11 106 2 0 17 334 236 341 2e-57 211 gnl|UG|Hs#S30144095 P62258 95.77 71 3 0 128 340 1 71 6e-34 133 gnl|UG|Hs#S30144095 P62258 95.77 71 3 0 128 340 1 71 6e-34 133 gnl|UG|Hs#S30144153 Q14683 99.07 108 1 0 17 340 563 670 5e-60 220 gnl|UG|Hs#S30144285 P14635 100.00 78 0 0 17 250 292 369 4e-43 164 gnl|UG|Hs#S30144467 P63208 98.67 75 1 0 114 338 1 75 4e-41 157 gnl|UG|Hs#S30144468 P63208 96.00 75 3 0 114 338 1 75 3e-40 154 gnl|UG|Hs#S30144470 P62258 97.26 73 2 0 108 326 1 73 1e-35 139 gnl|UG|Hs#S30144470 P62258 97.26 73 2 0 108 326 1 73 1e-35 139 gnl|UG|Hs#S30144585 P63208 100.00 68 0 0 135 338 1 68 2e-36 141
  • 26. + 26 Trabalhando com os dados do KEGG+---------------------+---------+-------+-------+--------+ | query | subject | ident | score | ko | +---------------------+---------+-------+-------+--------+ | gnl|UG|Hs#S30189081 | A9UF07 | 100 | 62.8 | K06619 | | gnl|UG|Hs#S30189081 | A9UF07 | 100 | 62.8 | K08887 | | gnl|UG|Hs#S30147748 | B2RCP2 | 36.46 | 75.1 | K10500 | | gnl|UG|Hs#S30154730 | B4DDB4 | 97.06 | 74.3 | K06628 | | gnl|UG|Hs#S30155837 | B4DWW4 | 91.86 | 162 | K02541 | | gnl|UG|Hs#S30155838 | B4DWW4 | 91.86 | 162 | K02541 | | gnl|UG|Hs#S30178663 | B4DWW4 | 100 | 142 | K02541 | | gnl|UG|Hs#S30150201 | B4DXB4 | 44.33 | 107 | K10500 | | gnl|UG|Hs#S30186479 | C9J9T0 | 100 | 142 | K01783 | | gnl|UG|Hs#S30186479 | C9J9T0 | 100 | 142 | K02540 | +---------------------+---------+-------+-------+--------+ +--------+----------+---------------------------------------------------------------------+ | ko | quantida | description | +--------+----------+---------------------------------------------------------------------+ | K06630 | 42 | tyrosine 3-monooxygenase/tryptophan 5-monooxygenase activation | | K06644 | 42 | stratifin | | K06636 | 34 | structural maintenance of chromosome 1 | | K03094 | 27 | S-phase kinase-associated protein 1 | | K10500 | 14 | zinc finger and BTB domain-containing protein 17 | | K02210 | 10 | minichromosome maintenance protein 7 (cell division control protein | | K03868 | 9 | RING-box protein 1 | | K04381 | 8 | stathmin | | K06642 | 8 | DNA-dependent protein kinase catalytic subunit [EC:2.7.11.1] | | K04498 | 8 | E1A/CREB-binding protein [EC:2.3.1.48] | +--------+----------+---------------------------------------------------------------------+
  • 27. + 27 Trabalhando com os dados do KEGG
  • 28. + 28 Outras bases de vias metabólicas n BioCyc - www.biocyc.org n Reactome - www.reactome.org n Panther - www.pantherdb.org
  • 29. + 29 PDB - Estrutura
  • 30. + 30 UniProt n UniProtKB: mais que 14 milhões de entradas anotadas provenientes de Swiss-Prot (manual) e trEMBL (automática). n UniRef: agrupa entradas que compartilham 50%, 90% ou 100% de identidade em uma sequência não redundante.
  • 31. + 31 dbSNP
  • 32. + 32 Gene Ontology

×