Your SlideShare is downloading. ×
Fprosdocimi07 curso_bioinfo
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Fprosdocimi07 curso_bioinfo

1,882
views

Published on

CAPÍTULO 1 UMA VISÃO GLOBAL DA BIOINFORMÁTICA 3 …

CAPÍTULO 1 UMA VISÃO GLOBAL DA BIOINFORMÁTICA 3
1.1. O que é a bioinformática? 3
1.2. O surgimento da bioinformática 3
1.3. O que preciso saber para ser um bom bioinformata? 5
1.4. Cursos de pós-graduação em bioinformática no Brasil 6
1.5. Conversando sobre bioinformática – BIOCHAT 6
1.6. Referências Bibliográficas e textos complementares 12
1.7. bRAINsTORM 12
CAPÍTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAÇÃO 13
2.1. Introdução 13
2.2. Sequenciamento do DNA 13
2.3. Genômica 14
2.4. As ômicas: integrando a bioinformação 15
2.5. O PERL e outras linguagens de programação 15
2.6. Referências Bibliográficas e textos complementares 17
2.7. bRAINsTORM 17
CAPÍTULO 3 ALINHAMENTO DE SEQÜÊNCIAS 18
3.1. Introdução 18
3.2. Alinhamento Global 18
3.3. Alinhamento Local 19
3.4. Alinhamentos ótimos e heurísticos 20
3.5. Alinhamentos simples e múltiplos 21
3.6. Matrizes de comparação 22
3.7. Exemplos reais de alinhamentos 23
3.8. Referências Bibliográficas 28
3.9. bRAINsTORM 28
CAPÍTULO 4 MONTANDO UM GENOMA 29
4.1. Sobre genomas eucarióticos e procarióticos 29
4.2. Base-calling 30
4.3. Cross-match 31
4.4. Agrupamento de seqüências 32
4.5. Sobre a cobertura dos genomas 34
4.6. Referências Bibliográficas 35
4.7. bRAINsTORM 35
CAPÍTULO 5 ANÁLISE DE TRANSCRIPTOMAS 36
5.1. As ESTs 36
5.2. Histórico das ESTs 37
5.3. Agrupamento de ESTs 38
5.4. O genoma e o transcriptoma 39
5.5. SAGE – Serial Analysis of Gene Expression 40
5.6. Microarrays 40
5.7. Referências Bibliográficas 41
5.8. bRAINsTORM 41
CAPÍTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42
6.1. Histórico 42
6.2. Bancos primários e secundários 43
6.3. GenBank e GenPept 43
6.4. RefSeq – O banco de dados de seqüências de referência 44
6.5. SWISSPROT – O maior banco de dados secundário de seqüências de proteínas 45
6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas características 46
6.7. Referências Bibliográficas 46
6.8. bRAINsTORM 47
CAPÍTULO 7 ANOTAÇÃO DE GENOMAS 49
7.1. Introdução 49
7.2. Anotação de Nucleotídeos 49
7.3. Anotação de Proteínas 50
7.4. Anotação de Processos 50
7.5. A realização da Anotação Genômica (Sociologia da Anotação) 51
7.6. Referências Bibliográficas 52
7.7. bRAINsTORM 53
CAPÍTULO 8 BIOINFORMÁTICA EVOLUTIVA E GENOMAS COMPLETOS 54
8.1. Homologia, Ortologia e Paralogia 54
8.2. COG 56
8.3. Trabalhando com genomas completos 56
8.4. Referências Bibliográficas 57
8.5. bRAINsTORM 58
CAPÍTULO 9 BIOINFORMÁTICA ESTRUTURAL 59
9.1. Sobre a estrutura das proteínas 59
9.2. Protein Data Bank: o banco de dados de estruturas de proteínas 60
9.3. Modelagem molecular por homologia 61
9.4. Alguns programas de modelagem molecular 63
9.5. Threading 63
9.6. CASP – Critical Assessment of Structure Prediction 63
9.7. Estrutura de um arquivo no formato PDB 64
9.8. Referências Bibliográficas 67
9.9. bRAINsTORM 68
CAPÍTULO 10 CONCLUSÕES E PENSAMENTOS FILOSÓFICOS SOBRE A BIOINFORMÁTICA 69
10.1. Sobre bioinformática, genoma e ciência 69
10.2. Introdução 69
10.3. Genoma e o método científico 70

Published in: Education, Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,882
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
97
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. CURSO ON LINE INTRODUÇÃO ÀBIOINFORMÁTICAProf. Dr. Francisco Prosdocimi 2007
  • 2. ÍNDICE Pág.CAPÍTULO 1 UMA VISÃO GLOBAL DA BIOINFORMÁTICA 3 1.1. O que é a bioinformática? 3 1.2. O surgimento da bioinformática 3 1.3. O que preciso saber para ser um bom bioinformata? 5 1.4. Cursos de pós-graduação em bioinformática no Brasil 6 1.5. Conversando sobre bioinformática – BIOCHAT 6 1.6. Referências Bibliográficas e textos complementares 12 1.7. bRAINsTORM 12CAPÍTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAÇÃO 13 2.1. Introdução 13 2.2. Sequenciamento do DNA 13 2.3. Genômica 14 2.4. As ômicas: integrando a bioinformação 15 2.5. O PERL e outras linguagens de programação 15 2.6. Referências Bibliográficas e textos complementares 17 2.7. bRAINsTORM 17CAPÍTULO 3 ALINHAMENTO DE SEQÜÊNCIAS 18 3.1. Introdução 18 3.2. Alinhamento Global 18 3.3. Alinhamento Local 19 3.4. Alinhamentos ótimos e heurísticos 20 3.5. Alinhamentos simples e múltiplos 21 3.6. Matrizes de comparação 22 3.7. Exemplos reais de alinhamentos 23 3.8. Referências Bibliográficas 28 3.9. bRAINsTORM 28CAPÍTULO 4 MONTANDO UM GENOMA 29 4.1. Sobre genomas eucarióticos e procarióticos 29 4.2. Base-calling 30 4.3. Cross-match 31 4.4. Agrupamento de seqüências 32 4.5. Sobre a cobertura dos genomas 34 4.6. Referências Bibliográficas 35 4.7. bRAINsTORM 35CAPÍTULO 5 ANÁLISE DE TRANSCRIPTOMAS 36 5.1. As ESTs 36 5.2. Histórico das ESTs 37 5.3. Agrupamento de ESTs 38 5.4. O genoma e o transcriptoma 39 5.5. SAGE – Serial Analysis of Gene Expression 40 5.6. Microarrays 40 5.7. Referências Bibliográficas 41 5.8. bRAINsTORM 41CAPÍTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42 6.1. Histórico 42 6.2. Bancos primários e secundários 43 6.3. GenBank e GenPept 43 6.4. RefSeq – O banco de dados de seqüências de referência 44 6.5. SWISSPROT – O maior banco de dados secundário de seqüências de proteínas 45 6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas características 46 6.7. Referências Bibliográficas 46 6.8. bRAINsTORM 47CAPÍTULO 7 ANOTAÇÃO DE GENOMAS 49 7.1. Introdução 49 7.2. Anotação de Nucleotídeos 49 7.3. Anotação de Proteínas 50 7.4. Anotação de Processos 50 7.5. A realização da Anotação Genômica (Sociologia da Anotação) 51 7.6. Referências Bibliográficas 52 7.7. bRAINsTORM 53CAPÍTULO 8 BIOINFORMÁTICA EVOLUTIVA E GENOMAS COMPLETOS 54 8.1. Homologia, Ortologia e Paralogia 54 8.2. COG 56 8.3. Trabalhando com genomas completos 56 8.4. Referências Bibliográficas 57 8.5. bRAINsTORM 58CAPÍTULO 9 BIOINFORMÁTICA ESTRUTURAL 59 9.1. Sobre a estrutura das proteínas 59 9.2. Protein Data Bank: o banco de dados de estruturas de proteínas 60 9.3. Modelagem molecular por homologia 61 9.4. Alguns programas de modelagem molecular 63 9.5. Threading 63 9.6. CASP – Critical Assessment of Structure Prediction 63 9.7. Estrutura de um arquivo no formato PDB 64 9.8. Referências Bibliográficas 67 9.9. bRAINsTORM 68CAPÍTULO 10 CONCLUSÕES E PENSAMENTOS FILOSÓFICOS SOBRE A BIOINFORMÁTICA 69 10.1. Sobre bioinformática, genoma e ciência 69 10.2. Introdução 69 10.3. Genoma e o método científico 70 10.4. Um conceito de bioinformática 71 10.5. Princípios paradigmáticos em bioinformática 72 10.6. Conclusão 74 10.7. bRAINsTORM 74
  • 3. PREFÁCIOQuando em 2002 realizei, concomitantemente ao meu mestrado em genética pelaUFMG, o excelente curso de especialização em Bioinformática do LNCC, ministrado pormuitos dos maiores especialistas em genômica e bioinformática de nosso país, tive oprivilégio de ser um dos organizadores (e o primeiro autor) de um trabalho entitulado“Bioinformática: manual do usuário” em que todos os cerca de 20 alunos do cursose organizaram com o objetivo de gerar uma publicação básica sobre a área depesquisa à qual nos estamos aprofundando e formando. Esta publicação foi finalmentepublicada na revista Biotecnologia Ciência e Desenvolvimento alguns meses depois.Tendo mantido meu contato com a editora da revista Biotecnologia, enquantoterminava meus estudos de doutoramento em bioinformática, recebi um convite paraelaborar um curso on line a ser ministrado através do portal biotecnologia daInternet (http://www.biotecnologia.com.br). Este documento que agora vos apresentogratuitamente pela Internet (http://biotec.icb.ufmg.br/chicopros/Prosdocimi07_CursoBioinfo.pdf) consiste exatamente neste curso, produzido em 2006 e ministrado em2007 para uma turma de 40 alunos. Ainda que navegando por problemas técnicos,acredito que o curso foi bastante proveitoso e produtivo, sendo que a grande maioriados alunos saiu do mesmo tendo adquirido conteúdo e aprendido a compreender muitosobre a lógica e o pensamento em bioinformática.Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo estedocumento arquivado entre meus arquivos do período jurássico e tenho pena de deixareste conhecimento perdido nos meandros digitais do meu disco rígido. Assim, contateirecentemente a editora da revista que lendo o contrato que fizemos à época e dizendoserem meus os direitos autorais desta apostila ou “esboço de livro”, informou-me quetenho o direito de publicar o presente documento na Internet para que se torneacessível a qualquer indivíduo interessado em aprender a arte e a ciência dabioinformática. Recomendou-me ainda que eu atualizasse as informações aquipresentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho simplanos de fazê-lo, mas sei que precisaria reestruturar boa parte do que está aquicontido e, por falta de tempo para tanto, decido publicar esta versão gratuitamentepela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estareidisposto a atualizar estas informações e produzir uma segunda edição mais completa eatualizada sobre presentes assuntos.Brasília, numa quarta-feira de cinzas.17/02/2010Chico Prosdocimihttp://biotec.icb.ufmg.br/chicoproshttp://chicopros.blogspot.com
  • 4. Aos meus pais
  • 5. 3 CAPÍTULO 1Uma visão global da bioinformática Iniciando nossa Interação Nesta primeiro capítulo apresentaremos uma visão geral da bioinformática,vamos conversar sobre as necessidades e oportunidades de capacitação para quemdeseja atuar nessa área.1.1. O que é a bioinformática? Podemos considerar a bioinformática como uma linha de pesquisa que envolveaspectos multidisciplinares e que surgiu a partir do momento em que se iniciou autilização de ferramentas computacionais para a análise de dados genéticos,bioquímicos e de biologia molecular. A bioinformática envolve a união de diversaslinhas de conhecimento – a ciência da computação, a engenharia de softwares, amatemática, a estatística e a biologia molecular – e tem como finalidade principaldesvendar a grande quantidade de dados que vem sendo obtida através de seqüênciasde DNA e proteínas. Para o desenvolvimento de genomas completos, a informática éimprescindível e a biologia molecular moderna não estaria tão avançada hoje, nãofossem os recursos computacionais existentes.1.2. O surgimento da bioinformática A bioinformática, apesar de ser uma ciência nova e em desenvolvimento, jáapresenta uma figura clássica que freqüentemente é mostrada em qualquer palestraou curso que se vá sobre a área. Essa figura, mostrando o crescimento exponencial doGenBank nos últimos anos, tenta mostrar que, mais do que uma abstração possível, abioinformática é hoje uma necessidade para a análise de dados em biologia molecular. Desde que os seqüenciadores capilares de DNA em larga escala surgiram, nofim da década de 90, a quantidade de dados biológicos produzidas simplesmentealcançou níveis que fizeram com que análises manuais de seqüências de DNA setornassem simplesmente alternativas absurdas para o estudo de dados de genoma etranscriptoma. Dois desenvolvimentos foram importantes para permitir tanto o surgimento dabionformática quanto o rápido desenvolvimento da produção de seqüências de DNA. Oprimeiro deles foi o sequenciamento capilar. Enquanto no passado as seqüências eramproduzidas em placas enormes que deveriam ser corridas de forma uniforme e com umgrande cuidado, com o desenvolvimento da tecnologia de sequenciamento capilar, aeletroforese ocorria dentro de tubos com a espessura de um cabelo humano, contendouma solução polimérica por onde o DNA deveria passar guiado por uma correnteelétrica, como uma eletroforese normal. O outro grande desenvolvimento foi amarcação dos didesoxinucleotídeos necessários para o sequenciamento do DNA commoléculas fluorescentes. Enquanto as reações tradicionais eram realizadas commarcadores radioativos, que tornavam a metodologia um tanto quanto trabalhosa e © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 6. 4até mesmo perigosa, os marcadores fluorescentes permitiam maior segurança e aindaum novo avanço. Enquanto era preciso correr diferentes reações para cada nucleotídeona marcação radioativa, a técnica de marcação fluorescente permitia que cada basefosse marcada com um diferente fluorocromo que era capaz de emitir luz em umdiferente comprimento de onda se excitado por um laser. Essa luz, lida por umdetector, informava ao sistema qual nucleotídeo passava em diferentes momentos daeletroforese. E foi exatamente a reunião desses dois desenvolvimentos num sóaparelho que produziu o equipamento que posteriormente ficaria conhecido como “oseqüenciador que criou a bioinformática”. O primeiro desses aparelhos foi produzidopela empresa Applied Biosystems e foi chamado de ABI Prism 3700. Apresentava 96colunas (ou capilares para a eletroforese) e permitia o sequenciamento de cerca de550 bases em cada coluna, sendo oito vezes mais rápida do que a melhor concorrenteda época e possibilitando o sequenciamento de até 1 milhão de pares de bases por dia.Além de permitir o rápido desenvolvimento da bioinformática, esse seqüenciador aindageraria brigas políticas sobre quem é que deveria sequenciar todo o genoma humano,uma empresa particular ou o consórcio público, mas isso é outra história.Figura 1.1. Crescimento do Genbank. Crescimento exponencial do número deseqüências contidas no GenBank ao longo das duas últimas décadas. Obtido emhttp://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html. O que importa é que, desde 1998, quando o ABI Prism foi lançado, outrasempresas desenvolveram também seus seqüenciadores capilares de larga escala e ocusto dessas máquinas – que antes chegava a trezentos mil dólares – foi aos poucoscaindo e permitindo que mais e mais laboratórios pudessem ter seus própriosseqüenciadores. Cada vez mais dessas máquinas são vendidas ainda hoje e o númerode seqüências de DNA produzidas vem aumentando exponencialmente até o presentemomento.Leitura complementar:http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 7. 51.3. O que preciso saber para ser um bom bioinformata? O profissional em bioinformática é raro no mercado, já que ele necessita sabere ser familiar a, pelo menos, três áreas distintas do conhecimento: a biologiamolecular, a ciência da computação e a bioinformática per se. Além disso,conhecimentos em estatística e matemática são altamente recomendáveis. Imagineum biólogo que não tenha conhecimento de computação: ele será capaz de bolar umainfinidade de possíveis experimentos em bioinformática que gostaria que fossemgerados, mas será incapaz de colocá-los em prática. Do outro lado, um cientista dacomputação sem conhecimento em biologia e com sua característica ânsia de analisardados, será capaz de pegar uma infinidade de dados biológicos e fazer uma grandequantidade de análises computacionais sem qualquer propósito, gerando resultados dedifícil interpretação, por vezes ininterpretáveis ou sem qualquer sentido biológico. Otrabalho em equipe, para a produção de projetos em bioinformática, pode serinteressante, desde que os profissionais trabalhem juntos todo o tempo. Reuniõesapenas esporádicas normalmente fazem com que as idéias do trabalho do biólogo e docientista da computação se afastem dos ideais iniciais da pesquisa. Isso no casomédio. É claro que é possível conseguir bons resultados em casos isolados. Considerando isso, torna-se necessário o desenvolvimento de um novoprofissional, o bioinformata. Um biólogo que tenha tido uma formação parcial comocientista da computação ou vice-versa. Além disso, é preciso que tal profissional tenhaainda uma formação em bioinformática e que conheça profundamente as diferenças eas boas e más qualidades dos principais bancos de dados públicos sobre seqüências eestruturas de biomoléculas. Como não temos a intenção de ensinar biologia molecularou ciência da computação, no presente curso daremos ênfase exatamente a estaúltima parte, que consiste na formação do bioinformata per si, que deve conhecer pelomenos o básico com relação à análise de genomas e as ferramentas e bancos de dadosdisponíveis na internet para o estudo dessa nova ciência. Com relação aos requisitos computacionais que serão apresentados apenas depassagem no presente curso, um profissional em bioinformática deve ter um bomconhecimento algum sistema operacional baseado em UNIX, sem qualquer sombra dedúvida. Quase todos os algoritmos utilizados para a pesquisa em bioinformáticaapresentam código aberto e são, freqüentemente, disponíveis apenas para sistemaoperacionais como o LINUX e o Solaris. Os programas de código aberto são aquelesnos quais os programadores disponibilizam todo o código fonte do programa para ousuário, que pode alterá-lo de acordo com a sua aplicação de interesse. E esse étambém um dos motivos pelos quais os bioinformatas devem ser familiarizados comlinguagens de programação. Um bioinformata que não sabe programar em umalinguagem qualquer tem dificuldades para se desenvolver e, portanto, o profissionaldeve estar ao menos apto a aprender alguma linguagem de programação. Outro conhecimento que gera um salto qualitativo na atividade do bioinformataé o conhecimento de bancos de dados e linguagem SQL. A linguagem SQL é a maiscomumente utilizada em uma diversidade de bancos de dados e muitos sitesdisponibilizam informações armazenas em tabelas e bancos de dados inteiros. Devido àsua gratuidade e eficiência, o banco de dados mais utilizado em bioinformática é oMySQL, mas quaisquer outros podem ser utilizados sem demais inconvenientes. Masmais importante ainda do que ser capaz de obter os bancos de dados públicos é obioinformata ser capaz de criar seus próprios bancos de dados, organizando asinformações de seu projeto e permitindo tanto um bom armazenamento quantoorganização e fácil acesso aos dados. Além disso, o conhecimento de plataformas paradisponibilizar dados para os pesquisadores é interessante e o bioinformata deve teralgum conhecimento de linguagem HTML e, de preferência alguma linguagem de © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 8. 6programação para a internet, como o CGI ou o PHP, sendo que esse último aindaapresenta a vantagem de permitir fácil conexão com bancos de dados. É claro que a gama de conhecimento necessária para exercer bem umaprofissão qualquer tende a ser infinita, mas é indispensável ao menos que obioinformata seja proficiente em uma linguagem de programação e tenha bonsconhecimentos de biologia molecular, dos bancos de dados e das ferramentas a seremutilizadas em cada caso. Aqui, iremos passar apenas de leve em programação ebiologia molecular na próxima aula e depois passaremos direto para a parte queexplica e mostra quais são as principais ferramentas utilizadas em análises genômicase os principais bancos de dados que devem ser consultados em diferentes aplicações.1.4. Cursos de pós-graduação em bioinformática no Brasil Até o presente momento parecem existir apenas três cursos de pós-graduaçãoem bioinformática no Brasil. O primeiro e mais tradicional deles é o curso de pós-graduação Lato Sensu em Bioinformática do LNCC, cuja página oficial pode ser vistaem http://www.lncc.br/~biologia/. Três turmas de alunos já graduados de todo o paísjá foram formadas por esta pós-graduação, inclusive o presente autor desse curso on-line, quem vos escreve. Consiste num ótimo curso de especialização, no qual osmaiores expoentes do país na área são chamados para ministrar diferentes aulas noscampos da genômica, transcriptômica e proteômica. Além desse curso de pós-graduação, que dura cerca de três meses e meio, o LNCC também oferece cursosesporádicos com duração entre duas semanas e um mês e recomenda-se visitar apágina do LNCC para mais informações (http://www.lncc.br). Logo a CAPES percebeu a importância de se abrirem cursos nessa áreaestratégica e propôs um edital para a formação de cursos de doutorado embioinformática. A partir daí dois novos cursos de doutorado em bioinformática foramcriados, um na USP (setembro de 2002) e outro na UFMG (abril de 2003). Para maisinformações, visite o site dos programas http://www.ime.usp.br/posbioinfo/ ehttp://www.bioinfo.dout.ufmg.br/.1.5. Conversando sobre bioinformática – BIOCHAT A revista biotecnologia promove esporadicamente o chamado biochat, queconsiste em uma conversa com um pesquisador experimente de uma determinadaárea do conhecimento. Abaixo transcrevo um dos biochats realizado com o autor dopresente curso, onde várias dúvidas básicas sobre o assunto podem ser sanadas.Assunto do Biochat: Conceitos e Paradigmas em BioinformáticaPesquisador entrevistado: Francisco Prosdocimi Há uma grande confusão com relação ao que seja a bioinformática, sendo quemuitos ainda acreditam que qualquer aplicação da computação à biologia possa serreferenciada como "bioinformática". Ao observarmos os trabalhos recentementepublicados na área, podemos dividí-los em três correntes básicas ou princípiosparadigmáticos, chamados metaforicamente de "o tijolo", "a peneira" e "a lupa". Taisprincípios serão apresentados e discutidos durante o BIOCHAT. Além disso, éinteressante discutirmos quais seriam os pré-requisitos básicos para formar umbioinformata, tanto na área computacional quanto na área biológica. Do que, afinal, éfeito um bioinformata e o que ele precisa conhecer é tema recorrente entre os curiosossobre a área.O conceito da bioinformática, seus princípios paradigmáticos e a formaçãodo bioinformata serão, portanto, os temas a serem discutidos neste BIOCHAT. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 9. 7 Boa noite a todos! Está aberto nosso biochat sobre bioinformática. PorDr. Francisco favor, enviem suas dúvidas para que possamos discutir e trocar idéiasProsdocimi a respeito do assunto. Grande Francisco... Afinal, qual o conceito mais aceito paraVanderson: Bioinformática? Olá Vanderson. Fico agradecido pela sua presença. Na verdade existem vários conceitos para bioinformática e muita confusão é feita sobre oDr. Francisco tema. Na minha opinião a bioinformática surgiu com o boom dosProsdocimi sequenciadores automáticos de DNA e ainda hoje está ligada a análises de seqüências de biomoléculas. Biologia computadorizada? Ouvi este termo e queria saber qual é aAdonis: diferença disso para Bioinformática? Pois é, meu prezado Adonis. A biologia computacional diz respeito a qualquer aplicação da computação na área biológica, enquanto aDr. Francisco bioinformática está freqüentemente associada a analise de seqüênciasProsdocimi de genoma, transcriptoma e proteoma. Esses conceitos entretanto são bastante maleáveis e modificam-se todos os anos. Boa noite Dr. Francisco. Sou estudante do curso Bacharelado emPedro: Bioquímica, na Universidade Federal de Viçosa e tenho direcionado a minha formação acadêmica para me tornar... Com relação aos cursos específicos para bioinformática, eles existem no Brasil apenas em nível de pós-graduação. Sendo que um deles é o curso de especialização lato sensu do LNCC, no qual acontece aDr. Francisco formação de especialistas em bioinformática. Na USP e na UFMGProsdocimi existem cursos de doutorado em bioinformática, onde tais profissionais são formados. Eu, a propósito, fui aluno do LNCC e fui também o primeiro aluno a defender o doutorado em bioinformática na UFMG. Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesmaFrancisco: dúvida... Com relação a cursos de graduação, meu prezado xará, ainda nãoDr. Francisco existem na área e recomendo que vc faça um curso de biologia ou deProsdocimi computação, se pretende seguir carreira em bioinfo.Adonis: então bioinfo está dentro da biologia computacional? Concordo, Adonis. Na minha opinião a bioinformática é, sim, uma parte da biologia computacional, sendo essa última uma área bastante amplaDr. Francisco e não necessariamente relacionada com biologia molecular. Embora,Prosdocimi repito, esses conceitos são maleáveis e modificam-se com o desenvolver das ciências. Qual a sua experiência com a Bioinformática? O senhor trabalha maisPedro: no meio acadêmico ou se relaciona diretamente com o mercado de trabalho? Trabalho com bioinformática desde 2000, tendo tido anteriormente uma formação como biólogo molecular em bancada. Fiz minha monografia de bacharelado, minha dissertação de mestrado (em genética) com análises de transcriptomas do verme SchistosomaDr. Francisco mansoni e fui o primeiro aluno a defender o doutorado emProsdocimi bioinformática na UFMG trabalhando com análises de qualidade de seqüências de DNA e genômica comparativa. Sempre trabalhei mais voltado para o meio acadêmico, mas já fiz também alguns trabalhos em parceria com uma empresa de Belo Horizonte na área de bioinformática. A empresa se chama vetta technologies. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 10. 8 Pegando a deixa do Pedro, você acha que há mercado de trabalho paraVanderson: bioinformatas no Brasil... além das instituições públicas e da Alellyx? Infelizmente, meu amigo Vanderson, não acredito que haja ainda mercado de trabalho para bioinformática fora das universidades, embora o campo na área de biotecnologia tenha crescido e venhaDr. Francisco crescendo. A existência de algumas empresas trabalhando emProsdocimi biotecnologia é muito pequena ainda no Brasil e apenas a Alellyx e a Scylla têm alguma representatividade no mercado. Ou seja, a bioinformática ainda é matéria para cientistas financiados pelo governo. Qual seria a dica para trabalhar com bioinfo em um lugar onde não seAdonis: faça molecular? A dica é estar em parceria com pesquisadores que tenham perguntas que só possam ser respondidas através de análise computacional. Eu mesmo tenho várias colaborações com diferentes laboratórios e produzi um software recentemente, o TGFinder, que surgiu como uma necessidade de um pesquisador de encontrar genes controlados porDr. Francisco fatores de transcrição. Além disso, o GenBank possui tantas seqüênciasProsdocimi depositadas e tanta informação a ser mineirada que nem todos os cientistas do mundo seriam capazes de tudo analisar. É claro que a pesquisa de ponta é normalmente aquele onde se produz e se analisa um novo dado em biologia molecular, mas há muito ouro a ser peneirado nos bancos de dados públicos. Olá Dr. mas como é aplicada a computação ou informática, naPaulo: biologia,neste sequenciadores automáticos de DNA? A computação é aplicada, principalmente, na análise e identificação das seqüências de DNA que saem dos sequenciadores automáticos. A seqüência sai de lá como um monte de A, C, T e G... que não queremDr. Francisco dizer nada. O que significa para você isso aqui:Prosdocimi ACATAGGGACATTACAGAGCATTCAGA? Somente com a bioinformática conseguimos atrelar a informação codificada em informação biológica, associando A, C, T e G a algum nome de gene com alguma função especifica... Aprofundando mais a discussão, a iniciativa privada na bioinformáticaPedro: está... O grande problema, Pedro, é que acredito que dificilmente a bioinformática per se pode dar algum lucro. Por exemplo, a empresa Alellyx tem, além de um grande know how em bioinfo, um grande know how em biologia molecular e em genômica. A descoberta deDr. Francisco novos genes apenas por bioinfo é muito difícil e é preciso estarProsdocimi sempre sequenciando novos organismos. E um sequenciador de DNA é muito caro para que pequenos empresários possam comprar, o capital inicial de uma empresa de biotecnologia apresentando bioinformática é muito alto.Marx: E fora do Brasil, como estão as perspectivas? Fora do Brasil eu acredito que haja bastante espaço, sim, para bioinformatas. Assino uma lista de jobs em bioinformática eDr. Francisco freqüentemente vejo pedidos para profissionais da área... o únicoProsdocimi problema é que normalmente exige-se grande experiência prévia, o que não temos ainda no Brasil -- profissionais qualificados. Dr. Francisco Prosdocimi, fale um pouco sobre mineração de dados jáAdonis: que esta é o etapa seguinte depois da geração das seqs. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 11. 9 Bem, caro Adonis, isso me remete aos princípios paradigmáticos da bioinformática que apresentei no texto introdutório. Acredito que os trabalhos atuais em bioinformática podem ser divididos em três correntes principais, os trabalhos de tijolo -- onde ferramentas de bioinformática são produzidas para construir os edifícios genômicos, osDr. Francisco trabalhos de peneira -- onde a mineração da grande massa de dadosProsdocimi em genômica são analisados mais especificamente em vários contextos -- e os trabalhos de lupa, onde a genômica encontra a ciência e o método científico de observação, hipótese, experimentação e resultados são novamente retomados. Escrevi um trabalho sobre isso para a revista ciência hoje que foi publicado em 2004. Trabalho atualmente no BIOAGRO-UFV (Instituto de Biotecnologia Aplicada à Agropecuária) no Laboratório de Bioinformática, desenvolvendo softwares de análise populacionais (genética dePedro: populações). Você considera válido esse tipo de iniciativa ou seria melhor eu estar trabalhando mais especificamente com a biologia molecular? Considero muito válido seu trabalho. Mas também já tentei produzirDr. Francisco algo relacionado a genética de populações e acho muito difícil produzirProsdocimi algo melhor do que os já conhecidos programas PAUP, PHYLIP, MEGA, dentre outros. Boa sorte! Poderíamos ou podemos, descobrir qual a seqüência para umaPaulo: determinada proteína ou característica. Ou para identificar estes pares, para saber qual proteína ela vai produzir, seria isto? Podemos sim, saber qual a seqüência de DNA é relativa a uma determinada proteína e, muitas vezes, uma característica. Existe até mesmo um projeto conhecido como FENOMA, que tenta identificar osDr. Francisco genes responsáveis por algum fenótipo (característica). O queProsdocimi acontece, entretanto, é que grande parte das características são geradas através de um grande número de genes que interagem entre si e fazem da análise algo complicadíssimo! Tenho uma opinião a expressar... Um grande problema que eu perceboVanderson: na maioria dessas ferramentas de bioinformática é o total descaso com usuários Concordo plenamente, Vanderson. Biólogos não estão interessados em utilizar sistemas linux, linhas de comando e outros artifícios computacionais de start-up razoavelmente complexo. InterfacesDr. Francisco gráficas e fáceis, de preferência via web e bastante user-friendly sãoProsdocimi altamente recomendáveis. Mas é preciso dizer que há também programas com manuais completos e simples, mas o usuário parece ter preguiça de lê-los, o que definitivamente é preciso fazer.Carla: Por acaso já se pode analisar um gene pelo computador? É claro, Carla, os genes são formados por seqüências de nucleotídeosDr. Francisco que são representadas por A, C, G e T, transformando as seqüênciasProsdocimi dos genes em letrinhas que são analisadas e comparadas entre diferentes espécies animais. É real a migração de perl para java? ou isso só tá ocorrendo no meioAdonis: privado? Essa migração seria um preocupação com uma interface mais amigável? Caro Adonis, acredito que a migração de PERL para JAVA estáDr. Francisco relacionada ao fato de que a linguagem JAVA é multiplataforma, alémProsdocimi de ser nativamente orientada a objetos, o que facilita a criação de programas mais complexos e de grande porte. Acredito que os scripts © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 12. 10 freqüentemente utilizados em trabalhos de bioinformática devem continuar sendo produzidos em PERL, que é uma linguagem onde a expressão regular é nativa e rápida, sendo mais apropriada para tais trabalhos. Sim, a migração também pode estar relaciona com uma interface mais amigável, já pronta em vários objetos JAVA. Como o Brasil está em relação a outros paises, nesse desenvolvimento?Carla: O nosso país valoriza a bioinformática? O Brasil anda atrás dos países desenvolvidos quando o assunto éDr. Francisco bioinformática e, apesar de que recentes iniciativas da CAPES e doProsdocimi CNPq vêm tentando buscar equiparação internacional, a bioinformática brasileira ainda está em seu berço (esplêndido). Boa noite Dr. Gostaria de saber sobre o cenário de Software Livre x Software Proprietário em bioinformática. O Sr. acredita que a adoção do software livre pode ajudar na redução de gastos em pesquisa eMacedo: desenvolvimento e que isso possibilitará o estudo de doenças negligenciadas? Ou o segmento acadêmico enxerga o software livre apenas como ª... No caso da bioinformática posso assegurar que mais de 95% dos softwares são livres ou de livre acesso (pelo menos para o meio acadêmico) e cerca de 50% são de livre acesso para todos. Por isso, aDr. Francisco bioinformática exige um custo inicial para pesquisa bem baixo e esse éProsdocimi mais um dos motivos pelos quais essa ciência deveria ser mais incentivada em nosso país. Com um computador razoável e boas idéias é possível fazer boa bioinformática!!! Uma empresa privada que prestasse suporte em bioinformática (desenvolvendo softwares sequenciadores para organismos específicosPedro: ou que atendessem alguma demanda de determinada pesquisa, com uma interface mais amigável com o usuário final) poderia dar certo? Não estou bem certo, Pedro. O problema é que a idéia para elaboração de softwares teria de vir da academia e não sei o pessoal das universidades estaria disposto a dar a idéia para que vc fizesse o software para eles comprarem, entende? Eles prefeririam pedir noDr. Francisco departamento de computação para ver se algum outro aluno faria oProsdocimi mesmo software de graça, gerando um trabalho publicável em conjunto. A menos que vcs produzissem um pacote grande, para uma ampla gama de aplicações... aí vc poderia dar certo com sua empresa... Um profissional em bioinformática deve saber tanto trabalhar com os softwares de análises de seqüências quanto desenvolver novosDani: programas? Quais são as linguagens de programação mais utilizadas para este fim? Ótima pergunta, Dani. É imprescindível para o profissional de bioinformática, na minha opinião, ter quatro conhecimentos básicos: (1) Ele deve entender bem biologia molecular, (2) saber trabalhar comDr. Francisco os bancos de dados disponíveis na internet, (3) saber BEM umaProsdocimi linguagem de programação e (4) saber manipular bancos de dados. Estes, na minha opinião, são os principais requisitos para formar um bioinformata. Você contrataria uma empresa dessa natureza para dar suporte às suasPedro: pesquisas ou prefere, você mesmo, desenvolver os aplicativos com que trabalha?Dr. Francisco Depende do quanto de trabalho fosse necessário. Se fosse poucoProsdocimi trabalho, eu mesmo desenvolveria. Se necessitasse de um software © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 13. 11 amplo, talvez preferisse pagar... mas dependeria de financiamento governamental para isso... e o governo não gosta muito do assunto comprar softwares de empresas privadas para trabalhos científicos. No último edital do CNPq para bioinfo, enviamos um projeto tentando comprar um software e o projeto não foi aprovado... possivelmente por este único motivo. Boa Noite Dr. Francisco, participei da primeira turma de especialização em bioinformática do LNCC, atualmente estou fazendo doutorado emFabio: microbiologia na UFRJ. Gostaria de saber na sua opinião quais são as principais diferenças dos cursos de doutorado em Bioinformatica da USP e da UFMG? Fala, Fábio. É com receber companheiros por aqui... fui seu sucessor no LNCC, participando da segunda turma. Não posso dizer muito do curso de doutorado na USP, o qual conheço pouco. Mas ao que me parece oDr. Francisco curso da USP é muito voltado para as ciências exatas, tendo uma altaProsdocimi carga de disciplinas de matemática e estatística. Aqui na UFMG a carga de disciplinas é bem balanceada e leve, de forma que o aluno possa se preocupar mais com seu projeto de tese. A quantas anda o desenvolvimento das pesquisas em bioinformáticaPedro: aqui no estado de Minas Gerais? Aqui em Minas temos alguns grupos de bioinformática montados. Não posso dizer que conheço todos eles, mas aqui na UFMG temos aoDr. Francisco menos uns três grupos de bioinformática, trabalhando com genoma deProsdocimi Schistosoma mansoni, genômica comparativa e genômica evolutiva, mas as coisas ainda são um pouco precárias e a infra-estrutura não é das melhores. Sou bióloga, especialista em biotecnologia - trabalho com saneamento - área ambiental - - mas tenho grande interesse em bioinformática.Dani: Quais são os conhecimentos básicos de informática que um biólogo deve ter para iniciar um mestrado em bioinformática? Bem, não conheço nenhum mestrado em bioinformática e acho que -- se houvesse algum -- o aluno deveria conhecer o básico de sistemas linux e linguagens de programação. Mas dependendo, se o mestradoDr. Francisco for para biólogos ou para “computólogos”, os conhecimentos a seremProsdocimi exigidos são diferentes. Se for um mestrado para biólogos é possível que não seja necessário nenhum conhecimento de informática e todo o conhecimento pode ser adquirido quando da realização do curso. Qual é campo de trabalho para um pós-graduado em bioinformática,Dani: além do desenvolvimento de pesquisas em universidades, fundações de pesquisa Federais,Estaduais e a Licenciatura? Bem, essa pergunta é um tanto quanto capciosa. Se uma pessoa formou em bioinformática, imagino que ela queira fazer pesquisa ouDr. Francisco dar aulas. É claro que ela pode também trabalhar em alguma empresaProsdocimi de biotecnologia ou de bioinformática per si... mas acredito que aí ela teria que ir pra fora do Brasil...Ricardo: Quais são os trabalhos que vc está fazendo ultimamente na área? Olá, Ricardo. Ultimamente tenho trabalhado com análises do software PHRED, com a montagem de um programa para simular a evolução emDr. Francisco locos de microsatélites, trabalho também com a diferença na utilizaçãoProsdocimi de aminoácidos por proteínas de diferentes organismos, com a origem do código genético, com famílias de proteínas dedos de zinco, dentre diversas outras coisas. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 14. 12 Então, estarei entrando em contato com o senhor (pois estou naPedro: organização do evento). Mais uma pergunta, ainda é muito cedo para pensarmos em cursos de graduação em bioinformática no Brasil? Ok. Acho que um curso de graduação em bioinformática poderia ser bastante interessante sim, mas acho que é cedo para isso. Ainda não há, só pra vc ter uma idéia, um conceito amplo do que sejaDr. Francisco bioinformática e é preciso que esta disciplina fique mais madura aoProsdocimi longo dos anos para que esse conceito brote claramente. Acho que os biólogos moleculares atualmente são os principais candidatos a se tornarem bioinformatas e não há nem cursos de graduação em biologia molecular... pelo menos desconheço... A título de informação: foi criada na grade curricular do BachareladoPedro: em Bioquímica-UFV a BQI460 (Bioinformática), onde serão abordados os principais aspectos dessa nova área do conhecimento. Bem, aqui na UFMG o prof. Miguel Ortega já ministra à mais de dois anos uma matéria de tópicos em bioquímica e biologia molecular cujoDr. Francisco assunto é a bionformática. É bastante interessante que a universidadeProsdocimi de Viçosa tenha proposto uma disciplina específica sobre o assunto e mostra como está atualizada com relação aos novos avanços da biologia molecular. O que você considera como maior desafio para a consolidação daPedro: Bioinformática no Brasil? Considero o maior desafio a formação dos profissionais e a montagemDr. Francisco de infra-estrutura adequada e de computadores de alto-desempenhoProsdocimi para as análises mais elaboradas na área.1.6. Referências Bibliográficas e textos complementares1 Davies, K. (2001). Decifrando o genoma. Companhia das letras.2. NCBI: A Science Primer - http://www.ncbi.nlm.nih.gov/About/primer/index.html3. NCBI: A Science Primer – Bioinformatics - http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html4. Chico On Line – Bioinformática - http://www.icb.ufmg.br/~franc/cool5. GenBank Stats - http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html1.7 Brainstorm1. Dê sua opinião sobre o que entende por bioinformática e qual a importância da área.2. Vá ao site do NCBI (National Center for Biotechnology Information, o centro americano para informação biotecnológica, http://www.ncbi.nlm.nih.gov), leia e navegue um pouco. Encontre algum serviço interessante e reporte sua experiência. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 15. 13 CAPÍTULO 2 Genoma, biologia molecular e computação2.1. Introdução Como já foi dito, o presente curso não tem como função explicar genômica,biologia molecular ou computação. Ainda assim, alguns conceitos se tornamimportantes para que possamos seguir o curso e neste capítulo estaremos nosdedicando a eles.2.2. Sequenciamento do DNAFigura 2.1. O dogma central da biologia molecular. Da análise de DNA temos osprojetos genoma, da análise do conteúdo de RNAs mensageiros de uma célulaproduzimos estudos de transcriptoma e a partir da análise de conteúdo protéicogeramos os projetos proteoma. A bioinformática surgiu a partir da biologia molecular e dela ainda é inseparável(figura 2.1). No capítulo anterior, aprendemos que a bioinformática se desenvolveuprincipalmente depois do surgimento dos seqüenciadores de DNA em larga escala,como o ABI Prism 3700. A reação de sequenciamento de DNA consiste basicamenteem um processo de amplificação da molécula de DNA de interesse. Entretanto, duranteessa amplificação, são utilizados tanto os nucleotídeos normais de DNA, conhecidoscomo desoxiribonucleotídeos quanto alguns nucleotídeos especiais, conhecidos comodi-desoxiribonucleotídeos. A diferença entre eles é que os didesoxinucleotídeosapresentam, como o nome diz, uma molécula de oxigênio a menos, eles não contémuma extremidade 3’OH livre. Assim, se lembrarmos como é formado o esqueleto deuma cadeia de DNA, veremos que os nucleotídeos adjacentes são ligados entre siatravés de uma ligação com um grupamento fosfato exatamente na posição docarbono 3’. Isso significa que, um nucleotídeo que não apresente um grupamento OHnesta posição (chamado di-desoxiribonucleotídeo ou simplesmente di-desoxinucleotídeo) impede a ligação de um nucleotídeo em seguida, o que interrompea cadeia de DNA naquela posição. Assim, durante a amplificação em que consiste areação de sequenciamento do DNA, são produzidas moléculas de diferentes tamanhos,sendo que cada uma delas possui, na sua extremidade, um didesoxinucleotídeo queimpede a ligação de outros nucleotídeos a seguir. Além disso, dependendo de qualbase ele carrega, cada um desses nucleotídeos sem a extremidade 3’OH livre © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 16. 14apresenta um pigmento fluorescente diferente adicionado. Após a reação desequenciamento – que é realizada num termociclador, assim como um PCR --, asmoléculas resultantes são submetidas a uma eletroforese. Nesse procedimento, o DNAresultante da amplificação é submetido a um gradiente elétrico dentro de uma matrizde gel, que permite uma mobilidade diferencial das moléculas. As moléculas pequenasde DNA movem mais rapidamente para o pólo positivo durante essa eletroforese.Essas moléculas pequenas foram aquelas que incorporaram didesoxinucleotídeos maisprecocemente do que as outras. E assim, elas vão se movendo na matriz gelatinosamais rapidamente, indo em direção ao pólo positivo. Quando chegam próximo ao pólo,um laser incide sobre essa molécula e, dependendo de qual didesoxinucleotídeo foiincorporado em sua extremidade final, o laser promove a incidência da fluorescêncianum receptor que capta, afinal, qual foi o comprimento de onda daquele fluoróforoexcitado. Assim, conseguimos descobrir qual foi a última base daquela molécula já quediferentes didesoxinucleotídeos -- com diferentes bases nitrogenadas (A, C, G ou T) --,produzem fluorescência diferente a ser captada pelo laser e, dessa forma, sabemos sea última base daquela molécula é uma adenina, uma guanina, uma citosina ou umatimina. E à medida que as moléculas vão passando pelo gel, cada uma contendo adiferença de um único nucleotídeo marcado de acordo com sua base, o computador vaigerando um perfil de fluorescências que posteriormente serão transformadas nas letrasque representam a seqüência de bases da molécula original por algoritmos específicos,que trataremos posteriormente neste curso. Não é tarefa fácil explicar na forma de texto como é realizado osequenciamento do DNA e, por isso, recomendo aos alunos acessarem o seguinte sitepara entenderem melhor como o seqüenciamento do DNA é realizado, passo a passo:http://www.dnalc.org/shockwave/cycseq.html. Outras animações interessantes embiologia molecular (como a da técnica de PCR de amplificação do DNA ou técnicasforenses baseadas em DNA) podem ser obtidas no mesmo site. É preciso, entretanto,fazer o download gratuito do programa macromedia shockwave.2.3. Genômica Um genoma consiste no conjunto haplóide de informações presentes no DNA deum determinado organismo. O conjunto é haplóide porque, na verdade, um organismodiplóide apresenta uma dupla cópia de um mesmo segmento de DNA, presente noscromossomos homólogos. Assim, não faz sentido ter essa redundância de informaçãoe, por isso, considera-se o genoma como sendo o conjunto haplóide de informaçãogenética. Para obter uma seqüência genômica devemos pegar as células de umdeterminado organismo, purificarmos seu DNA e realizarmos a construção da chamadabiblioteca de DNA genômico. Para tal, o DNA do organismo deve ser picotado empequenos pedacinhos e ligado nos chamados vetores de clonagem -- que podem serplasmídeos, cosmídeos ou vetores que permitem a inserção de segmentos grandes deDNA, como os BACs ou YACs que são, respectivamente, os cromossomos artificiais debactérias e leveduras. A partir desses vetores é que são, freqüentemente,seqüenciados os segmentos de DNA e cada reação de sequenciamento produzmoléculas apresentando algo entre trezentos e mil pares de bases. Como os genomassão muito maiores do que esse tamanho, mostra-se necessária a montagem dogenoma utilizando algoritmos de sobreposição de seqüências, que serão apresentadosem aula posterior. E se o genoma consiste no sequenciamento da molécula de DNA de umadeterminada célula, o transcriptoma consiste no sequenciamento do conteúdo de RNAmensageiro (mRNA) produzido em uma determinada célula sujeita a determinadacondição. Enquanto uma célula apresenta apenas um genoma estático e imutável, a © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 17. 15mesma pode apresentar milhares de diferentes conteúdos de transcriptoma, já que aexpressão de genes depende de diversos fatores, como o grau de maturação da célula,a temperatura à qual ela está sujeita, os nutrientes presentes no meio, a presença dealgum agente mutagênico específico e mais milhares de outros fatores. Assim, osestudos de transcriptoma podem mostrar a adaptação da célula a determinadacondição e podemos estudar os genes que ficam ativos quando dessa condição. Naprodução de um projeto transcriptoma (ou de genômica funcional, como também éfreqüentemente chamado) deve-se purificar o conteúdo de mRNA da célula dacondição desejada. Como o RNA é uma molécula muito instável, realiza-se suatranscrição reversa, transformando este RNA numa molécula conhecida como cDNA,que representa o DNA complementar à seqüência daquele mRNA. Esse cDNA é entãoclonado em vetores de clonagem para a produção da biblioteca de cDNA que contémuma amostra fiel dos mRNAs que foram produzidos pela célula naquela condição. Valenotar que, enquanto no genoma observa-se normalmente apenas uma cópia de cadagene, nas análises de transcriptoma, cada um dos genes pode estar amostradodezenas de vezes, pois a célula pode estar precisando do mesmo para realizar algumtipo de processo e ele pode ter sido transcrito centenas de vezes em moléculas demRNA.2.4. As ômicas: integrando a bioinformação Veja o artigo publicado na edição 32 da revista biotecnologia: http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf. O pesquisador da Embrapa Soja, Eliseu Binneck, apresenta o status atual dagenômica no mundo e ainda vários conceitos importantes de biologia molecular egenômica.Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf2.5. O PERL e outras linguagens de programação No capítulo anterior discutimos sobre os conhecimentos relevantes para umprofissional na área de bioinformática. Nesse momento, portanto, gostaria de falarmais um pouco sobre a informática utilizada para a análise de seqüências. Éextremamente importante que qualquer pessoa trabalhando na área de bioinformáticaconheça alguma linguagem de programação. E a principal linguagem utilizada porprofissionais da bioinformática é o PERL. O PERL é uma linguagem de script que foicriada em 1987 por um cientista da computação chamado Larry Wall e é uma siglapara Practical Extraction and Report Language ou, em português, Linguagem Práticade Extração e Relatório. Segundo a wikipedia (http://pt.wikipedia.org/), a origem doPERL remonta ao shell scripting, que é a programação em linhas de comando, ao awk,uma outra linguagem bem simples de programação shell e à linguagem C, uma dasmais utilizadas pelos programadores. Essa linguagem é disponível para praticamentetodos os sistemas operacionais, mas é utilizada mais freqüentemente em sistemasUnix e compatíveis. E o PERL é freqüentemente utilizado pelos bioinformatas porque éuma linguagem montada para trabalhar facilmente com o processamento de cadeiasde caracteres (chamadas de strings pelos informatas), permitindo ainda uma fácilmanipulação de arquivos texto e a utilização das chamadas expressões regulares,muito úteis para se realizar busca em seqüências de caracteres. Como tanto o DNA © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 18. 16quanto o RNA e as proteínas podem ser facilmente representados por seqüências decaracteres – nucleotídeos ou aminoácidos, representados por seqüências de uma letra--, o PERL acabou por permitir, intrinsecamente, uma fácil manipulação dos dados debiologia molecular. Um exemplo simples de programa em PERL é apresentado abaixo paratransformar uma seqüência de DNA de entrada em uma nova seqüência de RNA. Oprograma considera que a fita de DNA de entrada é a fita codificadora e, portanto, oprograma apenas transforma as letras T, de timina, do DNA em letras U, de uracila,representando as bases do RNA.Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA.#!/usr/bin/perl# Seqüência que se deseja utilizar$meuDNA= “TTCCGAGCCAATTGTATCAGTTGCCAATAG”;# Faz com que a seqüência de RNA receba a mesma seqüência do DNA$meuRNA = $meuDNA;# Troca as bases produzindo a fita complementar$meuRNA =~ tr/T/U/;print “Minha seqüência de RNA é: n $meuRNA”; A primeira linha é obrigatória e diz ao programa o caminho onde se encontra ointerpretador PERL para que o programa possa encontrá-lo na hora de sua execução.Normalmente o PERL está disponível no diretório /usr/bin das distribuições Unix. Valenotar que, ao contrário da grande maioria das outras linguagens de programaçãonormalmente utilizadas, um programa PERL não é compilado de forma a gerar umexecutável em linguagem de máquina. O script PERL necessita, portanto, de que existaum interpretador PERL instalado em alguma pasta de trabalho dentro do computador eé exatamente a pasta onde esse interpretador está localizado que deve aparecer nestaprimeira linha de código. As linhas do script que se começam com o sinal “#”representam linhas de comentário e servem apenas para facilitar o entendimento docódigo, não sendo realmente lidas pelo interpretador. Todas as variáveis emprogramação PERL são precedidas do sinal de dólar “$”, elas não têm um tipo pré-definido (como inteiro, booleano, real, etc.) e não precisam ser declaradasanteriormente, cabe ao programador saber como e em que contexto devem serutilizadas. Há também as variáveis do tipo array, que são precedidas do sinal de “@” eas variáveis do tipo hash, que devem ser precedidas do sinal de “%”. Todos oscomandos terminam sempre com um sinal de ponto-e-vírgula. Neste exemplo, a linhaque realmente faz a tradução de uma seqüência de DNA para uma seqüência de RNA éa que apresenta o sinal “=~”. Esse sinal está relacionado à utilização de umaexpressão regular que, no caso, faz a tradução de todos as letras T de uma seqüênciade caracteres, transformando-as em letras U. No fundo, a bioinformática – e, num sentido mais amplo, todo software -- podeser desenvolvido utilizando-se qualquer linguagem de programação e há os que aindapreferem utilizar a linguagem C ou Java para produzir qualquer tipo de programa. Nofundo, essa é uma opção pessoal e por mais que uma ou outra linguagem seja maisadaptada ou mais rápida para determinado problema, é possível fazer quase qualquercoisa com quase qualquer linguagem. Entretanto, mesmo essa simples tradução quefizemos de DNA para RNA com apenas uma linha de código, pode se tornar mais árduaquando realizada em diferentes linguagens e é exatamente por isso que o PERL é maisutilizado na área; por facilitar a programação. Para sistemas mais complexos, no © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 19. 17entanto, parece ser consenso que a utilização de uma linguagem de programaçãomulti-plataforma, como é o caso do Java, seja mais adequada.2.6. Referências Bibliográficas e textos complementares1. Dolan DNA Learning Center - Biology Animation Library - http://www.dnalc.org/resources/BiologyAnimationLibrary.htm2. Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf3. Perl, Wikipedia. http://pt.wikipedia.org/wiki/Perl2.7. Brainstorm1. Você viu a animação sobre como é feito o sequenciamento do DNA, descreva agora as etapas através das quais é realizada esta técnica.2. Descreva como são feitos projetos genoma e transcriptoma.3. Perguntas sobre o texto escrito por Binneck. a. Apesar de apresentarem um número de genes bastante similar a outros organismos, diz-se que os seres humanos apresentam uma diversidade de proteínas muito maior do que eles. A que se deve tal diversidade? b. Qual a porcentagem do genoma humano que é responsável pela produção de genes/proteínas? E o resto, qual seria o motivo – se é que há algum – para haver tanto DNA não codificante no genoma? c. Você acredita que genes que alteram seus padrões de expressão em conjunto possam ter funções parecidas? Por quê? d. Escolha duas das ciências “ômicas” e descreva-as e. Discorra sobre o papel da bioinformática na agregação de dados em biologia4. Com relação a linguagens de programação, por que o PERL é conhecido como a linguagem dos bioinformatas? Os dados em bioinformática podem ser tratados com outras linguagens de programação? Cite outra linguagem possível. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 20. 18 CAPÍTULO 3Alinhamento de Seqüências3.1. Introdução O alinhamento de seqüências consiste no processo de comparar duasseqüências (de nucleotídeos ou proteínas) de forma a se observar seu nível deidentidade. Essa técnica de comparação de seqüências é implementada segundo umconceito de desenvolvimento de programas conhecido como um algoritmo guloso e éum dos pilares de toda a bioinformática. Existem centenas de aplicações doalinhamento de seqüências, tanto na identificação de genes e proteínas desconhecidas,quanto na comparação da ordem de genes em genomas de organismos proximamenterelacionados (sintenia), no mapeamento de seqüências expressas dentro de umgenoma para identificação de genes, na montagem de genomas e em diversas outrasaplicações. Por exemplo, podemos alinhar duas seqüências para descobrirmos o grau desimilaridade entre as seqüências de forma que possamos inferir (ou não) a uma delas,alguma propriedade já conhecida da outra (Prosdocimi et al., 2003). O alinhamentoentre duas seqüências pode ser feito de forma global ou local (Figura 3.1.).Figura 3.1. Alinhamento global e local. À esquerda vemos um exemplo de como éfeito um alinhamento global das seqüências e à direita vemos um exemplo darealização de um alinhamento local. Retirado de Prosdocimi et al., 2003.3.2. Alinhamento Global O alinhamento global é feito quando comparamos uma seqüência deaminoácidos ou nucleotídeos com outra, ao longo de toda sua extensão(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O algoritmoNeedleman-Wunsch é o mais conhecido para realizar esse tipo de alinhamento, © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 21. 19embora outros programas, como o MULTALIN(http://prodes.toulouse.inra.fr/multalin/multalin.html) também o façam (Corpet,1988). Nesse caso são dados valores em uma matriz de comparação para assimilaridades (matches), diferenças (mismatches) e falhas (gaps) encontrados duranteo alinhamento das seqüências. As somas dos valores do alinhamento, de acordo comessa matriz de comparação, resulta num valor, que é um escore de similaridade entreas seqüências (Figura 3.2.). No MULTALIN não é dado escore de similaridade (já que elepermite o alinhamento de várias seqüências ao mesmo tempo), e a semelhança entreas seqüências deve ser medida através de inspeção visual.3.3. Alinhamento Local O alinhamento local acontece quando a comparação entre duas seqüências nãoé feita ao longo de toda sua extensão, mas sim através de pequenas regiões destas(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O principal programa utilizado para o alinhamento local de seqüências é oBLAST (Basic Local Alignment Search Tool ou Ferramenta Básica de Procura porAlinhamento Local), encontrado em http://www.ncbi.nlm.nih.gov/BLAST/. Essesoftware compreende um conjunto de algoritmos de comparação de seqüênciasmontado de forma a explorar toda a informação contida em bases de dados de DNA eproteínas (http://www.ncbi.nlm. nih.gov/BLAST/blast_overview.html). Os programasBLAST foram desenvolvidos de modo a aumentar ao máximo a velocidade da buscapor similaridade -- já que as bases de dados são grandes e vêm crescendoexponencialmente --, mesmo correndo o risco de perder um pouco na sensibilidade doresultado (Altschul et al., 1997). A rapidez da busca deve-se ao fato de que oprograma utiliza uma heurística que quebra as seqüências de entrada e das bases dedados em fragmentos – as palavras (words) – e procura, inicialmente, similaridadesentre elas. A busca é então feita com palavras de tamanho W que devem apresentarpelo menos um escore T de alinhamento entre si, dado de acordo com uma matriz devalores. Assim, as palavras que apresentam esse escore T (maior responsável pelavelocidade e sensibilidade da busca) (Altschul et al., 1997) são estendidas em ambasas direções para ver se geram um alinhamento com um escore maior do que S. Umaoutra vantagem de se utilizar o alinhamento local feito pelo BLAST é que, dessa forma,é possível identificar relações entre seqüências que apresentam apenas regiõesisoladas de similaridade(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html).Figura 3.2. Alinhamento de seqüências. O alinhamento de seqüências de DNA é feitoatravés da procura de uma região de similaridade entre duas seqüências utilizando um © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 22. 20algoritmo guloso. Quando essa região é encontrada são dados pontos parasimilaridades (match), diferenças (mismatches), abertura de falhas (gap opening) eextensão de falhas (gap extension) que possam ser encontradas no seu alinhamento.A somatória dos pontos desse alinhamento é chamado de escore do alinhamento e, noexemplo mostrado, o escore do alinhamento é 3. Tais escores são contabilizados tantonos alinhamentos globais quanto locais. Os resultados do BLAST são então apresentados de acordo com doisparâmetros: o valor do escore (Score bits) e o valor E (e-value). O valor de escoredepende do tamanho do alinhamento, do número de matches/mismatches/gaps e damatriz de comparação de seqüências utilizada e é normalizado através de variáveisestatísticas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html). Jáo valor E representa o número de alinhamentos com escores iguais ou melhores que“S” que seria de se esperar que ocorressem ao acaso numa base de dados do tamanhoda utilizada. Assim, quanto menor o valor E, melhor o alinhamento, de forma que(num banco de dados de grandes proporções) um valor de E igual a zero significa quenão há chance de que um alinhamento entre as duas seqüências tenha ocorrido pormero acaso (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O BLAST apresenta diferentes subprogramas que devem ser utilizados deacordo com o tipo de seqüência de entrada e os bancos de dados que se desejapesquisar. A TABELA 3.1 apresenta as possibilidades de entrada, bancos de dados eprograma a ser utilizado. Formato da Formato da Programa Seqüência de Banco de dados seqüência que é BLAST Entrada comparado adequado Nucleotídeos Nucleotídeos Nucleotídeos BLASTn Proteínas Proteínas Proteínas BLASTp Nucleotídeos Proteínas Proteínas BLASTx Proteínas Nucleotídeos Proteínas TBLASTn Nucleotídeos Nucleotídeos Proteínas TBLASTtxTabela 3.1: Programas BLAST utilizados de acordo com o formato de entrada deseqüência e banco de dados desejados. Adaptada dehttp://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html.3.4. Alinhamentos ótimos e heurísticos Algo que deve ser levado em consideração sempre que se deseja fazeralinhamentos de seqüências é o fato de que o alinhamento desejado seja o melhorpossível de ser obtido através de ferramentas computacionais ou se desejamos apenasuma aproximação válida desse melhor resultado. É evidente que, em condiçõesnormais, desejaríamos sempre obter o melhor resultado de alinhamento possível e,portanto, utilizaríamos os algoritmos que produzem resultados ótimos. Entretanto,algumas vezes precisamos obter uma maior rapidez de busca e, portanto, aceitamosque o resultado obtido não seja “o melhor possível” e, assim, utilizamos algoritmosque apresentam algum tipo de heurística. E essa heurística, no caso, normalmenteconsiste em uma forma qualquer que o programador utiliza para acelerar a produçãodos resultados, em detrimento da obtenção do melhor resultado possível. Assimobtém-se um resultado aproximado, mas rápido. A tabela 3.2 apresenta os principaisalgoritmos utilizados em bioinformática para o alinhamento de seqüências. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 23. 21 Tipo de Precisão do Número de seqüências Programa Alinhamento Alinhamento a serem alinhadas BLAST2Sequences Local Heurístico 2 SWAT (Smith-Waterman) Local Ótimo 2 ClustalW Global Heurístico N Multalin Global Heurístico N Needleman-Wunsch Global Ótimo 2Tabela 3.2:Principais programas de alinhamento de seqüências e suas características. As ferramentas de alinhamento ótimo são aquelas que nos dão como resultadoo melhor alinhamento possível de acordo com a metodologia algorítmica decomparação de seqüências. Via de regra, a execução desses algoritmos é mais lentado que a daqueles algoritmos que não geram o resultado perfeito e, como vimos natabela 4.2., existem ferramentas de alinhamento ótimo locais e globais. O maiorproblema em utilizar os programas de alinhamento ótimo consiste nos casos onde sãoalinhadas múltiplas seqüências entre si. Nesses casos, o alinhamento ótimo pode setornar simplesmente impossível de ser feito, pois gastaria uma quantidade de tempoquase infinita para alinhar otimamente uma quantidade seqüências não muito grande.Nos outros casos, entretanto, deve-se preferir a utilização de algoritmos que produzamo alinhamento ótimo em detrimento dos algoritmos de pesquisa heurística. Algoritmos heurísticos são aqueles que não realizam o alinhamento ótimo entreseqüências. Esses algoritmos freqüentemente utilizam alguma técnica alternativa paraacelerar o resultado da busca por seqüências similares, no caso. O BLAST, porexemplo, como vimos no item anterior, parte a seqüência em pedaços para acelerar abusca e outros algoritmos realizam diferentes maneiras de gerar um resultado queseja o mais próximo possível do resultado ótimo. Como já comentado, sãoprincipalmente utilizados em alinhamentos múltiplos, onde os algoritmos ótimosdemoram um tempo muito grande para gerar os resultados. São freqüentementeutilizados também quando da comparação de seqüências contra grandes bancos dedados, exatamente como faz o BLAST, que procura a similaridade de uma seqüênciade entrada contra milhões de outras presentes em seu banco de dados. Muitas vezes, os resultados obtidos com programas heurísticos devem serconfirmados por programas de alinhamento ótimo antes de serem publicados emrevistas especializadas. Entretanto algumas vezes tal procedimento não é necessário etudo vai depender do tipo de trabalho que está sendo realizado.3.5. Alinhamentos simples e múltiplos Como também já foi comentado na seção anterior, existem dois tipos principaisde alinhamentos de seqüências no que concerne ao número de seqüências que sãocomparadas durante o alinhamento. Quando apenas duas seqüências são comparadasentre si, diz-se que o alinhamento é simples. E, nesses casos, normalmente prefere-seutilizar alinhamentos ótimos para gerarem os resultados, exceto nos casos ondemilhares de alinhamentos simples devem ser realizados. De forma contrária, considera-se um alinhamento múltiplo quando três ou maisseqüências devem ser alinhadas entre si. No fundo, o alinhamento múltiplo é montadoa partir do alinhamento par a par de cada uma das seqüências com todas as outras,seguido por um outro procedimento que irá gerar o resultado final do alinhamento detodas contra todas. Assim, se 10 seqüências são comparadas entre si, serãonecessárias 10! (fatorial de 10) comparações de seqüências, o que representam © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 24. 223.628.800 comparações. E é exatamente por isso que os programas heurísticos sãopreferidos para gerar esse tipo de resultado.3.6. Matrizes de comparação Outra coisa de suma importância quando da realização de qualquer alinhamentode seqüências é a matriz de substituição que é utilizada. Na figura 3.2. é mostrado umalinhamento e o número de “pontos” dados para coincidências (matches), divergências(mismatches), abertura de gaps (gap opening) e extensão de gaps (gap extension).Entretanto, ao utilizarmos matrizes de substituição podemos dar valores diferentespara coincidências de diferentes nucleotídeos ou aminoácidos. Vale notar que oresultado de um alinhamento de seqüências pode ser completamente diferentedependendo da matriz de substituição utilizada. As matrizes de comparação são principalmente utilizadas durante o alinhamentode seqüências de proteínas e isso se deve ao fato de que existem aminoácidos que sãomais (ou menos) parecidos entre si do que outros. Há aminoácidos com cargaspolares, apolares ou sem carga e a mudança, em uma proteína, de um aminoácidoapresentando uma determinada característica para outro da mesma característica émenos drástica do que uma mudança para um aminoácido apresentando característicadiferente. Portanto, as matrizes de substituição são extremamente utilizadas noalinhamento de seqüências protéicas. Mesmo no caso de seqüências de nucleotídeos são mais comuns as mutaçõesconhecidas como transições do que as transversões. Nas transições, a mutação ocorreentre bases do mesmo tipo, purina para purina (A para G ou G para A) ou pirimidinapara pirimidina (C para T ou T para C), enquanto nas transversões ocorre a mudançade uma purina para uma pirimidina ou o contrário. Dessa forma, ao utilizarmosmatrizes de substituição, podemos dar mais pesos para as transversões do que para astransições, o que faria com que o resultado fosse mais relevante e pudesse estar maisrelacionado com a evolução, por exemplo. As matrizes de substituição mais comuns para seqüências nucleotídicas são amat50 e a mat70, enquanto para seqüências protéicas as mais conhecidas são asmatrizes PAM e BLOSUM. As matrizes BLOSUM (Blocks Substitution Matrix), porexemplo, são baseadas na observação das freqüências de substituição em blocos dealinhamentos locais de proteínas relacionadas. Existem várias matrizes BLOSUM e elasdevem ser utilizadas para comparar proteínas contendo um determinado valor deidentidade, por exemplo, a matriz mais utilizada pelos programas é a BLOSUM62, quefoi montada para comparar proteínas que apresentem 62% de aminoácidos idênticos. Abaixo vemos as matrizes de substituição de nucleotídeos mat50 e mat70.Podemos perceber que a matriz mat70 apresenta valores menores para algumassubstituições. Isso faz com que o valor final do alinhamento entre duas seqüências deDNA seja menor e, portanto, a matriz mat70 gera um resultado de alinhamento localde um menor número de bases do que a matriz mat50, que estende o alinhamento umpouco mais. Bases A C G T Y R N A 2 -2 0 -2 -2 1 0 C -2 2 -2 0 1 -2 0 G 0 -2 2 -2 -2 1 0 T -2 0 -2 2 1 -2 0 Y -2 1 -2 1 1 -2 0 R 1 -2 1 -2 -2 1 0 N 0 0 0 0 0 0 0 © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 25. 23Tabela 3.3: Matriz de substituição de nucleotídeos mat50. O valor dado para cadatroca pode ser visto nas interseções. O Y representa pirimidinas, o R representapurinas e o N representa qualquer nucleotídeo. Bases A C G T Y R N A 2 -2 -1 -2 -2 0 0 C -2 2 -2 -1 0 -2 0 G -1 -2 2 -2 -2 0 0 T -2 -1 -2 2 0 -2 0 Y -2 0 -2 0 0 -2 0 R 0 -2 0 -2 -2 0 0 N 0 0 0 0 0 0 0Tabela 3.4: Matriz de substituição de nucleotídeos mat70. O valor dado para cadatroca pode ser visto nas interseções. O Y representa pirimidinas, o R representapurinas e o N representa qualquer nucleotídeo.3.7. Exemplos reais de alinhamentosa) Alinhamento global simples entre seqüências de DNA, usando o algoritmoNeedleman-Wunsch.######################################### Program: needle# Rundate: Fri Nov 19 15:57:40 2004# Align_format: srspair# Report_file: 1x2.needle#########################################=======================================## Aligned_sequences: 2# 1: Seq1# 2: Seq2# Matrix: EDNAFULL# Gap_penalty: 10.0# Extend_penalty: 0.5## Length: 736# Identity: 464/736 (63.0%)# Similarity: 464/736 (63.0%)# Gaps: 272/736 (37.0%)# Score: 2261.0###=======================================Seq1 1 0Seq2 1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC 50Seq1 1 0Seq2 51 TGGAATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGAC 100Seq1 1 CTTTCAAGATGAACG 15 |||||||||||||||Seq2 101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG 150Seq1 16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 65 |||||||||||||||||||||||||||||||||||||||||||||||||| © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 26. 24Seq2 151 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 200Seq1 66 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 115 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 201 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 250Seq1 116 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 165 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 251 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 300Seq1 166 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 215 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 301 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 350Seq1 216 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 265 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 351 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 400Seq1 266 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 315 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 401 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 450Seq1 316 CAGTCCATAA---------------------------------------- 325 ||||||||||Seq2 451 CAGTCCATAAAGGTCAGATTCTGTTAATGTAAACAGTTTTTGTATATACA 500Seq1 326 -------------------------------------------------- 325Seq2 501 GCGTTCCTATCTTTGTTTTTCTTCAATACTTACCTGTTAGGGTTTTTGGT 550Seq1 326 ---------AGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 366 |||||||||||||||||||||||||||||||||||||||||Seq2 551 CATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 600Seq1 367 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 416 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 601 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 650Seq1 417 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA 464 ||||||||||||||||||||||||||||||||||||||||||||||||Seq2 651 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATC 700Seq1 465 464Seq2 701 CAGCCTTAAACGACACATAGAAAGCATTCACGAAAG 736#---------------------------------------#---------------------------------------b) Alinhamento local simples entre as mesmas seqüências de DNA, usando oalgoritmo BLAST.BLASTN 2.2.8 [Jan-05-2004]Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),"Gapped BLAST and PSI-BLAST: a new generation of protein database searchprograms", Nucleic Acids Res. 25:3389-3402.Query= Seq1 (464 letters) © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 27. 25Database: seq2 1 sequences; 736 total lettersSearching.done Score ESequences producing significant alignments: (bits) ValueSeq2 652 0.0>Seq2 Length = 736 Score = 652 bits (329), Expect = 0.0 Identities = 329/329 (100%) Strand = Plus / PlusQuery: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375Query: 241 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 300 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 376 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 435Query: 301 acacacatatcaaagcagtccataaaggt 329 |||||||||||||||||||||||||||||Sbjct: 436 acacacatatcaaagcagtccataaaggt 464 Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / PlusQuery: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 28. 26Query: 446 gcgaaacttctctcagaaa 464 |||||||||||||||||||Sbjct: 680 gcgaaacttctctcagaaa 698 Database: seq2 Posted date: Nov 19, 2004 3:58 PM Number of letters in database: 736 Number of sequences in database: 1Lambda K H 1.37 0.711 1.31GappedLambda K H 1.37 0.711 1.31Matrix: blastn matrix:1 -3Gap Penalties: Existence: 5, Extension: 2Number of Hits to DB: 2Number of Sequences: 1Number of extensions: 2Number of successful extensions: 2Number of sequences better than 10.0: 1Number of HSPs better than 10.0 without gapping: 1Number of HSPs successfully gapped in prelim test: 0Number of HSPs that attempted gapping in prelim test: 0Number of HSPs gapped (non-prelim): 2length of query: 464length of database: 736effective HSP length: 9effective length of query: 455effective length of database: 727effective search space: 330785effective search space used: 330785T: 0A: 0X1: 6 (11.9 bits)X2: 15 (29.7 bits)S1: 12 (24.3 bits)S2: 8 (16.4 bits)c) Alinhamento global múltiplo entre as mesmas seqüências de DNA (e outrasduas mais), usando o algoritmo CLUSTALW.CLUSTAL W (1.81) multiple sequence alignmentSeq1 ------------------------------------------------------------Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGASeq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGASeq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGASeq1 ------------------------------------------------------------Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCASeq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCASeq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 29. 27Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACATSeq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACATSeq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACATSeq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************Seq1 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTSeq4 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTSeq2 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTSeq3 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT ************************************************************Seq1 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGSeq4 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGSeq2 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGSeq3 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG ************************************************************Seq1 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAASeq4 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAASeq2 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAASeq3 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA ************************************************************Seq1 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTATSeq4 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTATSeq2 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTATSeq3 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT ************************************************************Seq1 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------Seq4 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGTCAGATTCTGTSeq2 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------Seq3 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------- **************************************************Seq1 ------------------------------------------------------------Seq4 TAATGTAAACAGTTTTTGTATATACAGCGTTCCTATCTTTGTTTTTCTTCAATACTTACCSeq2 ------------------------------------------------------------Seq3 ------------------------------------------------------------Seq1 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATASeq4 TGTTAGGGTTTTTGGTCATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATASeq2 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATASeq3 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA *******************************Seq1 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCASeq4 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCASeq2 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCASeq3 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACANAGGTCTCA *************************************************** ********Seq1 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA---------------Seq4 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTTAAACGASeq2 AGCCTTTCCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTAAAACGASeq3 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTANAACGA ******** ************************************Seq1 ------------------------------------------------------------Seq4 CACATAGAAAGCATTCACGAAAG-------------------------------------Seq2 CACATAGAAGCAATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGATTGTATAAT © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 30. 28Seq3 CACATAGAAAGCATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGAT-GTATAATSeq1 -------------------------------------------------------Seq4 -------------------------------------------------------Seq2 CCTCTCCAATTTTCATATGATTTCATGTTCAAAAATATACATTTATTATTCTTTCSeq3 CCTCTCCAATTT-CATATGATTNCATGNTCANAA-TATACATTTATTATTCTTTC3.8. Referências Bibliográficas1 NCBI Glossário --http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html2. BLAST -- http://www.ncbi.nlm.nih.gov/BLAST/3. BLAST Overview -- http://www.ncbi.nlm.nih.gov/BLAST/blast_overview.html4. BLAST Guide: Deciphering the Output http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html5. BLAST Query Tutorial http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html6. NCBI Similarity Page http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html7. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos ACF; Nhani-Júnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-Flatschart AV. Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31, 2002.3.9. Brainstorm1 Cite duas possíveis utilidades do alinhamento de seqüências no campo da bioinformática.2 Qual a diferença entre alinhamento global e local? Cite o nome de ferramentas que fazer um ou outro alinhamento. Você é capaz de perceber as diferenças entre os resultados do alinhamento de duas seqüências idênticas através de diferentes ferramentas de alinhamento? Explique as diferenças nos resultados mostrados nos itens 4.7. a) e b)3 É possível realizar alinhamentos utilizando uma seqüência de DNA e outra de proteína? Como você acha que isso poderia ser feito? O BLAST implementa esse tipo de ferramenta? Qual o(s) programa(s) do BLAST fazem isso?4 Qual a diferença entre alinhamentos simples e múltiplos? Quais são as ferramentas de alinhamento (ótimo ou heurístico) mais indicadas para trabalhar com cada um desses tipos de alinhamento? Por quê?5 Cite as principais aplicações das ferramentas que utilizam heurística para produzir um alinhamento de seqüências.6 Entre no site do NCBI, Nucleotide e obtenha as seqüências de número de acesso AF117710 e AF181832 (da mesma forma que na aula anterior). Acesse o site do programa BLAST2Sequences (http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2. cgi). Copie a sequencia do primeiro gene na região apropriada, assim como a sequencia do segundo gene e clique em Align. Classifique o tipo de alinhamento realizado em todos os aspectos que conseguir? Quais foram as posições que mostraram diferenças entre as duas seqüências? Houve diferenças na região que codifica a proteína?7 O que são as matrizes de substituição e qual a relevância delas no alinhamento de seqüências? © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 31. 29 CAPÍTULO 4Montando um genoma“Seqüenciar o DNA é agora uma das tarefas mais fáceis de realizar, além de servirhambúrgueres.” Karry Mullis, prêmio Nobel Iniciando nossa Interação Nos dias de hoje, a arte de seqüenciar um DNA e até mesmo de montar umgenoma de uma bactéria são tarefas relativamente técnicas. É claro, análise destegenoma e o entendimento da relação do genoma com as características e a formacomo um organismo vive são tarefas altamente complexas e que exigem um grandeesforço cientifico a ser realizado pelos maiores especialistas em todo o mundo.4.1. Sobre genomas eucarióticos e procarióticos Nos dias de hoje, a arte de seqüenciar um DNA e até mesmo de montar umgenoma de uma bactéria são tarefas relativamente técnicas. É claro, análise destegenoma e o entendimento da relação do genoma com as características e a formacomo um organismo vive são tarefas altamente complexas e que exigem um grandeesforço cientifico a ser realizado pelos maiores especialistas em todo o mundo. A montagem de genomas de organismos procariotos (bactérias earqueobactérias) consiste num trabalho muito mais simples do que a montagem degenomas de organismos eucarióticos (protozoários, fungos, plantas e animais). E issose deve a várias características freqüentemente comuns aos genomas bacterianos.Estes são comumente pequenos -- apresentado apenas alguns milhões de pares debases --, circulares e contém uma baixa taxa de seqüências repetitivas. Já os genomasde organismos eucarióticos são grades, normalmente na ordem de bilhões de pares debases, apresentam disposição do genoma em diversos cromossomos, que devem sermontados separadamente e, ainda, apresentam uma grande quantidade de seqüênciasrepetitivas. Se considerássemos o genoma como um quebra cabeça, os genomasbacterianos teriam apenas poucas peças e todas seriam facilmente encaixáveis. Deforma contrária, os genomas eucarióticos poderiam ser considerados um conjunto dediversos quebra-cabeças (representando diferentes cromossomos) com centenas oumilhares de peças, com todas elas embaralhadas entre os quebra-cabeças e ondedeterminadas peças parecessem muito com outras, tanto dentro de um mesmoquebra-cabeça quanto entre quebra-cabeças diferentes, dificultando de forma drásticaa montagem. Por isso, os genomas eucarióticos são montados aos poucos, sendo queprimeiramente são identificadas as partes mais fáceis, não repetitivas, e assim émontado um chamado scaffold, ou esqueleto, do genoma. Assim, os genomaseucarióticos normalmente são montados por equipes bem maiores e mais bemequipadas de cientistas, apresentando ainda uma plataforma de bioinformática maiscomplexa e organizada. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 32. 30 Dessa forma, são utilizadas diferentes técnicas de seqüenciamento para seobter seqüências de um genoma eucarioto ou procarioto. Em bactérias, normalmentetodo o DNA é quebrado em pedacinhos minúsculos em uma técnica conhecida comoshotgun ou whole genome shotgun. Esses pequenos pedacinhos de genoma (contendoaproximadamente 2.000 pares de bases) são ligados em vetores de clonagembacterianos, os plasmídeos. Assim, cada plasmídeo é seqüenciado uma vez a partir decada uma de suas extremidades (direita e esquerda) e as seqüências de DNAproduzidas são posteriormente concatenadas para que o genoma seja montado porinteiro. Já no caso dos grandes genomas de organismos eucarióticos, os fragmentosgenômicos são primeiro divididos em grandes vetores de clonagem como BACs(Bacterial Artifical Chromosome ou, em português, cromossomo artificial de bactéria)ou YACs (Yeast Artificial Chromosome ou cromossomo artificial de levedura), quepodem abrigar seqüências de DNA de centenas de milhares de bases. No chamadoshotgun hierárquico, essas seqüências presentes nos BACs ou YACs é que são alvodo chamado shotgun onde, agora sim, essas seqüências são quebradas em outrascontendo aproximadamente 2.000 pares de bases e ligadas em plasmídeos bacterianoscujas extremidades serão seqüenciadas. Dessa forma, os BACs e YACs são montadosseparadamente e, posteriormente, é realizada a montagem do genoma através dasobreposição das seqüências destes grandes vetores.Figura 4.1. a) Na estratégia de shotgun, todo o DNA genômico de um organismo éfragmentado em pequenos pedaços (1), que são clonados em vetores de pequenoporte, como plasmídeos, para o posterior seqüenciamento. b) Na estratégia de shotgunhierárquico, normalmente utilizada para grandes genomas, realizam-se dois passos.(1) Primeiramente fragmenta-se o genoma em grandes pedaços, que são clonados emvetores de grande porte, como BACs ou YACs. (2) Posteriormente realiza-se umasegunda etapa de shotgun, onde as seqüências contidas nesses vetores sãofragmentadas em pequenos pedaços e clonadas em vetores de pequeno porte, queserão seqüenciados. Retirado de Prosdocimi et al., 2003.4.2. Base-calling Uma frase clássica do meu co-orientador de doutorado, o Prof. Miguel Ortega, éque um mito da genômica é o de que os seqüenciadores de DNA é que seriamresponsáveis por gerar a seqüência de bases da molécula desejada. Conforme vimos © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 33. 31na animação apresentada na segunda aula, o seqüenciador apenas é responsável pelaleitura das moléculas marcadas com cada um dos fluoróforos durante a eletroforese.Na verdade, é necessário um programa de computador para pegar esses dados sobrequal fluoróforo passou a cada instante e transformar esse dado num conjunto de letrasque represente a seqüência de bases do DNA. E um programa que faça isso éconhecido como um nomeador de bases ou base-caller. Além de gerar a seqüência debases que representa a molécula de DNA seqüenciada, o base-caller produz tambémum valor de qualidade associado a cada uma das bases. Assim, é possível saber quaisforam as regiões seqüenciadas com maior ou menor qualidade. O algoritmo maisconhecido e utilizado para realizar a nomeação das bases (ou base-calling) é o PHRED.O PHRED utiliza um algoritmo baseado na análise de Fourier para reconhecer os dadosbrutos gerados pelo seqüenciador e produzir tanto a seqüência de bases quanto aqualidade de cada uma delas. A qualidade das bases é dada com relação àprobabilidade logarítmica da base estar incorreta e a fórmula utilizada pelo PHREDpara chegar a esta qualidade é dada pela seguinte fórmula: QUALIDADE PHRED = -10 * log10 (Probabilidade de Erro) Assim, com os dados brutos do seqüenciador, o PHRED atribui a cada base umachance desta estar incorreta e, utilizando a fórmula acima, associa um valor dequalidade à cada uma delas. Um valor de qualidade de PHRED (ou simplesmente valorde PHRED, valor de qualidade ou qualidade da base) igual a 10, representa que aquelabase tem uma chance em dez de estar incorreta (10%). Como o valor está em escalalogarítmica, um valor de PHRED 20, significa que aquela base tem uma chance em cemde estar incorreta (1%) e um valor de 30 representa uma chance em mil (0,1%). Freqüentemente, aceita-se que um valor de PHRED igual a 20 é suficiente paraaceitar uma base como real ou utiliza-se para aceitar uma região de boa qualidade.Entretanto, trabalhos recentes têm mostrado que podemos confiar em valoresrelativamente mais baixos (Prosdocimi et al., 2004).Exemplos de arquivos produzidos pelos programas de base-calling: (a) Arquivo deseqüência no formato FASTA e (b) arquivo .QUAL apresentando a qualidade das bases.a)> Seq1ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCCb)> Qual110 12 15 15 15 18 20 22 25 18 13 8 5 5 8 10 7 12 1825 30 30 22 13 12 12 12 11 9 9 10 15 20 20 22 6 6 54.3. Cross-match Como foi dito no primeiro item desta aula, as seqüências de DNA geradas emprojetos genoma são primeiramente clonadas em moléculas de DNA plasmidial. Dessaforma, algumas vezes pedaços de seqüências dessa molécula bacteriana acabamsendo produzidas em conjunto com as moléculas do DNA que se deseja produzir.Como as moléculas dos vetores de clonagem não representam o genoma que se © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 34. 32deseja montar, é preciso mascará-las antes de se realizar a montagem do genoma. E,para isso, utiliza-se um software conhecido como Cross-match. O cross-match ébasicamente um algoritmo que realiza um alinhamento local entre duas seqüências denucleotídeos quaisquer e permite a formatação do resultado de diversas maneirasdiferentes. Normalmente, executa-se o cross-match utilizando dois arquivos de entrada e aopção –screen. O primeiro arquivo deve apresentar as seqüências geradas no projetoque se deseja retirar as partes relacionadas às seqüências bacterianas e o segundoarquivo deve conter uma ou mais seqüências de vetores de clonagem (comoplasmídeos) que se deseja procurar no primeiro arquivo. Basicamente, o cross-matchrealiza o alinhamento entre todas as seqüências do primeiro e do segundo arquivoutilizando o algoritmo SWAT (veja aula 4). Ele apresenta ainda um valor limite paraconsiderar o alinhamento entre as seqüências como válido. Se o alinhamento entreuma seqüência do primeiro arquivo e uma outra do segundo arquivo for válido, oprograma mascara a região do primeiro arquivo onde ela foi similar com a do segundo,colocando letras Xs no local. Isso evita que essas regiões sejam utilizadas para oagrupamento das seqüências, como será mostrado a seguir.Exemplo de seqüência que apresentava região inicial contendo partes de vetor declonagem. Uma seqüência desse tipo pode ser encontrada no arquivo –screen, obtidocomo resultado do algoritmo cross-match:> Seq1.screenXXXXXXXXXXXXXXXXXXXXXXXXXXAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAGCACCATCTCGAATTCTCTAACAGAATTCC4.4. Agrupamento de seqüências O agrupamento de seqüências (ou sequence assembly) é o procedimento quegera, realmente, os contigs genômicos e permite a montagem do genoma per si. Amontagem do genoma é importante porque ainda não existe nenhuma técnica quepermita o seqüenciamento de moléculas de DNA de mais de mil pares de bases. Emuma corrida normal de seqüenciamento, gerada em um seqüenciador em larga escala,é comum que sejam produzidas cerca de 600 bases da seqüência de DNA desejada.Com sorte é possível produzir até mil bases da seqüência, mas um seqüenciamentotão bom não é muito comum. E como as moléculas de DNA genômicas freqüentementeapresentam milhares ou milhões de pares de bases, é preciso montar os fragmentos,de seiscentos em seiscentos, até que seja possível gerar toda a seqüência do genoma. Portanto podemos fazer uma analogia da montagem de genoma como se omesmo se constituísse num livro de mil páginas cujas palavras e a ordem delas sejacompletamente desconhecida. O que os cientistas fazem é pegar uma grandequantidade de livros idênticos, digamos trinta deles e picotarem todos os livros emtrechos contendo uma quantidade fixa de palavras -- duas mil, por exemplo -- numprocesso de shotgun de palavras. Guarde os números e não se perca. Essas palavrasacabam tendo que ser inseridas num outro livro -- o plasmídeo --, esse já montado ede frases conhecidas. Então acontece a leitura de seiscentas palavras por vez desselivro-plasmídeo. E são lidas milhares de seqüências de seiscentas palavras inseridasem livros-plasmídeos diferentes. Primeiramente, então, é necessário observar essaspalavras lidas dos livros-plasmídeos ligados a uma parte do livro genômico e retirar asfrases que sabemos serem do plasmídeo apenas, e não do livro que estamos tentandomontar. O cross-match é o programa que faz isso. Ele compara as seqüências lidascom a seqüência do livro-plasmídeo e, onde ele encontrar frases do livro plasmídeo, © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 35. 33ele troca-as por letras X. Então, depois do cross-match, teremos vários conjuntos deaproximadamente seiscentas palavras que sabemos ser de nosso livro genômico.Agora é preciso montá-lo. Para isso teremos que ir lendo todas os conjuntos de frasese observando onde as frases se sobrepõem para podermos juntá-las e gerar, porexemplo, um capítulo do livro (que poderia ser uma analogia à montagem de um BACou de um cromossomo inteiro). Veja o exemplo:A seguir temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim comoum genoma, dividida em partes. Monte as partes e produza a seqüência completa dafábula.> Frase 1sabedoria e calor que fazem os seres humanos - "mas eu não". MORAL DA HISTÓRIA:NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO.> Frase 2ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?""Sim, é verdade" - respondeu então a outra, cheia daquela compreensão, sabedoria e> Frase 3Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo,ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?"> Frase 4não morreu há cinco anos?" "Sim, é verdade" - respondeu então a outra, cheia daquelacompreensão, sabedoria e calor que fazem os seres humanos - "mas eu não". O genoma é montado da mesma maneira que você realizou para montar essafábula do Millôr chamada “A viúva”. (Para ler mais fábulas do escritor, acessehttp://www.millor.com.br.) Várias seqüências representando pedaços de genoma sãogerados e observa-se a posição onde elas se sobrepõem. Realizando a sobreposição devários trechos de seqüência é possível montar todo o genoma. Entretanto, como já foidito, um genoma apresenta milhões ou bilhões de seqüências de nucleotídeos e,portanto, não é possível realizar esta montagem à mão. Para isso existem algoritmosde montagem de genoma, como o PHRAP, o CAP e o TIGR Assembler. O PHRAP é oalgoritmo mais utilizado e funciona mais ou menos da forma mostrada na figura 5.2.Figura 4.2. O agrupamento de seqüências é baseado no alinhamento e no escore doalinhamento de seqüências. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 36. 34 A figura 4.2 é idêntica à figura 3.2, mostrada no capítulo anterior. A diferença ébasicamente o contexto com o qual ela é mostrada agora. A figura mostra oalinhamento entre duas seqüências de DNA e mostra os escores dados para oalinhamento das seqüências. O escore total desse alinhamento é igual a três, mostradoem alaranjado. E é exatamente baseando-se nesse escore que funciona um programade montagem de genoma, como o PHRAP. O PHRAP apresenta um parâmetro muitoimportante chamado de minscore, que representa o valor mínimo do escore doalinhamento que ele utiliza para dizer que duas seqüências são parecidas o suficiente eque podem ser reunidas para gerar uma seqüência maior. Se o alinhamento entreduas seqüências apresenta um escore menor do que o minscore, as seqüências nãosão agrupadas e considera-se que representam partes distintas de um mesmogenoma. Já se o alinhamento entre duas seqüências apresenta um escore maior doque o minscore, o PHRAP considera que as seqüências estão na mesma posição eproduz a chamada seqüência consenso, que consiste na concatenação das duasseqüências entre si, da mesma forma que você fez com a fábula do Millôr.4.5. Sobre a cobertura dos genomas Algo que é interessante de ser notado é a cobertura necessária deseqüenciamento para se produzir um genoma. Em nossa analogia do livro, pegamostrinta livros e picotamos todos eles em partes sendo que, posteriormente, lemos váriaspartes deles para tentarmos montar um livro inteiro novamente. Se nosso livrotivesse, por exemplo, seis mil palavras e nossas partes picotadas tivessem pouco maisde seiscentas palavras cada, teoricamente precisaríamos apenas de cerca de dezpartes para montar um livro inteiro, certo? Errado! Como as dez partes são pegasaleatoriamente, é de se esperar que haja uma certa redundância nas frases obtidas.Em nosso exemplo da fábula do Millôr, podemos ver que a frase 2 é totalmenteredundante e que conseguiríamos montar toda a fábula mesmo sem ela. Entretanto,qualquer outra combinação de três frases (exceto pelas frases 1, 3 e 4), impediria quea montagem da fábula fosse feita de forma completa, ainda que o número de palavrassomadas entre as três frases produza um número maior do que o da fábula completa.Voltando à análise de genomas, isso significa que certas vezes damos o “azarestatístico” de não conseguirmos obter toda a seqüência do genoma e, assim, temosque seqüenciar mais moléculas para conseguirmos fechar nosso genoma. E,considerando o grande tamanho dos genomas, normalmente considera-se necessárioproduzir um número de bases que seja de 8 a 10 vezes maior do que a seqüênciacompleta do genoma inteiro para que seja possível montar esse genomacompletamente! E, ainda assim, muitas vezes é preciso utilizar outras técnicas maiscomplexas para que o genoma seja efetivamente terminado. E isso se deve ao fato deque algumas regiões do DNA parecem apresentar uma maior dificuldade de seremcortadas em partes ou clonadas nos vetores bacterianos (plasmídeos). Assim, a partemais complexa de toda a montagem do genoma consiste no fechamento da seqüênciacompleta do mesmo. E, depois de completo, cada uma de suas partes deve seridentificada, no processo de anotação genômica, que será tema do capítulo 7. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 37. 354.6. Referências Bibliográficas1. PHRED, PHRAP, CONSED -- http://www.phrap.org2. Ewing B, Hillier L, Wendl MC, Green P. Base-calling of automated sequencer traces using phred. I. Accuracy assessment. Genome Res. 1998 Mar;8(3):175-85.3. Ewing B, Green P. Base-calling of automated sequencer traces using phred. II. Error probabilities. Genome Res. 1998 Mar;8(3):186-94.4. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html5. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; Santos ACF; Nhani-Júnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; Camargo LP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-Flatschart AV. Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31, 2002.4.7. Brainstorm1. Por que quando sequenciamos o genoma de um organismo temos que levar em consideração se ele é eucarioto ou procarioto? Quais são as diferentes estratégias de sequenciamento desses genomas?2. Qual a importância dos algoritmos de base calling? Se uma determinada base tem um valor de qualidade igual a 40, qual a chance dela estar incorreta?3. Por que o software cross-match é importante na montagem de genomas?4. Qual o principal parâmetro utilizado pelo programa PHRAP para realizar o agrupamento das seqüências de DNA? Como ele funciona?5. Apresente a fábula do Millôr totalmente montada.6. Digamos que o valor de minscore do nosso programa fosse igual a 2 e apresente uma das possíveis seqüências consensos que seria gerada a partir da concatenação das duas seqüências da figura 4.2. O que você faria para escolher qual base estaria no consenso no caso de gaps e mismatches?7. Por que não é suficiente seqüenciar apenas seis mil bases para montar um genoma deste tamanho (seis mil bases)? © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 38. 36 CAPÍTULO 5Análise de Transcriptomas 5.1. As ESTs As ESTs (Expressed Sequence Tags, ou Etiquetas de Seqüências Expressas)correspondem a pedaços de genes expressos, derivados dos RNAs mensageiros, quesão utilizados na análise de transcriptomas de organismos. São chamadas etiquetasporque correspondem apenas a pedaços dos genes que um organismo expressa emuma determinada situação. Essas etiquetas, entretanto, permitem que saibamos quaisgenes estão sendo produzidos por uma célula numa determinada condição e permitemtambém que estudos comparativos possam ser feitos. Um estudo clássico feito comESTs está relacionado a células tumorais, onde se compara os genes expressos emuma célula normal e em uma célula cancerosa e, dessa forma, pode-se tentarcompreender como o processo tumoral leva à expressão diferenciada de genes.Figura 5.1. Produção de ESTs e ORESTES. As etiquetas de seqüências expressas(ESTs) são obtidas através, primeiramente, da transcrição reversa de um conjunto de © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 39. 37mRNAs expressos numa célula, produzindo as fitas de DNA complementar (cDNA).Após esse procedimento, utiliza-se uma RNAse H para digerir as seqüências de RNAinicial e é produzida a segunda fita de DNA, gerando a molécula de cDNA fita dupla.Essa molécula é normalmente ligada em vetores de clonagem (como plasmídeos) e sãoutilizados iniciadores para o seqüenciamento das extremidades 5’ ou 3’ do cDNA emapenas uma “rodada” de seqüenciamento. As seqüências obtidas são as chamadasESTs. A técnica de ORESTES é uma alternativa à produção de ESTs onde, ao contráriodestas, pega-se preferencialmente a parte central das seqüências gênicas.5.2. Histórico das ESTs O seguinte trecho foi adaptado do livro “Desvendando o Genoma” da editoraCompanhia das Letras, escrito por Kevin Davies (2001, capítulo 3) e apresenta uminteressante histórico de como foram redescobertas as seqüências de ESTs e como issogerou um grande impacto na ciência da época. Em junho de 1991, o pesquisador J. Craig Venter e colaboradores apresentouum artigo na revista americana Science que revolucionaria as estratégias desequenciamento de transcriptomas em todo o mundo. O artigo era intitulado“Sequenciamento de DNA Complementar: Etiquetas de Seqüências Expressas e oProjeto Genoma Humano” e identificava a seqüência de mais de 300 novos geneshumanos ativos no cérebro, obtidos aleatoriamente a partir de cerca de 600 clones decDNA. De todas as seqüências produzidas, Venter havia conseguido identificar tantogenes humanos já conhecidos quanto genes novos e outros que apresentavamsimilaridades com genes identificados de outros organismos; um deles, por exemplo,apresentou uma identidade significativa com o gene NOTCH, uma importante moléculade sinalização intracelular conhecida na mosca-das-frutas. E essa alta similaridadeentre genes presentes em espécies separadas há milhões de anos indicava quepossivelmente eles apresentavam funções importantes no metabolismo celular, comofoi posteriormente comprovado através de estudos experimentais. O impacto causado na comunidade científica por este artigo que publicava oprimeiro estudo de genoma em “larga-escala” foi maior do que a soma de suas partes– através da analse de cada um dos genes identificados. O sequenciamento dessasetiquetas, as ESTs, consistia em algo redundante e tecnicamente sujo, devido apresença de vários erros nas seqüências. Apesar disso, em uma única publicação,Venter havia identificado mais de 10% dos genes que toda a comunidade produzira emquase duas décadas, sendo que o GenBank, à época, possuía menos de 3 milseqüências de genes humanos. Um novo tipo de diálogo científico, que viria a se tornarcomum na era da genômica, anos mais tarde, era inaugurado por aquele artigorevolucionário. Venter havia conseguido bolar uma técnica que possibilitava a produçãode centenas de seqüências de cDNAs de uma forma rápida e inteligente e previa que,com esta abordagem, conseguiria sequenciar a maioria dos cDNAs humanos em algunsanos. Além disso, previa também que em breve alguns “melhoramentos nastecnologias de sequenciamento do DNA tornariam exeqüível o exame essencialmentecompleto do conjunto de genes expressos de um organismo”. E essas novidades abalavam as opiniões dos principais responsáveis naquelemomento pelo sequenciamento do genoma humano, algo que questiona suasautoridades. O principal argumento destes, no entanto, era o de que a abordagem desequenciamento de ESTs não considerava as informações do DNA que não eramtranscritas em RNA. Assim o ganhador do prêmio Nobel e co-descobrir da estrutura doDNA, James Watson, à época diretor do Projeto Genoma do NIH, sustentavacorretamente que a técnica popularizada por Venter não substituía a análise genômica, © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 40. 38no que este concordava e argumentava que o sequenciamento de ESTs deveria nãosubstituir mas complementar as análises de genoma. Oito meses depois, Venter publicava um artigo na Nature descrevendo asseqüências parciais de cDNA de mais 2375 genes expressos no cérebro, mostrandoque seu grupo de trabalho era capaz de gerar, sozinho, um volume monstruoso dedados de seqüências de ESTs. Em menos de um ano o laboratório de Venter tinha sidocapaz de sequenciar duas vezes o total de genes já conhecidos até então. Além disso,seu laboratório continuava gerando cada vez mais seqüências, ininterruptamente.Críticas surgiam sobre as contaminações de algumas seqüências e sobre os erros queestas apresentavam, mas nada que derrubasse o status que Venter já havia alcançado.E, ainda que este pesquisador já tivesse concordado do fato de que o sequenciamentode ESTs não era alternativa para o projeto genoma, o editor da Nature John Maddoxainda ressaltava no editorial da mesma revista onde fora publicado o segundo artigode Venter: “Na esteira da saída de James Watson do Projeto Genoma Humano dosEstados Unidos, existe o perigo de que a abordagem de cDNA seja apresentada comouma alternativa mais barata para completar o sequenciamento [do genoma], o que elanão é”. 5.3. Agrupamento de ESTs Como as ESTs representam o genoma expresso em uma célula numdeterminado momento, é comum haver redundância gênica quando dosequenciamento dessa moléculas. E isso se deve ao fato de que uma célula podeprecisar muito da presença de algum gene num determinado momento e, nesse caso,ela irá produzir uma grande quantidade de moléculas de mRNA do gene em questão.Entretanto, quando o pesquisador quer analisar seu transcriptoma, ele deve identificaros genes expressos e, para ele, é melhor identificar os genes apenas uma vez. Paraisso é feito o agrupamento ou clustering de ESTs. Da mesma forma como é feita amontagem de genoma, aqui também se utiliza o PHRAP para montar cada um dosgenes seqüenciados. Dessa vez, entretanto, não se espera que sejam formadasmoléculas muito grandes, os genes geralmente apresentam algo em torno de dois milpares de bases. E os genes normalmente não apresentam regiões de sobreposição comoutros genes, de forma que cada um dos genes aqui é montado separadamente. Na análise de clustering ou agrupamento de ESTs, as seqüências dessasmoléculas do organismo em questão são utilizadas como entrada em um programa.Este deve comparar essas seqüências entre si, de forma a encontrar quais delas sãoidênticas ou contêm regiões parecidas o suficiente para que sejam reunidas em umasó, assim como na análise genômica. Assim, o programa apresenta uma saídacontendo as seqüências que foram agrupadas – chamadas de consensos ou contigs– e as seqüências que não foram reunidas (por não apresentarem similaridadesuficiente com nenhuma outra) – chamadas de singlets. Cada uma das seqüênciasresultantes do agrupamento (seja ela uma singlet ou um contig) é chamada de unique(figura 5.2), que consiste no conjunto não redundante de moléculas. Considerandouma análise ideal, cada uma das seqüências unique deve representar um genedistinto. Entretanto, na prática, a presença de famílias gênicas (apresentando regiõesde similaridade dentro dos genes) e de genes duplicados dificulta a obtenção desseresultado ideal e, muitas vezes, a seqüência unique pode representar mais de umgene. Em outras ocasiões, um mesmo gene pode estar representado por mais de umunique, sendo que um dos uniques pode corresponder, por exemplo, à extremidade 5’de um determinado gene e outro à extremidade 3’ do mesmo. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 41. 39Figura 5.2. Agrupamento de seqüências de ESTs. O agrupamento das seqüênciasproduz as seqüências não-redundantes, chamadas de uniques. As uniques são oconjunto das seqüências consenso mais as seqüências singlets. O agrupamento das seqüências é importante devido, principalmente, aosseguintes fatores: (1) elimina a redundância das seqüências, (2) aumenta o tamanhodas seqüências facilitando a anotação por homologia (Oliveira & Johnston 2001), (3)aumenta o nível de confiabilidade de cada seqüência (Miller et al., 1999). Diferentesabordagens têm sido utilizadas para o agrupamento de seqüências de ESTs. O Unigenedo NCBI utiliza comparações de seqüências em vários níveis de rigor para agrupar asseqüências em consensos (http://www.ncbi.nlm.nih.gov/UniGene/build.html) (Schuler1997). No TIGR, os índices gênicos são formados utilizando um software desenvolvidopor eles mesmos, o TIGR Assembler, ou o CAP3 (Liang et al., 2000). Já no projetogenoma humano (HPG) as seqüências são agrupadas utilizando-se o software PHRAP(International Human Genome Sequencing Consortium 2001). 5.4. O genoma e o transcriptoma No final da seção 5.2, vimos que editor da revista Nature, Sir Maddox, dizia queexistia “o perigo de que a abordagem de cDNA seja apresentada como uma alternativamais barata para completar o sequenciamento [do genoma], o que ela não é”. Vale apena, portanto, neste momento, discutirmos as diferenças entre as análises degenomas e de transcriptomas. Vale notar primeiramente que nenhuma das duasanálises exclui a outra e são estudos que, apesar de relacionados, provém respostaspara perguntas diferentes. A molécula de DNA é estática e está presente, com amesma constituição, em todas as células do organismo. A decifração desse conteúdoestático de DNA é a tarefa da genômica. Já o conteúdo de RNA de uma determinadacélula depende do tempo e das condições à qual ela está sendo submetida. Otranscriptoma mede a parte do genoma que está sendo utilizada num determinadomomento. E essa parte do genoma expresso é diferente para cada tipo celular.Existem genes que são expressos apenas na pele, outros no cérebro e alguns nostestículos. Alguns genes são ainda mais expressos quando a célula está submetida aum choque térmico, à restrição calórica ou à falta de oxigênio. Enquanto o genoma éapenas um, existem vários transcriptomas possíveis para uma mesma espécie. Algumas perguntas, entretanto, só podem ser obtidas quando se observa ogenoma expresso, enquanto outras, apenas quando se observa o genoma estático. Porexemplo, por mais que se obtenha seqüências de ESTs de vários diferentes tecidos deum organismo, nunca é possível dizer que ele não apresenta um determinado geneatravés de análises transcriptômicas. De forma contrária, quando se obtém toda aseqüência de genoma do organismo é possível saber todo o repertório de genes queele possui para realizar alguma tarefa metabólica. Ao mesmo tempo, através daanálise genômica é impossível saber, por exemplo, qual o repertório gênico que é © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 42. 40super-expresso numa determinada condição como, por exemplo, quando a célula setorna cancerígena. Dessa forma, as análises de genoma e transcriptoma são complementares eambas são importantes para responder perguntas específicas. Existem, entretanto,outras formas de análise do transcriptoma que não sejam através de seqüências deESTs, como o SAGE e a análise dos microarranjos de DNA (ou microarrays, os chips deDNA). 5.5. SAGE – Serial Analysis of Gene Expression Enquanto uma EST tem aproximadamente cerca de 600 pares de bases,permitindo uma identificação quase inequívoca do gene expresso, outras técnicas,como o SAGE, permitem uma identificação mais exaustiva porém menos precisa dogene que se deseja obter. Na técnica de SAGE são concatenados fragmentos dequatorze pares de bases de diversos mRNAs diferentes, formando uma longa moléculahíbrida contendo vários pedaços de diferentes mRNAs. Assim, uma molécula de cercade 600 pares de bases é lida no seqüenciador, apresentando uma seqüênciaininterrupta das chamadas “SAGE tags”, cada uma contendo quatorze pares de bases.Dessa forma, uma única seqüência de SAGE apresenta informação sobre diversosmRNAs diferentes que podem estar expressos em uma certa célula. Um problema,entretanto, da técnica, é que muitos genes apresentam fragmentos internos comuns e,muitas vezes, fica difícil saber ao certo qual gene foi expresso quando se observa umaetiqueta de SAGE muito comum em diferentes genes. Voltando á analogia do livro,agora seria como se você quisesse descobrir qual página do livro que seu colega estálendo, mas ele te dá apenas três palavras consecutivas para que você encontre apágina. É claro que, dependendo do livro, aquela combinação de três palavras vai estarpresente em apenas uma página. Mas pode haver livros onde essa combinação possaestar presente em dez páginas diferentes. E, dessa forma, fica difícil identificarprecisamente a partir de qual página (ou gene) vieram aquelas palavras (ou aseqüência de quatorze nucleotídeos). Apesar disso, a técnica é bastante utilizada e é útil em vários casos. A grandevantagem da utilização da técnica de SAGE é que ela permite amostrar uma grandequantidade de genes, cerca de quarenta para cada seqüência produzida, e apresentauma contabilidade eficiente de quantas SAGE tags de um determinado gene foramvistas para cada milhão de etiquetas, permitindo uma análise numérica da expressãogênica diferencial em cada tecido humano.5.6. Microarrays A técnica de microarray é outra das técnicas de análise de transcriptomas econsiste em na hibridação de ácidos nucléicos, servindo para medir a expressãoabsoluta ou diferencial de genes submetidos a condições diferentes. Primeiramentedeve-se montar a lâmina que vai conter os genes que se deseja estudar. Nessa lâminasão ligados fragmentos de cDNA ou são construídas pequenas seqüências deoligonucleotídeos que ficam ligadas à lâmina. Posteriormente, duas células sãotratadas em diferentes condições onde o caso mais comum baseia-se no estudo decélulas normais contra células tumorais. Assim, os RNAs de cada uma dessas célulassão marcados com uma determinada fluorescência e colocados para hibridar contra oscDNAs ou oligonucleotídeos presentes no chip (ou lâmina) de DNA. Através dacomplementaridade de bases, as moléculas de um ou outro tecido vão se ligando àsmoléculas do chip e, posteriormente, utiliza-se um laser para realizar a leitura das © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 43. 41fluorescências das moléculas que hibridaram no chip. Assim, conseguimos observar,para cada um dos genes do array, quanto eles se ligaram em seqüências da célula doprimeiro tratamento, digamos normal, ou do segundo tratamento, digamos tumoral. Avantagem da técnica é que ela permite a análise de milhares de genes ao mesmotempo, sendo que o chip é montado por um robô capaz de ligar os cDNAs em posiçõesbem próximas. Entretanto, essa é uma técnica que apresenta uma grande quantidadede ruído e análises computacionais e estatísticas complexas devem ser realizadas parase gerar um resultado satisfatório.5.7. Referências Bibliográficas1. Davies, K. (2001). Decifrando o genoma. Companhia das letras.2. PHRAP -- http://www.phrap.org3. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html4. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; SantosACF; Nhani-Júnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; CamargoLP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-Flatschart AV. Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31,2002.5.8. Brainstorm1. Defina o que é uma seqüência de EST.2. Por que o trabalho de Venter, em 1991, causou tanto impacto na comunidade científca?3. Quais são os motivos pelos quais se realiza o sequenciamento de ESTs?4. O que são singlets, contigs e uniques?5. Proponha um experimento no qual a resposta seja produzida em um projeto genoma e outro experimento cuja resposta só possa ser gerada através de uma análise de transcriptomas.6. Em que consiste a técnica de SAGE, qual as suas vantagens e desvantagens?7. Como é realizado um experimento de microarray? Além da comparação entre células normais e tumorais, qual outra comparação você poderia propor para ser estudada em um experimento como esse? © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 44. 42 CAPÍTULO 6 Bancos de dados em Biologia MolecularNeste capítulo vamos tratar das bases de dados em biologia molecular. As bases dedados em biologia molecular são importantes principalmente para proporcionar àcomunidade científica uma forma de tornar os dados (produzidos em todo o mundo)acessíveis de forma fácil, rápida e inteligente(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html).6.1. Histórico As bases de dados em biologia molecular são importantes principalmente paraproporcionar à comunidade científica uma forma de tornar os dados (produzidos emtodo o mundo) acessíveis de forma fácil, rápida e inteligente(http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html). A primeira base dedados de biologia molecular parece ter surgido por volta de 1960, quando Dayhoff ecolaboradores construíram um catálogo contendo todas as seqüências de proteínasconhecidas até a data. Essas seqüências foram publicadas num livro chamado “Atlas ofProtein Sequences and Structure”, de 1965. É interessante notar que o conteúdo dessabase de dados não deveria conter mais de 1 megabyte de informação, se transferidapara computadores modernos (Baxevanis & Ouellette 2001). Com o advento do seqüenciamento do DNA e, principalmente, a partir dadécada de 1990, do seqüenciamento em larga escala, foi necessária a construção debancos de dados mais robustos para abrigar a explosão no número de seqüênciasobtidas pelos pesquisadores (como vimos na primeira aula). O NCBI, por exemplo, foicriado pelo NIH (National Institutes of Health, os Institutos Nacionais de Saúde dosEstados Unidos) em 1988 para abrigar esse tipo de informação (Wheller et al., 2002).Dessa forma, foi criada uma colaboração internacional para montar um banco de dadosde seqüências de nucleotídeos, a INSDC (International Nucleotide Sequence DatabaseColaboration). Essa instituição contém o NCBI, o EMBL (European Molecular BiologyLaboratory ou Laboratório Europeu de Biologia Molecular) e o DDBJ (DNA Data Bank ofJapan ou Banco de dados de DNA do Japão) (Tateno et al., 2002). Cada um dessescentros possibilita a submissão individual de seqüências de DNA e trocam informaçõesentre si diariamente, sendo que todos os três possuem informações atualizadas detodas as seqüências disponíveis para os pesquisadores (Stoesser et al., 2002). Apesardisso, cada centro apresenta os dados de forma particular, apesar de bastantesemelhante. Ultimamente têm surgido uma grande quantidade de novos bancos de dadosem biologia molecular. E são tantos que uma das principais revistas da área, a inglesaNucleic Acids Research (http://nar.oupjournals.org/), tem reservado dois númerosespeciais por ano (os primeiros volumes dos meses de janeiro e julho) apresentandoapenas artigos sobre novos bancos de dados ou de atualizações de bancos jáconsagrados pela comunidade. Sempre vale a pena dar uma olhada nessa revista paradescobrirmos se algum novo banco publicado pode ajudar em nossa pesquisa. E, cadavez mais, torna-se impossível fazer pesquisa em biologia sem estar por dentro dessasnovas atualizações. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 45. 436.2. Bancos primários e secundários Existem basicamente dois tipos de bancos de dados disponíveis para utilização epesquisa de genes e proteínas (Baxevanis & Ouellette 2001). Os bancos de dadosprimários apresentam resultados de dados experimentais que são publicados comalguma interpretação, mas não há uma análise cuidadosa desses dados com relaçãoaos outros publicados anteriormente. Esse é o caso, por exemplo, do GenBank, EMBL ePDB (Protein Data Bank). Já os secundários são aqueles onde há uma compilação einterpretação dos dados de entrada por um ou mais grupos de cientistas, de forma quepodem ser obtidos dados mais representativos e interessantes. Esses são os bancos dedados curados, como o COG, SWISS-PROT e o TrEMBL.6.3. GenBank e GenPept O GenBank e o GenPept (a variante do GenBank para seqüências de proteínas)são os principais bancos de dados primários contendo seqüências de biomoléculasexistentes no mundo e é muito importante que entendamos o funcionamento de seusprincipais números identificadores de seqüências: o GI e o AN. O primeiro identificador de seqüência criado no NCBI foi o LOCUS, que era oúnico identificador de um registro no GenBank. O nome do loco era – e ainda é –definido como uma seqüência de 10 ou menos letras em caixa alta que apresentam ummnemônico para a função e o organismo de origem da seqüência. Assim o nomeHUMHBB era utilizado para representar a região da β-globina humana (Baxevanis &Ouellette 2001). Entretanto, com a descoberta de cada vez mais locos e alelosdiferentes, e com o aumento exponencial do número de seqüências no GenBank, ficouimpossível a invenção e a atualização dos nomes de forma controlada. Assim os nomesde LOCUS, apesar de ainda aparecerem nos arquivos de formato GenBank, não têmmais nenhuma utilidade prática. Devido a essas dificuldades de utilização da informação armazenada em LOCUS,o conselho internacional de colaboradores para seqüências de nucleotídeos (NCBI,EMBL e DDBJ) introduziu o conceito de accession number (AN) ou número de acesso.Esse número não carrega, intencionalmente, nenhuma informação biológica, de formaa permanecer estável. Originalmente consistia de uma letra seguida por cinconúmeros, sendo que cada letra corresponderia ao centro (NCBI, EMBL ou DDBJ) noqual a seqüência fora submetida (Baxevanis & Ouellette 2001). Entretanto, logo essenúmero também começou a apresentar problemas, já que as seqüências eramatualizadas contendo o mesmo AN. No arquivo GenBank há um campo chamadoaccession, onde há a informação sobre o histórico de uma determinada seqüência; seela se juntou a outra, se foi atualizada, etc. Apesar desses problemas, o AN é o índicemais controlado e confiável dos registros do NCBI/EMBL/DDBJ. Para melhorar aidentificação de seqüências antigas, os membros do INSDC resolveram, em 1999,acrescentar, ao AN, o número de sua versão (Benson et al., 2002). Dessa forma pode-se ver o número de acesso, um ponto, e o número de atualizações feitas em umadeterminada seqüência. Por exemplo, o número de acesso A21645.3 é a terceiraatualização da seqüência A21645 e as versões mais velhas permanecem armazenas eacessíveis através dos números de submissão A21645.1 e A21645.2. Um códigosimilar de AN.versão é dado também para seqüências de proteínas. E para criar um índice ainda mais robusto para suas entradas, o NCBI, em1992, criou um novo identificador, o GenInfo Identifier (GI), um número inteirosimples. Esse é um identificador único para cada seqüência, independente deatualizações ou de qualquer outra coisa que possa acontecer com uma seqüência. Toda © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 46. 44entrada no NCBI possui um GI único da seqüência que não é alterado de formaalguma, permanecendo na base de dados para o acesso (Benson et al., 2002). Se umaseqüência difere-se da outra por apenas um par de bases, as duas possuirão diferentesGIs, apesar de possuírem, por exemplo, o mesmo AN (com diferentes números deversão). Todos os processos internos do NCBI utilizam o número de GI para sua aexecução.6.4. RefSeq – O banco de dados de seqüências de referência O RefSeq é um dos bancos de dados secundários mais utilizados porbiólogos de todo o mundo. Seu objetivo é produzir um conjunto não redundante deseqüências de DNA genômico, transcritos (cDNA) e de proteínas para diversosorganismos. A vantagem de se utilizar o RefSeq é que, ao contrário dos bancosprimários de seqüências, ele é não redundante. E isso significa que, para cada geneconhecido de um determinado organismo, o banco possui uma única entrada – aocontrário da infinidade de entradas para um mesmo gene dos bancos primários, comoo próprio GenBank e GenPept. Além disso, ele apresenta os dados dos genes eproteínas associados a diversas informações úteis, como sua função, análises demutação, polimorfismos conhecidos, etc. Ele é produzido pelo NCBI através decuradoria manual, ou seja, cada seqüência é analisada por pesquisadores treinados,uma a uma, e as informações relevantes são adicionadas à entrada RefSeq do bancode dados. O RefSeq apresenta ainda referências cruzadas com outros bancos de dados,permitindo que outras informações adicionais sejam relacionados com umadeterminada seqüência de biomolécula. Uma das características mais interessantes doRefSeq é ser capaz ainda de reunir vários dados divergentes em uma plataformaconsistente e apresentando um conjunto de padrões e convenções comuns. A primeiraversão do RefSeq foi montada em Junho de 2003 e apresentava mais de 785.000seqüências de proteínas, 210.000 seqüências de RNA e 64.000 seqüências genômicasde mais de 2005 organismos diferentes. As principais características do RefSeq são asseguintes: • Não redundância; • Apresenta links diretos entre seqüências de nucleotídeos e proteínas; • Realiza atualizações diárias com relação ao conhecimento biológico da literatura sobre as seqüências em questão; • Apresenta números de acesso precisos e bem definidos; • Possui curadoria especial pelo próprio pessoal do NCBI e colaboradores. Assim como as entradas para o GenBank, os registros do RefSeq apresentamainda um número de acesso, um número de versão e um GI associado. Além disso, osnúmeros de acesso apresentam prefixos definidos para facilitar sua identificação, vejaabaixo: Prefixo do número de Molécula acesso NC Molécula completa de genoma NG Regiao genômica NM MRNA NP Proteína NR RNA NT* Contig Genômico NW* Contig Genômico (WGS**) XM* MRNA XP* Proteína XR* RNA © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 47. 45 NZ Genoma (WGS) ZP Proteína gerada por entrada NZ* Computed from genome annotation pipeline** Whole Genome ShotgunTabela 6.1. Números de acesso do RefSeq e moléculas associadas (Pruitt et al.,2003).6.5. SWISSPROT – O maior banco de dados secundário de seqüências deproteínas O Swiss-Prot tem sido desenvolvido desde 1986 pelo departamento debioquímica médica da universidade de Gênova (agora conhecido como Swiss Intitute ofBioinformatics) e pela Biblioteca de dados do EMBL. O Swiss-Prot é um banco dedados secundário que consiste apenas de seqüências de proteínas e apresenta umapadronização de nomenclatura segundo um formato próprio e conciso. Para cadaseqüência no banco de dados existem os dados da molécula protéica em questão e aanotação biológica da mesma. A anotação biológica está relacionada ao processo deagregar informação a uma molécula biológica e uma aula específica sobre isso serádada posteriormente. A anotação da proteína no Swiss-Prot é bastante completa eapresenta os seguintes itens: função da proteína, modificações pós-traducionais (comoadição de carboidrados, fosforilação, acetilação, etc), domínios conservados (comoregiões de ligação a cálcio, sítios de ligação a ATP, dedos de zinco, etc.), estruturasecundária da proteína, estrutura quaternária (homodímero, heterodímero, etc.),similaridades com outras proteínas, associações com doenças ou deficiências,seqüências parecidas, variantes de splicing, etc. A idéia dos curadores é adicionar omaior número possível de informações relativas àquela proteína no Swiss-Prot e, paraisso, os curadores se utilizam principalmente de artigos sobre as proteínas e revisõessobre o grupo de proteínas em questão. Além disso, algumas vezes são recrutadaspessoas com maior experiência em determinada proteína para fornecer informaçõesmais precisas sobre as mesmas e enviar comentários e atualizações com relação agrupos mais específicos de proteínas. E assim como o RefSeq, o Swiss-Prot tambémtem a intenção de produzir a menor redundância possível com relação às entradas deproteínas presentes no banco, tentando, sempre que possível, incorporar todo o dadode uma certa proteína em uma única entrada para cada organismo. Além disso, oSwiss-Prot também apresenta referências cruzadas com cerca de outras sessentabases de dados de biomoléculas, facilitando a apreensão de informação sobre aseqüência de proteína em questão. Falando de uma forma menos técnica, a grande vantagem de se utilizar oSwiss-Prot reside no fato do banco apresentar uma nomenclatura bem organizada paradefinir as seqüências de proteínas. Enquanto outros bancos apresentam nomenclaturasum tanto quanto divergentes, mesmo quando tratando de uma mesma molécula emdiferentes organismos, o Swiss-Prot apresenta uma nomenclatura fixa para cadamolécula de uma determinada proteína e mantém essa nomenclatura mesmo emdiferentes espécies, o que facilita e permite uma maior confiança na identificação eanotação por similaridade desse tipo de molécula, como veremos na aula 7. Alémdisso, ele é o banco que normalmente apresenta um maior número de informaçõessobre uma molécula de proteína, incluindo modificações pós-traducionais, domínios eoutras informações do interesse de um pesquisador que queira trabalhar com aquelamolécula. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 48. 466.6. Gene Ontology – Sistema de classificação de genes de acordo com suascaracterísticas O Gene Ontology em si, não é bem um banco de dados e, por isso, talvezdevesse estar em um capítulo à parte. Entretanto, são disponibilizados bancos dedados de ontologias organizadas para determinados organismos e parece interessanteabordar esse tópico no presente momento. O Gene Ontology (popularmente conhecido como GO) é um esforço colaborativoem reunir descrições consistentes de produtos gênicos em diferentes bancos de dados.Os participantes do projeto GO desenvolveram três estruturas de vocabuláriocontrolado, chamadas de ontologias, que descrevem os produtos gênicos em termosde sua associação com processos biológicos, componentes celulares e funçãomolecular de maneira não relacionada com qualquer organismo em especial.Basicamente essas três ontologias estão relacionadas às principais perguntas que ospesquisadores têm sobre um determinado gene: (1) em quais processos biológicos ogene está envolvido; (2) qual a sua localização dentro da célula e; (3) como,molecularmente, o gene realiza sua função. Um determinado gene, por exemplo, poderealizar a transdução de sinais em uma célula (processo biológico), estar preso àmembrana celular (localização celular) e ter uma função de fosforilar uma outraproteína (função molecular), sendo classificado no GO de acordo com essas trêscaracterísticas. Além disso, a utilização de termos precisos de vocabulário do GO ajuda muitona chamada genômica comparativa, pois dessa forma podemos saber se umdeterminado organismo, por exemplo, apresenta um maior número percentual degenes relacionados a um determinado processo biológico ou não. O mesmo vale prasoutras duas ontologias e podemos testar hipóteses, interessantes, como: será que umorganismo que vive a altas temperaturas possui mais proteínas de choque térmico?,será que este organismo possui mais proteínas chaperonas, que ajudam noenovelamento de outras?, será que ele apresenta mais proteínas responsáveis peladuplicação de seu DNA? Da mesma forma, a utilização destas ontologias permite que um pesquisadorsaiba quais são todas as proteínas quinases de um determinado organismo, ou quaissão todas as proteínas envolvidas com metabolismo de DNA ou, ainda, quais são todasas proteínas que ficam associadas ao retículo. Outro ponto importante na análise das ontologias é que elas, assim como arealidade biológica, não apresentam uma ordem hierárquica bem definida. E ainda queisso dificulte um pouco a análise, o resultado da ordem e da relação entre asontologias fica mais fiel ao conhecimento que se tem sobre a biologia dos organismos.Ainda assim, as ontologias obedecem a uma certa hierarquia, não muito rígida, deforma que, por exemplo, a ontologia das “tirosina quinases” é filha da ontologia das“quinases” e o pesquisador pode escolher observar ou obter todas as quinases de umorganismo de GO anotado ou apenas as “tirosina quinases”, que são um subgrupo dasquinases.6.7. Referências Bibliográficas1. Weller DL et al., 2002. Database resources of the National Center for Biotechnologyinformation: 2002 update. Nucleics Acid Reserch 30(1): 13-16.2. Benson DA et al., 2002. GenBank. Nucleics Acid Reserch 30(1): 17-20.3. Stoesser G et al., 2002. The EMBL nucleotide sequence database. Nucleics AcidReserch 30(1): 21-26. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 49. 474. Tateno Y et al., 2002. The DNA Data Bank of Japan (DDBJ) for genome scaleresearch in life sciences. Nucleics Acid Reserch 30(1): 27-30.5. Westbrook J et al., 2002. The Protein Data Bank: unifying the archive. Nucleics AcidReserch 30(1): 245-248.6. Bairoch A & Apweiler R, 2000. The SWISS-PROT protein sequence database and itssupplement TrEMBL in 2000. Nucleics Acid Reserch 28(1): 45-48.7. Baxevanis AD and Ouellette BFF, 2001. Bioinformatics: A practical guide to theanalysis of genes and proteins. Ed. Wiley-interscience. 2nd ed.8. Pruitt K., Tatusova T. and Ostell J. The NCBI handbook (Internet): Chapter 17, TheReference Sequence (RefSeq) Project. Bethesda (MD): National Library of Medicine(US), National Center for Biotechnology Information; 2002.Sites:NCBI Genbank - http://www.ncbi.nih.gov/Genbank/EMBL Nucleotide Sequence Database - http://www.ebi.ac.uk/embl/DDJP - DNA Data Bank of Japan - http://www.ddbj.nig.ac.jp/NCBI Reference Sequences web site - http://www.ncbi.nlm.nih.gov/RefSeq/The Gene Ontology – http://www.geneontology.orgSwissprot – http://us.expasy.org/sprot/6.8. Brainstorm1 - O que é a INSDC e por quais entidades ela é formada?2 - Qual a diferença entre bancos de dados primários e secundários? Apresente doisexemplos de cada um.3 - Entre no site do NCBI: http://www.ncbi.nlm.nih.gov. Na aba Search altere o valorpara Nucleotide (isso significa que você estará fazendo uma pesquisa por seqüênciasde nucleotídeos), copie o AN AF117710 no espaço apropriado e clique em Go. Vocêdeve observar um resultado dizendo que esse AN está associado ao gene “Homosapiens hemoglobin beta chain (HBB) mRNA, complete cds”, clique no link paraAF117710. Dessa forma você estará vendo todas as informações disponíveis noGenbank para este gene. Explique o que significa cada um dos seguintes camposLOCUS, DEFINITION, ACCESSION, VERSION, KEYWORDS, SOURCE, ORGANISM,REFERENCE, FEATURES, ORIGIN. Mais informações emhttp://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html4 - Qual a diferença entre o identificador conhecido como GI e o AN? Quais bancos dedados os utilizam? Por que não existe apenas um número identificador de seqüência?5 - O que é o projeto RefSeq e quais suas características principais?6 - Entre no site do BLAST: http://www.ncbi.nlm.nih.gov/BLAST. O BLAST é umaferramenta de alinhamento local de seqüências de biomoléculas e entenderemosmelhor sua função e seu funcionamento na próxima aula. Por ora, apenas entre napágina e clique em “Translated query vs. protein database (blastx)”. Uma páginairá abrir com vários campos. No campo Search, escreva novamente o número deacesso da seqüência da hemoglobina humana, AF117710 e clique no botão “BLAST!”.Na próxima página que irá se abrir clique em Format! e espere pelo resultado. Oresultado mostrará as proteínas do GenPept mais parecidos com a hemoglobinahumana, guarde este resultado. Entre novamente na página do BLAST - “Translatedquery vs. protein database (blastx)”. Nesta página copie novamente o número de © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 50. 48aceso da hemoglobina AF117710 na aba Search só que, desta vez, clique no nome nr,na opção Choose database. O nr representa o GenPept e é o banco de dados contrao qual o BLAST realiza a busca. Selecione, ao invés de nr, a opção swissprot e entãoclique no botão “BLAST!”. Espere a próxima página aparecer e clique em Format!Quando a tela de resultados aparecer, compare esses resultados com aqueles obtidoscontra o banco nr. Responda: O que você pode observar de diferente? Repare como anomenclatura utilizada pelo Swissprot é importante e facilita a identificação daproteína. (Se tiver interesse, volte novamente e execute outras buscas BLAST contradiferentes bancos de dados e observe os resultados.)7 - Em que consiste o Gene Ontology? Quais as principais ontologias existentes nasquais um gene pode ser descrito? Entre no site do http://www.geneontology.org e colena caixa de texto o seguinte termo de GO:0006259. A qual ontologia esse GOpertence? Qual o nome desta ontologia? Quais são as ontologias imediatamenteinferiores a esta? © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 51. 49 CAPÍTULO 7Anotação de Genomas7.1. Introdução As seqüências genômicas são fontes ricas de informações sobre a biologia dosorganismos, mas devem ser traduzidas através de análises computacionais e deinterpretação biológica para que possamos extrair delas a maior quantidade possívelde dados úteis (Lewis et al., 2000). A anotação genômica consiste num processo devários passos e Stein (2001) divide-a, em três categorias básicas: a anotação denucleotídeos, de proteínas e de processos (Figura 7.1). A anotação de nucleotídeos é feita quando existem informações sobre o genomacompleto (ou segmentos de DNA) de algum organismo. Assim, procura-se encontrar alocalização física (posição cromossômica) de cada parte da seqüência e descobrir ondeestão os genes (Rouzé 1999), RNAs, elementos repetitivos, etc. Na anotação deproteínas, que é feita quando existem informações sobre os genes (obtidos porseqüenciamento genômico ou de cDNA) de algum organismo, procura-se identificar osgenes já descobertos e descobrir sua função. Assim é possível saber quais são aquelesque determinado organismo possui e quais ele não possui. A anotação de processosprocura identificar as vias e processos nos quais diferentes genes interagem,montando uma anotação funcional eficiente.Figura 7.1. Anotação de genomas completos. Esquema representando as fases e asperguntas que se deseja responder em cada uma das fases da anotação de genomas.Retirado de Prosdocimi et al., 2003.7.2. Anotação de Nucleotídeos A anotação de nucleotídeos começa com a montagem do genoma, aidentificação de onde está cada parte do DNA e qual a relação das partes entre si.Procura-se quais genes estão no mesmo segmento de DNA, no mesmo cromossomo. Edepois que o genoma está montado, realiza-se buscas para encontrar as partes quecorrespondem aos genes expressos, quais partes correspondem a genes de tRNA,quais correspondem aos clusters de genes de rRNA e assim por diante. Assim,identifica-se a posição de cada um dos tRNAs com relação ao aminoácido que elecarrega, identifica-se a posição dos rRNAs e a posição dos genes. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 52. 507.3. Anotação de Proteínas Nessa etapa da anotação genômica procura-se montar um catálogo dasproteínas e genes presentes nos organismos, nomeá-los e associá-los a prováveisfunções através, principalmente, de buscas por similaridades (Aubourg & Rouzé 2001). Várias técnicas recentes têm sido desenvolvidas para identificarautomaticamente as proteínas pertencentes a diferentes grupos isofuncionais(chamados erroneamente de grupos de ortologia – Jensen 2001, veja na próximaaula), entretanto muitas dessas técnicas podem gerar classificações ambíguas. Naprática, o que é normalmente feito é a classificação das proteínas preditas com baseem domínios funcionais, configurações espaciais e presença de padrões conservados,além de pesquisa ampla de similaridade contra proteínas bem caracterizadas. Uma forma comum de se realizar a anotação de proteínas é procurarsimilaridades das seqüências com proteínas presentes em diferentes bancos de dados,utilizando ferramentas de alinhamento local como o BLASTp ou PSI-BLAST (Altschul etal., 1997). As coleções mais valiosas de seqüências de proteínas são os bancos dedados SWISS-PROT e TrEMBL. O primeiro apresenta uma coleção de seqüências deproteínas confirmadas e extensivamente anotadas. Ele contém ainda referências paraoutros bancos de dados de seqüência e estrutura, referências bibliográficas,identificação da família protéica e descrições sobre a provável função e papel biológicoda proteína (Bairoch & Apweiler 2000). Entretanto a velocidade do seqüenciamentogenômico é maior que a dos curadores e, por isso, foi criado o banco de dadosTrEMBL, que contém uma tradução automática das seqüências codificadoras (cds)submetidas aos bancos de dados de nucleotídeos (Lang 1997, Apweiler 2000). Uma análise complementar seria a procura de domínios funcionais, sendo queas bases de dados mais utilizadas nesse processo são: PFAM, PRINTS, PROSITE,ProDom, SMART e BLOCKS. Esses vários bancos de dados de padrões são altamentesobreponíveis, mas cada um possui seu próprio sistema de nomenclaturas e método deprocura, o que torna difícil a interpretação dos resultados (Stein 2001). Por isso foidesenvolvido, recentemente, um banco integrado de assinaturas de proteínas,conhecido como InterPro, que procura integrar as informações dos bancosanteriormente citados. Cada entrada do InterPro contém uma breve descrição dafamília ou domínio, uma lista de proteínas do SWISS-PROT ou TrEMBL que o contém,referências bibliográficas e links para cada um dos bancos membros (Apweiler et al.,2001). O banco InterPro tem sido utilizado para a anotação de diversos genomas,como o de leveduras, vermes, moscas, mostardas e homens. Desses, cerca de 40% a50% das proteínas preditas possuem pelo menos uma entrada no InterPro, donde seconclui que a outra metade das proteínas eucarióticas pertencem a novas famíliasprotéicas e que muito ainda precisa ser aprendido (Apweiler et al., 2001).7.4. Anotação de Processos A parte mais interessante e desafiadora do processo de anotação gênica érelacionar, finalmente, a genômica com os processos biológicos. Para isso, como jávimos, foi criado um consórcio chamado Gene Ontology (GO), que busca criar umvocabulário padrão para descrever a função dos genes eucarióticos. Só para recordar,o GO consiste em três divisões: função molecular (atividade específica do gene emquestão, por exemplo: atividade enzimática), processos biológicos (processo no qual ogene está inserido, como a meiose) e componentes celulares (descreve a estruturacelular na qual o gene está localizado, como organelas ou ribossomos) (The GeneOntology Consortium 2000). © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 53. 51 Para a anotação de processos é necessário mais do que trabalho computacional.Técnicas biológicas em larga escala, como mutagênese mediada por transposons,análise de expressão em microarrays, RNA interference, identificação de proteínas porespectroscopia de massa, ensaios baseados em green-fluorescent-protein paradeterminar a localização subcelular e padrões temporais de expressão de proteínas eestudos de duplo-híbrido em leveduras têm sido de fundamental importância paraidentificar o papel de genes e proteínas nos processos biológicos (Stein 2001). Cadanovo experimento adiciona mais informação e permite um melhor entendimento dogenoma. Portanto, a anotação de processos é realizada comparando as informaçõesgenômicas com os dados atuais da literatura, de forma a tentar compreender aomáximo a biologia do organismo que está sendo estudado.7.5. A realização da Anotação Genômica (Sociologia da Anotação) Stein (2001) propõe alguns modelos bastante pertinentes para explicar como érealizada, passo a passo, a anotação genômica. Segundo ele, esses processos deidentificação gênica normalmente seguem algum dos seguintes modelosorganizacionais: a fábrica, o museu e a festa. Cada modelo é adequado para algumadas fases do trabalho de anotação (Stein 2001). Durante a primeira fase, quando o principal trabalho é encontrar genes emapear variações e marcadores, o modelo da fábrica é o mais adequado. Nessemodelo uma rede de computadores trabalha seguindo uma série de programas deanotação. A seqüência de entrada é jogada numa série de programas para predição degenes, procura de similaridades entre seqüências de nucleotídeos e proteínas eprocura de domínios funcionais. Isso permite a geração de grandes quantidades dedados sobre o genoma. Então se inicia a fase de museu, quando a ênfase passa da localização dosdados para a sua interpretação. Nesse modelo um conjunto de curadores deveclassificar e catalogar o genoma de forma sistemática, encontrando e corrigindo errosgerados pelos programas na primeira etapa. A maior parte dessa etapa é feita à mão edeve basear-se também na literatura obtida sobre o organismo em questão para umamelhor integração com os dados genômicos.Figura 7.2. Um exemplo da sociologia da anotação genômica: etapas de fábrica,museu e festa. Após o tédio da curadoria é hora da festa. Nesse modelo, vários biólogos ebioinformatas são colocados juntos em um mesmo ambiente para discutir, anotar erealizar o fechamento do genoma. Os biólogos procuram associar os dados de genoma © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 54. 52à biologia do organismo, montando várias hipóteses de trabalho e os bioinformatas ecientistas da computação montam as ferramentas e dão o suporte técnico para ajudara produzir os resultados desejados. Esse modelo tem sido utilizado com sucesso para aanotação de diversos genomas, dentre eles o da Drosophila (Adams et al., 2000) e docamundongo (The RIKEN Genome Exploration Research Group Phase II Team and theFANTOM Consortium 2001). É interessante notar que, enquanto o seqüenciamento genômico é uma tarefabastante especializada, a anotação genômica é algo bastante multidisciplinar, no qualtoda a comunidade científica (biológica) pode e deve contribuir.7.6. Referências Bibliográficas1. Stein, L., 2001. Genome annotation: from sequence to biology. Nature Reviews 2:493-5052. Rouzé P.; Pavy, N. and Rombauts, S. (1999). Genome annotation: which tools dowe have for it? Curr Opin Struct Biol 2: 90-95.3. Lewis, S.; Ashburner, M. and Reese, M. G. (2000). Annotating eukaryote genomes.Curr Opin Struct Biol 10: 349–354.4. PHRAP -- http://www.phrap.org5. CAP3 - http://genome.cs.mtu.edu/cap/cap3.html6. Prosdocimi F; Cerqueira GC; Binneck E; Silva AF; Reis AN; Junqueira ACM; SantosACF; Nhani-Júnior A; Wust CI; Camargo-Filho F; Kessedjian JL; Petretski JH; CamargoLP; Ferreira RGM; Lima RP; Pereira RM; Jardim S; Sampaio VS and Folgueras-Flatschart AV. Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31, 2002.7. Aubourg, S. and Rouzé P. (2001). Genome annotation. Plant Physiol Biochem 39:181-193.8. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. andLipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of proteindatabase search programs. Nucleic Acids Res 25: 3389-3402.9. Bairoch, A. and Apweiler, R. (2000). The SWISS-PROT protein sequence databaseand its supplement TrEMBL in 2000. Nucleic Acids Res 28: 45-48.10. Jensen, R. A. (2001). Orthologs and paralogs – we need to get it right. GenomeBiol 2: 1002.1-1002.3.11. Apweiler, R. (2001). Functional information in SWISS-PROT: The basis for large-scale characterisation of protein sequences. Brief Bioinform 2: 9-18.12. Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.;Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D.; Durbin, R.; Falquet, L.;Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin,A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.;Servant, F.; Sigrist, C. J. and Zdobnov, E. M. (2001). The InterPro Database; anintegrated documentation resource for protein families; domains and functional sites.Nucleics Acid Res 29: 37-40.13. Lang, F. (1997). TREMBL. Trends Genet 13: 417.14. The Gene Ontology Consortium (2000). Gene Ontology: tool for the unification ofbiology. Nat Genet. 25: 25-29.15. The RIKEN Genome Exploration Research Group Phase II Team and the FANTOMConsortium (2001). Functional annotation of a full-length mouse cDNA collection.Nature 409: 685-690.16. Adams, M. D.; Kelley, J. M.; Gocayne, J. D.; Dubnick, M.; Polymeropoulos, M. H.;Xiao, H.; Merril, C. R.; Wu, A.; Olde, B.; Moreno, R. F.; Kerlavage, A. R.; McCombie, © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 55. 53W. R. and Venter, J. C. (1991). Complementary DNA sequencing: expressed sequencetags and human genome project. Science 252: 1651-6.7.7. Brainstorm1. Em que consiste a anotação de genomas?2. Quais são as principais etapas durante a anotação dos genomas e qual pergunta deseja-se responder em cada uma delas?3. Quais são os objetivos da anotação de nucleotídeos?4. Quais são os objetivos da anotação de proteínas?5. Quais são os objetivos da anotação de processos?6. Como é realizada a anotação de genomas? Descreva os modelos organizacionais e qual a atividade realizada em cada uma destas etapas. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 56. 54 CAPÍTULO 8 Bioinformática Evolutiva e Genomas CompletosIniciando nossa Interação O conceito de homologia é algo que normalmente é utilizado de forma incorretapor diversos estudantes e pesquisadores. Muitas vezes escuta-se dizer que hádiferentes graus de homologia entre genes ou que o gene A é mais homólogo ao geneB do que um terceiro gene C. Este conceito está errado. A homologia está relacionadaà ancestralidade de um caráter, gene ou proteína, e é algo que existe ou não existe,não há graus intermediários. Esse será o tema deste capítulo.8.1. Homologia, Ortologia e Paralogia O conceito de homologia é algo que normalmente é utilizado de forma incorretapor diversos estudantes e pesquisadores. Muitas vezes escuta-se dizer que hádiferentes graus de homologia entre genes ou que o gene A é mais homólogo ao geneB do que um terceiro gene C. Este conceito está errado. A homologia está relacionadaà ancestralidade de um caráter, gene ou proteína, e é algo que existe ou não existe,não há graus intermediários. Genes ou proteínas homólogas são aquelas queapresentam um ancestral comum recente, assim como caracteres homólogos sãoderivados de uma mesma estrutura ancestral. As proteínas podem ter mais ou menossimilaridade entre si. Quando fazemos, por exemplo, um alinhamento de seqüênciasde duas proteínas de uma certa espécie contra uma terceira de outra espécie,poderemos descobrir qual das duas é mais similar à terceira. Portanto, a homologiaestá relacionada à evolução e não apresenta níveis intermediários: ou é ou não é. Eexistem duas classes distintas de genes/proteínas homólogos, os ortólogos e osparálogos. E de suma importância para o correto estudo da evolução, é a identificação deproteínas ortólogas e parálogas. A evolução deve ser estudada apenas em proteínasortólogas, ou seja, aquelas que descendem de uma mesma proteína ancestral (e nãoforam duplicadas dentro de linhagens -- parálogas --, já que as estas últimasnormalmente acumulam mutações extras devido ao fato de não haver pressão seletivapara manutenção de sua função) (Jensen, 2001). Já as proteínas ortólogas, quenormalmente apresentam o mesmo papel funcional na célula, são importantes para aexecução deste papel e, portanto, não devem acumular mutações que alterem suacapacidade funcional. O estudo de evolução em nível molecular baseia-se nacomparação entre proteínas ortólogas, derivadas de uma mesma proteína noancestral comum entre as espécies. Ultimamente os termos ortologia e paralogia têm sido muito utilizados nabiologia genômica para expressar relações funcionais entre genes. Genes ortólogos sãoconsiderados aqueles homólogos que apresentam a mesma função em organismosdiferentes. Já os genes parálogos são considerados homólogos, presentes num mesmoorganismo, que não apresentam a mesma função. Entretanto, de acordo com Walter © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 57. 55Fitch, que primeiramente utilizou esses termos, eles não apresentam esse significadofuncional e sim um significado evolutivo. Segundo sua definição, a determinação de ortologia ou paralogia estárelacionada a eventos de evolução gênica. Genes que tenham sido duplicados dentrode uma mesma linhagem (linhas horizontais) são parálogos, não importando sepossuem a mesma função ou não. Já os genes que foram alterados dentro delinhagens específicas, após especiação (aqueles nos quais, se voltarmos à sua origem,chegamos a uma bifurcação ou Y invertido) são os chamados ortólogos.Figura 8.1. Eventos de paralogia e ortologia. Adaptada de Jensen, 2001 Isso significa dizer que, na figura acima, A1 tem três ortólogos na espécie C,mas somente C1 é ortólogo de B1. Já B2 tem dois ortólogos na espécie C (C2 e C3),onde C2 e C3 são parálogos. Portanto, toda relação de homologia entre genes pode serclassificada como ortologia ou paralogia e deve-se perceber que um dado gene emuma espécie pode ter mais do que um ortólogo em outra. Além disso, podemosdetectar também genes parálogos em espécies diferentes. É bom lembrar que existetambém uma terceira relação entre genes conhecida como xenologia, que consiste narelação entre genes quando, na sua história evolutiva, pelo um deles surgiu portransferência horizontal, ou seja, o gene em algum momento foi absorvido do meiopara dentro do genoma do organismo (através de vírus, por exemplo). Portanto essa definição de nada tem a ver com a função e sim com a históriaevolutiva dos genes e é assim que essa nomenclatura foi definida primeiramente.Entretanto, devemos notar que, para definirmos corretamente a relação entre osgenes, temos que conhecer detalhes sobre sua rota evolutiva. O problema é que, nagrande maioria das vezes, não temos informações suficientes para montar essa rota deforma correta. É interessante notar que, para os pesquisadores da ciência genômica, éimportante saber, principalmente, se dois genes homólogos possuem uma mesmacaracterística funcional. Esse conhecimento permite entender melhor tanto as origensestruturais das funções biológicas como as bases moleculares para a divergênciadessas funções, permitindo aos pesquisadores comparar relações sobre a seqüência,estrutura e função de grupos de homólogos. Assim, considerando que os termos ortologia e paralogia mostram-seinadequados para uso, Gerlt e Babbit sugerem novos termos a serem utilizados na © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 58. 56pesquisa genômica. Assim, genes isofuncionais seriam aqueles homólogos queapresentam a mesma função; heterofuncionais seriam aqueles que apresentamfunções diferentes; isoespecíficos seriam homólogos encontrados na mesma espécie eheteroespecíficos seriam homólogos presentes em espécies diferentes. Dessa forma, genes homólogos com a mesma função em espécies diferentesseriam heteroespecíficos e isofuncionais, homólogos com funções diferentes no mesmoorganismo seriam isoespecíficos e heterofuncionais, homólogos com a mesma funçãonum mesmo organismo seriam isoespecíficos e isofuncionais e homólogos com funçõesdiferentes em diferentes organismos seriam heteroespecíficos e heterofuncionais.8.2. COG Portanto, como vimos acima, algo que é bastante penoso e questionável emestudos evolutivos é a definição de critérios que possam identificar determinadosgenes como ortólogos para que sejam realizados estudos evolutivos entre eles(Sonnhammer & Koonin 2002). Não existem metodologias consensuais para identificarortólogos e cada pesquisador considera-os da forma como acredita ser melhor.Entretanto, o NCBI apresenta um serviço conhecido como COG -- Clusters ofOrtologous Groups (http://www.ncbi.nlm.nih.gov/COG/) -- onde foi realizado umestudo para a definição dos grupos de proteínas ortólogas presentes em organismos degenomas completos (Tatusov et al., 1997). Assim, o COG disponibiliza grupos deproteínas ortólogas classificadas de acordo com sua função biológica em dois serviços,um para organismos procariotos (Tatusov et al., 2001) e outro para eucariotos(Tatusov et al., 2003). A forma como o COG define proteínas como ortólogas baseia-se no critérioconhecido como BeTs. Os BeTs, ou best hits bidirecionais são resultantes dealinhamentos locais entre proteínas de um determinado organismo e o genoma deoutro. Para que uma proteína 1, em um organismo 1, seja BeT de uma proteína 2, noorganismo 2, o melhor resultado (best hit) de uma busca BLAST (Altschul et al., 1997)entre a proteína 1 contra o genoma do organismo 2 deve encontrar a proteína 2 comobest hit da busca, assim como o contrário. Ou seja, ao executarmos o BLAST daproteína 2, contra o genoma do organismo 1, o best hit deve ser a proteína 1. Assim,define-se grupos de proteína BeT (Tatusov et al., 1997). Assim, para a definição de umgrupo de proteínas ortólogas em um COG é necessário haver BeT entre pelo menostrês diferentes organismos, sendo que as três (ou mais) proteínas devem ser BeT dasoutras proteínas encontradas nos outros organismos. Assim o KOG, que representa o serviço do COG para organismos eucarióticos,apresenta 4852 grupos de proteínas ortólogas de diversos organismos. Assim, paracada gene conhecido dos organismos existe um número de KOG característico e, sebuscarmos em outro organismos os genes de mesmo identificador KOG, pegaremos osgenes que provavelmente realizam a mesma função neste organismo. O COG,portanto, facilita o estudo da evolução gênica considerando que ele mesmo já separapara o pesquisador os genes que provavelmente são ortólogos nos diferentesorganismos. O serviço COG de procariotos apresenta 66 genomas completos que sãodisponibilizados no site http://www.ncbi.nlm.nih.gov/COG, enquanto o serviço do KOGde eucariotos atualmente apresenta sete organismos em seu banco de dados.8.3. Trabalhando com genomas completos Tão importante quanto aprender a trabalhar para montar um genoma,produzindo toda sua seqüência de bases, é saber como podemos utilizar as © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 59. 57informações de genomas já seqüenciados e disponíveis nos bancos de dados públicos.Na tabela 8.1 abaixo podemos ver quantos genomas de diferentes grupos deorganismos já foram seqüenciados até o presente momento (01/2005). Complete Genomes Organism published Vírus 2024 Arqueobactérias 21 Bactérias 196 Outros Eucariotos 18Tabela 8.1. Número de seqüências genômicas já publicadas para diferentes classes deorganismos. Obtido em http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html, a27/01/2005. As seqüências genômicas de diversos organismos podem ser obtidas no site doNCBI http://www.ncbi.nlm.nih.gov, a partir do serviço Entrez Genomes. Os genomaspresentes ali geralmente são fornecidos na forma de diversos arquivos de entrada,cada um contendo uma informação específica, que pode ser vista na tabela abaixo: Arquivo Informação contida no arquivo asn Arquivo no formato GenBank contendo informações de genoma formatadas em XML faa Seqüências de aminoácidos de todas as proteínas inferidas no formato FASTA ffn Seqüências de Nucleotídeos de todos os genes inferidos no formato FASTA, apresentando, no cabeçalho informação sobre sua posição no genoma fna Contém a informação sobre a seqüência de nucleotídeos do genoma completo do organismo gbk Contém todo o genoma do organismo anotado segundo padrão GenBank ptt Apresenta informações sobre localização, fita, tamanho, identificador, nome e código de cada um dos genes, assim como sua categoria funcional segundo o COGTabela 8.2. Arquivos disponibilizados pelo NCBI para seqüências de genomascompletos de procariotos (ftp://ftp.ncbi.nlm.nih.gov/genomes/Bacteria). Assim, temos disponível para nosso uso tanto a seqüência do genoma completodo organismo quanto as seqüências de cada um dos seus genes e proteínas. Comessas informações torna-se possível que realizemos vários tipos de estudos de nossopróprio interesse e utilizemos as seqüências dos genomas da forma como nosinteressar.8.4. Referências Bibliográficas1. Altschul, S. F.; Madden, T. L.; Schaffer, A. A.; Zhang, J.; Zhang, Z.; Miller, W. and Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25: 3389-3402. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 60. 582. Jensen, RA. Orthologs and paralogs – we need to get it right. Genome Biology 2001 2 (8): 1002.1-1002.33. Sonnhammer EL, Koonin EV (2002). Orthology, paralogy and proposed classification for paralog subtypes. Trends Genet. Dec;18(12):619-20.4. Tatusov RL, Fedorova ND, Jackson JD, Jacobs AR, Kiryutin B, Koonin EV, Krylov DM, Mazumder R, Mekhedov SL, Nikolskaya AN, Rao BS, Smirnov S, Sverdlov AV, Vasudevan S, Wolf YI, Yin JJ, Natale DA (2003). The COG database: an updated version includes eukaryotes. BMC Bioinformatics. Sep 11;4(1):41.5. Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS, Kiryutin B, Galperin MY, Fedorova ND, Koonin EV (2001). The COG database: new developments in phylogenetic classification of proteins from complete genomes. Nucleic Acids Res. Jan 1;29(1):22-8.6. Tatusov RL, Koonin EV, Lipman DJ (1997). A genomic perspective on protein families. Science. Oct 24;278(5338):631-7.8.5. Brainstorm1. Qual o conceito de homologia e por que não se diz que dois genes são mais homólogos entre si do que um terceiro?2. O que são genes parálogos e ortólogos?3. Como o COG classifica os genes em ortólogos? Discuta sobre a classificação do COG e o conceito de ortologia da resposta anterior.4. Por que você acredita que os genomas virais são os mais seqüenciados de todos?5. Que tipo de informação é disponibilizada sobre um organismo quando um genoma está completo? © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 61. 59 CAPÍTULO 9 Bioinformática estruturalIniciando nossa InteraçãoComo já dissemos a bioinformática consiste principal no estudo de seqüências debiomoléculas. Até agora já conseguimos entender a relevância da bioinformatica comrelação a seqüências de DNA (genoma) e RNA (transcriptoma). Portanto é hora de nosvoltarmos para as seqüências de proteínas. As proteínas são muitas vezesconsideradas as principais moléculas de uma células, já que são elas que realizam asfunções celulares, sendo que o DNA e RNA têm principalmente a característica dearmazenamento e processamento de informações. Sabe-se bem que as proteínasexercem sua função de acordo com sua estrutura espacial, ou seja, a função daproteína está intrinsecamente ligada a sua conformação tridimensional, à suaestrutura. E é justamente a busca por esta conformação espacial uma das principaisáreas da bioinformática, que será discutida no presente capítulo.9.1. Sobre a estrutura das proteínas A seqüência de aminoácidos que forma uma determinada proteína é conhecidacomo sua estrutura primária. Já a forma como os aminoácidos se interconectamformando alças, hélices ou folhas consiste na estrutura secundária da proteína.Entretanto, o que realmente importa para a função de uma proteína é sua formatridimensional no espaço. É através dessa conformação espacial que a proteína encaixasegundo o modelo chave-fechadura nos seus substratos para catalisar umadeterminada reação química que dê origem aos produtos da ação enzimática. No casoda estrutura de uma proteína, existem dois ângulos principais de torção entre átomosdos aminoácidos que são responsáveis pela forma final na qual uma proteína seenovela no espaço, esses são os ângulos phi e psi. Eles são formados pela ligaçãocarbono alfa dos aminoácidos e seus grupos amino e ácido carboxílico. Cadaaminoácido da proteína apresenta um valor de torção de tais ângulos e, soubéssemosesse valor para cada um deles, conheceríamos perfeitamente a forma como a proteínase enovela para realizar sua função. Ainda hoje é impossível prever teoricamente aestrutura 3D de uma proteína quando conhecemos apenas sua estrutura primária eesse é um dos grandes, senão o maior, desafio da bioinformática nos dias de hoje.Mesmo alguns cientistas célebres dizem que a bioinformática consiste apenas em umaforma de processar a informação de genomas, transcriptomas ou proteomas e quenunca algo realmente de valor pode ser produzido apenas por análises computacionaisde seqüências de biomoléculas. Entretanto, acredita-se que a forma como as proteínasse enovelam no espaço seja realmente uma das grandes questões da atualidade e,possivelmente, isso traria daria fama e respeito em toda comunidade científica casoum método teórico de predição de estrutura de proteínas fosse desenvolvido atravésde ferramentas computacionais. E, na minha opinião, se algo pode dar um Nobel a umbioinformata, essa é a grande pergunta a ser respondida e trabalhada. Bem, mas a vida real é mais dura e, hoje, para descobrirmos a estruturaterciária de uma proteína, que consiste exatamente na sua forma espacial, devemos © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 62. 60utilizar laboriosos testes experimentais para tal, sendo que os principais métodosutilizados hoje em dia são a difração de raios-X e a ressonância nuclear magnética. Na difração de raios-X, a primeira dificuldade consiste na produção de umcristal da proteína desejada. E essa dificuldade deve-se ao fato de que a cristalizaçãoconsiste num processo um tanto quanto caótico e imprevisível, sendo quedeterminadas proteínas podem ser cristalizadas em poucos dias enquanto outrasdemoram anos para que possam ser cristalizadas. Esse cristal deve então sersubmetido a uma fonte de raios-X e o padrão de difração obtido pela incidência doraio-X no cristal da proteína deve ser então analisado computacionalmente para queseja produzida a estrutura precisa da proteína em questão. Com os dados obtidos noexperimento de difração é montado um mapa de densidades eletrônicas onde osaminoácidos são “encaixados” e o quebra cabeça que representa a estrutura daproteína é gerado. Dependendo da resolução obtida pode-se chegar até a descobrirexatamente qual a seqüência de aminoácidos da proteína. Quase 100% das vezes,entretanto, a seqüência primária já é conhecida de antemão. Ao contrário da técnica de difração de raios-X, a ressonância nuclear magnéticaou NMR, da sigla em inglês, permite que a estrutura da proteína seja conhecida semque haja necessidade da cristalização da mesma (as proteínas são utilizadas emsolução) e, portanto, proteínas que não são possíveis de se cristalizar têm suaestrutura 3D resolvida por este método. No fundo esse é um método de minimizaçãode energia que produz um resultado menos preciso e de menor resolução do que osresultados de difração. Freqüentemente os resultados de NMR produzem mais de umresultado que apresente uma energia mínima e, assim, os arquivos de estruturas deproteínas resolvidas por NMR são, na verdade, um conjunto contendo todas asestruturas da proteína que apresentaram menor energia e várias estruturas parecidassão observadas nestes arquivos.9.2. Protein Data Bank: o banco de dados de estruturas de proteínas O PDB (Protein Data Bank ou Banco de Dados de Proteína) consiste no principalbanco de dados de estrutura de proteínas existente no mundo. A figura 9.1 apresentao crescimento do número de estruturas depositadas desde a criação do PDB, em 1972.Algo interessante a ser notado é que, se nos lembrarmos da primeira aula quetivemos, da primeira figura deste curso, a figura 1.1, perceberemos que, enquantocerca de 16 milhões de seqüências nucleotídicas são conhecidas, ainda hoje temosconhecimento apenas de cerca de 30 mil estruturas de proteínas. E isso nos mostracomo a descoberta das estruturas terciárias das proteínas ainda hoje consiste nummétodo trabalhoso e complicado. Analisando ainda a figura, vemos que com o passardos anos, cada vez mais estruturas são reveladas (barras vermelhas), mas aindaassim há uma clara e notória diferença entre a informação de seqüência e de estruturadas biomoléculas. O PDB também abriga dados estruturais de pequenos peptídeos, vírus, ácidosnucléicos e carboidratos e, das cerca de 30 mil estruturas presentes no banco cerca devinte e cinco mil foram resolvidas através de difração de raios-X enquanto cerca decinco mil foram resolvidas por experimentos de ressonância magnética. Algumasproteínas, entretanto, tiveram suas estruturas resolvidas pelas duas técnicas. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 63. 61Figura 9.1. Crescimento do PDB. Crescimento do número de estruturas de proteínascontidas no PDB ao longo das três últimas décadas. Obtido emhttp://www.rcsb.org/pdb/holdings.html. Outra informação importante sobre o PDB é que ele consiste, assim como oGenBank, em um banco de dados primário de estruturas de proteínas, onde asmesmas não são classificadas ou analisadas de nenhuma forma específica, estandopublicadas da mesma forma que o pesquisador que as produziu depositou no banco.9.3. Modelagem molecular por homologia A modelagem molecular por homologia representa a tentativa de se descobrir aestrutura de uma determinada proteína tendo como base a estrutura de uma outraproteína de seqüência relativamente similar. E a necessidade de se modelar umaestrutura vem do fato de que a informação biológica sobre uma determinada proteínacresce quando se conhece sua estrutura (figura 9.2). Com a informação da estruturade uma proteína é possível tentar descobrir, por exemplo, outras proteínas queinterajam com ela, fármacos que possam ativá-la ou inibi-la ou, simplesmente,permite que entendamos melhor seu mecanismo molecular de ação. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 64. 62Figura 9.2. O desafio da modelagem por homologia. A premissa básica na qual se baseia a modelagem por homologia é a de que: seduas proteínas apresentam seqüência primária similar é bem provável que suaestrutura seja também parecida. E essa premissa tem se mostrado real, apesar deque, algumas vezes, mesmo proteínas que apresentam seqüências primáriasdiferentes podem apresentar conformações tridimensionais parecidas, no que novosprogramas de threading têm sido desenvolvidos para tentar prever essas estruturas.Voltando à modelagem por homologia, entretanto, é preciso definir bem quais são assituações nas quais a modelagem molecular vale a pena ou não em ser realizada.Basicamente, ela vale ser realizada nos seguintes casos: (1) quando o problema éexperimentalmente difícil, por exemplo, quando as proteínas são muito difíceis deserem cristalizadas, como é o caso de proteínas glicosiladas ou de membrana; (2)quando se deseja apenas saber aproximadamente a estrutura da proteína, ou seja,quando o problema não justifica o investimento e o tempo necessários para produzirexperimentalmente a estrutura da proteína; ou (3) quando este é o único recursodisponível, no caso, por exemplo de um laboratório que não tenha os equipamentos dededução experimental ao alcance. Os procedimentos realizados para a modelagem por homologia normalmenteconsistem nos seguintes passos: (1) identificação das proteínas já modeladasapresentando seqüências primárias similares, normalmente realizada através dealinhamentos locais da proteína desejada contra as seqüências das proteínas do PDB;(2) seleção das proteínas similares que serão utilizadas como modelo; (3) alinhamentoglobal da seqüência desejada com as que serão utilizadas; (4) construção do modeloatravés de similaridade com os modelos das proteínas escolhidas do PDB utilizando umsoftware de modelagem; (5) avaliação do modelo utilizando diferentes algoritmos deteste. Vale notar que o processo de modelagem por homologia é um processoiterativo, ou seja, que pode apresentar várias iterações ou repetições. No final,avalia-se o modelo obtido e, se o modelo não for satisfatório, tenta-se escolher outrasproteínas homólogas, alinhamentos um pouco diferentes ou tenta-se modificar algunsparâmetros do programa de modelagem até que o modelo passe bem nos testes queavaliam os ângulos de torção dos aminoácidos e as propriedades físico-químicas daproteína. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 65. 639.4. Alguns programas de modelagem molecular Existem vários programas que permitem a realização da modelagem molecular.O mais fácil de utilizar é o swiss-model http://swissmodel.expasy.org/SWISS-MODEL.html. Ele consiste num servidor que realiza todos os procedimentos de formatransparente para o usuário, que precisa apenas entrar com a seqüência primária daproteína de interesse. O próprio swiss-model procura as proteínas similares deestrutura conhecida e realiza a montagem do modelo por homologia segundo umalgoritmo próprio. Apesar disso, ele permite que o usuário também entre com osidentificadores PDB das proteínas que o mesmo deseje utilizar como molde ou definirum valor de cutoff de BLAST para ser utilizado na escolha automática das proteínaspelo sistema. Apesar de simples, o swiss-model é normalmente utilizado apenas para aprodução de modelos aproximados ou como recurso didático. Já o algoritmo Modeller consiste num software mais robusto para a elucidaçãode estruturas por homologia. O Modeller trabalha através de satisfação de restriçõesespaciais, apresentando um banco de dados interno que contém alinhamentos de 416proteínas de 105 diferentes famílias e, para a satisfação de tais restrições, ele aindacalcula as distâncias entre os átomos dos aminoácidos utilizando funções estatísticasde densidade de probabilidade. Apresenta ainda um algoritmo de otimização atravésde dinâmica molecular, onde as restrições espaciais são otimizadas levando emconsideração termos energéticos e de estereoquímica de aminoácidos. O Modellercontém também um banco de dados contendo proteínas representativas de todo oPDB.9.5. Threading Vimos, portanto, como normalmente é realizada a montagem de modelosteóricos de estruturas protéicas baseados em homologia de seqüência entre diferentesproteínas. Entretanto, o que fazer quando o pesquisador deseja modelar teoricamenteuma determinada proteína mas não há outras seqüências similares o suficiente nobanco de dados do PDB para realizar essa modelagem? Foi pensando nesse tema e nofato de que algumas proteínas de seqüência bem divergente apresentam estruturassimilares, que os algoritmos de threading foram desenvolvidos. Tais programas, comoo gene threader, tentam modelar proteínas que não apresentem seqüênciasprimárias similares com estrutura conhecida. Um programa de threading funciona deacordo com a montagem dos chamados modelos descritivos, que são montados paratentar criar um padrão relacionando seqüência e estrutura, mas não de uma forma tãorígida quanto num alinhamento. Esses padrões levam em consideração alguns fatores,como: (1) a distância entre os resíduos de aminoácidos; (2) a estrutura secundária devários segmentos das proteínas; (3) as características físico-químicas de cada resíduoe sua ordem na cadeia. Dessa forma, esses algoritmos são, por vezes, capazes degerar estruturas terciárias de proteínas sem que existam outras proteínas jámodeladas com seqüência similar.9.6. CASP – Critical Assessment of Structure Prediction É interessante notar que a cada dois anos é realizada uma espécie de“competição” para tentar descobrir quais são os melhores programas de modelagemmolecular existentes no mundo. Essa saudável competição é realizada como umestudo cego onde uma proteína recém modelada experimentalmente tem sua estrutura © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 66. 64escondida e vários grupos de modelagem em todo o mundo obtêm sua seqüênciaprimária e tentam modelá-la através de diversas técnicas diferentes. Ganha o concursoo grupo que se aproximar mais da estrutura real da proteína, que só é liberada depoisque o concurso termina. E a cada biênio os pesquisadores mostram conseguir chegarmais perto da estrutura real da proteína desconhecida.9.7. Estrutura de um arquivo no formato PDB O arquivo abaixo consiste na parte inicial de um arquivo no formato PDB querepresenta a estrutura de uma proteína, no caso de uma variante da hemoglobinahumana. O arquivo PDB normalmente é estruturado de acordo com as seguintespartes: Informações do arquivo Identificadores da primeira colunaTítulo TITLE, COMPND, SOURCE, AUTHOR, REMARKSEstrutura primária DBREF, SEQADV, SEQRES, MODRESHeteroátomos HET, HETNAM, HETSYN, FORMULEstrutura secundária HELIX, SHEET, TURNLigações químicas SSBOND, HYDBND, SLTBRG, CYSPEPDados cristalográficos CRIST1, ORIGXn, SCALEn, MTRIXnCoordenadas atômicas MODEL, ATOM, TER, HETATMTabela 9.1. Informações presentes num arquivo PDB de estrutura de proteína.Exemplo de um arquivo PDB:HEADER OXYGEN TRANSPORT 14-APR-95 1HDB 1HDB 2COMPND MOL_ID: 1; 1HDB 3COMPND 2 MOLECULE: HEMOGLOBIN (DEOXY) BETA-V67T; 1HDB 4COMPND 3 CHAIN: A, B, C, D; 1HDB 5COMPND 4 SYNONYM: HBV67T; 1HDB 6COMPND 5 ENGINEERED: YES; 1HDB 7COMPND 6 MUTATION: CHAIN B, D, V67T; 1HDB 8COMPND 7 OTHER_DETAILS: ALPHA-BETA-ALPHA-BETA TETRAMER 1HDB 9SOURCE MOL_ID: 1; 1HDB 10SOURCE 2 SYNTHETIC: YES; 1HDB 11SOURCE 3 ORGANISM_SCIENTIFIC: HOMO SAPIENS; 1HDB 12SOURCE 4 ORGANISM_COMMON: HUMAN; 1HDB 13SOURCE 5 TISSUE: BLOOD; 1HDB 14SOURCE 6 CELL: ERYTHROCYTE; 1HDB 15SOURCE 7 EXPRESSION_SYSTEM: ESCHERICHIA COLI; 1HDB 16SOURCE 8 EXPRESSION_SYSTEM_STRAIN: AR120; 1HDB 17SOURCE 9 EXPRESSION_SYSTEM_PLASMID: PJK05 (FRONTICELLI ET AL.,1991); 1HDB 18SOURCE 10 EXPRESSION_SYSTEM_GENE: BETA-GLOBIN CDNA FUSED TO A 1HDB 19SOURCE 11 TRUNCATED VIRAL GENE 1HDB 20KEYWDS HUMAN HEMOGLOBIN, DEOXY-BETA-V67T 1HDB 21EXPDTA X-RAY DIFFRACTION 1HDB 22AUTHOR I.PECHIK,X.JI,C.FRONTICELLI,G.L.GILLILAND 1HDB 23REVDAT 1 03-APR-96 1HDB 0 1HDB 24JRNL AUTH I.PECHIK,X.JI,J.DILL,K.FIDELIS,J.MOULT, 1HDB 25JRNL AUTH 2 W.S.BRINIGAR,M.KARAVITIS,C.FRONTICELLI, 1HDB 26JRNL AUTH 3 G.L.GILLILAND 1HDB 27JRNL TITL ANALYSIS OF THE CRYSTAL STRUCTURE, MOLECULAR 1HDB 28JRNL TITL 2 MODELING AND INFRARED SPECTROSCOPY OF THE DISTAL 1HDB 29JRNL TITL 3 BETA-HEME POCKET VALINE67(E11)-THREONINE MUTATION 1HDB 30JRNL TITL 4 OF HEMOGLOBIN 1HDB 31JRNL REF TO BE PUBLISHED 1HDB 32 © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 67. 65JRNL REFN 0353 1HDB 33REMARK 1 1HDB 34REMARK 1 REFERENCE 1 1HDB 35REMARK 1 AUTH C.FRONTICELLI,I.PECHIK,W.S.BRINIGAR,Z.GRYCZYNSKI, 1HDB 36REMARK 1 AUTH 2 G.L.GILLILAND 1HDB 37REMARK 1 TITL OXYGEN AFFINITY MODULATION BY THE N-TERMINI OF THE 1HDB 38REMARK 1 TITL 2 BETA- CHAINS IN HUMAN AND BOVINE HEMOGLOBIN 1HDB 39REMARK 1 REF J.BIOL.CHEM. V. 269 23965 1994 1HDB 40REMARK 1 REFN ASTM JBCHA3 US ISSN 0021-9258 0071 1HDB 41REMARK 2 1HDB 42REMARK 2 RESOLUTION. 2.2 ANGSTROMS. 1HDB 43REMARK 3 1HDB 44REMARK 3 REFINEMENT. 1HDB 45REMARK 3 PROGRAM GPRLSA 1HDB 46REMARK 3 AUTHORS FUREY 1HDB 47REMARK 3 R VALUE 0.149 1HDB 48REMARK 3 MEAN B VALUE 21.43 ANGSTROMS**2 1HDB 49REMARK 3 FINAL RMS COORD. SHIFT 0.024 ANGSTROMS 1HDB 50REMARK 3 1HDB 51REMARK 3 NUMBER OF REFLECTIONS 21669 1HDB 52REMARK 3 RESOLUTION RANGE 6.0 - 2.2 ANGSTROMS 1HDB 53REMARK 3 DATA CUTOFF 2. SIGMA(F) 1HDB 54REMARK 3 1HDB 55REMARK 3 DATA COLLECTION. 1HDB 56REMARK 3 NUMBER OF UNIQUE REFLECTIONS 27163 1HDB 57REMARK 3 COMPLETENESS OF DATA 84. % 1HDB 58REMARK 3 REJECTION CRITERIA 0.0 SIGMA(I) 1HDB 59REMARK 3 1HDB 60REMARK 3 NUMBER OF ATOMS USED IN REFINEMENT. 1HDB 61REMARK 3 NUMBER OF PROTEIN ATOMS 4384 1HDB 62REMARK 3 NUMBER OF NUCLEIC ACID ATOMS 0 1HDB 63REMARK 3 NUMBER OF HETEROGEN ATOMS 172 1HDB 64REMARK 3 NUMBER OF SOLVENT ATOMS 444 1HDB 65REMARK 3 1HDB 66REMARK 3 RMS DEVIATIONS FROM IDEAL VALUES (THE VALUES OF 1HDB 67REMARK 3 SIGMA, IN PARENTHESES, ARE THE INPUT ESTIMATED 1HDB 68REMARK 3 STANDARD DEVIATIONS THAT DETERMINE THE RELATIVE 1HDB 69REMARK 3 WEIGHTS OF THE CORRESPONDING RESTRAINTS). 1HDB 70REMARK 3 DISTANCE RESTRAINTS (ANGSTROMS). 1HDB 71REMARK 3 BOND DISTANCE 0.017(0.025) 1HDB 72REMARK 3 ANGLE DISTANCE 0.038(0.036) 1HDB 73REMARK 3 PLANAR 1-4 DISTANCE 0.039(0.040) 1HDB 74REMARK 3 ANGLE RESTRAINTS (DEGREES). 1HDB 75REMARK 3 PLANE RESTRAINT (ANGSTROMS) 0.023(0.030) 1HDB 76REMARK 3 CHIRAL-CENTER RESTRAINT (ANGSTROMS**3) 0.181(0.200) 1HDB 77REMARK 3 NON-BONDED CONTACT RESTRAINTS (ANGSTROMS). 1HDB 78REMARK 3 SINGLE TORSION CONTACT 0.186(0.300) 1HDB 79REMARK 3 MULTIPLE TORSION CONTACT 0.187(0.300) 1HDB 80REMARK 3 POSSIBLE HYDROGEN BOND 0.174(0.300) 1HDB 81REMARK 3 CONFORMATIONAL TORSION ANGLE RESTRAINT (DEGREES). 1HDB 82REMARK 3 PLANAR 3.5(5.0) 1HDB 83REMARK 3 STAGGERED 17.4(15.0) 1HDB 84REMARK 3 ORTHONORMAL 31.7(15.0) 1HDB 85REMARK 3 ISOTROPIC THERMAL FACTOR RESTRAINTS (ANGSTROMS**2). 1HDB 86REMARK 3 MAIN-CHAIN BOND 0.676(1.000) 1HDB 87REMARK 3 MAIN-CHAIN ANGLE 1.140(1.500) 1HDB 88REMARK 3 SIDE-CHAIN BOND 1.279(1.500) 1HDB 89REMARK 3 SIDE-CHAIN ANGLE 2.031(2.000) 1HDB 90REMARK 3 1HDB 91REMARK 3 MAIN-CHAIN BOND 0.676(1.000) 1HDB 92REMARK 3 MAIN-CHAIN ANGLE 1.140(1.500) 1HDB 93REMARK 3 SIDE-CHAIN BOND 1.279(1.500) 1HDB 94REMARK 3 SIDE-CHAIN ANGLE 2.031(2.000) 1HDB 95 © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 68. 66REMARK 18 1HDB 96REMARK 18 DATE OF DATA COLLECTION : 07-04-94 1HDB 97REMARK 18 MONOCHROMATIC (Y/N) : Y 1HDB 98REMARK 18 INTENSITY-INTEGRATION SOFTWARE : XENGEN 1HDB 99REMARK 18 DATA REDUNDANCY : 2.75 1HDB 100DBREF 1HDB A 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 101DBREF 1HDB B 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 102DBREF 1HDB C 1 141 SWS P01922 HBA_HUMAN 1 141 1HDB 103DBREF 1HDB D 1 146 SWS P02023 HBB_HUMAN 1 146 1HDB 104SEQADV 1HDB THR B 67 SWS P02023 VAL 67 ENGINEERED 1HDB 105SEQADV 1HDB THR D 67 SWS P02023 VAL 67 ENGINEERED 1HDB 106SEQRES 1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 107SEQRES 2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 108SEQRES 3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 109SEQRES 4 A 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 110SEQRES 5 A 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 111SEQRES 6 A 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 112SEQRES 7 A 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 113SEQRES 8 A 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 114SEQRES 9 A 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 115SEQRES 10 A 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 116SEQRES 11 A 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 117SEQRES 1 B 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 118SEQRES 2 B 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 119SEQRES 3 B 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 120SEQRES 4 B 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 121SEQRES 5 B 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 122SEQRES 6 B 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 123SEQRES 7 B 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 124SEQRES 8 B 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 125SEQRES 9 B 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 126SEQRES 10 B 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 127SEQRES 11 B 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 128SEQRES 12 B 146 LYS TYR HIS 1HDB 129SEQRES 1 C 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA 1HDB 130SEQRES 2 C 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA 1HDB 131SEQRES 3 C 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR 1HDB 132SEQRES 4 C 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER 1HDB 133SEQRES 5 C 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA 1HDB 134SEQRES 6 C 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN 1HDB 135SEQRES 7 C 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU 1HDB 136SEQRES 8 C 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS 1HDB 137SEQRES 9 C 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE 1HDB 138SEQRES 10 C 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA 1HDB 139SEQRES 11 C 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG 1HDB 140SEQRES 1 D 146 VAL HIS LEU THR PRO GLU GLU LYS SER ALA VAL THR ALA 1HDB 141SEQRES 2 D 146 LEU TRP GLY LYS VAL ASN VAL ASP GLU VAL GLY GLY GLU 1HDB 142SEQRES 3 D 146 ALA LEU GLY ARG LEU LEU VAL VAL TYR PRO TRP THR GLN 1HDB 143SEQRES 4 D 146 ARG PHE PHE GLU SER PHE GLY ASP LEU SER THR PRO ASP 1HDB 144SEQRES 5 D 146 ALA VAL MET GLY ASN PRO LYS VAL LYS ALA HIS GLY LYS 1HDB 145SEQRES 6 D 146 LYS THR LEU GLY ALA PHE SER ASP GLY LEU ALA HIS LEU 1HDB 146SEQRES 7 D 146 ASP ASN LEU LYS GLY THR PHE ALA THR LEU SER GLU LEU 1HDB 147SEQRES 8 D 146 HIS CYS ASP LYS LEU HIS VAL ASP PRO GLU ASN PHE ARG 1HDB 148SEQRES 9 D 146 LEU LEU GLY ASN VAL LEU VAL CYS VAL LEU ALA HIS HIS 1HDB 149SEQRES 10 D 146 PHE GLY LYS GLU PHE THR PRO PRO VAL GLN ALA ALA TYR 1HDB 150SEQRES 11 D 146 GLN LYS VAL VAL ALA GLY VAL ALA ASN ALA LEU ALA HIS 1HDB 151SEQRES 12 D 146 LYS TYR HIS 1HDB 152HET HEM A 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 153HET HEM B 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 154HET HEM C 142 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 155HET HEM D 147 43 PROTOPORPHYRIN IX CONTAINS FE(II) 1HDB 156HET SO4 1 5 SULFATE ION 1HDB 157HET SO4 2 5 SULFATE ION 1HDB 158 © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 69. 67FORMUL 5 HEM 4(C34 H32 N4 O4 FE1 2+) 1HDB 159FORMUL 6 SO4 2(O4 S1 2-) 1HDB 160FORMUL 7 HOH *434(H2 O1) 1HDB 161HELIX 1 1 PRO A 4 SER A 35 1 1HDB 162HELIX 2 2 PRO A 37 TYR A 42 5 1HDB 163HELIX 3 3 ALA A 53 ALA A 71 1 1HDB 164HELIX 4 4 MET A 76 ALA A 79 1 1HDB 165HELIX 5 5 SER A 81 HIS A 89 1 1HDB 166HELIX 6 6 PRO A 95 HIS A 112 5 1HDB 167HELIX 7 7 PRO A 119 THR A 137 1 1HDB 168HELIX 8 8 PRO B 5 LYS B 17 1 1HDB 169HELIX 9 9 VAL B 20 VAL B 34 1 1HDB 170HELIX 10 10 PRO B 36 PHE B 45 5 1HDB 171HELIX 11 11 PRO B 51 GLY B 56 1 1HDB 172HELIX 12 12 PRO B 58 HIS B 77 1 1HDB 173HELIX 13 13 LEU B 81 ASP B 94 1 1HDB 174HELIX 14 14 PRO B 100 GLU B 121 5 1HDB 175HELIX 15 15 PRO B 124 ALA B 142 1 1HDB 176HELIX 16 16 PRO C 4 SER C 35 1 1HDB 177HELIX 17 17 PRO C 37 TYR C 42 5 1HDB 178HELIX 18 18 ALA C 53 ALA C 71 1 1HDB 179HELIX 19 19 MET C 76 ALA C 79 1 1HDB 180HELIX 20 20 SER C 81 HIS C 89 1 1HDB 181HELIX 21 21 PRO C 95 HIS C 112 5 1HDB 182HELIX 22 22 PRO C 119 LEU C 136 1 1HDB 183HELIX 23 23 PRO D 5 LYS D 17 1 1HDB 184HELIX 24 24 VAL D 20 VAL D 34 1 1HDB 185HELIX 25 25 PRO D 36 PHE D 45 5 1HDB 186HELIX 26 26 PRO D 51 GLY D 56 1 1HDB 187HELIX 27 27 PRO D 58 HIS D 77 1 1HDB 188HELIX 28 28 LEU D 81 ASP D 94 1 1HDB 189HELIX 29 29 PRO D 100 GLU D 121 5 1HDB 190HELIX 30 30 PRO D 124 ALA D 142 1 1HDB 191CRYST1 63.540 83.190 54.020 90.00 99.15 90.00 P 21 4 1HDB 192ORIGX1 1.000000 0.000000 0.000000 0.00000 1HDB 193ORIGX2 0.000000 1.000000 0.000000 0.00000 1HDB 194ORIGX3 0.000000 0.000000 1.000000 0.00000 1HDB 195SCALE1 0.015738 0.000000 0.002535 0.00000 1HDB 196SCALE2 0.000000 0.012021 0.000000 0.00000 1HDB 197SCALE3 0.000000 0.000000 0.018750 0.00000 1HDB 198ATOM 1 N VAL A 1 19.345 29.258 43.165 1.00 33.80 1HDB 199ATOM 2 CA VAL A 1 20.198 30.251 42.493 1.00 33.75 1HDB 200ATOM 3 C VAL A 1 21.681 29.970 42.744 1.00 33.53 1HDB 201ATOM 4 O VAL A 1 22.004 29.466 43.860 1.00 33.92 1HDB 202ATOM 5 CB VAL A 1 19.720 31.621 43.026 1.00 33.70 1HDB 203ATOM 6 CG1 VAL A 1 19.955 31.726 44.529 1.00 33.94 1HDB 204ATOM 7 CG2 VAL A 1 20.335 32.766 42.236 1.00 34.02 1HDB 205ATOM 8 N LEU A 2 22.515 30.278 41.750 1.00 32.79 1HDB 206ATOM 9 CA LEU A 2 23.964 30.010 41.896 1.00 32.05 1HDB 207ATOM 10 C LEU A 2 24.657 31.119 42.673 1.00 31.36 1HDB 208 Aqui são mostrados apenas os 10 primeiros átomos com suas coordenadas,mas o arquivo inteiro apresenta mais de 5000 átomos com suas respectivascoordenadas atômicas, que representam sua posição espacial num eixo tridimensional.9.8. Referências Bibliográficas1. PDB http://www.rcsb.org/pdb/ Mais famoso e completo banco de dados de estrutura de proteínas. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 70. 682. Protein explorer http://molvis.sdsc.edu/protexpl/ Programa derivado do RasMol para a visualização de estruturas de proteínas.3. SWISS-PDBviewer http://www.expasy.org/spdbv/ Programa para a visualização e análise da estrutura de proteínas. Permite a realização de mutações, alterações em pontes de hidrogênio, ângulos de torção e distâncias entre átomos.4. Libra http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.html Programa on-line que utiliza threading para encontrar uma seqüência de resíduos de aminoácidos que melhor se adequem a uma estrutura terciária conhecida e vice-versa5. Threader Programa de predição da estrutura terciária através do reconhecimento do enovelamento a partir de bibliotecas alternativas6. CASP http://predictioncenter.llnl.gov/Center.html Critical Assesment of Structural Prediction. “Competição” que avalia os softwares de predição de estrutura de proteínas7. SWISS-MODEL Modelagem de proteínas por homologia http://www.expasy.org/swissmod9.9. Brainstorm1. Por que o conhecimento sobre a estrutura das proteínas é importante?2. Descreva brevemente como funcionam as duas principais técnicas experimentais para a descoberta da estrutura terciárias das proteínas.3. O que é o PDB? Por que há menos estruturas protéicas produzidas do que seqüências gênicas?4. A modelagem por homologia se baseia em qual premissa?5. Quais são os casos onde se recomenda realizar a modelagem por homologia?6. Quais são os passos necessários para se realizar a modelagem por homologia?7. Em que se baseia a modelagem por threading? Você acha que a modelagem por threading mostra que a premissa da modelagem por homologia esteja incorreta ou incompleta? Por que? © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 71. 69 CAPÍTULO 10 Conclusões e pensamentos filosóficos sobre a bioinformática10.1. Sobre bioinformática, genoma e ciência Abaixo você vai ver o rascunho do artigo que publiquei na Revista Ciência Hoje,de Outubro de 2004, em colaboração com meu orientador de doutorado, o Prof.Fabrício Rodrigues dos Santos. O artigo pretende apresentar a bioinformática, coisaque você já deve estar ciente neste momento, e discutir a relevância da pesquisa degenoma num contexto científico. Além disso, o artigo apresenta alguns paradigmasinteressantes da pesquisa em bioinformática.10.2. Introdução A bioinformática consiste principalmente na análise computacional deseqüências de DNA, RNA e proteínas. Essa nova ciência surgiu na última década devidoa uma necessidade urgente pela utilização de ferramentas sofisticadas para a análisede um crescente número de dados que veio a ser produzido em biologia molecular. OGenBank foi um dos primeiros e ainda é o mais popular banco de dados para odepósito de seqüências de DNA. Criado dentro do NCBI -- o centro americano parainformação biotecnológica --, é lá onde pesquisadores de todo o mundo depositam asseqüências de A, C, G e Ts que obtêm em seus laboratórios através dosequenciamento do DNA dos mais diversos organismos. No final da década de 90observou-se um crescimento exponencial do número de seqüências de biomoléculasdepositadas no GenBank e a figura 1 já é clássica no âmbito da biologiacomputacional. Esse assustador crescimento começou a ocorrer após a comercializaçãodos seqüenciadores de DNA a laser, em 1990. Os seqüenciadores atuais sãototalmente automatizados e foram especialmente desenvolvidos para oseqüenciamento de moléculas DNA em larga-escala. Freqüentemente apresentam 96capilares (tubos minúsculos por onde passam fragmentos de DNA a serem analisados)e conseguem gerar, em média, seqüências de DNA de 600 letras A, C, G e T porcapilar em cada análise (o genoma humano é constituído por cerca de 3 bilhões deletras de DNA). Seqüenciadores ainda mais potentes, apresentando 384 capilares,podem produzir mais de um milhão de letras do DNA por dia! No Brasil, existemdezenas de seqüenciadores e grande parte deles foi distribuída entre laboratórios emtodo o país quando da implantação do Projeto Genoma FAPESP para o seqüenciamentoda bactéria Xylella fastidiosa que ataca a laranja (http://aeg.lbi.ic.unicamp.br/xf/) e doProjeto Genoma Brasileiro (http://www.brgene.lncc.br) durante o qual foramseqüenciadas as bactérias Chromobacterium violaceum e Mycoplasma synoviae. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 72. 70Figura 10.1. Crescimento do número de seqüências depositadas no Genbank desdesua criação. A grande maioria dessas seqüências publicadas em bancos de dadosinternacionais vêm de projetos genoma e transcriptoma (ou genoma funcional).Genomas para cá, genomas para lá, desde o seqüenciamento da primeira bactéria -- oHaemophilus influenzae em meados de 1995 -- hoje o NCBI já apresenta 1274genomas de vírus seqüenciados, 169 genomas de procariotos (bactérias earqueobactérias) e 20 genomas de organismos eucarióticos. Estas seqüências debiomoléculas têm gerado uma grande quantidade de informação cuja complexidade écrescente com o estudo das interações entre biomoléculas e das variações observadasentre cada um dos indivíduos de uma certa população. Mas, afinal, que informaçõescientificamente relevantes o genoma trouxe para os cientistas, para as pessoas e paraa sociedade? Enfim, será que projetos genoma são pesquisas meramente descritivas?Qual seria então a relevância da genômica e o papel da bioinformática paraconsolidação desta ciência?10.3. Genoma e o método científico À primeira vista parece-nos que os estudos de genoma não são estudoscientíficos clássicos. Isso se deve ao fato de que o início de um projeto genoma não sebaseia em uma hipótese clara e bem elaborada a priori sobre a biologia de umdeterminado organismo. No máximo, a pergunta que se poderia fazer antes de seseqüenciar um genoma seria: “será que este organismo apresenta algum gene depotencial biotecnológico?”; ou, “o que há no genoma deste organismo que o fazconseguir viver nessa condição, ou gerar uma patologia?” Mas, no fundo, taisperguntas dificilmente serão respondidas diretamente através do seqüenciamento dogenoma. Estudos posteriores serão certamente necessários para responder taisperguntas de forma adequada. E mais ainda: é possível que alguma investigação não-genômica mais minuciosa sobre esse ou aquele aspecto em particular possam darresposta mais direta a tais questões. Mas não pense que isso tira o mérito dos estudos genômicos. Acreditamos quea ciência vive hoje a era da anatomia molecular. Se voltarmos filosoficamente ao © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 73. 71século XIX, veremos que, naquela época em que pouco se conhecia -- de formasistematicamente documentada -- do mundo biológico em geral, os grandes cientistaseram considerados os naturalistas; aqueles que exploravam o mundo em busca deinformação taxonômica, encontrando e classificando novos animais e plantas antesdesconhecidos. A descrição e a documentação de novas espécies era especialmentenecessária naquela época, uma vez que pouco ou nada se conhecia sobre a grandediversidade da vida em nosso planeta. Assim, poucos questionamentos eram feitos arespeito de nossa biodiversidade. Desta forma, como nos estudos dos naturalistas,houve a época onde os anatomistas começaram a surgir, escrevendo seus tratados emostrando os primeiros detalhes bem documentados sobre a anatomia humana e dediversas outras espécies. Descreviam da melhor maneira possível à época, alocalização dos órgãos e tecidos humanos que se tinha conhecimento. Igualmente, se agenômica não pode ser vista classicamente como uma ciência, a taxonomia e aanatomia também não o podem. E isso vem do fato de que tais empreendimentoscientíficos são principalmente descritivos ao invés de investigativos. Mas, mais umavez, isso não lhes tira o mérito, muito pelo contrário. Quanto conhecimento científicojá não foi construído baseado nas informações geradas pelos naturalistas eanatomistas? Toda uma ciência biomédica foi montada com bases nos conhecimentosdescritivos gerados pelos anatomistas e a teoria mais importante e unificadora de todaa biologia -- a Evolução -- surgiu diretamente das observações, documentações eestudos descritivos dos naturalistas Charles Darwin e Alfred Wallace. Bem, e a genômica? O genoma pode ser descrito como a anatomia molecularde uma espécie. E é só agora, neste início de século XXI, que estamos conseguindodesvendar e descrever como as espécies são constituídas em seu nível mais básico; oda informação molecular. A genômica é a “ciência descritiva” dos nossos tempos. Eassim como as ciências biomédicas surgiram para trazer o método científico ao estudoda anatomia, a bioinformática surge agora para trazer a cientificidade aos dadosgenômicos, para casar a genômica ao método científico e para gerar informaçõesrelevantes e indispensáveis na incessante busca do conhecimento em que consiste oempreendimento científico.10.4. Um conceito de bioinformática Nesse momento é importante definirmos bem do que se trata a bioinformática eem que contexto utilizamos este conceito no presente ensaio. Muita confusão é feitanesse ponto e muitos acreditam que a bioinformática consista em qualquer análisecomputacional de problemas biológicos, o que não se enquadra na origem destadisciplina. A bioinformática clássica surgiu com o seqüenciamento de biomoléculas edestas permanece inseparável. É possível propor uma definição razoavelmente clara doque seja a bioinformática dizendo que esta consista em “todo o tipo de estudo ou deferramenta que se pode realizar e/ou produzir de forma a organizar ou obterinformação biológica a partir de seqüências de biomoléculas”. Se o estudo usaseqüências de biomoléculas (DNA, RNA ou proteínas), direta ou indiretamente,tratamos como bioinformática; do contrário estaremos falando de computação aplicadaà biologia, campo extremamente importante em várias disciplinas e presente bemantes de ser iniciado o seqüenciamento de biomoléculas. Uma vez definido o conceitode bioinformática utilizado aqui, podemos perceber que muitos estudos na área podemser enquadrados em três princípios paradigmáticos, chamadas aqui, metaforicamente,de tijolo, peneira e lupa. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 74. 7210.5. Princípios paradigmáticos em bioinformática Estudos de bioinformática tijolo consistem naqueles relacionados à execuçãode projetos genoma e normalmente produzem ferramentas para a análise deseqüências e interpretação de genomas. Alguns processos já são clássicos dentre asanálises de seqüências de DNA. Dentre eles podemos citar o base-calling, onde asbases do DNA são lidas no seqüenciador a partir dos cromatogramas (perfis deemissão fluorescente que variam entre os nucleotídeos A, C, G e T durante a análise).Neste processo, são gerados os chamados cromatogramas e eles são transformadosem uma seqüência e um índice de confiabilidade é associado a cada letra do DNA. Emum processo subseqüente faz-se a análise de seqüências que apresentam umadeterminada seqüência de letras em comum para a geração dos “textos” genômicos.Como já comentado, uma seqüência obtida no seqüenciador possui aproximadamente600 letras de DNA e um genoma consiste normalmente em uma seqüência de milhõesou bilhões de letras. Portanto, na produção de um genoma é preciso alinhar asseqüências geradas uma após a outra, verificando suas regiões de sobreposição, paraque seja possível montar o conjunto de toda a informação genética da espécie emestudo. Novas ferramentas para o alinhamento de seqüências, a padronização deprocessos de base-calling, a montagem de seqüências para se gerar um genoma e aprodução de ferramentas para identificação de genes, são alguns exemplos de projetosde bioinformática tijolo, sem as quais é impossível a análise eficiente dos “edifíciosgenômicos”. Vale notar ainda que as ferramentas de comparação de seqüências deDNA têm permitido um grande avanço no que diz respeito à identificação das funçõesde genes. Através da comparação entre a seqüência de um novo gene e um banco dedados de genes de função conhecida, pode-se inferir rapidamente a possível função deum gene completamente desconhecido. Caso fosse necessária a realização de testesexperimentais para descobrirmos a função de cada um dos genes que vêm sendodescritos, possivelmente teríamos ainda de pesquisar várias décadas antes de publicarum genoma com esta informação. A bioinformática, portanto, permite uma rápidaidentificação da provável função de um gene seqüenciado pela primeira vez. Como já dissemos, muita informação é descrita durante projetos genoma e évirtualmente impossível a análise de todos esses dados (ou mesmo uma pequenaquantidade deles) pelo grupo que gerou a seqüência completa de DNA de umorganismo. Assim, são necessários trabalhos posteriores para a análise de pedaçosespecíficos de diferentes genomas, com o objetivo de produzir mais informação sobreum tema específico como, por exemplo, as proteínas para metabolismo de açúcares.Esses trabalhos de mineração de dados genômicos são característicos dos projetos dachamada bioinformática peneira. Como a genômica é essencialmente uma disciplinadescritiva, os trabalhos publicados apresentam muitas informações sem qualquerdetalhamento, muitas vezes por própria limitação do periódico científico. Na figura 2vemos um exemplo da informação descritiva freqüentemente presente em artigos degenoma, a divisão em grupos de genes de acordo com sua função biológica. Queinformação relevante há de se tirar desse monte de dados? © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 75. 73Figura 10.2. Típica figura apresentando informação de cunho descritivo que éencontrada em artigos científicos sobre genomas. Aqui é feita a descrição dasporcentagens de genes encontrados no genoma que apresentam diferentes funçõesbiológicas. É interessante observar que há, ao redor do mundo, alguns centrosespecializados em seqüenciamento de genomas, publicando seqüências e maisseqüências para que outros pesquisadores possam ter informações disponíveis parafazer seus próprios estudos de mineração de dados. Usando peneiras específicas, oscientistas em todo o mundo podem ser capazes de gerar conhecimento maisaprofundado sobre aspectos particulares de seu próprio interesse. A construção debancos de dados de seqüências de genes com uma ou outra função específica ou deestruturas tridimensionais de proteínas, por exemplo, consistem também em trabalhosmontados no âmbito da bioinformática peneira e, todo ano, a primeira edição darevista britânica Nucleic Acids Research traz um resumo dos bancos de dados maisutilizados na área da bioinformática. Por fim, nos trabalhos de bioinformática lupa é onde a ciência se faz presentecom maior clareza na área genômica. Vale notar que todos os estudos de genoma ebioinformática descritos até agora são de suma importância para o aumento doconhecimento científico sobre os organismos e sobre suas constituições moleculares.Mas em estudos de bioinformática lupa o método científico é rigorosamente aplicado.Aqui, através das mais variadas ferramentas computacionais é possível gerarmetodologias algorítmicas para testar hipóteses e produzir resultados que verifiquemou refutem suas afirmações quando se observam dados genômicos. O processoinvestigativo científico é retomado: observam-se os dados, criam-se hipóteses erealizam-se experimentos in silico (dentro do computador) de forma a testá-lasatravés de algoritmos bioinformáticos. Posteriormente, é corroborada ou refutada ahipótese inicial a partir da análise dos resultados obtidos. É interessante notar queestudos dessa categoria não são necessariamente publicados em revistasespecializadas em bioinformática. Isso vem do fato de que os algoritmos montadosaqui são apenas um detalhe e caracterizam a metodologia de um trabalho que tentamostrar um resultado biológico mais específico. A bioinformática não é o centro dotrabalho, como ocorre nas abordagens de tijolo e peneira. Nos trabalhos classificadoscomo lupa, a hipótese e os resultados são mais importantes do que as ferramentasbioinformáticas utilizadas como meio investigativo. Assim, tais estudos sãofreqüentemente publicados nas revistas relacionadas com o organismo em que se estáestudando, com o fenômeno estudado, ou em revistas específicas de genética, biologiamolecular ou bioquímica. Exemplos de estudos de bioinformática lupa são aquelesonde alguma característica biológica de um determinado organismo é explicada a partir © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 76. 74da observação de seu conjunto de seqüências gênicas ou protéicas e da comparaçãocom seqüências similares em organismos proximamente relacionados. Através dessesestudos de genômica comparativa é possível associar aspectos da biologia dosorganismos comparados à presença ou a ausência de determinado gene, grupo degenes ou processos metabólicos.10.6. Conclusão Dessa forma, a bioinformática, além de outras ciências já bem estabelecidas,como a biologia molecular, a genética e a bioquímica vêm trazer uma abordagembaseada no método científico aos dados gerados em projetos genoma. Vale notar, noâmbito nacional, a iniciativa pioneira da CAPES (Coordenação para o Aperfeiçoamentode Profissionais de Ensino Superior) na indução da criação de cursos de doutorado naárea de bioinformática, que resultou em dois cursos implementados recentemente nopaís (UFMG e USP) que já apresentam dezenas de alunos em processo de formaçãonessa área estratégica. Conclui-se, a partir do presente ensaio, que os estudos degenomas são importantes para produzir um grande número de informações sobre aanatomia molecular de uma espécie. Informações estas que poderão ser utilizadascomo pontos de partida para a produção de novos conhecimentos científicos através dediferentes paradigmas experimentais, utilizando abordagens in vitro, in vivo ou insilico, esta última sendo representada por metodologias baseadas na criação dealgoritmos dessa nova e importante ciência do século XXI, a bioinformática.10.7. Brainstorm1. Defina bioinformática com suas próprias palavras.2. Sua visão sobre bioinformática e genoma foi modificada após a realização deste curso? O que você pensava antes e pensa agora?3. As pesquisas genômicas são científicas? O que você entende por ciência?4. Como você definiria a expressão “anatomia molecular”?5. Cite exemplos e discorra sobre a bioinformática tijolo.6. Cite exemplos e discorra sobre a bioinformática peneira.7. Cite exemplos e discorra sobre a bioinformática lupa e explique por que os trabalhos de lupa normalmente não são publicados em revistas de bioinformática.8. Você consegue pensar em mais algum paradigma da bioinformática atual?9. Qual foi a aula mais interessante, em sua opinião? Por que?10. Qual foi a aula que você achou mais complicada? Por que?11. Dê sua apreciação geral sobre o curso realizado. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 77. 75SOBRE O AUTORFrancisco Prosdocimi de Castro Santos nasceu em Belo Horizonte, no ano de 1979, e éatualmente professor e pesquisador da Universidade Católica de Brasília. Ministradisciplinas de Biologia Molecular e Bioinformática para alunos da graduação emCiências Biológicas e Ciências Biomédicas. Na pós graduação em ciências genômicas,Francisco ministra aulas de bioinformática, análises de genomas e filogenia molecular.Francisco é biólogo (2001), mestre em Genética (2003) e doutor em Bioinformática(2006) pela UFMG, tendo trabalho como pós-doutor na França durante um ano e meio(2008/2009) e tendo passagens acadêmicas de média ou curta duração pela Inglaterra(2005), Alemanha (2006) e Estados Unidos (2009).Francisco tem ainda interesse por divulgação científica, história e filosofia da ciência(http://tragodefilosofia.blogspot.com). Isso sem falar em suas modestas habilidadesem música e literatura (http://chicopros.blogspot.com) ou seus ideais democráticos,ambientalistas, humanistas e liberais. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br