Fprosdocimi07 curso_bioinfo

2,409 views

Published on

CAPÍTULO 1 UMA VISÃO GLOBAL DA BIOINFORMÁTICA 3
1.1. O que é a bioinformática? 3
1.2. O surgimento da bioinformática 3
1.3. O que preciso saber para ser um bom bioinformata? 5
1.4. Cursos de pós-graduação em bioinformática no Brasil 6
1.5. Conversando sobre bioinformática – BIOCHAT 6
1.6. Referências Bibliográficas e textos complementares 12
1.7. bRAINsTORM 12
CAPÍTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAÇÃO 13
2.1. Introdução 13
2.2. Sequenciamento do DNA 13
2.3. Genômica 14
2.4. As ômicas: integrando a bioinformação 15
2.5. O PERL e outras linguagens de programação 15
2.6. Referências Bibliográficas e textos complementares 17
2.7. bRAINsTORM 17
CAPÍTULO 3 ALINHAMENTO DE SEQÜÊNCIAS 18
3.1. Introdução 18
3.2. Alinhamento Global 18
3.3. Alinhamento Local 19
3.4. Alinhamentos ótimos e heurísticos 20
3.5. Alinhamentos simples e múltiplos 21
3.6. Matrizes de comparação 22
3.7. Exemplos reais de alinhamentos 23
3.8. Referências Bibliográficas 28
3.9. bRAINsTORM 28
CAPÍTULO 4 MONTANDO UM GENOMA 29
4.1. Sobre genomas eucarióticos e procarióticos 29
4.2. Base-calling 30
4.3. Cross-match 31
4.4. Agrupamento de seqüências 32
4.5. Sobre a cobertura dos genomas 34
4.6. Referências Bibliográficas 35
4.7. bRAINsTORM 35
CAPÍTULO 5 ANÁLISE DE TRANSCRIPTOMAS 36
5.1. As ESTs 36
5.2. Histórico das ESTs 37
5.3. Agrupamento de ESTs 38
5.4. O genoma e o transcriptoma 39
5.5. SAGE – Serial Analysis of Gene Expression 40
5.6. Microarrays 40
5.7. Referências Bibliográficas 41
5.8. bRAINsTORM 41
CAPÍTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42
6.1. Histórico 42
6.2. Bancos primários e secundários 43
6.3. GenBank e GenPept 43
6.4. RefSeq – O banco de dados de seqüências de referência 44
6.5. SWISSPROT – O maior banco de dados secundário de seqüências de proteínas 45
6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas características 46
6.7. Referências Bibliográficas 46
6.8. bRAINsTORM 47
CAPÍTULO 7 ANOTAÇÃO DE GENOMAS 49
7.1. Introdução 49
7.2. Anotação de Nucleotídeos 49
7.3. Anotação de Proteínas 50
7.4. Anotação de Processos 50
7.5. A realização da Anotação Genômica (Sociologia da Anotação) 51
7.6. Referências Bibliográficas 52
7.7. bRAINsTORM 53
CAPÍTULO 8 BIOINFORMÁTICA EVOLUTIVA E GENOMAS COMPLETOS 54
8.1. Homologia, Ortologia e Paralogia 54
8.2. COG 56
8.3. Trabalhando com genomas completos 56
8.4. Referências Bibliográficas 57
8.5. bRAINsTORM 58
CAPÍTULO 9 BIOINFORMÁTICA ESTRUTURAL 59
9.1. Sobre a estrutura das proteínas 59
9.2. Protein Data Bank: o banco de dados de estruturas de proteínas 60
9.3. Modelagem molecular por homologia 61
9.4. Alguns programas de modelagem molecular 63
9.5. Threading 63
9.6. CASP – Critical Assessment of Structure Prediction 63
9.7. Estrutura de um arquivo no formato PDB 64
9.8. Referências Bibliográficas 67
9.9. bRAINsTORM 68
CAPÍTULO 10 CONCLUSÕES E PENSAMENTOS FILOSÓFICOS SOBRE A BIOINFORMÁTICA 69
10.1. Sobre bioinformática, genoma e ciência 69
10.2. Introdução 69
10.3. Genoma e o método científico 70

Published in: Education, Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,409
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
121
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Fprosdocimi07 curso_bioinfo

  1. 1. CURSO ON LINE INTRODUÇÃO ÀBIOINFORMÁTICAProf. Dr. Francisco Prosdocimi 2007
  2. 2. ÍNDICE Pág.CAPÍTULO 1 UMA VISÃO GLOBAL DA BIOINFORMÁTICA 3 1.1. O que é a bioinformática? 3 1.2. O surgimento da bioinformática 3 1.3. O que preciso saber para ser um bom bioinformata? 5 1.4. Cursos de pós-graduação em bioinformática no Brasil 6 1.5. Conversando sobre bioinformática – BIOCHAT 6 1.6. Referências Bibliográficas e textos complementares 12 1.7. bRAINsTORM 12CAPÍTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAÇÃO 13 2.1. Introdução 13 2.2. Sequenciamento do DNA 13 2.3. Genômica 14 2.4. As ômicas: integrando a bioinformação 15 2.5. O PERL e outras linguagens de programação 15 2.6. Referências Bibliográficas e textos complementares 17 2.7. bRAINsTORM 17CAPÍTULO 3 ALINHAMENTO DE SEQÜÊNCIAS 18 3.1. Introdução 18 3.2. Alinhamento Global 18 3.3. Alinhamento Local 19 3.4. Alinhamentos ótimos e heurísticos 20 3.5. Alinhamentos simples e múltiplos 21 3.6. Matrizes de comparação 22 3.7. Exemplos reais de alinhamentos 23 3.8. Referências Bibliográficas 28 3.9. bRAINsTORM 28CAPÍTULO 4 MONTANDO UM GENOMA 29 4.1. Sobre genomas eucarióticos e procarióticos 29 4.2. Base-calling 30 4.3. Cross-match 31 4.4. Agrupamento de seqüências 32 4.5. Sobre a cobertura dos genomas 34 4.6. Referências Bibliográficas 35 4.7. bRAINsTORM 35CAPÍTULO 5 ANÁLISE DE TRANSCRIPTOMAS 36 5.1. As ESTs 36 5.2. Histórico das ESTs 37 5.3. Agrupamento de ESTs 38 5.4. O genoma e o transcriptoma 39 5.5. SAGE – Serial Analysis of Gene Expression 40 5.6. Microarrays 40 5.7. Referências Bibliográficas 41 5.8. bRAINsTORM 41CAPÍTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42 6.1. Histórico 42 6.2. Bancos primários e secundários 43 6.3. GenBank e GenPept 43 6.4. RefSeq – O banco de dados de seqüências de referência 44 6.5. SWISSPROT – O maior banco de dados secundário de seqüências de proteínas 45 6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas características 46 6.7. Referências Bibliográficas 46 6.8. bRAINsTORM 47CAPÍTULO 7 ANOTAÇÃO DE GENOMAS 49 7.1. Introdução 49 7.2. Anotação de Nucleotídeos 49 7.3. Anotação de Proteínas 50 7.4. Anotação de Processos 50 7.5. A realização da Anotação Genômica (Sociologia da Anotação) 51 7.6. Referências Bibliográficas 52 7.7. bRAINsTORM 53CAPÍTULO 8 BIOINFORMÁTICA EVOLUTIVA E GENOMAS COMPLETOS 54 8.1. Homologia, Ortologia e Paralogia 54 8.2. COG 56 8.3. Trabalhando com genomas completos 56 8.4. Referências Bibliográficas 57 8.5. bRAINsTORM 58CAPÍTULO 9 BIOINFORMÁTICA ESTRUTURAL 59 9.1. Sobre a estrutura das proteínas 59 9.2. Protein Data Bank: o banco de dados de estruturas de proteínas 60 9.3. Modelagem molecular por homologia 61 9.4. Alguns programas de modelagem molecular 63 9.5. Threading 63 9.6. CASP – Critical Assessment of Structure Prediction 63 9.7. Estrutura de um arquivo no formato PDB 64 9.8. Referências Bibliográficas 67 9.9. bRAINsTORM 68CAPÍTULO 10 CONCLUSÕES E PENSAMENTOS FILOSÓFICOS SOBRE A BIOINFORMÁTICA 69 10.1. Sobre bioinformática, genoma e ciência 69 10.2. Introdução 69 10.3. Genoma e o método científico 70 10.4. Um conceito de bioinformática 71 10.5. Princípios paradigmáticos em bioinformática 72 10.6. Conclusão 74 10.7. bRAINsTORM 74
  3. 3. PREFÁCIOQuando em 2002 realizei, concomitantemente ao meu mestrado em genética pelaUFMG, o excelente curso de especialização em Bioinformática do LNCC, ministrado pormuitos dos maiores especialistas em genômica e bioinformática de nosso país, tive oprivilégio de ser um dos organizadores (e o primeiro autor) de um trabalho entitulado“Bioinformática: manual do usuário” em que todos os cerca de 20 alunos do cursose organizaram com o objetivo de gerar uma publicação básica sobre a área depesquisa à qual nos estamos aprofundando e formando. Esta publicação foi finalmentepublicada na revista Biotecnologia Ciência e Desenvolvimento alguns meses depois.Tendo mantido meu contato com a editora da revista Biotecnologia, enquantoterminava meus estudos de doutoramento em bioinformática, recebi um convite paraelaborar um curso on line a ser ministrado através do portal biotecnologia daInternet (http://www.biotecnologia.com.br). Este documento que agora vos apresentogratuitamente pela Internet (http://biotec.icb.ufmg.br/chicopros/Prosdocimi07_CursoBioinfo.pdf) consiste exatamente neste curso, produzido em 2006 e ministrado em2007 para uma turma de 40 alunos. Ainda que navegando por problemas técnicos,acredito que o curso foi bastante proveitoso e produtivo, sendo que a grande maioriados alunos saiu do mesmo tendo adquirido conteúdo e aprendido a compreender muitosobre a lógica e o pensamento em bioinformática.Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo estedocumento arquivado entre meus arquivos do período jurássico e tenho pena de deixareste conhecimento perdido nos meandros digitais do meu disco rígido. Assim, contateirecentemente a editora da revista que lendo o contrato que fizemos à época e dizendoserem meus os direitos autorais desta apostila ou “esboço de livro”, informou-me quetenho o direito de publicar o presente documento na Internet para que se torneacessível a qualquer indivíduo interessado em aprender a arte e a ciência dabioinformática. Recomendou-me ainda que eu atualizasse as informações aquipresentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho simplanos de fazê-lo, mas sei que precisaria reestruturar boa parte do que está aquicontido e, por falta de tempo para tanto, decido publicar esta versão gratuitamentepela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estareidisposto a atualizar estas informações e produzir uma segunda edição mais completa eatualizada sobre presentes assuntos.Brasília, numa quarta-feira de cinzas.17/02/2010Chico Prosdocimihttp://biotec.icb.ufmg.br/chicoproshttp://chicopros.blogspot.com
  4. 4. Aos meus pais
  5. 5. 3 CAPÍTULO 1Uma visão global da bioinformática Iniciando nossa Interação Nesta primeiro capítulo apresentaremos uma visão geral da bioinformática,vamos conversar sobre as necessidades e oportunidades de capacitação para quemdeseja atuar nessa área.1.1. O que é a bioinformática? Podemos considerar a bioinformática como uma linha de pesquisa que envolveaspectos multidisciplinares e que surgiu a partir do momento em que se iniciou autilização de ferramentas computacionais para a análise de dados genéticos,bioquímicos e de biologia molecular. A bioinformática envolve a união de diversaslinhas de conhecimento – a ciência da computação, a engenharia de softwares, amatemática, a estatística e a biologia molecular – e tem como finalidade principaldesvendar a grande quantidade de dados que vem sendo obtida através de seqüênciasde DNA e proteínas. Para o desenvolvimento de genomas completos, a informática éimprescindível e a biologia molecular moderna não estaria tão avançada hoje, nãofossem os recursos computacionais existentes.1.2. O surgimento da bioinformática A bioinformática, apesar de ser uma ciência nova e em desenvolvimento, jáapresenta uma figura clássica que freqüentemente é mostrada em qualquer palestraou curso que se vá sobre a área. Essa figura, mostrando o crescimento exponencial doGenBank nos últimos anos, tenta mostrar que, mais do que uma abstração possível, abioinformática é hoje uma necessidade para a análise de dados em biologia molecular. Desde que os seqüenciadores capilares de DNA em larga escala surgiram, nofim da década de 90, a quantidade de dados biológicos produzidas simplesmentealcançou níveis que fizeram com que análises manuais de seqüências de DNA setornassem simplesmente alternativas absurdas para o estudo de dados de genoma etranscriptoma. Dois desenvolvimentos foram importantes para permitir tanto o surgimento dabionformática quanto o rápido desenvolvimento da produção de seqüências de DNA. Oprimeiro deles foi o sequenciamento capilar. Enquanto no passado as seqüências eramproduzidas em placas enormes que deveriam ser corridas de forma uniforme e com umgrande cuidado, com o desenvolvimento da tecnologia de sequenciamento capilar, aeletroforese ocorria dentro de tubos com a espessura de um cabelo humano, contendouma solução polimérica por onde o DNA deveria passar guiado por uma correnteelétrica, como uma eletroforese normal. O outro grande desenvolvimento foi amarcação dos didesoxinucleotídeos necessários para o sequenciamento do DNA commoléculas fluorescentes. Enquanto as reações tradicionais eram realizadas commarcadores radioativos, que tornavam a metodologia um tanto quanto trabalhosa e © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  6. 6. 4até mesmo perigosa, os marcadores fluorescentes permitiam maior segurança e aindaum novo avanço. Enquanto era preciso correr diferentes reações para cada nucleotídeona marcação radioativa, a técnica de marcação fluorescente permitia que cada basefosse marcada com um diferente fluorocromo que era capaz de emitir luz em umdiferente comprimento de onda se excitado por um laser. Essa luz, lida por umdetector, informava ao sistema qual nucleotídeo passava em diferentes momentos daeletroforese. E foi exatamente a reunião desses dois desenvolvimentos num sóaparelho que produziu o equipamento que posteriormente ficaria conhecido como “oseqüenciador que criou a bioinformática”. O primeiro desses aparelhos foi produzidopela empresa Applied Biosystems e foi chamado de ABI Prism 3700. Apresentava 96colunas (ou capilares para a eletroforese) e permitia o sequenciamento de cerca de550 bases em cada coluna, sendo oito vezes mais rápida do que a melhor concorrenteda época e possibilitando o sequenciamento de até 1 milhão de pares de bases por dia.Além de permitir o rápido desenvolvimento da bioinformática, esse seqüenciador aindageraria brigas políticas sobre quem é que deveria sequenciar todo o genoma humano,uma empresa particular ou o consórcio público, mas isso é outra história.Figura 1.1. Crescimento do Genbank. Crescimento exponencial do número deseqüências contidas no GenBank ao longo das duas últimas décadas. Obtido emhttp://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html. O que importa é que, desde 1998, quando o ABI Prism foi lançado, outrasempresas desenvolveram também seus seqüenciadores capilares de larga escala e ocusto dessas máquinas – que antes chegava a trezentos mil dólares – foi aos poucoscaindo e permitindo que mais e mais laboratórios pudessem ter seus própriosseqüenciadores. Cada vez mais dessas máquinas são vendidas ainda hoje e o númerode seqüências de DNA produzidas vem aumentando exponencialmente até o presentemomento.Leitura complementar:http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  7. 7. 51.3. O que preciso saber para ser um bom bioinformata? O profissional em bioinformática é raro no mercado, já que ele necessita sabere ser familiar a, pelo menos, três áreas distintas do conhecimento: a biologiamolecular, a ciência da computação e a bioinformática per se. Além disso,conhecimentos em estatística e matemática são altamente recomendáveis. Imagineum biólogo que não tenha conhecimento de computação: ele será capaz de bolar umainfinidade de possíveis experimentos em bioinformática que gostaria que fossemgerados, mas será incapaz de colocá-los em prática. Do outro lado, um cientista dacomputação sem conhecimento em biologia e com sua característica ânsia de analisardados, será capaz de pegar uma infinidade de dados biológicos e fazer uma grandequantidade de análises computacionais sem qualquer propósito, gerando resultados dedifícil interpretação, por vezes ininterpretáveis ou sem qualquer sentido biológico. Otrabalho em equipe, para a produção de projetos em bioinformática, pode serinteressante, desde que os profissionais trabalhem juntos todo o tempo. Reuniõesapenas esporádicas normalmente fazem com que as idéias do trabalho do biólogo e docientista da computação se afastem dos ideais iniciais da pesquisa. Isso no casomédio. É claro que é possível conseguir bons resultados em casos isolados. Considerando isso, torna-se necessário o desenvolvimento de um novoprofissional, o bioinformata. Um biólogo que tenha tido uma formação parcial comocientista da computação ou vice-versa. Além disso, é preciso que tal profissional tenhaainda uma formação em bioinformática e que conheça profundamente as diferenças eas boas e más qualidades dos principais bancos de dados públicos sobre seqüências eestruturas de biomoléculas. Como não temos a intenção de ensinar biologia molecularou ciência da computação, no presente curso daremos ênfase exatamente a estaúltima parte, que consiste na formação do bioinformata per si, que deve conhecer pelomenos o básico com relação à análise de genomas e as ferramentas e bancos de dadosdisponíveis na internet para o estudo dessa nova ciência. Com relação aos requisitos computacionais que serão apresentados apenas depassagem no presente curso, um profissional em bioinformática deve ter um bomconhecimento algum sistema operacional baseado em UNIX, sem qualquer sombra dedúvida. Quase todos os algoritmos utilizados para a pesquisa em bioinformáticaapresentam código aberto e são, freqüentemente, disponíveis apenas para sistemaoperacionais como o LINUX e o Solaris. Os programas de código aberto são aquelesnos quais os programadores disponibilizam todo o código fonte do programa para ousuário, que pode alterá-lo de acordo com a sua aplicação de interesse. E esse étambém um dos motivos pelos quais os bioinformatas devem ser familiarizados comlinguagens de programação. Um bioinformata que não sabe programar em umalinguagem qualquer tem dificuldades para se desenvolver e, portanto, o profissionaldeve estar ao menos apto a aprender alguma linguagem de programação. Outro conhecimento que gera um salto qualitativo na atividade do bioinformataé o conhecimento de bancos de dados e linguagem SQL. A linguagem SQL é a maiscomumente utilizada em uma diversidade de bancos de dados e muitos sitesdisponibilizam informações armazenas em tabelas e bancos de dados inteiros. Devido àsua gratuidade e eficiência, o banco de dados mais utilizado em bioinformática é oMySQL, mas quaisquer outros podem ser utilizados sem demais inconvenientes. Masmais importante ainda do que ser capaz de obter os bancos de dados públicos é obioinformata ser capaz de criar seus próprios bancos de dados, organizando asinformações de seu projeto e permitindo tanto um bom armazenamento quantoorganização e fácil acesso aos dados. Além disso, o conhecimento de plataformas paradisponibilizar dados para os pesquisadores é interessante e o bioinformata deve teralgum conhecimento de linguagem HTML e, de preferência alguma linguagem de © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  8. 8. 6programação para a internet, como o CGI ou o PHP, sendo que esse último aindaapresenta a vantagem de permitir fácil conexão com bancos de dados. É claro que a gama de conhecimento necessária para exercer bem umaprofissão qualquer tende a ser infinita, mas é indispensável ao menos que obioinformata seja proficiente em uma linguagem de programação e tenha bonsconhecimentos de biologia molecular, dos bancos de dados e das ferramentas a seremutilizadas em cada caso. Aqui, iremos passar apenas de leve em programação ebiologia molecular na próxima aula e depois passaremos direto para a parte queexplica e mostra quais são as principais ferramentas utilizadas em análises genômicase os principais bancos de dados que devem ser consultados em diferentes aplicações.1.4. Cursos de pós-graduação em bioinformática no Brasil Até o presente momento parecem existir apenas três cursos de pós-graduaçãoem bioinformática no Brasil. O primeiro e mais tradicional deles é o curso de pós-graduação Lato Sensu em Bioinformática do LNCC, cuja página oficial pode ser vistaem http://www.lncc.br/~biologia/. Três turmas de alunos já graduados de todo o paísjá foram formadas por esta pós-graduação, inclusive o presente autor desse curso on-line, quem vos escreve. Consiste num ótimo curso de especialização, no qual osmaiores expoentes do país na área são chamados para ministrar diferentes aulas noscampos da genômica, transcriptômica e proteômica. Além desse curso de pós-graduação, que dura cerca de três meses e meio, o LNCC também oferece cursosesporádicos com duração entre duas semanas e um mês e recomenda-se visitar apágina do LNCC para mais informações (http://www.lncc.br). Logo a CAPES percebeu a importância de se abrirem cursos nessa áreaestratégica e propôs um edital para a formação de cursos de doutorado embioinformática. A partir daí dois novos cursos de doutorado em bioinformática foramcriados, um na USP (setembro de 2002) e outro na UFMG (abril de 2003). Para maisinformações, visite o site dos programas http://www.ime.usp.br/posbioinfo/ ehttp://www.bioinfo.dout.ufmg.br/.1.5. Conversando sobre bioinformática – BIOCHAT A revista biotecnologia promove esporadicamente o chamado biochat, queconsiste em uma conversa com um pesquisador experimente de uma determinadaárea do conhecimento. Abaixo transcrevo um dos biochats realizado com o autor dopresente curso, onde várias dúvidas básicas sobre o assunto podem ser sanadas.Assunto do Biochat: Conceitos e Paradigmas em BioinformáticaPesquisador entrevistado: Francisco Prosdocimi Há uma grande confusão com relação ao que seja a bioinformática, sendo quemuitos ainda acreditam que qualquer aplicação da computação à biologia possa serreferenciada como "bioinformática". Ao observarmos os trabalhos recentementepublicados na área, podemos dividí-los em três correntes básicas ou princípiosparadigmáticos, chamados metaforicamente de "o tijolo", "a peneira" e "a lupa". Taisprincípios serão apresentados e discutidos durante o BIOCHAT. Além disso, éinteressante discutirmos quais seriam os pré-requisitos básicos para formar umbioinformata, tanto na área computacional quanto na área biológica. Do que, afinal, éfeito um bioinformata e o que ele precisa conhecer é tema recorrente entre os curiosossobre a área.O conceito da bioinformática, seus princípios paradigmáticos e a formaçãodo bioinformata serão, portanto, os temas a serem discutidos neste BIOCHAT. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  9. 9. 7 Boa noite a todos! Está aberto nosso biochat sobre bioinformática. PorDr. Francisco favor, enviem suas dúvidas para que possamos discutir e trocar idéiasProsdocimi a respeito do assunto. Grande Francisco... Afinal, qual o conceito mais aceito paraVanderson: Bioinformática? Olá Vanderson. Fico agradecido pela sua presença. Na verdade existem vários conceitos para bioinformática e muita confusão é feita sobre oDr. Francisco tema. Na minha opinião a bioinformática surgiu com o boom dosProsdocimi sequenciadores automáticos de DNA e ainda hoje está ligada a análises de seqüências de biomoléculas. Biologia computadorizada? Ouvi este termo e queria saber qual é aAdonis: diferença disso para Bioinformática? Pois é, meu prezado Adonis. A biologia computacional diz respeito a qualquer aplicação da computação na área biológica, enquanto aDr. Francisco bioinformática está freqüentemente associada a analise de seqüênciasProsdocimi de genoma, transcriptoma e proteoma. Esses conceitos entretanto são bastante maleáveis e modificam-se todos os anos. Boa noite Dr. Francisco. Sou estudante do curso Bacharelado emPedro: Bioquímica, na Universidade Federal de Viçosa e tenho direcionado a minha formação acadêmica para me tornar... Com relação aos cursos específicos para bioinformática, eles existem no Brasil apenas em nível de pós-graduação. Sendo que um deles é o curso de especialização lato sensu do LNCC, no qual acontece aDr. Francisco formação de especialistas em bioinformática. Na USP e na UFMGProsdocimi existem cursos de doutorado em bioinformática, onde tais profissionais são formados. Eu, a propósito, fui aluno do LNCC e fui também o primeiro aluno a defender o doutorado em bioinformática na UFMG. Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesmaFrancisco: dúvida... Com relação a cursos de graduação, meu prezado xará, ainda nãoDr. Francisco existem na área e recomendo que vc faça um curso de biologia ou deProsdocimi computação, se pretende seguir carreira em bioinfo.Adonis: então bioinfo está dentro da biologia computacional? Concordo, Adonis. Na minha opinião a bioinformática é, sim, uma parte da biologia computacional, sendo essa última uma área bastante amplaDr. Francisco e não necessariamente relacionada com biologia molecular. Embora,Prosdocimi repito, esses conceitos são maleáveis e modificam-se com o desenvolver das ciências. Qual a sua experiência com a Bioinformática? O senhor trabalha maisPedro: no meio acadêmico ou se relaciona diretamente com o mercado de trabalho? Trabalho com bioinformática desde 2000, tendo tido anteriormente uma formação como biólogo molecular em bancada. Fiz minha monografia de bacharelado, minha dissertação de mestrado (em genética) com análises de transcriptomas do verme SchistosomaDr. Francisco mansoni e fui o primeiro aluno a defender o doutorado emProsdocimi bioinformática na UFMG trabalhando com análises de qualidade de seqüências de DNA e genômica comparativa. Sempre trabalhei mais voltado para o meio acadêmico, mas já fiz também alguns trabalhos em parceria com uma empresa de Belo Horizonte na área de bioinformática. A empresa se chama vetta technologies. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  10. 10. 8 Pegando a deixa do Pedro, você acha que há mercado de trabalho paraVanderson: bioinformatas no Brasil... além das instituições públicas e da Alellyx? Infelizmente, meu amigo Vanderson, não acredito que haja ainda mercado de trabalho para bioinformática fora das universidades, embora o campo na área de biotecnologia tenha crescido e venhaDr. Francisco crescendo. A existência de algumas empresas trabalhando emProsdocimi biotecnologia é muito pequena ainda no Brasil e apenas a Alellyx e a Scylla têm alguma representatividade no mercado. Ou seja, a bioinformática ainda é matéria para cientistas financiados pelo governo. Qual seria a dica para trabalhar com bioinfo em um lugar onde não seAdonis: faça molecular? A dica é estar em parceria com pesquisadores que tenham perguntas que só possam ser respondidas através de análise computacional. Eu mesmo tenho várias colaborações com diferentes laboratórios e produzi um software recentemente, o TGFinder, que surgiu como uma necessidade de um pesquisador de encontrar genes controlados porDr. Francisco fatores de transcrição. Além disso, o GenBank possui tantas seqüênciasProsdocimi depositadas e tanta informação a ser mineirada que nem todos os cientistas do mundo seriam capazes de tudo analisar. É claro que a pesquisa de ponta é normalmente aquele onde se produz e se analisa um novo dado em biologia molecular, mas há muito ouro a ser peneirado nos bancos de dados públicos. Olá Dr. mas como é aplicada a computação ou informática, naPaulo: biologia,neste sequenciadores automáticos de DNA? A computação é aplicada, principalmente, na análise e identificação das seqüências de DNA que saem dos sequenciadores automáticos. A seqüência sai de lá como um monte de A, C, T e G... que não queremDr. Francisco dizer nada. O que significa para você isso aqui:Prosdocimi ACATAGGGACATTACAGAGCATTCAGA? Somente com a bioinformática conseguimos atrelar a informação codificada em informação biológica, associando A, C, T e G a algum nome de gene com alguma função especifica... Aprofundando mais a discussão, a iniciativa privada na bioinformáticaPedro: está... O grande problema, Pedro, é que acredito que dificilmente a bioinformática per se pode dar algum lucro. Por exemplo, a empresa Alellyx tem, além de um grande know how em bioinfo, um grande know how em biologia molecular e em genômica. A descoberta deDr. Francisco novos genes apenas por bioinfo é muito difícil e é preciso estarProsdocimi sempre sequenciando novos organismos. E um sequenciador de DNA é muito caro para que pequenos empresários possam comprar, o capital inicial de uma empresa de biotecnologia apresentando bioinformática é muito alto.Marx: E fora do Brasil, como estão as perspectivas? Fora do Brasil eu acredito que haja bastante espaço, sim, para bioinformatas. Assino uma lista de jobs em bioinformática eDr. Francisco freqüentemente vejo pedidos para profissionais da área... o únicoProsdocimi problema é que normalmente exige-se grande experiência prévia, o que não temos ainda no Brasil -- profissionais qualificados. Dr. Francisco Prosdocimi, fale um pouco sobre mineração de dados jáAdonis: que esta é o etapa seguinte depois da geração das seqs. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  11. 11. 9 Bem, caro Adonis, isso me remete aos princípios paradigmáticos da bioinformática que apresentei no texto introdutório. Acredito que os trabalhos atuais em bioinformática podem ser divididos em três correntes principais, os trabalhos de tijolo -- onde ferramentas de bioinformática são produzidas para construir os edifícios genômicos, osDr. Francisco trabalhos de peneira -- onde a mineração da grande massa de dadosProsdocimi em genômica são analisados mais especificamente em vários contextos -- e os trabalhos de lupa, onde a genômica encontra a ciência e o método científico de observação, hipótese, experimentação e resultados são novamente retomados. Escrevi um trabalho sobre isso para a revista ciência hoje que foi publicado em 2004. Trabalho atualmente no BIOAGRO-UFV (Instituto de Biotecnologia Aplicada à Agropecuária) no Laboratório de Bioinformática, desenvolvendo softwares de análise populacionais (genética dePedro: populações). Você considera válido esse tipo de iniciativa ou seria melhor eu estar trabalhando mais especificamente com a biologia molecular? Considero muito válido seu trabalho. Mas também já tentei produzirDr. Francisco algo relacionado a genética de populações e acho muito difícil produzirProsdocimi algo melhor do que os já conhecidos programas PAUP, PHYLIP, MEGA, dentre outros. Boa sorte! Poderíamos ou podemos, descobrir qual a seqüência para umaPaulo: determinada proteína ou característica. Ou para identificar estes pares, para saber qual proteína ela vai produzir, seria isto? Podemos sim, saber qual a seqüência de DNA é relativa a uma determinada proteína e, muitas vezes, uma característica. Existe até mesmo um projeto conhecido como FENOMA, que tenta identificar osDr. Francisco genes responsáveis por algum fenótipo (característica). O queProsdocimi acontece, entretanto, é que grande parte das características são geradas através de um grande número de genes que interagem entre si e fazem da análise algo complicadíssimo! Tenho uma opinião a expressar... Um grande problema que eu perceboVanderson: na maioria dessas ferramentas de bioinformática é o total descaso com usuários Concordo plenamente, Vanderson. Biólogos não estão interessados em utilizar sistemas linux, linhas de comando e outros artifícios computacionais de start-up razoavelmente complexo. InterfacesDr. Francisco gráficas e fáceis, de preferência via web e bastante user-friendly sãoProsdocimi altamente recomendáveis. Mas é preciso dizer que há também programas com manuais completos e simples, mas o usuário parece ter preguiça de lê-los, o que definitivamente é preciso fazer.Carla: Por acaso já se pode analisar um gene pelo computador? É claro, Carla, os genes são formados por seqüências de nucleotídeosDr. Francisco que são representadas por A, C, G e T, transformando as seqüênciasProsdocimi dos genes em letrinhas que são analisadas e comparadas entre diferentes espécies animais. É real a migração de perl para java? ou isso só tá ocorrendo no meioAdonis: privado? Essa migração seria um preocupação com uma interface mais amigável? Caro Adonis, acredito que a migração de PERL para JAVA estáDr. Francisco relacionada ao fato de que a linguagem JAVA é multiplataforma, alémProsdocimi de ser nativamente orientada a objetos, o que facilita a criação de programas mais complexos e de grande porte. Acredito que os scripts © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  12. 12. 10 freqüentemente utilizados em trabalhos de bioinformática devem continuar sendo produzidos em PERL, que é uma linguagem onde a expressão regular é nativa e rápida, sendo mais apropriada para tais trabalhos. Sim, a migração também pode estar relaciona com uma interface mais amigável, já pronta em vários objetos JAVA. Como o Brasil está em relação a outros paises, nesse desenvolvimento?Carla: O nosso país valoriza a bioinformática? O Brasil anda atrás dos países desenvolvidos quando o assunto éDr. Francisco bioinformática e, apesar de que recentes iniciativas da CAPES e doProsdocimi CNPq vêm tentando buscar equiparação internacional, a bioinformática brasileira ainda está em seu berço (esplêndido). Boa noite Dr. Gostaria de saber sobre o cenário de Software Livre x Software Proprietário em bioinformática. O Sr. acredita que a adoção do software livre pode ajudar na redução de gastos em pesquisa eMacedo: desenvolvimento e que isso possibilitará o estudo de doenças negligenciadas? Ou o segmento acadêmico enxerga o software livre apenas como ª... No caso da bioinformática posso assegurar que mais de 95% dos softwares são livres ou de livre acesso (pelo menos para o meio acadêmico) e cerca de 50% são de livre acesso para todos. Por isso, aDr. Francisco bioinformática exige um custo inicial para pesquisa bem baixo e esse éProsdocimi mais um dos motivos pelos quais essa ciência deveria ser mais incentivada em nosso país. Com um computador razoável e boas idéias é possível fazer boa bioinformática!!! Uma empresa privada que prestasse suporte em bioinformática (desenvolvendo softwares sequenciadores para organismos específicosPedro: ou que atendessem alguma demanda de determinada pesquisa, com uma interface mais amigável com o usuário final) poderia dar certo? Não estou bem certo, Pedro. O problema é que a idéia para elaboração de softwares teria de vir da academia e não sei o pessoal das universidades estaria disposto a dar a idéia para que vc fizesse o software para eles comprarem, entende? Eles prefeririam pedir noDr. Francisco departamento de computação para ver se algum outro aluno faria oProsdocimi mesmo software de graça, gerando um trabalho publicável em conjunto. A menos que vcs produzissem um pacote grande, para uma ampla gama de aplicações... aí vc poderia dar certo com sua empresa... Um profissional em bioinformática deve saber tanto trabalhar com os softwares de análises de seqüências quanto desenvolver novosDani: programas? Quais são as linguagens de programação mais utilizadas para este fim? Ótima pergunta, Dani. É imprescindível para o profissional de bioinformática, na minha opinião, ter quatro conhecimentos básicos: (1) Ele deve entender bem biologia molecular, (2) saber trabalhar comDr. Francisco os bancos de dados disponíveis na internet, (3) saber BEM umaProsdocimi linguagem de programação e (4) saber manipular bancos de dados. Estes, na minha opinião, são os principais requisitos para formar um bioinformata. Você contrataria uma empresa dessa natureza para dar suporte às suasPedro: pesquisas ou prefere, você mesmo, desenvolver os aplicativos com que trabalha?Dr. Francisco Depende do quanto de trabalho fosse necessário. Se fosse poucoProsdocimi trabalho, eu mesmo desenvolveria. Se necessitasse de um software © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  13. 13. 11 amplo, talvez preferisse pagar... mas dependeria de financiamento governamental para isso... e o governo não gosta muito do assunto comprar softwares de empresas privadas para trabalhos científicos. No último edital do CNPq para bioinfo, enviamos um projeto tentando comprar um software e o projeto não foi aprovado... possivelmente por este único motivo. Boa Noite Dr. Francisco, participei da primeira turma de especialização em bioinformática do LNCC, atualmente estou fazendo doutorado emFabio: microbiologia na UFRJ. Gostaria de saber na sua opinião quais são as principais diferenças dos cursos de doutorado em Bioinformatica da USP e da UFMG? Fala, Fábio. É com receber companheiros por aqui... fui seu sucessor no LNCC, participando da segunda turma. Não posso dizer muito do curso de doutorado na USP, o qual conheço pouco. Mas ao que me parece oDr. Francisco curso da USP é muito voltado para as ciências exatas, tendo uma altaProsdocimi carga de disciplinas de matemática e estatística. Aqui na UFMG a carga de disciplinas é bem balanceada e leve, de forma que o aluno possa se preocupar mais com seu projeto de tese. A quantas anda o desenvolvimento das pesquisas em bioinformáticaPedro: aqui no estado de Minas Gerais? Aqui em Minas temos alguns grupos de bioinformática montados. Não posso dizer que conheço todos eles, mas aqui na UFMG temos aoDr. Francisco menos uns três grupos de bioinformática, trabalhando com genoma deProsdocimi Schistosoma mansoni, genômica comparativa e genômica evolutiva, mas as coisas ainda são um pouco precárias e a infra-estrutura não é das melhores. Sou bióloga, especialista em biotecnologia - trabalho com saneamento - área ambiental - - mas tenho grande interesse em bioinformática.Dani: Quais são os conhecimentos básicos de informática que um biólogo deve ter para iniciar um mestrado em bioinformática? Bem, não conheço nenhum mestrado em bioinformática e acho que -- se houvesse algum -- o aluno deveria conhecer o básico de sistemas linux e linguagens de programação. Mas dependendo, se o mestradoDr. Francisco for para biólogos ou para “computólogos”, os conhecimentos a seremProsdocimi exigidos são diferentes. Se for um mestrado para biólogos é possível que não seja necessário nenhum conhecimento de informática e todo o conhecimento pode ser adquirido quando da realização do curso. Qual é campo de trabalho para um pós-graduado em bioinformática,Dani: além do desenvolvimento de pesquisas em universidades, fundações de pesquisa Federais,Estaduais e a Licenciatura? Bem, essa pergunta é um tanto quanto capciosa. Se uma pessoa formou em bioinformática, imagino que ela queira fazer pesquisa ouDr. Francisco dar aulas. É claro que ela pode também trabalhar em alguma empresaProsdocimi de biotecnologia ou de bioinformática per si... mas acredito que aí ela teria que ir pra fora do Brasil...Ricardo: Quais são os trabalhos que vc está fazendo ultimamente na área? Olá, Ricardo. Ultimamente tenho trabalhado com análises do software PHRED, com a montagem de um programa para simular a evolução emDr. Francisco locos de microsatélites, trabalho também com a diferença na utilizaçãoProsdocimi de aminoácidos por proteínas de diferentes organismos, com a origem do código genético, com famílias de proteínas dedos de zinco, dentre diversas outras coisas. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  14. 14. 12 Então, estarei entrando em contato com o senhor (pois estou naPedro: organização do evento). Mais uma pergunta, ainda é muito cedo para pensarmos em cursos de graduação em bioinformática no Brasil? Ok. Acho que um curso de graduação em bioinformática poderia ser bastante interessante sim, mas acho que é cedo para isso. Ainda não há, só pra vc ter uma idéia, um conceito amplo do que sejaDr. Francisco bioinformática e é preciso que esta disciplina fique mais madura aoProsdocimi longo dos anos para que esse conceito brote claramente. Acho que os biólogos moleculares atualmente são os principais candidatos a se tornarem bioinformatas e não há nem cursos de graduação em biologia molecular... pelo menos desconheço... A título de informação: foi criada na grade curricular do BachareladoPedro: em Bioquímica-UFV a BQI460 (Bioinformática), onde serão abordados os principais aspectos dessa nova área do conhecimento. Bem, aqui na UFMG o prof. Miguel Ortega já ministra à mais de dois anos uma matéria de tópicos em bioquímica e biologia molecular cujoDr. Francisco assunto é a bionformática. É bastante interessante que a universidadeProsdocimi de Viçosa tenha proposto uma disciplina específica sobre o assunto e mostra como está atualizada com relação aos novos avanços da biologia molecular. O que você considera como maior desafio para a consolidação daPedro: Bioinformática no Brasil? Considero o maior desafio a formação dos profissionais e a montagemDr. Francisco de infra-estrutura adequada e de computadores de alto-desempenhoProsdocimi para as análises mais elaboradas na área.1.6. Referências Bibliográficas e textos complementares1 Davies, K. (2001). Decifrando o genoma. Companhia das letras.2. NCBI: A Science Primer - http://www.ncbi.nlm.nih.gov/About/primer/index.html3. NCBI: A Science Primer – Bioinformatics - http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html4. Chico On Line – Bioinformática - http://www.icb.ufmg.br/~franc/cool5. GenBank Stats - http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html1.7 Brainstorm1. Dê sua opinião sobre o que entende por bioinformática e qual a importância da área.2. Vá ao site do NCBI (National Center for Biotechnology Information, o centro americano para informação biotecnológica, http://www.ncbi.nlm.nih.gov), leia e navegue um pouco. Encontre algum serviço interessante e reporte sua experiência. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  15. 15. 13 CAPÍTULO 2 Genoma, biologia molecular e computação2.1. Introdução Como já foi dito, o presente curso não tem como função explicar genômica,biologia molecular ou computação. Ainda assim, alguns conceitos se tornamimportantes para que possamos seguir o curso e neste capítulo estaremos nosdedicando a eles.2.2. Sequenciamento do DNAFigura 2.1. O dogma central da biologia molecular. Da análise de DNA temos osprojetos genoma, da análise do conteúdo de RNAs mensageiros de uma célulaproduzimos estudos de transcriptoma e a partir da análise de conteúdo protéicogeramos os projetos proteoma. A bioinformática surgiu a partir da biologia molecular e dela ainda é inseparável(figura 2.1). No capítulo anterior, aprendemos que a bioinformática se desenvolveuprincipalmente depois do surgimento dos seqüenciadores de DNA em larga escala,como o ABI Prism 3700. A reação de sequenciamento de DNA consiste basicamenteem um processo de amplificação da molécula de DNA de interesse. Entretanto, duranteessa amplificação, são utilizados tanto os nucleotídeos normais de DNA, conhecidoscomo desoxiribonucleotídeos quanto alguns nucleotídeos especiais, conhecidos comodi-desoxiribonucleotídeos. A diferença entre eles é que os didesoxinucleotídeosapresentam, como o nome diz, uma molécula de oxigênio a menos, eles não contémuma extremidade 3’OH livre. Assim, se lembrarmos como é formado o esqueleto deuma cadeia de DNA, veremos que os nucleotídeos adjacentes são ligados entre siatravés de uma ligação com um grupamento fosfato exatamente na posição docarbono 3’. Isso significa que, um nucleotídeo que não apresente um grupamento OHnesta posição (chamado di-desoxiribonucleotídeo ou simplesmente di-desoxinucleotídeo) impede a ligação de um nucleotídeo em seguida, o que interrompea cadeia de DNA naquela posição. Assim, durante a amplificação em que consiste areação de sequenciamento do DNA, são produzidas moléculas de diferentes tamanhos,sendo que cada uma delas possui, na sua extremidade, um didesoxinucleotídeo queimpede a ligação de outros nucleotídeos a seguir. Além disso, dependendo de qualbase ele carrega, cada um desses nucleotídeos sem a extremidade 3’OH livre © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  16. 16. 14apresenta um pigmento fluorescente diferente adicionado. Após a reação desequenciamento – que é realizada num termociclador, assim como um PCR --, asmoléculas resultantes são submetidas a uma eletroforese. Nesse procedimento, o DNAresultante da amplificação é submetido a um gradiente elétrico dentro de uma matrizde gel, que permite uma mobilidade diferencial das moléculas. As moléculas pequenasde DNA movem mais rapidamente para o pólo positivo durante essa eletroforese.Essas moléculas pequenas foram aquelas que incorporaram didesoxinucleotídeos maisprecocemente do que as outras. E assim, elas vão se movendo na matriz gelatinosamais rapidamente, indo em direção ao pólo positivo. Quando chegam próximo ao pólo,um laser incide sobre essa molécula e, dependendo de qual didesoxinucleotídeo foiincorporado em sua extremidade final, o laser promove a incidência da fluorescêncianum receptor que capta, afinal, qual foi o comprimento de onda daquele fluoróforoexcitado. Assim, conseguimos descobrir qual foi a última base daquela molécula já quediferentes didesoxinucleotídeos -- com diferentes bases nitrogenadas (A, C, G ou T) --,produzem fluorescência diferente a ser captada pelo laser e, dessa forma, sabemos sea última base daquela molécula é uma adenina, uma guanina, uma citosina ou umatimina. E à medida que as moléculas vão passando pelo gel, cada uma contendo adiferença de um único nucleotídeo marcado de acordo com sua base, o computador vaigerando um perfil de fluorescências que posteriormente serão transformadas nas letrasque representam a seqüência de bases da molécula original por algoritmos específicos,que trataremos posteriormente neste curso. Não é tarefa fácil explicar na forma de texto como é realizado osequenciamento do DNA e, por isso, recomendo aos alunos acessarem o seguinte sitepara entenderem melhor como o seqüenciamento do DNA é realizado, passo a passo:http://www.dnalc.org/shockwave/cycseq.html. Outras animações interessantes embiologia molecular (como a da técnica de PCR de amplificação do DNA ou técnicasforenses baseadas em DNA) podem ser obtidas no mesmo site. É preciso, entretanto,fazer o download gratuito do programa macromedia shockwave.2.3. Genômica Um genoma consiste no conjunto haplóide de informações presentes no DNA deum determinado organismo. O conjunto é haplóide porque, na verdade, um organismodiplóide apresenta uma dupla cópia de um mesmo segmento de DNA, presente noscromossomos homólogos. Assim, não faz sentido ter essa redundância de informaçãoe, por isso, considera-se o genoma como sendo o conjunto haplóide de informaçãogenética. Para obter uma seqüência genômica devemos pegar as células de umdeterminado organismo, purificarmos seu DNA e realizarmos a construção da chamadabiblioteca de DNA genômico. Para tal, o DNA do organismo deve ser picotado empequenos pedacinhos e ligado nos chamados vetores de clonagem -- que podem serplasmídeos, cosmídeos ou vetores que permitem a inserção de segmentos grandes deDNA, como os BACs ou YACs que são, respectivamente, os cromossomos artificiais debactérias e leveduras. A partir desses vetores é que são, freqüentemente,seqüenciados os segmentos de DNA e cada reação de sequenciamento produzmoléculas apresentando algo entre trezentos e mil pares de bases. Como os genomassão muito maiores do que esse tamanho, mostra-se necessária a montagem dogenoma utilizando algoritmos de sobreposição de seqüências, que serão apresentadosem aula posterior. E se o genoma consiste no sequenciamento da molécula de DNA de umadeterminada célula, o transcriptoma consiste no sequenciamento do conteúdo de RNAmensageiro (mRNA) produzido em uma determinada célula sujeita a determinadacondição. Enquanto uma célula apresenta apenas um genoma estático e imutável, a © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  17. 17. 15mesma pode apresentar milhares de diferentes conteúdos de transcriptoma, já que aexpressão de genes depende de diversos fatores, como o grau de maturação da célula,a temperatura à qual ela está sujeita, os nutrientes presentes no meio, a presença dealgum agente mutagênico específico e mais milhares de outros fatores. Assim, osestudos de transcriptoma podem mostrar a adaptação da célula a determinadacondição e podemos estudar os genes que ficam ativos quando dessa condição. Naprodução de um projeto transcriptoma (ou de genômica funcional, como também éfreqüentemente chamado) deve-se purificar o conteúdo de mRNA da célula dacondição desejada. Como o RNA é uma molécula muito instável, realiza-se suatranscrição reversa, transformando este RNA numa molécula conhecida como cDNA,que representa o DNA complementar à seqüência daquele mRNA. Esse cDNA é entãoclonado em vetores de clonagem para a produção da biblioteca de cDNA que contémuma amostra fiel dos mRNAs que foram produzidos pela célula naquela condição. Valenotar que, enquanto no genoma observa-se normalmente apenas uma cópia de cadagene, nas análises de transcriptoma, cada um dos genes pode estar amostradodezenas de vezes, pois a célula pode estar precisando do mesmo para realizar algumtipo de processo e ele pode ter sido transcrito centenas de vezes em moléculas demRNA.2.4. As ômicas: integrando a bioinformação Veja o artigo publicado na edição 32 da revista biotecnologia: http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf. O pesquisador da Embrapa Soja, Eliseu Binneck, apresenta o status atual dagenômica no mundo e ainda vários conceitos importantes de biologia molecular egenômica.Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf2.5. O PERL e outras linguagens de programação No capítulo anterior discutimos sobre os conhecimentos relevantes para umprofissional na área de bioinformática. Nesse momento, portanto, gostaria de falarmais um pouco sobre a informática utilizada para a análise de seqüências. Éextremamente importante que qualquer pessoa trabalhando na área de bioinformáticaconheça alguma linguagem de programação. E a principal linguagem utilizada porprofissionais da bioinformática é o PERL. O PERL é uma linguagem de script que foicriada em 1987 por um cientista da computação chamado Larry Wall e é uma siglapara Practical Extraction and Report Language ou, em português, Linguagem Práticade Extração e Relatório. Segundo a wikipedia (http://pt.wikipedia.org/), a origem doPERL remonta ao shell scripting, que é a programação em linhas de comando, ao awk,uma outra linguagem bem simples de programação shell e à linguagem C, uma dasmais utilizadas pelos programadores. Essa linguagem é disponível para praticamentetodos os sistemas operacionais, mas é utilizada mais freqüentemente em sistemasUnix e compatíveis. E o PERL é freqüentemente utilizado pelos bioinformatas porque éuma linguagem montada para trabalhar facilmente com o processamento de cadeiasde caracteres (chamadas de strings pelos informatas), permitindo ainda uma fácilmanipulação de arquivos texto e a utilização das chamadas expressões regulares,muito úteis para se realizar busca em seqüências de caracteres. Como tanto o DNA © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  18. 18. 16quanto o RNA e as proteínas podem ser facilmente representados por seqüências decaracteres – nucleotídeos ou aminoácidos, representados por seqüências de uma letra--, o PERL acabou por permitir, intrinsecamente, uma fácil manipulação dos dados debiologia molecular. Um exemplo simples de programa em PERL é apresentado abaixo paratransformar uma seqüência de DNA de entrada em uma nova seqüência de RNA. Oprograma considera que a fita de DNA de entrada é a fita codificadora e, portanto, oprograma apenas transforma as letras T, de timina, do DNA em letras U, de uracila,representando as bases do RNA.Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA.#!/usr/bin/perl# Seqüência que se deseja utilizar$meuDNA= “TTCCGAGCCAATTGTATCAGTTGCCAATAG”;# Faz com que a seqüência de RNA receba a mesma seqüência do DNA$meuRNA = $meuDNA;# Troca as bases produzindo a fita complementar$meuRNA =~ tr/T/U/;print “Minha seqüência de RNA é: n $meuRNA”; A primeira linha é obrigatória e diz ao programa o caminho onde se encontra ointerpretador PERL para que o programa possa encontrá-lo na hora de sua execução.Normalmente o PERL está disponível no diretório /usr/bin das distribuições Unix. Valenotar que, ao contrário da grande maioria das outras linguagens de programaçãonormalmente utilizadas, um programa PERL não é compilado de forma a gerar umexecutável em linguagem de máquina. O script PERL necessita, portanto, de que existaum interpretador PERL instalado em alguma pasta de trabalho dentro do computador eé exatamente a pasta onde esse interpretador está localizado que deve aparecer nestaprimeira linha de código. As linhas do script que se começam com o sinal “#”representam linhas de comentário e servem apenas para facilitar o entendimento docódigo, não sendo realmente lidas pelo interpretador. Todas as variáveis emprogramação PERL são precedidas do sinal de dólar “$”, elas não têm um tipo pré-definido (como inteiro, booleano, real, etc.) e não precisam ser declaradasanteriormente, cabe ao programador saber como e em que contexto devem serutilizadas. Há também as variáveis do tipo array, que são precedidas do sinal de “@” eas variáveis do tipo hash, que devem ser precedidas do sinal de “%”. Todos oscomandos terminam sempre com um sinal de ponto-e-vírgula. Neste exemplo, a linhaque realmente faz a tradução de uma seqüência de DNA para uma seqüência de RNA éa que apresenta o sinal “=~”. Esse sinal está relacionado à utilização de umaexpressão regular que, no caso, faz a tradução de todos as letras T de uma seqüênciade caracteres, transformando-as em letras U. No fundo, a bioinformática – e, num sentido mais amplo, todo software -- podeser desenvolvido utilizando-se qualquer linguagem de programação e há os que aindapreferem utilizar a linguagem C ou Java para produzir qualquer tipo de programa. Nofundo, essa é uma opção pessoal e por mais que uma ou outra linguagem seja maisadaptada ou mais rápida para determinado problema, é possível fazer quase qualquercoisa com quase qualquer linguagem. Entretanto, mesmo essa simples tradução quefizemos de DNA para RNA com apenas uma linha de código, pode se tornar mais árduaquando realizada em diferentes linguagens e é exatamente por isso que o PERL é maisutilizado na área; por facilitar a programação. Para sistemas mais complexos, no © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  19. 19. 17entanto, parece ser consenso que a utilização de uma linguagem de programaçãomulti-plataforma, como é o caso do Java, seja mais adequada.2.6. Referências Bibliográficas e textos complementares1. Dolan DNA Learning Center - Biology Animation Library - http://www.dnalc.org/resources/BiologyAnimationLibrary.htm2. Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf3. Perl, Wikipedia. http://pt.wikipedia.org/wiki/Perl2.7. Brainstorm1. Você viu a animação sobre como é feito o sequenciamento do DNA, descreva agora as etapas através das quais é realizada esta técnica.2. Descreva como são feitos projetos genoma e transcriptoma.3. Perguntas sobre o texto escrito por Binneck. a. Apesar de apresentarem um número de genes bastante similar a outros organismos, diz-se que os seres humanos apresentam uma diversidade de proteínas muito maior do que eles. A que se deve tal diversidade? b. Qual a porcentagem do genoma humano que é responsável pela produção de genes/proteínas? E o resto, qual seria o motivo – se é que há algum – para haver tanto DNA não codificante no genoma? c. Você acredita que genes que alteram seus padrões de expressão em conjunto possam ter funções parecidas? Por quê? d. Escolha duas das ciências “ômicas” e descreva-as e. Discorra sobre o papel da bioinformática na agregação de dados em biologia4. Com relação a linguagens de programação, por que o PERL é conhecido como a linguagem dos bioinformatas? Os dados em bioinformática podem ser tratados com outras linguagens de programação? Cite outra linguagem possível. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  20. 20. 18 CAPÍTULO 3Alinhamento de Seqüências3.1. Introdução O alinhamento de seqüências consiste no processo de comparar duasseqüências (de nucleotídeos ou proteínas) de forma a se observar seu nível deidentidade. Essa técnica de comparação de seqüências é implementada segundo umconceito de desenvolvimento de programas conhecido como um algoritmo guloso e éum dos pilares de toda a bioinformática. Existem centenas de aplicações doalinhamento de seqüências, tanto na identificação de genes e proteínas desconhecidas,quanto na comparação da ordem de genes em genomas de organismos proximamenterelacionados (sintenia), no mapeamento de seqüências expressas dentro de umgenoma para identificação de genes, na montagem de genomas e em diversas outrasaplicações. Por exemplo, podemos alinhar duas seqüências para descobrirmos o grau desimilaridade entre as seqüências de forma que possamos inferir (ou não) a uma delas,alguma propriedade já conhecida da outra (Prosdocimi et al., 2003). O alinhamentoentre duas seqüências pode ser feito de forma global ou local (Figura 3.1.).Figura 3.1. Alinhamento global e local. À esquerda vemos um exemplo de como éfeito um alinhamento global das seqüências e à direita vemos um exemplo darealização de um alinhamento local. Retirado de Prosdocimi et al., 2003.3.2. Alinhamento Global O alinhamento global é feito quando comparamos uma seqüência deaminoácidos ou nucleotídeos com outra, ao longo de toda sua extensão(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O algoritmoNeedleman-Wunsch é o mais conhecido para realizar esse tipo de alinhamento, © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  21. 21. 19embora outros programas, como o MULTALIN(http://prodes.toulouse.inra.fr/multalin/multalin.html) também o façam (Corpet,1988). Nesse caso são dados valores em uma matriz de comparação para assimilaridades (matches), diferenças (mismatches) e falhas (gaps) encontrados duranteo alinhamento das seqüências. As somas dos valores do alinhamento, de acordo comessa matriz de comparação, resulta num valor, que é um escore de similaridade entreas seqüências (Figura 3.2.). No MULTALIN não é dado escore de similaridade (já que elepermite o alinhamento de várias seqüências ao mesmo tempo), e a semelhança entreas seqüências deve ser medida através de inspeção visual.3.3. Alinhamento Local O alinhamento local acontece quando a comparação entre duas seqüências nãoé feita ao longo de toda sua extensão, mas sim através de pequenas regiões destas(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O principal programa utilizado para o alinhamento local de seqüências é oBLAST (Basic Local Alignment Search Tool ou Ferramenta Básica de Procura porAlinhamento Local), encontrado em http://www.ncbi.nlm.nih.gov/BLAST/. Essesoftware compreende um conjunto de algoritmos de comparação de seqüênciasmontado de forma a explorar toda a informação contida em bases de dados de DNA eproteínas (http://www.ncbi.nlm. nih.gov/BLAST/blast_overview.html). Os programasBLAST foram desenvolvidos de modo a aumentar ao máximo a velocidade da buscapor similaridade -- já que as bases de dados são grandes e vêm crescendoexponencialmente --, mesmo correndo o risco de perder um pouco na sensibilidade doresultado (Altschul et al., 1997). A rapidez da busca deve-se ao fato de que oprograma utiliza uma heurística que quebra as seqüências de entrada e das bases dedados em fragmentos – as palavras (words) – e procura, inicialmente, similaridadesentre elas. A busca é então feita com palavras de tamanho W que devem apresentarpelo menos um escore T de alinhamento entre si, dado de acordo com uma matriz devalores. Assim, as palavras que apresentam esse escore T (maior responsável pelavelocidade e sensibilidade da busca) (Altschul et al., 1997) são estendidas em ambasas direções para ver se geram um alinhamento com um escore maior do que S. Umaoutra vantagem de se utilizar o alinhamento local feito pelo BLAST é que, dessa forma,é possível identificar relações entre seqüências que apresentam apenas regiõesisoladas de similaridade(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html).Figura 3.2. Alinhamento de seqüências. O alinhamento de seqüências de DNA é feitoatravés da procura de uma região de similaridade entre duas seqüências utilizando um © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  22. 22. 20algoritmo guloso. Quando essa região é encontrada são dados pontos parasimilaridades (match), diferenças (mismatches), abertura de falhas (gap opening) eextensão de falhas (gap extension) que possam ser encontradas no seu alinhamento.A somatória dos pontos desse alinhamento é chamado de escore do alinhamento e, noexemplo mostrado, o escore do alinhamento é 3. Tais escores são contabilizados tantonos alinhamentos globais quanto locais. Os resultados do BLAST são então apresentados de acordo com doisparâmetros: o valor do escore (Score bits) e o valor E (e-value). O valor de escoredepende do tamanho do alinhamento, do número de matches/mismatches/gaps e damatriz de comparação de seqüências utilizada e é normalizado através de variáveisestatísticas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html). Jáo valor E representa o número de alinhamentos com escores iguais ou melhores que“S” que seria de se esperar que ocorressem ao acaso numa base de dados do tamanhoda utilizada. Assim, quanto menor o valor E, melhor o alinhamento, de forma que(num banco de dados de grandes proporções) um valor de E igual a zero significa quenão há chance de que um alinhamento entre as duas seqüências tenha ocorrido pormero acaso (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O BLAST apresenta diferentes subprogramas que devem ser utilizados deacordo com o tipo de seqüência de entrada e os bancos de dados que se desejapesquisar. A TABELA 3.1 apresenta as possibilidades de entrada, bancos de dados eprograma a ser utilizado. Formato da Formato da Programa Seqüência de Banco de dados seqüência que é BLAST Entrada comparado adequado Nucleotídeos Nucleotídeos Nucleotídeos BLASTn Proteínas Proteínas Proteínas BLASTp Nucleotídeos Proteínas Proteínas BLASTx Proteínas Nucleotídeos Proteínas TBLASTn Nucleotídeos Nucleotídeos Proteínas TBLASTtxTabela 3.1: Programas BLAST utilizados de acordo com o formato de entrada deseqüência e banco de dados desejados. Adaptada dehttp://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html.3.4. Alinhamentos ótimos e heurísticos Algo que deve ser levado em consideração sempre que se deseja fazeralinhamentos de seqüências é o fato de que o alinhamento desejado seja o melhorpossível de ser obtido através de ferramentas computacionais ou se desejamos apenasuma aproximação válida desse melhor resultado. É evidente que, em condiçõesnormais, desejaríamos sempre obter o melhor resultado de alinhamento possível e,portanto, utilizaríamos os algoritmos que produzem resultados ótimos. Entretanto,algumas vezes precisamos obter uma maior rapidez de busca e, portanto, aceitamosque o resultado obtido não seja “o melhor possível” e, assim, utilizamos algoritmosque apresentam algum tipo de heurística. E essa heurística, no caso, normalmenteconsiste em uma forma qualquer que o programador utiliza para acelerar a produçãodos resultados, em detrimento da obtenção do melhor resultado possível. Assimobtém-se um resultado aproximado, mas rápido. A tabela 3.2 apresenta os principaisalgoritmos utilizados em bioinformática para o alinhamento de seqüências. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  23. 23. 21 Tipo de Precisão do Número de seqüências Programa Alinhamento Alinhamento a serem alinhadas BLAST2Sequences Local Heurístico 2 SWAT (Smith-Waterman) Local Ótimo 2 ClustalW Global Heurístico N Multalin Global Heurístico N Needleman-Wunsch Global Ótimo 2Tabela 3.2:Principais programas de alinhamento de seqüências e suas características. As ferramentas de alinhamento ótimo são aquelas que nos dão como resultadoo melhor alinhamento possível de acordo com a metodologia algorítmica decomparação de seqüências. Via de regra, a execução desses algoritmos é mais lentado que a daqueles algoritmos que não geram o resultado perfeito e, como vimos natabela 4.2., existem ferramentas de alinhamento ótimo locais e globais. O maiorproblema em utilizar os programas de alinhamento ótimo consiste nos casos onde sãoalinhadas múltiplas seqüências entre si. Nesses casos, o alinhamento ótimo pode setornar simplesmente impossível de ser feito, pois gastaria uma quantidade de tempoquase infinita para alinhar otimamente uma quantidade seqüências não muito grande.Nos outros casos, entretanto, deve-se preferir a utilização de algoritmos que produzamo alinhamento ótimo em detrimento dos algoritmos de pesquisa heurística. Algoritmos heurísticos são aqueles que não realizam o alinhamento ótimo entreseqüências. Esses algoritmos freqüentemente utilizam alguma técnica alternativa paraacelerar o resultado da busca por seqüências similares, no caso. O BLAST, porexemplo, como vimos no item anterior, parte a seqüência em pedaços para acelerar abusca e outros algoritmos realizam diferentes maneiras de gerar um resultado queseja o mais próximo possível do resultado ótimo. Como já comentado, sãoprincipalmente utilizados em alinhamentos múltiplos, onde os algoritmos ótimosdemoram um tempo muito grande para gerar os resultados. São freqüentementeutilizados também quando da comparação de seqüências contra grandes bancos dedados, exatamente como faz o BLAST, que procura a similaridade de uma seqüênciade entrada contra milhões de outras presentes em seu banco de dados. Muitas vezes, os resultados obtidos com programas heurísticos devem serconfirmados por programas de alinhamento ótimo antes de serem publicados emrevistas especializadas. Entretanto algumas vezes tal procedimento não é necessário etudo vai depender do tipo de trabalho que está sendo realizado.3.5. Alinhamentos simples e múltiplos Como também já foi comentado na seção anterior, existem dois tipos principaisde alinhamentos de seqüências no que concerne ao número de seqüências que sãocomparadas durante o alinhamento. Quando apenas duas seqüências são comparadasentre si, diz-se que o alinhamento é simples. E, nesses casos, normalmente prefere-seutilizar alinhamentos ótimos para gerarem os resultados, exceto nos casos ondemilhares de alinhamentos simples devem ser realizados. De forma contrária, considera-se um alinhamento múltiplo quando três ou maisseqüências devem ser alinhadas entre si. No fundo, o alinhamento múltiplo é montadoa partir do alinhamento par a par de cada uma das seqüências com todas as outras,seguido por um outro procedimento que irá gerar o resultado final do alinhamento detodas contra todas. Assim, se 10 seqüências são comparadas entre si, serãonecessárias 10! (fatorial de 10) comparações de seqüências, o que representam © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  24. 24. 223.628.800 comparações. E é exatamente por isso que os programas heurísticos sãopreferidos para gerar esse tipo de resultado.3.6. Matrizes de comparação Outra coisa de suma importância quando da realização de qualquer alinhamentode seqüências é a matriz de substituição que é utilizada. Na figura 3.2. é mostrado umalinhamento e o número de “pontos” dados para coincidências (matches), divergências(mismatches), abertura de gaps (gap opening) e extensão de gaps (gap extension).Entretanto, ao utilizarmos matrizes de substituição podemos dar valores diferentespara coincidências de diferentes nucleotídeos ou aminoácidos. Vale notar que oresultado de um alinhamento de seqüências pode ser completamente diferentedependendo da matriz de substituição utilizada. As matrizes de comparação são principalmente utilizadas durante o alinhamentode seqüências de proteínas e isso se deve ao fato de que existem aminoácidos que sãomais (ou menos) parecidos entre si do que outros. Há aminoácidos com cargaspolares, apolares ou sem carga e a mudança, em uma proteína, de um aminoácidoapresentando uma determinada característica para outro da mesma característica émenos drástica do que uma mudança para um aminoácido apresentando característicadiferente. Portanto, as matrizes de substituição são extremamente utilizadas noalinhamento de seqüências protéicas. Mesmo no caso de seqüências de nucleotídeos são mais comuns as mutaçõesconhecidas como transições do que as transversões. Nas transições, a mutação ocorreentre bases do mesmo tipo, purina para purina (A para G ou G para A) ou pirimidinapara pirimidina (C para T ou T para C), enquanto nas transversões ocorre a mudançade uma purina para uma pirimidina ou o contrário. Dessa forma, ao utilizarmosmatrizes de substituição, podemos dar mais pesos para as transversões do que para astransições, o que faria com que o resultado fosse mais relevante e pudesse estar maisrelacionado com a evolução, por exemplo. As matrizes de substituição mais comuns para seqüências nucleotídicas são amat50 e a mat70, enquanto para seqüências protéicas as mais conhecidas são asmatrizes PAM e BLOSUM. As matrizes BLOSUM (Blocks Substitution Matrix), porexemplo, são baseadas na observação das freqüências de substituição em blocos dealinhamentos locais de proteínas relacionadas. Existem várias matrizes BLOSUM e elasdevem ser utilizadas para comparar proteínas contendo um determinado valor deidentidade, por exemplo, a matriz mais utilizada pelos programas é a BLOSUM62, quefoi montada para comparar proteínas que apresentem 62% de aminoácidos idênticos. Abaixo vemos as matrizes de substituição de nucleotídeos mat50 e mat70.Podemos perceber que a matriz mat70 apresenta valores menores para algumassubstituições. Isso faz com que o valor final do alinhamento entre duas seqüências deDNA seja menor e, portanto, a matriz mat70 gera um resultado de alinhamento localde um menor número de bases do que a matriz mat50, que estende o alinhamento umpouco mais. Bases A C G T Y R N A 2 -2 0 -2 -2 1 0 C -2 2 -2 0 1 -2 0 G 0 -2 2 -2 -2 1 0 T -2 0 -2 2 1 -2 0 Y -2 1 -2 1 1 -2 0 R 1 -2 1 -2 -2 1 0 N 0 0 0 0 0 0 0 © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  25. 25. 23Tabela 3.3: Matriz de substituição de nucleotídeos mat50. O valor dado para cadatroca pode ser visto nas interseções. O Y representa pirimidinas, o R representapurinas e o N representa qualquer nucleotídeo. Bases A C G T Y R N A 2 -2 -1 -2 -2 0 0 C -2 2 -2 -1 0 -2 0 G -1 -2 2 -2 -2 0 0 T -2 -1 -2 2 0 -2 0 Y -2 0 -2 0 0 -2 0 R 0 -2 0 -2 -2 0 0 N 0 0 0 0 0 0 0Tabela 3.4: Matriz de substituição de nucleotídeos mat70. O valor dado para cadatroca pode ser visto nas interseções. O Y representa pirimidinas, o R representapurinas e o N representa qualquer nucleotídeo.3.7. Exemplos reais de alinhamentosa) Alinhamento global simples entre seqüências de DNA, usando o algoritmoNeedleman-Wunsch.######################################### Program: needle# Rundate: Fri Nov 19 15:57:40 2004# Align_format: srspair# Report_file: 1x2.needle#########################################=======================================## Aligned_sequences: 2# 1: Seq1# 2: Seq2# Matrix: EDNAFULL# Gap_penalty: 10.0# Extend_penalty: 0.5## Length: 736# Identity: 464/736 (63.0%)# Similarity: 464/736 (63.0%)# Gaps: 272/736 (37.0%)# Score: 2261.0###=======================================Seq1 1 0Seq2 1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC 50Seq1 1 0Seq2 51 TGGAATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGAC 100Seq1 1 CTTTCAAGATGAACG 15 |||||||||||||||Seq2 101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG 150Seq1 16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 65 |||||||||||||||||||||||||||||||||||||||||||||||||| © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  26. 26. 24Seq2 151 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 200Seq1 66 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 115 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 201 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 250Seq1 116 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 165 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 251 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 300Seq1 166 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 215 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 301 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 350Seq1 216 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 265 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 351 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 400Seq1 266 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 315 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 401 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 450Seq1 316 CAGTCCATAA---------------------------------------- 325 ||||||||||Seq2 451 CAGTCCATAAAGGTCAGATTCTGTTAATGTAAACAGTTTTTGTATATACA 500Seq1 326 -------------------------------------------------- 325Seq2 501 GCGTTCCTATCTTTGTTTTTCTTCAATACTTACCTGTTAGGGTTTTTGGT 550Seq1 326 ---------AGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 366 |||||||||||||||||||||||||||||||||||||||||Seq2 551 CATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 600Seq1 367 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 416 ||||||||||||||||||||||||||||||||||||||||||||||||||Seq2 601 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 650Seq1 417 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA 464 ||||||||||||||||||||||||||||||||||||||||||||||||Seq2 651 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATC 700Seq1 465 464Seq2 701 CAGCCTTAAACGACACATAGAAAGCATTCACGAAAG 736#---------------------------------------#---------------------------------------b) Alinhamento local simples entre as mesmas seqüências de DNA, usando oalgoritmo BLAST.BLASTN 2.2.8 [Jan-05-2004]Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),"Gapped BLAST and PSI-BLAST: a new generation of protein database searchprograms", Nucleic Acids Res. 25:3389-3402.Query= Seq1 (464 letters) © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  27. 27. 25Database: seq2 1 sequences; 736 total lettersSearching.done Score ESequences producing significant alignments: (bits) ValueSeq2 652 0.0>Seq2 Length = 736 Score = 652 bits (329), Expect = 0.0 Identities = 329/329 (100%) Strand = Plus / PlusQuery: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375Query: 241 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 300 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 376 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 435Query: 301 acacacatatcaaagcagtccataaaggt 329 |||||||||||||||||||||||||||||Sbjct: 436 acacacatatcaaagcagtccataaaggt 464 Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / PlusQuery: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  28. 28. 26Query: 446 gcgaaacttctctcagaaa 464 |||||||||||||||||||Sbjct: 680 gcgaaacttctctcagaaa 698 Database: seq2 Posted date: Nov 19, 2004 3:58 PM Number of letters in database: 736 Number of sequences in database: 1Lambda K H 1.37 0.711 1.31GappedLambda K H 1.37 0.711 1.31Matrix: blastn matrix:1 -3Gap Penalties: Existence: 5, Extension: 2Number of Hits to DB: 2Number of Sequences: 1Number of extensions: 2Number of successful extensions: 2Number of sequences better than 10.0: 1Number of HSPs better than 10.0 without gapping: 1Number of HSPs successfully gapped in prelim test: 0Number of HSPs that attempted gapping in prelim test: 0Number of HSPs gapped (non-prelim): 2length of query: 464length of database: 736effective HSP length: 9effective length of query: 455effective length of database: 727effective search space: 330785effective search space used: 330785T: 0A: 0X1: 6 (11.9 bits)X2: 15 (29.7 bits)S1: 12 (24.3 bits)S2: 8 (16.4 bits)c) Alinhamento global múltiplo entre as mesmas seqüências de DNA (e outrasduas mais), usando o algoritmo CLUSTALW.CLUSTAL W (1.81) multiple sequence alignmentSeq1 ------------------------------------------------------------Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGASeq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGASeq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGASeq1 ------------------------------------------------------------Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCASeq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCASeq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br

×