SlideShare a Scribd company logo
1 of 77
Download to read offline
CURSO ON LINE


 INTRODUÇÃO À
BIOINFORMÁTICA


Prof. Dr. Francisco Prosdocimi


            2007
ÍNDICE
                                                                                                            Pág.
CAPÍTULO 1    UMA VISÃO GLOBAL DA BIOINFORMÁTICA                                                             3
              1.1. O que é a bioinformática?                                                                 3
              1.2. O surgimento da bioinformática                                                            3
              1.3. O que preciso saber para ser um bom bioinformata?                                         5
              1.4. Cursos de pós-graduação em bioinformática no Brasil                                       6
              1.5. Conversando sobre bioinformática – BIOCHAT                                                6
              1.6. Referências Bibliográficas e textos complementares                                        12
              1.7. bRAINsTORM                                                                                12
CAPÍTULO 2    GENOMA, BIOLOGIA MOLECULAR E COMPUTAÇÃO                                                        13
              2.1. Introdução                                                                                13
              2.2. Sequenciamento do DNA                                                                     13
              2.3. Genômica                                                                                  14
              2.4. As ômicas: integrando a bioinformação                                                     15
              2.5. O PERL e outras linguagens de programação                                                 15
              2.6. Referências Bibliográficas e textos complementares                                        17
              2.7. bRAINsTORM                                                                                17
CAPÍTULO 3    ALINHAMENTO DE SEQÜÊNCIAS                                                                   18
              3.1. Introdução                                                                                18
              3.2. Alinhamento Global                                                                        18
              3.3. Alinhamento Local                                                                         19
              3.4. Alinhamentos ótimos e heurísticos                                                         20
              3.5. Alinhamentos simples e múltiplos                                                          21
              3.6. Matrizes de comparação                                                                    22
              3.7. Exemplos reais de alinhamentos                                                            23
              3.8. Referências Bibliográficas                                                                28
              3.9. bRAINsTORM                                                                                28
CAPÍTULO 4    MONTANDO UM GENOMA                                                                          29
              4.1. Sobre genomas eucarióticos e procarióticos                                                29
              4.2. Base-calling                                                                              30
              4.3. Cross-match                                                                               31
              4.4. Agrupamento de seqüências                                                                 32
              4.5. Sobre a cobertura dos genomas                                                             34
              4.6. Referências Bibliográficas                                                                35
              4.7. bRAINsTORM                                                                                35
CAPÍTULO 5    ANÁLISE DE TRANSCRIPTOMAS                                                                   36
              5.1. As ESTs                                                                                   36
              5.2. Histórico das ESTs                                                                        37
              5.3. Agrupamento de ESTs                                                                       38
              5.4. O genoma e o transcriptoma                                                                39
              5.5. SAGE – Serial Analysis of Gene Expression                                                 40
              5.6. Microarrays                                                                               40
              5.7. Referências Bibliográficas                                                                41
              5.8. bRAINsTORM                                                                                41
CAPÍTULO 6    BANCOS DE DADOS EM BIOLOGIA MOLECULAR                                                       42
              6.1. Histórico                                                                                 42
              6.2. Bancos primários e secundários                                                            43
              6.3. GenBank e GenPept                                                                         43
              6.4. RefSeq – O banco de dados de seqüências de referência                                     44
              6.5. SWISSPROT – O maior banco de dados secundário de seqüências de proteínas                  45
              6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas características      46
              6.7. Referências Bibliográficas                                                                46
              6.8. bRAINsTORM                                                                                47
CAPÍTULO 7    ANOTAÇÃO DE GENOMAS                                                                         49
              7.1. Introdução                                                                                49
              7.2. Anotação de Nucleotídeos                                                                  49
              7.3. Anotação de Proteínas                                                                     50
              7.4. Anotação de Processos                                                                     50
              7.5. A realização da Anotação Genômica (Sociologia da Anotação)                                51
              7.6. Referências Bibliográficas                                                                52
              7.7. bRAINsTORM                                                                                53
CAPÍTULO 8    BIOINFORMÁTICA EVOLUTIVA E GENOMAS COMPLETOS                                                54
              8.1. Homologia, Ortologia e Paralogia                                                          54
              8.2. COG                                                                                       56
              8.3. Trabalhando com genomas completos                                                         56
              8.4. Referências Bibliográficas                                                                57
              8.5. bRAINsTORM                                                                                58
CAPÍTULO 9    BIOINFORMÁTICA ESTRUTURAL                                                                   59
              9.1. Sobre a estrutura das proteínas                                                           59
              9.2. Protein Data Bank: o banco de dados de estruturas de proteínas                            60
              9.3. Modelagem molecular por homologia                                                         61
              9.4. Alguns programas de modelagem molecular                                                   63
              9.5. Threading                                                                                 63
              9.6. CASP – Critical Assessment of Structure Prediction                                        63
              9.7. Estrutura de um arquivo no formato PDB                                                    64
              9.8. Referências Bibliográficas                                                                67
              9.9. bRAINsTORM                                                                                68
CAPÍTULO 10   CONCLUSÕES E PENSAMENTOS FILOSÓFICOS SOBRE A BIOINFORMÁTICA                                 69
              10.1. Sobre bioinformática, genoma e ciência                                                   69
              10.2. Introdução                                                                               69
              10.3. Genoma e o método científico                                                             70
              10.4. Um conceito de bioinformática                                                            71
              10.5. Princípios paradigmáticos em bioinformática                                              72
              10.6. Conclusão                                                                                74
              10.7. bRAINsTORM                                                                               74
PREFÁCIO




Quando em 2002 realizei, concomitantemente ao meu mestrado em genética pela
UFMG, o excelente curso de especialização em Bioinformática do LNCC, ministrado por
muitos dos maiores especialistas em genômica e bioinformática de nosso país, tive o
privilégio de ser um dos organizadores (e o primeiro autor) de um trabalho entitulado
“Bioinformática: manual do usuário” em que todos os cerca de 20 alunos do curso
se organizaram com o objetivo de gerar uma publicação básica sobre a área de
pesquisa à qual nos estamos aprofundando e formando. Esta publicação foi finalmente
publicada na revista Biotecnologia Ciência e Desenvolvimento alguns meses depois.

Tendo mantido meu contato com a editora da revista Biotecnologia, enquanto
terminava meus estudos de doutoramento em bioinformática, recebi um convite para
elaborar um curso on line a ser ministrado através do portal biotecnologia da
Internet (http://www.biotecnologia.com.br). Este documento que agora vos apresento
gratuitamente pela Internet (http://biotec.icb.ufmg.br/chicopros/Prosdocimi07_Curso
Bioinfo.pdf) consiste exatamente neste curso, produzido em 2006 e ministrado em
2007 para uma turma de 40 alunos. Ainda que navegando por problemas técnicos,
acredito que o curso foi bastante proveitoso e produtivo, sendo que a grande maioria
dos alunos saiu do mesmo tendo adquirido conteúdo e aprendido a compreender muito
sobre a lógica e o pensamento em bioinformática.

Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo este
documento arquivado entre meus arquivos do período jurássico e tenho pena de deixar
este conhecimento perdido nos meandros digitais do meu disco rígido. Assim, contatei
recentemente a editora da revista que lendo o contrato que fizemos à época e dizendo
serem meus os direitos autorais desta apostila ou “esboço de livro”, informou-me que
tenho o direito de publicar o presente documento na Internet para que se torne
acessível a qualquer indivíduo interessado em aprender a arte e a ciência da
bioinformática. Recomendou-me ainda que eu atualizasse as informações aqui
presentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho sim
planos de fazê-lo, mas sei que precisaria reestruturar boa parte do que está aqui
contido e, por falta de tempo para tanto, decido publicar esta versão gratuitamente
pela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estarei
disposto a atualizar estas informações e produzir uma segunda edição mais completa e
atualizada sobre presentes assuntos.

Brasília, numa quarta-feira de cinzas.
17/02/2010

Chico Prosdocimi
http://biotec.icb.ufmg.br/chicopros
http://chicopros.blogspot.com
Aos meus pais
3




                            CAPÍTULO 1
Uma visão global da bioinformática

       Iniciando nossa Interação

       Nesta primeiro capítulo apresentaremos uma visão geral da bioinformática,
vamos conversar sobre as necessidades e oportunidades de capacitação para quem
deseja atuar nessa área.


1.1.   O que é a bioinformática?

        Podemos considerar a bioinformática como uma linha de pesquisa que envolve
aspectos multidisciplinares e que surgiu a partir do momento em que se iniciou a
utilização de ferramentas computacionais para a análise de dados genéticos,
bioquímicos e de biologia molecular. A bioinformática envolve a união de diversas
linhas de conhecimento – a ciência da computação, a engenharia de softwares, a
matemática, a estatística e a biologia molecular – e tem como finalidade principal
desvendar a grande quantidade de dados que vem sendo obtida através de seqüências
de DNA e proteínas. Para o desenvolvimento de genomas completos, a informática é
imprescindível e a biologia molecular moderna não estaria tão avançada hoje, não
fossem os recursos computacionais existentes.


1.2.   O surgimento da bioinformática

        A bioinformática, apesar de ser uma ciência nova e em desenvolvimento, já
apresenta uma figura clássica que freqüentemente é mostrada em qualquer palestra
ou curso que se vá sobre a área. Essa figura, mostrando o crescimento exponencial do
GenBank nos últimos anos, tenta mostrar que, mais do que uma abstração possível, a
bioinformática é hoje uma necessidade para a análise de dados em biologia molecular.
        Desde que os seqüenciadores capilares de DNA em larga escala surgiram, no
fim da década de 90, a quantidade de dados biológicos produzidas simplesmente
alcançou níveis que fizeram com que análises manuais de seqüências de DNA se
tornassem simplesmente alternativas absurdas para o estudo de dados de genoma e
transcriptoma.
        Dois desenvolvimentos foram importantes para permitir tanto o surgimento da
bionformática quanto o rápido desenvolvimento da produção de seqüências de DNA. O
primeiro deles foi o sequenciamento capilar. Enquanto no passado as seqüências eram
produzidas em placas enormes que deveriam ser corridas de forma uniforme e com um
grande cuidado, com o desenvolvimento da tecnologia de sequenciamento capilar, a
eletroforese ocorria dentro de tubos com a espessura de um cabelo humano, contendo
uma solução polimérica por onde o DNA deveria passar guiado por uma corrente
elétrica, como uma eletroforese normal. O outro grande desenvolvimento foi a
marcação dos didesoxinucleotídeos necessários para o sequenciamento do DNA com
moléculas fluorescentes. Enquanto as reações tradicionais eram realizadas com
marcadores radioativos, que tornavam a metodologia um tanto quanto trabalhosa e


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
4


até mesmo perigosa, os marcadores fluorescentes permitiam maior segurança e ainda
um novo avanço. Enquanto era preciso correr diferentes reações para cada nucleotídeo
na marcação radioativa, a técnica de marcação fluorescente permitia que cada base
fosse marcada com um diferente fluorocromo que era capaz de emitir luz em um
diferente comprimento de onda se excitado por um laser. Essa luz, lida por um
detector, informava ao sistema qual nucleotídeo passava em diferentes momentos da
eletroforese. E foi exatamente a reunião desses dois desenvolvimentos num só
aparelho que produziu o equipamento que posteriormente ficaria conhecido como “o
seqüenciador que criou a bioinformática”. O primeiro desses aparelhos foi produzido
pela empresa Applied Biosystems e foi chamado de ABI Prism 3700. Apresentava 96
colunas (ou capilares para a eletroforese) e permitia o sequenciamento de cerca de
550 bases em cada coluna, sendo oito vezes mais rápida do que a melhor concorrente
da época e possibilitando o sequenciamento de até 1 milhão de pares de bases por dia.
Além de permitir o rápido desenvolvimento da bioinformática, esse seqüenciador ainda
geraria brigas políticas sobre quem é que deveria sequenciar todo o genoma humano,
uma empresa particular ou o consórcio público, mas isso é outra história.




Figura 1.1. Crescimento do Genbank. Crescimento exponencial do número de
seqüências contidas no GenBank ao longo das duas últimas décadas. Obtido em
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html.

       O que importa é que, desde 1998, quando o ABI Prism foi lançado, outras
empresas desenvolveram também seus seqüenciadores capilares de larga escala e o
custo dessas máquinas – que antes chegava a trezentos mil dólares – foi aos poucos
caindo e permitindo que mais e mais laboratórios pudessem ter seus próprios
seqüenciadores. Cada vez mais dessas máquinas são vendidas ainda hoje e o número
de seqüências de DNA produzidas vem aumentando exponencialmente até o presente
momento.

Leitura complementar:
http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html

     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
5


1.3.   O que preciso saber para ser um bom bioinformata?

         O profissional em bioinformática é raro no mercado, já que ele necessita saber
e ser familiar a, pelo menos, três áreas distintas do conhecimento: a biologia
molecular, a ciência da computação e a bioinformática per se. Além disso,
conhecimentos em estatística e matemática são altamente recomendáveis. Imagine
um biólogo que não tenha conhecimento de computação: ele será capaz de bolar uma
infinidade de possíveis experimentos em bioinformática que gostaria que fossem
gerados, mas será incapaz de colocá-los em prática. Do outro lado, um cientista da
computação sem conhecimento em biologia e com sua característica ânsia de analisar
dados, será capaz de pegar uma infinidade de dados biológicos e fazer uma grande
quantidade de análises computacionais sem qualquer propósito, gerando resultados de
difícil interpretação, por vezes ininterpretáveis ou sem qualquer sentido biológico. O
trabalho em equipe, para a produção de projetos em bioinformática, pode ser
interessante, desde que os profissionais trabalhem juntos todo o tempo. Reuniões
apenas esporádicas normalmente fazem com que as idéias do trabalho do biólogo e do
cientista da computação se afastem dos ideais iniciais da pesquisa. Isso no caso
médio. É claro que é possível conseguir bons resultados em casos isolados.
         Considerando isso, torna-se necessário o desenvolvimento de um novo
profissional, o bioinformata. Um biólogo que tenha tido uma formação parcial como
cientista da computação ou vice-versa. Além disso, é preciso que tal profissional tenha
ainda uma formação em bioinformática e que conheça profundamente as diferenças e
as boas e más qualidades dos principais bancos de dados públicos sobre seqüências e
estruturas de biomoléculas. Como não temos a intenção de ensinar biologia molecular
ou ciência da computação, no presente curso daremos ênfase exatamente a esta
última parte, que consiste na formação do bioinformata per si, que deve conhecer pelo
menos o básico com relação à análise de genomas e as ferramentas e bancos de dados
disponíveis na internet para o estudo dessa nova ciência.
         Com relação aos requisitos computacionais que serão apresentados apenas de
passagem no presente curso, um profissional em bioinformática deve ter um bom
conhecimento algum sistema operacional baseado em UNIX, sem qualquer sombra de
dúvida. Quase todos os algoritmos utilizados para a pesquisa em bioinformática
apresentam código aberto e são, freqüentemente, disponíveis apenas para sistema
operacionais como o LINUX e o Solaris. Os programas de código aberto são aqueles
nos quais os programadores disponibilizam todo o código fonte do programa para o
usuário, que pode alterá-lo de acordo com a sua aplicação de interesse. E esse é
também um dos motivos pelos quais os bioinformatas devem ser familiarizados com
linguagens de programação. Um bioinformata que não sabe programar em uma
linguagem qualquer tem dificuldades para se desenvolver e, portanto, o profissional
deve estar ao menos apto a aprender alguma linguagem de programação.
         Outro conhecimento que gera um salto qualitativo na atividade do bioinformata
é o conhecimento de bancos de dados e linguagem SQL. A linguagem SQL é a mais
comumente utilizada em uma diversidade de bancos de dados e muitos sites
disponibilizam informações armazenas em tabelas e bancos de dados inteiros. Devido à
sua gratuidade e eficiência, o banco de dados mais utilizado em bioinformática é o
MySQL, mas quaisquer outros podem ser utilizados sem demais inconvenientes. Mas
mais importante ainda do que ser capaz de obter os bancos de dados públicos é o
bioinformata ser capaz de criar seus próprios bancos de dados, organizando as
informações de seu projeto e permitindo tanto um bom armazenamento quanto
organização e fácil acesso aos dados. Além disso, o conhecimento de plataformas para
disponibilizar dados para os pesquisadores é interessante e o bioinformata deve ter
algum conhecimento de linguagem HTML e, de preferência alguma linguagem de



     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
6


programação para a internet, como o CGI ou o PHP, sendo que esse último ainda
apresenta a vantagem de permitir fácil conexão com bancos de dados.
        É claro que a gama de conhecimento necessária para exercer bem uma
profissão qualquer tende a ser infinita, mas é indispensável ao menos que o
bioinformata seja proficiente em uma linguagem de programação e tenha bons
conhecimentos de biologia molecular, dos bancos de dados e das ferramentas a serem
utilizadas em cada caso. Aqui, iremos passar apenas de leve em programação e
biologia molecular na próxima aula e depois passaremos direto para a parte que
explica e mostra quais são as principais ferramentas utilizadas em análises genômicas
e os principais bancos de dados que devem ser consultados em diferentes aplicações.


1.4.   Cursos de pós-graduação em bioinformática no Brasil

       Até o presente momento parecem existir apenas três cursos de pós-graduação
em bioinformática no Brasil. O primeiro e mais tradicional deles é o curso de pós-
graduação Lato Sensu em Bioinformática do LNCC, cuja página oficial pode ser vista
em http://www.lncc.br/~biologia/. Três turmas de alunos já graduados de todo o país
já foram formadas por esta pós-graduação, inclusive o presente autor desse curso on-
line, quem vos escreve. Consiste num ótimo curso de especialização, no qual os
maiores expoentes do país na área são chamados para ministrar diferentes aulas nos
campos da genômica, transcriptômica e proteômica. Além desse curso de pós-
graduação, que dura cerca de três meses e meio, o LNCC também oferece cursos
esporádicos com duração entre duas semanas e um mês e recomenda-se visitar a
página do LNCC para mais informações (http://www.lncc.br).
       Logo a CAPES percebeu a importância de se abrirem cursos nessa área
estratégica e propôs um edital para a formação de cursos de doutorado em
bioinformática. A partir daí dois novos cursos de doutorado em bioinformática foram
criados, um na USP (setembro de 2002) e outro na UFMG (abril de 2003). Para mais
informações, visite o site dos programas http://www.ime.usp.br/posbioinfo/ e
http://www.bioinfo.dout.ufmg.br/.


1.5.   Conversando sobre bioinformática – BIOCHAT

       A revista biotecnologia promove esporadicamente o chamado biochat, que
consiste em uma conversa com um pesquisador experimente de uma determinada
área do conhecimento. Abaixo transcrevo um dos biochats realizado com o autor do
presente curso, onde várias dúvidas básicas sobre o assunto podem ser sanadas.

Assunto do Biochat:                Conceitos e Paradigmas em Bioinformática
Pesquisador entrevistado:          Francisco Prosdocimi
        Há uma grande confusão com relação ao que seja a bioinformática, sendo que
muitos ainda acreditam que qualquer aplicação da computação à biologia possa ser
referenciada como "bioinformática". Ao observarmos os trabalhos recentemente
publicados na área, podemos dividí-los em três correntes básicas ou princípios
paradigmáticos, chamados metaforicamente de "o tijolo", "a peneira" e "a lupa". Tais
princípios serão apresentados e discutidos durante o BIOCHAT. Além disso, é
interessante discutirmos quais seriam os pré-requisitos básicos para formar um
bioinformata, tanto na área computacional quanto na área biológica. Do que, afinal, é
feito um bioinformata e o que ele precisa conhecer é tema recorrente entre os curiosos
sobre a área.O conceito da bioinformática, seus princípios paradigmáticos e a formação
do bioinformata serão, portanto, os temas a serem discutidos neste BIOCHAT.


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
7



                Boa noite a todos! Está aberto nosso biochat sobre bioinformática. Por
Dr. Francisco
                favor, enviem suas dúvidas para que possamos discutir e trocar idéias
Prosdocimi
                a respeito do assunto.
                Grande Francisco... Afinal, qual o conceito mais aceito para
Vanderson:
                Bioinformática?
                Olá Vanderson. Fico agradecido pela sua presença. Na verdade existem
                vários conceitos para bioinformática e muita confusão é feita sobre o
Dr. Francisco
                tema. Na minha opinião a bioinformática surgiu com o boom dos
Prosdocimi
                sequenciadores automáticos de DNA e ainda hoje está ligada a análises
                de seqüências de biomoléculas.
                Biologia computadorizada? Ouvi este termo e queria saber qual é a
Adonis:
                diferença disso para Bioinformática?
                Pois é, meu prezado Adonis. A biologia computacional diz respeito a
                qualquer aplicação da computação na área biológica, enquanto a
Dr. Francisco
                bioinformática está freqüentemente associada a analise de seqüências
Prosdocimi
                de genoma, transcriptoma e proteoma. Esses conceitos entretanto são
                bastante maleáveis e modificam-se todos os anos.
                Boa noite Dr. Francisco. Sou estudante do curso Bacharelado em
Pedro:          Bioquímica, na Universidade Federal de Viçosa e tenho direcionado a
                minha formação acadêmica para me tornar...
                Com relação aos cursos específicos para bioinformática, eles existem
                no Brasil apenas em nível de pós-graduação. Sendo que um deles é o
                curso de especialização lato sensu do LNCC, no qual acontece a
Dr. Francisco
                formação de especialistas em bioinformática. Na USP e na UFMG
Prosdocimi
                existem cursos de doutorado em bioinformática, onde tais profissionais
                são formados. Eu, a propósito, fui aluno do LNCC e fui também o
                primeiro aluno a defender o doutorado em bioinformática na UFMG.
                Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesma
Francisco:
                dúvida...
                Com relação a cursos de graduação, meu prezado xará, ainda não
Dr. Francisco
                existem na área e recomendo que vc faça um curso de biologia ou de
Prosdocimi
                computação, se pretende seguir carreira em bioinfo.
Adonis:         então bioinfo está dentro da biologia computacional?
                Concordo, Adonis. Na minha opinião a bioinformática é, sim, uma parte
                da biologia computacional, sendo essa última uma área bastante ampla
Dr. Francisco
                e não necessariamente relacionada com biologia molecular. Embora,
Prosdocimi
                repito, esses conceitos são maleáveis e modificam-se com o
                desenvolver das ciências.
                Qual a sua experiência com a Bioinformática? O senhor trabalha mais
Pedro:          no meio acadêmico ou se relaciona diretamente com o mercado de
                trabalho?
                Trabalho com bioinformática desde 2000, tendo tido anteriormente
                uma formação como biólogo molecular em bancada. Fiz minha
                monografia de bacharelado, minha dissertação de mestrado (em
                genética) com análises de transcriptomas do verme Schistosoma
Dr. Francisco   mansoni e fui o primeiro aluno a defender o doutorado em
Prosdocimi      bioinformática na UFMG trabalhando com análises de qualidade de
                seqüências de DNA e genômica comparativa. Sempre trabalhei mais
                voltado para o meio acadêmico, mas já fiz também alguns trabalhos
                em parceria com uma empresa de Belo Horizonte na área de
                bioinformática. A empresa se chama vetta technologies.


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
8


                Pegando a deixa do Pedro, você acha que há mercado de trabalho para
Vanderson:
                bioinformatas no Brasil... além das instituições públicas e da Alellyx?
                Infelizmente, meu amigo Vanderson, não acredito que haja ainda
                mercado de trabalho para bioinformática fora das universidades,
                embora o campo na área de biotecnologia tenha crescido e venha
Dr. Francisco   crescendo. A existência de algumas empresas trabalhando em
Prosdocimi      biotecnologia é muito pequena ainda no Brasil e apenas a Alellyx e a
                Scylla têm alguma representatividade no mercado. Ou seja, a
                bioinformática ainda é matéria para cientistas financiados pelo
                governo.
                Qual seria a dica para trabalhar com bioinfo em um lugar onde não se
Adonis:
                faça molecular?
                A dica é estar em parceria com pesquisadores que tenham perguntas
                que só possam ser respondidas através de análise computacional. Eu
                mesmo tenho várias colaborações com diferentes laboratórios e produzi
                um software recentemente, o TGFinder, que surgiu como uma
                necessidade de um pesquisador de encontrar genes controlados por
Dr. Francisco
                fatores de transcrição. Além disso, o GenBank possui tantas seqüências
Prosdocimi
                depositadas e tanta informação a ser mineirada que nem todos os
                cientistas do mundo seriam capazes de tudo analisar. É claro que a
                pesquisa de ponta é normalmente aquele onde se produz e se analisa
                um novo dado em biologia molecular, mas há muito ouro a ser
                peneirado nos bancos de dados públicos.
                Olá Dr. mas como é aplicada a computação ou informática, na
Paulo:
                biologia,neste sequenciadores automáticos de DNA?
                A computação é aplicada, principalmente, na análise e identificação das
                seqüências de DNA que saem dos sequenciadores automáticos. A
                seqüência sai de lá como um monte de A, C, T e G... que não querem
Dr. Francisco   dizer nada. O que significa para você isso aqui:
Prosdocimi      ACATAGGGACATTACAGAGCATTCAGA? Somente com a bioinformática
                conseguimos atrelar a informação codificada em informação biológica,
                associando A, C, T e G a algum nome de gene com alguma função
                especifica...
                Aprofundando mais a discussão, a iniciativa privada na bioinformática
Pedro:
                está...
                O grande problema, Pedro, é que acredito que dificilmente a
                bioinformática per se pode dar algum lucro. Por exemplo, a empresa
                Alellyx tem, além de um grande know how em bioinfo, um grande
                know how em biologia molecular e em genômica. A descoberta de
Dr. Francisco
                novos genes 'apenas' por bioinfo é muito difícil e é preciso estar
Prosdocimi
                sempre sequenciando novos organismos. E um sequenciador de DNA é
                muito caro para que pequenos empresários possam comprar, o capital
                inicial de uma empresa de biotecnologia apresentando bioinformática é
                muito alto.
Marx:           E fora do Brasil, como estão as perspectivas?
                Fora do Brasil eu acredito que haja bastante espaço, sim, para
                bioinformatas. Assino uma lista de jobs em bioinformática e
Dr. Francisco
                freqüentemente vejo pedidos para profissionais da área... o único
Prosdocimi
                problema é que normalmente exige-se grande experiência prévia, o
                que não temos ainda no Brasil -- profissionais qualificados.
                Dr. Francisco Prosdocimi, fale um pouco sobre mineração de dados já
Adonis:
                que esta é o etapa seguinte depois da geração das seqs.


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
9


                Bem, caro Adonis, isso me remete aos princípios paradigmáticos da
                bioinformática que apresentei no texto introdutório. Acredito que os
                trabalhos atuais em bioinformática podem ser divididos em três
                correntes principais, os trabalhos de tijolo -- onde ferramentas de
                bioinformática são produzidas para construir os edifícios genômicos, os
Dr. Francisco
                trabalhos de peneira -- onde a mineração da grande massa de dados
Prosdocimi
                em genômica são analisados mais especificamente em vários contextos
                -- e os trabalhos de lupa, onde a genômica encontra a ciência e o
                método científico de observação, hipótese, experimentação e
                resultados são novamente retomados. Escrevi um trabalho sobre isso
                para a revista ciência hoje que foi publicado em 2004.
                Trabalho atualmente no BIOAGRO-UFV (Instituto de Biotecnologia
                Aplicada à Agropecuária) no Laboratório de Bioinformática,
                desenvolvendo softwares de análise populacionais (genética de
Pedro:
                populações). Você considera válido esse tipo de iniciativa ou seria
                melhor eu estar trabalhando mais especificamente com a biologia
                molecular?
                Considero muito válido seu trabalho. Mas também já tentei produzir
Dr. Francisco   algo relacionado a genética de populações e acho muito difícil produzir
Prosdocimi      algo melhor do que os já conhecidos programas PAUP, PHYLIP, MEGA,
                dentre outros. Boa sorte!
                Poderíamos ou podemos, descobrir qual a seqüência para uma
Paulo:          determinada proteína ou característica. Ou para identificar estes pares,
                para saber qual proteína ela vai produzir, seria isto?
                Podemos sim, saber qual a seqüência de DNA é relativa a uma
                determinada proteína e, muitas vezes, uma característica. Existe até
                mesmo um projeto conhecido como FENOMA, que tenta identificar os
Dr. Francisco
                genes responsáveis por algum fenótipo (característica). O que
Prosdocimi
                acontece, entretanto, é que grande parte das características são
                geradas através de um grande número de genes que interagem entre
                si e fazem da análise algo complicadíssimo!
                Tenho uma opinião a expressar... Um grande problema que eu percebo
Vanderson:      na maioria dessas ferramentas de bioinformática é o total descaso com
                usuários
                Concordo plenamente, Vanderson. Biólogos não estão interessados em
                utilizar sistemas linux, linhas de comando e outros artifícios
                computacionais de start-up razoavelmente complexo. Interfaces
Dr. Francisco
                gráficas e fáceis, de preferência via web e bastante user-friendly são
Prosdocimi
                altamente recomendáveis. Mas é preciso dizer que há também
                programas com manuais completos e simples, mas o usuário parece ter
                preguiça de lê-los, o que definitivamente é preciso fazer.
Carla:          Por acaso já se pode analisar um gene pelo computador?
                É claro, Carla, os genes são formados por seqüências de nucleotídeos
Dr. Francisco   que são representadas por A, C, G e T, transformando as seqüências
Prosdocimi      dos genes em letrinhas que são analisadas e comparadas entre
                diferentes espécies animais.
                É real a migração de perl para java? ou isso só tá ocorrendo no meio
Adonis:         privado? Essa migração seria um preocupação com uma interface mais
                amigável?
                Caro Adonis, acredito que a migração de PERL para JAVA está
Dr. Francisco   relacionada ao fato de que a linguagem JAVA é multiplataforma, além
Prosdocimi      de ser nativamente orientada a objetos, o que facilita a criação de
                programas mais complexos e de grande porte. Acredito que os scripts

     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
10


                freqüentemente utilizados em trabalhos de bioinformática devem
                continuar sendo produzidos em PERL, que é uma linguagem onde a
                expressão regular é nativa e rápida, sendo mais apropriada para tais
                trabalhos. Sim, a migração também pode estar relaciona com uma
                interface mais amigável, já pronta em vários objetos JAVA.
                Como o Brasil está em relação a outros paises, nesse desenvolvimento?
Carla:
                O nosso país valoriza a bioinformática?
                O Brasil anda atrás dos países desenvolvidos quando o assunto é
Dr. Francisco   bioinformática e, apesar de que recentes iniciativas da CAPES e do
Prosdocimi      CNPq vêm tentando buscar equiparação internacional, a bioinformática
                brasileira ainda está em seu berço (esplêndido).
                Boa noite Dr. Gostaria de saber sobre o cenário de Software Livre x
                Software Proprietário em bioinformática. O Sr. acredita que a adoção
                do software livre pode ajudar na redução de gastos em pesquisa e
Macedo:
                desenvolvimento e que isso possibilitará o estudo de doenças
                negligenciadas? Ou o segmento acadêmico enxerga o software livre
                apenas como ª...
                No caso da bioinformática posso assegurar que mais de 95% dos
                softwares são livres ou de livre acesso (pelo menos para o meio
                acadêmico) e cerca de 50% são de livre acesso para todos. Por isso, a
Dr. Francisco
                bioinformática exige um custo inicial para pesquisa bem baixo e esse é
Prosdocimi
                mais um dos motivos pelos quais essa ciência deveria ser mais
                incentivada em nosso país. Com um computador razoável e boas idéias
                é possível fazer boa bioinformática!!!
                Uma empresa privada que prestasse suporte em bioinformática
                (desenvolvendo softwares sequenciadores para organismos específicos
Pedro:
                ou que atendessem alguma demanda de determinada pesquisa, com
                uma interface mais amigável com o usuário final) poderia dar certo?
                Não estou bem certo, Pedro. O problema é que a idéia para elaboração
                de softwares teria de vir da academia e não sei o pessoal das
                universidades estaria disposto a dar a idéia para que vc fizesse o
                software para eles comprarem, entende? Eles prefeririam pedir no
Dr. Francisco
                departamento de computação para ver se algum outro aluno faria o
Prosdocimi
                mesmo software de graça, gerando um trabalho publicável em
                conjunto. A menos que vcs produzissem um pacote grande, para uma
                ampla gama de aplicações... aí vc poderia dar certo com sua
                empresa...
                Um profissional em bioinformática deve saber tanto trabalhar com os
                softwares de análises de seqüências quanto desenvolver novos
Dani:
                programas? Quais são as linguagens de programação mais utilizadas
                para este fim?
                Ótima pergunta, Dani. É imprescindível para o profissional de
                bioinformática, na minha opinião, ter quatro conhecimentos básicos:
                (1) Ele deve entender bem biologia molecular, (2) saber trabalhar com
Dr. Francisco
                os bancos de dados disponíveis na internet, (3) saber BEM uma
Prosdocimi
                linguagem de programação e (4) saber manipular bancos de dados.
                Estes, na minha opinião, são os principais requisitos para formar um
                bioinformata.
                Você contrataria uma empresa dessa natureza para dar suporte às suas
Pedro:          pesquisas ou prefere, você mesmo, desenvolver os aplicativos com que
                trabalha?
Dr. Francisco   Depende do quanto de trabalho fosse necessário. Se fosse pouco
Prosdocimi      trabalho, eu mesmo desenvolveria. Se necessitasse de um software

     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
11


                amplo, talvez preferisse pagar... mas dependeria de financiamento
                governamental para isso... e o governo não gosta muito do assunto
                'comprar softwares de empresas privadas para trabalhos científicos'. No
                último edital do CNPq para bioinfo, enviamos um projeto tentando
                comprar um software e o projeto não foi aprovado... possivelmente por
                este único motivo.
                Boa Noite Dr. Francisco, participei da primeira turma de especialização
                em bioinformática do LNCC, atualmente estou fazendo doutorado em
Fabio:          microbiologia na UFRJ. Gostaria de saber na sua opinião quais são as
                principais diferenças dos cursos de doutorado em Bioinformatica da
                USP e da UFMG?
                Fala, Fábio. É com receber companheiros por aqui... fui seu sucessor no
                LNCC, participando da segunda turma. Não posso dizer muito do curso
                de doutorado na USP, o qual conheço pouco. Mas ao que me parece o
Dr. Francisco
                curso da USP é muito voltado para as ciências exatas, tendo uma alta
Prosdocimi
                carga de disciplinas de matemática e estatística. Aqui na UFMG a carga
                de disciplinas é bem balanceada e leve, de forma que o aluno possa se
                preocupar mais com seu projeto de tese.
                A quantas anda o desenvolvimento das pesquisas em bioinformática
Pedro:
                aqui no estado de Minas Gerais?
                Aqui em Minas temos alguns grupos de bioinformática montados. Não
                posso dizer que conheço todos eles, mas aqui na UFMG temos ao
Dr. Francisco   menos uns três grupos de bioinformática, trabalhando com genoma de
Prosdocimi      'Schistosoma mansoni', genômica comparativa e genômica evolutiva,
                mas as coisas ainda são um pouco precárias e a infra-estrutura não é
                das melhores.
                Sou bióloga, especialista em biotecnologia - trabalho com saneamento
                - área ambiental - - mas tenho grande interesse em bioinformática.
Dani:
                Quais são os conhecimentos básicos de informática que um biólogo
                deve ter para iniciar um mestrado em bioinformática?
                Bem, não conheço nenhum mestrado em bioinformática e acho que --
                se houvesse algum -- o aluno deveria conhecer o básico de sistemas
                linux e linguagens de programação. Mas dependendo, se o mestrado
Dr. Francisco
                for para biólogos ou para “computólogos”, os conhecimentos a serem
Prosdocimi
                exigidos são diferentes. Se for um mestrado para biólogos é possível
                que não seja necessário nenhum conhecimento de informática e todo o
                conhecimento pode ser adquirido quando da realização do curso.
                Qual é campo de trabalho para um pós-graduado em bioinformática,
Dani:           além do desenvolvimento de pesquisas em universidades, fundações de
                pesquisa Federais,Estaduais e a Licenciatura?
                Bem, essa pergunta é um tanto quanto capciosa. Se uma pessoa
                formou em bioinformática, imagino que ela queira fazer pesquisa ou
Dr. Francisco
                dar aulas. É claro que ela pode também trabalhar em alguma empresa
Prosdocimi
                de biotecnologia ou de bioinformática per si... mas acredito que aí ela
                teria que ir pra fora do Brasil...
Ricardo:        Quais são os trabalhos que vc está fazendo ultimamente na área?
                Olá, Ricardo. Ultimamente tenho trabalhado com análises do software
                PHRED, com a montagem de um programa para simular a evolução em
Dr. Francisco   locos de microsatélites, trabalho também com a diferença na utilização
Prosdocimi      de aminoácidos por proteínas de diferentes organismos, com a origem
                do código genético, com famílias de proteínas dedos de zinco, dentre
                diversas outras coisas.


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
12


                Então, estarei entrando em contato com o senhor (pois estou na
Pedro:          organização do evento). Mais uma pergunta, ainda é muito cedo para
                pensarmos em cursos de graduação em bioinformática no Brasil?
                Ok. Acho que um curso de graduação em bioinformática poderia ser
                bastante interessante sim, mas acho que é cedo para isso. Ainda não
                há, só pra vc ter uma idéia, um conceito amplo do que seja
Dr. Francisco   bioinformática e é preciso que esta disciplina fique mais madura ao
Prosdocimi      longo dos anos para que esse conceito brote claramente. Acho que os
                biólogos moleculares atualmente são os principais candidatos a se
                tornarem bioinformatas e não há nem cursos de graduação em biologia
                molecular... pelo menos desconheço...
                A título de informação: foi criada na grade curricular do Bacharelado
Pedro:          em Bioquímica-UFV a BQI460 (Bioinformática), onde serão abordados
                os principais aspectos dessa nova área do conhecimento.
                Bem, aqui na UFMG o prof. Miguel Ortega já ministra à mais de dois
                anos uma matéria de tópicos em bioquímica e biologia molecular cujo
Dr. Francisco   assunto é a bionformática. É bastante interessante que a universidade
Prosdocimi      de Viçosa tenha proposto uma disciplina específica sobre o assunto e
                mostra como está atualizada com relação aos novos avanços da
                biologia molecular.
                O que você considera como maior desafio para a consolidação da
Pedro:
                Bioinformática no Brasil?
                Considero o maior desafio a formação dos profissionais e a montagem
Dr. Francisco
                de infra-estrutura adequada e de computadores de alto-desempenho
Prosdocimi
                para as análises mais elaboradas na área.


1.6.     Referências Bibliográficas e textos complementares

1 Davies, K. (2001). Decifrando o genoma. Companhia das letras.
2. NCBI: A Science Primer - http://www.ncbi.nlm.nih.gov/About/primer/index.html
3. NCBI: A Science Primer – Bioinformatics -
   http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html
4. Chico On Line – Bioinformática - http://www.icb.ufmg.br/~franc/cool
5. GenBank Stats - http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html


1.7      Brainstorm

1. Dê sua opinião sobre o que entende por bioinformática e qual a importância da
   área.
2. Vá ao site do NCBI (National Center for Biotechnology Information, o centro
   americano para informação biotecnológica, http://www.ncbi.nlm.nih.gov), leia e
   navegue um pouco. Encontre algum serviço interessante e reporte sua experiência.




     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
13




                            CAPÍTULO 2
 Genoma, biologia molecular e computação


2.1.   Introdução

       Como já foi dito, o presente curso não tem como função explicar genômica,
biologia molecular ou computação. Ainda assim, alguns conceitos se tornam
importantes para que possamos seguir o curso e neste capítulo estaremos nos
dedicando a eles.


2.2.   Sequenciamento do DNA




Figura 2.1. O dogma central da biologia molecular. Da análise de DNA temos os
projetos genoma, da análise do conteúdo de RNAs mensageiros de uma célula
produzimos estudos de transcriptoma e a partir da análise de conteúdo protéico
geramos os projetos proteoma.

       A bioinformática surgiu a partir da biologia molecular e dela ainda é inseparável
(figura 2.1). No capítulo anterior, aprendemos que a bioinformática se desenvolveu
principalmente depois do surgimento dos seqüenciadores de DNA em larga escala,
como o ABI Prism 3700. A reação de sequenciamento de DNA consiste basicamente
em um processo de amplificação da molécula de DNA de interesse. Entretanto, durante
essa amplificação, são utilizados tanto os nucleotídeos normais de DNA, conhecidos
como desoxiribonucleotídeos quanto alguns nucleotídeos especiais, conhecidos como
di-desoxiribonucleotídeos. A diferença entre eles é que os didesoxinucleotídeos
apresentam, como o nome diz, uma molécula de oxigênio a menos, eles não contém
uma extremidade 3’OH livre. Assim, se lembrarmos como é formado o esqueleto de
uma cadeia de DNA, veremos que os nucleotídeos adjacentes são ligados entre si
através de uma ligação com um grupamento fosfato exatamente na posição do
carbono 3’. Isso significa que, um nucleotídeo que não apresente um grupamento OH
nesta    posição    (chamado     di-desoxiribonucleotídeo     ou    simplesmente     di-
desoxinucleotídeo) impede a ligação de um nucleotídeo em seguida, o que interrompe
a cadeia de DNA naquela posição. Assim, durante a amplificação em que consiste a
reação de sequenciamento do DNA, são produzidas moléculas de diferentes tamanhos,
sendo que cada uma delas possui, na sua extremidade, um didesoxinucleotídeo que
impede a ligação de outros nucleotídeos a seguir. Além disso, dependendo de qual
base ele carrega, cada um desses nucleotídeos sem a extremidade 3’OH livre


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
14


apresenta um pigmento fluorescente diferente adicionado. Após a reação de
sequenciamento – que é realizada num termociclador, assim como um PCR --, as
moléculas resultantes são submetidas a uma eletroforese. Nesse procedimento, o DNA
resultante da amplificação é submetido a um gradiente elétrico dentro de uma matriz
de gel, que permite uma mobilidade diferencial das moléculas. As moléculas pequenas
de DNA movem mais rapidamente para o pólo positivo durante essa eletroforese.
Essas moléculas pequenas foram aquelas que incorporaram didesoxinucleotídeos mais
precocemente do que as outras. E assim, elas vão se movendo na matriz gelatinosa
mais rapidamente, indo em direção ao pólo positivo. Quando chegam próximo ao pólo,
um laser incide sobre essa molécula e, dependendo de qual didesoxinucleotídeo foi
incorporado em sua extremidade final, o laser promove a incidência da fluorescência
num receptor que capta, afinal, qual foi o comprimento de onda daquele fluoróforo
excitado. Assim, conseguimos descobrir qual foi a última base daquela molécula já que
diferentes didesoxinucleotídeos -- com diferentes bases nitrogenadas (A, C, G ou T) --,
produzem fluorescência diferente a ser captada pelo laser e, dessa forma, sabemos se
a última base daquela molécula é uma adenina, uma guanina, uma citosina ou uma
timina. E à medida que as moléculas vão passando pelo gel, cada uma contendo a
diferença de um único nucleotídeo marcado de acordo com sua base, o computador vai
gerando um perfil de fluorescências que posteriormente serão transformadas nas letras
que representam a seqüência de bases da molécula original por algoritmos específicos,
que trataremos posteriormente neste curso.
       Não é tarefa fácil explicar na forma de texto como é realizado o
sequenciamento do DNA e, por isso, recomendo aos alunos acessarem o seguinte site
para entenderem melhor como o seqüenciamento do DNA é realizado, passo a passo:
http://www.dnalc.org/shockwave/cycseq.html. Outras animações interessantes em
biologia molecular (como a da técnica de PCR de amplificação do DNA ou técnicas
forenses baseadas em DNA) podem ser obtidas no mesmo site. É preciso, entretanto,
fazer o download gratuito do programa macromedia shockwave.


2.3.   Genômica

        Um genoma consiste no conjunto haplóide de informações presentes no DNA de
um determinado organismo. O conjunto é haplóide porque, na verdade, um organismo
diplóide apresenta uma dupla cópia de um mesmo segmento de DNA, presente nos
cromossomos homólogos. Assim, não faz sentido ter essa redundância de informação
e, por isso, considera-se o genoma como sendo o conjunto haplóide de informação
genética. Para obter uma seqüência genômica devemos pegar as células de um
determinado organismo, purificarmos seu DNA e realizarmos a construção da chamada
biblioteca de DNA genômico. Para tal, o DNA do organismo deve ser picotado em
pequenos pedacinhos e ligado nos chamados vetores de clonagem -- que podem ser
plasmídeos, cosmídeos ou vetores que permitem a inserção de segmentos grandes de
DNA, como os BACs ou YACs que são, respectivamente, os cromossomos artificiais de
bactérias e leveduras. A partir desses vetores é que são, freqüentemente,
seqüenciados os segmentos de DNA e cada reação de sequenciamento produz
moléculas apresentando algo entre trezentos e mil pares de bases. Como os genomas
são muito maiores do que esse tamanho, mostra-se necessária a montagem do
genoma utilizando algoritmos de sobreposição de seqüências, que serão apresentados
em aula posterior.
        E se o genoma consiste no sequenciamento da molécula de DNA de uma
determinada célula, o transcriptoma consiste no sequenciamento do conteúdo de RNA
mensageiro (mRNA) produzido em uma determinada célula sujeita a determinada
condição. Enquanto uma célula apresenta apenas um genoma estático e imutável, a


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
15


mesma pode apresentar milhares de diferentes conteúdos de transcriptoma, já que a
expressão de genes depende de diversos fatores, como o grau de maturação da célula,
a temperatura à qual ela está sujeita, os nutrientes presentes no meio, a presença de
algum agente mutagênico específico e mais milhares de outros fatores. Assim, os
estudos de transcriptoma podem mostrar a adaptação da célula a determinada
condição e podemos estudar os genes que ficam ativos quando dessa condição. Na
produção de um projeto transcriptoma (ou de genômica funcional, como também é
freqüentemente chamado) deve-se purificar o conteúdo de mRNA da célula da
condição desejada. Como o RNA é uma molécula muito instável, realiza-se sua
transcrição reversa, transformando este RNA numa molécula conhecida como cDNA,
que representa o DNA complementar à seqüência daquele mRNA. Esse cDNA é então
clonado em vetores de clonagem para a produção da biblioteca de cDNA que contém
uma amostra fiel dos mRNAs que foram produzidos pela célula naquela condição. Vale
notar que, enquanto no genoma observa-se normalmente apenas uma cópia de cada
gene, nas análises de transcriptoma, cada um dos genes pode estar amostrado
dezenas de vezes, pois a célula pode estar precisando do mesmo para realizar algum
tipo de processo e ele pode ter sido transcrito centenas de vezes em moléculas de
mRNA.


2.4.   As ômicas: integrando a bioinformação

       Veja o artigo publicado na edição 32 da revista biotecnologia:
       http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf.

     O pesquisador da Embrapa Soja, Eliseu Binneck, apresenta o status atual da
genômica no mundo e ainda vários conceitos importantes de biologia molecular e
genômica.

Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-
37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf


2.5.   O PERL e outras linguagens de programação

        No capítulo anterior discutimos sobre os conhecimentos relevantes para um
profissional na área de bioinformática. Nesse momento, portanto, gostaria de falar
mais um pouco sobre a informática utilizada para a análise de seqüências. É
extremamente importante que qualquer pessoa trabalhando na área de bioinformática
conheça alguma linguagem de programação. E a principal linguagem utilizada por
profissionais da bioinformática é o PERL. O PERL é uma linguagem de script que foi
criada em 1987 por um cientista da computação chamado Larry Wall e é uma sigla
para Practical Extraction and Report Language ou, em português, Linguagem Prática
de Extração e Relatório. Segundo a wikipedia (http://pt.wikipedia.org/), a origem do
PERL remonta ao shell scripting, que é a programação em linhas de comando, ao awk,
uma outra linguagem bem simples de programação shell e à linguagem C, uma das
mais utilizadas pelos programadores. Essa linguagem é disponível para praticamente
todos os sistemas operacionais, mas é utilizada mais freqüentemente em sistemas
Unix e compatíveis. E o PERL é freqüentemente utilizado pelos bioinformatas porque é
uma linguagem montada para trabalhar facilmente com o processamento de cadeias
de caracteres (chamadas de strings pelos informatas), permitindo ainda uma fácil
manipulação de arquivos texto e a utilização das chamadas expressões regulares,
muito úteis para se realizar busca em seqüências de caracteres. Como tanto o DNA


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
16


quanto o RNA e as proteínas podem ser facilmente representados por seqüências de
caracteres – nucleotídeos ou aminoácidos, representados por seqüências de uma letra
--, o PERL acabou por permitir, intrinsecamente, uma fácil manipulação dos dados de
biologia molecular.
       Um exemplo simples de programa em PERL é apresentado abaixo para
transformar uma seqüência de DNA de entrada em uma nova seqüência de RNA. O
programa considera que a fita de DNA de entrada é a fita codificadora e, portanto, o
programa apenas transforma as letras T, de timina, do DNA em letras U, de uracila,
representando as bases do RNA.

Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA.

#!/usr/bin/perl

# Seqüência que se deseja utilizar
$meuDNA= “TTCCGAGCCAATTGTATCAGTTGCCAATAG”;

# Faz com que a seqüência de RNA receba a mesma seqüência do DNA
$meuRNA = $meuDNA;

# Troca as bases produzindo a fita complementar
$meuRNA =~ tr/T/U/;
print “Minha seqüência de RNA é: n $meuRNA”;

        A primeira linha é obrigatória e diz ao programa o caminho onde se encontra o
interpretador PERL para que o programa possa encontrá-lo na hora de sua execução.
Normalmente o PERL está disponível no diretório /usr/bin das distribuições Unix. Vale
notar que, ao contrário da grande maioria das outras linguagens de programação
normalmente utilizadas, um programa PERL não é compilado de forma a gerar um
executável em linguagem de máquina. O script PERL necessita, portanto, de que exista
um interpretador PERL instalado em alguma pasta de trabalho dentro do computador e
é exatamente a pasta onde esse interpretador está localizado que deve aparecer nesta
primeira linha de código. As linhas do script que se começam com o sinal “#”
representam linhas de comentário e servem apenas para facilitar o entendimento do
código, não sendo realmente lidas pelo interpretador. Todas as variáveis em
programação PERL são precedidas do sinal de dólar “$”, elas não têm um tipo pré-
definido (como inteiro, booleano, real, etc.) e não precisam ser declaradas
anteriormente, cabe ao programador saber como e em que contexto devem ser
utilizadas. Há também as variáveis do tipo array, que são precedidas do sinal de “@” e
as variáveis do tipo hash, que devem ser precedidas do sinal de “%”. Todos os
comandos terminam sempre com um sinal de ponto-e-vírgula. Neste exemplo, a linha
que realmente faz a tradução de uma seqüência de DNA para uma seqüência de RNA é
a que apresenta o sinal “=~”. Esse sinal está relacionado à utilização de uma
expressão regular que, no caso, faz a tradução de todos as letras T de uma seqüência
de caracteres, transformando-as em letras U.
        No fundo, a bioinformática – e, num sentido mais amplo, todo software -- pode
ser desenvolvido utilizando-se qualquer linguagem de programação e há os que ainda
preferem utilizar a linguagem C ou Java para produzir qualquer tipo de programa. No
fundo, essa é uma opção pessoal e por mais que uma ou outra linguagem seja mais
adaptada ou mais rápida para determinado problema, é possível fazer quase qualquer
coisa com quase qualquer linguagem. Entretanto, mesmo essa simples tradução que
fizemos de DNA para RNA com apenas uma linha de código, pode se tornar mais árdua
quando realizada em diferentes linguagens e é exatamente por isso que o PERL é mais
utilizado na área; por facilitar a programação. Para sistemas mais complexos, no

     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
17


entanto, parece ser consenso que a utilização de uma linguagem de programação
multi-plataforma, como é o caso do Java, seja mais adequada.

2.6.   Referências Bibliográficas e textos complementares

1. Dolan     DNA      Learning     Center    -     Biology  Animation     Library   -
   http://www.dnalc.org/resources/BiologyAnimationLibrary.htm
2. Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-37.
   http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf
3. Perl, Wikipedia. http://pt.wikipedia.org/wiki/Perl


2.7.   Brainstorm

1. Você viu a animação sobre como é feito o sequenciamento do DNA, descreva agora
   as etapas através das quais é realizada esta técnica.
2. Descreva como são feitos projetos genoma e transcriptoma.
3. Perguntas sobre o texto escrito por Binneck.
       a. Apesar de apresentarem um número de genes bastante similar a outros
       organismos, diz-se que os seres humanos apresentam uma diversidade de
       proteínas muito maior do que eles. A que se deve tal diversidade?
       b. Qual a porcentagem do genoma humano que é responsável pela produção
       de genes/proteínas? E o resto, qual seria o motivo – se é que há algum – para
       haver tanto DNA não codificante no genoma?
       c. Você acredita que genes que alteram seus padrões de expressão em
       conjunto possam ter funções parecidas? Por quê?
       d. Escolha duas das ciências “ômicas” e descreva-as
       e. Discorra sobre o papel da bioinformática na agregação de dados em biologia
4. Com relação a linguagens de programação, por que o PERL é conhecido como a
   linguagem dos bioinformatas? Os dados em bioinformática podem ser tratados com
   outras linguagens de programação? Cite outra linguagem possível.




     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
18




                            CAPÍTULO 3
Alinhamento de Seqüências

3.1. Introdução

        O alinhamento de seqüências consiste no processo de comparar duas
seqüências (de nucleotídeos ou proteínas) de forma a se observar seu nível de
identidade. Essa técnica de comparação de seqüências é implementada segundo um
conceito de desenvolvimento de programas conhecido como um algoritmo guloso e é
um dos pilares de toda a bioinformática. Existem centenas de aplicações do
alinhamento de seqüências, tanto na identificação de genes e proteínas desconhecidas,
quanto na comparação da ordem de genes em genomas de organismos proximamente
relacionados (sintenia), no mapeamento de seqüências expressas dentro de um
genoma para identificação de genes, na montagem de genomas e em diversas outras
aplicações.
        Por exemplo, podemos alinhar duas seqüências para descobrirmos o grau de
similaridade entre as seqüências de forma que possamos inferir (ou não) a uma delas,
alguma propriedade já conhecida da outra (Prosdocimi et al., 2003). O alinhamento
entre duas seqüências pode ser feito de forma global ou local (Figura 3.1.).




Figura 3.1. Alinhamento global e local. À esquerda vemos um exemplo de como é
feito um alinhamento global das seqüências e à direita vemos um exemplo da
realização de um alinhamento local. Retirado de Prosdocimi et al., 2003.


3.2. Alinhamento Global

       O alinhamento global é feito quando comparamos uma seqüência de
aminoácidos ou nucleotídeos com outra, ao longo de toda sua extensão
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O algoritmo
Needleman-Wunsch é o mais conhecido para realizar esse tipo de alinhamento,


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
19


embora           outros          programas,           como         o          MULTALIN
(http://prodes.toulouse.inra.fr/multalin/multalin.html) também o façam (Corpet,
1988). Nesse caso são dados valores em uma matriz de comparação para as
similaridades (matches), diferenças (mismatches) e falhas (gaps) encontrados durante
o alinhamento das seqüências. As somas dos valores do alinhamento, de acordo com
essa matriz de comparação, resulta num valor, que é um escore de similaridade entre
as seqüências (Figura 3.2.). No MULTALIN não é dado escore de similaridade (já que ele
permite o alinhamento de várias seqüências ao mesmo tempo), e a semelhança entre
as seqüências deve ser medida através de inspeção visual.


3.3. Alinhamento Local

       O alinhamento local acontece quando a comparação entre duas seqüências não
é feita ao longo de toda sua extensão, mas sim através de pequenas regiões destas
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html).
       O principal programa utilizado para o alinhamento local de seqüências é o
BLAST (Basic Local Alignment Search Tool ou Ferramenta Básica de Procura por
Alinhamento Local), encontrado em http://www.ncbi.nlm.nih.gov/BLAST/. Esse
software compreende um conjunto de algoritmos de comparação de seqüências
montado de forma a explorar toda a informação contida em bases de dados de DNA e
proteínas (http://www.ncbi.nlm. nih.gov/BLAST/blast_overview.html). Os programas
BLAST foram desenvolvidos de modo a aumentar ao máximo a velocidade da busca
por similaridade -- já que as bases de dados são grandes e vêm crescendo
exponencialmente --, mesmo correndo o risco de perder um pouco na sensibilidade do
resultado (Altschul et al., 1997). A rapidez da busca deve-se ao fato de que o
programa utiliza uma heurística que quebra as seqüências de entrada e das bases de
dados em fragmentos – as palavras (words) – e procura, inicialmente, similaridades
entre elas. A busca é então feita com palavras de tamanho W que devem apresentar
pelo menos um escore T de alinhamento entre si, dado de acordo com uma matriz de
valores. Assim, as palavras que apresentam esse escore T (maior responsável pela
velocidade e sensibilidade da busca) (Altschul et al., 1997) são estendidas em ambas
as direções para ver se geram um alinhamento com um escore maior do que S. Uma
outra vantagem de se utilizar o alinhamento local feito pelo BLAST é que, dessa forma,
é possível identificar relações entre seqüências que apresentam apenas regiões
isoladas                                de                                 similaridade
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html).




Figura 3.2. Alinhamento de seqüências. O alinhamento de seqüências de DNA é feito
através da procura de uma região de similaridade entre duas seqüências utilizando um


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
20


algoritmo guloso. Quando essa região é encontrada são dados pontos para
similaridades (match), diferenças (mismatches), abertura de falhas (gap opening) e
extensão de falhas (gap extension) que possam ser encontradas no seu alinhamento.
A somatória dos pontos desse alinhamento é chamado de escore do alinhamento e, no
exemplo mostrado, o escore do alinhamento é 3. Tais escores são contabilizados tanto
nos alinhamentos globais quanto locais.


        Os resultados do BLAST são então apresentados de acordo com dois
parâmetros: o valor do escore (Score bits) e o valor E (e-value). O valor de escore
depende do tamanho do alinhamento, do número de matches/mismatches/gaps e da
matriz de comparação de seqüências utilizada e é normalizado através de variáveis
estatísticas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html). Já
o valor E representa o número de alinhamentos com escores iguais ou melhores que
“S” que seria de se esperar que ocorressem ao acaso numa base de dados do tamanho
da utilizada. Assim, quanto menor o valor E, melhor o alinhamento, de forma que
(num banco de dados de grandes proporções) um valor de E igual a zero significa que
não há chance de que um alinhamento entre as duas seqüências tenha ocorrido por
mero acaso (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html).
        O BLAST apresenta diferentes subprogramas que devem ser utilizados de
acordo com o tipo de seqüência de entrada e os bancos de dados que se deseja
pesquisar. A TABELA 3.1 apresenta as possibilidades de entrada, bancos de dados e
programa a ser utilizado.

      Formato da                              Formato da          Programa
     Seqüência de       Banco de dados     seqüência que é           BLAST
        Entrada                               comparado           adequado
 Nucleotídeos          Nucleotídeos       Nucleotídeos          BLASTn
 Proteínas             Proteínas          Proteínas             BLASTp
 Nucleotídeos          Proteínas          Proteínas             BLASTx
 Proteínas             Nucleotídeos       Proteínas             TBLASTn
 Nucleotídeos          Nucleotídeos       Proteínas             TBLASTtx
Tabela 3.1: Programas BLAST utilizados de acordo com o formato de entrada de
seqüência     e      banco       de    dados      desejados.      Adaptada de
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html.


3.4. Alinhamentos ótimos e heurísticos

       Algo que deve ser levado em consideração sempre que se deseja fazer
alinhamentos de seqüências é o fato de que o alinhamento desejado seja o melhor
possível de ser obtido através de ferramentas computacionais ou se desejamos apenas
uma aproximação válida desse melhor resultado. É evidente que, em condições
normais, desejaríamos sempre obter o melhor resultado de alinhamento possível e,
portanto, utilizaríamos os algoritmos que produzem resultados ótimos. Entretanto,
algumas vezes precisamos obter uma maior rapidez de busca e, portanto, aceitamos
que o resultado obtido não seja “o melhor possível” e, assim, utilizamos algoritmos
que apresentam algum tipo de heurística. E essa heurística, no caso, normalmente
consiste em uma forma qualquer que o programador utiliza para acelerar a produção
dos resultados, em detrimento da obtenção do melhor resultado possível. Assim
obtém-se um resultado aproximado, mas rápido. A tabela 3.2 apresenta os principais
algoritmos utilizados em bioinformática para o alinhamento de seqüências.



     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
21




                               Tipo de     Precisão do Número de seqüências
        Programa
                            Alinhamento Alinhamento        a serem alinhadas
 BLAST2Sequences                Local       Heurístico               2
 SWAT (Smith-Waterman)          Local         Ótimo                  2
 ClustalW                       Global      Heurístico               N
 Multalin                       Global      Heurístico               N
 Needleman-Wunsch               Global        Ótimo                  2
Tabela 3.2:Principais programas de alinhamento de seqüências e suas características.

        As ferramentas de alinhamento ótimo são aquelas que nos dão como resultado
o melhor alinhamento possível de acordo com a metodologia algorítmica de
comparação de seqüências. Via de regra, a execução desses algoritmos é mais lenta
do que a daqueles algoritmos que não geram o resultado perfeito e, como vimos na
tabela 4.2., existem ferramentas de alinhamento ótimo locais e globais. O maior
problema em utilizar os programas de alinhamento ótimo consiste nos casos onde são
alinhadas múltiplas seqüências entre si. Nesses casos, o alinhamento ótimo pode se
tornar simplesmente impossível de ser feito, pois gastaria uma quantidade de tempo
quase infinita para alinhar otimamente uma quantidade seqüências não muito grande.
Nos outros casos, entretanto, deve-se preferir a utilização de algoritmos que produzam
o alinhamento ótimo em detrimento dos algoritmos de pesquisa heurística.
        Algoritmos heurísticos são aqueles que não realizam o alinhamento ótimo entre
seqüências. Esses algoritmos freqüentemente utilizam alguma técnica alternativa para
acelerar o resultado da busca por seqüências similares, no caso. O BLAST, por
exemplo, como vimos no item anterior, parte a seqüência em pedaços para acelerar a
busca e outros algoritmos realizam diferentes maneiras de gerar um resultado que
seja o mais próximo possível do resultado ótimo. Como já comentado, são
principalmente utilizados em alinhamentos múltiplos, onde os algoritmos ótimos
demoram um tempo muito grande para gerar os resultados. São freqüentemente
utilizados também quando da comparação de seqüências contra grandes bancos de
dados, exatamente como faz o BLAST, que procura a similaridade de uma seqüência
de entrada contra milhões de outras presentes em seu banco de dados.
        Muitas vezes, os resultados obtidos com programas heurísticos devem ser
confirmados por programas de alinhamento ótimo antes de serem publicados em
revistas especializadas. Entretanto algumas vezes tal procedimento não é necessário e
tudo vai depender do tipo de trabalho que está sendo realizado.


3.5. Alinhamentos simples e múltiplos

        Como também já foi comentado na seção anterior, existem dois tipos principais
de alinhamentos de seqüências no que concerne ao número de seqüências que são
comparadas durante o alinhamento. Quando apenas duas seqüências são comparadas
entre si, diz-se que o alinhamento é simples. E, nesses casos, normalmente prefere-se
utilizar alinhamentos ótimos para gerarem os resultados, exceto nos casos onde
milhares de alinhamentos simples devem ser realizados.
        De forma contrária, considera-se um alinhamento múltiplo quando três ou mais
seqüências devem ser alinhadas entre si. No fundo, o alinhamento múltiplo é montado
a partir do alinhamento par a par de cada uma das seqüências com todas as outras,
seguido por um outro procedimento que irá gerar o resultado final do alinhamento de
todas contra todas. Assim, se 10 seqüências são comparadas entre si, serão
necessárias 10! (fatorial de 10) comparações de seqüências, o que representam


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
22


3.628.800 comparações. E é exatamente por isso que os programas heurísticos são
preferidos para gerar esse tipo de resultado.


3.6. Matrizes de comparação

       Outra coisa de suma importância quando da realização de qualquer alinhamento
de seqüências é a matriz de substituição que é utilizada. Na figura 3.2. é mostrado um
alinhamento e o número de “pontos” dados para coincidências (matches), divergências
(mismatches), abertura de gaps (gap opening) e extensão de gaps (gap extension).
Entretanto, ao utilizarmos matrizes de substituição podemos dar valores diferentes
para coincidências de diferentes nucleotídeos ou aminoácidos. Vale notar que o
resultado de um alinhamento de seqüências pode ser completamente diferente
dependendo da matriz de substituição utilizada.
       As matrizes de comparação são principalmente utilizadas durante o alinhamento
de seqüências de proteínas e isso se deve ao fato de que existem aminoácidos que são
mais (ou menos) parecidos entre si do que outros. Há aminoácidos com cargas
polares, apolares ou sem carga e a mudança, em uma proteína, de um aminoácido
apresentando uma determinada característica para outro da mesma característica é
menos drástica do que uma mudança para um aminoácido apresentando característica
diferente. Portanto, as matrizes de substituição são extremamente utilizadas no
alinhamento de seqüências protéicas.
       Mesmo no caso de seqüências de nucleotídeos são mais comuns as mutações
conhecidas como transições do que as transversões. Nas transições, a mutação ocorre
entre bases do mesmo tipo, purina para purina (A para G ou G para A) ou pirimidina
para pirimidina (C para T ou T para C), enquanto nas transversões ocorre a mudança
de uma purina para uma pirimidina ou o contrário. Dessa forma, ao utilizarmos
matrizes de substituição, podemos dar mais pesos para as transversões do que para as
transições, o que faria com que o resultado fosse mais relevante e pudesse estar mais
relacionado com a evolução, por exemplo.
       As matrizes de substituição mais comuns para seqüências nucleotídicas são a
mat50 e a mat70, enquanto para seqüências protéicas as mais conhecidas são as
matrizes PAM e BLOSUM. As matrizes BLOSUM (Blocks Substitution Matrix), por
exemplo, são baseadas na observação das freqüências de substituição em blocos de
alinhamentos locais de proteínas relacionadas. Existem várias matrizes BLOSUM e elas
devem ser utilizadas para comparar proteínas contendo um determinado valor de
identidade, por exemplo, a matriz mais utilizada pelos programas é a BLOSUM62, que
foi montada para comparar proteínas que apresentem 62% de aminoácidos idênticos.
       Abaixo vemos as matrizes de substituição de nucleotídeos mat50 e mat70.
Podemos perceber que a matriz mat70 apresenta valores menores para algumas
substituições. Isso faz com que o valor final do alinhamento entre duas seqüências de
DNA seja menor e, portanto, a matriz mat70 gera um resultado de alinhamento local
de um menor número de bases do que a matriz mat50, que estende o alinhamento um
pouco mais.

     Bases        A         C          G         T         Y          R         N
       A           2        -2          0        -2        -2          1        0
       C          -2         2         -2         0         1         -2        0
       G           0        -2          2        -2        -2          1        0
       T          -2         0         -2         2         1         -2        0
       Y          -2         1         -2         1         1         -2        0
       R           1        -2          1        -2        -2          1        0
       N           0         0          0         0         0          0        0


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
23


Tabela 3.3: Matriz de substituição de nucleotídeos mat50. O valor dado para cada
troca pode ser visto nas interseções. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotídeo.

      Bases       A        C         G         T     Y        R        N
        A          2       -2       -1         -2    -2        0       0
        C         -2        2       -2         -1     0       -2       0
        G         -1       -2        2         -2    -2        0       0
        T         -2       -1       -2          2     0       -2       0
        Y         -2        0       -2          0     0       -2       0
        R          0       -2        0         -2    -2        0       0
        N          0        0        0          0     0        0       0
Tabela 3.4: Matriz de substituição de nucleotídeos mat70. O valor dado para cada
troca pode ser visto nas interseções. O Y representa pirimidinas, o R representa
purinas e o N representa qualquer nucleotídeo.


3.7. Exemplos reais de alinhamentos

a) Alinhamento global simples entre seqüências de DNA, usando o algoritmo
Needleman-Wunsch.
########################################
# Program: needle
# Rundate: Fri Nov 19 15:57:40 2004
# Align_format: srspair
# Report_file: 1x2.needle
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: Seq1
# 2: Seq2
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 736
# Identity:     464/736 (63.0%)
# Similarity:   464/736 (63.0%)
# Gaps:         272/736 (37.0%)
# Score: 2261.0
#
#
#=======================================

Seq1                1                                                                    0

Seq2                1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC            50

Seq1                1                                                                    0

Seq2               51 TGGAATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGAC           100

Seq1                1                                    CTTTCAAGATGAACG            15
                                                         |||||||||||||||
Seq2              101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG           150

Seq1               16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA            65
                      ||||||||||||||||||||||||||||||||||||||||||||||||||


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
24


Seq2              151 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA           200

Seq1               66 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT           115
                      ||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2              201 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT           250

Seq1              116 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG           165
                      ||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2              251 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG           300

Seq1              166 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT           215
                      ||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2              301 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT           350

Seq1              216 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT           265
                      ||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2              351 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT           400

Seq1              266 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG           315
                      ||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2              401 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG           450

Seq1              316 CAGTCCATAA----------------------------------------           325
                      ||||||||||
Seq2              451 CAGTCCATAAAGGTCAGATTCTGTTAATGTAAACAGTTTTTGTATATACA           500

Seq1              326 --------------------------------------------------           325

Seq2              501 GCGTTCCTATCTTTGTTTTTCTTCAATACTTACCTGTTAGGGTTTTTGGT           550

Seq1              326 ---------AGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT           366
                               |||||||||||||||||||||||||||||||||||||||||
Seq2              551 CATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT           600

Seq1              367 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT           416
                      ||||||||||||||||||||||||||||||||||||||||||||||||||
Seq2              601 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT           650

Seq1              417 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA             464
                      ||||||||||||||||||||||||||||||||||||||||||||||||
Seq2              651 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATC           700

Seq1              465                                               464

Seq2              701 CAGCCTTAAACGACACATAGAAAGCATTCACGAAAG          736


#---------------------------------------
#---------------------------------------

b) Alinhamento local simples entre as mesmas seqüências de DNA, usando o
algoritmo BLAST.
BLASTN 2.2.8 [Jan-05-2004]


Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),
"Gapped BLAST and PSI-BLAST: a new generation of protein database search
programs", Nucleic Acids Res. 25:3389-3402.

Query= Seq1
         (464 letters)



     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
25


Database: seq2
           1 sequences; 736 total letters

Searching.done

                                                                        Score    E
Sequences producing significant alignments:                             (bits) Value

Seq2                                                                          652   0.0

>Seq2
            Length = 736

 Score = 652 bits (329), Expect = 0.0
 Identities = 329/329 (100%)
 Strand = Plus / Plus


Query: 1   ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195


Query: 61  gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255


Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315


Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375


Query: 241 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 300
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 376 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 435


Query: 301 acacacatatcaaagcagtccataaaggt 329
           |||||||||||||||||||||||||||||
Sbjct: 436 acacacatatcaaagcagtccataaaggt 464



 Score = 276 bits (139), Expect = 3e-78
 Identities = 139/139 (100%)
 Strand = Plus / Plus


Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619


Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679



     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
26



Query: 446 gcgaaacttctctcagaaa 464
           |||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698


  Database: seq2
    Posted date: Nov 19, 2004 3:58 PM
  Number of letters in database: 736
  Number of sequences in database: 1

Lambda     K           H
    1.37       0.711       1.31

Gapped
Lambda     K           H
    1.37       0.711       1.31


Matrix: blastn matrix:1 -3
Gap Penalties: Existence: 5, Extension: 2
Number of Hits to DB: 2
Number of Sequences: 1
Number of extensions: 2
Number of successful extensions: 2
Number of sequences better than 10.0: 1
Number of HSP's better than 10.0 without gapping: 1
Number of HSP's successfully gapped in prelim test: 0
Number of HSP's that attempted gapping in prelim test: 0
Number of HSP's gapped (non-prelim): 2
length of query: 464
length of database: 736
effective HSP length: 9
effective length of query: 455
effective length of database: 727
effective search space:    330785
effective search space used:    330785
T: 0
A: 0
X1: 6 (11.9 bits)
X2: 15 (29.7 bits)
S1: 12 (24.3 bits)
S2: 8 (16.4 bits)

c) Alinhamento global múltiplo entre as mesmas seqüências de DNA (e outras
duas mais), usando o algoritmo CLUSTALW.

CLUSTAL W (1.81) multiple sequence alignment


Seq1              ------------------------------------------------------------
Seq4              -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2              ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3              GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA


Seq1              ------------------------------------------------------------
Seq4              ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2              ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3              ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA




     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
27


Seq1             ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4             AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq2             AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq3             AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
                                      ***************************************

Seq1             TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq4             TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq2             TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
Seq3             TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT
                 ************************************************************

Seq1             TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq4             TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq2             TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
Seq3             TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG
                 ************************************************************

Seq1             ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq4             ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq2             ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
Seq3             ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA
                 ************************************************************

Seq1             GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq4             GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq2             GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
Seq3             GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT
                 ************************************************************

Seq1             TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
Seq4             TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGTCAGATTCTGT
Seq2             TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
Seq3             TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT----------
                 **************************************************

Seq1             ------------------------------------------------------------
Seq4             TAATGTAAACAGTTTTTGTATATACAGCGTTCCTATCTTTGTTTTTCTTCAATACTTACC
Seq2             ------------------------------------------------------------
Seq3             ------------------------------------------------------------


Seq1             -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
Seq4             TGTTAGGGTTTTTGGTCATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATA
Seq2             -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
Seq3             -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA
                                              *******************************

Seq1             AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq4             AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq2             AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA
Seq3             AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACANAGGTCTCA
                 *************************************************** ********

Seq1             AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA---------------
Seq4             AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTTAAACGA
Seq2             AGCCTTTCCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTAAAACGA
Seq3             AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTANAACGA
                 ******** ************************************

Seq1             ------------------------------------------------------------
Seq4             CACATAGAAAGCATTCACGAAAG-------------------------------------
Seq2             CACATAGAAGCAATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGATTGTATAAT


     © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra.
 Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online
Introdução à bioinformática online

More Related Content

Recently uploaded

PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
Aula de História Ensino Médio Mesopotâmia.pdf
Aula de História Ensino Médio Mesopotâmia.pdfAula de História Ensino Médio Mesopotâmia.pdf
Aula de História Ensino Médio Mesopotâmia.pdfFernandaMota99
 
Ácidos Nucleicos - DNA e RNA (Material Genético).pdf
Ácidos Nucleicos - DNA e RNA (Material Genético).pdfÁcidos Nucleicos - DNA e RNA (Material Genético).pdf
Ácidos Nucleicos - DNA e RNA (Material Genético).pdfJonathasAureliano1
 
RedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdfRedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdfAlissonMiranda22
 
Descreve o conceito de função, objetos, imagens, domínio e contradomínio.
Descreve o conceito de função, objetos, imagens, domínio e contradomínio.Descreve o conceito de função, objetos, imagens, domínio e contradomínio.
Descreve o conceito de função, objetos, imagens, domínio e contradomínio.Vitor Mineiro
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãIlda Bicacro
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...azulassessoria9
 
Mapa mental - Classificação dos seres vivos .docx
Mapa mental - Classificação dos seres vivos .docxMapa mental - Classificação dos seres vivos .docx
Mapa mental - Classificação dos seres vivos .docxBeatrizLittig1
 
A poesia - Definições e Característicass
A poesia - Definições e CaracterísticassA poesia - Definições e Característicass
A poesia - Definições e CaracterísticassAugusto Costa
 
Rotas Transaarianas como o desrto prouz riqueza
Rotas Transaarianas como o desrto prouz riquezaRotas Transaarianas como o desrto prouz riqueza
Rotas Transaarianas como o desrto prouz riquezaronaldojacademico
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...azulassessoria9
 
Transformações isométricas.pptx Geometria
Transformações isométricas.pptx GeometriaTransformações isométricas.pptx Geometria
Transformações isométricas.pptx Geometriajucelio7
 
Atividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas GeográficasAtividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas Geográficasprofcamilamanz
 
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptxSlides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptxLuizHenriquedeAlmeid6
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxLuizHenriquedeAlmeid6
 
historia Europa Medieval_7ºano_slides_aula12.ppt
historia Europa Medieval_7ºano_slides_aula12.ppthistoria Europa Medieval_7ºano_slides_aula12.ppt
historia Europa Medieval_7ºano_slides_aula12.pptErnandesLinhares1
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelGilber Rubim Rangel
 
PLANOS E EIXOS DO CORPO HUMANO.educacao física pptx
PLANOS E EIXOS DO CORPO HUMANO.educacao física pptxPLANOS E EIXOS DO CORPO HUMANO.educacao física pptx
PLANOS E EIXOS DO CORPO HUMANO.educacao física pptxSamiraMiresVieiradeM
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxkarinedarozabatista
 

Recently uploaded (20)

PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
Aula de História Ensino Médio Mesopotâmia.pdf
Aula de História Ensino Médio Mesopotâmia.pdfAula de História Ensino Médio Mesopotâmia.pdf
Aula de História Ensino Médio Mesopotâmia.pdf
 
Ácidos Nucleicos - DNA e RNA (Material Genético).pdf
Ácidos Nucleicos - DNA e RNA (Material Genético).pdfÁcidos Nucleicos - DNA e RNA (Material Genético).pdf
Ácidos Nucleicos - DNA e RNA (Material Genético).pdf
 
RedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdfRedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdf
 
Descreve o conceito de função, objetos, imagens, domínio e contradomínio.
Descreve o conceito de função, objetos, imagens, domínio e contradomínio.Descreve o conceito de função, objetos, imagens, domínio e contradomínio.
Descreve o conceito de função, objetos, imagens, domínio e contradomínio.
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! Sertã
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
 
Mapa mental - Classificação dos seres vivos .docx
Mapa mental - Classificação dos seres vivos .docxMapa mental - Classificação dos seres vivos .docx
Mapa mental - Classificação dos seres vivos .docx
 
A poesia - Definições e Característicass
A poesia - Definições e CaracterísticassA poesia - Definições e Característicass
A poesia - Definições e Característicass
 
Rotas Transaarianas como o desrto prouz riqueza
Rotas Transaarianas como o desrto prouz riquezaRotas Transaarianas como o desrto prouz riqueza
Rotas Transaarianas como o desrto prouz riqueza
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
 
Transformações isométricas.pptx Geometria
Transformações isométricas.pptx GeometriaTransformações isométricas.pptx Geometria
Transformações isométricas.pptx Geometria
 
Atividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas GeográficasAtividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas Geográficas
 
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptxSlides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
 
historia Europa Medieval_7ºano_slides_aula12.ppt
historia Europa Medieval_7ºano_slides_aula12.ppthistoria Europa Medieval_7ºano_slides_aula12.ppt
historia Europa Medieval_7ºano_slides_aula12.ppt
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim Rangel
 
PLANOS E EIXOS DO CORPO HUMANO.educacao física pptx
PLANOS E EIXOS DO CORPO HUMANO.educacao física pptxPLANOS E EIXOS DO CORPO HUMANO.educacao física pptx
PLANOS E EIXOS DO CORPO HUMANO.educacao física pptx
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
 

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Introdução à bioinformática online

  • 1. CURSO ON LINE INTRODUÇÃO À BIOINFORMÁTICA Prof. Dr. Francisco Prosdocimi 2007
  • 2. ÍNDICE Pág. CAPÍTULO 1 UMA VISÃO GLOBAL DA BIOINFORMÁTICA 3 1.1. O que é a bioinformática? 3 1.2. O surgimento da bioinformática 3 1.3. O que preciso saber para ser um bom bioinformata? 5 1.4. Cursos de pós-graduação em bioinformática no Brasil 6 1.5. Conversando sobre bioinformática – BIOCHAT 6 1.6. Referências Bibliográficas e textos complementares 12 1.7. bRAINsTORM 12 CAPÍTULO 2 GENOMA, BIOLOGIA MOLECULAR E COMPUTAÇÃO 13 2.1. Introdução 13 2.2. Sequenciamento do DNA 13 2.3. Genômica 14 2.4. As ômicas: integrando a bioinformação 15 2.5. O PERL e outras linguagens de programação 15 2.6. Referências Bibliográficas e textos complementares 17 2.7. bRAINsTORM 17 CAPÍTULO 3 ALINHAMENTO DE SEQÜÊNCIAS 18 3.1. Introdução 18 3.2. Alinhamento Global 18 3.3. Alinhamento Local 19 3.4. Alinhamentos ótimos e heurísticos 20 3.5. Alinhamentos simples e múltiplos 21 3.6. Matrizes de comparação 22 3.7. Exemplos reais de alinhamentos 23 3.8. Referências Bibliográficas 28 3.9. bRAINsTORM 28 CAPÍTULO 4 MONTANDO UM GENOMA 29 4.1. Sobre genomas eucarióticos e procarióticos 29 4.2. Base-calling 30 4.3. Cross-match 31 4.4. Agrupamento de seqüências 32 4.5. Sobre a cobertura dos genomas 34 4.6. Referências Bibliográficas 35 4.7. bRAINsTORM 35 CAPÍTULO 5 ANÁLISE DE TRANSCRIPTOMAS 36 5.1. As ESTs 36 5.2. Histórico das ESTs 37 5.3. Agrupamento de ESTs 38 5.4. O genoma e o transcriptoma 39 5.5. SAGE – Serial Analysis of Gene Expression 40 5.6. Microarrays 40 5.7. Referências Bibliográficas 41 5.8. bRAINsTORM 41 CAPÍTULO 6 BANCOS DE DADOS EM BIOLOGIA MOLECULAR 42 6.1. Histórico 42 6.2. Bancos primários e secundários 43 6.3. GenBank e GenPept 43 6.4. RefSeq – O banco de dados de seqüências de referência 44 6.5. SWISSPROT – O maior banco de dados secundário de seqüências de proteínas 45 6.6. Gene Ontology – Sistema de classificação de genes de acordo com suas características 46 6.7. Referências Bibliográficas 46 6.8. bRAINsTORM 47 CAPÍTULO 7 ANOTAÇÃO DE GENOMAS 49 7.1. Introdução 49 7.2. Anotação de Nucleotídeos 49 7.3. Anotação de Proteínas 50 7.4. Anotação de Processos 50 7.5. A realização da Anotação Genômica (Sociologia da Anotação) 51 7.6. Referências Bibliográficas 52 7.7. bRAINsTORM 53 CAPÍTULO 8 BIOINFORMÁTICA EVOLUTIVA E GENOMAS COMPLETOS 54 8.1. Homologia, Ortologia e Paralogia 54 8.2. COG 56 8.3. Trabalhando com genomas completos 56 8.4. Referências Bibliográficas 57 8.5. bRAINsTORM 58 CAPÍTULO 9 BIOINFORMÁTICA ESTRUTURAL 59 9.1. Sobre a estrutura das proteínas 59 9.2. Protein Data Bank: o banco de dados de estruturas de proteínas 60 9.3. Modelagem molecular por homologia 61 9.4. Alguns programas de modelagem molecular 63 9.5. Threading 63 9.6. CASP – Critical Assessment of Structure Prediction 63 9.7. Estrutura de um arquivo no formato PDB 64 9.8. Referências Bibliográficas 67 9.9. bRAINsTORM 68 CAPÍTULO 10 CONCLUSÕES E PENSAMENTOS FILOSÓFICOS SOBRE A BIOINFORMÁTICA 69 10.1. Sobre bioinformática, genoma e ciência 69 10.2. Introdução 69 10.3. Genoma e o método científico 70 10.4. Um conceito de bioinformática 71 10.5. Princípios paradigmáticos em bioinformática 72 10.6. Conclusão 74 10.7. bRAINsTORM 74
  • 3. PREFÁCIO Quando em 2002 realizei, concomitantemente ao meu mestrado em genética pela UFMG, o excelente curso de especialização em Bioinformática do LNCC, ministrado por muitos dos maiores especialistas em genômica e bioinformática de nosso país, tive o privilégio de ser um dos organizadores (e o primeiro autor) de um trabalho entitulado “Bioinformática: manual do usuário” em que todos os cerca de 20 alunos do curso se organizaram com o objetivo de gerar uma publicação básica sobre a área de pesquisa à qual nos estamos aprofundando e formando. Esta publicação foi finalmente publicada na revista Biotecnologia Ciência e Desenvolvimento alguns meses depois. Tendo mantido meu contato com a editora da revista Biotecnologia, enquanto terminava meus estudos de doutoramento em bioinformática, recebi um convite para elaborar um curso on line a ser ministrado através do portal biotecnologia da Internet (http://www.biotecnologia.com.br). Este documento que agora vos apresento gratuitamente pela Internet (http://biotec.icb.ufmg.br/chicopros/Prosdocimi07_Curso Bioinfo.pdf) consiste exatamente neste curso, produzido em 2006 e ministrado em 2007 para uma turma de 40 alunos. Ainda que navegando por problemas técnicos, acredito que o curso foi bastante proveitoso e produtivo, sendo que a grande maioria dos alunos saiu do mesmo tendo adquirido conteúdo e aprendido a compreender muito sobre a lógica e o pensamento em bioinformática. Hoje, passados quase 4 anos que ministrei este curso pela Internet, vejo este documento arquivado entre meus arquivos do período jurássico e tenho pena de deixar este conhecimento perdido nos meandros digitais do meu disco rígido. Assim, contatei recentemente a editora da revista que lendo o contrato que fizemos à época e dizendo serem meus os direitos autorais desta apostila ou “esboço de livro”, informou-me que tenho o direito de publicar o presente documento na Internet para que se torne acessível a qualquer indivíduo interessado em aprender a arte e a ciência da bioinformática. Recomendou-me ainda que eu atualizasse as informações aqui presentes e publicasse um livro de verdade, a ser vendido nas livrarias. Tenho sim planos de fazê-lo, mas sei que precisaria reestruturar boa parte do que está aqui contido e, por falta de tempo para tanto, decido publicar esta versão gratuitamente pela Internet. Assim, caso haja interesse de leitores, estudantes ou editores, estarei disposto a atualizar estas informações e produzir uma segunda edição mais completa e atualizada sobre presentes assuntos. Brasília, numa quarta-feira de cinzas. 17/02/2010 Chico Prosdocimi http://biotec.icb.ufmg.br/chicopros http://chicopros.blogspot.com
  • 5. 3 CAPÍTULO 1 Uma visão global da bioinformática Iniciando nossa Interação Nesta primeiro capítulo apresentaremos uma visão geral da bioinformática, vamos conversar sobre as necessidades e oportunidades de capacitação para quem deseja atuar nessa área. 1.1. O que é a bioinformática? Podemos considerar a bioinformática como uma linha de pesquisa que envolve aspectos multidisciplinares e que surgiu a partir do momento em que se iniciou a utilização de ferramentas computacionais para a análise de dados genéticos, bioquímicos e de biologia molecular. A bioinformática envolve a união de diversas linhas de conhecimento – a ciência da computação, a engenharia de softwares, a matemática, a estatística e a biologia molecular – e tem como finalidade principal desvendar a grande quantidade de dados que vem sendo obtida através de seqüências de DNA e proteínas. Para o desenvolvimento de genomas completos, a informática é imprescindível e a biologia molecular moderna não estaria tão avançada hoje, não fossem os recursos computacionais existentes. 1.2. O surgimento da bioinformática A bioinformática, apesar de ser uma ciência nova e em desenvolvimento, já apresenta uma figura clássica que freqüentemente é mostrada em qualquer palestra ou curso que se vá sobre a área. Essa figura, mostrando o crescimento exponencial do GenBank nos últimos anos, tenta mostrar que, mais do que uma abstração possível, a bioinformática é hoje uma necessidade para a análise de dados em biologia molecular. Desde que os seqüenciadores capilares de DNA em larga escala surgiram, no fim da década de 90, a quantidade de dados biológicos produzidas simplesmente alcançou níveis que fizeram com que análises manuais de seqüências de DNA se tornassem simplesmente alternativas absurdas para o estudo de dados de genoma e transcriptoma. Dois desenvolvimentos foram importantes para permitir tanto o surgimento da bionformática quanto o rápido desenvolvimento da produção de seqüências de DNA. O primeiro deles foi o sequenciamento capilar. Enquanto no passado as seqüências eram produzidas em placas enormes que deveriam ser corridas de forma uniforme e com um grande cuidado, com o desenvolvimento da tecnologia de sequenciamento capilar, a eletroforese ocorria dentro de tubos com a espessura de um cabelo humano, contendo uma solução polimérica por onde o DNA deveria passar guiado por uma corrente elétrica, como uma eletroforese normal. O outro grande desenvolvimento foi a marcação dos didesoxinucleotídeos necessários para o sequenciamento do DNA com moléculas fluorescentes. Enquanto as reações tradicionais eram realizadas com marcadores radioativos, que tornavam a metodologia um tanto quanto trabalhosa e © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 6. 4 até mesmo perigosa, os marcadores fluorescentes permitiam maior segurança e ainda um novo avanço. Enquanto era preciso correr diferentes reações para cada nucleotídeo na marcação radioativa, a técnica de marcação fluorescente permitia que cada base fosse marcada com um diferente fluorocromo que era capaz de emitir luz em um diferente comprimento de onda se excitado por um laser. Essa luz, lida por um detector, informava ao sistema qual nucleotídeo passava em diferentes momentos da eletroforese. E foi exatamente a reunião desses dois desenvolvimentos num só aparelho que produziu o equipamento que posteriormente ficaria conhecido como “o seqüenciador que criou a bioinformática”. O primeiro desses aparelhos foi produzido pela empresa Applied Biosystems e foi chamado de ABI Prism 3700. Apresentava 96 colunas (ou capilares para a eletroforese) e permitia o sequenciamento de cerca de 550 bases em cada coluna, sendo oito vezes mais rápida do que a melhor concorrente da época e possibilitando o sequenciamento de até 1 milhão de pares de bases por dia. Além de permitir o rápido desenvolvimento da bioinformática, esse seqüenciador ainda geraria brigas políticas sobre quem é que deveria sequenciar todo o genoma humano, uma empresa particular ou o consórcio público, mas isso é outra história. Figura 1.1. Crescimento do Genbank. Crescimento exponencial do número de seqüências contidas no GenBank ao longo das duas últimas décadas. Obtido em http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html. O que importa é que, desde 1998, quando o ABI Prism foi lançado, outras empresas desenvolveram também seus seqüenciadores capilares de larga escala e o custo dessas máquinas – que antes chegava a trezentos mil dólares – foi aos poucos caindo e permitindo que mais e mais laboratórios pudessem ter seus próprios seqüenciadores. Cada vez mais dessas máquinas são vendidas ainda hoje e o número de seqüências de DNA produzidas vem aumentando exponencialmente até o presente momento. Leitura complementar: http://nextisnowbr.blogspot.com/2009/12/next-generation-sequencing-estado-da.html © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 7. 5 1.3. O que preciso saber para ser um bom bioinformata? O profissional em bioinformática é raro no mercado, já que ele necessita saber e ser familiar a, pelo menos, três áreas distintas do conhecimento: a biologia molecular, a ciência da computação e a bioinformática per se. Além disso, conhecimentos em estatística e matemática são altamente recomendáveis. Imagine um biólogo que não tenha conhecimento de computação: ele será capaz de bolar uma infinidade de possíveis experimentos em bioinformática que gostaria que fossem gerados, mas será incapaz de colocá-los em prática. Do outro lado, um cientista da computação sem conhecimento em biologia e com sua característica ânsia de analisar dados, será capaz de pegar uma infinidade de dados biológicos e fazer uma grande quantidade de análises computacionais sem qualquer propósito, gerando resultados de difícil interpretação, por vezes ininterpretáveis ou sem qualquer sentido biológico. O trabalho em equipe, para a produção de projetos em bioinformática, pode ser interessante, desde que os profissionais trabalhem juntos todo o tempo. Reuniões apenas esporádicas normalmente fazem com que as idéias do trabalho do biólogo e do cientista da computação se afastem dos ideais iniciais da pesquisa. Isso no caso médio. É claro que é possível conseguir bons resultados em casos isolados. Considerando isso, torna-se necessário o desenvolvimento de um novo profissional, o bioinformata. Um biólogo que tenha tido uma formação parcial como cientista da computação ou vice-versa. Além disso, é preciso que tal profissional tenha ainda uma formação em bioinformática e que conheça profundamente as diferenças e as boas e más qualidades dos principais bancos de dados públicos sobre seqüências e estruturas de biomoléculas. Como não temos a intenção de ensinar biologia molecular ou ciência da computação, no presente curso daremos ênfase exatamente a esta última parte, que consiste na formação do bioinformata per si, que deve conhecer pelo menos o básico com relação à análise de genomas e as ferramentas e bancos de dados disponíveis na internet para o estudo dessa nova ciência. Com relação aos requisitos computacionais que serão apresentados apenas de passagem no presente curso, um profissional em bioinformática deve ter um bom conhecimento algum sistema operacional baseado em UNIX, sem qualquer sombra de dúvida. Quase todos os algoritmos utilizados para a pesquisa em bioinformática apresentam código aberto e são, freqüentemente, disponíveis apenas para sistema operacionais como o LINUX e o Solaris. Os programas de código aberto são aqueles nos quais os programadores disponibilizam todo o código fonte do programa para o usuário, que pode alterá-lo de acordo com a sua aplicação de interesse. E esse é também um dos motivos pelos quais os bioinformatas devem ser familiarizados com linguagens de programação. Um bioinformata que não sabe programar em uma linguagem qualquer tem dificuldades para se desenvolver e, portanto, o profissional deve estar ao menos apto a aprender alguma linguagem de programação. Outro conhecimento que gera um salto qualitativo na atividade do bioinformata é o conhecimento de bancos de dados e linguagem SQL. A linguagem SQL é a mais comumente utilizada em uma diversidade de bancos de dados e muitos sites disponibilizam informações armazenas em tabelas e bancos de dados inteiros. Devido à sua gratuidade e eficiência, o banco de dados mais utilizado em bioinformática é o MySQL, mas quaisquer outros podem ser utilizados sem demais inconvenientes. Mas mais importante ainda do que ser capaz de obter os bancos de dados públicos é o bioinformata ser capaz de criar seus próprios bancos de dados, organizando as informações de seu projeto e permitindo tanto um bom armazenamento quanto organização e fácil acesso aos dados. Além disso, o conhecimento de plataformas para disponibilizar dados para os pesquisadores é interessante e o bioinformata deve ter algum conhecimento de linguagem HTML e, de preferência alguma linguagem de © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 8. 6 programação para a internet, como o CGI ou o PHP, sendo que esse último ainda apresenta a vantagem de permitir fácil conexão com bancos de dados. É claro que a gama de conhecimento necessária para exercer bem uma profissão qualquer tende a ser infinita, mas é indispensável ao menos que o bioinformata seja proficiente em uma linguagem de programação e tenha bons conhecimentos de biologia molecular, dos bancos de dados e das ferramentas a serem utilizadas em cada caso. Aqui, iremos passar apenas de leve em programação e biologia molecular na próxima aula e depois passaremos direto para a parte que explica e mostra quais são as principais ferramentas utilizadas em análises genômicas e os principais bancos de dados que devem ser consultados em diferentes aplicações. 1.4. Cursos de pós-graduação em bioinformática no Brasil Até o presente momento parecem existir apenas três cursos de pós-graduação em bioinformática no Brasil. O primeiro e mais tradicional deles é o curso de pós- graduação Lato Sensu em Bioinformática do LNCC, cuja página oficial pode ser vista em http://www.lncc.br/~biologia/. Três turmas de alunos já graduados de todo o país já foram formadas por esta pós-graduação, inclusive o presente autor desse curso on- line, quem vos escreve. Consiste num ótimo curso de especialização, no qual os maiores expoentes do país na área são chamados para ministrar diferentes aulas nos campos da genômica, transcriptômica e proteômica. Além desse curso de pós- graduação, que dura cerca de três meses e meio, o LNCC também oferece cursos esporádicos com duração entre duas semanas e um mês e recomenda-se visitar a página do LNCC para mais informações (http://www.lncc.br). Logo a CAPES percebeu a importância de se abrirem cursos nessa área estratégica e propôs um edital para a formação de cursos de doutorado em bioinformática. A partir daí dois novos cursos de doutorado em bioinformática foram criados, um na USP (setembro de 2002) e outro na UFMG (abril de 2003). Para mais informações, visite o site dos programas http://www.ime.usp.br/posbioinfo/ e http://www.bioinfo.dout.ufmg.br/. 1.5. Conversando sobre bioinformática – BIOCHAT A revista biotecnologia promove esporadicamente o chamado biochat, que consiste em uma conversa com um pesquisador experimente de uma determinada área do conhecimento. Abaixo transcrevo um dos biochats realizado com o autor do presente curso, onde várias dúvidas básicas sobre o assunto podem ser sanadas. Assunto do Biochat: Conceitos e Paradigmas em Bioinformática Pesquisador entrevistado: Francisco Prosdocimi Há uma grande confusão com relação ao que seja a bioinformática, sendo que muitos ainda acreditam que qualquer aplicação da computação à biologia possa ser referenciada como "bioinformática". Ao observarmos os trabalhos recentemente publicados na área, podemos dividí-los em três correntes básicas ou princípios paradigmáticos, chamados metaforicamente de "o tijolo", "a peneira" e "a lupa". Tais princípios serão apresentados e discutidos durante o BIOCHAT. Além disso, é interessante discutirmos quais seriam os pré-requisitos básicos para formar um bioinformata, tanto na área computacional quanto na área biológica. Do que, afinal, é feito um bioinformata e o que ele precisa conhecer é tema recorrente entre os curiosos sobre a área.O conceito da bioinformática, seus princípios paradigmáticos e a formação do bioinformata serão, portanto, os temas a serem discutidos neste BIOCHAT. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 9. 7 Boa noite a todos! Está aberto nosso biochat sobre bioinformática. Por Dr. Francisco favor, enviem suas dúvidas para que possamos discutir e trocar idéias Prosdocimi a respeito do assunto. Grande Francisco... Afinal, qual o conceito mais aceito para Vanderson: Bioinformática? Olá Vanderson. Fico agradecido pela sua presença. Na verdade existem vários conceitos para bioinformática e muita confusão é feita sobre o Dr. Francisco tema. Na minha opinião a bioinformática surgiu com o boom dos Prosdocimi sequenciadores automáticos de DNA e ainda hoje está ligada a análises de seqüências de biomoléculas. Biologia computadorizada? Ouvi este termo e queria saber qual é a Adonis: diferença disso para Bioinformática? Pois é, meu prezado Adonis. A biologia computacional diz respeito a qualquer aplicação da computação na área biológica, enquanto a Dr. Francisco bioinformática está freqüentemente associada a analise de seqüências Prosdocimi de genoma, transcriptoma e proteoma. Esses conceitos entretanto são bastante maleáveis e modificam-se todos os anos. Boa noite Dr. Francisco. Sou estudante do curso Bacharelado em Pedro: Bioquímica, na Universidade Federal de Viçosa e tenho direcionado a minha formação acadêmica para me tornar... Com relação aos cursos específicos para bioinformática, eles existem no Brasil apenas em nível de pós-graduação. Sendo que um deles é o curso de especialização lato sensu do LNCC, no qual acontece a Dr. Francisco formação de especialistas em bioinformática. Na USP e na UFMG Prosdocimi existem cursos de doutorado em bioinformática, onde tais profissionais são formados. Eu, a propósito, fui aluno do LNCC e fui também o primeiro aluno a defender o doutorado em bioinformática na UFMG. Gostaria que vc respondesse o Pedro Marcus pq eu tenho a mesma Francisco: dúvida... Com relação a cursos de graduação, meu prezado xará, ainda não Dr. Francisco existem na área e recomendo que vc faça um curso de biologia ou de Prosdocimi computação, se pretende seguir carreira em bioinfo. Adonis: então bioinfo está dentro da biologia computacional? Concordo, Adonis. Na minha opinião a bioinformática é, sim, uma parte da biologia computacional, sendo essa última uma área bastante ampla Dr. Francisco e não necessariamente relacionada com biologia molecular. Embora, Prosdocimi repito, esses conceitos são maleáveis e modificam-se com o desenvolver das ciências. Qual a sua experiência com a Bioinformática? O senhor trabalha mais Pedro: no meio acadêmico ou se relaciona diretamente com o mercado de trabalho? Trabalho com bioinformática desde 2000, tendo tido anteriormente uma formação como biólogo molecular em bancada. Fiz minha monografia de bacharelado, minha dissertação de mestrado (em genética) com análises de transcriptomas do verme Schistosoma Dr. Francisco mansoni e fui o primeiro aluno a defender o doutorado em Prosdocimi bioinformática na UFMG trabalhando com análises de qualidade de seqüências de DNA e genômica comparativa. Sempre trabalhei mais voltado para o meio acadêmico, mas já fiz também alguns trabalhos em parceria com uma empresa de Belo Horizonte na área de bioinformática. A empresa se chama vetta technologies. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 10. 8 Pegando a deixa do Pedro, você acha que há mercado de trabalho para Vanderson: bioinformatas no Brasil... além das instituições públicas e da Alellyx? Infelizmente, meu amigo Vanderson, não acredito que haja ainda mercado de trabalho para bioinformática fora das universidades, embora o campo na área de biotecnologia tenha crescido e venha Dr. Francisco crescendo. A existência de algumas empresas trabalhando em Prosdocimi biotecnologia é muito pequena ainda no Brasil e apenas a Alellyx e a Scylla têm alguma representatividade no mercado. Ou seja, a bioinformática ainda é matéria para cientistas financiados pelo governo. Qual seria a dica para trabalhar com bioinfo em um lugar onde não se Adonis: faça molecular? A dica é estar em parceria com pesquisadores que tenham perguntas que só possam ser respondidas através de análise computacional. Eu mesmo tenho várias colaborações com diferentes laboratórios e produzi um software recentemente, o TGFinder, que surgiu como uma necessidade de um pesquisador de encontrar genes controlados por Dr. Francisco fatores de transcrição. Além disso, o GenBank possui tantas seqüências Prosdocimi depositadas e tanta informação a ser mineirada que nem todos os cientistas do mundo seriam capazes de tudo analisar. É claro que a pesquisa de ponta é normalmente aquele onde se produz e se analisa um novo dado em biologia molecular, mas há muito ouro a ser peneirado nos bancos de dados públicos. Olá Dr. mas como é aplicada a computação ou informática, na Paulo: biologia,neste sequenciadores automáticos de DNA? A computação é aplicada, principalmente, na análise e identificação das seqüências de DNA que saem dos sequenciadores automáticos. A seqüência sai de lá como um monte de A, C, T e G... que não querem Dr. Francisco dizer nada. O que significa para você isso aqui: Prosdocimi ACATAGGGACATTACAGAGCATTCAGA? Somente com a bioinformática conseguimos atrelar a informação codificada em informação biológica, associando A, C, T e G a algum nome de gene com alguma função especifica... Aprofundando mais a discussão, a iniciativa privada na bioinformática Pedro: está... O grande problema, Pedro, é que acredito que dificilmente a bioinformática per se pode dar algum lucro. Por exemplo, a empresa Alellyx tem, além de um grande know how em bioinfo, um grande know how em biologia molecular e em genômica. A descoberta de Dr. Francisco novos genes 'apenas' por bioinfo é muito difícil e é preciso estar Prosdocimi sempre sequenciando novos organismos. E um sequenciador de DNA é muito caro para que pequenos empresários possam comprar, o capital inicial de uma empresa de biotecnologia apresentando bioinformática é muito alto. Marx: E fora do Brasil, como estão as perspectivas? Fora do Brasil eu acredito que haja bastante espaço, sim, para bioinformatas. Assino uma lista de jobs em bioinformática e Dr. Francisco freqüentemente vejo pedidos para profissionais da área... o único Prosdocimi problema é que normalmente exige-se grande experiência prévia, o que não temos ainda no Brasil -- profissionais qualificados. Dr. Francisco Prosdocimi, fale um pouco sobre mineração de dados já Adonis: que esta é o etapa seguinte depois da geração das seqs. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 11. 9 Bem, caro Adonis, isso me remete aos princípios paradigmáticos da bioinformática que apresentei no texto introdutório. Acredito que os trabalhos atuais em bioinformática podem ser divididos em três correntes principais, os trabalhos de tijolo -- onde ferramentas de bioinformática são produzidas para construir os edifícios genômicos, os Dr. Francisco trabalhos de peneira -- onde a mineração da grande massa de dados Prosdocimi em genômica são analisados mais especificamente em vários contextos -- e os trabalhos de lupa, onde a genômica encontra a ciência e o método científico de observação, hipótese, experimentação e resultados são novamente retomados. Escrevi um trabalho sobre isso para a revista ciência hoje que foi publicado em 2004. Trabalho atualmente no BIOAGRO-UFV (Instituto de Biotecnologia Aplicada à Agropecuária) no Laboratório de Bioinformática, desenvolvendo softwares de análise populacionais (genética de Pedro: populações). Você considera válido esse tipo de iniciativa ou seria melhor eu estar trabalhando mais especificamente com a biologia molecular? Considero muito válido seu trabalho. Mas também já tentei produzir Dr. Francisco algo relacionado a genética de populações e acho muito difícil produzir Prosdocimi algo melhor do que os já conhecidos programas PAUP, PHYLIP, MEGA, dentre outros. Boa sorte! Poderíamos ou podemos, descobrir qual a seqüência para uma Paulo: determinada proteína ou característica. Ou para identificar estes pares, para saber qual proteína ela vai produzir, seria isto? Podemos sim, saber qual a seqüência de DNA é relativa a uma determinada proteína e, muitas vezes, uma característica. Existe até mesmo um projeto conhecido como FENOMA, que tenta identificar os Dr. Francisco genes responsáveis por algum fenótipo (característica). O que Prosdocimi acontece, entretanto, é que grande parte das características são geradas através de um grande número de genes que interagem entre si e fazem da análise algo complicadíssimo! Tenho uma opinião a expressar... Um grande problema que eu percebo Vanderson: na maioria dessas ferramentas de bioinformática é o total descaso com usuários Concordo plenamente, Vanderson. Biólogos não estão interessados em utilizar sistemas linux, linhas de comando e outros artifícios computacionais de start-up razoavelmente complexo. Interfaces Dr. Francisco gráficas e fáceis, de preferência via web e bastante user-friendly são Prosdocimi altamente recomendáveis. Mas é preciso dizer que há também programas com manuais completos e simples, mas o usuário parece ter preguiça de lê-los, o que definitivamente é preciso fazer. Carla: Por acaso já se pode analisar um gene pelo computador? É claro, Carla, os genes são formados por seqüências de nucleotídeos Dr. Francisco que são representadas por A, C, G e T, transformando as seqüências Prosdocimi dos genes em letrinhas que são analisadas e comparadas entre diferentes espécies animais. É real a migração de perl para java? ou isso só tá ocorrendo no meio Adonis: privado? Essa migração seria um preocupação com uma interface mais amigável? Caro Adonis, acredito que a migração de PERL para JAVA está Dr. Francisco relacionada ao fato de que a linguagem JAVA é multiplataforma, além Prosdocimi de ser nativamente orientada a objetos, o que facilita a criação de programas mais complexos e de grande porte. Acredito que os scripts © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 12. 10 freqüentemente utilizados em trabalhos de bioinformática devem continuar sendo produzidos em PERL, que é uma linguagem onde a expressão regular é nativa e rápida, sendo mais apropriada para tais trabalhos. Sim, a migração também pode estar relaciona com uma interface mais amigável, já pronta em vários objetos JAVA. Como o Brasil está em relação a outros paises, nesse desenvolvimento? Carla: O nosso país valoriza a bioinformática? O Brasil anda atrás dos países desenvolvidos quando o assunto é Dr. Francisco bioinformática e, apesar de que recentes iniciativas da CAPES e do Prosdocimi CNPq vêm tentando buscar equiparação internacional, a bioinformática brasileira ainda está em seu berço (esplêndido). Boa noite Dr. Gostaria de saber sobre o cenário de Software Livre x Software Proprietário em bioinformática. O Sr. acredita que a adoção do software livre pode ajudar na redução de gastos em pesquisa e Macedo: desenvolvimento e que isso possibilitará o estudo de doenças negligenciadas? Ou o segmento acadêmico enxerga o software livre apenas como ª... No caso da bioinformática posso assegurar que mais de 95% dos softwares são livres ou de livre acesso (pelo menos para o meio acadêmico) e cerca de 50% são de livre acesso para todos. Por isso, a Dr. Francisco bioinformática exige um custo inicial para pesquisa bem baixo e esse é Prosdocimi mais um dos motivos pelos quais essa ciência deveria ser mais incentivada em nosso país. Com um computador razoável e boas idéias é possível fazer boa bioinformática!!! Uma empresa privada que prestasse suporte em bioinformática (desenvolvendo softwares sequenciadores para organismos específicos Pedro: ou que atendessem alguma demanda de determinada pesquisa, com uma interface mais amigável com o usuário final) poderia dar certo? Não estou bem certo, Pedro. O problema é que a idéia para elaboração de softwares teria de vir da academia e não sei o pessoal das universidades estaria disposto a dar a idéia para que vc fizesse o software para eles comprarem, entende? Eles prefeririam pedir no Dr. Francisco departamento de computação para ver se algum outro aluno faria o Prosdocimi mesmo software de graça, gerando um trabalho publicável em conjunto. A menos que vcs produzissem um pacote grande, para uma ampla gama de aplicações... aí vc poderia dar certo com sua empresa... Um profissional em bioinformática deve saber tanto trabalhar com os softwares de análises de seqüências quanto desenvolver novos Dani: programas? Quais são as linguagens de programação mais utilizadas para este fim? Ótima pergunta, Dani. É imprescindível para o profissional de bioinformática, na minha opinião, ter quatro conhecimentos básicos: (1) Ele deve entender bem biologia molecular, (2) saber trabalhar com Dr. Francisco os bancos de dados disponíveis na internet, (3) saber BEM uma Prosdocimi linguagem de programação e (4) saber manipular bancos de dados. Estes, na minha opinião, são os principais requisitos para formar um bioinformata. Você contrataria uma empresa dessa natureza para dar suporte às suas Pedro: pesquisas ou prefere, você mesmo, desenvolver os aplicativos com que trabalha? Dr. Francisco Depende do quanto de trabalho fosse necessário. Se fosse pouco Prosdocimi trabalho, eu mesmo desenvolveria. Se necessitasse de um software © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 13. 11 amplo, talvez preferisse pagar... mas dependeria de financiamento governamental para isso... e o governo não gosta muito do assunto 'comprar softwares de empresas privadas para trabalhos científicos'. No último edital do CNPq para bioinfo, enviamos um projeto tentando comprar um software e o projeto não foi aprovado... possivelmente por este único motivo. Boa Noite Dr. Francisco, participei da primeira turma de especialização em bioinformática do LNCC, atualmente estou fazendo doutorado em Fabio: microbiologia na UFRJ. Gostaria de saber na sua opinião quais são as principais diferenças dos cursos de doutorado em Bioinformatica da USP e da UFMG? Fala, Fábio. É com receber companheiros por aqui... fui seu sucessor no LNCC, participando da segunda turma. Não posso dizer muito do curso de doutorado na USP, o qual conheço pouco. Mas ao que me parece o Dr. Francisco curso da USP é muito voltado para as ciências exatas, tendo uma alta Prosdocimi carga de disciplinas de matemática e estatística. Aqui na UFMG a carga de disciplinas é bem balanceada e leve, de forma que o aluno possa se preocupar mais com seu projeto de tese. A quantas anda o desenvolvimento das pesquisas em bioinformática Pedro: aqui no estado de Minas Gerais? Aqui em Minas temos alguns grupos de bioinformática montados. Não posso dizer que conheço todos eles, mas aqui na UFMG temos ao Dr. Francisco menos uns três grupos de bioinformática, trabalhando com genoma de Prosdocimi 'Schistosoma mansoni', genômica comparativa e genômica evolutiva, mas as coisas ainda são um pouco precárias e a infra-estrutura não é das melhores. Sou bióloga, especialista em biotecnologia - trabalho com saneamento - área ambiental - - mas tenho grande interesse em bioinformática. Dani: Quais são os conhecimentos básicos de informática que um biólogo deve ter para iniciar um mestrado em bioinformática? Bem, não conheço nenhum mestrado em bioinformática e acho que -- se houvesse algum -- o aluno deveria conhecer o básico de sistemas linux e linguagens de programação. Mas dependendo, se o mestrado Dr. Francisco for para biólogos ou para “computólogos”, os conhecimentos a serem Prosdocimi exigidos são diferentes. Se for um mestrado para biólogos é possível que não seja necessário nenhum conhecimento de informática e todo o conhecimento pode ser adquirido quando da realização do curso. Qual é campo de trabalho para um pós-graduado em bioinformática, Dani: além do desenvolvimento de pesquisas em universidades, fundações de pesquisa Federais,Estaduais e a Licenciatura? Bem, essa pergunta é um tanto quanto capciosa. Se uma pessoa formou em bioinformática, imagino que ela queira fazer pesquisa ou Dr. Francisco dar aulas. É claro que ela pode também trabalhar em alguma empresa Prosdocimi de biotecnologia ou de bioinformática per si... mas acredito que aí ela teria que ir pra fora do Brasil... Ricardo: Quais são os trabalhos que vc está fazendo ultimamente na área? Olá, Ricardo. Ultimamente tenho trabalhado com análises do software PHRED, com a montagem de um programa para simular a evolução em Dr. Francisco locos de microsatélites, trabalho também com a diferença na utilização Prosdocimi de aminoácidos por proteínas de diferentes organismos, com a origem do código genético, com famílias de proteínas dedos de zinco, dentre diversas outras coisas. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 14. 12 Então, estarei entrando em contato com o senhor (pois estou na Pedro: organização do evento). Mais uma pergunta, ainda é muito cedo para pensarmos em cursos de graduação em bioinformática no Brasil? Ok. Acho que um curso de graduação em bioinformática poderia ser bastante interessante sim, mas acho que é cedo para isso. Ainda não há, só pra vc ter uma idéia, um conceito amplo do que seja Dr. Francisco bioinformática e é preciso que esta disciplina fique mais madura ao Prosdocimi longo dos anos para que esse conceito brote claramente. Acho que os biólogos moleculares atualmente são os principais candidatos a se tornarem bioinformatas e não há nem cursos de graduação em biologia molecular... pelo menos desconheço... A título de informação: foi criada na grade curricular do Bacharelado Pedro: em Bioquímica-UFV a BQI460 (Bioinformática), onde serão abordados os principais aspectos dessa nova área do conhecimento. Bem, aqui na UFMG o prof. Miguel Ortega já ministra à mais de dois anos uma matéria de tópicos em bioquímica e biologia molecular cujo Dr. Francisco assunto é a bionformática. É bastante interessante que a universidade Prosdocimi de Viçosa tenha proposto uma disciplina específica sobre o assunto e mostra como está atualizada com relação aos novos avanços da biologia molecular. O que você considera como maior desafio para a consolidação da Pedro: Bioinformática no Brasil? Considero o maior desafio a formação dos profissionais e a montagem Dr. Francisco de infra-estrutura adequada e de computadores de alto-desempenho Prosdocimi para as análises mais elaboradas na área. 1.6. Referências Bibliográficas e textos complementares 1 Davies, K. (2001). Decifrando o genoma. Companhia das letras. 2. NCBI: A Science Primer - http://www.ncbi.nlm.nih.gov/About/primer/index.html 3. NCBI: A Science Primer – Bioinformatics - http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html 4. Chico On Line – Bioinformática - http://www.icb.ufmg.br/~franc/cool 5. GenBank Stats - http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html 1.7 Brainstorm 1. Dê sua opinião sobre o que entende por bioinformática e qual a importância da área. 2. Vá ao site do NCBI (National Center for Biotechnology Information, o centro americano para informação biotecnológica, http://www.ncbi.nlm.nih.gov), leia e navegue um pouco. Encontre algum serviço interessante e reporte sua experiência. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 15. 13 CAPÍTULO 2 Genoma, biologia molecular e computação 2.1. Introdução Como já foi dito, o presente curso não tem como função explicar genômica, biologia molecular ou computação. Ainda assim, alguns conceitos se tornam importantes para que possamos seguir o curso e neste capítulo estaremos nos dedicando a eles. 2.2. Sequenciamento do DNA Figura 2.1. O dogma central da biologia molecular. Da análise de DNA temos os projetos genoma, da análise do conteúdo de RNAs mensageiros de uma célula produzimos estudos de transcriptoma e a partir da análise de conteúdo protéico geramos os projetos proteoma. A bioinformática surgiu a partir da biologia molecular e dela ainda é inseparável (figura 2.1). No capítulo anterior, aprendemos que a bioinformática se desenvolveu principalmente depois do surgimento dos seqüenciadores de DNA em larga escala, como o ABI Prism 3700. A reação de sequenciamento de DNA consiste basicamente em um processo de amplificação da molécula de DNA de interesse. Entretanto, durante essa amplificação, são utilizados tanto os nucleotídeos normais de DNA, conhecidos como desoxiribonucleotídeos quanto alguns nucleotídeos especiais, conhecidos como di-desoxiribonucleotídeos. A diferença entre eles é que os didesoxinucleotídeos apresentam, como o nome diz, uma molécula de oxigênio a menos, eles não contém uma extremidade 3’OH livre. Assim, se lembrarmos como é formado o esqueleto de uma cadeia de DNA, veremos que os nucleotídeos adjacentes são ligados entre si através de uma ligação com um grupamento fosfato exatamente na posição do carbono 3’. Isso significa que, um nucleotídeo que não apresente um grupamento OH nesta posição (chamado di-desoxiribonucleotídeo ou simplesmente di- desoxinucleotídeo) impede a ligação de um nucleotídeo em seguida, o que interrompe a cadeia de DNA naquela posição. Assim, durante a amplificação em que consiste a reação de sequenciamento do DNA, são produzidas moléculas de diferentes tamanhos, sendo que cada uma delas possui, na sua extremidade, um didesoxinucleotídeo que impede a ligação de outros nucleotídeos a seguir. Além disso, dependendo de qual base ele carrega, cada um desses nucleotídeos sem a extremidade 3’OH livre © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 16. 14 apresenta um pigmento fluorescente diferente adicionado. Após a reação de sequenciamento – que é realizada num termociclador, assim como um PCR --, as moléculas resultantes são submetidas a uma eletroforese. Nesse procedimento, o DNA resultante da amplificação é submetido a um gradiente elétrico dentro de uma matriz de gel, que permite uma mobilidade diferencial das moléculas. As moléculas pequenas de DNA movem mais rapidamente para o pólo positivo durante essa eletroforese. Essas moléculas pequenas foram aquelas que incorporaram didesoxinucleotídeos mais precocemente do que as outras. E assim, elas vão se movendo na matriz gelatinosa mais rapidamente, indo em direção ao pólo positivo. Quando chegam próximo ao pólo, um laser incide sobre essa molécula e, dependendo de qual didesoxinucleotídeo foi incorporado em sua extremidade final, o laser promove a incidência da fluorescência num receptor que capta, afinal, qual foi o comprimento de onda daquele fluoróforo excitado. Assim, conseguimos descobrir qual foi a última base daquela molécula já que diferentes didesoxinucleotídeos -- com diferentes bases nitrogenadas (A, C, G ou T) --, produzem fluorescência diferente a ser captada pelo laser e, dessa forma, sabemos se a última base daquela molécula é uma adenina, uma guanina, uma citosina ou uma timina. E à medida que as moléculas vão passando pelo gel, cada uma contendo a diferença de um único nucleotídeo marcado de acordo com sua base, o computador vai gerando um perfil de fluorescências que posteriormente serão transformadas nas letras que representam a seqüência de bases da molécula original por algoritmos específicos, que trataremos posteriormente neste curso. Não é tarefa fácil explicar na forma de texto como é realizado o sequenciamento do DNA e, por isso, recomendo aos alunos acessarem o seguinte site para entenderem melhor como o seqüenciamento do DNA é realizado, passo a passo: http://www.dnalc.org/shockwave/cycseq.html. Outras animações interessantes em biologia molecular (como a da técnica de PCR de amplificação do DNA ou técnicas forenses baseadas em DNA) podem ser obtidas no mesmo site. É preciso, entretanto, fazer o download gratuito do programa macromedia shockwave. 2.3. Genômica Um genoma consiste no conjunto haplóide de informações presentes no DNA de um determinado organismo. O conjunto é haplóide porque, na verdade, um organismo diplóide apresenta uma dupla cópia de um mesmo segmento de DNA, presente nos cromossomos homólogos. Assim, não faz sentido ter essa redundância de informação e, por isso, considera-se o genoma como sendo o conjunto haplóide de informação genética. Para obter uma seqüência genômica devemos pegar as células de um determinado organismo, purificarmos seu DNA e realizarmos a construção da chamada biblioteca de DNA genômico. Para tal, o DNA do organismo deve ser picotado em pequenos pedacinhos e ligado nos chamados vetores de clonagem -- que podem ser plasmídeos, cosmídeos ou vetores que permitem a inserção de segmentos grandes de DNA, como os BACs ou YACs que são, respectivamente, os cromossomos artificiais de bactérias e leveduras. A partir desses vetores é que são, freqüentemente, seqüenciados os segmentos de DNA e cada reação de sequenciamento produz moléculas apresentando algo entre trezentos e mil pares de bases. Como os genomas são muito maiores do que esse tamanho, mostra-se necessária a montagem do genoma utilizando algoritmos de sobreposição de seqüências, que serão apresentados em aula posterior. E se o genoma consiste no sequenciamento da molécula de DNA de uma determinada célula, o transcriptoma consiste no sequenciamento do conteúdo de RNA mensageiro (mRNA) produzido em uma determinada célula sujeita a determinada condição. Enquanto uma célula apresenta apenas um genoma estático e imutável, a © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 17. 15 mesma pode apresentar milhares de diferentes conteúdos de transcriptoma, já que a expressão de genes depende de diversos fatores, como o grau de maturação da célula, a temperatura à qual ela está sujeita, os nutrientes presentes no meio, a presença de algum agente mutagênico específico e mais milhares de outros fatores. Assim, os estudos de transcriptoma podem mostrar a adaptação da célula a determinada condição e podemos estudar os genes que ficam ativos quando dessa condição. Na produção de um projeto transcriptoma (ou de genômica funcional, como também é freqüentemente chamado) deve-se purificar o conteúdo de mRNA da célula da condição desejada. Como o RNA é uma molécula muito instável, realiza-se sua transcrição reversa, transformando este RNA numa molécula conhecida como cDNA, que representa o DNA complementar à seqüência daquele mRNA. Esse cDNA é então clonado em vetores de clonagem para a produção da biblioteca de cDNA que contém uma amostra fiel dos mRNAs que foram produzidos pela célula naquela condição. Vale notar que, enquanto no genoma observa-se normalmente apenas uma cópia de cada gene, nas análises de transcriptoma, cada um dos genes pode estar amostrado dezenas de vezes, pois a célula pode estar precisando do mesmo para realizar algum tipo de processo e ele pode ter sido transcrito centenas de vezes em moléculas de mRNA. 2.4. As ômicas: integrando a bioinformação Veja o artigo publicado na edição 32 da revista biotecnologia: http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf. O pesquisador da Embrapa Soja, Eliseu Binneck, apresenta o status atual da genômica no mundo e ainda vários conceitos importantes de biologia molecular e genômica. Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28- 37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf 2.5. O PERL e outras linguagens de programação No capítulo anterior discutimos sobre os conhecimentos relevantes para um profissional na área de bioinformática. Nesse momento, portanto, gostaria de falar mais um pouco sobre a informática utilizada para a análise de seqüências. É extremamente importante que qualquer pessoa trabalhando na área de bioinformática conheça alguma linguagem de programação. E a principal linguagem utilizada por profissionais da bioinformática é o PERL. O PERL é uma linguagem de script que foi criada em 1987 por um cientista da computação chamado Larry Wall e é uma sigla para Practical Extraction and Report Language ou, em português, Linguagem Prática de Extração e Relatório. Segundo a wikipedia (http://pt.wikipedia.org/), a origem do PERL remonta ao shell scripting, que é a programação em linhas de comando, ao awk, uma outra linguagem bem simples de programação shell e à linguagem C, uma das mais utilizadas pelos programadores. Essa linguagem é disponível para praticamente todos os sistemas operacionais, mas é utilizada mais freqüentemente em sistemas Unix e compatíveis. E o PERL é freqüentemente utilizado pelos bioinformatas porque é uma linguagem montada para trabalhar facilmente com o processamento de cadeias de caracteres (chamadas de strings pelos informatas), permitindo ainda uma fácil manipulação de arquivos texto e a utilização das chamadas expressões regulares, muito úteis para se realizar busca em seqüências de caracteres. Como tanto o DNA © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 18. 16 quanto o RNA e as proteínas podem ser facilmente representados por seqüências de caracteres – nucleotídeos ou aminoácidos, representados por seqüências de uma letra --, o PERL acabou por permitir, intrinsecamente, uma fácil manipulação dos dados de biologia molecular. Um exemplo simples de programa em PERL é apresentado abaixo para transformar uma seqüência de DNA de entrada em uma nova seqüência de RNA. O programa considera que a fita de DNA de entrada é a fita codificadora e, portanto, o programa apenas transforma as letras T, de timina, do DNA em letras U, de uracila, representando as bases do RNA. Pequeno script PERL para obter uma fita de RNA a partir de uma fita de DNA. #!/usr/bin/perl # Seqüência que se deseja utilizar $meuDNA= “TTCCGAGCCAATTGTATCAGTTGCCAATAG”; # Faz com que a seqüência de RNA receba a mesma seqüência do DNA $meuRNA = $meuDNA; # Troca as bases produzindo a fita complementar $meuRNA =~ tr/T/U/; print “Minha seqüência de RNA é: n $meuRNA”; A primeira linha é obrigatória e diz ao programa o caminho onde se encontra o interpretador PERL para que o programa possa encontrá-lo na hora de sua execução. Normalmente o PERL está disponível no diretório /usr/bin das distribuições Unix. Vale notar que, ao contrário da grande maioria das outras linguagens de programação normalmente utilizadas, um programa PERL não é compilado de forma a gerar um executável em linguagem de máquina. O script PERL necessita, portanto, de que exista um interpretador PERL instalado em alguma pasta de trabalho dentro do computador e é exatamente a pasta onde esse interpretador está localizado que deve aparecer nesta primeira linha de código. As linhas do script que se começam com o sinal “#” representam linhas de comentário e servem apenas para facilitar o entendimento do código, não sendo realmente lidas pelo interpretador. Todas as variáveis em programação PERL são precedidas do sinal de dólar “$”, elas não têm um tipo pré- definido (como inteiro, booleano, real, etc.) e não precisam ser declaradas anteriormente, cabe ao programador saber como e em que contexto devem ser utilizadas. Há também as variáveis do tipo array, que são precedidas do sinal de “@” e as variáveis do tipo hash, que devem ser precedidas do sinal de “%”. Todos os comandos terminam sempre com um sinal de ponto-e-vírgula. Neste exemplo, a linha que realmente faz a tradução de uma seqüência de DNA para uma seqüência de RNA é a que apresenta o sinal “=~”. Esse sinal está relacionado à utilização de uma expressão regular que, no caso, faz a tradução de todos as letras T de uma seqüência de caracteres, transformando-as em letras U. No fundo, a bioinformática – e, num sentido mais amplo, todo software -- pode ser desenvolvido utilizando-se qualquer linguagem de programação e há os que ainda preferem utilizar a linguagem C ou Java para produzir qualquer tipo de programa. No fundo, essa é uma opção pessoal e por mais que uma ou outra linguagem seja mais adaptada ou mais rápida para determinado problema, é possível fazer quase qualquer coisa com quase qualquer linguagem. Entretanto, mesmo essa simples tradução que fizemos de DNA para RNA com apenas uma linha de código, pode se tornar mais árdua quando realizada em diferentes linguagens e é exatamente por isso que o PERL é mais utilizado na área; por facilitar a programação. Para sistemas mais complexos, no © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 19. 17 entanto, parece ser consenso que a utilização de uma linguagem de programação multi-plataforma, como é o caso do Java, seja mais adequada. 2.6. Referências Bibliográficas e textos complementares 1. Dolan DNA Learning Center - Biology Animation Library - http://www.dnalc.org/resources/BiologyAnimationLibrary.htm 2. Binneck, Eliseu. As ômicas: integrando a bioinformação. Biotec Ci & Des 32: 28-37. http://www.biotecnologia.com.br/revista/bio32/omicas_32.pdf 3. Perl, Wikipedia. http://pt.wikipedia.org/wiki/Perl 2.7. Brainstorm 1. Você viu a animação sobre como é feito o sequenciamento do DNA, descreva agora as etapas através das quais é realizada esta técnica. 2. Descreva como são feitos projetos genoma e transcriptoma. 3. Perguntas sobre o texto escrito por Binneck. a. Apesar de apresentarem um número de genes bastante similar a outros organismos, diz-se que os seres humanos apresentam uma diversidade de proteínas muito maior do que eles. A que se deve tal diversidade? b. Qual a porcentagem do genoma humano que é responsável pela produção de genes/proteínas? E o resto, qual seria o motivo – se é que há algum – para haver tanto DNA não codificante no genoma? c. Você acredita que genes que alteram seus padrões de expressão em conjunto possam ter funções parecidas? Por quê? d. Escolha duas das ciências “ômicas” e descreva-as e. Discorra sobre o papel da bioinformática na agregação de dados em biologia 4. Com relação a linguagens de programação, por que o PERL é conhecido como a linguagem dos bioinformatas? Os dados em bioinformática podem ser tratados com outras linguagens de programação? Cite outra linguagem possível. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 20. 18 CAPÍTULO 3 Alinhamento de Seqüências 3.1. Introdução O alinhamento de seqüências consiste no processo de comparar duas seqüências (de nucleotídeos ou proteínas) de forma a se observar seu nível de identidade. Essa técnica de comparação de seqüências é implementada segundo um conceito de desenvolvimento de programas conhecido como um algoritmo guloso e é um dos pilares de toda a bioinformática. Existem centenas de aplicações do alinhamento de seqüências, tanto na identificação de genes e proteínas desconhecidas, quanto na comparação da ordem de genes em genomas de organismos proximamente relacionados (sintenia), no mapeamento de seqüências expressas dentro de um genoma para identificação de genes, na montagem de genomas e em diversas outras aplicações. Por exemplo, podemos alinhar duas seqüências para descobrirmos o grau de similaridade entre as seqüências de forma que possamos inferir (ou não) a uma delas, alguma propriedade já conhecida da outra (Prosdocimi et al., 2003). O alinhamento entre duas seqüências pode ser feito de forma global ou local (Figura 3.1.). Figura 3.1. Alinhamento global e local. À esquerda vemos um exemplo de como é feito um alinhamento global das seqüências e à direita vemos um exemplo da realização de um alinhamento local. Retirado de Prosdocimi et al., 2003. 3.2. Alinhamento Global O alinhamento global é feito quando comparamos uma seqüência de aminoácidos ou nucleotídeos com outra, ao longo de toda sua extensão (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O algoritmo Needleman-Wunsch é o mais conhecido para realizar esse tipo de alinhamento, © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 21. 19 embora outros programas, como o MULTALIN (http://prodes.toulouse.inra.fr/multalin/multalin.html) também o façam (Corpet, 1988). Nesse caso são dados valores em uma matriz de comparação para as similaridades (matches), diferenças (mismatches) e falhas (gaps) encontrados durante o alinhamento das seqüências. As somas dos valores do alinhamento, de acordo com essa matriz de comparação, resulta num valor, que é um escore de similaridade entre as seqüências (Figura 3.2.). No MULTALIN não é dado escore de similaridade (já que ele permite o alinhamento de várias seqüências ao mesmo tempo), e a semelhança entre as seqüências deve ser medida através de inspeção visual. 3.3. Alinhamento Local O alinhamento local acontece quando a comparação entre duas seqüências não é feita ao longo de toda sua extensão, mas sim através de pequenas regiões destas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O principal programa utilizado para o alinhamento local de seqüências é o BLAST (Basic Local Alignment Search Tool ou Ferramenta Básica de Procura por Alinhamento Local), encontrado em http://www.ncbi.nlm.nih.gov/BLAST/. Esse software compreende um conjunto de algoritmos de comparação de seqüências montado de forma a explorar toda a informação contida em bases de dados de DNA e proteínas (http://www.ncbi.nlm. nih.gov/BLAST/blast_overview.html). Os programas BLAST foram desenvolvidos de modo a aumentar ao máximo a velocidade da busca por similaridade -- já que as bases de dados são grandes e vêm crescendo exponencialmente --, mesmo correndo o risco de perder um pouco na sensibilidade do resultado (Altschul et al., 1997). A rapidez da busca deve-se ao fato de que o programa utiliza uma heurística que quebra as seqüências de entrada e das bases de dados em fragmentos – as palavras (words) – e procura, inicialmente, similaridades entre elas. A busca é então feita com palavras de tamanho W que devem apresentar pelo menos um escore T de alinhamento entre si, dado de acordo com uma matriz de valores. Assim, as palavras que apresentam esse escore T (maior responsável pela velocidade e sensibilidade da busca) (Altschul et al., 1997) são estendidas em ambas as direções para ver se geram um alinhamento com um escore maior do que S. Uma outra vantagem de se utilizar o alinhamento local feito pelo BLAST é que, dessa forma, é possível identificar relações entre seqüências que apresentam apenas regiões isoladas de similaridade (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/similarity.html). Figura 3.2. Alinhamento de seqüências. O alinhamento de seqüências de DNA é feito através da procura de uma região de similaridade entre duas seqüências utilizando um © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 22. 20 algoritmo guloso. Quando essa região é encontrada são dados pontos para similaridades (match), diferenças (mismatches), abertura de falhas (gap opening) e extensão de falhas (gap extension) que possam ser encontradas no seu alinhamento. A somatória dos pontos desse alinhamento é chamado de escore do alinhamento e, no exemplo mostrado, o escore do alinhamento é 3. Tais escores são contabilizados tanto nos alinhamentos globais quanto locais. Os resultados do BLAST são então apresentados de acordo com dois parâmetros: o valor do escore (Score bits) e o valor E (e-value). O valor de escore depende do tamanho do alinhamento, do número de matches/mismatches/gaps e da matriz de comparação de seqüências utilizada e é normalizado através de variáveis estatísticas (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Blast_output.html). Já o valor E representa o número de alinhamentos com escores iguais ou melhores que “S” que seria de se esperar que ocorressem ao acaso numa base de dados do tamanho da utilizada. Assim, quanto menor o valor E, melhor o alinhamento, de forma que (num banco de dados de grandes proporções) um valor de E igual a zero significa que não há chance de que um alinhamento entre as duas seqüências tenha ocorrido por mero acaso (http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/glossary2.html). O BLAST apresenta diferentes subprogramas que devem ser utilizados de acordo com o tipo de seqüência de entrada e os bancos de dados que se deseja pesquisar. A TABELA 3.1 apresenta as possibilidades de entrada, bancos de dados e programa a ser utilizado. Formato da Formato da Programa Seqüência de Banco de dados seqüência que é BLAST Entrada comparado adequado Nucleotídeos Nucleotídeos Nucleotídeos BLASTn Proteínas Proteínas Proteínas BLASTp Nucleotídeos Proteínas Proteínas BLASTx Proteínas Nucleotídeos Proteínas TBLASTn Nucleotídeos Nucleotídeos Proteínas TBLASTtx Tabela 3.1: Programas BLAST utilizados de acordo com o formato de entrada de seqüência e banco de dados desejados. Adaptada de http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/query_tutorial.html. 3.4. Alinhamentos ótimos e heurísticos Algo que deve ser levado em consideração sempre que se deseja fazer alinhamentos de seqüências é o fato de que o alinhamento desejado seja o melhor possível de ser obtido através de ferramentas computacionais ou se desejamos apenas uma aproximação válida desse melhor resultado. É evidente que, em condições normais, desejaríamos sempre obter o melhor resultado de alinhamento possível e, portanto, utilizaríamos os algoritmos que produzem resultados ótimos. Entretanto, algumas vezes precisamos obter uma maior rapidez de busca e, portanto, aceitamos que o resultado obtido não seja “o melhor possível” e, assim, utilizamos algoritmos que apresentam algum tipo de heurística. E essa heurística, no caso, normalmente consiste em uma forma qualquer que o programador utiliza para acelerar a produção dos resultados, em detrimento da obtenção do melhor resultado possível. Assim obtém-se um resultado aproximado, mas rápido. A tabela 3.2 apresenta os principais algoritmos utilizados em bioinformática para o alinhamento de seqüências. © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 23. 21 Tipo de Precisão do Número de seqüências Programa Alinhamento Alinhamento a serem alinhadas BLAST2Sequences Local Heurístico 2 SWAT (Smith-Waterman) Local Ótimo 2 ClustalW Global Heurístico N Multalin Global Heurístico N Needleman-Wunsch Global Ótimo 2 Tabela 3.2:Principais programas de alinhamento de seqüências e suas características. As ferramentas de alinhamento ótimo são aquelas que nos dão como resultado o melhor alinhamento possível de acordo com a metodologia algorítmica de comparação de seqüências. Via de regra, a execução desses algoritmos é mais lenta do que a daqueles algoritmos que não geram o resultado perfeito e, como vimos na tabela 4.2., existem ferramentas de alinhamento ótimo locais e globais. O maior problema em utilizar os programas de alinhamento ótimo consiste nos casos onde são alinhadas múltiplas seqüências entre si. Nesses casos, o alinhamento ótimo pode se tornar simplesmente impossível de ser feito, pois gastaria uma quantidade de tempo quase infinita para alinhar otimamente uma quantidade seqüências não muito grande. Nos outros casos, entretanto, deve-se preferir a utilização de algoritmos que produzam o alinhamento ótimo em detrimento dos algoritmos de pesquisa heurística. Algoritmos heurísticos são aqueles que não realizam o alinhamento ótimo entre seqüências. Esses algoritmos freqüentemente utilizam alguma técnica alternativa para acelerar o resultado da busca por seqüências similares, no caso. O BLAST, por exemplo, como vimos no item anterior, parte a seqüência em pedaços para acelerar a busca e outros algoritmos realizam diferentes maneiras de gerar um resultado que seja o mais próximo possível do resultado ótimo. Como já comentado, são principalmente utilizados em alinhamentos múltiplos, onde os algoritmos ótimos demoram um tempo muito grande para gerar os resultados. São freqüentemente utilizados também quando da comparação de seqüências contra grandes bancos de dados, exatamente como faz o BLAST, que procura a similaridade de uma seqüência de entrada contra milhões de outras presentes em seu banco de dados. Muitas vezes, os resultados obtidos com programas heurísticos devem ser confirmados por programas de alinhamento ótimo antes de serem publicados em revistas especializadas. Entretanto algumas vezes tal procedimento não é necessário e tudo vai depender do tipo de trabalho que está sendo realizado. 3.5. Alinhamentos simples e múltiplos Como também já foi comentado na seção anterior, existem dois tipos principais de alinhamentos de seqüências no que concerne ao número de seqüências que são comparadas durante o alinhamento. Quando apenas duas seqüências são comparadas entre si, diz-se que o alinhamento é simples. E, nesses casos, normalmente prefere-se utilizar alinhamentos ótimos para gerarem os resultados, exceto nos casos onde milhares de alinhamentos simples devem ser realizados. De forma contrária, considera-se um alinhamento múltiplo quando três ou mais seqüências devem ser alinhadas entre si. No fundo, o alinhamento múltiplo é montado a partir do alinhamento par a par de cada uma das seqüências com todas as outras, seguido por um outro procedimento que irá gerar o resultado final do alinhamento de todas contra todas. Assim, se 10 seqüências são comparadas entre si, serão necessárias 10! (fatorial de 10) comparações de seqüências, o que representam © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 24. 22 3.628.800 comparações. E é exatamente por isso que os programas heurísticos são preferidos para gerar esse tipo de resultado. 3.6. Matrizes de comparação Outra coisa de suma importância quando da realização de qualquer alinhamento de seqüências é a matriz de substituição que é utilizada. Na figura 3.2. é mostrado um alinhamento e o número de “pontos” dados para coincidências (matches), divergências (mismatches), abertura de gaps (gap opening) e extensão de gaps (gap extension). Entretanto, ao utilizarmos matrizes de substituição podemos dar valores diferentes para coincidências de diferentes nucleotídeos ou aminoácidos. Vale notar que o resultado de um alinhamento de seqüências pode ser completamente diferente dependendo da matriz de substituição utilizada. As matrizes de comparação são principalmente utilizadas durante o alinhamento de seqüências de proteínas e isso se deve ao fato de que existem aminoácidos que são mais (ou menos) parecidos entre si do que outros. Há aminoácidos com cargas polares, apolares ou sem carga e a mudança, em uma proteína, de um aminoácido apresentando uma determinada característica para outro da mesma característica é menos drástica do que uma mudança para um aminoácido apresentando característica diferente. Portanto, as matrizes de substituição são extremamente utilizadas no alinhamento de seqüências protéicas. Mesmo no caso de seqüências de nucleotídeos são mais comuns as mutações conhecidas como transições do que as transversões. Nas transições, a mutação ocorre entre bases do mesmo tipo, purina para purina (A para G ou G para A) ou pirimidina para pirimidina (C para T ou T para C), enquanto nas transversões ocorre a mudança de uma purina para uma pirimidina ou o contrário. Dessa forma, ao utilizarmos matrizes de substituição, podemos dar mais pesos para as transversões do que para as transições, o que faria com que o resultado fosse mais relevante e pudesse estar mais relacionado com a evolução, por exemplo. As matrizes de substituição mais comuns para seqüências nucleotídicas são a mat50 e a mat70, enquanto para seqüências protéicas as mais conhecidas são as matrizes PAM e BLOSUM. As matrizes BLOSUM (Blocks Substitution Matrix), por exemplo, são baseadas na observação das freqüências de substituição em blocos de alinhamentos locais de proteínas relacionadas. Existem várias matrizes BLOSUM e elas devem ser utilizadas para comparar proteínas contendo um determinado valor de identidade, por exemplo, a matriz mais utilizada pelos programas é a BLOSUM62, que foi montada para comparar proteínas que apresentem 62% de aminoácidos idênticos. Abaixo vemos as matrizes de substituição de nucleotídeos mat50 e mat70. Podemos perceber que a matriz mat70 apresenta valores menores para algumas substituições. Isso faz com que o valor final do alinhamento entre duas seqüências de DNA seja menor e, portanto, a matriz mat70 gera um resultado de alinhamento local de um menor número de bases do que a matriz mat50, que estende o alinhamento um pouco mais. Bases A C G T Y R N A 2 -2 0 -2 -2 1 0 C -2 2 -2 0 1 -2 0 G 0 -2 2 -2 -2 1 0 T -2 0 -2 2 1 -2 0 Y -2 1 -2 1 1 -2 0 R 1 -2 1 -2 -2 1 0 N 0 0 0 0 0 0 0 © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 25. 23 Tabela 3.3: Matriz de substituição de nucleotídeos mat50. O valor dado para cada troca pode ser visto nas interseções. O Y representa pirimidinas, o R representa purinas e o N representa qualquer nucleotídeo. Bases A C G T Y R N A 2 -2 -1 -2 -2 0 0 C -2 2 -2 -1 0 -2 0 G -1 -2 2 -2 -2 0 0 T -2 -1 -2 2 0 -2 0 Y -2 0 -2 0 0 -2 0 R 0 -2 0 -2 -2 0 0 N 0 0 0 0 0 0 0 Tabela 3.4: Matriz de substituição de nucleotídeos mat70. O valor dado para cada troca pode ser visto nas interseções. O Y representa pirimidinas, o R representa purinas e o N representa qualquer nucleotídeo. 3.7. Exemplos reais de alinhamentos a) Alinhamento global simples entre seqüências de DNA, usando o algoritmo Needleman-Wunsch. ######################################## # Program: needle # Rundate: Fri Nov 19 15:57:40 2004 # Align_format: srspair # Report_file: 1x2.needle ######################################## #======================================= # # Aligned_sequences: 2 # 1: Seq1 # 2: Seq2 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 736 # Identity: 464/736 (63.0%) # Similarity: 464/736 (63.0%) # Gaps: 272/736 (37.0%) # Score: 2261.0 # # #======================================= Seq1 1 0 Seq2 1 GCACGAGGACTGTGAACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGC 50 Seq1 1 0 Seq2 51 TGGAATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGAC 100 Seq1 1 CTTTCAAGATGAACG 15 ||||||||||||||| Seq2 101 TAAAAAGCTGAGCAAATATACCTGGAGCGTTCAGACTTTCAAGATGAACG 150 Seq1 16 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 65 |||||||||||||||||||||||||||||||||||||||||||||||||| © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 26. 24 Seq2 151 AACCAACTGGTGTCGGGCCAACATTTGCTGATGCATGCGATGATGGCGAA 200 Seq1 66 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 115 |||||||||||||||||||||||||||||||||||||||||||||||||| Seq2 201 CTTATCAGCATTTGTTGTCTTTGTGGTAAAACGTTTTCAAGTCAGAGTCT 250 Seq1 116 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 165 |||||||||||||||||||||||||||||||||||||||||||||||||| Seq2 251 TCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAGATACTG 300 Seq1 166 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 215 |||||||||||||||||||||||||||||||||||||||||||||||||| Seq2 301 AACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGT 350 Seq1 216 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 265 |||||||||||||||||||||||||||||||||||||||||||||||||| Seq2 351 AAAAGTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTT 400 Seq1 266 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 315 |||||||||||||||||||||||||||||||||||||||||||||||||| Seq2 401 TTGCAACAAAGTATTTACTAAACACTGTAATTTAAACACACATATCAAAG 450 Seq1 316 CAGTCCATAA---------------------------------------- 325 |||||||||| Seq2 451 CAGTCCATAAAGGTCAGATTCTGTTAATGTAAACAGTTTTTGTATATACA 500 Seq1 326 -------------------------------------------------- 325 Seq2 501 GCGTTCCTATCTTTGTTTTTCTTCAATACTTACCTGTTAGGGTTTTTGGT 550 Seq1 326 ---------AGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 366 ||||||||||||||||||||||||||||||||||||||||| Seq2 551 CATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATAAAGGAT 600 Seq1 367 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 416 |||||||||||||||||||||||||||||||||||||||||||||||||| Seq2 601 TCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGT 650 Seq1 417 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA 464 |||||||||||||||||||||||||||||||||||||||||||||||| Seq2 651 CTCAAGCCTTTCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATC 700 Seq1 465 464 Seq2 701 CAGCCTTAAACGACACATAGAAAGCATTCACGAAAG 736 #--------------------------------------- #--------------------------------------- b) Alinhamento local simples entre as mesmas seqüências de DNA, usando o algoritmo BLAST. BLASTN 2.2.8 [Jan-05-2004] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= Seq1 (464 letters) © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 27. 25 Database: seq2 1 sequences; 736 total letters Searching.done Score E Sequences producing significant alignments: (bits) Value Seq2 652 0.0 >Seq2 Length = 736 Score = 652 bits (329), Expect = 0.0 Identities = 329/329 (100%) Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375 Query: 241 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 300 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 376 atttccgagttctgaattgtgcgttttgcaacaaagtatttactaaacactgtaatttaa 435 Query: 301 acacacatatcaaagcagtccataaaggt 329 ||||||||||||||||||||||||||||| Sbjct: 436 acacacatatcaaagcagtccataaaggt 464 Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 28. 26 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698 Database: seq2 Posted date: Nov 19, 2004 3:58 PM Number of letters in database: 736 Number of sequences in database: 1 Lambda K H 1.37 0.711 1.31 Gapped Lambda K H 1.37 0.711 1.31 Matrix: blastn matrix:1 -3 Gap Penalties: Existence: 5, Extension: 2 Number of Hits to DB: 2 Number of Sequences: 1 Number of extensions: 2 Number of successful extensions: 2 Number of sequences better than 10.0: 1 Number of HSP's better than 10.0 without gapping: 1 Number of HSP's successfully gapped in prelim test: 0 Number of HSP's that attempted gapping in prelim test: 0 Number of HSP's gapped (non-prelim): 2 length of query: 464 length of database: 736 effective HSP length: 9 effective length of query: 455 effective length of database: 727 effective search space: 330785 effective search space used: 330785 T: 0 A: 0 X1: 6 (11.9 bits) X2: 15 (29.7 bits) S1: 12 (24.3 bits) S2: 8 (16.4 bits) c) Alinhamento global múltiplo entre as mesmas seqüências de DNA (e outras duas mais), usando o algoritmo CLUSTALW. CLUSTAL W (1.81) multiple sequence alignment Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br
  • 29. 27 Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT *************************************** Seq1 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT Seq4 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT Seq2 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT Seq3 TTGCTGATGCATGCGATGATGGCGAACTTATCAGCATTTGTTGTCTTTGTGGTAAAACGT ************************************************************ Seq1 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG Seq4 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG Seq2 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG Seq3 TTTCAAGTCAGAGTCTTCTACACAAACATTTTGAATTGATGCATGAAGGTACGGAAATAG ************************************************************ Seq1 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA Seq4 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA Seq2 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA Seq3 ATACTGAACAGTATGATCTAAGTGGATTTGCCGCTATGGGGAATGAACAAGGTCGTAAAA ************************************************************ Seq1 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT Seq4 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT Seq2 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT Seq3 GTAATGGTGAAGAAGATGCAAATTTCCGAGTTCTGAATTGTGCGTTTTGCAACAAAGTAT ************************************************************ Seq1 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------- Seq4 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGTCAGATTCTGT Seq2 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------- Seq3 TTACTAAACACTGTAATTTAAACACACATATCAAAGCAGTCCATAAAGGT---------- ************************************************** Seq1 ------------------------------------------------------------ Seq4 TAATGTAAACAGTTTTTGTATATACAGCGTTCCTATCTTTGTTTTTCTTCAATACTTACC Seq2 ------------------------------------------------------------ Seq3 ------------------------------------------------------------ Seq1 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA Seq4 TGTTAGGGTTTTTGGTCATTATTTTAGGTGTAAAACCGTTTGAATGCACTTATTGTTATA Seq2 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA Seq3 -----------------------------GTAAAACCGTTTGAATGCACTTATTGTTATA ******************************* Seq1 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA Seq4 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA Seq2 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACAAAGGTCTCA Seq3 AAGGATTCACTCGAAATTCTGATCTTCATAAGCACATCGACGCTGTTCACANAGGTCTCA *************************************************** ******** Seq1 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAA--------------- Seq4 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTTAAACGA Seq2 AGCCTTTCCGGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTAAAACGA Seq3 AGCCTTTC-GGATGTGAAGTATGCCAGCGAAACTTCTCTCAGAAATCCAGCCTANAACGA ******** ************************************ Seq1 ------------------------------------------------------------ Seq4 CACATAGAAAGCATTCACGAAAG------------------------------------- Seq2 CACATAGAAGCAATTCACGAAGATCCTCGGCATCGCTGAAGAGAAACCAGATTGTATAAT © Francisco Prosdocimi, 2007. Todos os direitos reservados ao autor da obra. Críticas, sugestões, comentários e apreciações são bem-vindos franc @ icb . ufmg . br