Avanços e perspectivas
  em Bioinformática




Semana Acadêmica da Computação
   Leandro Lima – 17/08/2012
     www.ime.usp.br/~llima
Quem sou eu
* Bacharel em Ciência da Computação
Universidade Federal do Ceará (2003-2006)


* Mestre em Ciência da Computação
Universidade de São Paulo (2007-2009)


* Doutorando em Bioinformática
Universidade de São Paulo (2011- ????)


Trabalhos atuais:
* Hospital AC Camargo – Centro Internacional de Pesquisa e
   Ensino – Laboratório de Bioinformática e Bioestatística
* FMU – Professor do curso de Ciência da Computação
Sumário

- Um pouco de Biologia
- Informação biológica: gerar, armazenar,
   analisar
- Genômica
- Sequenciamento de DNA
- Aplicações / análises
- Perspectivas / direcionamentos
Uma definição de Bioinformática



“Uso da Computação e Estatística
 para gerar, armazenar e analisar
        dados biológicos”
Um pouco de Biologia (I)




   Gregor Mendel
("Ensaios com plantas
   híbridas", 1865)
Um pouco de Biologia (II)




                 Watson e Crick e a
                  estrutura do DNA
                       (1953)
Um pouco de Biologia (III)




  Imagem: http://pathology.jhu.edu/pc/BasicCauses.php
Dogma Central da
Biologia Molecular
Geração de informação biológica




Resultado da busca do site do NCBI (National Center for Biotechnology Information)
Geração de informação biológica

PubMed: catálogo dos artigos científicos
Taxonomy: classificação de organismos
Genome: sequências completas de genomas
Gene: informações de genes
GEO Profiles: perfis de expressão gênica
Protein: banco de sequências
SNP: variações genéticas curtas
PubChem: banco de estruturas e interações
  químicas (drogas)
Exemplos de informações: gene BRCA1
           (Homo sapiens)
Localização: 17q21 (41196312..41277500)
Tamanho: 81189 bases
Transcritos: NM_007300.3, NM_007294.3, ...
Interações: ABL1, MSH6, BRCA2, BRIP1, ...
Alterações comuns: rs8176320, rs12516,
  rs34214126, ...
Vias metabólicas: reparo de DNA, ciclo celular, …
Sequência:
  GTACCTTGATTTCGTATTCTGAGAGGCTGCTGCT
  TAG...
           Fonte: http://www.ncbi.nlm.nih.gov/gene/672
Mais um pouco de Biologia
Mais um pouco de Biologia
O genoma é toda a informação
  hereditária de um organismo que
    está codificada em seu DNA

Etapas de estudo:
(1) Sequenciamento
(2) Montagem (com ou sem referência)
(3) Anotação
ABCDEFGHIJKLMNOPQRSTUVWXYZ


                 Sequenciamento
ABCDEFGHIJKLMNOPQRSTUVWXYZ


                 Montagem
ABCDEFGHIJKLMNOPQRSTUVWXYZ


                 Anotação
Sequenciamento de DNA
Sequenciamento de DNA
Um pouco de História
    Projeto Genoma Humano
iniciado em 1990 – “concluído” em 2003




                         Hoje (2012): 2 dias
                         para sequenciar
                         Tamanho do genoma
                         completo: ~3GB
Alguns tamanhos de genomas
- HIV (vírus): 9.7kb
- Haemophilus influenzae (bactéria): 1.8Mb
- Arabidopsis thaliana (planta): 157Mb
- Drosophila melanogaster (mosca): 130Mb
- Mus musculus (rato): 2.7Gb
- Homo sapiens (você): 3.2Gb
- Polychaos dubium (ameba): 670Gb
Alinhamento de sequências
Um exemplo usando
programação dinâmica



 Alinhar as sequências
 GAATTCAGTTA
     GGATCGA
Resultado


G _ A A T T C A G T T A
|     |   | |   |     |
G G _ A _ T C _ G _ _ A

       Score = 6
Outros estudos
- Single-nucleotide polymorphism (SNP, do
  inglês polimorfismo em único nucleotídeo)
Outros estudos (II)
- Copy-number variation
(CNV, do inglês variação
no número de cópias)
Dogma Central da
Biologia Molecular



             Expressão gênica
                 (mRNA)
Medida de expressão gênica
     (ex: microarrays)




          Figuras: http://www.chrisdellavedova.com
    http://www.har.mrc.ac.uk/services/MPC/microarray/
Números


gene   Am1    Am2    Am3    Am4    Am5    …
 A      2.5    1.5     5     6.3    3.4   …
 B      3.2    5.6    4.4     4      7    …
 C      4.5   10.3    1.2    5.5     5    …
 D      1.5    3.2    4.5    3.4    4.5   …
 E      3.5    6.7    2.6    2.5    2.5   …
 …      …      …      …      …      …     …
Padrões de expressão
Clustering analysis
(análise de agrupamento)
Funções biológicas
Redes biológicas
Redes biológicas
Redes droga-alvos
(drug-target networks)
Diseasome (rede das doenças)
Exemplo de uma análise usando
      expressão gênica

1 - Dada uma doença X, coletamos (os
  biólogos, na verdade) amostras de tecido
  de 20 pessoas doentes e 20 pessoas sem
  a doença
Exemplo de uma análise usando
      expressão gênica

2 – Após verificar que a qualidade dos dados
  está boa, analisamos o padrão de
  expressão dos genes nos dois grupos e
  tentamos identificar quais tiveram uma
  padrão diferente (chamamos esses genes
  de diferencialmente expressos)
Exemplo de uma análise usando
      expressão gênica
Exemplo de uma análise usando
      expressão gênica

3 – Identificar as funções biológicas
  relacionadas a esses genes
  diferencialmente expressos (tanto os
  super-expressos quanto os sub-
  expressos)
Exemplo de uma análise usando
      expressão gênica
Exemplo de uma análise usando
      expressão gênica

4 – Identificar a rede de genes relacionados
  a essa lista e identificar os mais
  importantes usando informações
  topológicas (exemplos: grau do vértice;
  centralidade; participação em
  comunidades; é ponte?)
Exemplo de uma análise usando
      expressão gênica
O que estudar?
Computação
  - programação/análise de algoritmos
  - mineração de dados/reconhecimento de padrões
  - teoria dos grafos
  - programação paralela e distribuída
  - bancos de dados
Biologia
  - Biologia molecular/celular
Estatística
  - análise de gráficos
  - inferência/teste de hipótese
Linguagens mais usadas
Pós-graduações no Brasil
- Programa Interunidades de Pós-Graduação
  em Bioinformática-USP
http://www.ime.usp.br/posbioinfo/
- Programa de Pós-Graduação em
  Bioinformática-UFPR
http://www.bioinfo.ufpr.br
- Programa de Pós-Graduação em
  Bioinformática-UFMG
http://www.pgbioinfo.icb.ufmg.br/
Onde trabalhar

- Hospitais
- Universidades
- Instituições de pesquisa (agropecuária,
   biomédica, etc.)
- Farmacêuticas
- Prestadoras de serviços
Outras dicas
- Comece a estudar cedo
- Procure um grupo de Bioinformática
  (Computação, Biologia, Matemática,
  Farmácia, Medicina)
- Estude inglês
- Use Linux
- Siga blog / perfis do Twitter relacionados a
  Bioinfo
- Pense sobre passar um tempo fora (do
  Ceará, do Brasil)
Broad Institute of MIT and Harvard (junho de 2012)
Broad Institute of MIT and Harvard (junho de 2012)
Perguntas?

Avanços e perspectivas em Bioinformática

  • 1.
    Avanços e perspectivas em Bioinformática Semana Acadêmica da Computação Leandro Lima – 17/08/2012 www.ime.usp.br/~llima
  • 2.
    Quem sou eu *Bacharel em Ciência da Computação Universidade Federal do Ceará (2003-2006) * Mestre em Ciência da Computação Universidade de São Paulo (2007-2009) * Doutorando em Bioinformática Universidade de São Paulo (2011- ????) Trabalhos atuais: * Hospital AC Camargo – Centro Internacional de Pesquisa e Ensino – Laboratório de Bioinformática e Bioestatística * FMU – Professor do curso de Ciência da Computação
  • 3.
    Sumário - Um poucode Biologia - Informação biológica: gerar, armazenar, analisar - Genômica - Sequenciamento de DNA - Aplicações / análises - Perspectivas / direcionamentos
  • 4.
    Uma definição deBioinformática “Uso da Computação e Estatística para gerar, armazenar e analisar dados biológicos”
  • 5.
    Um pouco deBiologia (I) Gregor Mendel ("Ensaios com plantas híbridas", 1865)
  • 6.
    Um pouco deBiologia (II) Watson e Crick e a estrutura do DNA (1953)
  • 7.
    Um pouco deBiologia (III) Imagem: http://pathology.jhu.edu/pc/BasicCauses.php
  • 8.
  • 9.
    Geração de informaçãobiológica Resultado da busca do site do NCBI (National Center for Biotechnology Information)
  • 10.
    Geração de informaçãobiológica PubMed: catálogo dos artigos científicos Taxonomy: classificação de organismos Genome: sequências completas de genomas Gene: informações de genes GEO Profiles: perfis de expressão gênica Protein: banco de sequências SNP: variações genéticas curtas PubChem: banco de estruturas e interações químicas (drogas)
  • 11.
    Exemplos de informações:gene BRCA1 (Homo sapiens) Localização: 17q21 (41196312..41277500) Tamanho: 81189 bases Transcritos: NM_007300.3, NM_007294.3, ... Interações: ABL1, MSH6, BRCA2, BRIP1, ... Alterações comuns: rs8176320, rs12516, rs34214126, ... Vias metabólicas: reparo de DNA, ciclo celular, … Sequência: GTACCTTGATTTCGTATTCTGAGAGGCTGCTGCT TAG... Fonte: http://www.ncbi.nlm.nih.gov/gene/672
  • 12.
    Mais um poucode Biologia
  • 13.
    Mais um poucode Biologia
  • 14.
    O genoma étoda a informação hereditária de um organismo que está codificada em seu DNA Etapas de estudo: (1) Sequenciamento (2) Montagem (com ou sem referência) (3) Anotação
  • 15.
  • 16.
  • 17.
  • 19.
  • 20.
  • 21.
    Um pouco deHistória Projeto Genoma Humano iniciado em 1990 – “concluído” em 2003 Hoje (2012): 2 dias para sequenciar Tamanho do genoma completo: ~3GB
  • 22.
    Alguns tamanhos degenomas - HIV (vírus): 9.7kb - Haemophilus influenzae (bactéria): 1.8Mb - Arabidopsis thaliana (planta): 157Mb - Drosophila melanogaster (mosca): 130Mb - Mus musculus (rato): 2.7Gb - Homo sapiens (você): 3.2Gb - Polychaos dubium (ameba): 670Gb
  • 24.
  • 25.
    Um exemplo usando programaçãodinâmica Alinhar as sequências GAATTCAGTTA GGATCGA
  • 33.
    Resultado G _ AA T T C A G T T A | | | | | | G G _ A _ T C _ G _ _ A Score = 6
  • 34.
    Outros estudos - Single-nucleotidepolymorphism (SNP, do inglês polimorfismo em único nucleotídeo)
  • 35.
    Outros estudos (II) -Copy-number variation (CNV, do inglês variação no número de cópias)
  • 36.
    Dogma Central da BiologiaMolecular Expressão gênica (mRNA)
  • 37.
    Medida de expressãogênica (ex: microarrays) Figuras: http://www.chrisdellavedova.com http://www.har.mrc.ac.uk/services/MPC/microarray/
  • 38.
    Números gene Am1 Am2 Am3 Am4 Am5 … A 2.5 1.5 5 6.3 3.4 … B 3.2 5.6 4.4 4 7 … C 4.5 10.3 1.2 5.5 5 … D 1.5 3.2 4.5 3.4 4.5 … E 3.5 6.7 2.6 2.5 2.5 … … … … … … … …
  • 39.
  • 40.
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.
    Exemplo de umaanálise usando expressão gênica 1 - Dada uma doença X, coletamos (os biólogos, na verdade) amostras de tecido de 20 pessoas doentes e 20 pessoas sem a doença
  • 47.
    Exemplo de umaanálise usando expressão gênica 2 – Após verificar que a qualidade dos dados está boa, analisamos o padrão de expressão dos genes nos dois grupos e tentamos identificar quais tiveram uma padrão diferente (chamamos esses genes de diferencialmente expressos)
  • 48.
    Exemplo de umaanálise usando expressão gênica
  • 49.
    Exemplo de umaanálise usando expressão gênica 3 – Identificar as funções biológicas relacionadas a esses genes diferencialmente expressos (tanto os super-expressos quanto os sub- expressos)
  • 50.
    Exemplo de umaanálise usando expressão gênica
  • 51.
    Exemplo de umaanálise usando expressão gênica 4 – Identificar a rede de genes relacionados a essa lista e identificar os mais importantes usando informações topológicas (exemplos: grau do vértice; centralidade; participação em comunidades; é ponte?)
  • 52.
    Exemplo de umaanálise usando expressão gênica
  • 53.
    O que estudar? Computação - programação/análise de algoritmos - mineração de dados/reconhecimento de padrões - teoria dos grafos - programação paralela e distribuída - bancos de dados Biologia - Biologia molecular/celular Estatística - análise de gráficos - inferência/teste de hipótese
  • 54.
  • 55.
    Pós-graduações no Brasil -Programa Interunidades de Pós-Graduação em Bioinformática-USP http://www.ime.usp.br/posbioinfo/ - Programa de Pós-Graduação em Bioinformática-UFPR http://www.bioinfo.ufpr.br - Programa de Pós-Graduação em Bioinformática-UFMG http://www.pgbioinfo.icb.ufmg.br/
  • 56.
    Onde trabalhar - Hospitais -Universidades - Instituições de pesquisa (agropecuária, biomédica, etc.) - Farmacêuticas - Prestadoras de serviços
  • 57.
    Outras dicas - Comecea estudar cedo - Procure um grupo de Bioinformática (Computação, Biologia, Matemática, Farmácia, Medicina) - Estude inglês - Use Linux - Siga blog / perfis do Twitter relacionados a Bioinfo - Pense sobre passar um tempo fora (do Ceará, do Brasil)
  • 58.
    Broad Institute ofMIT and Harvard (junho de 2012)
  • 59.
    Broad Institute ofMIT and Harvard (junho de 2012)
  • 60.