New Generation Sequencing         The Big Data Era                Roberta A. Campos
EM 20101 ZettaByte (ZB) = 1 Trilhão1,000,000,000,000 GigaBytes (GB)                                   Roberta A. Campos Ph...
“Big Data Era” na CiênciaResearchers need to adapt their institutions andpractices in response to torrents of new data —an...
Ciclo do Conhecimento                                            Gene Knock-outs                                          ...
Inundação de Dados na Áreade Ciências Biológicasgenomas completos sequenciados;dados de variações genômicas;projetos de Me...
E agora, quais são os desafios?   Pontos urgentes que devem ser enfrentados:    ◦ Transferência de dados, controle de ace...
Integração dos Bancos deDados Biológicos   Características    ◦ Grande volume de dados;       Desenvolvimento de novos m...
Soluções computacionais   Cloud-based computing;   Ambientes computacionais heterogêneos;    ◦ Integração de aceleradore...
Primeiros passos...   Compreensão da natureza dos dados, ou seja, da sua    magnitude e complexidade, e dos recursos disp...
Soluções no BrasilO EMU (Equipamento MultiUsuário)é uma plataforma de alta-performance para análisescomputacionais aplicad...
Sequenciamento - NGS        Por quê sequenciar ?               Roberta A. Campos PhD, MSc, PD
Por quê sequenciar ?    Motivação     Aplicações diversas:     • identificar sequencias funcionais e caracterizar       ge...
Bioinformática• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas  computacionais e abordagens para e...
Repositórios de Dados Biológicos   1965 – Atlas of Protein Sequences and Structure    (Dayhoff et al.) - ~1Mb   1982 – G...
International Nucleotide Sequence DatabaseColaboration                                1982                                ...
Era “Pós-Genoma”    "O PGH aumentou a capacidade de compreensão    da complexidade que é a transmissão dos    caracteres g...
Projetos “omas”                xPesquisa Clássica em Genética e          Bioquímica                                       ...
Genômica Funcional: Análise de Expressão   GênicaGenômica Funcional = Métodos de obtenção de dados em larga escala        ...
Últimos anos – NGS Era                                                  Sequenciamento do Genoma                          ...
NEW GENERATIONSEQUENCINGAND APPLICATIONS         Roberta A. Campos PhD, MSc, PD
Nova Geração de Sequenciadores      PLATÔ   TECNOLOGIA                    Roche/454 FLX        Illumina/Solexa GA        A...
Resumo das plataformas                                  http://www.illumina.com/                                  http:/...
Trade-offs in Next GenerationSequencing technologies              NHGRI Current Topics in Genome Analysis 2010            ...
NGS no mundo                 http://pathogenomics.bham.ac.uk/hts/               Roberta A. Campos PhD, MSc, PD
Novas promessas   HeliScope    ◦ Helicos BioSciences                                    2008   ION Torrent    ◦ Applied ...
Produtividade                            [Stratton MR, et al. 2009]                Roberta A. Campos PhD, MSc, PD
Aplicacao Biotecnologica   i5K    ◦ 5000 genomas de insetos       importância especialmente para a agricultura.   Genom...
“Counting Experiments”                Roberta A. Campos PhD, MSc, PD
Análise RNA-SeqRNA-SeqRNA-Seq – Quantificação da expresão dos genes no transcriptoma                                      ...
Análise ChIP-SeqChIP-SeqChIP – Chromatin ImunoPreciptation                                              ReproducibilidadeH...
Análise Methyl-SeqMethyl-SeqDNA treatment with methyl-sensitive restriction enzymes(HpaII - não metilada, MspI - indiferen...
Análise microRNA-SeqmicroRNA-Seqsmall RNA library (mirVana miRNA Isolation Kit)High-Throughput sequencingmicroRNA-Seq – Ca...
Análise de Vias BiológicasVias metabólicas/regulatóriasrelacionadas   JASMONATOem plantas em diferentescontextos ecologico...
Interações entre Proteínas   Cobertura   Ontologia - Paralogia   Regioes Conservadas   Problemas de ANOTACAO!!!   Est...
Análise de Interações entreProteínas – Redes Baysianas                   Protein–protein interactions networks            ...
Biologia Sistêmica – “New hit”   Estudo das interações entre as componentes de um    sistema biológico, e como essas inte...
CONCLUSÃO        Roberta A. Campos PhD, MSc, PD
Perguntas?                             Roberta Alvares Campos                                        OBRIGADA !!!         ...
ABORDAGENS EM      GRUPOS       Brain storm    Roberta A. Campos PhD, MSc, PD
Resumo de AplicaçõesCategory - NGS                                Examples of applications                                ...
Upcoming SlideShare
Loading in...5
×

Pos Usp Ngs Big Data Parte 2

545

Published on

Presentation
Curso de Pos-graduacao IBUSP -2012

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
545
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
27
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Pos Usp Ngs Big Data Parte 2

  1. 1. New Generation Sequencing The Big Data Era Roberta A. Campos
  2. 2. EM 20101 ZettaByte (ZB) = 1 Trilhão1,000,000,000,000 GigaBytes (GB) Roberta A. Campos PhD, MSc, PD
  3. 3. “Big Data Era” na CiênciaResearchers need to adapt their institutions andpractices in response to torrents of new data —and need to complement smart science with smartsearching. Editorial Setembro 2008 1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB) Roberta A. Campos PhD, MSc, PD
  4. 4. Ciclo do Conhecimento Gene Knock-outs Protein Assays Point mutations … Microarrays (Kell DB et al., 2004) Genomics Meta-genomics hypothesis-driven science HT proteomics …data-driven science Roberta A. Campos PhD, MSc, PD
  5. 5. Inundação de Dados na Áreade Ciências Biológicasgenomas completos sequenciados;dados de variações genômicas;projetos de Meta-Genômica;dados de transcritomas;dados de proteínas;dados de interações entre proteínas;ION Torrent… Roberta A. Campos PhD, MSc, PD
  6. 6. E agora, quais são os desafios? Pontos urgentes que devem ser enfrentados: ◦ Transferência de dados, controle de acesso e gerenciamento. ◦ Padronização dos formatos de dados. ◦ Integração dos dados oriundos de múltiplas fontes.  Dados com características Multi-dimensionais e em um volume imenso;  Exemplo: Análise funcional de variações no DNA em múltiplas amostras em diferentes tipos de tumores utilizando dados de sequenciamento de nova geração... ◦ Modelos preditivos para fenótipos complexos demandam computação intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede Bayesiana para representar um modelo de regulação gênica) Roberta A. Campos PhD, MSc, PD
  7. 7. Integração dos Bancos deDados Biológicos Características ◦ Grande volume de dados;  Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable ); ◦ Não há padrão para os nomes dos objetos;  Ontologias (e.g. Gene Ontology) e organizações que regulam a nomenclatura (e.g. HUGO) ◦ Não há padrão para acesso aos dados, cuja natureza é distribuída;  Utilização de formatação padrão para troca de informações (e.g. GFF) e web services; ◦ Definição variável para alguns conceitos;  e.g. gene ◦ Dados altamente heterogêneos mas inter-relacionados; ◦ Informação dinâmica e em constante atualização; Roberta A. Campos PhD, MSc, PD
  8. 8. Soluções computacionais Cloud-based computing; Ambientes computacionais heterogêneos; ◦ Integração de aceleradores especializados (GPUs); Aumento do número de computadores; Otimização de algoritmos; Roberta A. Campos PhD, MSc, PD
  9. 9. Primeiros passos... Compreensão da natureza dos dados, ou seja, da sua magnitude e complexidade, e dos recursos disponíveis (memória, espaço, tenho um servidor?)... Compreensão dos algoritmos. Compreensão das vantagens e desvantagens das arquiteturas disponíveis. ◦ A decisão não é sempre óbvia e muitas vezes consiste em uma combinação delas Roberta A. Campos PhD, MSc, PD
  10. 10. Soluções no BrasilO EMU (Equipamento MultiUsuário)é uma plataforma de alta-performance para análisescomputacionais aplicadas à genômicae à transcriptômica.Financiamento: ProgramaMultiusuário da FAPESP de 2010,com uma contra-partida do InstitutoLudwig de Pesquisa sobre o Câncer. Roberta A. Campos PhD, MSc, PD
  11. 11. Sequenciamento - NGS Por quê sequenciar ? Roberta A. Campos PhD, MSc, PD
  12. 12. Por quê sequenciar ? Motivação Aplicações diversas: • identificar sequencias funcionais e caracterizar genomas ou transcriptomas; • Da Genômica Comparativa à Expressão gênica... • Propósitos gerais... “NOVA ONDA NGS”... Roberta A. Campos PhD, MSc, PD
  13. 13. Bioinformática• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados.• Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais. Biomedical Information Science and Technology Initiative Consortium (BISTI - NIH) Roberta A. Campos PhD, MSc, PD
  14. 14. Repositórios de Dados Biológicos 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information 1997 – EMBL – European Molecular Biology Laboratory 1986 – DDBJ – DNA Data Bank of Japan Roberta A. Campos PhD, MSc, PD
  15. 15. International Nucleotide Sequence DatabaseColaboration 1982 606 seqüências 2.427 bases 2008 98.868.465 seqüências 99.116.431.942 bases Roberta A. Campos PhD, MSc, PD
  16. 16. Era “Pós-Genoma” "O PGH aumentou a capacidade de compreensão da complexidade que é a transmissão dos caracteres genéticos” (José Roberto Goldim, UFRGS) Genômica Estrutural ◦ Construção de mapas genéticos, físicos e de transcrição de um organismo. Genômica Funcional ◦ Caracterização das propriedades funcionais dos genes e determinação de Assinaturas Moleculares de Expressão Gênica. Roberta A. Campos PhD, MSc, PD
  17. 17. Projetos “omas” xPesquisa Clássica em Genética e Bioquímica Genômica Transcritômica Proteômica Epigenômica Metabolômica Nova Onda NGS Science 291:1221. 2001 A. Campos PhD, MSc, PD Roberta
  18. 18. Genômica Funcional: Análise de Expressão GênicaGenômica Funcional = Métodos de obtenção de dados em larga escala + Métodos de BioinformáticaRevolução dos projetos “-omas” (Genome-wide expression “profiling”) Mayo Clin Proc. 2004 May;79(5):651-8 Roberta A. Campos PhD, MSc, PD
  19. 19. Últimos anos – NGS Era Sequenciamento do Genoma Diplóide de um único indivíduo (Craig Venter) The diploid genome sequence of an individual human. (Levy, S. et al. 2007) 2005 2007 Legião de Sequenciadores ... ABI 3730 no JCVI 2003 2006 2008 Genoma James D. Watson Sequenciamento com 454 Conclusão do Projeto Genoma Humano 1000 Genomes Project Next-Generation Sequencing A.Revollution Roberta Campos PhD, MSc, PD
  20. 20. NEW GENERATIONSEQUENCINGAND APPLICATIONS Roberta A. Campos PhD, MSc, PD
  21. 21. Nova Geração de Sequenciadores PLATÔ TECNOLOGIA Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiDMétodo Sanger Pirosequenciamento Sequenciamento Sequenciamento por Síntese por Ligação • Aumento na quantidade de Dados • IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp) • Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de poucos dias); • Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb); • Redução do custo por base sequenciada. Roberta A. Campos PhD, MSc, PD
  22. 22. Resumo das plataformas  http://www.illumina.com/  http://www.my454.com/  http://www.appliedbiosystems.com.br/ Roberta A. Campos PhD, MSc, PD
  23. 23. Trade-offs in Next GenerationSequencing technologies NHGRI Current Topics in Genome Analysis 2010 Elliott Margulies, Roberta A. Campos PhD, MSc, PD Ph.D
  24. 24. NGS no mundo http://pathogenomics.bham.ac.uk/hts/ Roberta A. Campos PhD, MSc, PD
  25. 25. Novas promessas HeliScope ◦ Helicos BioSciences 2008 ION Torrent ◦ Applied Biosystems 2010 PacBio RS ◦ Pacific Biosciences 2010 Roberta A. Campos PhD, MSc, PD
  26. 26. Produtividade [Stratton MR, et al. 2009] Roberta A. Campos PhD, MSc, PD
  27. 27. Aplicacao Biotecnologica i5K ◦ 5000 genomas de insetos  importância especialmente para a agricultura. Genome10K ◦ 10000 genomas de vertebrados  diversidade genética entre vertebrados; 1001 Genomes ◦ 1001 genotipos de Arabdopsis thaliana  planta modelo, base de estudos outras plantas; 1KP ◦ 1000 genomas de plantas  desenvolvimentos de produtos biotecnológicos. Roberta A. Campos PhD, MSc, PD
  28. 28. “Counting Experiments” Roberta A. Campos PhD, MSc, PD
  29. 29. Análise RNA-SeqRNA-SeqRNA-Seq – Quantificação da expresão dos genes no transcriptoma Roberta A. Campos PhD, MSc, PD
  30. 30. Análise ChIP-SeqChIP-SeqChIP – Chromatin ImunoPreciptation ReproducibilidadeHigh-Throughput sequencing r = 0.906 (p-value < 2.2e-16).ChIP-Seq – Estudo da estrutura da cromatinaPadrão de metilação de histonas no genomahumano ChIP-Seq X GMAT (Genome-wide Mapping Technique)Uma das primeiras publicações utilizandoIllumina 1G Genome Analyzer Roberta A. Campos PhD, MSc, PD
  31. 31. Análise Methyl-SeqMethyl-SeqDNA treatment with methyl-sensitive restriction enzymes(HpaII - não metilada, MspI - indiferente)High-Throughput sequencingMethyl-Seq – Estudo de padrões de metilação doDNA em hESCs, células derivadas de hESCs e fígadofetal humano AUC = 0.94 Methyl-Seq x Illumina Infinium methylation status: presence or absence of HpaII tags: average tag count > 1 unmethylated Roberta A. Campos PhD, MSc, PD
  32. 32. Análise microRNA-SeqmicroRNA-Seqsmall RNA library (mirVana miRNA Isolation Kit)High-Throughput sequencingmicroRNA-Seq – Caracterização dos miRNAsexpressos em tecido gástrico humano (cardia -estômago)Plataforma SOLiD qRT -PCR 2 -∆Ct Pearson correlation (SOLiDxqRTPCR) r2 = 83.9 (p-value < 0.05) Roberta A. Campos PhD, MSc, PD
  33. 33. Análise de Vias BiológicasVias metabólicas/regulatóriasrelacionadas JASMONATOem plantas em diferentescontextos ecologicos Roberta A. Campos PhD, MSc, PD
  34. 34. Interações entre Proteínas Cobertura Ontologia - Paralogia Regioes Conservadas Problemas de ANOTACAO!!! Estima-se que 20% de anotacoes erradas!!! Roberta A. Campos PhD, MSc, PD
  35. 35. Análise de Interações entreProteínas – Redes Baysianas Protein–protein interactions networks for mutated genes in HCC1954 (A) and HCC1954BL (B). Roberta A. Campos PhD, MSc, PD
  36. 36. Biologia Sistêmica – “New hit” Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema; "Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “ Leroy Hood Roberta A. Campos PhD, MSc, PD
  37. 37. CONCLUSÃO Roberta A. Campos PhD, MSc, PD
  38. 38. Perguntas? Roberta Alvares Campos OBRIGADA !!! Roberta A. Campos PhD, MSc, PD
  39. 39. ABORDAGENS EM GRUPOS Brain storm Roberta A. Campos PhD, MSc, PD
  40. 40. Resumo de AplicaçõesCategory - NGS Examples of applications Comprehensive polymorphism and mutation discovery inComplete genome resequencing individual human genomesReduced representation sequencing - Draft Large-scale polymorphism discoveryTargeted genomic resequencing Targeted polymorphism and mutation discoveryRNA-seq = Pairend or single end sequencing Discovery of inherited and acquired structural variationMetagenomic sequencing Discovery of infectious and flora Quantification of gene expression and alternative splicing;Transcriptome sequencing transcript annotation; discovery of transcribed SNPs or somatic mutations.Small RNA sequencing microRNA profiling Determining patterns of cytosine methylation in genomicSequencing of bisulfite-treated DNA DNAChromatin immunoprecipitation– sequencing Genome-wide mapping of protein-DNA interactions(ChIP-Seq)Nuclease fragmentation and sequencing Nucleosome positioningMolecular barcoding - NGS Multiplex sequencing of samples from multiple individuals [Shendure, J & Ji, H, 2008] Roberta A. Campos PhD, MSc, PD
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×