las multiples caras  de la bioinformática [email_address]
La bioinformática consiste en la creación y desarrollo de  algoritmos,   bases de datos , técnicas informáticas y  estadís...
La vida puede verse como un proceso de almacenamiento y transmisión de información biológica.  El ADN es la molécula porta...
 
“ We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which ...
Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen est...
Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficoc...
El primer Atlas of Protein Sequence and Structure, presentaba información sobre 65 proteinas.
En 1971 se crea el Protein Data Bank.  En 1974 tiene 12 estructuras myoglobin hemoglobin papain  ribonuclease  lactate deh...
Frederick Sanger  publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".
El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977
5,386 bases
11 genes
In 1981 the EMBL Nucleotide Sequence Data Library is created. Version 2 was composed of 811 secuences, around 1 million ba...
Smith TF, Waterman MS (1981). "Identification of common molecular subsequences.".  J Mol Biol.   147  (1): 195-7 .
S.F. Altschul,  et al. (1990) , "Basic Local Alignment Search Tool,"  J. Molec. Biol. , 215(3): 403-10, 1990. 15...
J. Thompson, T. Gibson, D. Higgins (1994),  CLUSTAL W: improving the sensitivity of progressive multiple sequence alignmen...
En 1995 se crea el European Bioinformatics institute
 
 
http://www.ensembl.org
http://www.uniprot.org
herramientas web http://www.ebi.ac.uk/Tools/
servicios web SOAP:  Simple Object Access Protocol fetchData(uniprot,wap_rat,default,xml) http://www.ebi.ac.uk/Tools/webse...
http://taverna.sourceforge.net/
http://www.myexperiment.org/users/471
 
http://www.ebi.ac.uk/dasty/
15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano
 
3,000,830,137  bases
<2%
 
 
 
25,000 genes
Bioinformatics: Gone in 2012 http://conferences.oreillynet.com/cs/bio2003/view/e_sess/3452
98% ADN basura
¿basura?
ENCyclopedia Of DNA Elements
Fire A, Xu S, Montgomery M, Kostas S, Driver S, Mello C (1998). &quot;Potent and specific genetic interference by double-s...
Hamilton A, Baulcombe D (1999). &quot; A species of small antisense RNA in posttranscriptional gene silencing in plants &q...
<ul><li>Dr Alan Wolffe (1999)  </li></ul><ul><li>Epigenetics  is heritable changes in gene expression that occur without a...
 
99,99% idénticos
VARIACIÓN EN LA SECUENCIA HUMANA DE DNA Tasa de mutación = 10 -8  /sitio/generación Nº generaciones ancestro común-humano ...
10.000.000 SNPs
 
$10-million award for the first privately funded team that can sequence  100 human genomes  in  10 days  for less than  10...
Applied Biosystems  ABI 3730XL Illumina / Solexa  Genetic Analyzer Applied Biosystems SOLiD Roche / 454  Genome Sequencer ...
Sequencing    Fragment assembly problem    The Shortest Superstring Problem    Velvet (Zerbino, 2008)  Gene finding   ...
2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors  10240 CPUs | 20 TB o...
 
 
Comparative genomics Sequence (DNA/RNA) & phylogeny Regulation of gene expression; transcription factors & micro RNAs Prot...
AKJLSKDUCMMSLSIIEMMCSKLSKCSDCMSKLCCSDKCLSMCLKMCCLSKDCLSMCLSKCSCLSCLSMCLKSCDMCLMKMLWLKWLCMSKMCLSMCLSMCLSKCDJFIOIWELKMLXLWLW...
 
 
http://www.ebi.ac.uk/intact
http://www.ebi.ac.uk/biomodels/
http://www.cytoscape.org
Bioinformatics: alive and kicking.  biologists are all bioinformaticians now. http://genomebiology.com/2008/9/12/114
 
una empresa de tecnología... Análisis de datos, señales, imágenes Modelado de sistemas, simulación Bases de datos, data mi...
con soluciones para  el sector biomédico gestión de datos análisis estadístico anotación análisis de redes selección 30.00...
queremos ser pieza fundamental integrando procesos de I+D+i y tecnología en un mecanismo único que permita gestionar todo ...
datos gestión análisis visualización
data management
https://carmaweb.genome.tugraz.at/ http://base.thep.lu.se/
http://www.agml.org/
http://www.openmicroscopy.org
<ul><li>CONTENT : Minimal Information to be reported    ->  MIBBI  ( http://www.mibbi.org ) </li></ul><ul><li>SEMANTIC : T...
data analysis
Biological question Testing Biological verification  and interpretation experiment Estimation Experimental design Image an...
Bioconductor for Expression Analysis <ul><li>Quickly becoming the accepted approach </li></ul><ul><li>Open source </li></u...
Trans-Proteomic Pipeline (TPP)  is a collection of integrated tools for MS/MS proteomics http://tools.proteomecenter.org h...
BIG   data
 
 
 
 
 
 
gestión análisis visualización literatura
enriquecimiento semántico extracción de información 
Antileukoproteinase,  Secretory leukocyte protease inhibitor, P03973 uniprot:  http://www.uniprot.org/uniprot/ P03973 gene...
 
 
 
 
retos de la biología en los próximos 50 años <ul><li>Listado de todos  los  componentes  moleculares que forman un organis...
 
Upcoming SlideShare
Loading in …5
×

Las multiples caras de la bioinformatica

1,409 views

Published on

I Jornadas de bioinformática de Granada - Alberto Labarga

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Las multiples caras de la bioinformatica

  1. 2. las multiples caras de la bioinformática [email_address]
  2. 3. La bioinformática consiste en la creación y desarrollo de algoritmos, bases de datos , técnicas informáticas y estadísticas , y las bases teóricas para resolver problemas formales y prácticos en torno a la gestión y análisis de información biológica .
  3. 4. La vida puede verse como un proceso de almacenamiento y transmisión de información biológica. El ADN es la molécula portadora de esta información. Para entender la vida debemos identificar estas moléculas y descifrar el código
  4. 6. “ We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest” “ It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”
  5. 7. Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas. Este resultado le valió su primer Premio Nobel de química en 1958
  6. 8. Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos. El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre. Tenía 11000 átomos.
  7. 9. El primer Atlas of Protein Sequence and Structure, presentaba información sobre 65 proteinas.
  8. 10. En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras myoglobin hemoglobin papain ribonuclease lactate dehydrogenase carboxypeptidase A
  9. 11. Frederick Sanger publica en 1975 un método para la &quot;Secuenciación del ADN mediante síntesis enzimática&quot;.
  10. 12. El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977
  11. 13. 5,386 bases
  12. 14. 11 genes
  13. 15. In 1981 the EMBL Nucleotide Sequence Data Library is created. Version 2 was composed of 811 secuences, around 1 million bases introduced by hand.
  14. 16. Smith TF, Waterman MS (1981). &quot;Identification of common molecular subsequences.&quot;. J Mol Biol. 147 (1): 195-7 .
  15. 17. S.F. Altschul, et al. (1990) , &quot;Basic Local Alignment Search Tool,&quot; J. Molec. Biol. , 215(3): 403-10, 1990. 15,306 citations
  16. 18. J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680
  17. 19. En 1995 se crea el European Bioinformatics institute
  18. 22. http://www.ensembl.org
  19. 23. http://www.uniprot.org
  20. 24. herramientas web http://www.ebi.ac.uk/Tools/
  21. 25. servicios web SOAP: Simple Object Access Protocol fetchData(uniprot,wap_rat,default,xml) http://www.ebi.ac.uk/Tools/websevices
  22. 26. http://taverna.sourceforge.net/
  23. 27. http://www.myexperiment.org/users/471
  24. 29. http://www.ebi.ac.uk/dasty/
  25. 30. 15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano
  26. 32. 3,000,830,137 bases
  27. 33. <2%
  28. 37. 25,000 genes
  29. 38. Bioinformatics: Gone in 2012 http://conferences.oreillynet.com/cs/bio2003/view/e_sess/3452
  30. 39. 98% ADN basura
  31. 40. ¿basura?
  32. 41. ENCyclopedia Of DNA Elements
  33. 42. Fire A, Xu S, Montgomery M, Kostas S, Driver S, Mello C (1998). &quot;Potent and specific genetic interference by double-stranded RNA in Caenorhabditis elegans &quot;. Nature 391 (6669): 806–11. doi : 10.1038/35888 . PMID 9486653
  34. 43. Hamilton A, Baulcombe D (1999). &quot; A species of small antisense RNA in posttranscriptional gene silencing in plants &quot;. Science 286 (5441): 950–2. PMID 10542148
  35. 44. <ul><li>Dr Alan Wolffe (1999) </li></ul><ul><li>Epigenetics is heritable changes in gene expression that occur without a change in DNA sequence </li></ul><ul><li>Such changes cannot be attributed to changes in DNA sequence (mutations) </li></ul><ul><li>They are as Irreversible as mutations (or difficult to reverse) </li></ul>
  36. 46. 99,99% idénticos
  37. 47. VARIACIÓN EN LA SECUENCIA HUMANA DE DNA Tasa de mutación = 10 -8 /sitio/generación Nº generaciones ancestro común-humano actual: 10 4 -10 5
  38. 48. 10.000.000 SNPs
  39. 50. $10-million award for the first privately funded team that can sequence 100 human genomes in 10 days for less than 10.000$
  40. 51. Applied Biosystems ABI 3730XL Illumina / Solexa Genetic Analyzer Applied Biosystems SOLiD Roche / 454 Genome Sequencer 1 Mb/day 100 Mb/run 3000 Mb/run
  41. 52. Sequencing  Fragment assembly problem  The Shortest Superstring Problem  Velvet (Zerbino, 2008) Gene finding  Hidden Markov Models, pattern recognition methods  GenScan (Burge & Karlin, 1997) Sequence comparison  pairwise and multiple sequence alignments  dynamic algorithm, heuristic methods  PSI- BLAST (Altschul et. al., 1997) ( SSAHA, 2001) ( MUMmerGPU, 2008)
  42. 53. 2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk
  43. 56. Comparative genomics Sequence (DNA/RNA) & phylogeny Regulation of gene expression; transcription factors & micro RNAs Protein sequence analysis & evolution Protein families, motifs and domains Protein structure & function: computational crystallography Protein interactions & complexes: modelling and prediction Chemical biology Pathway analysis Systems modelling Image analysis Data integration & literature mining
  44. 57. AKJLSKDUCMMSLSIIEMMCSKLSKCSDCMSKLCCSDKCLSMCLKMCCLSKDCLSMCLSKCSCLSCLSMCLKSCDMCLMKMLWLKWLCMSKMCLSMCLSMCLSKCDJFIOIWELKMLXLWLWKMLWKCLWMCLWMCLWLWCLWKJCLWKCLKDWJCLWKDJCLK
  45. 60. http://www.ebi.ac.uk/intact
  46. 61. http://www.ebi.ac.uk/biomodels/
  47. 62. http://www.cytoscape.org
  48. 63. Bioinformatics: alive and kicking. biologists are all bioinformaticians now. http://genomebiology.com/2008/9/12/114
  49. 65. una empresa de tecnología... Análisis de datos, señales, imágenes Modelado de sistemas, simulación Bases de datos, data mining, IA Tecnología, comunicación, computación
  50. 66. con soluciones para el sector biomédico gestión de datos análisis estadístico anotación análisis de redes selección 30.000 genes 1500 genes 150 genes 50 elementos 10 targets
  51. 67. queremos ser pieza fundamental integrando procesos de I+D+i y tecnología en un mecanismo único que permita gestionar todo el proceso y donde la tecnología sea el eslabón más fuerte de la cadena
  52. 68. datos gestión análisis visualización
  53. 69. data management
  54. 70. https://carmaweb.genome.tugraz.at/ http://base.thep.lu.se/
  55. 71. http://www.agml.org/
  56. 72. http://www.openmicroscopy.org
  57. 73. <ul><li>CONTENT : Minimal Information to be reported -> MIBBI ( http://www.mibbi.org ) </li></ul><ul><li>SEMANTIC : Terminology Used, Ontologies -> OBI ( http://obi-ontology.org ) </li></ul><ul><li>SYNTAX : Data Model, Data Exchange -> FUGE ( http://fuge.sourceforge.net ) </li></ul>
  58. 74. data analysis
  59. 75. Biological question Testing Biological verification and interpretation experiment Estimation Experimental design Image analysis Normalization Clustering Prediction Expression quantification Pre-processing Analysis
  60. 76. Bioconductor for Expression Analysis <ul><li>Quickly becoming the accepted approach </li></ul><ul><li>Open source </li></ul><ul><li>Flexible </li></ul><ul><li>(fairly) simple to use - intuitive </li></ul><ul><li>Wide applications – many packages </li></ul>http://www.bioconductor.org
  61. 77. Trans-Proteomic Pipeline (TPP) is a collection of integrated tools for MS/MS proteomics http://tools.proteomecenter.org http://proteowizard.sourceforge.net http://www.thegpm.org/TANDEM
  62. 78. BIG data
  63. 85. gestión análisis visualización literatura
  64. 86. enriquecimiento semántico extracción de información 
  65. 87. Antileukoproteinase, Secretory leukocyte protease inhibitor, P03973 uniprot: http://www.uniprot.org/uniprot/ P03973 genecards: http://www.genecards.org/cgi-bin/carddisp.pl?id= P03973 dasty: http://www.ebi.ac.uk/dasty/client/ebi.php?q=P03973 >sp|P03973|SLPI_HUMAN Antileukoproteinase OS=Homo sapiens GN=SLPI MKSSGLFPFLVLLALGTLAPWAVEGSGKSFKAGVCPPKKSAQCLRYKKPECQSDWQCPGK KRCCPDTCGIKCLDPVDTPNPTRRKPGKCPVTYGQCLMLNPPNFCEMDGQCKRDLKCCMG MCGKSCVSPVKA
  66. 92. retos de la biología en los próximos 50 años <ul><li>Listado de todos los componentes moleculares que forman un organismo: </li></ul><ul><ul><li>Genes, proteinas, y otros elementos funcionales </li></ul></ul><ul><li>Comprender la funcion de cada componente </li></ul><ul><li>Comprender como interaccionan </li></ul><ul><li>Estudiar como la función ha evolucionado </li></ul><ul><li>Encontrar defectos geneticos que causan enfermedades </li></ul><ul><li>Diseñar medicamentos y terapias de manera racional </li></ul><ul><li>Secuenciar el genoma de cada individuo y usarlo en una medicina personalizada </li></ul>

×