Metadatos	  en	  biociencia:	  posibilitando	  la	  invesQgación	  reproducible	  y	  reuQlizable	                   Aleja...
El	  contexto	                                                     health	                                                ...
El	  contexto	                                                     health	                                                ...
El	  contexto	                                                     health	                                                ...
Ioannidis	   et	   al.,	   Repeatability	   of	   published	   microarray	  gene	  expression	  analyses.	  Nature	  Gene*...
Ioannidis	   et	   al.,	   Repeatability	   of	   published	   microarray	  gene	  expression	  analyses.	  Nature	  Gene*...
h]p://www.nature.com/news/2011/110111/full/469139a.html	  
h]p://www.nature.com/news/2011/110111/full/469139a.html	           h]p://www.economist.com/node/21528593	  
h]p://www.nature.com/news/2011/110111/full/469139a.html	          h]p://www.economist.com/node/21528593	        h]p://www....
Analogía	  de	  la	  lata	  de	  conservas	  basada	  en	  comentario	  por	  	  Norman	  Morrison	  y	  converQda	  de	  ...
Descripción	  de	  experimentos…	       	   	   	   	   	   	   	   	   	   	   	   	  metadatos	  •  Fragmentación	  de	 ...
Variadas	  comunidades	  de	  expertos…	  	    	   	   	   	   	   	   	   	   	  …variadas	  normas	  y	  estándares	  	 ...
h]p://xkcd.com/927/	  
Variadas	  comunidades	  de	  expertos…	  	    	   	   	   	   	   	   	   	   	  …variadas	  normas	  y	  estándares	  	 ...
Estándares	  de	  reporte	  de	  datos	  en	  expansión…	                          MAGE-Tab!     AAO!            miame!   ...
Estándares	  de	  reporte	  de	  datos	  en	  expansión…	                                                                 ...
Pero…	  	   cómo	  podemos	  saber	  cuáles	  son	  los	  estándares	  y	  sus	  interrelaciones	                         ...
inves(ga(on	  study	  assay	  •  AsisQr	  en	  la	  anotación/descripción	  y	  administración	  de	     datos	  experimen...
 	  	  	  	  	  	  	  	  	  	  	  	  El	  ecosistema	  	  	  	  	  
 	  	  	  	  	  	  	  	  	  	  	  	  El	  ecosistema	  	  	  	  	                  ISA software suite: supporting standard...
Formato	  flexible	  y	  de	  propósito	  general	  Formato	  tabular	  (vs	  XML)	  AgnósQco	  del	  dominio	  Captura	  m...
file chooser               publication searcher                                     visualization                         ...
Permite	  reportar	  y	  editar	  la	  descripción	  del	          experimento	  usando	  Google	  Spreadsheets.	  	      ...
-­‐  collaboraQve	  annotaQon	                                                                             -­‐  distribute...
Permite	  crear	  planQllas	  detallando	  los	  pasos	  a	  reportar	  para	     disQntos	  Qpos	  de	  invesQgaciones,	 ...
Con	  los	  archivos	  ISA-­‐Tab	  podemos	  llevar	  a	  cabo	  el	  análisis	  de	  los	  datos,	  converQr	  a	  RDF/OW...
•  Paquete	  en	  lenguaje	  R,	  disponible	  en	     BioConductor	  2.11	  	                            h]p://bioconduct...
•  El	  paquete	  faahKO	  v.	  2.12	  conQene	  archivos	  ISAtab	     que	  describen	  el	  experimento	       	  	  	 ...
 	  Sintaxis	  ISA	  	          transformaciones	  subyacentes	  entre	  materiales	  y	  datos	   Input	  Material	  or	 ...
Web	  semánQca	  •  SemánQca	  de	  “mundo	  abierto”	  •  Conjunto	  de	  lenguajes	  de	  representación	     (RDF,	  RD...
Web	  semánQca	  •  RDFS	  (RDF	  Schema)	  y	  OWL	  (Web	  Ontology	     Language):	  lenguajes	  para	  definición	  de	...
Datos	  enlazados	  (linked	  data)	  Linking	  Open	  Data	  cloud	  diagram,	  by	  Richard	  Cyganiak	  and	  Anja	  Je...
•  Hacer	  explícita	  la	  semánQca	  de	  ISAtab,	     incluyendo	  los	  conceptos	  de	  materiales,	     enQdades	  d...
Archivos	  ISAtab	  como	  datos	  enlazados	  •  Conectar	  con	  “la	  nube”	  de	  datos	  enlazados	  •  Colaboracione...
ISAtab	  dataset	             ISAtab	  Graph	      Parser	                       Analysis	             ISA	  Mapping	     ...
ISA-­‐OBO-­‐mapping	  
has	  specified	  input	                                      type	  material	  enQty	                                Sagha...
Incrementando	  el	  nivel	  de	                                    estructuración…	                                  …par...
core	  organizaQon	  in	  the	            UK	  Node	  
Implementación en Harvard                           ISA               h]p://discovery.hsci.harvard.edu/	                 	  
Implementación en EBIh]p://www.ebi.ac.uk/metabolights	  	        Metabolights – an open access general-purpose repository ...
 	  	  	  	  	  	  	  	  	  	  	  	  El	  ecosistema	  	  	  	  	  
@isatools	  @biosharing	  Isa-­‐tools.org	  	  	  	  	  isacommons.org	  	  	  	  biosharing.org	  
faahKO	  dataset	  •  Available	  in	  BioConductor	  •  Subset	  of	  the	  original	  data	  on	  global	  metabolite	  ...
-­‐	  	  Define	  key	  enQQes	  (e.g.	  factors,	  	  protocols,	  parameters)	  -­‐	  Grouping	  of	  studies	  -­‐	  Rel...
-­‐  Subjects	  studied:	  source(s),	  sampling	                                                   methodology,	  charact...
-­‐  Subjects	  studied:	  source(s),	  sampling	                                  methodology,	  characterisQcs	  faahKO	...
-­‐  measurement	  type,	  e.g.	  metabolite	  profiling	  -­‐  technology,	  e.g.	  mass	  spectrometry	                fa...
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
Upcoming SlideShare
Loading in …5
×

SELENfest 2012

442 views

Published on

In Spanish.

1 Comment
0 Likes
Statistics
Notes
  • Metadatos en biociencia: posibilitando la investigación reproducible y
    reutilizable

    Resumen:
    Los metadatos en biociencia son fundamentales para poder reproducir,
    compartir, reutilizar, comparar y remitir los datos a repositorios
    públicos. La generación de metadatos es crucial cuando se consideran
    las grandes cantidades de datos que generan las nuevas tecnologías
    'ómicas' (genómica, transcriptómica, proteómica, etc).

    En esta charla presentaré distintas herramientas diseñadas para
    facilitar la generación y administración de metadatos en biociencia,
    con el objetivo de permitir que la ciencia sea reproducible y
    reutilizable. En particular, presentaré la infraestructura ISA [1],
    donde ISA proviene de las iniciales de los términos en inglés
    'investigation / study / assay'. Dicha infraestructura consiste de un
    formato tabular ISAtab y un conjunto de herramientas de software libre
    para su utlización. El formato ISAtab fue diseñado para describir
    experimentos biológicos heterogéneos, es decir usando una variedad de
    técnicas y tipos de datos. Las herramientas de software ISA permiten
    adecuar los datos con los estándares desarrollados por la comunidad,
    generar la descripción de los experimentos, convertir a distintos
    formatos, validar y visualizar la representación. Se describirán tres
    nuevas herramientas que forman parte de la infraestructura ISA:
    1. Risa, un paquete en lenguaje R disponible en BioConductor,
    2. OntoMaton, una aplicación para planilla de cálculos Google,
    3. isa2owl, una herramienta de software para convertir ISAtab en datos
    enlazados/web semántica.

    La comunidad de usuarios de ISA [2] es internacional y está en
    expansión. En esta charla también presentaré ejemplos de uso de la
    infraestructura ISA por esta comunidad internacional. Finalmente,
    describiré el catálogo BioSharing, que compila formatos, listas de
    reporte mínimo (checklists) y ontologías que se utilizan en
    biociencia.

    [1] Rocca-Serra et al (2010), ISA software suite. Bioinformatics, 26.
    doi:10.1093/bioinformatics/btq415

    [2] Sansone et al (2012), Toward interoperable bioscience data, Nature
    Genetics, 27. doi:10.1038/ng.1054
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

No Downloads
Views
Total views
442
On SlideShare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
2
Comments
1
Likes
0
Embeds 0
No embeds

No notes for slide

SELENfest 2012

  1. 1. Metadatos  en  biociencia:  posibilitando  la  invesQgación  reproducible  y  reuQlizable   Alejandra  González-­‐Beltrán,  PhD   Senior Software Engineer, ISATeam Oxford  e-­‐Research  Centre,  University  of  Oxford    Oxford,  UK SELENfest  2012  –  CIFASIS,  UNR,  19  Diciembre  2012  
  2. 2. El  contexto   health   agro   env   tox/pharma   Source  of  the  figure:  EBI  website  La  biociencia  es  mulQ-­‐dominio  
  3. 3. El  contexto   health   agro   env   tox/pharma   Source  of  the  figure:  EBI  website  La  biociencia  es  mulQ-­‐dominio   Petabytes  de  datos  
  4. 4. El  contexto   health   agro   env   tox/pharma   Source  of  the  figure:  EBI  website  La  biociencia  es  mulQ-­‐dominio   Petabytes  de  datos   Metadatos   experimentales  en   notas  de  laboratorio  
  5. 5. Ioannidis   et   al.,   Repeatability   of   published   microarray  gene  expression  analyses.  Nature  Gene*cs  41(2),  149-­‐55  (2009)  doi:10.1038/ng.295    
  6. 6. Ioannidis   et   al.,   Repeatability   of   published   microarray  gene  expression  analyses.  Nature  Gene*cs  41(2),  149-­‐55  (2009)  doi:10.1038/ng.295    
  7. 7. h]p://www.nature.com/news/2011/110111/full/469139a.html  
  8. 8. h]p://www.nature.com/news/2011/110111/full/469139a.html   h]p://www.economist.com/node/21528593  
  9. 9. h]p://www.nature.com/news/2011/110111/full/469139a.html   h]p://www.economist.com/node/21528593   h]p://www.nyQmes.com/2011/07/08/health/research/08genes.html  
  10. 10. Analogía  de  la  lata  de  conservas  basada  en  comentario  por    Norman  Morrison  y  converQda  de  ontologías   a  metadatos.  
  11. 11. Descripción  de  experimentos…                          metadatos  •  Fragmentación  de  formatos                (e.g.  MAGE-­‐Tab,  PRIDE-­‐XML,  SRA-­‐XML)  •  Los  disQntos  formatos  capturan  disQnta  información…          …  pero  hay  muchas  cosas  comunes  •  Las  terminologías  que  se  usan  para  describir  los    experimentos  varían  mucho…  
  12. 12. Variadas  comunidades  de  expertos…                      …variadas  normas  y  estándares     usar  la  misma  palabra   permiten  que  los  datos   reportar  la  misma   para  referirse  a  las   se  transmitan  entre  sistemas   Información  esencial     mismas  cosas  
  13. 13. h]p://xkcd.com/927/  
  14. 14. Variadas  comunidades  de  expertos…                      …variadas  normas  y  estándares     usar  la  misma  palabra   permiten  que  los  datos   reportar  la  misma   para  referirse  a  las   se  transmitan  entre  sistemas   Información  esencial     mismas  cosas   Desafíos: falta de interacción y coordinación, fragmentación y cubrimiento desparejo… dificulta la interoperabilidad
  15. 15. Estándares  de  reporte  de  datos  en  expansión…   MAGE-Tab! AAO! miame! GCDML! MIAPA! CHEBI! GIATE! SRAxml! OBI! MIRIAM! VO! SOFT! MIQAS! FASTA! PATO! MIX! CML! ENVO! REMARK! DICOM! MIGEN! GELML! MOD! SBRML! MIAPE! MIQE! TEDDY! MITAB! MzML! XAO! CIMR! CONSORT! BTO!ISA-Tab! SEDML…! DO   PRO! IDO…! MIASE! MISFISHIE….!
  16. 16. Estándares  de  reporte  de  datos  en  expansión…   +  303     +  150     +  130     Source:  MIBBI,     Source:  BioPortal   Es(mated   EQUATOR   Databases,     annotaQon,   curaQon     tools   MAGE-Tab! AAO! miame! GCDML! MIAPA! CHEBI! GIATE! SRAxml! OBI! MIRIAM! VO! SOFT! MIQAS! FASTA! PATO! MIX! CML! ENVO! REMARK! DICOM! MIGEN! GELML! MOD! SBRML! MIAPE! MIQE! TEDDY! MITAB! MzML! XAO! CIMR! CONSORT! BTO!ISA-Tab! SEDML…! DO   PRO! IDO…! MIASE! MISFISHIE….!
  17. 17. Pero…     cómo  podemos  saber  cuáles  son  los  estándares  y  sus  interrelaciones   Uso  tecnologías  de   Qué  herramientas  y   secuenciación,  qué   bases  de  datos   estándares  son  relevantes   implementan  qué   para  mí?   estándares?   Cómo  puedo   Cuál  es  el  criterio   involucrarme  en   para  evaluar  su   proponer   estado  y  valor?   extensiones  o   modificaciones?   Cuáles  son  lo   Qué  formatos   Trabajo  con  plantas,   suficientemente   soportan  “listas  de   son  los  estándares   maduros  para  usar  o   información   relevantes  sólo  para   recomendar  su  uso?   mínima”   aplicaciones   espécificas?   biomédicas?  
  18. 18. inves(ga(on  study  assay  •  AsisQr  en  la  anotación/descripción  y  administración  de   datos  experimentales  en  el  origen  •  Considerar  datos  de  estudios  de  alto  rendimiento   usando  una  o  más  tecnologías  ómicas  u  otras   tecnologías  •  PermiQr  a  los  usarios  adoptar  los  estándares  de       reporte  definidos  por  la  comunidad  (formatos,  listas  de   verificación  y  ontologías)  •  Facilitar  comparQr  los  datos,  reusarlos,  comparar  y   reproducir  los  experimentos,  remiQr  datos  a   repositorios  públicos  internacionales  
  19. 19.                          El  ecosistema          
  20. 20.                          El  ecosistema           ISA software suite: supporting standards-compliant Towards interoperable bioscience data experimental annotation and enabling curation at the Sansone et al, 2012 community level Nature Genetics Rocca-Serra et al, 2010 Bioinformatics
  21. 21. Formato  flexible  y  de  propósito  general  Formato  tabular  (vs  XML)  AgnósQco  del  dominio  Captura  metadatos  de  experimentos  ómicos  y  de  experimentos  tradicionales  (e.g.  clínica  química  e  histología)  
  22. 22. file chooser publication searcher visualization ontology searchQR code generator automated ontology tagging spreadsheet-like interface tagterms visualise suggest clear all help powered by ncbo annotator
  23. 23. Permite  reportar  y  editar  la  descripción  del   experimento  usando  Google  Spreadsheets.       Se  pueden  usar  Google  Spreadsheets  en  cobinación   con  planQlas  ISA-­‐Tab  (generadas  importando  un  archivo  Excel  en  ISAconfigurator)  y  OntoMaton  (para  búquedas  de  ontologías  y  eQquetado)  para  describir   la  invesQgación.  
  24. 24. -­‐  collaboraQve  annotaQon   -­‐  distributed  groups  of  users   -­‐  version  control  &  history    Ontology  Search  and  Tagging  in  Google  Spreadsheets  
  25. 25. Permite  crear  planQllas  detallando  los  pasos  a  reportar  para   disQntos  Qpos  de  invesQgaciones,  que  conformen  con  los   estándares  definidos  por  la  comunidad  (listados  en                                                    ),  e.g.  configurar  los  campos  para  que  sean  (i)   conceptos  de  una  o  más  ontologías,  (ii)  texto  (con/sin   verificación  con  expresiones  regulares),  (iii)  números,  etc.  
  26. 26. Con  los  archivos  ISA-­‐Tab  podemos  llevar  a  cabo  el  análisis  de  los  datos,  converQr  a  RDF/OWL  u   otros  formatos  para    enviarlos/comparQrlos  a  repositorios  locales  o  remotos.  
  27. 27. •  Paquete  en  lenguaje  R,  disponible  en   BioConductor  2.11     h]p://bioconductor.org/packages/release/bioc/html/Risa.html  •  Clase  ISAtab  •  Lee  archivos  ISAtab  en  objetos  ISAtab  y  permite   guardar  los  archivos  ISAtab    •  Construye  objetos  xcmsSet  (paquete  xcms)  a   parQr  de  ensayos  de  espectrometría  de  masas  •  Permite  incrementar  los  archivos  ISAtab  después   del  análisis  •                                                             código  fuente  &  issue  tracking       h]ps://github.com/ISA-­‐tools/Risa          
  28. 28. •  El  paquete  faahKO  v.  2.12  conQene  archivos  ISAtab   que  describen  el  experimento          faahkoISA  =  readISAta(find.package("faahKO"))          assay.filename  <-­‐  faahkoISA["assay.filenames"][[1]]          xset  =  processAssayXcmsSet(faahkoISA,  assay.filename)          …          updateAssayMetadata(faahkoISA,  assay.filename,"Derived  Spectral   Data  File","faahkoDSDF.txt"  )  •  Un  ejemplo  usando  los  paquetes  de  BioConductor  Risa,  xcms   y  CAMERA  en  el  experimento  MTBLS2  se  pueden   encontrar  en:   Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research
  29. 29.    Sintaxis  ISA     transformaciones  subyacentes  entre  materiales  y  datos   Input  Material  or   Output  Material  or   Data  Node   Data  Node  Characteris@cs[…]  Factor  Value[…]   Characteris@cs[…]   Factor  Value[…]   Protocol  REF   Parameter  Value  […]   33  
  30. 30. Web  semánQca  •  SemánQca  de  “mundo  abierto”  •  Conjunto  de  lenguajes  de  representación   (RDF,  RDFS,  OWL,  …)  •  RDF  (Resource  DescripQon  Framework)   –   recomendación  del     –  Modelo  basado  en  grafos  para  el  intercambio  de   datos  en  la  Web   –  Tripletas   <subject>  <predicate>  <object>     <lipoprotein>  <parQcipates_in>  <inflammatory  response>     <PRO:212342352>  <BFO_0000056>  <GO:0006954>  
  31. 31. Web  semánQca  •  RDFS  (RDF  Schema)  y  OWL  (Web  Ontology   Language):  lenguajes  para  definición  de   vocabularios,  describen  datos  en  RDF   –  Recomendaciones     –  RDFS  permite  expresar,  e.g.,  Qpo,  dominio,  sub-­‐ propiedades     –  OWL  =  RDFS  +  otros  constructores  (e.g.  operaciones   de  conjuntos)   –  OWL  basado  en  lógica  descripQva,  disQntos  “perfiles”   de  acuerdo  a  la  complejidad  de  razonamiento  
  32. 32. Datos  enlazados  (linked  data)  Linking  Open  Data  cloud  diagram,  by  Richard  Cyganiak  and  Anja  Jentzsch.  h]p://lod-­‐cloud.net/   h]p://i1.cpcache.com/product/597992118/5_star_linked_open_data_mug.jpg?side=Back&height=350&width=350  
  33. 33. •  Hacer  explícita  la  semánQca  de  ISAtab,   incluyendo  los  conceptos  de  materiales,   enQdades  de  datos  y  procesos  •  Aprovechar  las  anotaciones  semánQcas   disponibles  en  archivos  ISAtab  •  Extender  la  sintaxis  ISA  con  nuevos  elementos   (e.g.  grupos  de  tratamiento),  facilitando  la   comprensión  y  capacidades  de  consulta  sobre  el   diseño  de  experimentos  •  Facilitar  la  integración  de  datos,  el  razonamiento,   descubrimiento  de  nuevo  conocimiento  
  34. 34. Archivos  ISAtab  como  datos  enlazados  •  Conectar  con  “la  nube”  de  datos  enlazados  •  Colaboraciones  con  Toxbank  (                                )     y   el   “W3C   Health   Care   &   Life   Sciences   Interest  Group”  (HCLSIG)  
  35. 35. ISAtab  dataset   ISAtab  Graph   Parser   Analysis   ISA  Mapping   Parser  
  36. 36. ISA-­‐OBO-­‐mapping  
  37. 37. has  specified  input   type  material  enQty   Saghantelian_1   sample    collecQon   derives  from   has  specified  output   type   type   KO1   has  specified  input   processed     material   derives  from   extracQon   material     processing   type   has  specified  output   KO1_extract   has  specified  input   type   InformaQon   derives  from   mass   content  enQty   spectrometry   has  specified  output   type   ./cdf/KO/ko15.CDF  
  38. 38. Incrementando  el  nivel  de   estructuración…   …para  disQntas  audiencias  Notas  en  cuadernos  de  laboratorio   Planillas  de  cálulo  &  tablas   Hechos  como  sentencias  RDF   (información  para  humanos)   (metadatos  ISAtab)   (información  para  máquinas)  
  39. 39. core  organizaQon  in  the   UK  Node  
  40. 40. Implementación en Harvard ISA h]p://discovery.hsci.harvard.edu/    
  41. 41. Implementación en EBIh]p://www.ebi.ac.uk/metabolights     Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research 45
  42. 42.                          El  ecosistema          
  43. 43. @isatools  @biosharing  Isa-­‐tools.org          isacommons.org        biosharing.org  
  44. 44. faahKO  dataset  •  Available  in  BioConductor  •  Subset  of  the  original  data  on  global  metabolite  profiling   Saghatlian  et  al.   Biochemistry.  2004  •  LC/MS  peaks  from  the  spinal  cords  of  6  wild-­‐type  and  6  FAAH   (fa]y  acid  amyde  hydrolase)  knockout  mice  
  45. 45. -­‐    Define  key  enQQes  (e.g.  factors,    protocols,  parameters)  -­‐  Grouping  of  studies  -­‐  Relate  studies  and  assays   faahKO  invesQgaQon  
  46. 46. -­‐  Subjects  studied:  source(s),  sampling   methodology,  characterisQcs  faahKO  study   -­‐  treatments/manipulaQons  performed     to  prepare  the  specimens     NEWT  UniProt  Taxonomy  Database   Mouse  Genome  InformaQcs  
  47. 47. -­‐  Subjects  studied:  source(s),  sampling   methodology,  characterisQcs  faahKO  study   -­‐  treatments/manipulaQons  performed     to  prepare  the  specimens     Mouse  Adult  Gross  Anatomy  
  48. 48. -­‐  measurement  type,  e.g.  metabolite  profiling  -­‐  technology,  e.g.  mass  spectrometry   faahKO  assay  

×