Your SlideShare is downloading. ×
0
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
SELENfest 2012
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

SELENfest 2012

233

Published on

In Spanish.

In Spanish.

1 Comment
0 Likes
Statistics
Notes
  • Metadatos en biociencia: posibilitando la investigación reproducible y
    reutilizable

    Resumen:
    Los metadatos en biociencia son fundamentales para poder reproducir,
    compartir, reutilizar, comparar y remitir los datos a repositorios
    públicos. La generación de metadatos es crucial cuando se consideran
    las grandes cantidades de datos que generan las nuevas tecnologías
    'ómicas' (genómica, transcriptómica, proteómica, etc).

    En esta charla presentaré distintas herramientas diseñadas para
    facilitar la generación y administración de metadatos en biociencia,
    con el objetivo de permitir que la ciencia sea reproducible y
    reutilizable. En particular, presentaré la infraestructura ISA [1],
    donde ISA proviene de las iniciales de los términos en inglés
    'investigation / study / assay'. Dicha infraestructura consiste de un
    formato tabular ISAtab y un conjunto de herramientas de software libre
    para su utlización. El formato ISAtab fue diseñado para describir
    experimentos biológicos heterogéneos, es decir usando una variedad de
    técnicas y tipos de datos. Las herramientas de software ISA permiten
    adecuar los datos con los estándares desarrollados por la comunidad,
    generar la descripción de los experimentos, convertir a distintos
    formatos, validar y visualizar la representación. Se describirán tres
    nuevas herramientas que forman parte de la infraestructura ISA:
    1. Risa, un paquete en lenguaje R disponible en BioConductor,
    2. OntoMaton, una aplicación para planilla de cálculos Google,
    3. isa2owl, una herramienta de software para convertir ISAtab en datos
    enlazados/web semántica.

    La comunidad de usuarios de ISA [2] es internacional y está en
    expansión. En esta charla también presentaré ejemplos de uso de la
    infraestructura ISA por esta comunidad internacional. Finalmente,
    describiré el catálogo BioSharing, que compila formatos, listas de
    reporte mínimo (checklists) y ontologías que se utilizan en
    biociencia.

    [1] Rocca-Serra et al (2010), ISA software suite. Bioinformatics, 26.
    doi:10.1093/bioinformatics/btq415

    [2] Sansone et al (2012), Toward interoperable bioscience data, Nature
    Genetics, 27. doi:10.1038/ng.1054
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

No Downloads
Views
Total Views
233
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
2
Comments
1
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Metadatos  en  biociencia:  posibilitando  la  invesQgación  reproducible  y  reuQlizable   Alejandra  González-­‐Beltrán,  PhD   Senior Software Engineer, ISATeam Oxford  e-­‐Research  Centre,  University  of  Oxford    Oxford,  UK SELENfest  2012  –  CIFASIS,  UNR,  19  Diciembre  2012  
  • 2. El  contexto   health   agro   env   tox/pharma   Source  of  the  figure:  EBI  website  La  biociencia  es  mulQ-­‐dominio  
  • 3. El  contexto   health   agro   env   tox/pharma   Source  of  the  figure:  EBI  website  La  biociencia  es  mulQ-­‐dominio   Petabytes  de  datos  
  • 4. El  contexto   health   agro   env   tox/pharma   Source  of  the  figure:  EBI  website  La  biociencia  es  mulQ-­‐dominio   Petabytes  de  datos   Metadatos   experimentales  en   notas  de  laboratorio  
  • 5. Ioannidis   et   al.,   Repeatability   of   published   microarray  gene  expression  analyses.  Nature  Gene*cs  41(2),  149-­‐55  (2009)  doi:10.1038/ng.295    
  • 6. Ioannidis   et   al.,   Repeatability   of   published   microarray  gene  expression  analyses.  Nature  Gene*cs  41(2),  149-­‐55  (2009)  doi:10.1038/ng.295    
  • 7. h]p://www.nature.com/news/2011/110111/full/469139a.html  
  • 8. h]p://www.nature.com/news/2011/110111/full/469139a.html   h]p://www.economist.com/node/21528593  
  • 9. h]p://www.nature.com/news/2011/110111/full/469139a.html   h]p://www.economist.com/node/21528593   h]p://www.nyQmes.com/2011/07/08/health/research/08genes.html  
  • 10. Analogía  de  la  lata  de  conservas  basada  en  comentario  por    Norman  Morrison  y  converQda  de  ontologías   a  metadatos.  
  • 11. Descripción  de  experimentos…                          metadatos  •  Fragmentación  de  formatos                (e.g.  MAGE-­‐Tab,  PRIDE-­‐XML,  SRA-­‐XML)  •  Los  disQntos  formatos  capturan  disQnta  información…          …  pero  hay  muchas  cosas  comunes  •  Las  terminologías  que  se  usan  para  describir  los    experimentos  varían  mucho…  
  • 12. Variadas  comunidades  de  expertos…                      …variadas  normas  y  estándares     usar  la  misma  palabra   permiten  que  los  datos   reportar  la  misma   para  referirse  a  las   se  transmitan  entre  sistemas   Información  esencial     mismas  cosas  
  • 13. h]p://xkcd.com/927/  
  • 14. Variadas  comunidades  de  expertos…                      …variadas  normas  y  estándares     usar  la  misma  palabra   permiten  que  los  datos   reportar  la  misma   para  referirse  a  las   se  transmitan  entre  sistemas   Información  esencial     mismas  cosas   Desafíos: falta de interacción y coordinación, fragmentación y cubrimiento desparejo… dificulta la interoperabilidad
  • 15. Estándares  de  reporte  de  datos  en  expansión…   MAGE-Tab! AAO! miame! GCDML! MIAPA! CHEBI! GIATE! SRAxml! OBI! MIRIAM! VO! SOFT! MIQAS! FASTA! PATO! MIX! CML! ENVO! REMARK! DICOM! MIGEN! GELML! MOD! SBRML! MIAPE! MIQE! TEDDY! MITAB! MzML! XAO! CIMR! CONSORT! BTO!ISA-Tab! SEDML…! DO   PRO! IDO…! MIASE! MISFISHIE….!
  • 16. Estándares  de  reporte  de  datos  en  expansión…   +  303     +  150     +  130     Source:  MIBBI,     Source:  BioPortal   Es(mated   EQUATOR   Databases,     annotaQon,   curaQon     tools   MAGE-Tab! AAO! miame! GCDML! MIAPA! CHEBI! GIATE! SRAxml! OBI! MIRIAM! VO! SOFT! MIQAS! FASTA! PATO! MIX! CML! ENVO! REMARK! DICOM! MIGEN! GELML! MOD! SBRML! MIAPE! MIQE! TEDDY! MITAB! MzML! XAO! CIMR! CONSORT! BTO!ISA-Tab! SEDML…! DO   PRO! IDO…! MIASE! MISFISHIE….!
  • 17. Pero…     cómo  podemos  saber  cuáles  son  los  estándares  y  sus  interrelaciones   Uso  tecnologías  de   Qué  herramientas  y   secuenciación,  qué   bases  de  datos   estándares  son  relevantes   implementan  qué   para  mí?   estándares?   Cómo  puedo   Cuál  es  el  criterio   involucrarme  en   para  evaluar  su   proponer   estado  y  valor?   extensiones  o   modificaciones?   Cuáles  son  lo   Qué  formatos   Trabajo  con  plantas,   suficientemente   soportan  “listas  de   son  los  estándares   maduros  para  usar  o   información   relevantes  sólo  para   recomendar  su  uso?   mínima”   aplicaciones   espécificas?   biomédicas?  
  • 18. inves(ga(on  study  assay  •  AsisQr  en  la  anotación/descripción  y  administración  de   datos  experimentales  en  el  origen  •  Considerar  datos  de  estudios  de  alto  rendimiento   usando  una  o  más  tecnologías  ómicas  u  otras   tecnologías  •  PermiQr  a  los  usarios  adoptar  los  estándares  de       reporte  definidos  por  la  comunidad  (formatos,  listas  de   verificación  y  ontologías)  •  Facilitar  comparQr  los  datos,  reusarlos,  comparar  y   reproducir  los  experimentos,  remiQr  datos  a   repositorios  públicos  internacionales  
  • 19.                          El  ecosistema          
  • 20.                          El  ecosistema           ISA software suite: supporting standards-compliant Towards interoperable bioscience data experimental annotation and enabling curation at the Sansone et al, 2012 community level Nature Genetics Rocca-Serra et al, 2010 Bioinformatics
  • 21. Formato  flexible  y  de  propósito  general  Formato  tabular  (vs  XML)  AgnósQco  del  dominio  Captura  metadatos  de  experimentos  ómicos  y  de  experimentos  tradicionales  (e.g.  clínica  química  e  histología)  
  • 22. file chooser publication searcher visualization ontology searchQR code generator automated ontology tagging spreadsheet-like interface tagterms visualise suggest clear all help powered by ncbo annotator
  • 23. Permite  reportar  y  editar  la  descripción  del   experimento  usando  Google  Spreadsheets.       Se  pueden  usar  Google  Spreadsheets  en  cobinación   con  planQlas  ISA-­‐Tab  (generadas  importando  un  archivo  Excel  en  ISAconfigurator)  y  OntoMaton  (para  búquedas  de  ontologías  y  eQquetado)  para  describir   la  invesQgación.  
  • 24. -­‐  collaboraQve  annotaQon   -­‐  distributed  groups  of  users   -­‐  version  control  &  history    Ontology  Search  and  Tagging  in  Google  Spreadsheets  
  • 25. Permite  crear  planQllas  detallando  los  pasos  a  reportar  para   disQntos  Qpos  de  invesQgaciones,  que  conformen  con  los   estándares  definidos  por  la  comunidad  (listados  en                                                    ),  e.g.  configurar  los  campos  para  que  sean  (i)   conceptos  de  una  o  más  ontologías,  (ii)  texto  (con/sin   verificación  con  expresiones  regulares),  (iii)  números,  etc.  
  • 26. Con  los  archivos  ISA-­‐Tab  podemos  llevar  a  cabo  el  análisis  de  los  datos,  converQr  a  RDF/OWL  u   otros  formatos  para    enviarlos/comparQrlos  a  repositorios  locales  o  remotos.  
  • 27. •  Paquete  en  lenguaje  R,  disponible  en   BioConductor  2.11     h]p://bioconductor.org/packages/release/bioc/html/Risa.html  •  Clase  ISAtab  •  Lee  archivos  ISAtab  en  objetos  ISAtab  y  permite   guardar  los  archivos  ISAtab    •  Construye  objetos  xcmsSet  (paquete  xcms)  a   parQr  de  ensayos  de  espectrometría  de  masas  •  Permite  incrementar  los  archivos  ISAtab  después   del  análisis  •                                                             código  fuente  &  issue  tracking       h]ps://github.com/ISA-­‐tools/Risa          
  • 28. •  El  paquete  faahKO  v.  2.12  conQene  archivos  ISAtab   que  describen  el  experimento          faahkoISA  =  readISAta(find.package("faahKO"))          assay.filename  <-­‐  faahkoISA["assay.filenames"][[1]]          xset  =  processAssayXcmsSet(faahkoISA,  assay.filename)          …          updateAssayMetadata(faahkoISA,  assay.filename,"Derived  Spectral   Data  File","faahkoDSDF.txt"  )  •  Un  ejemplo  usando  los  paquetes  de  BioConductor  Risa,  xcms   y  CAMERA  en  el  experimento  MTBLS2  se  pueden   encontrar  en:   Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research
  • 29.    Sintaxis  ISA     transformaciones  subyacentes  entre  materiales  y  datos   Input  Material  or   Output  Material  or   Data  Node   Data  Node  Characteris@cs[…]  Factor  Value[…]   Characteris@cs[…]   Factor  Value[…]   Protocol  REF   Parameter  Value  […]   33  
  • 30. Web  semánQca  •  SemánQca  de  “mundo  abierto”  •  Conjunto  de  lenguajes  de  representación   (RDF,  RDFS,  OWL,  …)  •  RDF  (Resource  DescripQon  Framework)   –   recomendación  del     –  Modelo  basado  en  grafos  para  el  intercambio  de   datos  en  la  Web   –  Tripletas   <subject>  <predicate>  <object>     <lipoprotein>  <parQcipates_in>  <inflammatory  response>     <PRO:212342352>  <BFO_0000056>  <GO:0006954>  
  • 31. Web  semánQca  •  RDFS  (RDF  Schema)  y  OWL  (Web  Ontology   Language):  lenguajes  para  definición  de   vocabularios,  describen  datos  en  RDF   –  Recomendaciones     –  RDFS  permite  expresar,  e.g.,  Qpo,  dominio,  sub-­‐ propiedades     –  OWL  =  RDFS  +  otros  constructores  (e.g.  operaciones   de  conjuntos)   –  OWL  basado  en  lógica  descripQva,  disQntos  “perfiles”   de  acuerdo  a  la  complejidad  de  razonamiento  
  • 32. Datos  enlazados  (linked  data)  Linking  Open  Data  cloud  diagram,  by  Richard  Cyganiak  and  Anja  Jentzsch.  h]p://lod-­‐cloud.net/   h]p://i1.cpcache.com/product/597992118/5_star_linked_open_data_mug.jpg?side=Back&height=350&width=350  
  • 33. •  Hacer  explícita  la  semánQca  de  ISAtab,   incluyendo  los  conceptos  de  materiales,   enQdades  de  datos  y  procesos  •  Aprovechar  las  anotaciones  semánQcas   disponibles  en  archivos  ISAtab  •  Extender  la  sintaxis  ISA  con  nuevos  elementos   (e.g.  grupos  de  tratamiento),  facilitando  la   comprensión  y  capacidades  de  consulta  sobre  el   diseño  de  experimentos  •  Facilitar  la  integración  de  datos,  el  razonamiento,   descubrimiento  de  nuevo  conocimiento  
  • 34. Archivos  ISAtab  como  datos  enlazados  •  Conectar  con  “la  nube”  de  datos  enlazados  •  Colaboraciones  con  Toxbank  (                                )     y   el   “W3C   Health   Care   &   Life   Sciences   Interest  Group”  (HCLSIG)  
  • 35. ISAtab  dataset   ISAtab  Graph   Parser   Analysis   ISA  Mapping   Parser  
  • 36. ISA-­‐OBO-­‐mapping  
  • 37. has  specified  input   type  material  enQty   Saghantelian_1   sample    collecQon   derives  from   has  specified  output   type   type   KO1   has  specified  input   processed     material   derives  from   extracQon   material     processing   type   has  specified  output   KO1_extract   has  specified  input   type   InformaQon   derives  from   mass   content  enQty   spectrometry   has  specified  output   type   ./cdf/KO/ko15.CDF  
  • 38. Incrementando  el  nivel  de   estructuración…   …para  disQntas  audiencias  Notas  en  cuadernos  de  laboratorio   Planillas  de  cálulo  &  tablas   Hechos  como  sentencias  RDF   (información  para  humanos)   (metadatos  ISAtab)   (información  para  máquinas)  
  • 39. core  organizaQon  in  the   UK  Node  
  • 40. Implementación en Harvard ISA h]p://discovery.hsci.harvard.edu/    
  • 41. Implementación en EBIh]p://www.ebi.ac.uk/metabolights     Metabolights – an open access general-purpose repository for metabolomics studies and associated meta-data Haug et al, 2012 Nucleic Acids Research 45
  • 42.                          El  ecosistema          
  • 43. @isatools  @biosharing  Isa-­‐tools.org          isacommons.org        biosharing.org  
  • 44. faahKO  dataset  •  Available  in  BioConductor  •  Subset  of  the  original  data  on  global  metabolite  profiling   Saghatlian  et  al.   Biochemistry.  2004  •  LC/MS  peaks  from  the  spinal  cords  of  6  wild-­‐type  and  6  FAAH   (fa]y  acid  amyde  hydrolase)  knockout  mice  
  • 45. -­‐    Define  key  enQQes  (e.g.  factors,    protocols,  parameters)  -­‐  Grouping  of  studies  -­‐  Relate  studies  and  assays   faahKO  invesQgaQon  
  • 46. -­‐  Subjects  studied:  source(s),  sampling   methodology,  characterisQcs  faahKO  study   -­‐  treatments/manipulaQons  performed     to  prepare  the  specimens     NEWT  UniProt  Taxonomy  Database   Mouse  Genome  InformaQcs  
  • 47. -­‐  Subjects  studied:  source(s),  sampling   methodology,  characterisQcs  faahKO  study   -­‐  treatments/manipulaQons  performed     to  prepare  the  specimens     Mouse  Adult  Gross  Anatomy  
  • 48. -­‐  measurement  type,  e.g.  metabolite  profiling  -­‐  technology,  e.g.  mass  spectrometry   faahKO  assay  

×