Data	
  Cita'on	
  Implementa'on	
  	
  
@	
  Dataverse	
  
Mercè	
  Crosas	
  
Chief	
  Data	
  Science	
  and	
  Technology	
  Officer,	
  
IQSS,	
  Harvard	
  University	
  
@mercecrosas	
  
Workshop:	
  Data	
  Cita'on	
  Pilot	
  Project	
  Kick-­‐off	
  
bioCADDIE	
  supplemental	
  project,	
  NIH	
  Big	
  Data	
  to	
  Knowledge	
  
Feb	
  3,	
  2016	
  
Data	
  Cita'on	
  in	
  Dataverse	
  complies	
  
with	
  the	
  Data	
  Cita'on	
  Principles	
  
Data	
  Cita'on	
  Synthesis	
  Group:	
  Joint	
  Declara'on	
  of	
  Data	
  Cita'on	
  Principles.	
  Martone	
  
M.	
  (ed.)	
  San	
  Diego	
  CA:	
  FORCE11;	
  2014	
  
	
  
Altman,	
  Crosas,	
  The	
  Evolu'on	
  of	
  Data	
  Cita'on:	
  From	
  Principles	
  to	
  Implementa'on,	
  
IASSIST	
  Quarterly;	
  2013	
  
Authors	
   Published	
  Year	
   Export	
  Formats	
  
for	
  users	
  
Dataset	
  Title	
  
Repository	
  
Name	
  Persistent	
  Iden'fier:	
  
Handle	
  or	
  DOI	
   Version	
  
Data	
  Cita'on	
  Generated	
  by	
  Dataverse	
  
Persistent	
  Iden'fier	
  Resolves	
  to	
  
Dataset	
  Landing	
  Page	
  
The	
  Persistent	
  Iden'fier	
  applies	
  to	
  the	
  
en're	
  Dataset,	
  not	
  to	
  individual	
  Files	
  
The	
  same	
  Persistent	
  Iden'fier	
  applies	
  
to	
  All	
  Versions	
  of	
  the	
  Dataset	
  	
  
Only	
  major	
  versions	
  (not	
  minor)	
  
appear	
  in	
  the	
  generated	
  data	
  cita'on	
  	
  
Cita'on	
  for	
  Quan'ta've	
  (tabular)	
  Data	
  
Authors,	
  Published	
  Year,	
  Dataset	
  Title,	
  Persistent	
  Iden+fier,	
  
Repository	
  Name,	
  Version,	
  Universal	
  Numerical	
  Fingerprint	
  
(UNF),	
  [File	
  name],	
  [var	
  1],	
  [var	
  2],	
  [var…]	
  	
  
Following:	
  Altman,	
  King,	
  A	
  Proposed	
  Standard	
  for	
  the	
  Scholarly	
  Cita'on	
  of	
  
Quan'ta've	
  Data,	
  D-­‐Lib,	
  2007	
  
Specify	
  File	
  in	
  
Dataset	
  
Specify	
  a	
  subset	
  of	
  
variables	
  in	
  Tabular	
  
Data	
  File	
  	
  
Checksum	
  
independent	
  
of	
  file	
  format	
  
Dataverse	
  –	
  DataCite	
  Workflow	
  
EZID	
  API	
  
1.  Dataset	
  Created	
  in	
  Dataverse	
  
2.  Mint	
  DOI	
  with	
  status	
  
“reserved”	
  in	
  EZID,	
  send	
  
cita'on	
  metadata	
  
3.  Dataset	
  published	
  in	
  
Dataverse	
  
4.  Change	
  status	
  to	
  “public”	
  in	
  
EZID	
  
5.  New	
  version	
  of	
  Dataset	
  
6.  Send	
  updated	
  cita'on	
  
metadata	
  
DataCite	
  API	
  
1.  Dataset	
  Created	
  in	
  Dataverse	
  
2.  Reserve	
  local	
  DOI	
  in	
  
Dataverse	
  
3.  Dataset	
  published	
  in	
  
Dataverse	
  
4.  Mint	
  DOI	
  in	
  DataCite,	
  send	
  
cita'on	
  metadata	
  
5.  New	
  version	
  of	
  Dataset	
  
6.  Send	
  updated	
  cita'on	
  
metadata	
  
Addi'onal	
  Metadata	
  in	
  Dataverse	
  
Cita'on	
  
Metadata	
  
• Authors	
  
• Title	
  	
  
• Descrip'on	
  
• Dates	
  
• Contact	
  
• Subject	
  
• …	
  
Domain	
  
Metadata	
  
• Life	
  Sciences:	
  
based	
  on	
  ISA-­‐
Tab	
  (and	
  OBI	
  
and	
  NCBI	
  
taxonomy)	
  
• Other	
  domains	
  
(social	
  science,	
  
astronomy)	
  
File	
  Metadata	
  
• File	
  header	
  
metadata	
  
• File	
  
descrip'on,	
  
type	
  
• Variable	
  
metadata	
  
SBGrid	
  Data	
  Repository,	
  
Biomedical	
  Dataverse	
  (Sliz	
  
HMS,	
  Crosas	
  IQSS)	
  
Social	
  Science	
  Big	
  Data	
  (King,	
  
Crosas	
  at	
  IQSS)	
  
Data	
  Provenance	
  (Seltzer	
  
SEAS,	
  Crosas,	
  King	
  IQSS)	
  
Privacy	
  Tools	
  to	
  share	
  sensi've	
  
data	
  (SEAS,	
  Berkman,	
  Privacy	
  
Lab,	
  IQSS,	
  MIT)	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
What’s	
  Coming	
  Next	
  
Future	
  Data	
  Cita'on	
  Extensions	
  
•  Provenance	
  Metadata	
  to	
  be	
  used	
  in	
  cita'on	
  services	
  
•  Extended	
  Domain	
  Metadata	
  (e.g.,	
  Life	
  Sciences)	
  to	
  be	
  
used	
  in	
  cita'on	
  services	
  	
  
•  Support	
  for	
  Privacy,	
  Sensi've	
  Datasets:	
  
–  A	
  DataTag	
  (blue,	
  green,	
  yellow,	
  orange,	
  red,	
  crimson)	
  
assigned	
  to	
  each	
  dataset	
  that	
  defines	
  its	
  sensi've	
  level,	
  
with	
  security	
  and	
  access	
  requirements	
  	
  
•  Support	
  for	
  Large	
  (Streaming)	
  Datasets:	
  
–  Many	
  files	
  per	
  Dataset.	
  E.g.,	
  Primary	
  Structure	
  Dataset	
  
with	
  thousands	
  of	
  images	
  
–  Large	
  Streaming	
  Dataset.	
  E.g.,	
  Geospa'al	
  Tweets	
  
Sweeney,	
  Crosas,	
  Bar-­‐Sinai	
  Sharing	
  Sensi've	
  Data	
  with	
  Confidence:	
  The	
  DataTags	
  System,	
  JOTS,	
  2015	
  
Cita'on	
  for	
  Big	
  Data:	
  	
  
Large,	
  Streaming,	
  or	
  Sensi've	
  Datasets	
  
Authors,	
  Published	
  Year,	
  Title,	
  Persistent	
  Iden+fier,	
  Repository	
  
Name,	
  Version,	
  [Subset:	
  Query	
  or	
  Variable],	
  [DataTag]	
  
•  Be	
  able	
  to	
  cite	
  en're	
  Big	
  Data	
  dataset	
  (with	
  one	
  Persistent	
  
Iden'fier),	
  as	
  well	
  as	
  specify	
  granularity	
  when	
  needed	
  
•  Should	
  the	
  query	
  be	
  a	
  RESTful	
  url?	
  
•  Should	
  the	
  subset	
  be	
  defined	
  by	
  variable/auributes	
  metadata?	
  
•  Should	
  the	
  DataTag	
  be	
  part	
  of	
  the	
  cita'on	
  for	
  sensi've	
  data?	
  

Data Citation Implementation at Dataverse

  • 1.
    Data  Cita'on  Implementa'on     @  Dataverse   Mercè  Crosas   Chief  Data  Science  and  Technology  Officer,   IQSS,  Harvard  University   @mercecrosas   Workshop:  Data  Cita'on  Pilot  Project  Kick-­‐off   bioCADDIE  supplemental  project,  NIH  Big  Data  to  Knowledge   Feb  3,  2016  
  • 2.
    Data  Cita'on  in  Dataverse  complies   with  the  Data  Cita'on  Principles   Data  Cita'on  Synthesis  Group:  Joint  Declara'on  of  Data  Cita'on  Principles.  Martone   M.  (ed.)  San  Diego  CA:  FORCE11;  2014     Altman,  Crosas,  The  Evolu'on  of  Data  Cita'on:  From  Principles  to  Implementa'on,   IASSIST  Quarterly;  2013  
  • 3.
    Authors   Published  Year   Export  Formats   for  users   Dataset  Title   Repository   Name  Persistent  Iden'fier:   Handle  or  DOI   Version   Data  Cita'on  Generated  by  Dataverse  
  • 4.
    Persistent  Iden'fier  Resolves  to   Dataset  Landing  Page  
  • 5.
    The  Persistent  Iden'fier  applies  to  the   en're  Dataset,  not  to  individual  Files  
  • 6.
    The  same  Persistent  Iden'fier  applies   to  All  Versions  of  the  Dataset     Only  major  versions  (not  minor)   appear  in  the  generated  data  cita'on    
  • 7.
    Cita'on  for  Quan'ta've  (tabular)  Data   Authors,  Published  Year,  Dataset  Title,  Persistent  Iden+fier,   Repository  Name,  Version,  Universal  Numerical  Fingerprint   (UNF),  [File  name],  [var  1],  [var  2],  [var…]     Following:  Altman,  King,  A  Proposed  Standard  for  the  Scholarly  Cita'on  of   Quan'ta've  Data,  D-­‐Lib,  2007   Specify  File  in   Dataset   Specify  a  subset  of   variables  in  Tabular   Data  File     Checksum   independent   of  file  format  
  • 8.
    Dataverse  –  DataCite  Workflow   EZID  API   1.  Dataset  Created  in  Dataverse   2.  Mint  DOI  with  status   “reserved”  in  EZID,  send   cita'on  metadata   3.  Dataset  published  in   Dataverse   4.  Change  status  to  “public”  in   EZID   5.  New  version  of  Dataset   6.  Send  updated  cita'on   metadata   DataCite  API   1.  Dataset  Created  in  Dataverse   2.  Reserve  local  DOI  in   Dataverse   3.  Dataset  published  in   Dataverse   4.  Mint  DOI  in  DataCite,  send   cita'on  metadata   5.  New  version  of  Dataset   6.  Send  updated  cita'on   metadata  
  • 9.
    Addi'onal  Metadata  in  Dataverse   Cita'on   Metadata   • Authors   • Title     • Descrip'on   • Dates   • Contact   • Subject   • …   Domain   Metadata   • Life  Sciences:   based  on  ISA-­‐ Tab  (and  OBI   and  NCBI   taxonomy)   • Other  domains   (social  science,   astronomy)   File  Metadata   • File  header   metadata   • File   descrip'on,   type   • Variable   metadata  
  • 10.
    SBGrid  Data  Repository,   Biomedical  Dataverse  (Sliz   HMS,  Crosas  IQSS)   Social  Science  Big  Data  (King,   Crosas  at  IQSS)   Data  Provenance  (Seltzer   SEAS,  Crosas,  King  IQSS)   Privacy  Tools  to  share  sensi've   data  (SEAS,  Berkman,  Privacy   Lab,  IQSS,  MIT)                     What’s  Coming  Next  
  • 11.
    Future  Data  Cita'on  Extensions   •  Provenance  Metadata  to  be  used  in  cita'on  services   •  Extended  Domain  Metadata  (e.g.,  Life  Sciences)  to  be   used  in  cita'on  services     •  Support  for  Privacy,  Sensi've  Datasets:   –  A  DataTag  (blue,  green,  yellow,  orange,  red,  crimson)   assigned  to  each  dataset  that  defines  its  sensi've  level,   with  security  and  access  requirements     •  Support  for  Large  (Streaming)  Datasets:   –  Many  files  per  Dataset.  E.g.,  Primary  Structure  Dataset   with  thousands  of  images   –  Large  Streaming  Dataset.  E.g.,  Geospa'al  Tweets   Sweeney,  Crosas,  Bar-­‐Sinai  Sharing  Sensi've  Data  with  Confidence:  The  DataTags  System,  JOTS,  2015  
  • 12.
    Cita'on  for  Big  Data:     Large,  Streaming,  or  Sensi've  Datasets   Authors,  Published  Year,  Title,  Persistent  Iden+fier,  Repository   Name,  Version,  [Subset:  Query  or  Variable],  [DataTag]   •  Be  able  to  cite  en're  Big  Data  dataset  (with  one  Persistent   Iden'fier),  as  well  as  specify  granularity  when  needed   •  Should  the  query  be  a  RESTful  url?   •  Should  the  subset  be  defined  by  variable/auributes  metadata?   •  Should  the  DataTag  be  part  of  the  cita'on  for  sensi've  data?