Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
The	  ARK	  Iden+fier	  Scheme	  at	            Ten	  Years	  Old	                                         7 	   M a y 	   ...
California	  Digital	  Library	  Serving	  the	  University	  of	  California	     CDL	  supports	  the	  research	  lifec...
California	  Digital	  Library	  (CDL)	  
Today’s	  journey	             • What	  are	  ARKs?	             • Separa+on	  of	  concerns	                 • Naming	  ≠...
What’s	  an	  ARK	  iden+fier?	  ARK	  =	  Archival	  Resource	  Key	  ARKs	  support	  long-­‐term	  access	  to	  informa...
The	  URL	  is	  dead,	  long	  live	  the	  URL!	  Fallacy	  #1:	  	  URLs	  are	  unreliable,	  so	  instead	  use	    t...
Persistence	  is	  about	  service	  •  Imagine	  the	  “perfect”	  golden	  iden+fier	  •  Apply	  bankruptcy,	  disk	  cr...
What’s	  an	  ARK	  iden+fier?	  (take	  2)	  An	  ARK	  is	  a	  URL,	  with	  some	  extra	  rules	  ARK	  reserves	  /	 ...
ARK	  inflec+ons	  (declina+ons)	  An	  ARK	  is	  a	  special	  URL	  with	  access	  to	  3	  things	  1.  An	  informa+o...
‘?’	  Inflec+on	  returns	  Dublin	  Kernel	  Same	  machine-­‐readable	  informa+on	  as	  before:	  erc:!who:       Natio...
Why	  use	  ARKs?	  ARKs	  are	  assigned	  for	  a	  variety	  of	  reasons:	  •  affordability	  –	  there	  are	  no	  f...
Some	  unique	  advantages	  of	  ARKs	  •  simplicity	  –	  uses	  only	  ordinary	  "redirects”	  &	  "get"	  requests	 ...
What’s	  an	  ARK	  iden+fier?	  (take	  3)	  ARK	  is	  a	  collec+on	  of	  good	  ideas	  •  Separates	  scheme	  syntax...
Iden+fier	  schemes	  are	  highly	  parallel	                             Scheme                              :Name Mappin...
Locksmith	  jargon:	  shoulder,	  blade,	  +p,	  bow,	  cover	         _____    slips on     _____    .- ,_,-.. ----> .-  ...
ARK	  usage	  in	  10	  years	  •  In	  2001-­‐2011	  ~100	  organiza+ons	  registered	  for	  ARKs	  •  Registry	  is	  r...
Some	  other	  ARK	  registrants	  	  	  	  	  	  	  12025	  	  	  	  	  	  	  	  	  	  	  US	  Na+onal	  Library	  of	  M...
Immersion	  vs	  landing	  page	  What	  do	  you	  mean	  by	  “get	  the	  data”?	  What	  inflec+ons	  might	  dis+nguis...
Vision	  for	  a	  “data	  paper”	  	  •  Wrap	  the	  unfamiliar	  in	  a	  familiar	  façade	  •  A	  “data	  paper”	  i...
New	  distributed	  framework	             Coordina9ng	  Nodes	              Flexible,	  scalable,	                Member	...
ARKs	  –	  coming	  soon	  •  Community	  forum	  •  Standardiza+on	  as	  an	  Internet	  RFC	  •  New	  inflec+ons	  for	...
N2T/EZID	  –	  coming	  soon	  •  Indexing	  by	  A&I	  vendors	  •  Suffix	  pass-­‐through	     –  Register	  Name	  -­‐>	...
The ARK Identifier Scheme at Ten Years Old
Upcoming SlideShare
Loading in …5
×

The ARK Identifier Scheme at Ten Years Old

1,241 views

Published on

From the Workshop on Metadata and Persistent Identifiers for Social and Economic Data, Berlin, May 7-8, 2012.

Published in: Technology, Education
  • Be the first to comment

The ARK Identifier Scheme at Ten Years Old

  1. 1. The  ARK  Iden+fier  Scheme  at   Ten  Years  Old   7   M a y   2 0 1 2   J o h n   K u n z e   U n i v e r s i t y   o f   C a l i f o r n i a   C u r a + o n   C e n t e r   C a l i f o r n i a   D i g i t a l   L i b r a r y  
  2. 2. California  Digital  Library  Serving  the  University  of  California   CDL  supports  the  research  lifecycle    •  10  campuses   •  Collec+ons  •  360K  students,  faculty,  and  staff   •  Digital  Special  Collec+ons  •  100’s  of  museums,  art  galleries,   •  Discovery  &  Delivery   observatories,  marine  centers,   •  Publishing  Group   botanical  gardens   •  UC  Cura+on  Center  (UC3)  •  5  medical  centers  •  5  law  schools  •  3  Na+onal  Laboratories  
  3. 3. California  Digital  Library  (CDL)  
  4. 4. Today’s  journey   • What  are  ARKs?   • Separa+on  of  concerns   • Naming  ≠  hos+ng   • Scheme  ≠  resolu+on   • Syntax  ≠  persistence   • Inflec+ons  and  metadata   • EZID  (easy  iden+fiers)  and   N2T  (name-­‐to-­‐thing)   • Data  cita+on,  passthrough  
  5. 5. What’s  an  ARK  iden+fier?  ARK  =  Archival  Resource  Key  ARKs  support  long-­‐term  access  to  informa+on  objects  ARKs  iden+fy  objects  of  any  type:  •  digital  objects  –  data,  documents,  images,  sodware,  ...  •  physical  objects  –  books,  bones,  statues,  ...  •  groups  &  living  beings  –  people,  animals,  orchestras,  ...  •  Intangibles  –  places,  chemicals,  diseases,  terms,  ...  
  6. 6. The  URL  is  dead,  long  live  the  URL!  Fallacy  #1:    URLs  are  unreliable,  so  instead  use   this...  um...  well...  ah  ...  (shhh!)  “URL”  Some  of  your  best  friends  are  URLs:   hlp://dx.doi.org/10.1234/98765   hlp://hdl.handle.net/10.1234/98765   hlp://purl.org/10.1234/98765   hlp://n2t.net/ark:/101234/98765  
  7. 7. Persistence  is  about  service  •  Imagine  the  “perfect”  golden  iden+fier  •  Apply  bankruptcy,  disk  crash,  human  error,  or   war,  and  there’s  nothing  that  syntax,  scheme,  or   resolver  can  do  to  prevent  iden+fier  breakage.  
  8. 8. What’s  an  ARK  iden+fier?  (take  2)  An  ARK  is  a  URL,  with  some  extra  rules  ARK  reserves  /  and  .  for  what  we  oden  assume  •  A/B/C  means  C  is  contained  in  A/B,  and  B  in  A  •  A.pdf,  A.html,  and  A.docx  are  all  variants  of  A  Could  dras+cally  improve  search  result  display  •  No  need  to  lookup  rela+onships  
  9. 9. ARK  inflec+ons  (declina+ons)  An  ARK  is  a  special  URL  with  access  to  3  things  1.  An  informa+on  object  2.  Its  metadata,  by  appending  ‘?’  inflec+on  3.  A  provider’s  promise,  by  appending  a  ‘??’  An  inflec1on  changes  a  name  ending  for  a  purpose  •  Reduces  the  number  of  different  names  needed  •  Use  seman+c  web  without  hiring  a  programmer  
  10. 10. ‘?’  Inflec+on  returns  Dublin  Kernel  Same  machine-­‐readable  informa+on  as  before:  erc:!who: National Research Council!what: The Digital Dilemma!when: 2000!where: http://books.nap.edu/html/digital%5Fdilemma!Even  shorter:  erc: National Research Council! | The Digital Dilemma | 2000 ! | http://books.nap.edu/html/digital%5Fdilemma!See  hlp://dublincore.org/groups/kernel/  for  more  informa+on!
  11. 11. Why  use  ARKs?  ARKs  are  assigned  for  a  variety  of  reasons:  •  affordability  –  there  are  no  fees  to  assign  or  use  ARKs  •  self-­‐sufficiency  –  can  host  ARKs  on  your  own  web  server  •  portability  –  can  move  ARKs  without  change  of  iden+ty   http://cdlib.org/ark:/12025/654xz321 http://rutgers.edu/ark:/12025/654xz321 http://n2t.net/ark:/12025/654xz321  •  global  resolvability  –  can  host  ARKs  at  N2T  resolver  •  density  –  mixed  case  means  CD,  Cd,  cD,  cd  are  all  dis+nct  
  12. 12. Some  unique  advantages  of  ARKs  •  simplicity  –  uses  only  ordinary  "redirects”  &  "get"  requests  •  versa+lity  –  with  "inflec+ons"  (different  endings),  an  ARK   should  access  data,  metadata,  promises,  and  more  •  transparency  –  no  iden+fier  can  guarantee  stability,  and   ARK  inflec+ons  help  users  make  informed  judgments  •  visibility  –  syntax  rules  make  ARKs  easy  to  extract  and  to   compare  for  containment  and    variant  rela+onships  •  reserved  characters:    -­‐  (hyphen),    /  (slash),    .  (period)  
  13. 13. What’s  an  ARK  iden+fier?  (take  3)  ARK  is  a  collec+on  of  good  ideas  •  Separates  scheme  syntax  from  resolver  rules   –  Resolu1on  is  a  process  of  mapping  an  id  to  a  thing  •  Separates  name  assigning  from  name  mapping  •  All  schemes  encouraged  to  use  these  ideas,  even   ordinary  URLs  •  N2T  resolver  can  support  them  for  any  scheme  
  14. 14. Iden+fier  schemes  are  highly  parallel   Scheme :Name Mapping Authority : Name Assigning Authority : (NMA) : : Number (NAAN) v v v|..........................|....+..................| http://dx.doi.org/doi:10.30/tqb3kh97gh8w http://hdl.handle.net/hdl:13030/tqb3kh97gh8w http://purl.org/tqb3kh97gh8w ... urn:13030:tqb3kh97gh8w http://n2t.net/ark:/13030/tqb3kh97gh8w http://OwlBike.example.org/ark:/13030/tqb3kh97gh8w|..........................|.......................|...... Branded or neutral Base identifier Suffix
  15. 15. Locksmith  jargon:  shoulder,  blade,  +p,  bow,  cover   _____ slips on _____ .- ,_,-.. ----> .- -. / (o,o) / : {`"} || : `____ / .-. -"-"- || / .-. --^. .^--^. .^.{ ( ) || { ( ) `- `-^--^- --^. `- _o || - ===================================} : _|<,_ || : __________________________________/ (*)/(*) / / `-._____.- `-._____.-|....................|...............|....|..........................|..| ^ ^ ^ ^ ^ : : : : : Cover= Bow= Shoulder .------ Blade Tip NMA Scheme+NAAN : : .------------------- : : : : : : v v v v v v|..........................|....+.....|...|......|.| http://OwlBike.example.org/ark:/13030/tqb3kh97gh8w <---- Example Key doi:10.30/tqb3kh97gh8w with parallel hdl:13030/tqb3kh97gh8w parts in other urn:13030:tqb3kh97gh8w id schemes.|..........................|.......................|.... Name Mapping Authority Base identifier ...
  16. 16. ARK  usage  in  10  years  •  In  2001-­‐2011  ~100  organiza+ons  registered  for  ARKs  •  Registry  is  replicated  at  BnF  and  NLM  •  Some  of  the  largest  users  are   –  The  California  Digital  Library   –  The  Internet  Archive   –  Bibliothèque  na+onale  de  France   –  Por+co  Digital  Preserva+on  Service   –  University  of  California  Berkeley   –  University  of  Chicago  
  17. 17. Some  other  ARK  registrants              12025                      US  Na+onal  Library  of  Medicine              86077                      Cornell  Ins+tute  for  Social  and  Economic  Research              26677                      Library  and  Archives  Canada              77635                      Humboldt-­‐Universität  zu  Berlin              13038                      World  Intellectual  Property  Organiza+on              78319                      Google              61001                      University  of  Chicago              28722                      University  of  California  Berkeley              64269                      UK  Digital  Cura+on  Centre              87895                      Centre  Informa+que  Na+onal  de  lEnseignement  Supérieur              61903                      Family  Search              52327                      Na+onal  Library  and  Archives  of  Quebec              10261                      Jüdisches  Museum  Berlin              71479                      Spanish  Na+onal  Research  Council              32833                      Massachusels  Ins+tute  of  Technology              81055                      Bri+sh  Library              80713                      Biblioteca  Nacional  de  Portugal  
  18. 18. Immersion  vs  landing  page  What  do  you  mean  by  “get  the  data”?  What  inflec+ons  might  dis+nguish  these?  • Immersion  –  a  consump+ve  experience  or  • Landing  page  –  a  menu-­‐study  experience?  
  19. 19. Vision  for  a  “data  paper”    •  Wrap  the  unfamiliar  in  a  familiar  façade  •  A  “data  paper”  is  minimally  a  cover  sheet   and  a  set  of  links  to  archived  ar+facts    •  Cover  sheet  contains  familiar  elements:   +tle,  date,  authors,  abstract,  and   persistent  iden+fier  (DOI,  ARK,  etc.)  •  Just  enough  to  permit  basic  exposure  and   discovery  –  Building  a  basic  data  cita+on    –  Indexing  by  services  such  as  Web  of   Science,  Google  Scholar  –  Ins+lling    confidence  in  the  iden+fier’s     stability    
  20. 20. New  distributed  framework   Coordina9ng  Nodes   Flexible,  scalable,   Member  Nodes  •  retain  complete  metadata   sustainable  network  •   catalog     ins+tu+ons    diverse  •  subset  of  all  data  •     serve  local  community  •  perform  basic  indexing  •   provide  network-­‐wide  •   provide  resources  for  managing  their  data   services  •  ensure  data  availability   (preserva+on)      •  provide  replica+on   services  
  21. 21. ARKs  –  coming  soon  •  Community  forum  •  Standardiza+on  as  an  Internet  RFC  •  New  inflec+ons  for  landing  page  &  immersion  
  22. 22. N2T/EZID  –  coming  soon  •  Indexing  by  A&I  vendors  •  Suffix  pass-­‐through   –  Register  Name  -­‐>  target  T   –  Resolve  Name/a/b/c  -­‐>  T/a/b/c  automa+cally   –  Greatly  reduce  number  of  ids  to  manage  •  URNs  

×