Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

NISO/DCMI Webinar: International Bibliographic Standards, Linked Data, and the Impact on Library Cataloging


Published on

The International Federation of Library Associations and Institutions (IFLA) is responsible for the development and maintenance of International Standard Bibliographic Description (ISBD), UNIMARC, and the "Functional Requirements" family for bibliographic records (FRBR), authority data (FRAD), and subject authority data (FRSAD). ISBD underpins the MARC family of formats used by libraries world-wide for many millions of catalog records, while FRBR is a relatively new model optimized for users and the digital environment. These metadata models, schemas, and content rules are now being expressed in the Resource Description Framework language for use in the Semantic Web.

This webinar provides a general update on the work being undertaken. It describes the development of an Application Profile for ISBD to specify the sequence, repeatability, and mandatory status of its elements. It discusses issues involved in deriving linked data from legacy catalogue records based on monolithic and multi-part schemas following ISBD and FRBR, such as the duplication which arises from copy cataloging and FRBRization. The webinar provides practical examples of deriving high-quality linked data from the vast numbers of records created by libraries, and demonstrates how a shift of focus from records to linked-data triples can provide more efficient and effective user-centered resource discovery services.

Published in: Education
  • Be the first to comment

NISO/DCMI Webinar: International Bibliographic Standards, Linked Data, and the Impact on Library Cataloging

  1. 1. Internaonal  Bibliographic  Standards,  Linked  Data,  and  the   Impact  on  Library  Cataloging   Gordon  Dunsire   A  NISO/DCMI  Webinar   24  August  2011  
  2. 2. Abstract    The  Internaonal  Federaon  of  Library  Associaons  and  Instuons  (IFLA)  is   responsible  for  the  development  and  maintenance  of  Internaonal  Standard   Bibliographic  Descripon  (ISBD),  UNIMARC,  and  the  "Funconal  Requirements"   family  for  bibliographic  records  (FRBR),  authority  data  (FRAD),  and  subject   authority  data  (FRSAD).  ISBD  underpins  the  MARC  family  of  formats  used  by   libraries  world-­‐wide  for  many  millions  of  catalog  records,  while  FRBR  is  a  relavely   new  model  opmized  for  users  and  the  digital  environment.  These  metadata   models,  schemas,  and  content  rules  are  now  being  expressed  in  the  Resource   Descripon  Framework  language  for  use  in  the  Semanc  Web.    This  webinar  provides  a  general  update  on  the  work  being  undertaken.  It  describes   the  development  of  an  Applicaon  Profile  for  ISBD  to  specify  the  sequence,   repeatability,  and  mandatory  status  of  its  elements.  It  discusses  issues  involved  in   deriving  linked  data  from  legacy  catalogue  records  based  on  monolithic  and  mul-­‐ part  schemas  following  ISBD  and  FRBR,  such  as  the  duplicaon  which  arises  from   copy  cataloging  and  FRBRizaon.  The  webinar  provides  praccal  examples  of   deriving  high-­‐quality  linked  data  from  the  vast  numbers  of  records  created  by   libraries,  and  demonstrates  how  a  shiZ  of  focus  from  records  to  linked-­‐data  triples   can  provide  more  efficient  and  effecve  user-­‐centered  resource  discovery  services.  
  3. 3. IFLA  standards   RDF  representaons  of  standards  for  “universal”   bibliographic  control  are  being  developed   “FR”  (Funconal  Requirements)  family  of  models    For  Bibliographic  Records  (FRBR)    For  Authority  Data  (FRAD)    For  Subject  Authority  Data  (FRSAD)   Internaonal  Standard  Bibliographic  Descripon  (ISBD)    Record  structure  and  content   UNIMARC    Encoding  for  ISBD  records  (Bibliographic)  and  FRAD   (Authories)  
  4. 4. Representaon  in  RDF   Enes  =>  RDF  classes    E.g.  FRBR  “Person”   Abributes,  tags,  (sub)fields,  relaonships  =>   RDF  properes    E.g.  ISBD  “tle  proper”    E.g.  UNIMARC  “200  $a”  (tle  proper)    E.g.  FRBR  “tle  of  the  manifestaon”   Controlled  term  values  =>  SKOS  vocabularies    E.g.  ISBD  Area  0  (content  and  media  type)  
  5. 5. FR  family   Each  model  has  its  own  namespace    To  reflect  historical  development    Re-­‐using  earlier  RDF  elements   Consolidated  model  under  development    Being  informed  by  analysis  of  RDF  representaon   FRBR  RDF  published    FRBRer  (enty-­‐relaonship)  ontology    Namespace  elements  plus  OWL    FRBRoo  (object-­‐oriented)    Extension  of  CIDOC  Conceptual  Reference  Model   FRAD  and  FRSAD  imminent    tba  
  6. 6. ISBD   Element  set  and  vocabularies  for  content  and   media  types   Namespace  now  published   DC  Applicaon  Profile  in  development    Models  the  ISBD  record    What  properes  (fields)    Mandatory?  Repeatable?    Aggregated  statements    Sub-­‐elements  and  punctuaon  
  7. 7. ISBD  AP  snippet  <!-­‐-­‐  Area  0  is  mandatory  and  non-­‐repeatable-­‐-­‐>                  <StatementTemplate  ID="hasContentFormAndMediaTypeArea"  minOccurs="1"  maxOccurs="1"  type="nonliteral">      <Property>hbp://</Property>      <!-­‐-­‐  Area  0  is  an  aggregated  statement  with  SES  -­‐-­‐>      <NonLiteralConstraint  descriponTemplateRef="DThasContentFormAndMediaTypeArea">          <ValueStringConstraint>              <SyntaxEncodingScheme>hbp://              </SyntaxEncodingScheme>          </ValueStringConstraint>        </NonLiteralConstraint>                          </StatementTemplate>  
  8. 8. UNIMARC   Proposal  for  RDF  representaon  made  at  IFLA   2011    hbp:// papers/ifla77/187-­‐dunsire-­‐en.pdf   Outcome  of  discussions  with  Permanent   UNIMARC  Commibee    tba  
  9. 9. Other  library  standards  in  RDF  (1)   RDA:  resource  descripon  and  access    Content  standard  based  on  FR  models    Refines  the  FR  properes    Many  more  controlled  vocabularies  than  AACR   MODS/MADS  (Metadata  Object/Authority   Descripon  Schema)    Metadata  structure  based  on  MARC21    RDF  representaon  just  beginning  ...  
  10. 10. Other  library  standards  in  RDF  (2)   BIBO:  Bibliographic  Ontology    Classes  and  properes  for  citaons  and   bibliographic  references   DCMI  Metadata  Terms  (Dublin  Core)    High-­‐level  common-­‐denominator  classes  and   properes  for  memory  instuon  metadata   Lots  of  controlled  vocabularies    LCSH,  DDC  summaries,  RDA  vocabularies,  etc.  
  11. 11. From  record  to  triples  (in  9  stages)   Very  large  numbers  of  records    Catalogue  records,  finding  aids,  etc.    300  million;  1  billion?   High  quality  metadata    In  comparison  with  other  communies   Each  record  may  generate  many  triples    30  “raw”  triples  (no  inferences)  per  MARC  record?   Very,  very  large  numbers  of  triples    Billions?  Trillions?  
  12. 12. 1.  Take  a  record  Field/a(ribute   Value  Record  ID   54321  Title   Museum  archives:  an  introducon  Author   Wythe,  Deborah  Date   2004  LCSH   Museum  archives  Media/GMD   Electronic  Content  form   Text  
  13. 13. 2.  Disaggregate  to  single  statements  Record   A(ribute   Value  54321   (has)  tle   Museum  archives:  an   introducon  54321   (has)  author   Wythe,  Deborah  54321   (has)  date   2004  54321   (has)  LCSH   Museum  archives  54321   (has)  media  type   Electronic  54321   (has)  content  form   Text  
  14. 14. 3.  Create  URI  for  record   Must  be  unique,  so  54321  no  good  on  its  own   hbp  URIs  are  a  good  thing  (W3C)   So  add  record  ID  to  a  unique  hbp  domain    E.g.  hbp://  (unique  to  the  library)    +  54321     hbp://    (or  hbp://   This  is  not  a  URL!  
  15. 15. 4.  Replace  record  ID  with  URI  URI   A(ribute   Value  mlx:54321   (has)  tle   Museum  archives:   an  introducon  mlx:54321   (has)  author   Wythe,  Deborah  mlx:54321   (has)  date   2004  mlx:54321   (has)  LCSH   Museum  archives  mlx:54321   (has)  media  type   Electronic  mlx:54321   (has)  content  form   Text   “mlx”  =  qname  (xmlns)  =  shorthand  for  “hbp://”    
  16. 16. 5.  Find  URIs  for  abributes   Abributes  are  modelled  as  RDF  properes  (predicates)   in  “element  set”  namespaces    E.g.  Dublin  Core  terms  (dct);  ISBD  (isbd);  FRBR  (frbrer);   RDA  (rdaxxx);  Bibliographic  Ontology  (bibo);  etc.   Choose  a  namespace,  find  property  with  same  (or   closest)  “meaning”  (e.g.  definion)  as  abribute    Nearest  property  minimises  loss  of  informaon   Get  URI  for  property   If  no  suitable  property,  choose  another  namespace    Properes  do  not  have  to  come  from  single  namespace   Match  and  mix!  
  17. 17. 5  (cont).  Find  URI  for  tle   hbp://  (dct:tle)   hbp:// P1014  (isbd:P1014)    hasTitleProper     hbp://     (rdaGR1:tleProper)  
  18. 18. 5  (cont).  Find  URI  for  author   dct:creator   rdarole:author   (isbd  does  not  cover  “headings”)  
  19. 19. 5  (cont).  Find  URI  for  date   dct:date   isbd:P1018    hasDateOfPublicaonProduconDistribuon   rdaGr1:dateOfPublicaon  
  20. 20. 5  (cont).  Find  URI  for  LCSH   LCSH  is  a  subject  vocabulary    Controlled  terms   So  abribute  is  really  “subject”    And  the  term  itself  is  the  value   dct:subject  
  21. 21. 5  (cont).  Find  URI  for  media  type   Assuming  record  uses  new  ISBD  Area  0  ...   isbd:P1003    hasMediaType  
  22. 22. 5  (cont).  Find  URI  for  content  form   Assuming  record  uses  new  ISBD  Area  0  ...   isbd:  P1001    hasContentForm  
  23. 23. 6.  Replace  abributes  with  URIs  URI   URI   Value  mlx:54321   isbd:P1014   Museum  archives:   an  introducon  mlx:54321   rdarole:author   Wythe,  Deborah  mlx:54321   isbd:P1018   2004  mlx:54321   dct:subject   Museum  archives  mlx:54321   isbd:P1003   Electronic  mlx:54321   isbd:P1001   Text  
  24. 24. 7.  Find  URIs  for  values   If  object  of  a  triple  is  a  URI,  it  can  link  to  the  subject  of   another  triple  with  the  same  URI    Linked  data!   Values  from  controlled  vocabularies  may  have  URIs    Possible  vocabularies:  author,  subject,  ISBD  Area  0    NOT:  tle,  date   For  author:  Virtual  Internaonal  Authority  File  (VIAF)   For  LCSH:  Library  of  Congress  Authories  &   Vocabularies   For  ISBD  Area  0:  Open  Metadata  Registry  
  25. 25. 7  (cont).  Find  URI  for  author   Author:  Wythe,  Deborah   VIAF:  hbp://    viaf:31899419/#Wythe,+Deborah  
  26. 26. 7  (cont).  Find  URI  for  subject  (LCSH)   LCSH:  Museum  archives   LoC:  hbp://    lcsh:/sh85088707#concept    
  27. 27. 7  (cont).  Find  URIs  for  ISBD  Area  0   Media  type:  Electronic   ISBD  media  type    isbdmt:T1002   Content  form:  Text   ISBD  Content  form    isbdcf:T1009  
  28. 28. 8.  Replace  values  with  URIs  subject   predicate   object  mlx:54321   isbd:P1014   “Museum  archives:  an   introducon”  mlx:54321   rdarole:author   viaf:31899419/#Wythe, +Deborah  mlx:54321   isbd:P1018   “2004”  mlx:54321   dct:subject   lcsh:/ sh85088707#concept    mlx:54321   isbd:P1003   isbdmt:T1002  mlx:54321   isbd:P1001   isbdcf:T1009  
  29. 29. 9.  Publish  triples  (linked  data)   mlx:54321  |  isbd:P1014  |  “Museum  archives:  an  introducon”     mlx:54321  |  rdarole:author  |  viaf:31899419/#Wythe,+Deborah   mlx:54321  |  isbd:P1018  |  “2004”   mlx:54321  |  dct:subject  |  lcsh:/sh85088707#concept   mlx:54321  |  isbd:P1003  |  isbdmt:T1002   mlx:54321  |  isbd:P1001  |  isbdcf:T1009  
  30. 30. Linked  data  chains  mlx:54321  |  dct:subject  |  lcsh:/sh85088707#concept   lcsh:/sh85088707#concept  |  skos:related  |  rameau:XXX   rameau:XXX  |  frbrer:isSubjectOf  |  mly:98765   mly:98765  |  rda:tleOfTheWork  |  “Managing  archives  in  museums”   rameau:XXX  |  skos:prefLabel  |  “archives  du  musée”  
  31. 31. Linked  data  cluster  =  “record”   mlx:54321  |  isbd:P1014  |  “Museum  archives:  an  introducon”     mlx:54321  |  rdarole:author  |  viaf:31899419/#Wythe,+Deborah   mlx:54321  |  isbd:P1018  |  “2004”   mlx:54321  |  dct:subject  |  lcsh:/sh85088707#concept   mlx:54321  |  isbd:P1003  |  isbdmt:T1002   mlx:54321  |  isbd:P1001  |  isbdcf:T1009  
  32. 32. Duplicaon  and  legacy  records   Many  copies  of  legacy  records    Copied  and  amended  for  local  use   Danger  of  minng  mulple  URIs  for  the  same   resource   Naonal  bibliographic  agencies  have   significant  role  to  play    As  memory/cultural  instuons    The  linked-­‐data  memory/culture  of  a  naon  
  33. 33. FRBRizaon   FRBR  splits  record  into  four  funconal  parts    User-­‐centred  funcons   Subject  of  a  FRBR  triple  is  one  of  the  parts,  not   the  resource  as  a  whole   But  subject  of  ISBD  triple  is  the  resource  as  a   whole   Class  collisions  can  be  avoided  by  using   unbounded  (no  domain  or  range)  versions  of   properes  
  34. 34. A  short  history   of  the  evoluon  of  the  library  catalogue  record  
  35. 35. In  the  beginning  ...   Lee,  T.  B.   Cataloguing  has  a  future.  -­‐  Audio  disc     (Spoken  word).  -­‐    Donated  by  the  author.   1.  Metadata   ...  the  catalogue  card  
  36. 36. From  flat-­‐file  record  ...   Bibliographic  descrip7on   Name  authority   Author:   Lee,  T.  B.   Name:   Title:   Cataloguing  has  a  future   Biography:   ...   Content  type:   Spoken  word   Carrier  type:   Audio  disc   Subject  authority   Subject:   Metadata   Term:   Provenance:   Donated  by  the  author   Definion:   ...   ...  to  relaonal  record  
  37. 37. From  flat-­‐file  descripon  ...   Bibliographic  descrip7on   Name  authority   Author:   Name:   Lee,  T.  B.   Title:   Cataloguing  has  a  future   Biography:   Work   ...   Content  type:   Spoken  word   Author:   Carrier  type:   Audio  disc   Subject  authority   Subject:   Subject:   Term:   Metadata   Expression   Provenance:   Donated  by  the  author   Definion:   Content  type:   Spoken  word   ...   Manifesta7on   Item   ...  to  FRBR  record  
  38. 38. From  FRBR  record  ...   Work   Name  authority   Author:   Name:   Lee,  T.  B.   Subject:   Subject  authority   Expression   Content  type:   Spoken  word   Term:   Metadata   Manifesta7on   RDA  content  type   Title:   Cataloguing  has  a  future   Term:   Carrier  type:   Audio  disc   RDA  carrier  type   Item   Donor:   Provenance:   Donated  by  the  author   Term:   Amazon/Publisher   Title:   ...  to  exncon!  
  39. 39. Where  is  the  record?   Implicit,  not  explicit    Everywhere  and  nowhere   A  semanc  Web  will  allow  machines  to  create  the   record  just-­‐in-­‐me    We  will  not  have  to  maintain  records  just-­‐in-­‐case   The  user  will  have  control  over  the  presentaon    I  want  to  see  an  archive  or  library  or  museum  or   Amazon  or  Google  or  Flickr  or  ?  display   And  by  avoiding  duplicaon,  we  can  all  get  on   with  describing  new  stuff  ...  
  40. 40. The  hyperdimensional  (Tardis)  card   W3C  Library   Audio  shop   Lee,  T.  B.   Cataloguing  has  a  future.  -­‐  Audio  disc     (Spoken  word).  -­‐    Donated  by  the  author.   1.  Metadata   Spoken  word  archive   Lee  Museum   “TARDIS  four  port  USB  hub,  for  office-­‐bound  Time  Lords:   Open  a  me  vortex  on  your    desk”  –  Pocket-­‐lint    
  41. 41. Metadata  focus  ShiZ  of  focus  of  metadata  creaon,  maintenance,  storage,  preservaon  (by  professionals,  amateurs,  machines)  From  Record   To  Statement(s)  =  triple(s)  But  metadata  display  ...  ...  aggregates  triples  (from  mulple  sources)  to  create  records  on  the  fly