Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Breaking the catalog


Published on

Discusses the necessity of linked data to inform discovery; the benefits of aggregation and closed data; the issues with rights.

Breaking the catalog

  1. 1. Peter  Brantley      Dallas   Internet  Archive      Texas   The  Presidio      01.2012  
  2. 2. I  have  a  book.  
  3. 3. It’s  really  a  database  in  a  book.  
  4. 4. Doesn’t  exist  on  the  web.  
  5. 5. The  catalog  entry  is  not  useful.  
  6. 6.  It  does  not  even  give  you  a  hint    of  the  awesomeness  of  it.  
  7. 7.  All  bibliographic  data  underperforms  in  this   way,  no  matter  how  we  describe  it.      
  8. 8.  And  it  can’t  do  much  for  discovery.  
  9. 9.  Discovery  is  a  lot  more  than  a    better  index  of  metadata.  
  10. 10.  Discovery  is  metadata,      contextualized  by  user      desire.    
  11. 11. Which  means:     what’s  relevant  to  me,     right  now,     right  here.  
  12. 12.  One  of  linked  data’s  challenges  is   contributing  to  discovery.  
  13. 13. Consider:    Small  Demons     (  
  14. 14.  Literature  through  freebase  with  zemanta   entity  extraction  and  matching  
  15. 15.  Very  nice  enhanced  browse  capacity  for   ebook  discovery.  
  16. 16.  APIs  could  engender  range  of  new  services.  
  17. 17.  But  …  data  for  recommendations  is  limited      to  known  attributes  and  UGC.    
  18. 18.  Cool  when  it  works;  will  work  better  with   more  aggregation.    
  19. 19.  Lesson:  Information  format  is  often  divorced      from  its  utility  
  20. 20. and  even  more  importantly  …    
  21. 21.  most  open  culture  search  is  absolutely   ignorant  of  the  context  of  my  desires.  
  22. 22. remember  “Lincoln”  
  23. 23.  at  the  time  of  writing,  there’s  one  newly   released  and  top-­‐selling  book.  
  24. 24.  chances  are,  at  time  of  writing,      it’s  that  book  that  I  want.    
  25. 25.  Amazon  can  figure  that  out.  
  26. 26.  Because  they  are  selling  a  shitload  of  them.  
  27. 27.  Simple:  increase  relevancy  by  incorporating   bias  toward  most  recent  retrievals.    
  28. 28.  Easy  for  Amazon:  they  have  sales  data.  
  29. 29.  Library  (ebook)  circulation  is  increasingly   meaningless,  or  more  accurately,   unavailable.  
  30. 30.  The  book  is  online.    But  digitally  off-­‐site.  
  31. 31.  Optimizing  discovery  is  hard.      
  32. 32.  Segue:  Consider  relationship  modeling.  
  33. 33.  Mozart’s  Don  Giovanni  and      José  Zorrilla’s  Don  Juan  Tenorio    via  Tirso  de  Molina’s  El  burlador  de  Sevilla  
  34. 34.  per  the  Library  Loon  ...      “relationship  modeling      only  need  be  done  once”  
  35. 35.  which  in  real  world  terms  means      centralizing  this  modeling    
  36. 36.  duplicating  the  best  of  Flickr  etc.  –      for  a  LOD  repository  
  37. 37.    crowd  sourced  resource  modeling  
  38. 38.  Enables  interesting  approaches  to  book   recommending,  browsing  algorithms  
  39. 39.  Linked  data  makes  for  nice  CS  experiments   and  gets  digital  librarians  excited.    
  40. 40.  No  one  thinks  linked  data  is  a  panacea.    
  41. 41. It’s  a  tool  that  can  help  in  some  contexts.  
  42. 42.  Yet  not  so  much  in  others.  
  43. 43.  I  will  argue  …      The  most  compelling  uses  of  LD  in   repositories  may  be  intra-­‐catalog.  
  44. 44.  Thinking  of  the  catalog  is  a  database,      like  Amazon’s.  
  45. 45.  If  I  just  want  bib  info  (metadata),  go  yonder   to  OCLC  or  Open  Library.  
  46. 46.  If  I  want  to  find  out  what  to  watch  or  read,   I  want  to  go  to  the  largest  aggregation  of   user+meta  data  as  possible.  
  47. 47.  Might  be  Amazon.    (Or  could  be  DPLA  …  ).    
  48. 48.  Library  LOD  has  to  be  network  scale,  on  a   single  platform,  to  be  end-­‐user  attractive   (like  Amazon).    
  49. 49.  I  think  that’s  kinda  funny  conundrum.    
  50. 50.  Because  in  a  way,  linked  open  data      is  about  a  web  of  open  data.    
  51. 51.  However,  unless  you  are  in  the  business  of   providing  open  data  there’s  more  utility  in      …  
  52. 52.  structured  data  on  a  restricted  platform  –    linked  closed  data  (so  to  speak)  
  53. 53.  From  a  business  perspective,  I’d  be  a  real  fan   of  linked  closed  data.    
  54. 54.  If  I  offered  cloud  data  services,  I’d  be  happy  to   host  any  useful  linked  open  data.      
  55. 55.  (Because  being  too  open  to  ingest,  too   polygamous,  can  poison  data  stores)  
  56. 56.  As  long  as  I  (a  platform)  could  retain  an      unrestricted  copy  of  your  data.      
  57. 57.  There’s  a  (copyleft)  rights  issue  here  too  …      (e.g.  CC-­‐SA  and  derivatives)  
  58. 58.  LOD  domains  assume  unbounded  sharing    
  59. 59.  But  rights  might  be  quite  granular  or   restricted  downstream      
  60. 60.  Europeana  requires  downstream  commercial   rights  to  encourage  new  enterprise    
  61. 61.  But  LAMS  might  not  possess  those  rights,   restricting  the  size  of  the  data  market.    
  62. 62.  If  we  want  linked  open  data  to  work  well      
  63. 63.  We  need  to  aggregate  and  hold  data  on  a   single  network  platform  to  the  greatest   possible  extent.  
  64. 64.  Because  that  will  drive  use,  and  obtain   intentionality  information.  
  65. 65.  And  that  data  will  help  ultimately  to   contextualize  metadata  with  desire.  
  66. 66.  Therefore  from  the  user  perspective  …  
  67. 67.  I’d  like  to  see  us  build  out  a  common  open   platform  for  LOD.      
  68. 68.  The  most  powerful  opportunity  for  LOD    may  be  in  building  central  repositories.  
  69. 69.        peter  brantley        director,  bookserver  project          internet  archive          san  francisco  ca            @naypinya            (twitter)