Peter	
  Brantley 	
       	
     	
  Tools	
  of	
  Change	
  
Internet	
  Archive 	
     	
     	
  Frankfurt,	
  Germany	
  
The	
  Presidio     	
     	
     	
  10.09	
  
 Entering	
  the	
  digital	
  fold,	
  
  	
  a	
  tangled	
  landscape:	
  

1.    finding	
  the	
  book	
  
2.    format	
  of	
  the	
  book	
  
3.    acquiring	
  the	
  book	
  
 Digital	
  channels	
  are	
  fragmented	
  ...	
  	
  

  web	
  search?	
  	
  (Google,	
  Bing,	
  etc)	
  
  publisher	
  site?	
  (tor.com	
  ...	
  )	
  
  the	
  local	
  library?	
  	
  (borrowing/lending)	
  
  online	
  bookstore?	
  (Amazon,	
  Indigo)	
  	
  
  alt.	
  vendor?	
  (Smashwords,	
  Shortcovers)	
  
 What	
  is	
  the	
  reader	
  getting?	
  

  highly	
  structured	
  display	
  (PDF)	
  
  downloadable	
  book	
  (EPUB,	
  MOBI)	
  
  cloud-­‐based	
  	
  (EPUB	
  >	
  HTML,	
  Flash)	
  
  not	
  really	
  available	
  at	
  all	
  	
  (biblio	
  data,	
  ILL)	
  	
  
Plethora	
  of	
  devices	
  –	
  	
  

  iPhone	
  |	
  Android	
  	
  
  Sony	
  Reader	
  |	
  iRex	
  Illiad	
  |	
  BeBook	
  |	
  Bookeen	
  	
  	
  	
  	
  
  	
  Plastic	
  Logic	
  |	
  Amazon	
  Kindle	
  reader	
  device	
  
  traditional	
  laptop	
  
  game	
  console	
  (Wii)	
  	
  
  near-­‐mythical	
  Apple	
  Tablet	
  	
  
 +	
  Device	
  	
  
  	
  +	
  Format	
  	
  
  	
  +	
  Discovery	
  	
  
  	
  +	
  Acquisition	
  
  	
  +	
  Installation	
  
( 	
  +	
  DRM 	
  )	
  	
  	
  
  	
   	
  =	
  
  	
  	
  CONFUSION.	
  
                                   http://www.flickr.com/photos/dan4th/2295925353/	
  
What	
  readers	
  want	
  to	
  have	
  ..	
  

Be	
  able	
  to	
  find	
  the	
  books	
  they	
  want,	
  
in	
  the	
  formats	
  that	
  they	
  can	
  use,	
  	
  
for	
  the	
  device	
  that	
  they	
  have,	
  

and	
  not	
  have	
  it	
  be	
  painful.	
  	
  
 What	
  publishers,	
  libraries,	
  bookstores	
  want	
  -­‐	
  

	
  Make	
  books	
  available	
  for	
  discovery,	
  
	
  with	
  accurate	
  descriptive	
  information,	
  
	
  at	
  as	
  many	
  different	
  places	
  as	
  possible,	
  
	
  under	
  the	
  sales	
  /	
  use	
  terms	
  permitted.	
  
 Even	
  the	
  U.S.	
  Department	
  of	
  Justice	
  is	
  an	
  
    advocate:	
  

	
  “[book]	
  data	
  provided	
  should	
  be	
  available	
  in	
  
    multiple,	
  standard,	
  open	
  formats	
  supported	
  
    by	
  a	
  wide	
  variety	
  of	
  different	
  applications,	
  
    devices,	
  and	
  screens.”	
  
 Creating	
  a	
  new	
  architecture	
  using	
  common,	
  
    open	
  standards	
  that	
  permits	
  people	
  to	
  find,	
  
    buy,	
  acquire,	
  and	
  read	
  books	
  from	
  any	
  
    source,	
  on	
  any	
  device,	
  using	
  many	
  different	
  
    ebook	
  applications.	
  	
  	
  
 Library	
  2.0	
  Gang	
  (02/09):	
  
	
  Google	
  books	
  and	
  libraries	
  

	
  	
  various	
  email	
  discussions	
  of	
  nascent	
  	
  
	
  “Open	
  Catalogue	
  Crawling	
  Protocol”	
  	
  

	
  Google,	
  DLF,	
  Talis,	
  and	
  others	
  
	
  Atom	
  vs	
  Sitemap	
  discussions	
  
IDPF	
  Board	
  	
  
  	
  conference	
  calls	
  

Tools	
  of	
  Change	
  (NYC,	
  Feb	
  2009)	
  
 	
  hallway	
  conversations	
  

Web	
  Expo	
  2.0	
  (SF,	
  Apr	
  2009)	
  
 	
  pinot	
  noir	
  	
  
 “The	
  Open	
  Publication	
  Distribution	
  System	
  
    (OPDS)	
  is	
  a	
  generalization	
  of	
  the	
  Atom	
  [XML]	
  
    approach	
  used	
  by	
  Stanza's	
  online	
  catalog.	
  
	
  ...	
  
	
  I	
  believe	
  this	
  effort	
  has	
  the	
  potential	
  to	
  be	
  a	
  
    critical	
  enabler	
  to	
  the	
  growth	
  in	
  access	
  to,	
  
    and	
  adoption	
  of,	
  digital	
  books.”	
  	
  

	
   	
  -­‐	
  Bill	
  McCoy,	
  Adobe,	
  04.09	
  
“BookServer”	
  is	
  the	
  architecture.	
  	
  

“OPDS”	
  is	
  the	
  technical	
  specification.	
  

“Catalogs”	
  are	
  made	
  using	
  OPDS.	
  

“Atom”	
  is	
  the	
  XML	
  scheme	
  for	
  OPDS.	
  
 Because	
  OPDS	
  is	
  based	
  on	
  a	
  commonly	
  	
  
	
  used	
  XML	
  standard,	
  called	
  Atom	
  –	
  	
  	
  	
  

	
  OPDS	
  Catalogs	
  can	
  be	
  rendered	
  or	
  read	
  by	
  –	
  

                         web	
  browsers	
  	
  
                      news	
  readers	
  (rss)	
  
                     mobile	
  applications	
  
Because	
  Catalogs	
  are	
  easy	
  to	
  make	
  –	
  	
  

  any	
  web	
  site	
  can	
  run	
  a	
  bookstore.	
  
  libraries,	
  bookstores,	
  publishers	
  can	
  play.	
  
  search	
  engines	
  can	
  serve	
  as	
  book	
  gateways.	
  
  aggregators	
  (IA,	
  Ingram,	
  etc.)	
  can	
  harvest	
  
   multiple	
  catalogs.	
  
 Because	
  Catalogs	
  contain	
  simple	
  data	
  
    describing	
  books	
  and	
  their	
  availability	
  –	
  

	
  	
  Catalogs	
  can	
  also	
  be	
  used	
  for	
  B2B,	
  to	
  
     distribute	
  data	
  to	
  partners	
  for	
  “harvest”	
  
     instead	
  of	
  using	
  complicated	
  standards.	
  

	
  (Future:	
  “real	
  time	
  web”	
  notifications.)	
  
Catalogs	
  provide	
  manifests	
  –	
  

  list	
  of	
  the	
  titles	
  available	
  
  information	
  about	
  each	
  title	
  
  formats	
  the	
  title	
  is	
  available	
  in	
  
  ways	
  the	
  title	
  can	
  be	
  acquired	
  	
  
A	
  reader	
  ...	
  	
  

1.    browses	
  a	
  Catalog	
  of	
  titles	
  
2.    selects	
  a	
  title	
  for	
  more	
  information	
  
3.    makes	
  a	
  purchase/borrow	
  decision	
  
4.    obtains	
  the	
  book	
  (PayPal,	
  Amazon,	
  etc.)	
  
5.    installs	
  and	
  reads	
  the	
  book.	
  
 Catalogs	
  can	
  be	
  derived	
  from	
  basic	
  
    bibliographic	
  metadata.	
  	
  Such	
  as:	
  	
  

	
  ONIX,	
  MARC,	
  (ahem)	
  spreadsheets	
  

	
  Internally	
  OPDS	
  Catalogs	
  use	
  
	
  simple	
  Dublin	
  Core	
  metadata	
  
	
  to	
  describe	
  the	
  titles	
  offered.	
  
ONIX	
  (and	
  BISG	
  “BookDROP”)	
  are:	
  

    	
   designed	
  for	
  a	
  different	
  use	
  cases	
  
    	
   complex	
  standard	
  with	
  many	
  options	
  
    	
   not	
  widely	
  used	
  beyond	
  publishing	
  	
  
    	
   not	
  understood	
  by	
  web	
  browsers	
  	
  
    	
   established;	
  change	
  is	
  difficult	
  	
  
 Because	
  we	
  use	
  open	
  standards	
  for	
  
    describing	
  data,	
  it	
  is	
  possible	
  to	
  link	
  
    bibliographic	
  book	
  data	
  more	
  easily.	
  
Catalogs	
  could	
  tie	
  together	
  –	
  	
  

                            book	
  reviews	
  
                             reading	
  lists	
  
                             annotations	
  
                              fan	
  fiction	
  
                                    etc.	
  
A	
  workshop	
  sponsored	
  by	
  the	
  Internet	
  Archive	
  
October	
  19-­‐20,	
  Fort	
  Mason	
  
San	
  Francisco,	
  California	
  

With	
  the	
  assistance	
  (among	
  many	
  others):	
  	
  
  	
   O’Reilly	
  Media	
   	
  http://oreilly.com/	
  
  	
   Threepress            	
  http://threepress.org/	
  
  	
   Feedbooks             	
  http://feedbooks.com/	
  
  	
   Book	
  Oven	
        	
  http://bookoven.com/	
  
    Adobe	
                         Ingram	
  Digital	
  
    Aldiko	
  	
                 O’Reilly	
  Media	
  
    (Amazon)	
  Lexcycle	
       OLPC	
  
    Applewood	
  Books	
         Pixel	
  Qi	
  
    Book	
  Oven	
               Shortcovers	
  
    Booki	
                      Threepress	
  
    Feedbooks	
                  	
  ...	
  psst	
  ...	
  
    HumanWare	
                  and	
  others	
  	
  
Contact	
  information:	
  

peter	
  brantley 	
    	
        	
  internet	
  archive	
  
@naypinya	
  (twitter)	
  	
      	
  peter	
  @	
  archive.org	
  

keith	
  fahlgren	
   	
   	
     	
  o’reilly	
  media	
  	
  
@abdelazer	
  (twitter)	
         	
  keith	
  @	
  oreilly.com

Web Of Books

  • 1.
    Peter  Brantley      Tools  of  Change   Internet  Archive      Frankfurt,  Germany   The  Presidio      10.09  
  • 2.
     Entering  the  digital  fold,    a  tangled  landscape:   1.  finding  the  book   2.  format  of  the  book   3.  acquiring  the  book  
  • 3.
     Digital  channels  are  fragmented  ...       web  search?    (Google,  Bing,  etc)     publisher  site?  (tor.com  ...  )     the  local  library?    (borrowing/lending)     online  bookstore?  (Amazon,  Indigo)       alt.  vendor?  (Smashwords,  Shortcovers)  
  • 4.
     What  is  the  reader  getting?     highly  structured  display  (PDF)     downloadable  book  (EPUB,  MOBI)     cloud-­‐based    (EPUB  >  HTML,  Flash)     not  really  available  at  all    (biblio  data,  ILL)    
  • 5.
    Plethora  of  devices  –       iPhone  |  Android       Sony  Reader  |  iRex  Illiad  |  BeBook  |  Bookeen            Plastic  Logic  |  Amazon  Kindle  reader  device     traditional  laptop     game  console  (Wii)       near-­‐mythical  Apple  Tablet    
  • 6.
     +  Device      +  Format      +  Discovery      +  Acquisition    +  Installation   (  +  DRM  )          =      CONFUSION.   http://www.flickr.com/photos/dan4th/2295925353/  
  • 7.
    What  readers  want  to  have  ..   Be  able  to  find  the  books  they  want,   in  the  formats  that  they  can  use,     for  the  device  that  they  have,   and  not  have  it  be  painful.    
  • 8.
     What  publishers,  libraries,  bookstores  want  -­‐    Make  books  available  for  discovery,    with  accurate  descriptive  information,    at  as  many  different  places  as  possible,    under  the  sales  /  use  terms  permitted.  
  • 10.
     Even  the  U.S.  Department  of  Justice  is  an   advocate:    “[book]  data  provided  should  be  available  in   multiple,  standard,  open  formats  supported   by  a  wide  variety  of  different  applications,   devices,  and  screens.”  
  • 12.
     Creating  a  new  architecture  using  common,   open  standards  that  permits  people  to  find,   buy,  acquire,  and  read  books  from  any   source,  on  any  device,  using  many  different   ebook  applications.      
  • 14.
     Library  2.0  Gang  (02/09):    Google  books  and  libraries      various  email  discussions  of  nascent      “Open  Catalogue  Crawling  Protocol”      Google,  DLF,  Talis,  and  others    Atom  vs  Sitemap  discussions  
  • 15.
    IDPF  Board      conference  calls   Tools  of  Change  (NYC,  Feb  2009)    hallway  conversations   Web  Expo  2.0  (SF,  Apr  2009)    pinot  noir    
  • 16.
     “The  Open  Publication  Distribution  System   (OPDS)  is  a  generalization  of  the  Atom  [XML]   approach  used  by  Stanza's  online  catalog.    ...    I  believe  this  effort  has  the  potential  to  be  a   critical  enabler  to  the  growth  in  access  to,   and  adoption  of,  digital  books.”        -­‐  Bill  McCoy,  Adobe,  04.09  
  • 17.
    “BookServer”  is  the  architecture.     “OPDS”  is  the  technical  specification.   “Catalogs”  are  made  using  OPDS.   “Atom”  is  the  XML  scheme  for  OPDS.  
  • 18.
     Because  OPDS  is  based  on  a  commonly      used  XML  standard,  called  Atom  –          OPDS  Catalogs  can  be  rendered  or  read  by  –     web  browsers       news  readers  (rss)     mobile  applications  
  • 19.
    Because  Catalogs  are  easy  to  make  –       any  web  site  can  run  a  bookstore.     libraries,  bookstores,  publishers  can  play.     search  engines  can  serve  as  book  gateways.     aggregators  (IA,  Ingram,  etc.)  can  harvest   multiple  catalogs.  
  • 20.
     Because  Catalogs  contain  simple  data   describing  books  and  their  availability  –      Catalogs  can  also  be  used  for  B2B,  to   distribute  data  to  partners  for  “harvest”   instead  of  using  complicated  standards.    (Future:  “real  time  web”  notifications.)  
  • 21.
    Catalogs  provide  manifests  –     list  of  the  titles  available     information  about  each  title     formats  the  title  is  available  in     ways  the  title  can  be  acquired    
  • 22.
    A  reader  ...     1.  browses  a  Catalog  of  titles   2.  selects  a  title  for  more  information   3.  makes  a  purchase/borrow  decision   4.  obtains  the  book  (PayPal,  Amazon,  etc.)   5.  installs  and  reads  the  book.  
  • 23.
     Catalogs  can  be  derived  from  basic   bibliographic  metadata.    Such  as:      ONIX,  MARC,  (ahem)  spreadsheets    Internally  OPDS  Catalogs  use    simple  Dublin  Core  metadata    to  describe  the  titles  offered.  
  • 24.
    ONIX  (and  BISG  “BookDROP”)  are:       designed  for  a  different  use  cases       complex  standard  with  many  options       not  widely  used  beyond  publishing         not  understood  by  web  browsers         established;  change  is  difficult    
  • 25.
     Because  we  use  open  standards  for   describing  data,  it  is  possible  to  link   bibliographic  book  data  more  easily.  
  • 26.
    Catalogs  could  tie  together  –       book  reviews     reading  lists     annotations     fan  fiction     etc.  
  • 27.
    A  workshop  sponsored  by  the  Internet  Archive   October  19-­‐20,  Fort  Mason   San  Francisco,  California   With  the  assistance  (among  many  others):         O’Reilly  Media    http://oreilly.com/       Threepress  http://threepress.org/       Feedbooks  http://feedbooks.com/       Book  Oven    http://bookoven.com/  
  • 28.
      Adobe     Ingram  Digital     Aldiko       O’Reilly  Media     (Amazon)  Lexcycle     OLPC     Applewood  Books     Pixel  Qi     Book  Oven     Shortcovers     Booki     Threepress     Feedbooks    ...  psst  ...     HumanWare     and  others    
  • 29.
    Contact  information:   peter  brantley      internet  archive   @naypinya  (twitter)      peter  @  archive.org   keith  fahlgren        o’reilly  media     @abdelazer  (twitter)    keith  @  oreilly.com