Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

关联数据Abc与近年进展

3,459 views

Published on

  • Be the first to comment

关联数据Abc与近年进展

  1. 1. 2010图书馆前沿技术论坛<br />关联数据与书目数据未来<br />2010.8.23 上海<br />关联数据ABC及两年来的应用进展<br />刘 炜<br />Kevenlw@gmail.com<br />
  2. 2. 内容<br />什么是URI,RDF?<br />什么是关联数据?<br />关联数据四原则<br />为什么要用关联数据?<br />关联数据应用进展<br />英国广播公司和纽约时报<br />图书馆界的应用进展概述<br />
  3. 3. 什么是URI?<br />URI: Universal Resource Identifiers<br />URI、URL、URN的关系<br />URL:HTTP URI<br />URN:DOI,ISBN,ISSN<br />CoolURI<br />OpenURL<br />http://virtuoso.openlinksw.com/images/generic_uri_syntax_image.png<br />
  4. 4.
  5. 5. Cool URI<br />习惯叫法,为保证RUI的稳定性,对URI命名提出的一些最佳实践要求。<br />只包含0-9,a-z, /, 文件名最后可用#,尽可能使用日期作为目录等等;<br />不用后缀名,交由Web服务器重定向;<br />……<br />
  6. 6. 什么是RDF?<br />RDF是一种元数据语言,简称为三元组模型<br />“主语-谓词-宾语”构成了基本(最小)逻辑单位<br />常见的是用XML表达的三元组,也可以用其它形式表示(如N3,N-triple甚至图示)<br />所有的资源都有URI(资源的定义)<br />空白节点(Blank node)是指没有全局ID的本地资源(没有定义命名域的URI,如ISBN, DOI)<br />文字(Literal)指一个字串值(可以有类型以及语言属性)<br />完整解释请参见http://www.rdfabout.com/以及http://www.w3.org/TR/rdf-primer/. <br />
  7. 7. RDF举例<br />http://www.w3.org/TR/rdf-concepts/fig6may19<br />
  8. 8. 什么是关联数据?<br />通俗地说,关联数据是任何有意义的数据在万维网上的一种发布方式<br />以HTTP URI(URL)的方式链接到一个数据对象,而不是一个文档<br />URI决定了数据的唯一性和“可关联”性,RDF确立了数据的语义。<br />RDF文件中应该包含更多的由URI所标识的其它资源,即尽可能不使用“blank nodes”。<br />
  9. 9. 什么是关联数据?<br />维基百科的定义:关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识( “a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.”)<br />
  10. 10. 什么是关联数据?<br />由Web的发明人Tim Berners-Lee提出;<br />定义了一种URI规范,使得人们可以通过HTTP/URI机制,直接获得数字资源(Thing);<br />“一种Web上的富链接机制,将超文本链接(文件之间的链接)转变为超数据链接(事物Thing之间的链接)<br />关联数据是实现Data Web的关键技术(Data Web与现在的文本Web相对应)。<br />Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html<br />
  11. 11. 为什么叫关联数据?<br />1、URI所表示的是数据,而不是文档;<br />2、URI的数据资源以RDF形式表达,其中有指向更多数据的URI,也就是链接;<br />3、RDF所表达的链接其实是有语义的,不是仅仅一个link而已,而是表明了当前资源与被链接资源的关系。<br />
  12. 12. 关联数据的四项基本原则:<br />使用URI作为任何事物的标识名称,不仅是标识文档<br />Use URIs as names for things<br />使用HTTP URI,使任何人都可以参引(dereference)这一全局唯一的名称<br />Use HTTP URIs so that people can look up those names<br />当有人访问名称时,以RDF形式提供有用的信息<br />When someone looks up a name, provide useful information<br />尽可能提供链接,指向其它的URI,以使人们发现更多的相关信息<br />Include links to other URIs so that they can discover more things<br />
  13. 13. 关联数据URI发布方式<br />通过以下两种方式,快递员不仅能找到你家的门牌号(URL作为URI),而且能把东西送到/取自你的客厅、厨房甚至卧室、卫生间:<br />Hash + data<br />http 303 转向(Negotiation)<br />通过扩展改造Web服务器的响应方式,达到上述目的<br />详细请参见How to publish Linked Data on the Web: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/<br />中文翻译:https://docs.google.com/View?id=ajjq7zprkrz8_0dfhmj8cs<br />
  14. 14. http://www.w3.org/TR/2008/NOTE-cooluris-20080331/img20080331/303.png<br />
  15. 15. 机器可理解,人也可读。<br />
  16. 16. 关联数据的发布方式(详细)<br />URI中避免使用空白节点,避免具体化(reification),尽可能不使用RDF的集(Collection)和包(Container)<br />采用内容协商(Negotiation), URI参引(dereferencing), CoolURI(也就是采用hash#和303转向方式指向资源)<br />鼓励RDF中链接, 可以用URI别名<br />鼓励本体/模式重用, 遵循术语定义的最佳实践<br />在RDF描述中“必须包含”对该资源描述的内容<br />封装非RDF的数据库或API, 使封闭世界的数据开放出来<br />
  17. 17. 为什么要关联数据?1、数据整合;2、赋予语义<br />
  18. 18. 数据整合:从开放API到开放数据<br />
  19. 19. 目标:数据Web<br />提供统一的数据模型 (RDF)<br />提供统一的存取 API (RDF/SPARQL)<br />提供一致的语义描述方法 (RDFS/OWL)<br />提供可扩展的数据整合和混搭平台<br />提供了富于想象力的数据利用空间<br />
  20. 20. Web“数据化”趋势<br />信息资源对象越来越细小:从文献到数据;<br />信息资源需要结构化,有序组织(于是有各类信息组织方式、语言);<br />信息服务的标准化、自助化、自动化(于是各类私有的API和查询语言开始标准化);<br />整个Web就是一个数据库。<br />
  21. 21. 关联数据使web数据访问具有了标准统一的API<br />linkeddata.org/<br />
  22. 22. 数据Web与关联数据的关系<br />来自:Alexandre Passant & Michael Hausenblas在 WWW09(Madrid, Spain 2009-04-20)上的演示“Hello Open World!”<br />
  23. 23. 图书馆关联数据示例<br />出版商提供某本书的原始数据<br />来自:法国国家图书馆 Bermes Emmanuelle<br />
  24. 24. 图书馆关联数据示例<br />国家图书馆添加书目信息和权威控制<br />来自:法国国家图书馆 Bermes Emmanuelle<br />
  25. 25. 图书馆关联数据示例<br />本地图书馆添加馆藏信息<br />来自:法国国家图书馆 Bermes Emmanuelle<br />
  26. 26. 图书馆关联数据示例<br />“群众”添加附加信息:维基百科的链接<br />来自:法国国家图书馆 Bermes Emmanuelle<br />
  27. 27. 图书馆关联数据示例<br />图书馆IT人员为所有这些与本书相关的信息生成页面和链接,如同一个作者的其它著作、同一主题的其它书籍、维基百科中的作者生平、亚马逊上的读者评论等等<br />
  28. 28. 于是你可以看到,应用了关联数据:<br />无需映射,每个流程用自己的元数据标注;<br />无数据冗余,每个流程只创建自己的部分数据;<br />无需收割,所有数据都“联邦”链接;<br />责任明确:哪个流程的元数据出问题,不会影响其它;<br />无需统一工作平台:以数据为中心,流到哪个平台就在哪个平台加工。<br />
  29. 29. 关联数据应用进展<br />
  30. 30. BBC:关联的媒体帝国<br />创立于1920年,电台业务开播于创立当天,并首次于1930 年播出电视节目。BBC目前有32种语言的国际服务,8个全国电视频道,1个高清频道,很多地方频道,10个国家电台,40多个地方电台。<br />1994年建立 了同行业最早的网站:bbc.co.uk。<br />所有这些历史,积累了难以想象的资料和素材,使它必须再次领先世界,建立最先进的语义媒体库:支持知识搜索,能够自动向机器提供服务。<br />作为广播电视公司,节目是它最大的资源。传统上,网站只是做节目推广。现在三网合一,可以用来发布、推送、组织和存档节目。BBC一直在寻求这样的技术,能够将BBC千万小时的节目及相关资源,组织成一个脑库,成为人类记忆的一部分。<br />
  31. 31. BBC:关联的媒体帝国<br />目前所有这些工作,都是手工而为。<br />节目量实在太大。BBC网站的工作很难满足所有节目信息发布的需要。每天总共有1000-1500档各类节目。<br />以频道和节目为两层管理的体制,相互之间就内容资源来说缺乏整合,需要横向的业务支撑部门。<br />所有的节目信息都是编辑独立上传,信息采集工作与业务流程不统一。如果要存档、编辑、多平台重用并保存所有的多媒体节目,重复的工作量巨大。<br />要揭示所有节目和相关内容的内在联系是一件不可能任务。<br />系统的灵活性和可扩展性很差,过期网页和死链接越来越多。<br />技 术的一个很大的问题是成本问题。很多IT公司跑来给BBC将它的问题不成问题,他们都可以解决,但是成本过于高昂。另一个原因是解决的模式不能融合到现有 的工作流程中去(最好是建立2.0的“众包”和“自产自销”机制),需要另外的人力和其它资源投入(本来这些人工可用于发展业务,这也是机会成本的损 失)。这两方面显然不是目前BBC的架构所能承担和解决的。<br />
  32. 32. BBC:关联的媒体帝国<br />网站和数据的可用性Usability大大增强;<br />用户体验得到巨大提升;<br />SEO效果明显,甚至可以到每个资源;<br />可查找性(Findability)(其实是查准率吧)、可点击性(clickability)和可传播性(tweetability)都获得很大提高;<br />整个网站是一个API平台,采用了RESTful发布,与Web无缝集成,保证了链接的永久性和数据的开放性;<br />系统各组成部分松散耦合,互相联系却互不干扰,整个系统成为一个不断增长的有机体。<br />
  33. 33. BBC:关联的媒体帝国<br />
  34. 34. 图书馆:关联数据的大本营<br />继2008年时瑞典国家图书馆系统(LIBRIS)将自己的书目数据开放为关联数据(libris.kb.se)之后,目前至少有以下五个国际、国家级的书目数据/规范数据开放了关联数据服务:<br />美国国会图书馆及其主题标目(LCSH)(id.loc.gov)<br />德国国家图书馆的联合权威档(GemeinsameNormdatei)(d-nb.info/gnd/)<br />法国国家图书馆(BnF)的RAMEAU主题标目(stitch.cs.vu.nl/rameau/)<br />OCLC的杜威分类法及国际虚拟权威档(VIAF)(dewey.info/和viaf.org/)<br />匈牙利国家图书馆的目录和叙词表(oszkdk.oszk.hu/resource/DRJ/404)<br />
  35. 35. 图书馆:关联数据的大本营<br />STW经济学叙词表(zbw.eu/stw)<br />社会科学叙词表(lod.gesis.org)<br />GEMET环境叙词表(eionet.europa.eu/gemet)<br />Agrovoc(联合国粮农组织叙词表)(aims.fao.org/)<br />纽约时报主题标目(data.nytimes.com/)<br />科学出版物词表(dblp.rkbexplorer.com)<br />
  36. 36. 2010年:图书馆关联数据元年<br />
  37. 37. 图书馆关联数据的应用<br />术语服务(注册体系)(DC元数据)<br />SKOS词汇发布为为关联数据(LCSH)<br />书目数据(包括规范记录)作为关联数据:瑞典国家联合目录等<br />其它规范知识体系的关联数据<br />FRBR之类的本体模型成为关联数据<br />
  38. 38. 使用Firefox插件Tabulator浏览Tim Burners-Lee的关联数据:http://www.w3.org/People/Berners-Lee/card<br />
  39. 39. 谢谢!<br />

×