数字环境下图书馆前沿问题研讨班华中科技大学  武汉  2009.7关联数据:意义及其实现Kevenlw@gmail.com数字图书馆研究所上海图书馆
内容什么是关联数据?关联数据四原则为什么要用关联数据?关联数据与数字图书馆有什么关系?关联数据应用举例如何实现关联数据?数据关联的知识产权问题
什么是关联数据?由Web的发明人Tim Berners-Lee提出;定义了一种URI规范,使得人们可以通过HTTP/URI机制,直接获得数字资源(Thing);A richer Linking mechanism for the Web that takes us from Hypertext Links (Document to Document) to Hyperdata Links (across things that documents are about)(一种Web上的富链接机制,将超文本链接(由文件指向文件)变为超数据链接(链接文件所代表的事物))关联数据是实现Data Web的关键技术。Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html
什么是RDF?RDF是一个语法独立的数据模型(不一定采用XML)可以以“主语-谓词-宾语”的三元组图形表示(A graph of triples)所有的资源和术语都有URI(资源的定义)空白节点(Blank node)是指没有全局ID的本地资源(没有定义命名域的URI,如ISBN, DOI)文本(Literal)指一个字串值(可以有类型以及语言属性)完整解释请参见http://www.rdfabout.com/以及http://www.w3.org/TR/rdf-primer/.
什么是关联数据?维基百科的定义:关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识( “a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.”)
什么是关联数据?通俗地说,关联数据是数据的一种发布方式,以URL的方式链接到一个数据对象,而不是一个文档。这个URL通常就是这个数据的URI,并且这个数据对象基本上是由RDF来描述的(这样才能保证数据具有语义),而且RDF文件中应该包含更多的由URI所标识的其它资源。
为什么叫关联数据?1、URI所表示的是数据,而不是文档;2、URI的数据资源以RDF形式表达,其中有指向更多数据的URI,也就是链接;3、RDF所表达的链接其实是有语义的,不是仅仅一个link而已,而是表明了当前资源与被链接资源的关系。
关联数据的四项基本原则:使用URI作为任何事物的标识名称,不仅是标识文档Use URIs as names for things使用HTTP URI,使任何人都可以参引(dereference)这一全局唯一的名称Use HTTP URIs so that people can look up those names当有人访问名称时,以RDF形式提供有用的信息When someone looks up a name, provide useful information尽可能提供链接,指向其它的URI,以使人们发现更多的相关信息Include links to other URIs so that they can discover more things
为什么要关联数据?(关联数据能够做什么?)
数据的Web与关联数据的关系来自:Alexandre Passant & Michael Hausenblas在 WWW09(Madrid, Spain 2009-04-20)上的演示“Hello Open World!”
什么是数据的Web信息资源对象越来越细小:从文献到数据;信息资源需要结构化,有序组织(于是有各类信息组织方式、语言);信息服务的标准化、自助化、自动化(于是各类私有的API和查询语言开始标准化);上述特征再次证明了互联网和图书馆的一致性
数据的Web的功能提供统一的数据模型 (RDF)提供统一的存取 API (RDF/SPARQL)提供一致的语义描述方法 (RDFS/OWL)提供可扩展的数据整合和混搭平台提供了富于想象力的数据利用空间
趋势:从开放应用程序接口到开放数据
机器可理解,人也可读。
关联数据使web数据访问具有了标准统一的APIlinkeddata.org/
关联数据与数字图书馆
图书馆 标准能胜任新工作吗?
图书馆关联数据的应用术语注册的简单实现(DC元数据)SKOS作为关联数据(LCSH)书目数据(包括规范记录)作为关联数据:瑞典国家联合目录各类实体的关联数据(FRBR三类实体)普遍存在的关联数据
举例
Slide © 2009, Thomson Reutersincluding Thomson Reuters
SIOC核心本体SIOC Ontology Specificationhttp://rdfs.org/sioc/spec/21
使用Firefox插件Tabulator浏览Tim Burners-Lee的关联数据:http://www.w3.org/People/Berners-Lee/card
如何实现关联数据?
关联数据URI发布方式Hash + datahttp 303 转向详细请参见How to publish Linked Data on the Web: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/(该文档已由华东师大研究生史亚光翻译,即将公开)
关联数据的发布方式(详细)URI中避免使用空白节点,避免具体化(reification),尽可能不使用RDF的集(Collection)和包(Container)内容协商(Negotiation), URI参引(dereferencing), CoolURI(也就是采用hash#和303转向方式指向资源)RDF链接, URI 别名本体/模式重用, 术语定义最佳实践在RDF描述中“必须包含”对该资源描述的内容封装非RDF的数据库或API, 使封闭世界的数据开放出来
关联数据的知识产权声明
无法适用X©数据及其服务的知识产权,无法适用版权保护声明。
没有合适的知识产权保护规范,不利于开放数据链接。http://id.loc.gov/authorities/about.html#aboutTOS
Open Data Commons开放数据共用(Open Data Commons)是一种开放数据的知识产权声明用以规范、约束、明确数据拥有着、发布者、使用者在获取、传播、利用、再生产数据时的权利和义务。是一个Open Knowledge基金会的项目2008年3月提出了第一种授权形式PDDL(Public Domain Dedication and License)定义:A piece of knowledge is open if you are free to use, reuse, and redistribute it (http://www.opendefinition.org/1.0/)
目前的两种形式Public Domain Dedication and License (PDDL) — “Public Domain for data/databases”Open Database License (ODbL) — “Share-Alike for data/databases”定义和内容都还在不断发展变化中中文版正在翻译,将在nkos.org中发布和维护。
关联协议Connected Commons包含两种形式:Open Data Commons Public Domain DedicationCreative Commons CC0 license 由Talis提出,为了使Talis作为一个开放数据的服务商,吸引更多的数据提供商,开拓其Web3.0和云计算(SaaS)服务关于OpenData Commons和CC,也已经请华东师大研究生李佳佳翻译,校对后即将公开。
展望
简单,可靠,灵活,松散耦合,富语义,自定义;关联数据正在成为语义网的杀手应用;链接无限,关联无限,语义无限;链接数据将无所不在;提供了进一步语义功能(包括推理)的一个基础平台,语义网将从这里起飞。
谢谢!

Linked data: What for and How to