关联数据Abc与近年进展

3,303 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
3,303
On SlideShare
0
From Embeds
0
Number of Embeds
1,272
Actions
Shares
0
Downloads
41
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

关联数据Abc与近年进展

  1. 1. 2010图书馆前沿技术论坛<br />关联数据与书目数据未来<br />2010.8.23 上海<br />关联数据ABC及两年来的应用进展<br />刘 炜<br />Kevenlw@gmail.com<br />
  2. 2. 内容<br />什么是URI,RDF?<br />什么是关联数据?<br />关联数据四原则<br />为什么要用关联数据?<br />关联数据应用进展<br />英国广播公司和纽约时报<br />图书馆界的应用进展概述<br />
  3. 3. 什么是URI?<br />URI: Universal Resource Identifiers<br />URI、URL、URN的关系<br />URL:HTTP URI<br />URN:DOI,ISBN,ISSN<br />CoolURI<br />OpenURL<br />http://virtuoso.openlinksw.com/images/generic_uri_syntax_image.png<br />
  4. 4.
  5. 5. Cool URI<br />习惯叫法,为保证RUI的稳定性,对URI命名提出的一些最佳实践要求。<br />只包含0-9,a-z, /, 文件名最后可用#,尽可能使用日期作为目录等等;<br />不用后缀名,交由Web服务器重定向;<br />……<br />
  6. 6. 什么是RDF?<br />RDF是一种元数据语言,简称为三元组模型<br />“主语-谓词-宾语”构成了基本(最小)逻辑单位<br />常见的是用XML表达的三元组,也可以用其它形式表示(如N3,N-triple甚至图示)<br />所有的资源都有URI(资源的定义)<br />空白节点(Blank node)是指没有全局ID的本地资源(没有定义命名域的URI,如ISBN, DOI)<br />文字(Literal)指一个字串值(可以有类型以及语言属性)<br />完整解释请参见http://www.rdfabout.com/以及http://www.w3.org/TR/rdf-primer/. <br />
  7. 7. RDF举例<br />http://www.w3.org/TR/rdf-concepts/fig6may19<br />
  8. 8. 什么是关联数据?<br />通俗地说,关联数据是任何有意义的数据在万维网上的一种发布方式<br />以HTTP URI(URL)的方式链接到一个数据对象,而不是一个文档<br />URI决定了数据的唯一性和“可关联”性,RDF确立了数据的语义。<br />RDF文件中应该包含更多的由URI所标识的其它资源,即尽可能不使用“blank nodes”。<br />
  9. 9. 什么是关联数据?<br />维基百科的定义:关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识( “a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.”)<br />
  10. 10. 什么是关联数据?<br />由Web的发明人Tim Berners-Lee提出;<br />定义了一种URI规范,使得人们可以通过HTTP/URI机制,直接获得数字资源(Thing);<br />“一种Web上的富链接机制,将超文本链接(文件之间的链接)转变为超数据链接(事物Thing之间的链接)<br />关联数据是实现Data Web的关键技术(Data Web与现在的文本Web相对应)。<br />Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html<br />
  11. 11. 为什么叫关联数据?<br />1、URI所表示的是数据,而不是文档;<br />2、URI的数据资源以RDF形式表达,其中有指向更多数据的URI,也就是链接;<br />3、RDF所表达的链接其实是有语义的,不是仅仅一个link而已,而是表明了当前资源与被链接资源的关系。<br />
  12. 12. 关联数据的四项基本原则:<br />使用URI作为任何事物的标识名称,不仅是标识文档<br />Use URIs as names for things<br />使用HTTP URI,使任何人都可以参引(dereference)这一全局唯一的名称<br />Use HTTP URIs so that people can look up those names<br />当有人访问名称时,以RDF形式提供有用的信息<br />When someone looks up a name, provide useful information<br />尽可能提供链接,指向其它的URI,以使人们发现更多的相关信息<br />Include links to other URIs so that they can discover more things<br />
  13. 13. 关联数据URI发布方式<br />通过以下两种方式,快递员不仅能找到你家的门牌号(URL作为URI),而且能把东西送到/取自你的客厅、厨房甚至卧室、卫生间:<br />Hash + data<br />http 303 转向(Negotiation)<br />通过扩展改造Web服务器的响应方式,达到上述目的<br />详细请参见How to publish Linked Data on the Web: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/<br />中文翻译:https://docs.google.com/View?id=ajjq7zprkrz8_0dfhmj8cs<br />
  14. 14. http://www.w3.org/TR/2008/NOTE-cooluris-20080331/img20080331/303.png<br />
  15. 15. 机器可理解,人也可读。<br />
  16. 16. 关联数据的发布方式(详细)<br />URI中避免使用空白节点,避免具体化(reification),尽可能不使用RDF的集(Collection)和包(Container)<br />采用内容协商(Negotiation), URI参引(dereferencing), CoolURI(也就是采用hash#和303转向方式指向资源)<br />鼓励RDF中链接, 可以用URI别名<br />鼓励本体/模式重用, 遵循术语定义的最佳实践<br />在RDF描述中“必须包含”对该资源描述的内容<br />封装非RDF的数据库或API, 使封闭世界的数据开放出来<br />
  17. 17. 为什么要关联数据?1、数据整合;2、赋予语义<br />
  18. 18. 数据整合:从开放API到开放数据<br />
  19. 19. 目标:数据Web<br />提供统一的数据模型 (RDF)<br />提供统一的存取 API (RDF/SPARQL)<br />提供一致的语义描述方法 (RDFS/OWL)<br />提供可扩展的数据整合和混搭平台<br />提供了富于想象力的数据利用空间<br />
  20. 20. Web“数据化”趋势<br />信息资源对象越来越细小:从文献到数据;<br />信息资源需要结构化,有序组织(于是有各类信息组织方式、语言);<br />信息服务的标准化、自助化、自动化(于是各类私有的API和查询语言开始标准化);<br />整个Web就是一个数据库。<br />
  21. 21. 关联数据使web数据访问具有了标准统一的API<br />linkeddata.org/<br />
  22. 22. 数据Web与关联数据的关系<br />来自:Alexandre Passant & Michael Hausenblas在 WWW09(Madrid, Spain 2009-04-20)上的演示“Hello Open World!”<br />
  23. 23. 图书馆关联数据示例<br />出版商提供某本书的原始数据<br />来自:法国国家图书馆 Bermes Emmanuelle<br />
  24. 24. 图书馆关联数据示例<br />国家图书馆添加书目信息和权威控制<br />来自:法国国家图书馆 Bermes Emmanuelle<br />
  25. 25. 图书馆关联数据示例<br />本地图书馆添加馆藏信息<br />来自:法国国家图书馆 Bermes Emmanuelle<br />
  26. 26. 图书馆关联数据示例<br />“群众”添加附加信息:维基百科的链接<br />来自:法国国家图书馆 Bermes Emmanuelle<br />
  27. 27. 图书馆关联数据示例<br />图书馆IT人员为所有这些与本书相关的信息生成页面和链接,如同一个作者的其它著作、同一主题的其它书籍、维基百科中的作者生平、亚马逊上的读者评论等等<br />
  28. 28. 于是你可以看到,应用了关联数据:<br />无需映射,每个流程用自己的元数据标注;<br />无数据冗余,每个流程只创建自己的部分数据;<br />无需收割,所有数据都“联邦”链接;<br />责任明确:哪个流程的元数据出问题,不会影响其它;<br />无需统一工作平台:以数据为中心,流到哪个平台就在哪个平台加工。<br />
  29. 29. 关联数据应用进展<br />
  30. 30. BBC:关联的媒体帝国<br />创立于1920年,电台业务开播于创立当天,并首次于1930 年播出电视节目。BBC目前有32种语言的国际服务,8个全国电视频道,1个高清频道,很多地方频道,10个国家电台,40多个地方电台。<br />1994年建立 了同行业最早的网站:bbc.co.uk。<br />所有这些历史,积累了难以想象的资料和素材,使它必须再次领先世界,建立最先进的语义媒体库:支持知识搜索,能够自动向机器提供服务。<br />作为广播电视公司,节目是它最大的资源。传统上,网站只是做节目推广。现在三网合一,可以用来发布、推送、组织和存档节目。BBC一直在寻求这样的技术,能够将BBC千万小时的节目及相关资源,组织成一个脑库,成为人类记忆的一部分。<br />
  31. 31. BBC:关联的媒体帝国<br />目前所有这些工作,都是手工而为。<br />节目量实在太大。BBC网站的工作很难满足所有节目信息发布的需要。每天总共有1000-1500档各类节目。<br />以频道和节目为两层管理的体制,相互之间就内容资源来说缺乏整合,需要横向的业务支撑部门。<br />所有的节目信息都是编辑独立上传,信息采集工作与业务流程不统一。如果要存档、编辑、多平台重用并保存所有的多媒体节目,重复的工作量巨大。<br />要揭示所有节目和相关内容的内在联系是一件不可能任务。<br />系统的灵活性和可扩展性很差,过期网页和死链接越来越多。<br />技 术的一个很大的问题是成本问题。很多IT公司跑来给BBC将它的问题不成问题,他们都可以解决,但是成本过于高昂。另一个原因是解决的模式不能融合到现有 的工作流程中去(最好是建立2.0的“众包”和“自产自销”机制),需要另外的人力和其它资源投入(本来这些人工可用于发展业务,这也是机会成本的损 失)。这两方面显然不是目前BBC的架构所能承担和解决的。<br />
  32. 32. BBC:关联的媒体帝国<br />网站和数据的可用性Usability大大增强;<br />用户体验得到巨大提升;<br />SEO效果明显,甚至可以到每个资源;<br />可查找性(Findability)(其实是查准率吧)、可点击性(clickability)和可传播性(tweetability)都获得很大提高;<br />整个网站是一个API平台,采用了RESTful发布,与Web无缝集成,保证了链接的永久性和数据的开放性;<br />系统各组成部分松散耦合,互相联系却互不干扰,整个系统成为一个不断增长的有机体。<br />
  33. 33. BBC:关联的媒体帝国<br />
  34. 34. 图书馆:关联数据的大本营<br />继2008年时瑞典国家图书馆系统(LIBRIS)将自己的书目数据开放为关联数据(libris.kb.se)之后,目前至少有以下五个国际、国家级的书目数据/规范数据开放了关联数据服务:<br />美国国会图书馆及其主题标目(LCSH)(id.loc.gov)<br />德国国家图书馆的联合权威档(GemeinsameNormdatei)(d-nb.info/gnd/)<br />法国国家图书馆(BnF)的RAMEAU主题标目(stitch.cs.vu.nl/rameau/)<br />OCLC的杜威分类法及国际虚拟权威档(VIAF)(dewey.info/和viaf.org/)<br />匈牙利国家图书馆的目录和叙词表(oszkdk.oszk.hu/resource/DRJ/404)<br />
  35. 35. 图书馆:关联数据的大本营<br />STW经济学叙词表(zbw.eu/stw)<br />社会科学叙词表(lod.gesis.org)<br />GEMET环境叙词表(eionet.europa.eu/gemet)<br />Agrovoc(联合国粮农组织叙词表)(aims.fao.org/)<br />纽约时报主题标目(data.nytimes.com/)<br />科学出版物词表(dblp.rkbexplorer.com)<br />
  36. 36. 2010年:图书馆关联数据元年<br />
  37. 37. 图书馆关联数据的应用<br />术语服务(注册体系)(DC元数据)<br />SKOS词汇发布为为关联数据(LCSH)<br />书目数据(包括规范记录)作为关联数据:瑞典国家联合目录等<br />其它规范知识体系的关联数据<br />FRBR之类的本体模型成为关联数据<br />
  38. 38. 使用Firefox插件Tabulator浏览Tim Burners-Lee的关联数据:http://www.w3.org/People/Berners-Lee/card<br />
  39. 39. 谢谢!<br />

×