• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
关联数据Abc与近年进展
 

关联数据Abc与近年进展

on

  • 2,847 views

 

Statistics

Views

Total Views
2,847
Views on SlideShare
1,720
Embed Views
1,127

Actions

Likes
0
Downloads
36
Comments
0

5 Embeds 1,127

http://libraryview.wordpress.com 812
http://libraryview.me 307
http://librarysalon.com 5
http://www.librarysalon.com 2
http://webcache.googleusercontent.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial LicenseCC Attribution-NonCommercial License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    关联数据Abc与近年进展 关联数据Abc与近年进展 Presentation Transcript

    • 2010图书馆前沿技术论坛
      关联数据与书目数据未来
      2010.8.23 上海
      关联数据ABC及两年来的应用进展
      刘 炜
      Kevenlw@gmail.com
    • 内容
      什么是URI,RDF?
      什么是关联数据?
      关联数据四原则
      为什么要用关联数据?
      关联数据应用进展
      英国广播公司和纽约时报
      图书馆界的应用进展概述
    • 什么是URI?
      URI: Universal Resource Identifiers
      URI、URL、URN的关系
      URL:HTTP URI
      URN:DOI,ISBN,ISSN
      CoolURI
      OpenURL
      http://virtuoso.openlinksw.com/images/generic_uri_syntax_image.png
    • Cool URI
      习惯叫法,为保证RUI的稳定性,对URI命名提出的一些最佳实践要求。
      只包含0-9,a-z, /, 文件名最后可用#,尽可能使用日期作为目录等等;
      不用后缀名,交由Web服务器重定向;
      ……
    • 什么是RDF?
      RDF是一种元数据语言,简称为三元组模型
      “主语-谓词-宾语”构成了基本(最小)逻辑单位
      常见的是用XML表达的三元组,也可以用其它形式表示(如N3,N-triple甚至图示)
      所有的资源都有URI(资源的定义)
      空白节点(Blank node)是指没有全局ID的本地资源(没有定义命名域的URI,如ISBN, DOI)
      文字(Literal)指一个字串值(可以有类型以及语言属性)
      完整解释请参见http://www.rdfabout.com/以及http://www.w3.org/TR/rdf-primer/.
    • RDF举例
      http://www.w3.org/TR/rdf-concepts/fig6may19
    • 什么是关联数据?
      通俗地说,关联数据是任何有意义的数据在万维网上的一种发布方式
      以HTTP URI(URL)的方式链接到一个数据对象,而不是一个文档
      URI决定了数据的唯一性和“可关联”性,RDF确立了数据的语义。
      RDF文件中应该包含更多的由URI所标识的其它资源,即尽可能不使用“blank nodes”。
    • 什么是关联数据?
      维基百科的定义:关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识( “a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.”)
    • 什么是关联数据?
      由Web的发明人Tim Berners-Lee提出;
      定义了一种URI规范,使得人们可以通过HTTP/URI机制,直接获得数字资源(Thing);
      “一种Web上的富链接机制,将超文本链接(文件之间的链接)转变为超数据链接(事物Thing之间的链接)
      关联数据是实现Data Web的关键技术(Data Web与现在的文本Web相对应)。
      Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html
    • 为什么叫关联数据?
      1、URI所表示的是数据,而不是文档;
      2、URI的数据资源以RDF形式表达,其中有指向更多数据的URI,也就是链接;
      3、RDF所表达的链接其实是有语义的,不是仅仅一个link而已,而是表明了当前资源与被链接资源的关系。
    • 关联数据的四项基本原则:
      使用URI作为任何事物的标识名称,不仅是标识文档
      Use URIs as names for things
      使用HTTP URI,使任何人都可以参引(dereference)这一全局唯一的名称
      Use HTTP URIs so that people can look up those names
      当有人访问名称时,以RDF形式提供有用的信息
      When someone looks up a name, provide useful information
      尽可能提供链接,指向其它的URI,以使人们发现更多的相关信息
      Include links to other URIs so that they can discover more things
    • 关联数据URI发布方式
      通过以下两种方式,快递员不仅能找到你家的门牌号(URL作为URI),而且能把东西送到/取自你的客厅、厨房甚至卧室、卫生间:
      Hash + data
      http 303 转向(Negotiation)
      通过扩展改造Web服务器的响应方式,达到上述目的
      详细请参见How to publish Linked Data on the Web: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
      中文翻译:https://docs.google.com/View?id=ajjq7zprkrz8_0dfhmj8cs
    • http://www.w3.org/TR/2008/NOTE-cooluris-20080331/img20080331/303.png
    • 机器可理解,人也可读。
    • 关联数据的发布方式(详细)
      URI中避免使用空白节点,避免具体化(reification),尽可能不使用RDF的集(Collection)和包(Container)
      采用内容协商(Negotiation), URI参引(dereferencing), CoolURI(也就是采用hash#和303转向方式指向资源)
      鼓励RDF中链接, 可以用URI别名
      鼓励本体/模式重用, 遵循术语定义的最佳实践
      在RDF描述中“必须包含”对该资源描述的内容
      封装非RDF的数据库或API, 使封闭世界的数据开放出来
    • 为什么要关联数据?1、数据整合;2、赋予语义
    • 数据整合:从开放API到开放数据
    • 目标:数据Web
      提供统一的数据模型 (RDF)
      提供统一的存取 API (RDF/SPARQL)
      提供一致的语义描述方法 (RDFS/OWL)
      提供可扩展的数据整合和混搭平台
      提供了富于想象力的数据利用空间
    • Web“数据化”趋势
      信息资源对象越来越细小:从文献到数据;
      信息资源需要结构化,有序组织(于是有各类信息组织方式、语言);
      信息服务的标准化、自助化、自动化(于是各类私有的API和查询语言开始标准化);
      整个Web就是一个数据库。
    • 关联数据使web数据访问具有了标准统一的API
      linkeddata.org/
    • 数据Web与关联数据的关系
      来自:Alexandre Passant & Michael Hausenblas在 WWW09(Madrid, Spain 2009-04-20)上的演示“Hello Open World!”
    • 图书馆关联数据示例
      出版商提供某本书的原始数据
      来自:法国国家图书馆 Bermes Emmanuelle
    • 图书馆关联数据示例
      国家图书馆添加书目信息和权威控制
      来自:法国国家图书馆 Bermes Emmanuelle
    • 图书馆关联数据示例
      本地图书馆添加馆藏信息
      来自:法国国家图书馆 Bermes Emmanuelle
    • 图书馆关联数据示例
      “群众”添加附加信息:维基百科的链接
      来自:法国国家图书馆 Bermes Emmanuelle
    • 图书馆关联数据示例
      图书馆IT人员为所有这些与本书相关的信息生成页面和链接,如同一个作者的其它著作、同一主题的其它书籍、维基百科中的作者生平、亚马逊上的读者评论等等
    • 于是你可以看到,应用了关联数据:
      无需映射,每个流程用自己的元数据标注;
      无数据冗余,每个流程只创建自己的部分数据;
      无需收割,所有数据都“联邦”链接;
      责任明确:哪个流程的元数据出问题,不会影响其它;
      无需统一工作平台:以数据为中心,流到哪个平台就在哪个平台加工。
    • 关联数据应用进展
    • BBC:关联的媒体帝国
      创立于1920年,电台业务开播于创立当天,并首次于1930 年播出电视节目。BBC目前有32种语言的国际服务,8个全国电视频道,1个高清频道,很多地方频道,10个国家电台,40多个地方电台。
      1994年建立 了同行业最早的网站:bbc.co.uk。
      所有这些历史,积累了难以想象的资料和素材,使它必须再次领先世界,建立最先进的语义媒体库:支持知识搜索,能够自动向机器提供服务。
      作为广播电视公司,节目是它最大的资源。传统上,网站只是做节目推广。现在三网合一,可以用来发布、推送、组织和存档节目。BBC一直在寻求这样的技术,能够将BBC千万小时的节目及相关资源,组织成一个脑库,成为人类记忆的一部分。
    • BBC:关联的媒体帝国
      目前所有这些工作,都是手工而为。
      节目量实在太大。BBC网站的工作很难满足所有节目信息发布的需要。每天总共有1000-1500档各类节目。
      以频道和节目为两层管理的体制,相互之间就内容资源来说缺乏整合,需要横向的业务支撑部门。
      所有的节目信息都是编辑独立上传,信息采集工作与业务流程不统一。如果要存档、编辑、多平台重用并保存所有的多媒体节目,重复的工作量巨大。
      要揭示所有节目和相关内容的内在联系是一件不可能任务。
      系统的灵活性和可扩展性很差,过期网页和死链接越来越多。
      技 术的一个很大的问题是成本问题。很多IT公司跑来给BBC将它的问题不成问题,他们都可以解决,但是成本过于高昂。另一个原因是解决的模式不能融合到现有 的工作流程中去(最好是建立2.0的“众包”和“自产自销”机制),需要另外的人力和其它资源投入(本来这些人工可用于发展业务,这也是机会成本的损 失)。这两方面显然不是目前BBC的架构所能承担和解决的。
    • BBC:关联的媒体帝国
      网站和数据的可用性Usability大大增强;
      用户体验得到巨大提升;
      SEO效果明显,甚至可以到每个资源;
      可查找性(Findability)(其实是查准率吧)、可点击性(clickability)和可传播性(tweetability)都获得很大提高;
      整个网站是一个API平台,采用了RESTful发布,与Web无缝集成,保证了链接的永久性和数据的开放性;
      系统各组成部分松散耦合,互相联系却互不干扰,整个系统成为一个不断增长的有机体。
    • BBC:关联的媒体帝国
    • 图书馆:关联数据的大本营
      继2008年时瑞典国家图书馆系统(LIBRIS)将自己的书目数据开放为关联数据(libris.kb.se)之后,目前至少有以下五个国际、国家级的书目数据/规范数据开放了关联数据服务:
      美国国会图书馆及其主题标目(LCSH)(id.loc.gov)
      德国国家图书馆的联合权威档(GemeinsameNormdatei)(d-nb.info/gnd/)
      法国国家图书馆(BnF)的RAMEAU主题标目(stitch.cs.vu.nl/rameau/)
      OCLC的杜威分类法及国际虚拟权威档(VIAF)(dewey.info/和viaf.org/)
      匈牙利国家图书馆的目录和叙词表(oszkdk.oszk.hu/resource/DRJ/404)
    • 图书馆:关联数据的大本营
      STW经济学叙词表(zbw.eu/stw)
      社会科学叙词表(lod.gesis.org)
      GEMET环境叙词表(eionet.europa.eu/gemet)
      Agrovoc(联合国粮农组织叙词表)(aims.fao.org/)
      纽约时报主题标目(data.nytimes.com/)
      科学出版物词表(dblp.rkbexplorer.com)
    • 2010年:图书馆关联数据元年
    • 图书馆关联数据的应用
      术语服务(注册体系)(DC元数据)
      SKOS词汇发布为为关联数据(LCSH)
      书目数据(包括规范记录)作为关联数据:瑞典国家联合目录等
      其它规范知识体系的关联数据
      FRBR之类的本体模型成为关联数据
    • 使用Firefox插件Tabulator浏览Tim Burners-Lee的关联数据:http://www.w3.org/People/Berners-Lee/card
    • 谢谢!