Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

3,825 views

Published on

Presentation in Chinese on: Understanding and Using Linked Data – Libraries, Archives, and Museums (LAM) as the contributors and consumers of Linked Data

Published in: Technology
  • Be the first to comment

理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

  1. 1. 理解和利用关联数据--图情档博 ( LAM )作为关联数据的提供者和消费者Marcia Lei Zeng 曾蕾Kent State University 关联数据技术与应用专题研讨班 2012.07.20-23, 上海图书馆
  2. 2. 大纲: 12345• 1 个目的• 2 种要回答的问题• 3 段式 triples• 4 项基本原则• 5 星排行• +“关联”的不同层次
  3. 3. 11 个目的:关联
  4. 4. 1 个目的:关联 将数据从 silo 中解放出来,通过关联得到最大 利用,再利用,产生新的数据、信息、知识Image: Slide from T.B.Lee at TED 2009 conference, "The Great Unveiling" in Long Beach, CA. USA, 4, Feb 2009
  5. 5. 2这个 thing 是什 需要回答的 2 种问题 么?(属性 - 值) 这个 thing 和别 的 thing 有什么 关系?
  6. 6. 3 这 2 种问题的答案这个 thing 是什 么? 都可以用 3 段式( triples )来描述(属性 - 值) [属性] [值] 名字: 姚明 @zh 名字: Yao Ming@en 出生日期: 1980 - 09 - 12 身高: 7 6" (2.29 m) 效力球队: 上海大鲨鱼 效力球队: 休斯顿火箭 出身地: 上海 退役时间: 2011 - 07 - 20 获奖: 。。。 。。。RDF triples: 参赛: 。。。 。。主体 - 谓词 - 客体( subject-predicate-object )结 。
  7. 7. 这里面有多少 是独立的 thing ? ( 有自己的属 性) [属性] [值] 名字: 姚明 @zh 名字: Yao Ming@en 出生日期: 1980 - 09 - 12 身高: 7 6" (2.29 m) 效力球队: 上海大鲨鱼这个 thing 和别 效力球队: 休斯顿火箭的 thing 有什么 出身地: 上海 关系? 退役时间: 2011 - 07 - 20 获奖: NBA All-Star 奖牌: 2002 亚运会银牌
  8. 8. 如果我们将能独立的 thing 都用特定的 ID 来表示,就可以产生无歧义的 3 段式 ex:yaomingex:yaoming [属性] [值] label: 姚明 名字: 姚明 @zh 名字: Yao Ming@en ex:yaomingex:yaoming ex:yaoming 出生日期: 1980 - 09 - 12 draftTeam: ex:htrockets 身高: 7 6" (2.29 m) 效力球队: ex : 上海大鲨鱼 效力球队: shshark 休斯顿火箭 ex : htrocketsex:yaoming ex:yaoming birthPlace: ex:shanghai 出身地: 上海 ex : shanghai 退役时间: 2011 - 07 - 20ex:yaoming ex:yaoming 获奖: NBA All-Star ex : award: ex:NBA_AllStar 奖牌: 2002 亚运会银牌 NBA_AllStar RDF triples: 主体 - 谓词 - 客体( subject-predicate-object )结构
  9. 9. 一个 3 段式能回答什么问题? ex:yaomingex:yaoming 这个人叫什么名字? label: ? ex:yaomingex:yaoming 这个人与休斯顿火箭队是什么关系? ? ex:htrockets ??ex:yaoming 上海是哪些[名]人的出身地? ?birthPlace: ex:shanghai ??ex:yaoming NBA All Star 的名单上都有哪些人? ? award: ex:NBA_AllStar
  10. 10. 3 段式中的客体部分 也能变为主体么? ex : 能由之再产生新的 3 段式么?ex:yaoming yaoming label: ? ex :ex:yaoming yaoming ? ex:htrockets 关于上海这个城市,你能想 到的属性和值有哪些? ??ex:yaoming ?birthPlace: ex:shanghai ?? 其中又有哪些客体是可以辨ex:yaoming ? award: ex:NBA_AllStar 识的 thing ?
  11. 11. 图示 1. thing 的描述和无限联接 1 2 3 predicates objects 1 2 3 subjects predicates objects subjectsBackgroud image borrowed from Andrea Kosavic: The Semantic Web, (some of) what you needto know. OLA Superconference 2009.01.30. Compiled by mzeng 2009-03-06. 17
  12. 12. 图示 2. 联接的内容是来自不同资源的 注意: •是格式化数据的相联,不是文本的相联; •是机器可理解和可处理的数据; •是对现有数据的再利用;Image source: Dan Brickley •产生新的资源;其又被利用、再利用 •可无限扩展下去http://farm4.static.flickr.com/3613/3384528143_8304792836_b.jpg
  13. 13. 4 4 项基本原则将这个实例放到 4 项基本原则来看
  14. 14. 四项基本原则:1. 使用 URI 作为任何事物的标识名称 – Use URIs as names for things1. 使用 HTTP URI 使任何人都可以访问名称 – Use HTTP URIs so that people can look up those names1. 当有人访问名称时,提供有用的 [rdf] 信息 – When someone looks up a name, provide useful information1. 尽可能提供相关的 URI 以使人们发现更多的信息 – Include links to other URIs so that they can discover more things http://www.w3.org/DesignIssues/LinkedData.html Translated by Liu Wei, 2008 12
  15. 15. 1 1. 使用 URI 作为任何事 物的标识名称 2. 使用 HTTP URI 使任何 人都可以访问名称2 3 3. 当有人访问名称时, 提供有用的 [rdf] 信息 4. 尽可能提供相关的 URI 以使人们发现更多 的信息 Source: dbpedia
  16. 16. RDF triples 取出其中一截,其结构是: is president of http://dbpedia.org/page/ http://dbpedia.org/page/Yao_Ming Shanghai_Sharks 2 1 properties 3 values thing 1<RDF:RDF> <RDF:Description RDF:HREF=”http://dbpedia.org/page/Yao_Ming”>2 < dbpprop:president rdf:resource= "http://dbpedia.org/page/Shanghai_Sharks"> 3</RDF:Description></RDF:RDF> 机器可理解、可处理
  17. 17. 只要遵循有 URI 命名, HTTP 途径,凡是有可能的地方对联接的 properties 合理管理,则可以被考虑为关联数据。•这是一种为 Web 所用的含义更丰富的联结方式,使我们从超文本链接(文献到文献)发展到超数据的联结(文献中所讨论的内容资源( thing) 的联结) ;•人们可以通过 HTTP/URI 机制,直接获得数字资源(Thing) 。 Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html 参考刘炜 2008-12 的翻译
  18. 18. 相对于传统的图书馆数据来说, 关联的图书馆数据有如下优点• Shareable 可分享 – 不管谁都能解析的唯一标识- URI – 可信赖的数据和元数据供大家使用• Extensible 可无限伸展 – “ 无边无际的世界” - 没有什么描述是完成了的,任何人都可以从 他自己发布的空间添加描述信息• Re-usable 可再利用 – 各种来源的描述谈的是同样的 thing – 完善、加注、等等• Internationalizable 国际化 – 多语种、翻译等都没有问题 – 自然语言词串( strings )不被用来指代 things 。 This slide is based on a summary prepared by Antoine Isaac, for Talis Linked Data and Libraries day, London, July 14th 2011; built on the W3C Library Linked Data Incubator Group Final Report, draft
  19. 19. 5 5 星排行表Image source: http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006
  20. 20. 李爵士在提出关联数据时借用过这样一个五星排行表:From InkDroid, a nice summary (and CSS) of the star scheme ★ make your stuff available on the web (whatever format) 把你的东西发布在网上(以任何格式) ★★ make it available as structured data (e.g. excel instead of image scan of a table) 把你的东西变成有结构的数据 ( excel 格式的表格而不是扫描的 图像) ★★★ non-proprietary format (e.g. csv instead of excel) 非商家格式,(如 csv 而不是 excel ) ★★★★ use URLs to identify things, so that people can point at your stuff 用 URLs 来指代和辨识事物,这样别人就能指点到你的东西 ★★★★★ link your data to other people’s data to provide context 将 你的数据联到其他人的 数据 -- http://www.w3.org/DesignIssues/LinkedData.html. TBL, 200608/14/12 20
  21. 21. 用五星排行表理解网上有很多数据资源和知识组织系 ★ 与 LAM 有关的资源统•网上开放 ★★•机器可读 ★★★•非专属权格式(html, xml) 越来越多 4 星级的数据集和知识组织 系统 ★★★★ • 采用了 RDF 标准 • 用 URI 指代名称 • 数据用三段式 triples 发布 其中仅有一部分达到 5 星 •关联的 RDF ★★★★★
  22. 22. 当前主要关联数据资源 (根据 2012 年 7 月 16 日数据) 越来越多 4 星级的数据集、知识组织 系统 ★★★★ • 采用了 RDF 标准 • 用 URI 指代名称 • 数据用三段式 triples 发布CKAN = Comprehensive Knowledge Archive Network
  23. 23. CKAN 关联数据中心 CKAN - the Data Hub ( 共有 3880 datasets ) •其中最有名的一个组是关联的开放数据 LOD 云组, 云图 中现含 295 个数据集 http://ckan.net/group/lodcloud 实际 上该组已有 327 个。 •其它几十个组见 : http://ckan.net/group. 一个数据集可以 注册到多个组,其中有些数据集也上了 LOD 云。 • 图书馆关联数据组 http://ckan.net/group/lld (现 含 57 个数据集,大多数联接都是与非图书馆数据 的联接) • 文献书目数据组 : (现含 77 个数据集) • 艺术、气象数据、实验数据、考古、经济、能源数据、 地理、语言、国际发展数据、政府数据(加拿大、澳大 利亚、英国等)。有些在试验阶段,有些还不开放。 •数据集的发行格式(可获取格式):LOD Cloud group CSV | RDF | XML | XBRL | SDMX | HTML+RDFa | 其它327 datasets
  24. 24. Linking Open Data ( LOD ) 数据集云图 (as of 2011-09, dataset: 295) ; 实际组里已有 327 入云要求: •可解的 http URIs 媒 •数据可解为常用 RDF 体 出 格式 (RDFa, RDF/XML, Turtle, 版 N-Triples). 物 •至少有 1000 条 triples (所以你的 政 FOAF 文档不行) 府 •必须通过 RDF 与本图 中一个数据集相联(含 其它数据集来的 URIs ,反之亦然。至 生 少 50 条联接) 跨 地 命 •必须能通过 RDF 专 理 科 crawling, RDF dump, 业 或 SPARQL endpoint 学 得到整个数据集的数据 Linking Open Data cloud diagram by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
  25. 25. “ 关联”的不同层次
  26. 26. “ 关联”是有不同层次的,从简单到复杂 -- 以值词汇 (value vocabularies) 为例 相联的各类 用结构化的同指 ‘ 关于’相似的主题 RDF 图表 达 类 References: Linked Data: Evolving the Web into a Global Data Space, by Tom Heath and Christian Bizer. Linked Data FAQ, by Structured Dynamics. http://structureddynamics.com/linked_data.html#question_8
  27. 27. • 用 owl:sameAs 来表达同一性联接 (identity links ) 两个数据资源指的是具有同一性的一种实体( entity )或 者个体( instance (individual) 。 如:你和我提到的是同一种实体或者个体(个人、事 件、物体等),尽管名称不同。• 同一性联接 指向另一资源所采用的 URI • 辨识同样的真实世界的物体 • 或者辨识相同的抽象概念 客户端可以从另一资源中检索到更多的描述。
  28. 28. 纽约时报词表里‘苹果公司’的概念 =》 纽约时报‘苹果公司’专业专栏
  29. 29. 纽约时报 . co m / data.n ytimes 2 http:// 0235787585 27 614530 http://www.freebase.com/view/en/apple_inc ycA cN5Y29 wpEbGdr x4rvVjfjp / co ncept/M Freebase ncyc.org http:/ /sw.ope CYC 本体 http://ww w4.wiwis berlin.de/ s.fu- flickrwrap ple_Inc. pr/photos dbpedia /Ap _Inc. e /Apple esourc a.org/r dbpedihttp:// dbpedia 图像
  30. 30. 练习:艺术家徐冰 (1)如果:•艺术资源库 ARTstor 的艺术作品数据里有“艺术家为”: “Xu Bing (Chinese installation artist, born 1955)” ( ID: 500125592@ulan )•另外一个数据集采用了中国国家图书馆的规范数据, “徐冰 ( 版画家 , 1955~)” ( ID: 000190318@nlc )•这两个数据集里关于这个艺术家的数据都指的是同一个人则: 可以用一个 identify link 来表达这两个是同指一人。请你写下来 哪个对? [ 1 ] Xu Bing (Chinese installation artist, born 1955) owl:sameAs 徐冰 ( 版画家 , 1955~) [ 2 ] 500125592@ulan owl:sameAs 000190318@nlc
  31. 31. 练习:艺术家徐冰 (2)很多数据都与 dbpedia 和 freebase 相联,徐冰的同样,不管谁有徐冰的数据都可以继续联接:• dbpedia 的:{ http://dbpedia.org/page/Xu_Bing }• Freebase 的{ http://www.freebase.com/view/en/xu_bing }这四个代号指代的 thing 是同一个,可以用 owl : sameAs 来联: http://dbpedia.org/page/Xu_Bing owl:sameAs: http://www.freebase.com/view/en/xu_bing ; owl:sameAs: {http://..... 500125592@ulan} ; owl:sameAs:{http://... 000190318@nlc}}.在 LOD 云里很多数据都指向 dbpedia ,其联接大多是 owl:sameAs ,而且是个体。
  32. 32. 相联的各类 用结构化的同指 ‘ 关于’相似的主题 RDF 图表 达 类
  33. 33. ‘ 关于’相似的主题或概念• 在这种情况下,重点在于关联有关相似的主题或 概念的数据资源• 通常采用被定义好了的类( classes )和概念,例 如在本体中定义的类、分类法类目、词表系统里 的概念
  34. 34. Xu Bing:BackgroundStory 7徐冰《背后的故事: 7 》British Museum, 2011大英博物馆, 2011Image source: An installation by Xu Bing:Background Story 7By British Museum (Albums)http://www.facebook.com/media/set/?set=a.10150184112629723.318031.72228529722
  35. 35. Image source: An installation by Xu Bing:Background Story 7By British Museum (Albums)http://www.facebook.com/media/set/?set=a.10150184112629723.318031.72228529722
  36. 36. ‘about’ similar concepts 建筑与艺 术词表 (通常为 博物馆所 用) 国会标题表 LCSH concept: sh85066731@lcsh subject heading: 通常在图书馆 “Installations (Art)” 目录中用在 AAT 和 LCSH 中,装置艺术的概念都得到完整的定义,有注解,不同名称,语义关系,资料来源等。但是二者不完全一样,只能算‘相似’,不能用‘ sameAs’
  37. 37. 这几个词表的 {installations (visual works)} 概念 可以用 skos : closeMatch 来关联 Concept from NDL is connected via 采用了这些概念描述的文献和物件 skosxl:altLabel 得以通过相似概念而关联 to LCSHs label sh85066731 clo @lcsh seM atc h skos:prefLabel: Installations (Art)@en Cb121017792@ rameau 01159407@n 美国国会标题表 dl skos:prefLabel: Installations (Art)@fr h skos:prefLabel: FRBNF121017790@x-notation at cxl:prefLabel: seMインスタレーション ( インスタレーション )@ja clo xl:altLabel:Installations (Art) 法国国家图书馆 的标题表 4131808- 0@swd 日本国家 Diet 图书馆 标题表 skos:prefLabel: Installation <Kunst> @de 德国国家图书馆 的主题词汇 ‘about’ similar concepts
  38. 38. 相联的各类 用结构化的同指 ‘ 关于’相似的主题 RDF 图表 达 类
  39. 39. • 比个体的联 接更上一层 的,是将类 用结构化的 RDF 表达 ‘ 类 ’ 或概念 ( Classes ) 或概念用 SKOS 做成结 构化的 RDF source: extracted from id.loc.gov/authorities/subjects/sh85066731
  40. 40. :sh85066731 prefLabel Installations (Art)•RDF 图的结构能 bro表征概念之间的关 note "……" ad系 er sh85007805 bro•其中有些固定的 Art, Modern--20th century a de可联接的节点, "……" r通过它们能将四 related narr处分散的数据系 sh85044164 o在一起 we r Environment (Art) Environment (Art) "……" "……" sh2001001631 Site-specific installations (Art) " ……" " ……"
  41. 41. 知识组织系统里定义的概念能够起到‘汇合点’的作用, 令分散的资源很容易地通过已发布的三段式用 URI 来关联起来Slide from Tom Baker "The concepts of knowledge organization systems as hubs in the Web of data". UDC 2011 Seminar. http://seminar.udcc.org/2011/index.htm
  42. 42. schema.org 定义了无数的类、属性,而且还在增加
  43. 43. Image source: Dan Brickley. http://philarcher.org/inc/showImage.php?src=/diary/2012/danbri/schema.org.png&float=0&w=689&h=524
  44. 44. 相联的各类 用结构化的同指 ‘ 关于’相似的主题 RDF 图表 达 类
  45. 45. 超出那些 RDF 中的固定点,则是通过概念结构(例如揭示概念类之间语义关系的本体)来将各种类型的 things 相互关联起来。这不仅仅是发布自己的数据,而是产生新的信息和知识。通过 RDF 可以联通涉及到的人物、地点、事物、组织、事件、统计资料、基因、理论、思想等) Image source: Open Knowledge Foundation. http://okfn.org/
  46. 46. 例 1 : Freebase 查 Xu Bing Freebase example 根据多种属性(谓 词)将个人的有关 信息进行显示 根据所获奖励 这个属性显示 其他获奖者source: 由此可关联历freebase 年所有获奖者
  47. 47. 例: Freebase MacArthur 奖获得者 根据多种属性(谓 词)对获奖者有选 择性的显示 获奖者概况统一显示source:freebase
  48. 48. 获奖者概况表格形式显示 获奖者概况的时间隧道形式显示source:freebase
  49. 49. 案例 1 方法小结• 定义本体 (schema.org 前身 )• 从维基百科抓取结构化数据• 发动群众(注册了的机构和个人)完善数据• 通过各种界面显示数据 source: freebase
  50. 50. 通过本体结构、采用 RDF 关联所有涉及到的例 2 :美国国内战争 150 周年项目 人物、地点、队伍、伤亡、物品 (如旗 帜)、组织、事件 ( 战役)、统计资料、个 人档案等。 注意: •是格式化数据的相联,不是文本的相联; •是机器可理解和可处理的数据; •是对现有数据的再利用; •产生新的资源;其又被利用、再利用 •可无限扩展下去 [1] Use case: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Civil_War_Data_150 [2] About page source: http://www.civilwardata150.net/
  51. 51. 案例 2 方法小结• 搜集原始资料(来源于联邦、州、地方 LAM 、政府机构、 开放数字 化学术著作、多种媒体等),做成结构化数据• 利用 dbpedia 等资源,集中一些数据• 定义本体(类,子类,以及各类的属性)• 在已有资源基础上完善名称和主题规范词汇• 通过关联数据来组织这些过去分散的研究和历史资料。• 对数据进行组织、利用 (例如,自动 tweet 战役和伤亡)Image Source:http://www.civilwardata150.net/category/applications/
  52. 52. 例 3 :哲学史图示 ( simonraper 6 月 13 日贴) 围绕历代哲学 柏拉 家间的影响、 图亚里士 传承、学派为 多德 黑格 线索而展开 尔 马克 思 康德 Source: http://drunks-and- lampposts.com/2012/06/13/graphing-the- history-of-philosophy/
  53. 53. 例:关于柏拉图的 维基百科条目 属性: 受谁影响 Influenced By 影响了谁 Influenced 值: 各哲学家的 条 目内容来源 Source: Wikipedia
  54. 54. dbpedia 已经将这些关系都做成 RDF 了Source: dbpedia
  55. 55. 到 dbpedia 的检索界面输入检索提问 找出凡是在‘哲学家’类有 ‘影响过’的所有受影响者 。 (‘哲学家’是 dbpedia 本 体定义的;属性(谓 词)为‘ influenced’ )。Source: dbpedia
  56. 56. 得到数据后,装到 Spreadsheet 里,分三栏: | Philosopher A | Philosopher B | Weight | 然后用开源软件 Gephi ( http://gephi.org/ )做出 来Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/
  57. 57. 案例 3 特点: 完全是利用已有关联数据; 重在揭示某种’关系‘。讨论:要产生这样的新信息和知识,需要什么条件?Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/
  58. 58. 启示:图情博档在关联数据浪潮中 属于什么角色?• 作为关联数据的提供者 – 书目资源、受控名称规范文档、词表类表、本体 – 可供别人使用;直接利用规范成果• 作为关联数据的消费者 – 最起码的:将外面的 URI 请进来,或让自己资源的 URI 被外面拿去联接 – 利用已有资源,扩充知识组织系统,充实元数据 – 将各类文献目录和元数据变为知识服务的新起点,而 不光是提供查到、拿到文献的工具 – 充分利用各种发布的关联数据资源去生产新的知识
  59. 59. 关联数据是大趋势• Google 全面展开 Knowledge-graphs 服务• WorldCat 在书目数据页面增加关联数据• 政府部门大数据和开放数据已成现实• 各国图情机构、博物馆、档案馆已经发布不少数据 集, 数字图书馆则在消费和开发上努力 与时俱进吧!
  60. 60. Questions ???• 1 个目的• 2 种要回答的问题• 3 段式 triples• 4 项基本原则• 5 星排行• “ 关联”的不同层次 – sameAs – about similar concepts ( closeMatch ) – Classes expressed in RDF graph structure – Connected various classes

×