理解和利用关联数据--图情档博 ( LAM )作为关联数据的提供者和消费者Marcia Lei Zeng 曾蕾Kent State University                        关联数据技术与应用专题研讨班        ...
大纲: 12345•   1 个目的•   2 种要回答的问题•   3 段式 triples•   4 项基本原则•   5 星排行• +“关联”的不同层次
11 个目的:关联
1 个目的:关联            将数据从 silo 中解放出来,通过关联得到最大            利用,再利用,产生新的数据、信息、知识Image: Slide from T.B.Lee at TED 2009 conferenc...
2这个 thing 是什       需要回答的 2 种问题   么?(属性 - 值)    这个 thing 和别    的 thing 有什么       关系?
3                    这 2 种问题的答案这个 thing 是什   么?           都可以用 3 段式( triples )来描述(属性 - 值)                                 ...
这里面有多少                 是独立的                  thing ?               ( 有自己的属                    性)              [属性]        ...
如果我们将能独立的 thing 都用特定的 ID                     来表示,就可以产生无歧义的 3 段式   ex:yaomingex:yaoming                                    ...
一个 3 段式能回答什么问题?   ex:yaomingex:yaoming                         这个人叫什么名字?      label:        ?   ex:yaomingex:yaoming      ...
3 段式中的客体部分                     也能变为主体么?   ex :                  能由之再产生新的 3 段式么?ex:yaoming   yaoming    label:          ?  ...
图示 1. thing 的描述和无限联接                                            1            2                 3                          ...
图示 2. 联接的内容是来自不同资源的                                         注意:                                         •是格式化数据的相联,不是文本的相联...
4     4 项基本原则将这个实例放到 4 项基本原则来看
四项基本原则:1. 使用 URI 作为任何事物的标识名称 –   Use URIs as names for things1. 使用 HTTP URI 使任何人都可以访问名称 –   Use HTTP URIs so that people c...
1       1.       使用 URI 作为任何事                     物的标识名称            2.       使用 HTTP URI 使任何                     人都可以访问名称2...
RDF triples    取出其中一截,其结构是:                                        is president of http://dbpedia.org/page/     http://dbp...
只要遵循有 URI 命名, HTTP 途径,凡是有可能的地方对联接的 properties 合理管理,则可以被考虑为关联数据。•这是一种为 Web 所用的含义更丰富的联结方式,使我们从超文本链接(文献到文献)发展到超数据的联结(文献中所讨论的内...
相对于传统的图书馆数据来说,       关联的图书馆数据有如下优点• Shareable 可分享   – 不管谁都能解析的唯一标识- URI   – 可信赖的数据和元数据供大家使用• Extensible 可无限伸展   – “ 无边无际的世...
5                                 5 星排行表Image source: http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006
李爵士在提出关联数据时借用过这样一个五星排行表:From InkDroid, a nice summary (and CSS) of the star scheme   ★ make your stuff available on the we...
用五星排行表理解网上有很多数据资源和知识组织系       ★                        与 LAM 有关的资源统•网上开放         ★★•机器可读         ★★★•非专属权格式(html, xml)    ...
当前主要关联数据资源                                            (根据 2012 年 7 月 16 日数据)                          越来越多 4 星级的数据集、知识组织  ...
CKAN 关联数据中心 CKAN - the Data Hub ( 共有 3880               datasets )               •其中最有名的一个组是关联的开放数据 LOD 云组, 云图            ...
Linking Open Data ( LOD ) 数据集云图 (as of 2011-09, dataset: 295) ; 实际组里已有 327                                                ...
“ 关联”的不同层次
“ 关联”是有不同层次的,从简单到复杂     -- 以值词汇 (value vocabularies) 为例                                                                 相联...
• 用 owl:sameAs 来表达同一性联接 (identity links ) 两个数据资源指的是具有同一性的一种实体( entity )或 者个体( instance (individual) 。 如:你和我提到的是同一种实体或者个体(个...
纽约时报词表里‘苹果公司’的概念 =》 纽约时报‘苹果公司’专业专栏
纽约时报                                                         . co m /                                            data.n yt...
练习:艺术家徐冰 (1)如果:•艺术资源库 ARTstor 的艺术作品数据里有“艺术家为”:   “Xu Bing (Chinese installation artist, born 1955)” ( ID:  500125592@ulan ...
练习:艺术家徐冰 (2)很多数据都与 dbpedia 和 freebase 相联,徐冰的同样,不管谁有徐冰的数据都可以继续联接:• dbpedia 的:{ http://dbpedia.org/page/Xu_Bing }• Freebase ...
相联的各类                  用结构化的同指   ‘ 关于’相似的主题   RDF 图表                  达 类
‘ 关于’相似的主题或概念• 在这种情况下,重点在于关联有关相似的主题或  概念的数据资源• 通常采用被定义好了的类( classes )和概念,例  如在本体中定义的类、分类法类目、词表系统里  的概念
Xu Bing:BackgroundStory 7徐冰《背后的故事: 7 》British Museum, 2011大英博物馆, 2011Image source: An installation by Xu Bing:Background S...
Image source: An installation by Xu Bing:Background Story 7By British Museum (Albums)http://www.facebook.com/media/set/?se...
‘about’ similar concepts                              建筑与艺                              术词表                             (通...
这几个词表的 {installations (visual works)} 概念                                                     可以用 skos : closeMatch 来关联  Co...
相联的各类                  用结构化的同指   ‘ 关于’相似的主题   RDF 图表                  达 类
• 比个体的联  接更上一层  的,是将类                       用结构化的 RDF 表达 ‘ 类 ’ 或概念  ( Classes )  或概念用  SKOS 做成结  构化的 RDF                so...
:sh85066731                                                            prefLabel Installations (Art)•RDF 图的结构能            ...
知识组织系统里定义的概念能够起到‘汇合点’的作用,   令分散的资源很容易地通过已发布的三段式用 URI 来关联起来Slide from Tom Baker "The concepts of knowledge organization sys...
schema.org 定义了无数的类、属性,而且还在增加
Image source: Dan Brickley. http://philarcher.org/inc/showImage.php?src=/diary/2012/danbri/schema.org.png&float=0&w=689&h=...
相联的各类                  用结构化的同指   ‘ 关于’相似的主题   RDF 图表                  达 类
超出那些 RDF 中的固定点,则是通过概念结构(例如揭示概念类之间语义关系的本体)来将各种类型的 things 相互关联起来。这不仅仅是发布自己的数据,而是产生新的信息和知识。通过 RDF 可以联通涉及到的人物、地点、事物、组织、事件、统计资料...
例 1 : Freebase                                  查 Xu Bing            Freebase example   根据多种属性(谓                          ...
例: Freebase MacArthur 奖获得者                          根据多种属性(谓                          词)对获奖者有选                            ...
获奖者概况表格形式显示             获奖者概况的时间隧道形式显示source:freebase
案例 1 方法小结•   定义本体 (schema.org 前身 )•   从维基百科抓取结构化数据•   发动群众(注册了的机构和个人)完善数据•   通过各种界面显示数据                            source:...
通过本体结构、采用 RDF 关联所有涉及到的例 2 :美国国内战争 150 周年项目                       人物、地点、队伍、伤亡、物品 (如旗                                       ...
案例 2 方法小结•   搜集原始资料(来源于联邦、州、地方 LAM 、政府机构、 开放数字    化学术著作、多种媒体等),做成结构化数据•   利用 dbpedia 等资源,集中一些数据•   定义本体(类,子类,以及各类的属性)•   在...
例 3 :哲学史图示                     ( simonraper 6 月 13 日贴)                                       围绕历代哲学           柏拉          ...
例:关于柏拉图的                           维基百科条目                           属性:                              受谁影响                 ...
dbpedia 已经将这些关系都做成 RDF 了Source: dbpedia
到 dbpedia 的检索界面输入检索提问                             找出凡是在‘哲学家’类有                             ‘影响过’的所有受影响者                   ...
得到数据后,装到 Spreadsheet 里,分三栏:        | Philosopher A | Philosopher B |        Weight |        然后用开源软件 Gephi ( http://gephi.o...
案例 3 特点: 完全是利用已有关联数据; 重在揭示某种’关系‘。讨论:要产生这样的新信息和知识,需要什么条件?Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-hi...
启示:图情博档在关联数据浪潮中    属于什么角色?• 作为关联数据的提供者 – 书目资源、受控名称规范文档、词表类表、本体 – 可供别人使用;直接利用规范成果• 作为关联数据的消费者 – 最起码的:将外面的 URI 请进来,或让自己资源的 U...
关联数据是大趋势•   Google 全面展开 Knowledge-graphs 服务•   WorldCat 在书目数据页面增加关联数据•   政府部门大数据和开放数据已成现实•   各国图情机构、博物馆、档案馆已经发布不少数据    集, ...
Questions ???•   1 个目的•   2 种要回答的问题•   3 段式 triples•   4 项基本原则•   5 星排行• “ 关联”的不同层次    – sameAs    – about similar concept...
Upcoming SlideShare
Loading in …5
×

理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

3,186
-1

Published on

Presentation in Chinese on: Understanding and Using Linked Data – Libraries, Archives, and Museums (LAM) as the contributors and consumers of Linked Data

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,186
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
57
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide
  • This slide set was presented at the TED 2009 conference, "The Great Unveiling" in Long Beach, CA. USA, 4, Feb 2009. The current Web is still a Web of documents, a web of un-typed documents. Datasets exist in silos, and the web is like a global file system. Now we want to turn this into a global database, so we can share, expose, and connect data in those silos. From a global file system to a global database From a Web of documents to a Web of data Break the silos Link data This slide set was presented at the TED 2009 conference, "The Great Unveiling" in Long Beach, CA. USA, 4, Feb 2009.
  • When there are lots of triples together, they are like this… The first subject here really has quite a few predicates, and the objects can be URIrefs or literals. Those objects can also be the things, so they also may be the subjects of further statements. Backgroud image borrowed from Andrea Kosavic: The Semantic Web, (some of) what you need to know . OLA Superconference 2009.01.30. Compiled by mzeng 2009-03-06.
  • Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html Linked Open Data 关联数据的四项基本原则: 原则一:使用 URI 作为任何事物的标识名称 Use URIs as names for things ; 原则二:使用 HTTP URI 使任何人都可以访问名称 Use HTTP URIs so that people can look up those names ; 原则三:当有人访问名称时,提供有用的[ RDF ]信息 When someone looks up a name, provide useful [ RDF ] information 原则四:尽可能提供相关的 URI 以使人们发现更多的信息 Include links to other URIs so that they can discover more things
  • If we transfer the graph using the XML syntax, the graph will become the code illustrated in this slide. Now the statement becomes machine understandable and processable.
  • From: Kingsley Idehen, Creating, Deploying, and Exploiting Linked Data
  • Sept.. 2011 draft version: http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion#Benefits_of_the_Linked_Data_Approach The Linked Data approach offers significant advantages over current practices for creating and delivering library data while providing a natural extension to the collaborative sharing models historically employed by libraries. Linked Data and especially Linked Open Data is sharable, extensible, and easily re-usable. It supports multilingual functionality for data and user services, such as the labeling of concepts identified by a language-agnostic URIs. These characteristics are inherent in the Linked Data standards and are supported by the use of Web-friendly identifiers for data and concepts. Resources can be described in collaboration with other libraries and linked to data contributed by other communities or even by individuals.
  • ★ 以任何开放协议和格式发布在网上; ★★ 以一种机读格式,例如 excel 表格格式而不是扫描 图片格式,发布在网上; ★★★ 以一种开放而非私有的格式,如 CSV 而不是 excel ,发布于网上; ★★★★ 采用开放格式,并以 W3C 开放标准标识和描 述,以使人们可以链接指向; ★★★★★ 采用开放格式,并以 W3C 的开放标准将大 家的数据进行标识、描述和互联。
  • So long as the principles of URI naming, HTTP access, and linking predicates where possible are maintained, the approach qualifies as linked data. Source: http://vocab.umbel.org/
  • Linking Open Data cloud diagram by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/ There must be resolvable http:// (or https://) URIs. They must resolve, with or without content negotiation, to RDF data in one of the popular RDF formats (RDFa, RDF/XML, Turtle, N-Triples). The dataset must contain at least 1000 triples. (Hence, your FOAF file most likely does not qualify.) The dataset must be connected via RDF links to a dataset that is already in the diagram. This means, either your dataset must use URIs from the other dataset, or vice versam. We arbitrarily require at least 50 links. Access of the entire dataset must be possible via RDF crawling, via an RDF dump, or via a SPARQL endpoint.
  • Reference: http://structureddynamics.com/linked_data.html#question_8
  • The simple case is where two data sources refer to the exact same entity or instance (individual) with the same identity. The standard sameAs predicate is used to assert the equivalence in such cases.
  • Data sources aggregated at DBpedia, Freebase, and New York Times for the {Apple Inc.} are all referring to the same company, even though the labelsmay be different. Their unique URIs are connected by the “owl:sameAs” property.
  • Reference: http://structureddynamics.com/linked_data.html#question_8
  • The more important case is where the data sources are about similar subjects or concepts, in which case a structure of well-defined reference classes is employed.
  • “ 这个名为《背后的故事 -7 》的装置由一个体积可观的光箱构成,徐冰用生活中随处可见的现成材料,如树枝、玉米壳、麻、报纸以及从伦敦不同角落找来的废弃物,装置在磨砂的有机玻璃板背后。徐冰认为,这些物品与磨砂玻璃的距离产生了不同的视觉效果,从正面看,像是一幅典雅的中国传统山水竖轴,但当观众看到装置背面杂乱的物件时,就看到了空气中风景画的真实来源。 这件新作品展出时,直接对应的就是大英博物馆所藏的中国画家王时敏 1654 年所作的山水画。一古一今,中国艺术在大英博物馆内实现跨越时空的对话。” -摘自:徐冰个展《背后的故事 -7 》大英博物馆开展  http://culture.people.com.cn/GB/22219/14626735.html
  • ID: 300182935   Record Type: concept installations (exhibitions) For example, books, catalogs, museum exhibitions about {installation arts} may use different terms, however they are about similar subjects or concepts. In a VRA record it might give an AAT concept {ID: 300047896@aat} with preferred term “installations (visual works)”, while a MARC record may have used a LCSH subject heading “Installations (Art)” { http://id.loc.gov/authorities/subjects/sh85066731}. In both AAT and LCSH, the concept is well defined, with notes, semantic relationships with other concepts, reference sources, preferred and alternative labels. The concept in AAT {ID:300047896@aat} and in LCSH {http://id.loc.gov/authorities/subjects/sh85066731} can be considered closely matched (coded as “ skos:closeMatch ” ). (Note they are not considered as the same (coded as “ owl:sameAs ” )).
  • http://id.ndl.go.jp/auth/ndlsh/01159407 http://id.loc.gov/authorities/sh85066731 http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb121017792 http://d-nb.info/gnd/4131808-0
  • Reference: http://structureddynamics.com/linked_data.html#question_8
  • Furthermore, these classes can themselves be expressed in a graph structure capturing the relationships amongst the concepts. For example SKOSified LCSH captured the relationships of the {Installations (Art)}with the broader concept (coded as “skos:broader”) {Art, Modern--20th century} and a number of narrower concepts. The concept in LCSH is also mapped to that in the French RAMEAU vocabulary {Installations (art)} . Following the RDF graphs (statements) encoded by “skos:closeMatch”, concepts in the national authorities of the U.S., France, and Germany are connected. RDF graphs can mix different descriptions, for example, through properties such as “foaf:primaryFocus” or “dcterms:subject” to connect a thesaurus concept to the documents about the concept. Using the German resource as an example, SWD’s concept {Installation <Kunst>} is linked with all publications that have this subject heading (showing as “Thema in 1154 Publikationen”). The same process can be applied to the resources about an agent, a place, an object, etc.
  • If these classes can themselves be expressed in a graph structure capturing the relationships amongst the concepts, we now have some fixed points in the conceptual information space for relating and tying together disparate data.
  • Reference: http://structureddynamics.com/linked_data.html#question_8
  • Still further, such a conceptual structure also provides the means to relate the people, places, things, organizations, events, etc., of the individual instances of the world to one another as well. Reference: http://structureddynamics.com/linked_data.html#question_8
  • 时光隧道 view
  • http://www.civilwardata150.net/category/applications/
  • SELECT * WHERE { ?p a <http://dbpedia.org/ontology/Philosopher> . ?p <http://dbpedia.org/ontology/influenced> ?influenced. }
  • 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

    1. 1. 理解和利用关联数据--图情档博 ( LAM )作为关联数据的提供者和消费者Marcia Lei Zeng 曾蕾Kent State University 关联数据技术与应用专题研讨班 2012.07.20-23, 上海图书馆
    2. 2. 大纲: 12345• 1 个目的• 2 种要回答的问题• 3 段式 triples• 4 项基本原则• 5 星排行• +“关联”的不同层次
    3. 3. 11 个目的:关联
    4. 4. 1 个目的:关联 将数据从 silo 中解放出来,通过关联得到最大 利用,再利用,产生新的数据、信息、知识Image: Slide from T.B.Lee at TED 2009 conference, "The Great Unveiling" in Long Beach, CA. USA, 4, Feb 2009
    5. 5. 2这个 thing 是什 需要回答的 2 种问题 么?(属性 - 值) 这个 thing 和别 的 thing 有什么 关系?
    6. 6. 3 这 2 种问题的答案这个 thing 是什 么? 都可以用 3 段式( triples )来描述(属性 - 值) [属性] [值] 名字: 姚明 @zh 名字: Yao Ming@en 出生日期: 1980 - 09 - 12 身高: 7 6" (2.29 m) 效力球队: 上海大鲨鱼 效力球队: 休斯顿火箭 出身地: 上海 退役时间: 2011 - 07 - 20 获奖: 。。。 。。。RDF triples: 参赛: 。。。 。。主体 - 谓词 - 客体( subject-predicate-object )结 。
    7. 7. 这里面有多少 是独立的 thing ? ( 有自己的属 性) [属性] [值] 名字: 姚明 @zh 名字: Yao Ming@en 出生日期: 1980 - 09 - 12 身高: 7 6" (2.29 m) 效力球队: 上海大鲨鱼这个 thing 和别 效力球队: 休斯顿火箭的 thing 有什么 出身地: 上海 关系? 退役时间: 2011 - 07 - 20 获奖: NBA All-Star 奖牌: 2002 亚运会银牌
    8. 8. 如果我们将能独立的 thing 都用特定的 ID 来表示,就可以产生无歧义的 3 段式 ex:yaomingex:yaoming [属性] [值] label: 姚明 名字: 姚明 @zh 名字: Yao Ming@en ex:yaomingex:yaoming ex:yaoming 出生日期: 1980 - 09 - 12 draftTeam: ex:htrockets 身高: 7 6" (2.29 m) 效力球队: ex : 上海大鲨鱼 效力球队: shshark 休斯顿火箭 ex : htrocketsex:yaoming ex:yaoming birthPlace: ex:shanghai 出身地: 上海 ex : shanghai 退役时间: 2011 - 07 - 20ex:yaoming ex:yaoming 获奖: NBA All-Star ex : award: ex:NBA_AllStar 奖牌: 2002 亚运会银牌 NBA_AllStar RDF triples: 主体 - 谓词 - 客体( subject-predicate-object )结构
    9. 9. 一个 3 段式能回答什么问题? ex:yaomingex:yaoming 这个人叫什么名字? label: ? ex:yaomingex:yaoming 这个人与休斯顿火箭队是什么关系? ? ex:htrockets ??ex:yaoming 上海是哪些[名]人的出身地? ?birthPlace: ex:shanghai ??ex:yaoming NBA All Star 的名单上都有哪些人? ? award: ex:NBA_AllStar
    10. 10. 3 段式中的客体部分 也能变为主体么? ex : 能由之再产生新的 3 段式么?ex:yaoming yaoming label: ? ex :ex:yaoming yaoming ? ex:htrockets 关于上海这个城市,你能想 到的属性和值有哪些? ??ex:yaoming ?birthPlace: ex:shanghai ?? 其中又有哪些客体是可以辨ex:yaoming ? award: ex:NBA_AllStar 识的 thing ?
    11. 11. 图示 1. thing 的描述和无限联接 1 2 3 predicates objects 1 2 3 subjects predicates objects subjectsBackgroud image borrowed from Andrea Kosavic: The Semantic Web, (some of) what you needto know. OLA Superconference 2009.01.30. Compiled by mzeng 2009-03-06. 17
    12. 12. 图示 2. 联接的内容是来自不同资源的 注意: •是格式化数据的相联,不是文本的相联; •是机器可理解和可处理的数据; •是对现有数据的再利用;Image source: Dan Brickley •产生新的资源;其又被利用、再利用 •可无限扩展下去http://farm4.static.flickr.com/3613/3384528143_8304792836_b.jpg
    13. 13. 4 4 项基本原则将这个实例放到 4 项基本原则来看
    14. 14. 四项基本原则:1. 使用 URI 作为任何事物的标识名称 – Use URIs as names for things1. 使用 HTTP URI 使任何人都可以访问名称 – Use HTTP URIs so that people can look up those names1. 当有人访问名称时,提供有用的 [rdf] 信息 – When someone looks up a name, provide useful information1. 尽可能提供相关的 URI 以使人们发现更多的信息 – Include links to other URIs so that they can discover more things http://www.w3.org/DesignIssues/LinkedData.html Translated by Liu Wei, 2008 12
    15. 15. 1 1. 使用 URI 作为任何事 物的标识名称 2. 使用 HTTP URI 使任何 人都可以访问名称2 3 3. 当有人访问名称时, 提供有用的 [rdf] 信息 4. 尽可能提供相关的 URI 以使人们发现更多 的信息 Source: dbpedia
    16. 16. RDF triples 取出其中一截,其结构是: is president of http://dbpedia.org/page/ http://dbpedia.org/page/Yao_Ming Shanghai_Sharks 2 1 properties 3 values thing 1<RDF:RDF> <RDF:Description RDF:HREF=”http://dbpedia.org/page/Yao_Ming”>2 < dbpprop:president rdf:resource= "http://dbpedia.org/page/Shanghai_Sharks"> 3</RDF:Description></RDF:RDF> 机器可理解、可处理
    17. 17. 只要遵循有 URI 命名, HTTP 途径,凡是有可能的地方对联接的 properties 合理管理,则可以被考虑为关联数据。•这是一种为 Web 所用的含义更丰富的联结方式,使我们从超文本链接(文献到文献)发展到超数据的联结(文献中所讨论的内容资源( thing) 的联结) ;•人们可以通过 HTTP/URI 机制,直接获得数字资源(Thing) 。 Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html 参考刘炜 2008-12 的翻译
    18. 18. 相对于传统的图书馆数据来说, 关联的图书馆数据有如下优点• Shareable 可分享 – 不管谁都能解析的唯一标识- URI – 可信赖的数据和元数据供大家使用• Extensible 可无限伸展 – “ 无边无际的世界” - 没有什么描述是完成了的,任何人都可以从 他自己发布的空间添加描述信息• Re-usable 可再利用 – 各种来源的描述谈的是同样的 thing – 完善、加注、等等• Internationalizable 国际化 – 多语种、翻译等都没有问题 – 自然语言词串( strings )不被用来指代 things 。 This slide is based on a summary prepared by Antoine Isaac, for Talis Linked Data and Libraries day, London, July 14th 2011; built on the W3C Library Linked Data Incubator Group Final Report, draft
    19. 19. 5 5 星排行表Image source: http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006
    20. 20. 李爵士在提出关联数据时借用过这样一个五星排行表:From InkDroid, a nice summary (and CSS) of the star scheme ★ make your stuff available on the web (whatever format) 把你的东西发布在网上(以任何格式) ★★ make it available as structured data (e.g. excel instead of image scan of a table) 把你的东西变成有结构的数据 ( excel 格式的表格而不是扫描的 图像) ★★★ non-proprietary format (e.g. csv instead of excel) 非商家格式,(如 csv 而不是 excel ) ★★★★ use URLs to identify things, so that people can point at your stuff 用 URLs 来指代和辨识事物,这样别人就能指点到你的东西 ★★★★★ link your data to other people’s data to provide context 将 你的数据联到其他人的 数据 -- http://www.w3.org/DesignIssues/LinkedData.html. TBL, 200608/14/12 20
    21. 21. 用五星排行表理解网上有很多数据资源和知识组织系 ★ 与 LAM 有关的资源统•网上开放 ★★•机器可读 ★★★•非专属权格式(html, xml) 越来越多 4 星级的数据集和知识组织 系统 ★★★★ • 采用了 RDF 标准 • 用 URI 指代名称 • 数据用三段式 triples 发布 其中仅有一部分达到 5 星 •关联的 RDF ★★★★★
    22. 22. 当前主要关联数据资源 (根据 2012 年 7 月 16 日数据) 越来越多 4 星级的数据集、知识组织 系统 ★★★★ • 采用了 RDF 标准 • 用 URI 指代名称 • 数据用三段式 triples 发布CKAN = Comprehensive Knowledge Archive Network
    23. 23. CKAN 关联数据中心 CKAN - the Data Hub ( 共有 3880 datasets ) •其中最有名的一个组是关联的开放数据 LOD 云组, 云图 中现含 295 个数据集 http://ckan.net/group/lodcloud 实际 上该组已有 327 个。 •其它几十个组见 : http://ckan.net/group. 一个数据集可以 注册到多个组,其中有些数据集也上了 LOD 云。 • 图书馆关联数据组 http://ckan.net/group/lld (现 含 57 个数据集,大多数联接都是与非图书馆数据 的联接) • 文献书目数据组 : (现含 77 个数据集) • 艺术、气象数据、实验数据、考古、经济、能源数据、 地理、语言、国际发展数据、政府数据(加拿大、澳大 利亚、英国等)。有些在试验阶段,有些还不开放。 •数据集的发行格式(可获取格式):LOD Cloud group CSV | RDF | XML | XBRL | SDMX | HTML+RDFa | 其它327 datasets
    24. 24. Linking Open Data ( LOD ) 数据集云图 (as of 2011-09, dataset: 295) ; 实际组里已有 327 入云要求: •可解的 http URIs 媒 •数据可解为常用 RDF 体 出 格式 (RDFa, RDF/XML, Turtle, 版 N-Triples). 物 •至少有 1000 条 triples (所以你的 政 FOAF 文档不行) 府 •必须通过 RDF 与本图 中一个数据集相联(含 其它数据集来的 URIs ,反之亦然。至 生 少 50 条联接) 跨 地 命 •必须能通过 RDF 专 理 科 crawling, RDF dump, 业 或 SPARQL endpoint 学 得到整个数据集的数据 Linking Open Data cloud diagram by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
    25. 25. “ 关联”的不同层次
    26. 26. “ 关联”是有不同层次的,从简单到复杂 -- 以值词汇 (value vocabularies) 为例 相联的各类 用结构化的同指 ‘ 关于’相似的主题 RDF 图表 达 类 References: Linked Data: Evolving the Web into a Global Data Space, by Tom Heath and Christian Bizer. Linked Data FAQ, by Structured Dynamics. http://structureddynamics.com/linked_data.html#question_8
    27. 27. • 用 owl:sameAs 来表达同一性联接 (identity links ) 两个数据资源指的是具有同一性的一种实体( entity )或 者个体( instance (individual) 。 如:你和我提到的是同一种实体或者个体(个人、事 件、物体等),尽管名称不同。• 同一性联接 指向另一资源所采用的 URI • 辨识同样的真实世界的物体 • 或者辨识相同的抽象概念 客户端可以从另一资源中检索到更多的描述。
    28. 28. 纽约时报词表里‘苹果公司’的概念 =》 纽约时报‘苹果公司’专业专栏
    29. 29. 纽约时报 . co m / data.n ytimes 2 http:// 0235787585 27 614530 http://www.freebase.com/view/en/apple_inc ycA cN5Y29 wpEbGdr x4rvVjfjp / co ncept/M Freebase ncyc.org http:/ /sw.ope CYC 本体 http://ww w4.wiwis berlin.de/ s.fu- flickrwrap ple_Inc. pr/photos dbpedia /Ap _Inc. e /Apple esourc a.org/r dbpedihttp:// dbpedia 图像
    30. 30. 练习:艺术家徐冰 (1)如果:•艺术资源库 ARTstor 的艺术作品数据里有“艺术家为”: “Xu Bing (Chinese installation artist, born 1955)” ( ID: 500125592@ulan )•另外一个数据集采用了中国国家图书馆的规范数据, “徐冰 ( 版画家 , 1955~)” ( ID: 000190318@nlc )•这两个数据集里关于这个艺术家的数据都指的是同一个人则: 可以用一个 identify link 来表达这两个是同指一人。请你写下来 哪个对? [ 1 ] Xu Bing (Chinese installation artist, born 1955) owl:sameAs 徐冰 ( 版画家 , 1955~) [ 2 ] 500125592@ulan owl:sameAs 000190318@nlc
    31. 31. 练习:艺术家徐冰 (2)很多数据都与 dbpedia 和 freebase 相联,徐冰的同样,不管谁有徐冰的数据都可以继续联接:• dbpedia 的:{ http://dbpedia.org/page/Xu_Bing }• Freebase 的{ http://www.freebase.com/view/en/xu_bing }这四个代号指代的 thing 是同一个,可以用 owl : sameAs 来联: http://dbpedia.org/page/Xu_Bing owl:sameAs: http://www.freebase.com/view/en/xu_bing ; owl:sameAs: {http://..... 500125592@ulan} ; owl:sameAs:{http://... 000190318@nlc}}.在 LOD 云里很多数据都指向 dbpedia ,其联接大多是 owl:sameAs ,而且是个体。
    32. 32. 相联的各类 用结构化的同指 ‘ 关于’相似的主题 RDF 图表 达 类
    33. 33. ‘ 关于’相似的主题或概念• 在这种情况下,重点在于关联有关相似的主题或 概念的数据资源• 通常采用被定义好了的类( classes )和概念,例 如在本体中定义的类、分类法类目、词表系统里 的概念
    34. 34. Xu Bing:BackgroundStory 7徐冰《背后的故事: 7 》British Museum, 2011大英博物馆, 2011Image source: An installation by Xu Bing:Background Story 7By British Museum (Albums)http://www.facebook.com/media/set/?set=a.10150184112629723.318031.72228529722
    35. 35. Image source: An installation by Xu Bing:Background Story 7By British Museum (Albums)http://www.facebook.com/media/set/?set=a.10150184112629723.318031.72228529722
    36. 36. ‘about’ similar concepts 建筑与艺 术词表 (通常为 博物馆所 用) 国会标题表 LCSH concept: sh85066731@lcsh subject heading: 通常在图书馆 “Installations (Art)” 目录中用在 AAT 和 LCSH 中,装置艺术的概念都得到完整的定义,有注解,不同名称,语义关系,资料来源等。但是二者不完全一样,只能算‘相似’,不能用‘ sameAs’
    37. 37. 这几个词表的 {installations (visual works)} 概念 可以用 skos : closeMatch 来关联 Concept from NDL is connected via 采用了这些概念描述的文献和物件 skosxl:altLabel 得以通过相似概念而关联 to LCSHs label sh85066731 clo @lcsh seM atc h skos:prefLabel: Installations (Art)@en Cb121017792@ rameau 01159407@n 美国国会标题表 dl skos:prefLabel: Installations (Art)@fr h skos:prefLabel: FRBNF121017790@x-notation at cxl:prefLabel: seMインスタレーション ( インスタレーション )@ja clo xl:altLabel:Installations (Art) 法国国家图书馆 的标题表 4131808- 0@swd 日本国家 Diet 图书馆 标题表 skos:prefLabel: Installation <Kunst> @de 德国国家图书馆 的主题词汇 ‘about’ similar concepts
    38. 38. 相联的各类 用结构化的同指 ‘ 关于’相似的主题 RDF 图表 达 类
    39. 39. • 比个体的联 接更上一层 的,是将类 用结构化的 RDF 表达 ‘ 类 ’ 或概念 ( Classes ) 或概念用 SKOS 做成结 构化的 RDF source: extracted from id.loc.gov/authorities/subjects/sh85066731
    40. 40. :sh85066731 prefLabel Installations (Art)•RDF 图的结构能 bro表征概念之间的关 note "……" ad系 er sh85007805 bro•其中有些固定的 Art, Modern--20th century a de可联接的节点, "……" r通过它们能将四 related narr处分散的数据系 sh85044164 o在一起 we r Environment (Art) Environment (Art) "……" "……" sh2001001631 Site-specific installations (Art) " ……" " ……"
    41. 41. 知识组织系统里定义的概念能够起到‘汇合点’的作用, 令分散的资源很容易地通过已发布的三段式用 URI 来关联起来Slide from Tom Baker "The concepts of knowledge organization systems as hubs in the Web of data". UDC 2011 Seminar. http://seminar.udcc.org/2011/index.htm
    42. 42. schema.org 定义了无数的类、属性,而且还在增加
    43. 43. Image source: Dan Brickley. http://philarcher.org/inc/showImage.php?src=/diary/2012/danbri/schema.org.png&float=0&w=689&h=524
    44. 44. 相联的各类 用结构化的同指 ‘ 关于’相似的主题 RDF 图表 达 类
    45. 45. 超出那些 RDF 中的固定点,则是通过概念结构(例如揭示概念类之间语义关系的本体)来将各种类型的 things 相互关联起来。这不仅仅是发布自己的数据,而是产生新的信息和知识。通过 RDF 可以联通涉及到的人物、地点、事物、组织、事件、统计资料、基因、理论、思想等) Image source: Open Knowledge Foundation. http://okfn.org/
    46. 46. 例 1 : Freebase 查 Xu Bing Freebase example 根据多种属性(谓 词)将个人的有关 信息进行显示 根据所获奖励 这个属性显示 其他获奖者source: 由此可关联历freebase 年所有获奖者
    47. 47. 例: Freebase MacArthur 奖获得者 根据多种属性(谓 词)对获奖者有选 择性的显示 获奖者概况统一显示source:freebase
    48. 48. 获奖者概况表格形式显示 获奖者概况的时间隧道形式显示source:freebase
    49. 49. 案例 1 方法小结• 定义本体 (schema.org 前身 )• 从维基百科抓取结构化数据• 发动群众(注册了的机构和个人)完善数据• 通过各种界面显示数据 source: freebase
    50. 50. 通过本体结构、采用 RDF 关联所有涉及到的例 2 :美国国内战争 150 周年项目 人物、地点、队伍、伤亡、物品 (如旗 帜)、组织、事件 ( 战役)、统计资料、个 人档案等。 注意: •是格式化数据的相联,不是文本的相联; •是机器可理解和可处理的数据; •是对现有数据的再利用; •产生新的资源;其又被利用、再利用 •可无限扩展下去 [1] Use case: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Civil_War_Data_150 [2] About page source: http://www.civilwardata150.net/
    51. 51. 案例 2 方法小结• 搜集原始资料(来源于联邦、州、地方 LAM 、政府机构、 开放数字 化学术著作、多种媒体等),做成结构化数据• 利用 dbpedia 等资源,集中一些数据• 定义本体(类,子类,以及各类的属性)• 在已有资源基础上完善名称和主题规范词汇• 通过关联数据来组织这些过去分散的研究和历史资料。• 对数据进行组织、利用 (例如,自动 tweet 战役和伤亡)Image Source:http://www.civilwardata150.net/category/applications/
    52. 52. 例 3 :哲学史图示 ( simonraper 6 月 13 日贴) 围绕历代哲学 柏拉 家间的影响、 图亚里士 传承、学派为 多德 黑格 线索而展开 尔 马克 思 康德 Source: http://drunks-and- lampposts.com/2012/06/13/graphing-the- history-of-philosophy/
    53. 53. 例:关于柏拉图的 维基百科条目 属性: 受谁影响 Influenced By 影响了谁 Influenced 值: 各哲学家的 条 目内容来源 Source: Wikipedia
    54. 54. dbpedia 已经将这些关系都做成 RDF 了Source: dbpedia
    55. 55. 到 dbpedia 的检索界面输入检索提问 找出凡是在‘哲学家’类有 ‘影响过’的所有受影响者 。 (‘哲学家’是 dbpedia 本 体定义的;属性(谓 词)为‘ influenced’ )。Source: dbpedia
    56. 56. 得到数据后,装到 Spreadsheet 里,分三栏: | Philosopher A | Philosopher B | Weight | 然后用开源软件 Gephi ( http://gephi.org/ )做出 来Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/
    57. 57. 案例 3 特点: 完全是利用已有关联数据; 重在揭示某种’关系‘。讨论:要产生这样的新信息和知识,需要什么条件?Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/
    58. 58. 启示:图情博档在关联数据浪潮中 属于什么角色?• 作为关联数据的提供者 – 书目资源、受控名称规范文档、词表类表、本体 – 可供别人使用;直接利用规范成果• 作为关联数据的消费者 – 最起码的:将外面的 URI 请进来,或让自己资源的 URI 被外面拿去联接 – 利用已有资源,扩充知识组织系统,充实元数据 – 将各类文献目录和元数据变为知识服务的新起点,而 不光是提供查到、拿到文献的工具 – 充分利用各种发布的关联数据资源去生产新的知识
    59. 59. 关联数据是大趋势• Google 全面展开 Knowledge-graphs 服务• WorldCat 在书目数据页面增加关联数据• 政府部门大数据和开放数据已成现实• 各国图情机构、博物馆、档案馆已经发布不少数据 集, 数字图书馆则在消费和开发上努力 与时俱进吧!
    60. 60. Questions ???• 1 个目的• 2 种要回答的问题• 3 段式 triples• 4 项基本原则• 5 星排行• “ 关联”的不同层次 – sameAs – about similar concepts ( closeMatch ) – Classes expressed in RDF graph structure – Connected various classes
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×