元数据抽象模型与新加坡框架(更新)

3,210 views

Published on

元数据抽象模型与新加坡框架(更新)

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
3,210
On SlideShare
0
From Embeds
0
Number of Embeds
258
Actions
Shares
0
Downloads
35
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • 本来想涉及编码方案的,由于关于编码的最佳实践非常琐碎,本人也还学艺不精,而且目前应用实践还没有很大需求,暂且不讲。以后专文介绍。 文中所涉及的内容,许多为本人理解,一些为尚无定论,欢迎讨论。
  • 元数据抽象模型与新加坡框架(更新)

    1. 1. 元数据抽象模型与新加坡框架 刘炜 上海图书馆 2007 数字图书馆建设与应用研讨会 * 深圳
    2. 2. 主要内容 <ul><li>DC 元数据标准规范体系 </li></ul><ul><li>DC 元数据抽象模型 </li></ul><ul><li>DC 元数据新加坡框架:应用纲要的规范形式 </li></ul>
    3. 5. DC 元数据标准规范体系 Element | DCMES, DCQ Element |DCAM  DCAP (DCTerms++) <ul><li>DC1.0 </li></ul><ul><li>DC2.0 </li></ul>
    4. 6. DC1.0 <ul><li>元素 </li></ul><ul><li>修饰词 </li></ul><ul><ul><li>元素修饰词 ( 子元素 ) </li></ul></ul><ul><ul><li>编码体系修饰词 </li></ul></ul><ul><ul><ul><li>词表编码体系 </li></ul></ul></ul><ul><ul><ul><li>语法编码体系 </li></ul></ul></ul>
    5. 7. DC 应用纲要 1.0 <ul><li>CWA14855 定义 </li></ul><ul><li>指南性文档 </li></ul><ul><li>没有对于元数据编码的任何规定 </li></ul><ul><li>不支持 DCAM </li></ul><ul><li>不支持 Description Set ( 描述集 ) </li></ul>
    6. 8. DC 眼中的世界 (DCAM) <ul><li>任何事物都是资源 </li></ul><ul><ul><li>资源有类型 </li></ul></ul><ul><ul><li>任何资源都可以以 URI 标识 </li></ul></ul><ul><li>任何资源都有属性 </li></ul><ul><ul><li>属性词即元数据 </li></ul></ul><ul><ul><li>属性词表即元数据方案 </li></ul></ul><ul><ul><li>元数据方案可有多种形式:不 / 半 / 规范的 </li></ul></ul><ul><ul><li>应用纲要是一种正在成型的半 / 规范形式 </li></ul></ul><ul><li>任何属性都有属性值 </li></ul><ul><li>属性值有领域和范围 (domain & range) </li></ul><ul><li>属性值可以是另一个资源,可以是文字 (literal) </li></ul><ul><ul><li>取值的规范控制,即各类 KOS ,也是元数据 </li></ul></ul>
    7. 9. DCMI 类型词表 (DCTYPE) <ul><li>DC 元数据描述的资源对象可能存在的类型: </li></ul><ul><li>Collection </li></ul><ul><li>Dataset </li></ul><ul><li>Event </li></ul><ul><li>Image </li></ul><ul><ul><li>MovingImage </li></ul></ul><ul><ul><li>StillImage </li></ul></ul><ul><li>InteractiveResource </li></ul><ul><li>PhysicalObject </li></ul><ul><li>Service </li></ul><ul><li>Software </li></ul><ul><li>Text </li></ul>
    8. 10. “ 资源”的唯一必备属性: URI <ul><li>URI:Uniform Resource Identifier (RFC3986 定义 ) </li></ul><ul><li>唯一必备功能:标识资源 ( 无论是物理的还是抽象的 ) ; </li></ul><ul><li>包含三部分: </li></ul><ul><ul><li>访问资源的命名机制 </li></ul></ul><ul><ul><li>存放资源的主机名 </li></ul></ul><ul><ul><li>资源自身的名称,由路径表示 </li></ul></ul><ul><li>两种类型: </li></ul><ul><ul><li>URL 如: </li></ul></ul><ul><ul><ul><li>http://www.ietf.org/rfc/rfc3986.txt </li></ul></ul></ul><ul><ul><ul><li>mailto:java-net@java.sun.com </li></ul></ul></ul><ul><ul><ul><li>news:comp.lang.java </li></ul></ul></ul><ul><ul><li>URN 如: </li></ul></ul><ul><ul><ul><li>urn:isbn:096139210x </li></ul></ul></ul><ul><ul><ul><li>urn:doi:10.1045/november2007-kaufman </li></ul></ul></ul><ul><li>URI 是抽象类,并不规定解析 </li></ul>
    9. 11. 进一步说明 <ul><li>元数据是一种人工语言(消除歧义、明确定义、人机共读); </li></ul><ul><li>元数据元素集是描述资源各个方面的属性词表; </li></ul><ul><li>元数据取值如果规定只能从某些词表中选取,这些词表就属于受控的规范词表;这属于元素取值的 domain 和 range ; </li></ul><ul><li>元数据应用纲要是为了领域应用而制订的元数据方案的一种表达形式,目前正在成为规范的,叫做“ DC 元数据应用纲要”,核心是符合 DC 抽象模型的元数据形式化表述(也就是一种机读形式),通常可以以 RDF 形式表达; </li></ul><ul><li>应用模型(规定应用领域的各类实体及其相互关系)、著录规则等文档,也可以成为元数据应用纲要的组成部分; </li></ul><ul><li>元数据注册系统可以作为元数据元素的命名域管理体系而存在,但命名域并非一定需要注册系统进行管理; </li></ul><ul><li>元数据元素词表,包括规定元数据取值的规范词表,都可以看成是一种人工语言,每个术语都应该被赋予唯一的 URI ,都可以通过注册系统进行管理; </li></ul><ul><li>元数据形式化的表达必须采用基于 XML 的 RDF 或 OWL 等的 Schema ,著录工作单当然可以通过完整表达元数据方案各种关系和约束的 schema 来自动生成,并进行校验。当然这需要一定的环境和软件工具来实现 </li></ul>
    10. 12. Resource has property DC:Creator DC:Title DC:Subject DC:Date. .. X 主语 谓词 属性词 属性值 [optional qualifier] [optional qualifier] 修饰 / 限定词 来自 (from) : Stuart Weibel
    11. 13. Resource has Date &quot;2000-06-13&quot; Revised ISO8601 Resource has Subject &quot;Languages -- Grammar&quot; LCSH 来自 (from) : Stuart Weibel
    12. 14. DC 属性元素的“领域和范围 (Domain and Range)” 见: http://dublincore.org/documents/domain-range/index.shtml
    13. 15. DCAM 图示 ( 来自 Andy Powell) Record (encoded as html, XML, or RDF/XML Description set Resource Description (URI) Resource Description (URI) Resource Description (URI) Statement Statement Statement language (pt-BR) value URI property (URI) syntax encoding scheme Vocabulary encoding scheme value string
    14. 16. 新加坡框架进一步定义了 DC 应用纲要 <ul><li>符合 DC 抽象模型 (DCAM) 的应用纲要 (“DC 应用纲要” ) 包含如下一系列文档: </li></ul><ul><li>功能需求说明 ( 必须 desirable) </li></ul><ul><li>领域模型 ( 应有 mandatory) </li></ul><ul><li>元素集描述 (DSP) ( 应有 mandatory) </li></ul><ul><li>应用指南 ( 可选 ) </li></ul><ul><li>编码句法指南 ( 可选 ) </li></ul>
    15. 17. 应用指南 功能需求 领域模型 元素集 描述 编码指南 与数据格式 社区领域 模型 元素词表 DCMI 抽象模型 DCMI 句法指南 RDF/S RDF 标注 Annotate 建立基础 建立基础 建立基础 使用 使用 建立基础 建立基础 建立基础 建立基础 建立基础 建立基础 基础标准 领域标准 DC 应用纲要 新加坡框架图示 ( 来自 Tom Baker)
    16. 18. 描述集纲要 (DSP) <ul><li>定义了描述集在结构方面的约束 : </li></ul><ul><ul><li>允许出现怎样的描述 </li></ul></ul><ul><ul><li>允许采用怎样的属性 </li></ul></ul><ul><ul><li>怎样的属性值聚合方式 </li></ul></ul><ul><li>以 XML 表达 (RDF 当然是 XML) </li></ul><ul><li>忽略元素的定义 ( 通过 URI 参考 ) </li></ul><ul><li>忽略版本控制 </li></ul><ul><li>不要求应用指南著录规范等给人读的文档 </li></ul>翻译、修改自 Mikael Nelsson 的演讲稿
    17. 19. 参见: http://dublincore.org/architecturewiki/DescriptionSetProfile
    18. 20. 当前元数据研究和应用中的问题 <ul><li>人读而非机读 </li></ul><ul><li>语义的模糊性 </li></ul><ul><li>模型的完整性 </li></ul><ul><li>执行的一致性 </li></ul><ul><li>数据的独立性 </li></ul><ul><li>基本上无法编码实现(包括数据库系统开发) </li></ul><ul><li>我们目前的元数据方案可以说只完成了 MARC 数据格式的定义,还没有 2709 格式使其真正机器可读 </li></ul><ul><li>从这一点来说,目前各类元数据著作、方案中值得推敲的地方还是比较多的 </li></ul>
    19. 21. 一些建议 <ul><li>建立本地化扩展术语的命名域参考 </li></ul><ul><li>建立元数据应用纲要 ( 词表 ) 及编码的登记注册体系 </li></ul><ul><li>修订目前的领域应用元数据应用纲要 </li></ul><ul><li>推进元数据 IDE 软件和工具的开发 </li></ul><ul><li>建立数字图书馆标准规范的开放讨论维护机制 </li></ul><ul><li>“ 机读版”元数据方案的推广、培训 </li></ul>
    20. 22. 问题讨论
    21. 23. 元素名是否应该翻译? dc :creator [Server in Germany] [Server in CAS] [DCMI Server] (上图改编自 Stuart Weibel 有关演示文稿) <ul><li>元素名只是一个机器识别的符号 (Token) 而已 </li></ul><ul><li>一个符号 (token) ,多种翻译 (labels) </li></ul><ul><li>如果翻译了,就不是 DC 了 (“ 盗版 DC“ ? ) </li></ul>“ Verfasser” 标签 “ Creator” 标签 “ 创建者” 标签
    22. 24. 元数据“记录”是怎样的结构? <ul><li>过去称为记录的,多为现在所称的 描述 </li></ul><ul><ul><li>平面化 (MARC 中的记录 ) </li></ul></ul><ul><ul><li>“ 虚拟记录” </li></ul></ul><ul><ul><li>传统结构:数据库记录 - 文件系统 </li></ul></ul><ul><ul><li>描述 / 描述集 </li></ul></ul><ul><ul><ul><li>1:1 原则是针对描述而言,而非记录 </li></ul></ul></ul><ul><ul><ul><li>描述 / 描述集可以通过不同的记录形式 / 格式来实现 </li></ul></ul></ul>
    23. 25. DCAM 打散了资源描述,在具体应用中如何实现? <ul><li>DCAM 是一个抽象模型,不考虑具体实现(如记录的统一、聚类等); </li></ul><ul><li>DCAM 提供需求分析、功能设计的思路和方法,应用系统可以采用任何方式实现功能; </li></ul><ul><li>目前 URI 是一切 Web 资源描述的基础,包括 URL 和 URN 两类。 URN(eg:DOI/ISBN ,甚至各类词表 ) 如何实现全局解析,不是 Web 的事情,是行业应用的事情; </li></ul><ul><li>URI 不是完美的资源标识方法,新的方法正在研讨中 </li></ul>
    24. 26. 元数据抽象模型与新加坡框架 谢谢!

    ×