Digitalindexing
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Digitalindexing

on

  • 913 views

在中国索引学会2010年年会上的发言

在中国索引学会2010年年会上的发言
索引学在语义Web时代的发展:“数字索引学”初探

Statistics

Views

Total Views
913
Views on SlideShare
879
Embed Views
34

Actions

Likes
0
Downloads
15
Comments
0

2 Embeds 34

http://librarysalon.com 33
http://www.librarysalon.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial LicenseCC Attribution-NonCommercial License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • 本文是学习索引学,特别是学习《张琪玉索引学文集》一书的读书心得,结合了对数字图书馆信息环境和最新技术的理解。
  • 结构化 -- 带来“单元性” -- 要有 URI 和元数据格式; 有序化 -- 产生“组织性” -- 要采用知识体系(本体)进行组织;可视化 -- 造就“交互性” -- 要有二维、三维界面进行时空或抽象呈现; 传统索引的有序化主要是指对索引单元(款目)的编排以字符或语义单元的自然属性(通过音序、字形编码顺序来检字)来排列的方式,在印刷过程中通过排版技巧(字体字号空格缩进段落等)来实现,可以认为其有序化和可视化是一体的。
  • 在“数据库就是索引”的基础上更加前进一步,从互联网和 Web 环境下索引如何存在和发展的角度进行探讨。
  • 无反向链接功能是开放系统索引的一个共性问题。全国报刊索引虽然有指向原文的信息(通常作为“线索”),但是也需要在其它全文数据库中检索(可能只需要查询固定刊名或 DOI )才能“引得”。
  • 数字索引的反向链接最简单的办法是采用类似博客平台的 traceback (引用通告) ping 自动留言,只要做了索引,就在索引网站留下一个链接。不足之处是链接无序,无法汇总,以及可能会存在大量垃圾链接。
  • 互联网存取协议: TCP/IP 解决了物理 / 信号层的传输问题, Web 解决的是图文文本的获取和显示问题,由这三个标准负责。这三个标准经过扩展、引申出很多动态 Web 方案。

Digitalindexing Presentation Transcript

  • 1. “ 数字索引”前景初探
    • 刘炜
    • [email_address]
  • 2. 什么是索引?
    • “ 索引是对某种文献或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种事项(如地区、人物、机构、事件、生物、矿物、产品、设 备、公式、数据、著作等)以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便检索的一种工具。”
    • —— 《张琪玉索引学文集》 p.1
  • 3. “ 索引”的特征
    • 索引与目录、文摘、题录一样,都是提供信息检索的方法和工具,通过析出知识单元(或在另一处建立知识单元的指代物)、加以有序组织,从而实现在大量的信息或知识中定位语义单元,以方便人们进行查找、参考、引用等。
  • 4. “ 索引”的三要素
    • 单元性(结构化)
    • 有序性(可视化)
    • “ 引得”性(可检索)
      • “ 引得”性是指它可以通过“索引”单元指向出处,达到可检,甚至具有双向参照功能。
  • 5. 什么是“数字索引”?
    • “ 数字索引”是数字化文献或文献集合中,对所包含的各组成单元、局部主题,或所涉及的各种事项(如时间、地点、人物、机构、事件、物质、产品、设备、公式、数据、著作等任何有独立标识的网络存在)赋以可解析标识(如各类 URI )并辑录汇总,按一定顺序或可视化形式编排的数据集合。应用时可在文献或文献集合中标注链接,同时在索引单元中标注指向文献的反向链接,以便能方便地进行双向参照、参考、引用、检索或进行可视化呈现。
  • 6. “ 数字索引”的研究课题
    • 除与传统索引进行转换之外(如书后索引的自动建立、方正格式等的索引点标注等),数字索引学还将研究:
    • 资源标识体系(索引什么,如何标识,如各种 URI );
    • 元数据格式(如何描述、表达、互操作,如 RDFa 、各种微格式等);
    • 有序化(自然顺序之外,还包括本体和各类 KOS )组织方式及可视化呈现的方法和技术;
    • 自动索引(信息或知识单元的自动抽取)
  • 7. “ 数字索引”举例
    • 语义版的维基百科( DBPedia )
      • 结构,开放 API ,可基于数据做新的应用
      • 秩序,提供各种视图(包括地理、时序)
      • 引用方便(条目都有固定 URI ,还可用 SPARQL 进行知识检索)
      • 缺陷:尚无反向链接功能
    • 其它可能的例子参见 http://richard.cyganiak.de/2007/10/lod/imagemap.html
  • 8. 什么不是“数字索引”
    • 搜索引擎不可能是数字索引,因为:
      • 结构不开放 (以字词匹配而不是概念语义单元),不具有明确的信息或知识的结构单元;
      • 秩序不公开(且算法不断调整),无法将整个信息单元有序组织呈现;
      • 无固定 URI ( CoolURI )可以参考引用。
  • 9. 传统索引与“数字索引”比较 传统索引 “ 数字索引” 对象 印刷文献、文献集合 网络文献、全文数据库 标目 词汇 / 概念 URI 指引 页码 / 位置 双向链接 排序 字顺 / 音序 多种 / 可视化 功能 查索 参考引用、关系扩展
  • 10. “ 数字索引”的技术基础
    • Web 架构;
    • XML/RDF 编码;
    • 语义描述(元数据与本体标准);
    • 关联数据;
    • 规范控制;
    • 信息可视化
    • 提供编码(描述)和链接(定位、检索)技术基础,编码的单元甚至比“信息”更进一步,而达到“知识单元”的层次。
  • 11. Web 架构
    • HTTP 协议(建立在 TCP/IP 基础上)
    • URL (提供域名解析和获取方式)
    • HTML (以及各种动态网页形式)
  • 12. XML/RDF 编码
    • XML :对于“信息”进行机读描述的元语言;
    • RDF :对于“知识”进行机读描述的框架 ( 模型 ) ,即三元组模型,可用 XML 来描述。
  • 13. 语义描述
    • 以元数据描述信息或知识;
    • 以本体描述模型;
    • 语义信息系统包含规范的语义结构,通常是基于概念的,具有逻辑联系。
  • 14. 关联数据
    • 语义技术的首次规模化应用
    • 四原则:
      • 原则一:使用 URI 作为任何事物的标识名称;
      • 原则二:使用 HTTP URI 使任何人都可以访问这些标识名称;
      • 原则三:当有人访问某个标识名称时,提供有用的信息;
      • 原则四:尽可能提供相关的 URI ,以使人们可以发现更多的事物。
  • 15. 规范控制
    • 根据传统的书目控制理论,提供什么该“索引”什么可以不“索引”的方法;
    • 索引档可以是共享的术语集,因此可以起到规范控制的作用,即保持标目的一致性;
    • 通过术语之间关系的揭示,可以建立文献中信息单元之间隐含的联系。
  • 16. 信息可视化
    • 云图
    • 树状图(层次)
    • 地图
    • 时序图
    • 各种方法和软件(很多开放资源)
  • 17.  
  • 18. 《全国报刊索引》如何成为“数字索引”?
    • 确立新的目标:为“引得”互联网中文学术资源提供方法、平台和索引元素集
    • URI : DOI , OpenURL ,提供解析
    • 权威档(作者、刊名、机构、主题、事件… ) ,开发规范数据库,供人参引
    • 知识组织:提供分类主题可视化和大众分类法功能,考虑引入 SKOS 和本体
    • 探索新的商务模式,开放检索
  • 19. “ 数字索引”展望
    • 依托语义技术,立足领域应用,为各类数据库信息库知识库提供组织、整序和查检工具
      • 确立索引单元,参与和评估各类描述模式 ( 即 Metadata Schema) 的可用性,并促其标准化
      • 创新组织方式,引入基于 Web 的知识编码(如 SKOS )
      • 探索各类开放索引的互操作方法
    • 大量的(链接)计量学规律研究
  • 20.