Digitalindexing

872 views

Published on

在中国索引学会2010年年会上的发言
索引学在语义Web时代的发展:“数字索引学”初探

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
872
On SlideShare
0
From Embeds
0
Number of Embeds
37
Actions
Shares
0
Downloads
17
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • 本文是学习索引学,特别是学习《张琪玉索引学文集》一书的读书心得,结合了对数字图书馆信息环境和最新技术的理解。
  • 结构化 -- 带来“单元性” -- 要有 URI 和元数据格式; 有序化 -- 产生“组织性” -- 要采用知识体系(本体)进行组织;可视化 -- 造就“交互性” -- 要有二维、三维界面进行时空或抽象呈现; 传统索引的有序化主要是指对索引单元(款目)的编排以字符或语义单元的自然属性(通过音序、字形编码顺序来检字)来排列的方式,在印刷过程中通过排版技巧(字体字号空格缩进段落等)来实现,可以认为其有序化和可视化是一体的。
  • 在“数据库就是索引”的基础上更加前进一步,从互联网和 Web 环境下索引如何存在和发展的角度进行探讨。
  • 无反向链接功能是开放系统索引的一个共性问题。全国报刊索引虽然有指向原文的信息(通常作为“线索”),但是也需要在其它全文数据库中检索(可能只需要查询固定刊名或 DOI )才能“引得”。
  • 数字索引的反向链接最简单的办法是采用类似博客平台的 traceback (引用通告) ping 自动留言,只要做了索引,就在索引网站留下一个链接。不足之处是链接无序,无法汇总,以及可能会存在大量垃圾链接。
  • 互联网存取协议: TCP/IP 解决了物理 / 信号层的传输问题, Web 解决的是图文文本的获取和显示问题,由这三个标准负责。这三个标准经过扩展、引申出很多动态 Web 方案。
  • Digitalindexing

    1. 1. “ 数字索引”前景初探 <ul><li>刘炜 </li></ul><ul><li>[email_address] </li></ul>
    2. 2. 什么是索引? <ul><li>“ 索引是对某种文献或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种事项(如地区、人物、机构、事件、生物、矿物、产品、设 备、公式、数据、著作等)以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便检索的一种工具。” </li></ul><ul><li>—— 《张琪玉索引学文集》 p.1 </li></ul>
    3. 3. “ 索引”的特征 <ul><li>索引与目录、文摘、题录一样,都是提供信息检索的方法和工具,通过析出知识单元(或在另一处建立知识单元的指代物)、加以有序组织,从而实现在大量的信息或知识中定位语义单元,以方便人们进行查找、参考、引用等。 </li></ul>
    4. 4. “ 索引”的三要素 <ul><li>单元性(结构化) </li></ul><ul><li>有序性(可视化) </li></ul><ul><li>“ 引得”性(可检索) </li></ul><ul><ul><li>“ 引得”性是指它可以通过“索引”单元指向出处,达到可检,甚至具有双向参照功能。 </li></ul></ul>
    5. 5. 什么是“数字索引”? <ul><li>“ 数字索引”是数字化文献或文献集合中,对所包含的各组成单元、局部主题,或所涉及的各种事项(如时间、地点、人物、机构、事件、物质、产品、设备、公式、数据、著作等任何有独立标识的网络存在)赋以可解析标识(如各类 URI )并辑录汇总,按一定顺序或可视化形式编排的数据集合。应用时可在文献或文献集合中标注链接,同时在索引单元中标注指向文献的反向链接,以便能方便地进行双向参照、参考、引用、检索或进行可视化呈现。 </li></ul>
    6. 6. “ 数字索引”的研究课题 <ul><li>除与传统索引进行转换之外(如书后索引的自动建立、方正格式等的索引点标注等),数字索引学还将研究: </li></ul><ul><li>资源标识体系(索引什么,如何标识,如各种 URI ); </li></ul><ul><li>元数据格式(如何描述、表达、互操作,如 RDFa 、各种微格式等); </li></ul><ul><li>有序化(自然顺序之外,还包括本体和各类 KOS )组织方式及可视化呈现的方法和技术; </li></ul><ul><li>自动索引(信息或知识单元的自动抽取) </li></ul>
    7. 7. “ 数字索引”举例 <ul><li>语义版的维基百科( DBPedia ) </li></ul><ul><ul><li>结构,开放 API ,可基于数据做新的应用 </li></ul></ul><ul><ul><li>秩序,提供各种视图(包括地理、时序) </li></ul></ul><ul><ul><li>引用方便(条目都有固定 URI ,还可用 SPARQL 进行知识检索) </li></ul></ul><ul><ul><li>缺陷:尚无反向链接功能 </li></ul></ul><ul><li>其它可能的例子参见 http://richard.cyganiak.de/2007/10/lod/imagemap.html </li></ul>
    8. 8. 什么不是“数字索引” <ul><li>搜索引擎不可能是数字索引,因为: </li></ul><ul><ul><li>结构不开放 (以字词匹配而不是概念语义单元),不具有明确的信息或知识的结构单元; </li></ul></ul><ul><ul><li>秩序不公开(且算法不断调整),无法将整个信息单元有序组织呈现; </li></ul></ul><ul><ul><li>无固定 URI ( CoolURI )可以参考引用。 </li></ul></ul>
    9. 9. 传统索引与“数字索引”比较 传统索引 “ 数字索引” 对象 印刷文献、文献集合 网络文献、全文数据库 标目 词汇 / 概念 URI 指引 页码 / 位置 双向链接 排序 字顺 / 音序 多种 / 可视化 功能 查索 参考引用、关系扩展
    10. 10. “ 数字索引”的技术基础 <ul><li>Web 架构; </li></ul><ul><li>XML/RDF 编码; </li></ul><ul><li>语义描述(元数据与本体标准); </li></ul><ul><li>关联数据; </li></ul><ul><li>规范控制; </li></ul><ul><li>信息可视化 </li></ul><ul><li>提供编码(描述)和链接(定位、检索)技术基础,编码的单元甚至比“信息”更进一步,而达到“知识单元”的层次。 </li></ul>
    11. 11. Web 架构 <ul><li>HTTP 协议(建立在 TCP/IP 基础上) </li></ul><ul><li>URL (提供域名解析和获取方式) </li></ul><ul><li>HTML (以及各种动态网页形式) </li></ul>
    12. 12. XML/RDF 编码 <ul><li>XML :对于“信息”进行机读描述的元语言; </li></ul><ul><li>RDF :对于“知识”进行机读描述的框架 ( 模型 ) ,即三元组模型,可用 XML 来描述。 </li></ul>
    13. 13. 语义描述 <ul><li>以元数据描述信息或知识; </li></ul><ul><li>以本体描述模型; </li></ul><ul><li>语义信息系统包含规范的语义结构,通常是基于概念的,具有逻辑联系。 </li></ul>
    14. 14. 关联数据 <ul><li>语义技术的首次规模化应用 </li></ul><ul><li>四原则: </li></ul><ul><ul><li>原则一:使用 URI 作为任何事物的标识名称; </li></ul></ul><ul><ul><li>原则二:使用 HTTP URI 使任何人都可以访问这些标识名称; </li></ul></ul><ul><ul><li>原则三:当有人访问某个标识名称时,提供有用的信息; </li></ul></ul><ul><ul><li>原则四:尽可能提供相关的 URI ,以使人们可以发现更多的事物。 </li></ul></ul>
    15. 15. 规范控制 <ul><li>根据传统的书目控制理论,提供什么该“索引”什么可以不“索引”的方法; </li></ul><ul><li>索引档可以是共享的术语集,因此可以起到规范控制的作用,即保持标目的一致性; </li></ul><ul><li>通过术语之间关系的揭示,可以建立文献中信息单元之间隐含的联系。 </li></ul>
    16. 16. 信息可视化 <ul><li>云图 </li></ul><ul><li>树状图(层次) </li></ul><ul><li>地图 </li></ul><ul><li>时序图 </li></ul><ul><li>各种方法和软件(很多开放资源) </li></ul>
    17. 18. 《全国报刊索引》如何成为“数字索引”? <ul><li>确立新的目标:为“引得”互联网中文学术资源提供方法、平台和索引元素集 </li></ul><ul><li>URI : DOI , OpenURL ,提供解析 </li></ul><ul><li>权威档(作者、刊名、机构、主题、事件… ) ,开发规范数据库,供人参引 </li></ul><ul><li>知识组织:提供分类主题可视化和大众分类法功能,考虑引入 SKOS 和本体 </li></ul><ul><li>探索新的商务模式,开放检索 </li></ul>
    18. 19. “ 数字索引”展望 <ul><li>依托语义技术,立足领域应用,为各类数据库信息库知识库提供组织、整序和查检工具 </li></ul><ul><ul><li>确立索引单元,参与和评估各类描述模式 ( 即 Metadata Schema) 的可用性,并促其标准化 </li></ul></ul><ul><ul><li>创新组织方式,引入基于 Web 的知识编码(如 SKOS ) </li></ul></ul><ul><ul><li>探索各类开放索引的互操作方法 </li></ul></ul><ul><li>大量的(链接)计量学规律研究 </li></ul>

    ×