从情报检索到可信网络
——谈张琪玉教授情报语言学思想在网络时代的意义
刘炜
kevenlw@gmail.com
张琪玉情报语言学思想研讨会·•∙上海·•∙2014.6
2
内容
1. 张琪玉教授情报语言学思想研修心得
2. 一个西方索引学先驱的故事
3. 可信网络,从情报语言做起
3
一. 张琪玉教授情报
语言学思想研修心得
4
“情报检索语⾔言是根据情报检索的需要⽽而创制的
⼈人⼯工语⾔言。”
–––张琪⽟玉《情报检索语⾔言》绪论第⼀一节第1段
5
–––张琪⽟玉《情报检索语⾔言⼤大纲》第⼀一章第⼀一节第3段
“情报检索语⾔言是表达⼀一系列概括⽂文献情报
内容的概念及其相互关系的概念标识系统。”
6
–––张琪⽟玉《情报检索语⾔言⼤大纲》第⼀一章
“概念逻辑和知识分类是情报检索语⾔言的基
础。”
“事物、概念、语词三者是辩证统⼀一关
系。”
“情报检索语⾔言不仅要表达⼀一个个不同的概
念,⽽而且还要显⽰示各种概念之间的逻辑关系。”
7
8
–––张琪⽟玉《情报检索语⾔言》绪论第⼀一节第5段
“情报检索的全过程包括情报的存贮和检索
两个⽅方⾯面。情报存贮是指编制检索⼯工具和建⽴立
建索系统;情报检索即是利⽤用这些检索⼯工具和
检索系统来查找所需的情报。”
9
“提⾼高情报检索效
率,特别是提⾼高检全率
和检准率以及情报检索
计算机化程度,是现今
情报检索语⾔言研究的主
要⺫⽬目标。”
–––张琪⽟玉《情报检索语⾔言⼤大纲》第⼀一章绪论第⼀一节末句段
10
核心思想
1. 情报语言是关于概念的。概念逻辑和知识分类
提供了情报语言的基础。概念和概念间的关系的表
示是情报语言要解决的关键问题。
2. 情报语言应用于情报系统的完整过程,包括存
储过程和检索过程。这两个过程通过应用情报语言
对文献内容和提...
其它思想
1. 数据库就是信息时代的索引
2. 数据库推动了索引工作的现代化
3. 当前索引事业发展的重点是数据库建设
4. 网络信息检索工具是新颖的索引
5. 自然语言完全取代索引语言但神话不可能实现
6. 万事万物皆可索引
……
12
学科-事物概念组配型检索语言
1. 学科聚类与事物聚类结合
2. 先组式与后组式语言结合
3. 人工语言与自然语言结合
4. 号码标识与语词标识结合
5. 不变概念代码与可变概念体系结合
……
13
二. 布撒神父的故事
Roberto A. Busa!
1913 - 2011
15
Saint Thomas Aquinas!
1225 - 1274
16
Thomas Watson!
1874 - 1956
17
Roberto A. Busa!
1913 - 201118
• 词语在⽂文本中的位置
• 特殊参考标识
• 词语本⾝身
• ⽂文本中词语的数量
• 前⼀一个词语中第⼀一个字⺟母
• 后⼀一个词语中的第⼀一个字⺟母
• 表格卡⽚片号
• 款⺫⽬目卡⽚片号
19
20
21
http://www.alice.id.tue.nl/references/busa-1980.pdf
罗伯特·•∙布撒(Father  Roberto  Busa)  
耶稣会会士,计算机语言的发明者,超文本应用的
先驱,伟大的和不朽的托马斯全集索引的编纂者。
在相关领域领先美国同行15年。
23
布撒神父认为,计算机技术的应用能够:
• 将学者从低级繁杂的资料收集和整理工作中解脱
出来;
• 专注于高层次的学术发现;
• 进而加快研究速度,提升研究效率。
而且更加重要的是:
• 给学者提供全新视角、媒介、方法、工具和平台,
实现研究的范...
布撒神父毕其一生,编撰了托马斯全
集索引。该项目是一个不可多得的、完整
而典型的数字人文案例,也是索引学的实
践案例,伴随了信息技术从婴儿期到所向
披靡的青年期。
由于他创造性地应用了几乎所有可能
的计算机方法进行人文学科研究,被尊为
数字人文...
26
三. 可信网络
从情报语言做起
由网络带来的追问
1. 情报检索语言和索引的对象都是文献吗?知识在细粒
度化、多媒体化
2. 情报语言的本质是什么?搜索引擎是否应用了情报语
言?
3. 情报语言学除了检索语言(KOS)之外,还有什么?规
范档是吗?万事万物的属性词表是吗?取值...
唯一不变的是变化本身
1. 索引对象的普遍化:万事万物皆有属性,且皆可
寻找到规律,进行结构化。
2. 索引点(索引项、检索点)的任意化(数字化之
后都是数字,可融合)
3. 情报检索语言的泛化(传统的几种类型:分类、
主题、标题、关键词等
4...
网络时代的意义
1. 情报语言是关于概念的。概念逻辑和知识分类提供了情报语
言的基础。概念和概念间的关系的表示是情报语言要解决的关键问
题。

说明:基于概念,就意味着形式化;规范控制的核心:即词表规范
;概念体系:本体(RDFS、SOKS、O...
学科-事物概念组配型检索语言
1. 学科聚类与事物聚类结合—>面向对象
2. 先组式与后组式语言结合—>面向机器
3. 人工语言与自然语言结合—>面向知识
4. 号码标识与语词标识结合—>面向代码
5. 不变概念代码与可变概念体系结合—面向形式...
可信网络 Web of Trust
32
概念词表的网络(Web)扩展
1. URI作为ID标目
2. 用HTTP URI获取
3. 用RDF给出有意义的描述
4. 用URI作为RDF的内容,关联出去
33
以语义技术发布情报语言(Web化/RDF化),
并提供自动的映射、组配等服务(...
张琪玉教授把情报检索现象和系统的
建设上升为一种理论,进而建立一门学科。
这是一个具有中国特色的创举。
张教授的情报语言学思想依旧前沿,
我们跟进得并不多。特别是进入数字时代,
很多很有价值的普遍性原理并没有得到阐
扬,我们更多地沉迷于工具论,...
期待突破!
张琪玉情报语言学思想研讨会·•∙上海·•∙2014.6
Upcoming SlideShare
Loading in...5
×

从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义

343

Published on

一点感想

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
343
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义

  1. 1. 从情报检索到可信网络 ——谈张琪玉教授情报语言学思想在网络时代的意义 刘炜 kevenlw@gmail.com 张琪玉情报语言学思想研讨会·•∙上海·•∙2014.6
  2. 2. 2
  3. 3. 内容 1. 张琪玉教授情报语言学思想研修心得 2. 一个西方索引学先驱的故事 3. 可信网络,从情报语言做起 3
  4. 4. 一. 张琪玉教授情报 语言学思想研修心得 4
  5. 5. “情报检索语⾔言是根据情报检索的需要⽽而创制的 ⼈人⼯工语⾔言。” –––张琪⽟玉《情报检索语⾔言》绪论第⼀一节第1段 5
  6. 6. –––张琪⽟玉《情报检索语⾔言⼤大纲》第⼀一章第⼀一节第3段 “情报检索语⾔言是表达⼀一系列概括⽂文献情报 内容的概念及其相互关系的概念标识系统。” 6
  7. 7. –––张琪⽟玉《情报检索语⾔言⼤大纲》第⼀一章 “概念逻辑和知识分类是情报检索语⾔言的基 础。” “事物、概念、语词三者是辩证统⼀一关 系。” “情报检索语⾔言不仅要表达⼀一个个不同的概 念,⽽而且还要显⽰示各种概念之间的逻辑关系。” 7
  8. 8. 8
  9. 9. –––张琪⽟玉《情报检索语⾔言》绪论第⼀一节第5段 “情报检索的全过程包括情报的存贮和检索 两个⽅方⾯面。情报存贮是指编制检索⼯工具和建⽴立 建索系统;情报检索即是利⽤用这些检索⼯工具和 检索系统来查找所需的情报。” 9
  10. 10. “提⾼高情报检索效 率,特别是提⾼高检全率 和检准率以及情报检索 计算机化程度,是现今 情报检索语⾔言研究的主 要⺫⽬目标。” –––张琪⽟玉《情报检索语⾔言⼤大纲》第⼀一章绪论第⼀一节末句段 10
  11. 11. 核心思想 1. 情报语言是关于概念的。概念逻辑和知识分类 提供了情报语言的基础。概念和概念间的关系的表 示是情报语言要解决的关键问题。 2. 情报语言应用于情报系统的完整过程,包括存 储过程和检索过程。这两个过程通过应用情报语言 对文献内容和提问表达进行描述来实现。 3. 情报语言的根本目的是提高情报系统的检索效 率,检索效率可以有一个指标体系进行衡量。 11
  12. 12. 其它思想 1. 数据库就是信息时代的索引 2. 数据库推动了索引工作的现代化 3. 当前索引事业发展的重点是数据库建设 4. 网络信息检索工具是新颖的索引 5. 自然语言完全取代索引语言但神话不可能实现 6. 万事万物皆可索引 …… 12
  13. 13. 学科-事物概念组配型检索语言 1. 学科聚类与事物聚类结合 2. 先组式与后组式语言结合 3. 人工语言与自然语言结合 4. 号码标识与语词标识结合 5. 不变概念代码与可变概念体系结合 …… 13
  14. 14. 二. 布撒神父的故事
  15. 15. Roberto A. Busa! 1913 - 2011 15
  16. 16. Saint Thomas Aquinas! 1225 - 1274 16
  17. 17. Thomas Watson! 1874 - 1956 17
  18. 18. Roberto A. Busa! 1913 - 201118
  19. 19. • 词语在⽂文本中的位置 • 特殊参考标识 • 词语本⾝身 • ⽂文本中词语的数量 • 前⼀一个词语中第⼀一个字⺟母 • 后⼀一个词语中的第⼀一个字⺟母 • 表格卡⽚片号 • 款⺫⽬目卡⽚片号 19
  20. 20. 20
  21. 21. 21
  22. 22. http://www.alice.id.tue.nl/references/busa-1980.pdf
  23. 23. 罗伯特·•∙布撒(Father  Roberto  Busa)   耶稣会会士,计算机语言的发明者,超文本应用的 先驱,伟大的和不朽的托马斯全集索引的编纂者。 在相关领域领先美国同行15年。 23
  24. 24. 布撒神父认为,计算机技术的应用能够: • 将学者从低级繁杂的资料收集和整理工作中解脱 出来; • 专注于高层次的学术发现; • 进而加快研究速度,提升研究效率。 而且更加重要的是: • 给学者提供全新视角、媒介、方法、工具和平台, 实现研究的范式变革; • 不仅应将索引作为一种检索工具,而且更应该被 当作一种诠释方法。 24
  25. 25. 布撒神父毕其一生,编撰了托马斯全 集索引。该项目是一个不可多得的、完整 而典型的数字人文案例,也是索引学的实 践案例,伴随了信息技术从婴儿期到所向 披靡的青年期。 由于他创造性地应用了几乎所有可能 的计算机方法进行人文学科研究,被尊为 数字人文的开创者。他的思想不局限于一 套索引,当然仅仅这一套索引也足以让人 叹为观止。 25
  26. 26. 26
  27. 27. 三. 可信网络 从情报语言做起
  28. 28. 由网络带来的追问 1. 情报检索语言和索引的对象都是文献吗?知识在细粒 度化、多媒体化 2. 情报语言的本质是什么?搜索引擎是否应用了情报语 言? 3. 情报语言学除了检索语言(KOS)之外,还有什么?规 范档是吗?万事万物的属性词表是吗?取值词表是吗? 4. 情报语言学(检索语言)与索引学的目的除了提高检 索系统效率,还有什么? 5. 情报检索语言用于检索的功能如何强化,交由机器自 动(情境)感知、自动匹配? 6. 如何从文献索引到基于任何形态和媒体的内容索引(支 持大数据挖掘和云计算?),是情报语言学常保青春? …… 28
  29. 29. 唯一不变的是变化本身 1. 索引对象的普遍化:万事万物皆有属性,且皆可 寻找到规律,进行结构化。 2. 索引点(索引项、检索点)的任意化(数字化之 后都是数字,可融合) 3. 情报检索语言的泛化(传统的几种类型:分类、 主题、标题、关键词等 4. 标引(特征提取)的自动化 5. 规范控制的全网域化 6. 知识发现系统的全面应用 29
  30. 30. 网络时代的意义 1. 情报语言是关于概念的。概念逻辑和知识分类提供了情报语 言的基础。概念和概念间的关系的表示是情报语言要解决的关键问 题。
 说明:基于概念,就意味着形式化;规范控制的核心:即词表规范 ;概念体系:本体(RDFS、SOKS、OWL) 2. 情报语言应用于情报系统的完整过程,包括存储过程和检索 过程。这两个过程通过应用情报语言对文献内容和提问表达进行描 述来实现。
 说明:索引即建模并建立概念逻辑视图,可以多个视图;表达式的 处理可以经由系统自动实现,并根据社会性实践提供个性化体验。 3. 情报语言的根本目的是提高情报系统的检索效率,检索效率 可以有一个指标体系进行衡量。
 说明:Web应用的开放世界假说要求效率的计算有不同的方法,但 目前的指标体系可以作为一种标准参照。 30
  31. 31. 学科-事物概念组配型检索语言 1. 学科聚类与事物聚类结合—>面向对象 2. 先组式与后组式语言结合—>面向机器 3. 人工语言与自然语言结合—>面向知识 4. 号码标识与语词标识结合—>面向代码 5. 不变概念代码与可变概念体系结合—面向形式化本体 情报语言隐入幕后, 但仍需图书情报工作者进行设计、应用。 31
  32. 32. 可信网络 Web of Trust 32
  33. 33. 概念词表的网络(Web)扩展 1. URI作为ID标目 2. 用HTTP URI获取 3. 用RDF给出有意义的描述 4. 用URI作为RDF的内容,关联出去 33 以语义技术发布情报语言(Web化/RDF化), 并提供自动的映射、组配等服务(Web服务化):
  34. 34. 张琪玉教授把情报检索现象和系统的 建设上升为一种理论,进而建立一门学科。 这是一个具有中国特色的创举。 张教授的情报语言学思想依旧前沿, 我们跟进得并不多。特别是进入数字时代, 很多很有价值的普遍性原理并没有得到阐 扬,我们更多地沉迷于工具论,不愿意进 行形而上的思考,无法上升到理论层面, 无法使数字时代的情报检索得到整体提升。 34
  35. 35. 期待突破!
  36. 36. 张琪玉情报语言学思想研讨会·•∙上海·•∙2014.6
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×