IT4L2014
2014年图书馆前沿技术论坛  
“数字人文与语义技术”
主办:  
上海市图书馆学会              DCMI都柏林核心元数据  
中图学会数字图书馆研究与建设委员会              上海图书馆
承办:  
上海市图书馆学会信息技术专业委员会
协办:  
南京大学数图技术实验室    万达信息股份有限公司
http://society.library.sh.cn
本次会议简要议程
上午:  
• 刘炜:数字人文与关联数据  
• 曾蕾:语义技术与知识再发现--探索心得  
茶歇(10:10-10:20)  
• 秦健:从欧美数字人文奖助项目说开去  
• 林海青:用GIS数据呈现历史事件--以洋务运动为例  
• 张亮:数字人文中的IT推动力——以二十世纪中国人物志原型系统为例
本次会议简要议程
午餐(12:00-13:30)  
下午  
• 王曼隽:“上海年华”回顾与展望  
• 杨佳:数字人文中的可视化技术  
• 夏翠娟:以书目框架建模的上图家谱知识库系统  
• 陈涛、张永娟:关联数据在生化学会会员系统中的应用  
专家面对面(主持:曾蕾教授)  
• 抽奖
刘炜
kevenlw@gmail.com
人文研究中的计算:
数据、平台与技术
IT4L2014
数字人文与关联数据
Digital Humanities and Linked Data
IT4L2014
刘炜
kevenlw@gmail.com
内容
• 什么是数字人文?
• 人文何以下嫁数字?
• 数字人文与图书馆
• 数字人文与关联数据
什么是数字人文?
什么是数字人文?
什么是数字人文?
数字人文是一个重要的多学科(交叉)领域,指应用数
字技术从事人文科学研究。旨在建立应用和模型,不仅是
一种以信息技术作为工具的新型研究,为人文科学创建新
的应用和新的模型,而且促进计算机科学的进步。同时它
也研究信息技术对于文化遗产和人类记忆机构,图书馆档
案馆以及数字文化的影响。
什么是数字人文?
A working definition:
Application of digital resources and methods to
humanistic inquiry. 应用数字资源与方法回答人文问题
——Waters 2013, 4
什么是“人文”?
“人文”一词起源于文艺复兴时期意大利学者,指对于经典
的研究(Classic Study),对应于以神为中心的神学研究
包括艺术、文学、音乐、舞蹈、喜剧、建筑、哲学等人类
文化的各种表达
涉及语言学(古代或现代),文学,历史,哲学,宗教(有
意思的是,甚至包括了神学),视觉和行为艺术等,有时还包
括人类学、地区研究、传播学、文化研究、法律等。
数字人文是——
应用计算机(数字)技术研
究人文科学的统称。
• 并非一个学科,而是一个多学科交叉领域
• 数字与人文已超越了工具和对象的关系,是一种互相渗
透、彼此强化的关系
• 数字方法正在为人文科学创建新的应用、建立新的范式
和模型,人文科学又反过来促进了计算机科学的发展
https://twitter.com/scott_bot/status/465264351494955008/photo/1
人文就是人文。就像并不存在印刷人文一样,
当所有的人文都负载于数字媒体的之上,其实就无
所谓“数字”人文了
然而这并不是说我们可以无视数字技术的力量,
或对数字技术的巨大缺陷视而不见,而只能说数字
成了人性的一部分而变得更加重要,我们迫切需要
有一种新的人文解释,来驾驭这种新的“人性”。
数字如何高攀人文?
罗伯特·•∙布撒神父(1913-2011)  
数字人文的先驱和奠基者  
耶稣会会士,计算机语言的发明者,超文本应用的
先驱,伟大的和不朽的托马斯全集索引的编纂者
Saint Thomas Aquinas!
1225 - 1274
Thomas Watson!
1874 - 1956
Roberto A. Busa!
1913 - 2011
• 词语在⽂文本中的位置
• 特殊参考标识
• 词语本⾝身
• ⽂文本中词语的数量
• 前⼀一个词语中第⼀一个字⺟母
• 后⼀一个词语中的第⼀一个字⺟母
• 表格卡⽚片号
• 款⺫⽬目卡⽚片号
数字人文典型案例
1. 经典案例:布撒神父托马斯全集
索引
2. 莎士比亚及红楼梦研究
3. Europeana、DPLA、美国记忆等
4. Mapping the Republic of Letters
知识界通信地图
5. London Lives 伦敦生灵
6. Biblion 书世界
7. 达尔文、魏特曼、牛顿、唐吉坷
德等项目
翻译⾃自 Willard MaCarty数字⼈人⽂文全景图(2002.5)
通讯与超媒体技术
方法论  
Methodological  Commons
文本分析
数据库设计
音乐检索与分析
图像处理
数据分析
语⾔言
⽂文学
宗教
神学
哲学
研究
法律
历史
研究
表演
艺术 物质
⽂文化
⾳音乐
哲学(本体
论、科学哲
学、认识论、
历史哲学等)
计算机科学(编
程、系统、界⾯面
设计、⼈人⼯工智能、
超⽂文本、数字图
书馆、编码技
术。)
语⾔言学(⽂文
集语⾔言处理,
计算语⾔言学)
社会学(学科
观察、知识科
学等)
历史学(历
史学、⼈人类
学、科技
史)
⽂文学艺术(创
造性想像⼒力、
修辞学与设
计、翻译)
数字人文关键技术
• 文本编码标准(TEI)、电子
编辑与出版
• 数字文学
• 文本分析与挖掘
• 多媒体搜索中的沉浸与虚拟
环境
• 3D 图像技术与激光扫描技
术
• 数字图形设计
• 信息美学
• 计算机游戏与人文
• 人文领域的超级计算
• GIS高级应用
• 语义技术
data$
method'
'
• 数据和方法,是数字人文的两大支柱
• 目前这两大支柱都面临新的革命:
1. 数据-大数据:知识单元的细粒度化,
知识组织的语义化,知识呈现的可视
化
2. 方法-云计算:全网域,软件即服务,
平台及服务,见所未见、能所不能
数字人文与图书馆
⽂文本
分析
媒体
库
专题
资源
库
名⼈人
⼿手稿
或档
案
……
数字⼈人⽂文
数字图书馆
数字人文支持中心
• 美国国家人文基金会(NEH)
• 日本科学技术振兴机构(JST)
• 德国研究基金会(DFG)
• 英国信息系统联合委员会
(JISC)
• 澳大利亚联邦政府创新、产业、
科学与研究部(DIISR)
• 梅隆基金会(Mellon
Foundation)
• 麦克阿瑟基金会(MacArthur
Foundation)
• 国际图书馆联合会(IFLA)
• 图书馆与信息资源委员会
(CLIR)
• 美国博物馆和图书馆服务协会
(ARL)
图书馆已经在做的
• 获取资源
• 进行数字化工作
• 建立机构库
• 提供馆际互借服务
• 按需扫描及类似服务(数
码相机翻拍)
• 参与研究(学科馆员融入
一线嵌入过程)
• 数据庋藏以及数据图书馆
员
来⾃自OCLC《Does Every Research Library Need a Digital Humanities Center?》
http://oclc.org/content/dam/research/publications/library/2014/oclcresearch-digital-humanities-center-2014.pdf
图书馆作为数字人文中心
• 将现有的服务打包为“虚拟数字人文
中心”;
• 开展不同机构有关数字人文的项目合
作
• 帮助学者制定保存性需求计划
• 拓展机构库以适应数字人文数字对象
的管理
• 开展各类机构在国际间对数字人文的
投入
• 拓展使用和强化学术元数据的渠道
• 在数字化开始初期咨询数字人文专家
• 参与数字人文项目并从开始就保证期
可持续性
• 作为数字人文中心运作
来⾃自OCLC《Does Every Research Library Need a Digital Humanities Center?》
http://oclc.org/content/dam/research/publications/library/2014/oclcresearch-digital-humanities-center-2014.pdf
• 提供资源支持
• 开展项目研究
• 建设平台开发工具
• 作为成果与人才孵化器
• 举办示范与推介活动
• 申请研究经费,开展合
作
• 使成果积淀下来、可持
续发展
图书馆作为数字人文中心的作用
已开展数字人文研究的图书馆
• 古籍善本(3126)、稿本(4246 )、抄本(1733)、刻本(2022),共计11127
种
• 普通古籍(12.9万种,MARC)
• 家谱(2.1万种)
• 盛宣怀档案(17.8万件)
• 近代图书(21.3万种)
• 近代期刊(8142种)
• 近代期刊论文(314万篇)
• 旧日文图书(4.1万种MARC)
• 旧西文图书(5.6万种)
全国报刊索引情况:
总体情况:从1833年至今,总量4500万条,
报刊总数4.5万余种,年更新数据400余万条
!
数据库情况
1.全国报刊索引数据库(1833年至今)
收录万余种,年更新300万条。
2.晚清期刊全文数据库(1833-1911)
300余种期刊,28万篇文献
3.民国时期期刊全文数据库(1911-1949)
25000余种期刊,1000万篇文献
4.北华捷报/字林西报全文数据库(1850-
1951)
50万版
数字人文与关联数据
关联数据的作用
一、数据发布
关联数据四原则
• 原则一:使用URI作为任何事物的标识名称 

Use URIs as names for things;
• 原则二:使用HTTP URI使任何人都可以访问名称 

Use HTTP URIs so that people can look up those names;
• 原则三:当有人访问名称时,提供有用的[RDF]信息 

When someone looks up a name, provide useful [RDF] information
• 原则四:尽可能提供相关的URI以使人们发现更多的信息 

Include links to other URIs so that they can discover more things
二、数据关联
关联数据的作用
http://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.png
各类数字化
各类标引加工
典藏管理(文献层+数据层)
上海年华*海上风华 整合检索服务
开放资源
数字人文 资源发现
Eupeana
DPLA
e-ScienceDigital Humanity
我们能做什么?
1. 早期:莎士比亚及红楼梦研究
2. Eupeana、DPLA、美国记忆等
3. Mapping the Republic of Letters 知
识界通信地图
4. London Lives 伦敦生灵
5. Biblion 书世界
6. 达尔文、魏特曼、牛顿等项目 叶永烈、名人手稿
上海年华*图片库*电影记忆...
盛宣怀档案
家谱、年谱、图片库、碑帖库
增强型电子书?
各类数字化
各类标引加工
典藏管理(文献层+数据层)
上海年华*海上风华 整合检索服务
外购资源  
开放资源
数字人文 资源发现
叶永烈、名人手稿
上海年华*图片库*电影记忆盛宣怀档案
家谱、年谱、图片库、碑帖库
增强型电子书?
家谱
本图由上海图书馆夏翠娟绘制
DH举例:盛宣怀档案本体
数量:17.8万件,1亿多字
时间:自1856年至1936年跨度80年(前20年为其父亲盛康所记,死后20年为后人所
记)
类型:日记、信函、文稿、帐册、上谕、奏折、文件登记簿、号簿、目录、账册、单据、
发票、剪报、请帖等等。
盛宣怀家族史、盛宣怀与赈灾、盛宣怀与铁路、盛宣怀与近代教育、盛宣怀与西学、盛
宣怀与晚清官场等
涉及重大事件如洋务运动、义和团运动、辛亥革命、中日战争、中外商务谈判、四川保
路运动、东南互保事件等;
涉及人物如孙中山、李鸿章、黄兴、谭嗣同、梁启超、翁同和、沈葆桢、郑观应、张之
洞、左宗棠、丁汝昌、袁世凯、辜鸿铭、胡雪岩、詹天佑等三千余人;
王元化先生说:“‘盛档’原件如能公布,将能补史之阙,纠史之偏,正史之讹。”
数字人文与关联数据

数字人文与关联数据