Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

数字人文与关联数据

1,318 views

Published on

Digital Humanities and Semantic Web Seminar in Shanghai China hosted by Shanghai Librarianship Society held in June 20, 2014 at Information Center of Shanghai Institutes for Biological Sciences.

Published in: Technology
  • Be the first to comment

数字人文与关联数据

  1. 1. IT4L2014 2014年图书馆前沿技术论坛   “数字人文与语义技术” 主办:   上海市图书馆学会              DCMI都柏林核心元数据   中图学会数字图书馆研究与建设委员会              上海图书馆 承办:   上海市图书馆学会信息技术专业委员会 协办:   南京大学数图技术实验室    万达信息股份有限公司
  2. 2. http://society.library.sh.cn
  3. 3. 本次会议简要议程 上午:   • 刘炜:数字人文与关联数据   • 曾蕾:语义技术与知识再发现--探索心得   茶歇(10:10-10:20)   • 秦健:从欧美数字人文奖助项目说开去   • 林海青:用GIS数据呈现历史事件--以洋务运动为例   • 张亮:数字人文中的IT推动力——以二十世纪中国人物志原型系统为例
  4. 4. 本次会议简要议程 午餐(12:00-13:30)   下午   • 王曼隽:“上海年华”回顾与展望   • 杨佳:数字人文中的可视化技术   • 夏翠娟:以书目框架建模的上图家谱知识库系统   • 陈涛、张永娟:关联数据在生化学会会员系统中的应用   专家面对面(主持:曾蕾教授)   • 抽奖
  5. 5. 刘炜 kevenlw@gmail.com 人文研究中的计算: 数据、平台与技术 IT4L2014
  6. 6. 数字人文与关联数据 Digital Humanities and Linked Data IT4L2014 刘炜 kevenlw@gmail.com
  7. 7. 内容 • 什么是数字人文? • 人文何以下嫁数字? • 数字人文与图书馆 • 数字人文与关联数据
  8. 8. 什么是数字人文?
  9. 9. 什么是数字人文?
  10. 10. 什么是数字人文? 数字人文是一个重要的多学科(交叉)领域,指应用数 字技术从事人文科学研究。旨在建立应用和模型,不仅是 一种以信息技术作为工具的新型研究,为人文科学创建新 的应用和新的模型,而且促进计算机科学的进步。同时它 也研究信息技术对于文化遗产和人类记忆机构,图书馆档 案馆以及数字文化的影响。
  11. 11. 什么是数字人文? A working definition: Application of digital resources and methods to humanistic inquiry. 应用数字资源与方法回答人文问题 ——Waters 2013, 4
  12. 12. 什么是“人文”? “人文”一词起源于文艺复兴时期意大利学者,指对于经典 的研究(Classic Study),对应于以神为中心的神学研究 包括艺术、文学、音乐、舞蹈、喜剧、建筑、哲学等人类 文化的各种表达 涉及语言学(古代或现代),文学,历史,哲学,宗教(有 意思的是,甚至包括了神学),视觉和行为艺术等,有时还包 括人类学、地区研究、传播学、文化研究、法律等。
  13. 13. 数字人文是—— 应用计算机(数字)技术研 究人文科学的统称。
  14. 14. • 并非一个学科,而是一个多学科交叉领域 • 数字与人文已超越了工具和对象的关系,是一种互相渗 透、彼此强化的关系 • 数字方法正在为人文科学创建新的应用、建立新的范式 和模型,人文科学又反过来促进了计算机科学的发展
  15. 15. https://twitter.com/scott_bot/status/465264351494955008/photo/1
  16. 16. 人文就是人文。就像并不存在印刷人文一样, 当所有的人文都负载于数字媒体的之上,其实就无 所谓“数字”人文了 然而这并不是说我们可以无视数字技术的力量, 或对数字技术的巨大缺陷视而不见,而只能说数字 成了人性的一部分而变得更加重要,我们迫切需要 有一种新的人文解释,来驾驭这种新的“人性”。
  17. 17. 数字如何高攀人文?
  18. 18. 罗伯特·•∙布撒神父(1913-2011)   数字人文的先驱和奠基者   耶稣会会士,计算机语言的发明者,超文本应用的 先驱,伟大的和不朽的托马斯全集索引的编纂者
  19. 19. Saint Thomas Aquinas! 1225 - 1274
  20. 20. Thomas Watson! 1874 - 1956
  21. 21. Roberto A. Busa! 1913 - 2011
  22. 22. • 词语在⽂文本中的位置 • 特殊参考标识 • 词语本⾝身 • ⽂文本中词语的数量 • 前⼀一个词语中第⼀一个字⺟母 • 后⼀一个词语中的第⼀一个字⺟母 • 表格卡⽚片号 • 款⺫⽬目卡⽚片号
  23. 23. 数字人文典型案例 1. 经典案例:布撒神父托马斯全集 索引 2. 莎士比亚及红楼梦研究 3. Europeana、DPLA、美国记忆等 4. Mapping the Republic of Letters 知识界通信地图 5. London Lives 伦敦生灵 6. Biblion 书世界 7. 达尔文、魏特曼、牛顿、唐吉坷 德等项目
  24. 24. 翻译⾃自 Willard MaCarty数字⼈人⽂文全景图(2002.5) 通讯与超媒体技术 方法论   Methodological  Commons 文本分析 数据库设计 音乐检索与分析 图像处理 数据分析 语⾔言 ⽂文学 宗教 神学 哲学 研究 法律 历史 研究 表演 艺术 物质 ⽂文化 ⾳音乐 哲学(本体 论、科学哲 学、认识论、 历史哲学等) 计算机科学(编 程、系统、界⾯面 设计、⼈人⼯工智能、 超⽂文本、数字图 书馆、编码技 术。) 语⾔言学(⽂文 集语⾔言处理, 计算语⾔言学) 社会学(学科 观察、知识科 学等) 历史学(历 史学、⼈人类 学、科技 史) ⽂文学艺术(创 造性想像⼒力、 修辞学与设 计、翻译)
  25. 25. 数字人文关键技术 • 文本编码标准(TEI)、电子 编辑与出版 • 数字文学 • 文本分析与挖掘 • 多媒体搜索中的沉浸与虚拟 环境 • 3D 图像技术与激光扫描技 术 • 数字图形设计 • 信息美学 • 计算机游戏与人文 • 人文领域的超级计算 • GIS高级应用 • 语义技术
  26. 26. data$ method' ' • 数据和方法,是数字人文的两大支柱 • 目前这两大支柱都面临新的革命: 1. 数据-大数据:知识单元的细粒度化, 知识组织的语义化,知识呈现的可视 化 2. 方法-云计算:全网域,软件即服务, 平台及服务,见所未见、能所不能
  27. 27. 数字人文与图书馆
  28. 28. ⽂文本 分析 媒体 库 专题 资源 库 名⼈人 ⼿手稿 或档 案 …… 数字⼈人⽂文 数字图书馆
  29. 29. 数字人文支持中心 • 美国国家人文基金会(NEH) • 日本科学技术振兴机构(JST) • 德国研究基金会(DFG) • 英国信息系统联合委员会 (JISC) • 澳大利亚联邦政府创新、产业、 科学与研究部(DIISR) • 梅隆基金会(Mellon Foundation) • 麦克阿瑟基金会(MacArthur Foundation) • 国际图书馆联合会(IFLA) • 图书馆与信息资源委员会 (CLIR) • 美国博物馆和图书馆服务协会 (ARL)
  30. 30. 图书馆已经在做的 • 获取资源 • 进行数字化工作 • 建立机构库 • 提供馆际互借服务 • 按需扫描及类似服务(数 码相机翻拍) • 参与研究(学科馆员融入 一线嵌入过程) • 数据庋藏以及数据图书馆 员 来⾃自OCLC《Does Every Research Library Need a Digital Humanities Center?》 http://oclc.org/content/dam/research/publications/library/2014/oclcresearch-digital-humanities-center-2014.pdf
  31. 31. 图书馆作为数字人文中心 • 将现有的服务打包为“虚拟数字人文 中心”; • 开展不同机构有关数字人文的项目合 作 • 帮助学者制定保存性需求计划 • 拓展机构库以适应数字人文数字对象 的管理 • 开展各类机构在国际间对数字人文的 投入 • 拓展使用和强化学术元数据的渠道 • 在数字化开始初期咨询数字人文专家 • 参与数字人文项目并从开始就保证期 可持续性 • 作为数字人文中心运作 来⾃自OCLC《Does Every Research Library Need a Digital Humanities Center?》 http://oclc.org/content/dam/research/publications/library/2014/oclcresearch-digital-humanities-center-2014.pdf
  32. 32. • 提供资源支持 • 开展项目研究 • 建设平台开发工具 • 作为成果与人才孵化器 • 举办示范与推介活动 • 申请研究经费,开展合 作 • 使成果积淀下来、可持 续发展 图书馆作为数字人文中心的作用
  33. 33. 已开展数字人文研究的图书馆
  34. 34. • 古籍善本(3126)、稿本(4246 )、抄本(1733)、刻本(2022),共计11127 种 • 普通古籍(12.9万种,MARC) • 家谱(2.1万种) • 盛宣怀档案(17.8万件) • 近代图书(21.3万种) • 近代期刊(8142种) • 近代期刊论文(314万篇) • 旧日文图书(4.1万种MARC) • 旧西文图书(5.6万种) 全国报刊索引情况: 总体情况:从1833年至今,总量4500万条, 报刊总数4.5万余种,年更新数据400余万条 ! 数据库情况 1.全国报刊索引数据库(1833年至今) 收录万余种,年更新300万条。 2.晚清期刊全文数据库(1833-1911) 300余种期刊,28万篇文献 3.民国时期期刊全文数据库(1911-1949) 25000余种期刊,1000万篇文献 4.北华捷报/字林西报全文数据库(1850- 1951) 50万版
  35. 35. 数字人文与关联数据
  36. 36. 关联数据的作用 一、数据发布
  37. 37. 关联数据四原则 • 原则一:使用URI作为任何事物的标识名称 
 Use URIs as names for things; • 原则二:使用HTTP URI使任何人都可以访问名称 
 Use HTTP URIs so that people can look up those names; • 原则三:当有人访问名称时,提供有用的[RDF]信息 
 When someone looks up a name, provide useful [RDF] information • 原则四:尽可能提供相关的URI以使人们发现更多的信息 
 Include links to other URIs so that they can discover more things
  38. 38. 二、数据关联 关联数据的作用
  39. 39. http://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.png
  40. 40. 各类数字化 各类标引加工 典藏管理(文献层+数据层) 上海年华*海上风华 整合检索服务 开放资源 数字人文 资源发现 Eupeana DPLA e-ScienceDigital Humanity
  41. 41. 我们能做什么? 1. 早期:莎士比亚及红楼梦研究 2. Eupeana、DPLA、美国记忆等 3. Mapping the Republic of Letters 知 识界通信地图 4. London Lives 伦敦生灵 5. Biblion 书世界 6. 达尔文、魏特曼、牛顿等项目 叶永烈、名人手稿 上海年华*图片库*电影记忆... 盛宣怀档案 家谱、年谱、图片库、碑帖库 增强型电子书?
  42. 42. 各类数字化 各类标引加工 典藏管理(文献层+数据层) 上海年华*海上风华 整合检索服务 外购资源   开放资源 数字人文 资源发现 叶永烈、名人手稿 上海年华*图片库*电影记忆盛宣怀档案 家谱、年谱、图片库、碑帖库 增强型电子书?
  43. 43. 家谱 本图由上海图书馆夏翠娟绘制
  44. 44. DH举例:盛宣怀档案本体 数量:17.8万件,1亿多字 时间:自1856年至1936年跨度80年(前20年为其父亲盛康所记,死后20年为后人所 记) 类型:日记、信函、文稿、帐册、上谕、奏折、文件登记簿、号簿、目录、账册、单据、 发票、剪报、请帖等等。 盛宣怀家族史、盛宣怀与赈灾、盛宣怀与铁路、盛宣怀与近代教育、盛宣怀与西学、盛 宣怀与晚清官场等 涉及重大事件如洋务运动、义和团运动、辛亥革命、中日战争、中外商务谈判、四川保 路运动、东南互保事件等; 涉及人物如孙中山、李鸿章、黄兴、谭嗣同、梁启超、翁同和、沈葆桢、郑观应、张之 洞、左宗棠、丁汝昌、袁世凯、辜鸿铭、胡雪岩、詹天佑等三千余人; 王元化先生说:“‘盛档’原件如能公布,将能补史之阙,纠史之偏,正史之讹。”

×