-1-
鏈結資料在圖書館的應用
Linked Data andIts Application in the Library
柯皓仁 Hao-Ren Ke
教授兼圖書館館長、圖書資訊學研究所所長
國立臺灣師範大學
Professor and Chairperson, Graduate Institute of Library and Information Studies,
University Librarian,
National Taiwan Normal University
E-mail: clavenke@ntnu.edu.tw
陳亞寧 Ya-Ning Chen
系統分析師
中央研究院計算中心
System Analyst
Computing Center, Academia Sinica
Email: arthur@gate.sinica.edu.tw
摘要
語意網的目的是為了促成網際網路上系統間的整合與資料共享,以利各類加值應用的發
展,鏈結資料則是實踐語意網的最佳實務。本文主旨在於介紹語意網和鏈結資料的定義及相
關技術標準,舉例介紹鏈結資料的應用,繼而闡述鏈結資料對圖書館界的意涵和計畫,最後
提出結論與建議。
關鍵字:語意網;鏈結資料
ABSTRACT
Semantic Web aims at facilitating system integration and data sharing on the Internet, and thus
expediting the development of value-added applications. Linked Data is a set of best practice for
realizing Semantic Web. This article introduces the definition of Semantic Web and Linked Data,
and the related technical standards. Next, a few examples of Linked Data applications are described.
Then the implication and related projects of Linked Data in libraries are explicated. Finally,
conclusions and suggestions are given.
Keywords: Semantic Web, Linked Data
2.
-2-
壹、緒論
隨著網際網路和全球資訊網(World Wide Web,簡稱Web)的蓬勃發展,WEB 已然成為網
際網路的重要應用,更是人們日常取得管道的重要來源。HTML 是 WEB 文件的主要格式,
再搭配 HTTP 做為 Web 伺服器端與客戶端之間溝通與傳遞文件的機制,HTML 和 HTTP 的簡
單易實現促成了 Web 的廣為普及。
當網際網路成為人們獲取資料的重要管道時,如何有效和有效率地處理、整合和再利用
這些資料,乃成為一項重要議題。HTML 文件雖然容易被人們所閱讀,但是其語法鬆散、語
意不清的特性,卻造成了電腦化處理的困難。舉例而言,圖書館界熟知的電子資源整合查詢
系統(Federated Search Systems)利用單一查詢介面,讓使用者能夠同時檢索多個電子資源系統
(李靜宜、柯皓仁,2012),然而,除非各電子資源支援 Z39.50 等標準協定,否則電子資源整
合查詢系統必須運用 Web Scraping(Wikipedia, 2013a)的技巧,擷取並剖析電子資源系統檢索
結果的 HTML 文件,而一旦電子資源系統檢索結果的格式改變,則擷取與剖析程式必須隨之
更改,造成系統維護上的困難。又如 Web 2.0 的特色之一混搭(Mashup),乃是透過應用程式
介面(Application Programming Interface, API)達成系統間的整合與資料共享,然而各家系統的
API 皆不相同,混搭程式的開發者必須了解各家系統的 API,造成整合上的不易。
有鑑於前述問題,WEB 之父 Tim Berners-Lee 乃提出語意網(Semantic Web)的概念
(Berners-Lee, 2000),而後更進一步提出了所謂的「鏈結資料」(Linked Data),做為實現語意
網的最佳實務(Linked Data, n.d.)。本文主旨即在於介紹鏈結資料及其在圖書館界的應用。
貳、語意網與鏈結資料
本節介紹語意網與資料鏈結的基本定義及其採用的相關技術。
一、 語意網
隨著大量的資料在網際網路上湧現,當個人或組織企圖取用這些資料並進一步加值運用
時,都會遭遇到以下三項關鍵問題(Linked Data, n.d.):
(一) 如何提供一個優良的資料取用(access)方式,以利於資料的再利用(reuse)。
(二) 如何在大量資料集中發現(discovery)相關資料。
(三) 如何整合來自多個資料源的資料(integration)。
-7-
圖 4 DBpedia中王建民資料的 RDF 格式(部分)
資料來源:http://dbpedia.org/page/Chien-Ming_Wang
二、 Open Library
Open Library2是 Internet Archive3下的一項先導計畫(圖 5),標榜"One web page for every
book"。Open Library 已收集超過 3,000 萬筆書目紀錄,其中包含超過 100 萬筆的免費電子書
可供線上閱讀或下載(Open Library, 2012)。為了處理如此龐大的紀錄,Open Library 採用了嶄
新的資料庫架構,並運用 Wiki 介面讓熱心人士得以貢獻圖書資料。Open Library 提供了應用
程式介面 API 讓全球程式設計者得以運用其資料,使用者亦可下載每筆書目資料的 RDF 格式
檔案。
圖 5 以"And then there were none"查詢 OpenLibrary
2http://openlibrary.org
3http://archive.org/
-9-
圖 7 以"ShigeoSugimoto"搜尋 dblp
肆、鏈結資料對圖書館界的意涵和計畫
因應鏈結資料的趨勢發展,此一議題也引起圖書館界廣泛的討論。2011 年,美國史丹佛
大學圖書館暨學術資訊資源(Stanford University Libraries and Academic Information Resources,
SULAIR)舉辦工作坊,廣邀各界人士針對鏈結資料在圖書館界的學術發展與實務應用進行討
論與意見交流。在此一工作坊報告內容中,提出鏈結資料在圖書館界的意涵有兩種,包括
(Keller, Persons,Glaser & Calter, 2011):
一、在資料語意面可用來描述資料的意義。
二、在資料語法或格式面可跳脫特定資料結構的限制。
基於上述意涵,鏈結資料可以支援資料的檢索,以及再混合(remix)(Keller, Persons,Glaser
& Calter, 2011)。換言之,鏈結資料除了著重在資料相互間的連結外,也被視為資料表徵與結
構化的一種標準與方法,進而變成一種聚合資料的方式。例如,在美國國會圖書館(Library of
Congress, LC)提出的「將書目框架視為資料網絡」(Bibliographic framework as a web of data)
的報告中,提出未來書目框架應重視「關聯關係」(relationships),並以此為基礎進而與鏈結
資料結合(Library of Congress, 2012)。在前述 SULAIR 舉辦工作坊時,Tim Hodson 介紹大英
圖書館進行書目紀錄的鏈結資料作業時指出,傳統書目紀錄已隱藏著許多資料的意義及其鏈
結,但並未被明確予以表徵與結構化。從鏈結資料觀點而言,書目紀錄可以從扁平式資料欄
位的紀錄轉換成(Keller, Persons,Glaser & Calter, 2011):(1) 誰寫了這本書?(2) 何時出版了這
10.
-10-
本書?(3) 誰出版了這本書?(4) 在何處出版了這本書?(5)這本書的內容為何?(6) 這本書
以何種語文撰寫?
在前述 SULAIR 的工作坊報告內容中,從來源、使用、保存與標準四大層面提出了多項
議題(Keller, Persons,Glaser & Calter, 2011):(1) 不同格式間的參照與調和;(2) 圖書館權威檔
的使用;(3) 富有創意的殺手級應用;(4) 資料的歸屬、來源與權威性;(5) URI 創立、衍生
與發佈,以及鏈結與發掘等訓練;(6) 資料的優使性(usability);(7) 品質控制;(8) URI 的標
準化;(9) 資料的保存;(10) 責任的分散;(11) 行銷及延展;(12) 工作流程;(13) 規模性;
(14) 索引;(15) 知識本體的使用;(16) 授權;(17) 註解;(18) 識別的管理;(19) 數位學術
與數位學習的關聯;(20) 文化多樣性;(21) 搜尋引擎的最佳化;(22) 與社會媒體的結合。
因應鏈結資料的興起,圖書館界也著手進行相關計畫,將現有的紀錄轉化為鏈結,藉以
探索其可行性。主要的計畫包括虛擬國際化權威檔(Virtual International Authority File, VIAF)、
美國國會圖書館鏈結資料服務(LC Linked Data Service: Authorities and Vocabularies)、美國國
際圖書館電腦中心(Online Computer Library Center, OCLC)的全球圖書館目錄(WorldCat)、大英
圖書館(British Library, BL)的自由化資料服務(Free data service)及歐盟的 Europeana 等,分述如
下。
一、 資料值(data value)
係以權威檔或控制詞彙為對象,著名的主要計畫有:
(一)VIAF(Virtual International Authority File)4
VIAF 計畫起始時,係由美國 LC、德國圖家圖書館(Deutsche Nationalbibliothek, DNB)、
法國國家圖書館(Bibliothèque nationale de France, BNF)與 OCLC 等四個單位共同合作,已有超
過 16 個國家的 20 餘個單位參與合作。主要目標在於建立國際型的名稱權威檔服務,以形成
語意網中的一部份。所謂的名稱權威檔包括:個人名稱(people)、團體名稱(corporations)、會
議名稱(conferences)、地理名稱(geographic places)、作品(work)、內容版本(expression)等。圖
8 為以阿嘉莎.克莉絲蒂(Agatha Christie)的名著《一個都不留(And then there were none)》查
詢 VIAF 的結果,除了顯示優選款目(Preferred Forms)、作者、作品及內容版本資訊外,還提
供 XML 格式的 MARC-21 紀錄、RDF 格式的紀錄下載。
4http://viaf.org/
11.
-11-
圖 8 以"Andthen there were none"查詢 VIAF
(二)LC Linked Data Service: Authorities and Vocabularies5
LC Linked Data Service 係將 LC 所擁有的各式主題詞(subject headings)、權威檔(authority
file)、分類表(classification)、國家代碼(country)、語言(languages)與圖像資料索引典(Thesaurus
for Graphic Materials)等不同類型的控制詞彙以鏈結資料的方式提供,使用者可以批次下載所
有資料,或者輸入關鍵詞彙進行檢索(如圖 9),檢索結果除以網頁格式呈現,亦提供使用者以
RDF/XML、JSON、N-Triples 等格式下載單一檢索結果。
圖 9 以"And then there were none"查詢 LC Linked Data Service
5http://id.loc.gov/
-15-
參考書目
Berners-Lee, T. (2000).Weaving the Web: The original design and ultimate destiny of the World
Wide Web. HarperBusiness, 1st edition.
Berners-Lee, T. (2006). Design issues of Linked Data. Available at:
http://www.w3.org/DesignIssues/LinkedData.html.
Heath, T. & Bizer, C. (2011). Linked Data: Evolving the Web into a Global Data Space (1st edition).
Synthesis Lectures on the Semantic Web: Theory and Technology, 1:1, 1-136. Morgan &
Claypool. Available at:http://linkeddatabook.com/editions/1.0/.
Keller, M.A., Persons, J., Glaser, H. & Calter, M. (eds.) (2011). Linked data for libraries, museums,
and archive. Survey and workshop report: Report of the Stanford linked data workshop.
Available at:
http://www.clir.org/pubs/reports/pub152/reports/pub152/LinkedDataWorkshop.pdf.
Linked Data (n.d.). What is the relationship between Linked Data and the Semantic Web?
Frequently Asked Questions (FAQs). Retrieved from http://linkeddata.org/faq.
Miller, P. (2010). Linked data horizon scan. Available at:
http://cloudofdata.s3.amazonaws.com/FINAL-201001-LinkedDataHorizonScan.pdf.
Open Library (2012). About Us. Retrieved from: http://openlibrary.org/about.
Wikipedia (2013a). Web Scraping. Available at: http://en.wikipedia.org/wiki/Web_scraping.
Wikipedia (2013b). Semantic Web Stack. Wikipedia.
Available at: http://en.wikipedia.org/wiki/Semantic_Web_Stack.
Wikipedia (2013c). DBpedia. Wikipedia.
Available at:http://en.wikipedia.org/wiki/DBpedia.
李靜宜、柯皓仁(2012)。電子資源整合查詢系統使用者接受度與使用行為之研究。教育資
料與圖書館學,49(3),369-404。