資訊組織第八章

2,453 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,453
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
116
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

資訊組織第八章

  1. 1. 資訊組織(教育部) 第八章 電子資源之組織 學習目標 ---學習本單元,學生應能達到下列目標: 1. 瞭解電子資源之類型與特性 2. 瞭解電子資源組織之基本概念 3. 瞭解電子資源之組織模式 4. 瞭解電子資源組織未來發展趨勢 5. 瞭解圖書館的因應之道 內容說明: 由於電子資源的多元化,使得資訊組織的方法也產生很大的改變,相關的電子圖書館 計畫亦紛紛提出不同的資訊組織模式。本章主要介紹電子資源的特性,及分析比較幾種不同的 電子資源組織模式,使學生能跟得上時代的腳步,了解發展的現況,並實際練習之。 電子資源的類型 依資料內容:文字、圖像、聲音、視訊等資料都可以轉換為電子檔 依材料:光碟、硬碟為其儲存媒體 依傳遞管道: 資訊的出版主要有光碟資料庫、線上資料庫、以及網頁資源等依主題: 涵概各 種主題及其各個層面。
  2. 2. 依離線與線上:離線電子資源或稱為套裝電子資源,如磁片或光碟片等,此類資料因有獨立的實 體,通常也會附開啟該資料所需的軟體及手冊。線上電子資源指儲存在遠端之資料庫,隨著資 訊科技的發展,其類型也越來越多,其中又可分為靜態線上電子資源及動態電子資源,前者如 電子書、電子期刊等,每一筆資料本身具有完整的單元,這種資料庫通常以帳號及密碼等方式 控制使用權;動態的電子資源則指內容隨時在更新之資料庫,這種資料庫只有當下的資料才是 正確的,前一刻之記錄已經過時。除了資料庫外,線上電子資源還有開放系統上之「有組織的 公共通訊資料」(organized public communications),如 NetNews、討論群體(listservs)等,有人認 為這些資料是獨立的智慧實體(separate intellectual entity),和資料庫一樣;也有人認為它們是檔 案資料,和個人信件無異,不能視為出版品的一種。 依產生的來源:可分為原生性的數位資料,或由傳體媒體數位化轉換而來。 電子資源的類型基本上包括 databases, ejournals & newspapers, software, CD-ROMs, ebooks, websites 等等。 電子資源的特性 電子資源與傳統的紙本出版品最大的不同特性包括如下: 一、需藉助於電腦設備始能閱讀使用 電子資源的組織與資訊系統的檢索功能有密切的關聯。 二、有一定的系統需求 三、有一定的文件格式始能存儲及瀏覽 電子資源採用各種電子文件編碼,雖有一定的文件格式,但便於傳輸、儲存與檢索。 四、易變性、不定性、易複製性 電子資源容易依不同的使用需求而加以整合。資源處理方便。 五、多元性
  3. 3. 電子資源具有超文件/超媒體的能力,可連結相關電子文件或其他電子資源。 有些電子資源為互動式多媒體。 電子資源或可透過本地電腦直接讀取,或可透過網路遠端讀取。 有些電子資源提供全文資訊。 電子資源的格式非常複雜,例如 ASCII, PostScript, JEPG, MPEG 等等。新的格式產生新的物 件類型。由於電子資源有上述特性,加上網路資源變化多端,新型態的資訊物件不斷誕生而且 速率加快,所以如何有效書目控制成為當前圖書館界的最大挑戰。 1 第三節 電子資源的組織模式 一、將網路資源列入圖書館目錄 1970 年代,由於電子資源漸漸成為重要的媒體,編目規則中加入「電腦檔」這種資料類型,而 MARC 也加入了相關的欄位以處理非電子媒體所附帶的電子資源。 1980 年代,由於唯讀光碟及個人電腦的成長,MARC 中又增加這些媒體及設備的硬體屬性及媒 體需求之描述。 1990 年代,由於線上電子資源的增加,透過圖書館的目錄連結線上資源有立即的需要,所以在 1993 年,又增加 856 這個欄位,使 MARC 對於線上資源的處理有了完整的修訂。 欄位 856 即 為電子資源的存取而新設的欄位。欄位 856 是由 ALA(American Library Association/美國圖書 館協會)增加的,此欄位稱為「電子位置及使用方式Electronic Location and Access」,1993 年 1 月起成為 USMARC 的正式欄位,目前 UNI MARC 與 CMARC 第四版也有增加 856 欄位。網 路基礎的線上公用目錄已能夠直接連結、查檢電子資源。 (一)英美編目規則的修訂
  4. 4. 為配合網路資源的編目,英美編目規則第 9 及 12 章有新的改變。相關新規則的使用可參見下面 的研習會資料 轉變後的 AACR2:第九章與第十二章新編目規則的使用 美國會圖書館於 2002 年 12 月 1 日開始實施新規則。 (二) MARC 21 的改變與實施進度 1.MARC 的主要改變 (書目性質碼 leader07 (code i) 和欄位 260):在 2003 年中之前不會實 施。 2.欄位 022、222、310、321、362:OCLC 在 2002 年底前完成並應用在圖書式的書目記錄 (RLIN 早已實施) 3.合作編目計畫 (PCC) 要求 OCLC 和 RLIN 能在 書目性質碼 (i) 生效前,接受定長欄位 008/006 中的其他相關新碼 二、網路資源組織獨立於任何圖書館之外 (一) InterCat 計畫 OCLC 在 1994 年提出網路資源的編目計畫(The OCLC Internet Cataloging Project,簡稱 InterCat)。InterCat 計畫主要目的是發起美國圖書館界之合作,共同為網際網路中的資源建置 一個可共供檢索,且其形式為 USMARC 格式的目錄,符合 AACR2 的規則,並包含 856 欄位。 這個計畫從 1994 年 10 月到 1996 年 3 月,為期 18 個月。231 位代表各類型圖書館的參與者, 共同編目了大約 4,700 筆網路資源。 (二)CORC 計畫 OCLC 又於 1998 年 10 月提出 CORC 計畫,為網路資源的合作編目系統。CORC 計畫從 1998 年 10 月至 2000 年 6 月底(免費使用),為期 18 個月。在 1999 年底約有 150 個圖書館參加此計
  5. 5. 畫,而到計畫末期已達 400 多個。2000 年七月起 CORC 便正式成為 OCLC 的一項產品(CORC 1.0)。 CORC 提供四個可查詢的資料庫 1.CORC Resource Catalog(CORC 資源記錄資料庫) 2.CORC Authority File(CORC 權威資料庫) 3.CORC Pathfinder Database(CORC 路徑識別工具資料庫) 4.WebDewey Database(杜威十進分類資料庫) 。 CORC 功能有下列幾項: 建立線上資源的書目記錄、自動化記錄產生及編輯。 自動化擷取及資料摘錄。 協助給予分類號及標題。 自動擷取關鍵字。 記錄產生/編輯成都柏林核心集(Dublin Core)或 MARC。 與權威控制連結。 連結維護功能。 記錄以 MARC、Dublin Core 或 RDF/XML 格式轉入或轉出。 使用自動化工具產生路徑識別工具(pathfinder)網頁。 整合 MARC、Dublin Core 及其他 metadata 格式於單一服務模式。 第四節 Metadata 一、Metadata 的意義
  6. 6. Metadata 常被提及的定義是與某一資料有關的資料(data about data)。若從功能面去說明 metadata,則 metadata 代表與某一人事物有關的資訊,且該資訊必須透過適切的儲存方法以供 其它作用物利用。其中人事物可為任何抽象或具體的人事物,而作用物可能是人類、軟體或是 硬體。但若從管理面去解釋,metadata 所代表的則是一種將資料的結構、意涵和行為加以記 錄、控管和公佈的方法。圖書館的書目記錄也是一種 metadata。 Metadata 的中文翻譯有元資料、詮釋資料、後設資料等。 二、Metadata 的種類 (一)依 Metadata 的結構性、完整性、專業性 Lorcan Dempsey 及 Rachel Heery 將之分為三種類型: 1. 一般性的網路查詢工具 2. 以蒐尋為目的的詮釋資料 3. 以詳細記錄資源為目的的詮釋資料 (二) 依 Metadata 的功能 1.National Library of Australia,將之分為三種類型: (1) Descriptive Metadata (2) Structural Metadata (3) Administrative Metadata 2.Anne Gilliand-Swetland 將之分為五種類型: (1)Administrative (2)Descriptive (3)Preservation
  7. 7. (4)Technical (5)Use (三)依資源類型,Metadata 可分下列數種: 1.通用類,如:MARC、Dublin Core、GILS 等。 2.文字檔,如:TEI Header 等。 3.數據資料,如:SDSM 等。 4.音樂類,如:SMDL 等。 5.圖像或物件,如:CIMI 等。 6.地理資料,如:FGDC 等。 7.手稿檔案,如:EAD 等。 (四)依學科領域,Metadata 可分類如下: 1.綜合性,如:MARC 等。 2.網路資源,如 Dublin Core 等。 3.政府資訊,如:GILS 等。 4.科技文獻,如:ibTEX、EELS、EEVL、RFC1807 等。 5.人文及社會科學資源,如:TEI Header 等。 6.博物館藏品或特藏,如:CIMI 等。 7.地理空間資源,如:FGDC 等。 8.手稿檔案保存類,如:EAD 等。
  8. 8. (五)依結構化或複雜度,可分類如下: 第一類:未結構化,未使用標準建立的索引。例:蒐尋引擎根據網頁 HTML 的"TITLE" tag 所建立的索引。 第二類:相當結構化,不複雜,但提供足夠的資源描述資訊。例:Dublin Core、 OCLC NetFirst 資料庫。 第三類:相當結構化且複雜,提供詳細的資源描述資訊。例:MARC、EAD、 CIMI、TEI Header 等。 2 三、重要資訊描述格式簡介 近年來,Metadata 應用在各種不同類型資訊的發展十分蓬勃,例如:應用最廣不限特定主題或 資料類型的 Dublin Core、人文學與語言學描述的 TEI (Text Encoding Initiative)、政府資訊描述 的 GILS (Government Information Locator Service)、地理資訊描述的 CSDGM (Content Standards for Digital Geospatial Metadata)、藝術品描述的 CDWA (Categories for the Description of Works of Art)、博物館藏品描述的 CIMI (Consortium for the Computer Interchange of Museum information)、音樂資訊的 SMDL (Standard Music Description Language) 等。 metadata 泛指有關資料屬性的描述性資料,或資訊組織的方法與格式。metadata 所牽涉之問題 尚有:編碼方式、標記方式、資訊描述項目及描述依據、主題分析、權威控制、字碼、使用範 圍、通訊協定、系統開發等問題。以上的項目,也是在設計 metadata 時所要考量的要項。 (一)Dublin Core 1.概述 都柏林核心集(Dublin Core)為描述網路上的電子資源的簡單格式。初期 Dublin Core 的設計特別 是針對文獻式(document-like-object)的網路資源,目前已廣泛的使用在 HTML 格式的文件
  9. 9. 上。在第三次 Dublin Core Workshop(1996)中提出以 Dublin Core 描述影像的討論之 後,Dublin Core 已被用在影像的描述上。 都柏林核心集(Dublin Core Metadata Element Set,簡稱 DC)是 1995 年 3 月由國際圖書館電腦中 心(OCLC)和 National Center for Supercomputing Applications(NCSA)所聯合贊助的研討會, 在邀請五十二位來自圖書館、電腦、網路方面的學者和專家,共同研討下的產物,目的是希望 建立一套描述網路上電子文件特色的方法,來協助資訊檢索。因此在研討會的報告中,將 metadata 定義為資源描述(Resource Description),而研討會的中心問題是如何用一個簡單的 metadata 記錄描述種類繁多的電子物件。根據研討會的報告,都柏林核心集處理的對象,將祇 限於「類文件物件」(Document-Like Objects,簡稱 DLO),亦即可用類似描述傳統印刷文字 媒體方式,加以描述的電子檔案。同時因為研討會的目標是發展一個簡單有彈性,且各種專業 人員也可輕易了解和使用的資料描述格式。就項目的基本設計原則而言,他們主張先建立一套 描述資料的最小核心資料項。使此 metadata 的資料項,同時擁有意義明確、彈性、最小規模三 種特色。在設計上所秉持的原則是:內在本質原則、易擴展原則、語法獨立原則、無必須項原 則、可重覆原則、可修飾原則。(吳政叡 http://dimes.lins.fju.edu.tw/dublin/) 都柏林核心集原只是一組描述集,然而很快地便引起全球來自藝術、科學、教育、商業、與政 府單位等各領域之資訊提供者的注意。由於對於跨領域資源搜尋問題的關注,使得後來 DCMI 研討會參與者持續增加,都柏林核心描述集的十五個欄位就是科際整合與國際共識的結果。截 至 2003 年 6 月 止 , DC 已 有 二 十 幾 種 語 文 譯 本 , 也 被 CEN/ISSS (European Committee for Standardization / Information Society Standardization) 所接受,並被記錄為兩份網際網路 RFCs (Requests for comments)文件,此外也出現在 W3C(WWW Consortium)及 Z39.50 標準中。同時已 有三個國家採用都柏林核心集描述其政府資訊,以促進其政府資訊的搜尋,另外,至少還有五 個以上的國家正在考慮將 DC 列為國家資訊標準。 DC 並不想要取代其他的詮釋資料格式,而希望與其他的標準並存,使得一筆描述記錄中包含 不同標準、簡單與複雜兼具的詮釋資料。如在 RFC2731 文件中所舉的例子就是混合 HTML 和 DC 的實例。 DC 的簡易性有其優點也有其缺點,由於其簡易性,因而降低描述資料的成本並增進資訊的互 通性,但相對的,也因其簡易性,而無法支援複雜且語意豐富的詮釋資料架構。事實上,都柏 林核心集也在到底是要提供語意豐富的資訊或要增加資訊的可見度中做取捨。不過都林核心集 鼓勵將複雜的詮釋資料架構組合到都柏林核心集中,以彌補此難以兩全的缺失。語意豐富的詮
  10. 10. 釋資料格式為了轉出或為了跨領域的資訊查尋也可以對映到都柏林核心集。換言之,簡單的 DC 記錄可以做為建立複雜的詮釋資料之基礎。 Dublin Core 最大的優點就在於簡單。開放的特性使得數位圖書館計畫可以採用十五個核心欄位 擴展更細的詮釋資料格式,也可以採用第一層的十五個欄位作為跨系統的詮釋資料交換格式, 或作為異質系統分散查尋的資料格式,如 Open Archive Initiative 即支持 Dublin Core 作為資料抓 取之格式。不過,也由於 DC 的開放性,讓每一個要以 DC 為基礎來擴充格式的使用單位花很 多時間去討論如何擴充。 2. DC 的欄位內容 The Elements Element Name: Title 題名 Element Name: Title 題名 Element Name: Title 題名 Label: 題名 Title Definition: 資源所賦予的名稱。A name given to the resource. Comment: 題名是資源的正式名稱。Typically, Title will be a name by which the resource is formally known. Element Name: 創作者 Creator Element Name: 創作者 Creator Element Name: 創作者 Creator Label: 創作者 Creator Definition: 資源之主要創作者。An entity primarily responsible for making the content of the resource. Comment: 創作者包括個人、團體機構或服務系統。Examples of Creator include a person, an organization, o name of a Creator should be used to indicate the entity. Element Name: 主題 Subject Element Name: 主題 Subject Element Name: 主題 Subject Label: 主題和關鍵詞 Subject and Keywords Definition: 有關資源內容之描述。A topic of the content of the resource. Comment: 可用關鍵詞或分類號來表示資源之內容,建議使用控制詞彙或分類表。Typically, Subject will b key phrases or classification codes that describe a topic of the resource. Recommended best practice is controlled vocabulary or formal classification scheme. Element Name: 簡述 Description Element Name: 簡述 Description Element Name: 簡述 Description Label: 簡述 Description Definition: 對於資源之相關說明。An account of the content of the resource.
  11. 11. Comment: 簡述可包括摘要、目次、圖示資料之來源說明、或對於內容的文字敘述等。 Examples of Description include, but is not limited to: an abstract, table of contents, reference to a gra content or a free-text account of the content. Element Name: 出版者 Publisher Element Name: 出版者 Publisher Element Name: 出版者 Publisher Label: 出版者 Publisher Definition: 使資源可供取用者。An entity responsible for making the resource available Comment: 出版者包括個人、團體機構或服務系統。Examples of Publisher include a person, an organization, name of a Publisher should be used to indicate the entity. Element Name: 貢獻者 Contributor Element Name: 貢獻者 Contributor Element Name: 貢獻者 Contributor Label: 貢獻者 Contributor Definition: 除創作者外,對於資源內容之創作有貢獻者。An entity responsible for making contributions to th Comment: 貢獻者包括個人、團體機構或服務系統。 Examples of Contributor include a person, an organization, or a service. Typically, the name of a Cont indicate the entity. Element Name: 日期 Date Element Name: 日期 Date Element Name: 日期 Date Label: 日期 Date Definition: 在資源生命週期中,某事件之日期。 A date of an event in the lifecycle of the resource. Comment: 日期通常可用來表示資源的創作或可供使用的時間。建議遵循 ISO 8601 [W3CDTF]之規範著錄 DD 的格式著錄。 Typically, Date will be associated with the creation or availability of the resource. Recommended best date value is defined in a profile of ISO 8601 [W3CDTF] and includes (among others) dates of the for Element Name: Type Element Name: Type Element Name: Type Label: 資源類型 Resource Type Definition: 資源之性質或類型。The nature or genre of the content of the resource. Comment: 資源類型包括描述資源之性質、功能、類別,以及描述之單位為單件或合集作品等。建議使用 所定義的詞彙(DCMI Type Vocabulary, DCT)。資源之實體或是數位媒體之描述,則使用 For Type includes terms describing general categories, functions, genres, or aggregation levels for content practice is to select a value from a controlled vocabulary (for example, the DCMI Type Vocabulary [D
  12. 12. physical or digital manifestation of the resource, use the FORMAT element. Element Name: 資料格式 Format Element Name: 資料格式 Format Element Name: 資料格式 Format Label: 資料格式 Format Definition: 資源之實體或數位化媒體之描述。The physical or digital manifestation of the resource. Comment: 資料格式包括媒體類型或資源的度量資料,資料格式也可以用來表明呈現或操作資源時需用的 量資料則包括高廣尺寸與放映時間。建議使用控制詞彙,如網路媒體類型 MIME (Multipurpose 所定義的電腦媒體格式。 Typically, Format may include the media-type or dimensions of the resource. Format may be used to i hardware, or other equipment needed to display or operate the resource. Examples of dimensions inclu Recommended best practice is to select a value from a controlled vocabulary (for example, the list of I [MIME] defining computer media formats). Element Name: 識別碼 Identifier Element Name: 識別碼 Identifier Element Name: 識別碼 Identifier Label: 資源識別碼 Resource Identifier Definition: 資源在某環境中明確的辨識資料。An unambiguous reference to the resource within a given contex Comment: 建議利用字串或數字組成的識別系統來辨識資源,如:URI (Uniform Resource Identifier)(含 U Object Identifier),以及 ISBN (International Standard Book Number)等。Recommended best practic by means of a string or number conforming to a formal identification system. Formal identification sy limited to the Uniform Resource Identifier (URI) (including the Uniform Resource Locator (URL)), th (DOI) and the International Standard Book Number (ISBN). Element Name: 來源 Source Element Name: 來源 Source Element Name: 來源 Source Label: 來源 Source Definition: 說明衍生出本資源的原始資源。 A Reference to a resource from which the present resource is derived. Comment: 本資源可能完全或部份由原始資源衍生而出。建議利用字串或數字所組成的識別系統來表示其 The present resource may be derived from the Source resource in whole or in part. Recommended bes referenced resource by means of a string or number conforming to a formal identification system. Element Name: 語文 Language Element Name: 語文 Language Element Name: 語文 Language Label: 語文 Language Definition: 資源內容之語文。A language of the intellectual content of the resource. Comment: 建議使用 RFC1766 並併用 ISO639 標準,該標準使用兩個與三個字母做為語文代碼。之後,可
  13. 13. 家代碼。例如,'en'或'eng'代表英語,'akk'代表阿卡丁語(Akkadian),'en-GB' 代表在英國使用的英 Recommended best practice is to use RFC 3066 [RFC3066] which, in conjunction with ISO639 [ISO6 three-letter primary language tags with optional subtags. Examples include "en" or "eng" for English, "en-GB" for English used in the United Kingdom. Element Name: 關連 Relation Element Name: 關連 Relation Element Name: 關連 Relation Label: 關連 Relation Definition: 相關資源之參照。A reference to a related resource. Comment: 建議使用字串或數字所組成的識別系統來辨識參照資源。 Recommended best practice is to identify the referenced resource by means of a string or number conf identification system. Element Name: 時空涵蓋範圍 Coverage Element Name: 時空涵蓋範圍 Coverage Element Name: 時空涵蓋範圍 C Label: 時空涵蓋範圍 Coverage Definition: 資源內容所涵蓋之空間或時間。The extent or scope of the content of the resource. Comment: 時空涵蓋範圍包括地點(地名或地理座標)、時期(時期名稱、日期或期間)或政治轄區(如 用控制詞彙(如 Thesaurus of Geographic Names [TGN]),並使用數字表示地理座標或日期時間 Typically, Coverage will include spatial location (a place name or geographic coordinates), temporal p or date range) or jurisdiction (such as a named administrative entity). Recommended best practice is to controlled vocabulary (for example, the Thesaurus of Geographic Names [TGN]) and to use, where ap time periods in preference to numeric identifiers such as sets of coordinates or date ranges. Element Name: 權限管理 Rights Element Name: 權限管理 Rights Element Name: 權限管理 Rights Label: 權限管理 Rights Management Definition: 有關權限的相關資訊,包括資源原有的或被賦予的權限。Information about rights held in and ove Comment: 權限管理包括資源的權限申明,或說明提供該資源的服務機構。權限資訊通常包括智慧財產權 若此權限管理的欄位未著錄,使用者亦不得擅自認定資源本身原有的或被賦予的權限。 Typically, Rights will contain a rights management statement for the resource, or reference a service p Rights information often encompasses Intellectual Property Rights (IPR), Copyright, and various Prop element is absent, no assumptions may be made about any rights held in or over the resource. Dublin Core 除了 15 個基本的欄位之外,為了豐富核心集的內含和擴大其應用範圍,1997 年 3 月在澳洲坎培拉的國家圖書館舉辦了都柏林核心集的第四次研討會,會議的主要成果是「坎培
  14. 14. 拉修飾詞」(Canberra Qualifier),共有語言(Language)修飾詞、架構(Scheme)修飾詞、次項目 (Subelement)修飾詞等三種。 都柏林核心集中的修飾詞,是對項目的內容和語意,做進一步的 界定和說明,使其意義更明確。 OCLC 主導創設 Dublin Core 目的,是希望一方面能解決 MARC 在應付網路文件上的困境,另 一方面能有一套簡單的資源描述格式,讓眾多非圖書館的專業人士來使用,以最少成本來解決 網路文件快速增加的問題。以下所有的資料項都可重複,且是選擇性的,並無所謂的必備項, 與 MARC 不同。 Dublin Core 的設計原則中,包括了語法獨立原則(Syntax-Independence),在此詮釋資料成熟前, 將盡量避免制定特定語法。 目前 Dublin Core 的發展相當被看好,使用單位也相當多。根據 OCLC 在 1999 年 6 月的統計, 全球至少有四十餘個不同領域的數位化計畫使用 DC 做為其資訊組織的基礎,其中不乏相當知 名者。 Dublin Core 雖然只是一個很簡略的資料描述格式,但它是圖書館界試圖解決電子文件處理難題 上的一個新嘗試,其所立下的原則和典範正是未來資訊描述格式的趨勢之一。而另一個新的發 展和趨勢則是由網際網路界甚具影響力的 W3C(World Wide Web Consortium)所主導的 RDF(Resource Description Framework),它可攜帶多種不同的詮釋資料來往於網際網路和 WWW 上,因此 Dublin Core 與 RDF 的結合已是未來必然的發展趨勢。 (二)TEI header 1.歷史發展 TEI 是由電腦與人文學會(Association for Computers and the Humanities,簡稱 ACH)、計算語言學 會(Association for Computational linguistics,簡稱 ACL),文學與語言計算學會(Association for Literary and Linguistic Computing,簡稱 ALLC)等三單位合作的計劃,並組成技術委員會 (Technical Review Committee)來負責 TEI 的發展。TEI 的目的是要為人文學的電子文獻定義一個 通用交換格式。使用的對象包括人文學者、維護電子文件的圖書館員、出版界、與其他想製作 傳播電子文件的人員。此一計畫名為 Text Encoding Initiative (TEI)。文件編碼(TEI)標準建立
  15. 15. 於 1987 年,該標準制訂了國際間和各學科間的文件編碼標準,作為圖書館、博物館、出版社和 個人在網路上編碼文字,以作為線上搜尋和教學之用。TEI 協會於 2002 年 6 月發佈新版的電子 文件編碼指導手冊,稱為 P4,該手冊完全相容於 XML 標準,使其在 WWW 上更能有效使 3 用。 TEI 協會為一個非營利性的集團,其目的為維護並發展 TEI 系統。 2.特性 (1)TEI 所應用到的標準都包括 SGML,也就是 ISO8879 的標準。TEI 並沒有指定任何的檢索傳 輸協定,只要符合 Internet 傳輸的通訊協定,以及能處理 SGML 記錄的軟體即可。此外,TEI 並 沒有一套規則,用來定義資料項的內容。 (2)TEI 的架構可分為兩大部份,第一部份是各種類型文獻的標誌,第二部份是此文獻的書目資 料,即 TEI header。TEI header 可單獨使用,用來建立書目資料庫,指引放在遠端的 TEI 文 獻;TEI header 也可與標誌過的全文一起使用,成為文件的一部份。TEI 最基本的目的是要用 SGML 為各類型文件本身做編碼,而 Metadata 的部份則涵蓋在標誌的過程中。 (3)在 TEI Guidelines 中規定:每一份 TEI 文件前都要有 TEI header 描述該文件,TEI header 詳細記 錄此電子文件本身、來源十編碼原則修訂歷史等書目性與非書目性資料,並且能辨識與檢索已 編碼的文件。其主要功用是要用標準交換格式來詳細記錄電子文件,讓編目館員與文件編碼者 都能使用,並能支援學術研究者做檢索之用。 (4)TEI header 的內容包括四個主要部份: 檔案描述(file description):用<fileDesc>表示 編碼描述(encoding description):用<encodingDesc>表示 規格描述(profile description):用<profileDesc>表示 修訂歷史描述(revision description):用<revisionDesc>表示 (5)TEI 提供的是文獻編碼的架構,也定義一套描述所有文件類型特徵的共同項目,並允許使用 者自討更明確的項目,以具彈性、擴充性的方式以滿足研究者的不同需求。
  16. 16. (6)TEI Guidelines 詳細規定了電子文件的那些文字特徵要編碼,要如何將文件編碼,因為文件的 種類很多,所以沒有絕對的必需項目可以處理所有的文件類型,但建議以最少的項目來描述文 件。TEI header 的編碼架構很有彈性,只有<titleStmt>、<publicationStmt>、<sourceDesc>是必備 項。 (7)TEI 是要對此主題領域的資料做詳盡的描述,由這些描述性資料來協助學科專家檢索此領域 的資料,由於使用對象是學術研究者,必需對資料做完整的描述,所以 TEI 的資料描述項目 多,架構很完整。TEI 的資料描述項目多而完整,與其他種類的詮釋資料相容性高。此外,由 於 CIMI、EAD、TEI 都是以 SGML 語法編碼,所以三者資料描述項目的規則較一致,相容性很 高。 (8)建立 TEI header 的困難程度取決於資料描述的詳盡度,TEI header 的設計很有彈性,編碼者 可根據需要決定,若只需描述必備項,則容易建立,可由作者直接填寫,若要做詳細的描述, 則須要對該文件,具有相當程度的瞭解,所以要由人文學者或圖書館員來建立 TEI header。 3.應用 TEI 的應用情況比 EAD 普遍,因完整的編碼方式與架構能處理人文學相關的資料,有許多大學 圖書館與機構都使用 TEI 來處理其文獻,包括 Virginia University、Oxford Text Archive 等大學 或機構圖書館,共有 62 個計畫。TEI 能應用在許多學科主題,包括檔案資訊、博物館資訊、中 古世紀文學、辭典學、電子出版、英語寫作與教學、歷史資料、語言學、法律文獻、文學、音 樂史文獻、宗教文獻。 (三)EAD 檔案編碼描述格式 1.概述 (1) 意義 EAD (Encoded Archival Description),為一種檔案描述格式,專門設計用以描述檔案及手稿記 錄。
  17. 17. EAD finding aids 是以 EAD 做編碼、具層級性的索引工具,EAD DTD 以層級性的架構,描述檔 案及手稿的書目特性與內容,而經過 EAD DTD 處理過後的所產生的描述性資料,就稱為 EAD finding aids, EAD finding aids 是一種對原始資料的詳細指引,就像是圖書館的書目記錄,但能提 供比傳統的書目記錄更詳細的描述性資訊。 (2) 由來 傳統對檔案與手稿的管理通常是利用清單、索引、目錄、指南等工具(即所謂的"Finding Aids"),來呈現各單位所典藏的檔案及手稿記錄。Finding Aids 扮演的角色即是對原始資料的 詳細指引,提供的資訊比書目記錄更完整,能協助使用者檢索到所需的檔案手稿資料。其提供 的資訊包括:此檔案資料的使用情況、記錄產生的背景、記錄的收藏歷史、內容範圍等。由於 傳統對檔案資料的管理著重典藏,各單位自有自己的管理方式,沒有一套一致性的標準。在網 際網路興起後,為因應使用者對檢索的便利性及資料可及性的需求,美國檔案學界及圖書館界 便希望建立一套標準,以便於線上檢索及電子資料交換,而制定了 EAD。2002 年,美國檔案 學會檔案編碼描述格式工作小組發表第二版。 EAD 的起源是從美國加州大學的柏克萊指引計畫(Berkeley Finding Aids Project)而來,計畫目 標是要以電子型式的 finding aids,來盤點、清查檔案資料,並為其做索引。EAD 目前是由美國 國會圖書館的網路發展與 MARC 標準小組(Library of Congress, Network Development and MARC Standards Office)所維護,並由美國檔案學會(Society of American Archivists)協助管理 及發展,EAD 利用層級性的架構,完整的描述檔案及手稿,希望能由描述性資料來協助檔案專 家做深入的研究。 (3)特性 a) EAD 系統結構乃以 SGML DTD 為基礎,並參考 TEI Header,發展出 EAD finding aids DTD, 以對 finding aids 提供更深度的檢索。finding aid 並非物件本身,而是指引到其他物件的工 具。EAD DTD(Encoded Archival Description Document Type Definition)在定義規範描述檔案及手 稿有哪些資料項及其屬性為何,並以層級性架構反應資料的外在層級(資料的來源與編排)與 內容層級(專家對資料項內容的描述)。EAD DTD 的設計,在原則上先研究一份 finding aid 會 有哪些資料項(element)?每個資料項可能會有哪些屬性(attribute)?又每個資料項之間的關聯
  18. 18. 性、層級關係為何? 將可能重覆使用的資料項及屬性等作群組宣告,以簡化 DTD 及維持其結 構性。 b) EAD 的資料描述項目多而完整,與其他種類的詮釋資料相容性高。EAD 要對此主題領域的 資料做詳盡的描述,由這些描述性資料來協助學科專家檢索此領域的資料,由於使用對象是學 術研究者,必需對資料做完整的描述,所以 EAD 的資料描述項目多,架構很完整。EAD DTD 中的<eadheader>是參考 TEI header 而來的,雖然不如 TEI 詳細,但仍屬於完整的格式。 c) EAD 並沒有一套規則,用來定義資料項的內容。 d) EAD 主題分析的部份則建議使用 LCSH、LCNA、與 AAT 來做權威控制。TEI header 中主題 分析的部份可讓編碼者使用現有的標題表十分類法來做權威控制,例如、<keywords scheme=LCSH>、<classCode scheme=DDC19>、<classCode scheme=LC>等表達方式。 e) EAD 利用層級性的架構,完整的描述檔案及手稿,因複雜程度高,需由具有檔案管理的實務 經驗者來建立 EAD finding guides,例如可由檔管人員、檔案專家來建立,需專家知識界人, 所以建立的便利性不高。 f) EAD 所應用到的標準都包括 SGML,也就是 ISO8879 的標準。EAD 並沒有指定任何的檢索 傳輸協定,只要符合 Internet 傳輸的通訊協定,以及能處理 SGML 記錄的軟體即可。 g) EAD 以完整的架構處理檔案與手稿,現有許多大學圖書館或機構檔案中心,利用 EAD DTD 來處理其檔案資料與特殊館藏,包括美國國會圖書館、Univ. of California, Berkeley、Harvard University、 (Duke University 等 16 所大學圖書館與機構。 h) EAD 主要由三部份的資料組成 : 第一部份稱為<eadheader>主要在描述 finding aid 本身,如 該份 finding aid 的題名、建立者、建立日期等;第二部份稱為<frontmatter>;在 <eadheader> 內子項之順序是由 DTD 所指定,以使得每一份 finding aid 在這個部份具有一致性,便於檢索引 擎的處理;但是如果描述機構也希望能照檔案資料原來的順序去描述,則這些照原來的順序描 述的資料會放在<frontmatter>中,所以<eadheader>及<frontmatter>的子欄位有些是一樣的。 第三個部份稱為<archdesc>,這個部份才是真正在描述檔案資料的本體,檔案的階層性特色都 表現在這個部份中,如在一套檔案中包含了那些單元,每個單元下又包含那些分項,在這些分 項下有那些資料(item)。
  19. 19. <eadheader>主要跟據 Text Encoding Initiative (TEI)模式而設計,其下又包含四個描述項目,即 <filedesc>、<profiledesc>、<revisiondesc>、<requiredft>,其他資料在 TEI 模式中未包含者,則 歸入<frontmatter>中。 (4)發展 EAD 的主要目的 主要在於使得各種資料類型的檔案館藏可以在 Web 上被檢索到,並表現出檔案的全宗關 係。EAD 出現後,立即受到大學及學術圖書館的使用,但是除此之外,其他的檔案機關很少 用,如美國的州立檔案主要還是採用 collection-level 的 MARC 格式,究其原因,最大的問題還 是在於人力,採用 EAD 對檔案做深度分析的前提有二,一是已經有最基本的目錄存在,二是有 熟知檔案之專才,否則,就只能建立及維持最簡單的查尋清單了。此外,由於 EAD 並沒有發展 著錄手冊,所以缺少標準的著錄方式,這使得 EAD 的某些欄位類似 MARC 的 note 項,無法有 效的展現其優點。 (5)新版 EAD 中較顯著的改變如下: 在描述識別<did>單元裡新增兩個元素:資料語言<langmaterial>,及資料特殊細節 <materialspec>。 資料語言<langmaterial>元素取代了檔案描述<archdesc>和構件<c>兩個元素中的屬性 LANGMATERIAL,讓檔案的實際使用者更容易理解語言相關的資訊。 使用檔案特殊細節<materialspec>,可以明確地記載工程圖和地圖的比例尺及錄音的播放時間, 擴張了 EAD 在「傳統」檔案以外的適用性。 檔案描述<archdesc>中(這表示與所有的組件相關)增加了幾個元素。新增原件位置 <originalsloc>元素,這個元素平行於記載原件或複本位置的其他可取得形式<altformavail>。依 據新版 ISAD(G)的規則 3.4.4,新增實體特徵及技術需求<phystech>元素,用來標誌特殊的實 體狀態或需特殊設備來讀取的檔案物件。在取用限制<accessrestrict>元素下,再新增法定地位 <legalstatus>子元素,以取代原先檔案描述<archsesc>中的屬性 LEGALSTATUS。 順應新版 ISAD(G)的元素 3.7.2,在概況描述<profiledesc>的標目裡,新增描述規則 <descrules>子元素,以記載查檢工具採用的標誌系統。
  20. 20. EAD 2002 在結構上也有變動。行政資訊<admininfo>與附屬描述資料<add>兩個元素已經「解 套」。也就是說,第一版中附屬於這兩個元素的子元素,現在已經可以直接在檔案描述 <archdesc>和構件<c>兩個元素下使用。同時,這些子元素也可以視為一組工具,必要時可放 在開頭做總體的描述,例如,將行政資訊<admininfo>中的取用限制<accessrestrict>組件,建 立在標誌開頭部分。要注意的是,EAD 工作小組正在排除<admininfo>和<add>兩個元素的使 用。這意味著工作小組建議不要再使用這兩個元素,因為未來的 EAD 版本將刪除此一結構。此 外,為因應需求,建構了一個新的檔案描述<archdesc>元素:描述群組<descgrp>元素。描述 群組<descgrp>元素可以把大多數的結構性元素(描述識別<did>和附屬成分描述<dsc>除外) 套在一起,讓檔案學家能夠合理的組合既有的標誌。 EAD 2002 推出一系列的新屬性,舊版裡大多數的半閉鎖屬性值表已被刪除。一般而言,這些 半閉鎖的屬性值的英語系中心傾向濃厚,隨著 EAD 的使用也一併被各國接受(例如,屬性 SOUSE 的控制詞彙索引典)。但是,使用這些統一的代碼表及建議的專有名詞,也並非各國 檔案收藏單位的責任。 EAD 第一版中應出現而未提供的若干元素和屬性,檔案學家已適切的釐清。其結果如:題名 4 <titel>已開放為索引款目<indexentry>,單引號和雙引號也被加入 RENDER 的屬性值中等。 (四)政府資訊描述的 GILS (Government Information Locator Service) 5 1.簡介 「政府資源索引服務」(GILS, Government Information Locator Service),係利用網路和 ANSI Z39.50 標準來執行檢索的系統,是專為政府資訊設計的一種 Metadata 格式。由於美國政府各聯 邦機構的資料原是分散的,需要一種能協合各機構資源和資料傳佈的工具,於是成立 IITF(Information Infrasture Task Force)資訊基礎建設小組,推動一個以機構為單位的政府資訊 指引服務。1994 年 12 月 FIPS 192(Federal Information Processing Standard)通過了 GILS profile,同時間 OBM Bulletin95-01 公布,正式建立了 GILS,並要求所有政府單位機構必須在 1995 年 12 月 31 日前實行 GILS 檢索系統的使用。美國 NIST(National Institute of Standards and Technology)國家標準暨技術局已規定所有聯邦機構必須採用 GILS 來指引文件出處。1995 年 11 月加拿大財政部亦成立一個相當於美國 FIPS 的工作小組,規劃以 GILS 做為 TBITS(Treasury Board Information Technology Standard)財政資訊公布的標準,並於 1996 年 1 月開始進行此項先導計畫。
  21. 21. 2.特色 由於是分散式的架構,各機構可自行建置和維護本身的資料,再利用網路以 SGML 格式上傳, 或者直接在線上利用瀏覽器以網站形式的工具來登錄;如果要批次處理,也可以利用專屬的資 料庫轉換程式來進行轉換。使用者端可以透過網路一次搜尋到不同單位的資料,而不必分次檢 索,不但如此,檢索的資料也不限於已上線的資料。GILS 提供了使用者便利的介面,也省去各 單位整合資料的時間,達成即時公布的目標。 3.核心項目 (1)GILS 的核心項目(Core Element)有 22 項: 1、Title(題名) 2、Originator(創設者) 3、Controlled Vocabulary(控制語彙) 4、Local Subject Index(本地主題索引) 5、Abstract(摘要) 6、Purpose(目的) 7、Agency Program(機構計畫) 8、Spatial Reference(地理參考資訊) 9、Time Period of Content(內容涵蓋時期) 10、Availability(文件索取資訊) 11、Source of Data(資料來源) 12、Methodology (文件製作方法) 13、Access Constraints(存取限制)
  22. 22. 14、Use Constraints (使用限制) 15、Point of Contact for Further Information(進一步資訊接洽者) 16、Supplemental Information(補充資訊) 17、Cross Reference(參見) 18、Schedule Number (目錄編號) 19、Control Identifier(控制識別碼) 20、Record Source (紀錄來源) 21、Original Control Identifier (原始控制識別碼) 22、Date of Last Modification (最後修改日期) (2)各核心項目的著錄及其子目 項目 1、Title(題名):必須著錄、不可重複、非控制語彙。 例:Title: The United State Government Manual。 項目 2、Originator(創設者):必須著錄、不可重複、控制語彙。 控制語彙須出自 U.S. Government Manual。 例:Originator:National Archives and Records Administration(NARA)。 項目 3、Controlled Vocabulary(控制語彙):選擇項、可重複。 包括二個子項:
  23. 23. 1.Index Terms-Controlled(索引):選擇項、不可重複項、控制語彙項。 2.Thesaurus(索引典):選擇項、不可重複項、非控制語彙項。 項目 4、Local Subject Index(本地主題索引):選擇項、不可重複、非控制語彙。 項目 5、Abstract(摘要):必須著錄、不可重複、非控制語彙。 摘要以少於五百字為原則。 項目 6、Purpose(目的):必須著錄、不可重複、非控制語彙。 項目 7、Agency Program(機構計畫):必須著錄(若描述對象是自動化資訊系統 時,否則為選擇項)、不可重複、非控制語彙。 項目 8、Spatial Reference(地理參考資訊): 包括二個子項: 1.Bounding Rectangle(四周邊界):選擇項、不可重複、控制語彙。 其下又分為四個子項: West Bounding Coordinate(Western-most Longitude)(西邊經度) East Bounding Coordinate(Eastern-most Longitude)(東邊經度) North Bounding Coordinate(Northern-most Latitude)(北邊緯度) South Bounding Coordinate(Southern-most Latitude)(南邊緯度) 例:West Bounding Coordinate:179° East Bounding Coordinate:60°
  24. 24. North Bounding Coordinate:72° South Bounding Coordinate:18° 2.Gographic Name(地理名稱):選擇項、可重複、非控制語彙。 其下又分為二個子項: Geographic Keyword Name(地理關鍵名稱):選擇項、可重複、非控制語彙。 Geographic Keyword Type(地理關鍵名稱型態):選擇項、可重複、非控制語 彙。例:Geographic Keyword Type(GNIS):United States。 項目 9、Time Period of Content(內容涵蓋時期): 包括二個子項: 1.Time Period - Structured(結構式涵蓋時期):選擇項、可重複、控制語彙。例: Time Period - Structured:19961112 - 。 2.Time Period – Textual(文字描述式涵蓋時期):選擇項、可重複、非控制 語彙。例:Time Period - Textual:28 April 1995 - [ongoing]。 項目 10、Availability(文件索取資訊):必須著錄、可重複、非控制語彙。 包括七個子項: 1.Distributor(流傳機構):必須著錄項、不可重複項、非控制語彙項。 其下又分為十一個子項: Distributor Name(流傳者名稱)。 Distributor Organization(流傳機構)。 Distributor Street Address(流傳者街址)。
  25. 25. Distributor City(流傳者所在城市名稱)。 Distributor State(流傳者所在州名稱)。 Distributor Zip Code(流傳者郵遞區號)。 Distributor Country(流傳者國家名稱)。 Distributor Network Address(流傳者網路位址)。 Distributor Hours of Service(流傳者服務時間)。 Distributor Telephone(流傳者電話號碼)。 Distributor Fax(流傳者傳真號碼)。 2.Resource Description(資源描述):選擇項、不可重複、非控制語彙。 (流傳機構內部使用的名稱或代號,如 ISBN 號碼。〕 3.Order Process(索取手續):必須著錄、不可重複、非控制語彙。 4.Technical Prerequisites(必須的軟硬體設備):選擇項、不可重複、非控制 語彙。 5.Available Time Period(存在有效時期):選擇項、可重複、控制語彙。 6.Available Linkage(連結點):選擇項、不可重複項、控制語彙項。 〔可使用 URL 格式。〕例:Linkage:http//blue.lins.fju.edu.tw。 7.Available Linkage Type(文件連結型態):選擇項、不可重複項、非控制語 彙項。〔使用 MIME 所定義的文件型態。〕例:Linkage Type:text/plain。 項目 11、Source of Data(資料來源):必須著錄(若所描述的對象是自動化資訊系統 時,否則為選擇項)、不可重複、非控制語彙。
  26. 26. 項目 12、Methodology (文件製作方法):選擇項、不可重複、非控制語彙。 項目 13、Access Constraints(存取限制):必須著錄、不可重複、非控制語彙。 例:Access Constraints:None。 項目 14、Use Constraints (使用限制):必須著錄、不可重複、非控制語彙。 例:Use Constraints:Written releases from the owners of these rights are required for duplication。 項目 15、Point of Contact for Further Information(進一步資訊接洽者): 必須著錄、不可重複、非控制語彙。 包括十一個子項: Contact Name(諮詢者名稱)。 Contact Organization(諮詢機構)。 Contact Street Address(諮詢者街址)。 Contact City(諮詢者所在城市名稱)。 Contact State(諮詢者所在州名稱)。 Contact Zip Code(諮詢者郵遞區號)。 Contact Country(諮詢者國家名稱)。 Contact Network Address(諮詢者網路位址)。 Contact Hours of Service(諮詢者服務時間)。 Contact Telephone(諮詢者電話號碼)。
  27. 27. Contact Fax(諮詢者傳真號碼)。 項目 16、Supplemental Information(補充資訊):選擇項、不可重複、非控制語彙。 項目 17、Cross Reference(參見):選擇項、可重複項。 包括三個子項: 1.Cross Reference Title (參見題名):必須著錄、不可重複、非控制語彙。例:Cross Reference Title:1990 Census LOOKUP。 2.Cross Reference Linkage(參見連結):必須著錄、不可重複、非控制語彙。 例:Cross Reference Linkage:http://blue.lins.fju.edu.tw。 3.Cross Reference Type(參見文件型態):必須著錄、不可重複、非控制語彙 例:Cross Reference Type:text/html。 項目 18、Schedule Number (目錄編號):必須著錄項(若所描述的對象是自動化資 訊系統或因應紀錄管理需求時,否則為選擇項)、不可重複、控制語彙。 例:Schedule Number:Scheduled:NCI-442-80-008/117A。 項目 19、Control Identifier(控制識別碼):必須著錄、不可重複、控制語彙。〔機構縮寫名 稱請參照 U.S. Government Manual。〕 例:Control Identifier:USGS000145。 〔本項記載此筆紀錄的創造或最後修改機構,機構縮寫名稱請參照 U.S. Government Manual。〕 項目 21、Original Control Identifier (原始控制識別碼):選擇項、不可重複、控制語 彙。 〔當中介機構修改某筆 GILS 紀錄時,若將其自身編號填入 Control Identifier,則須要在此 填入原始的 Control Identifier,以便回溯追蹤。〕
  28. 28. 項目 22、Date of Last Modification (最後修改日期):必須著錄、不可重複、控制語 彙。例:Date of Last Modification:19961108。 (五)地理資訊描述的 CSDGM (Content Standards for Digital Geospatial Metadata) CSDGM(Content Standards for Digital Geospatial Metadata) 是美國聯邦地理資料委員會 FGDC(The Federal Geographic Data Committee)訂定之描述空間數位資料目錄的標準格 式。CSDGM Version 1 (FGDC-STD-001):提供了後設資料應用的基本架構(framework),並 於 1994 年 6 月 8 日獲得認可。 CSDGM Version 2 (FGDC-STD-001-1998):取代原先的 CSDGM v1(但仍保持相容性),增加了簡介(profile)以及使用者自訂元素,於 1998 年 6 月 19 日 獲得認可。 http://geology.usgs.gov/tools/metadata/standard/metadata.html (六)藝術品描述的 CDWA (Categories for the Description of Works of Art) CDWA 主要用於博物館的收藏,由美國 J. Paul Getty Trust 資助的 AITF(the Art Information Task Force)開發,為提供和使用藝術資訊團體描述藝術作品,提供结構化工 具。http://www.getty.edu/research/institute/standards/cdwa/ (七) 視覺資源核心類目 VRA Core 全名是 Visual Resources Association Core Categories。 VRA Core 是為對藝術、建築、史前古器物、民間文化等藝術類可視化資源而建立的。主要用於 博物馆的收藏。http://www.vraweb.org/vracore3.htm
  29. 29. (八)博物館藏品描述的 CIMI (Consortium for the Computer Interchange of Museum information)6 1.簡介 目前國際上致力於博物館資訊交換的機構,首推博物館資訊交換協會(The Consortium for the Computer Interchange of Museum Information,簡稱 CIMI) 。CIMI 之宗旨為:將博物館資訊普及 社會大眾,推展開放式的系統標準(如:Z39.50),以管理及傳遞數位博物館資訊。自 1990 年 成立以來,CIMI 在博物館數位化資料架構的研究上,已有相當的進展。現今參與 CIMI 的會員 有二十多個單位,其中不乏相當知名的大型博物館或是數位博物館計畫。我國國科會「數位博 物館專案計畫」亦於 1999 年加入 CIMI,成為其會員。 2.工作重點 CIMI 目前的工作重點有五方面,主要目的在於建立數位博物館資訊的普及性,並發展健全的管 理體系以做為永續經營的基礎。 (1)整合資訊管理:CIMI 目前正在研擬如何就不同機構的資源層次,提供不同的使用工具與標 準,以使各機構能依其需要、按其預算,發展他們自己資訊管理的整合體系。 (2)資源發現與探索:CIMI 早期工作的重點大多在建立資訊架構的標準,以利使用者以電子方式 取得。目前 CIMI 方針已邁入研擬檢索資訊的標準及方法。 (3)分散式的搜尋與檢索:CIMI 目前進行測試的方式,在網路中之搜尋檢索功能將不亞於一個在 本館的系統。 (4)標準化的磋商:標準若要成為真正的標準,必須具有強烈的共識。透過仔細的協商與嚴謹的 實驗,致力推動「文化遺產」相關單位對電子資訊標準的共識。 (5)配合國際發展:全球有許多團體也在研發資訊交換的標準。CIMI 與這些團體保持連繫,並致 力配合國際的相關發展。 3. 描述主題與描述資料類型 CIMI 的架構主要落實在 CHIO 中,CHIO 的目的是要為博物館的藏品建立著錄標準,共有一萬 筆以上的民俗藝術資訊,包括展覽目錄、牆上標籤、物件記錄、影像、書目記錄、展覽指南、 權威資料等,據以建立一套線上檢索系統。
  30. 30. 4. 系統架構 (1)CHIO Structure:使用 SGML 標誌全文資料、影像資料、牆上說明、展覽目錄,設計出博物館資料所需的 CIMI DTD。 (2)CHIO Access:探討利用 Z39.50 做資料庫的查詢與檢索,在系統的檢索上,CHIO 有三種檢索方式,Quick Search、Concept Search、Focused Search,分別支援不同的欄位檢索。 5. 資訊描述項目 CIMI 的資訊描述項目是 CIMI access points, 在 CIMI Z39.0 profile。中則稱為 CIMI-1 Attribute set,包括 CHIO access points 與其他相關項目。CHIO access points 則是被涵蓋在 CIMI access point 中。CHIO access points,描述了文件的重點,也是使用者在查詢檢索文件時所用的檢索點 。 CHIO access points 採用了 CDWA (categories for the Description of works of Art)與 CIDOC model 的描述項目,CHIO access points 包括:award、bibliography、concept、context、context- archaeological、context-archaeological、context-archaeological、context-architectural、context- historical、copyright. restrictions、creation、creator、credit-line、current-location、date- range、event、identity、identity-number、inscription.mark、materials-and- techniques、material、nationality. culture.race、object. work、occupation、organization、ownership、person、place、process. technique、quote、styles- movements、subject、subject-description、subject. identification、subject-interpretation、title. name、type. classification。這些 access points 正針對博物館資料的特性所設計的,能確實而詳細 描述出博物館資料的特徵。 6. 語法規則 採用 SGML 語法。 7.應用計畫 CIMI 的架構與格式都實現在 CHIO 中,目前共有以下的機構利用 CIMI 處理其博物館資訊,包 括: Art Gallery of Nova Scotia、Canadian Museum of Civilization)、Museum Informatics Project)、Museum D'Orsay)、 (National Gallery of Art、National Museum of American Art)。 8.未來發展
  31. 31. CIMI 為了能讓使用者以簡單的方式檢索博物館資訊,所以致力於 CHIO,並發展 CHIO(2),CHIO(2)增加了 CHIO 中沒有的新標準與實際例子,並測試由 CIMI 與其它單位合作發 展的標準及模式,看它是否能有效率的檢索不同儲存地的電子博物館資源。此外,也藉由 CIMI 的其它幾個子計畫,包括 Dublin Core metadata Testbed project、CIMI's Z39.50 Testbed、Integrated Information Management Program,來支援 CHIO(2),1998 年 10 月至 1999 年 9 月要評估詮釋資料的需求、提昇資訊來源、發展應用系統,1999 年 10 月預定推出 CHIO(2)的 實際應用系統,並在 2000 年推廣傳佈。 (九)標準音樂描述語言 (SMDL, Standard Music Description Language) SMDL 是由”音樂資訊處理標準”(MIPS) 協會制定的,制定的目的就是為了訂定一個音樂編碼的 規格。在這個描述語言中加入一些例如作曲者或是曲名等等的資訊,另外這個規格定義了一些 和音樂有關的元件。 SMDL 是音樂標記的檔案格式,是"HyTime"的應用,與國際標準 ISO/IEC 10744 - Hypermedia / Time-based Structuring Language ("HyTime")一致。SMDL 是一種 "derived architecture",得 自 HyTime 架構。同時,SMDL 為 SGML 的一種應用,與國際標準 ISO 8879 - Standard Generalized Markup Language 一致。 四、和 Metadata 相關的標準或技術 (一)Metadata 的語意和結構 語意(內容(content)與值(value)):Dublin Core、MICI、FGDC、GILS、AAT、 LCSH。 結構:RDF。 (二)Metadata 的語法 SGML、HTML、XML。 (三)Metadata 的查詢 Z39.50。
  32. 32. (四)Metadata 的顯示 Stylesheet(樣式表)。 五、未來發展: Metadata、RDF 與 XML (一)資源描述架構 RDF 為因應 Metadata 發展單位本身的需求,多種 Metadata 並行已為目前不可避免的發展趨勢,如要 整合(跨資料庫、跨系統、跨網站)檢索以不同 Metadata 組織的電子資源,則詮釋資料之間須具 備互通性(interoperability)。而要使不同 Metadata 間具備互通性,目前的做法是藉由建立一個更 上位層次的 Super-Metadata 來達到互通性的目標。如此則可使現有及未來的詮釋資料格式,能 兼顧本身的詮釋需求,並能和其他詮釋資料整合。 W3C 於 1999 年 2 月制訂之「資源描述架構(RDF, Resource Description Framework」,即一個針 對多元 Metadata 設計的溝通架構,可同時攜帶多種 Metadata,往來於網路上。 RDF 制定的目的 在為 Metadata 在 WWW 的各種應用,提供一個一致性的資源描述基礎架構,使應用程式之間能 似標準化的方式,在 WWW 上交換 Metadata,以促進網路資源的自動化處理。RDF 保證了 Metadata 整個交換和運作機能的發展前景,並可有相當多的應用,例如:資源蒐尋、網路資源 編目、智慧型代理程式、數位簽章、內容分級、智慧財產權、隱私權等。 (二)SGML、HTML、XML 1.SGML (1)SGML 是什麼? SGML 的全名為 Standard Generalized Markup Language(標準通用標示語言),1986 年成為 ISO8879 之國際標準。SGML 的主要目的在規範文件的製作,以確保電子文件能在不同的電腦 系統間進行交換,以便應用。SGML 是一種元語言(Meta-language),可用來設計其他的標示語 言,HTML 和 XML 均為 SGML 的應用。 SGML 是藉由 DTD(Document Type Definition)定義標 示用的標籤及結構,以作為內容標示的依據。
  33. 33. DTD 中文的字面意義為「文件格式定義」。其作用在於定義和規範特定 XML 文件的內容架 構。它通常是一個含有某一種特定格式正式定義的檔案文件。換句話說,透過 DTD 檔案的描 述,XML 文件檔案的格式結構就可以成形了。以商業交易為例,在交易的流程中常會需要用到 訂單、訂單變更要求、未結案訂單報告、發貨單、收貨驗收單、請款對帳單、付款明細表等商 業表單,為降低交易雙方的商業糾紛並提高交易的準確性和使用效率。這些表單的內容和結構 必須一致且嚴謹。在 XML 的領域中,DTD 的作用便是在定義 XML 表單應如何撰寫安排,它就 類似於文章的寫作文法和語意表達方式。 (2)SGML 的特色 a)有彈性:可描述任何的資訊結構,和任何複雜的文件。 b)文件可結構化(structured),利於資訊的精確檢索。 c)具欄位可擴展(extensible)等特性,而且將文件的內容(content)、結構(structure)和外觀呈現 樣式(style)分離,不但奠定了文件共享的基礎,而且轉出之資訊具再利用性(re-usability)。 d)具備可攜性(portability)、非專屬性(non-proprietary)、平台獨立性(platform-independence)、系 統獨立性(system-independence),利於電子文件的交換和長期保存。 (3)限制 由於 a)SGML 龐大複雜,不易學習及使用,應用程式也不易開發; b)須用專屬瀏覽器才能讀取,故不易透過 WWW 傳佈;( c)未獲得廠商的支援,等原因,故 SGML 並不普及。 2.HTML (1)發展 由於 SGML 過於複雜,學習不易,故 Tim Berners-Lee 於 1989 年提出 WWW 概念時,乃根據 WWW 需求,以 SGML 為基礎,取其最簡化的特徵,定義了適合超文件使用的
  34. 34. HTML(HyperText Markup Language,超文件標示語言),具有廣泛支援 WWW 應用的能力。 目前最新版為 W3C 於 1999 年 12 月發佈的 HTML 4.01。 (2)特性 由於 HTML 為開放性,可攜式(portable)的標示語言,易學易用,內建樣式(style),加上獨特的 超連結,及連結多媒體的功能,使得 HTML 在短短數年內即迅速普及,至今仍然是網際網路上 最主要的電子文件標準格式。 (3)限制 但由於 HTML 以下弱(缺)點,致使 HTML 愈來愈成為 WWW 的一大隱憂: a)標籤之設計絕大部份和顯示的字型、顏色等外觀呈現有關,缺乏結構性,不利資訊精確檢 索,自動化文件處理及資料交換。 b)文件的內容(content)、結構(structure)和外觀呈現樣式(style)合一,造成改版相當困難。 c)標籤固定,不可擴展,無法進一步應用,限制了資訊之再利用性(re-usability)。 d)須藉助 Script、CGI、ASP、Plug-Ins 等擴增功能,才能完成動態網頁展現,資料庫存取,通 訊協定轉換,網路資源整合等,卻也造成百家爭鳴,各家推出的 Extension 功能不相容,使 HTML 文件愈來愈「不純」(或「亂」)。 3.XML. (1)歷史發展 為彌補 HTML 的缺陷,W3C 於 1998 年 1 月正式通過 XML 1.0 規範。 (2)XML 與 SGML XML 和 SGML 一樣,是一種元語言(Meta-language),可用來定義其他的標示語言,如: MathML、SMIL 等。
  35. 35. XML 是 SGML 的一個精簡子集(subset),去掉 SGML 20%複雜難用的部份,保留其他 80%的特 點,故承襲了 SGML 所具有的可擴展性、結構性、自我描述性及文件的內容(content)、結構 (structure)和外觀呈現樣式(style)分離的特性,故使其在電子出版、電子商務、數位圖書館、電 子資料交換、遠距教學、進階檢索引擎等領域資料的管理、交換及資訊檢索上,擁有強大的發 展和應用潛能。 在數位圖書館的應用上,XML 已成為詮釋資料的編碼(語法)標準。它提供了詮釋資料在語法層 次上的互通性,使之可跨平台,跨系統。 XML 的成功除了在於其架構取 SGML 之長,補 HTML 之短外,獲得大廠商 (Sun、Oracle、IBM、Microsoft、Netscape)、網路界、資料庫界之支持,使得以在 WWW 上傳 佈,也是重要的原因。 (3)XML 的特色 1)可擴展性(Extensibility):XML 讓使用者根據需求,自行定義標籤(tag)。 2)自我描述性(Self-description):可自行定義有意義的標籤(tag)。 3)結構性(Structure):XML 能描述各種複雜的文件結構。 4)可確認性(Validation):XML 可根據 DTD 對文件進行結構有效性的確認(valid XML document)。 5)一 Well-Formed XML 文件須具備以下條件:語法正確(syntactically correct)、大小寫有別(case sensitivity)、結束標籤必備(closing tags)、標籤不得重疊(no overlapping tags)。 6)XML 文件和樣式(style)分離(無內建樣式) a)XML 的樣式表包括:CSS(Cascading Style Sheet)和 XSL(eXtensible Style Language)。其中 XSL 不只單純的定義樣式,它的功能更加強大,是一種 Script 語言,除可格式化 XML 文件,以便顯 示 XML 文件外,並可採用 XSLT (XSL Transformation)規格,轉換 XML 成另一種架構的 XML 文件(供不同 metadata 交換資訊時轉換用),或轉換成非 XML 文件,如 HTML 文件。 b)可簡化 XML 文件的建立;一份 XML 文件可使用不同的樣式表,提高 XML 文件的再利用 性;多份 XML 文件可使用同一樣式表,使網站改版更為容易。
  36. 36. (三)Metadata、DRF 與 XML 的關係 為了讓 Metadata 能夠應用在電腦和網路世界裡,甚至在不同的數位圖書館系統間交流,必須將 Metadata 表示成電腦能夠瞭解(machine-understandable)的格式,此時就有三個層面必須考慮: 1.語意(Semantics) 即確認所採用之 Metadata 各欄位的意涵。如 DC 的 Creator 究竟代表資源的作者或出版者,須先 取得共識。 2.語法(Syntax) 即須以電腦能理解的文法來呈現詮釋資料。目前在網路上多使用 XML(eXtensible Markup Language)做為 Metadata 的語法。 3.結構(Structure) 即定義 Metadata 各屬性的結構。目前在網路上多使用 RDF(Resource Description Framework)來定 義 Metadata 的結構。 簡而言之,XML 是 Metadata 的一種語法,RDF 是 Metadata 的一種結構。 六、圖書館因應之道 王梅玲指出在面對電子資源與網路資源的蓬勃發展,與滿足使用者直接取用全文資料的資訊需 7 求,圖書館資訊組織工作者應作適當的調整與採取因應之道,下列幾個方向可供思考: 縮短編目工作流程及簡化編目標準。 研究與規劃在網路環境中從事電子資訊組織以及知識管理工作。 圖書館館際間進行合作資訊組織工作。 以外包簽約的方式取得編目與資訊組織紀錄。 從專家系統或人工智慧著手進行資訊組織自動化。 保持分類系統與控制詞彙更新,並適用於各種資訊媒體。 在線上環境中熟諳各種電子文件編碼格式與電子資源組織標準並善加運用於資訊組織工作。
  37. 37. 發展適合中文電子資源的詮釋資料格式。 加入世界性制訂標準的組織以及參與研究發展工作。 圖書資訊學教育與訓練應重新檢討與規劃,除強化核心圖書資訊組織的知識與實務,並增加電 子資源組織課程,以及納入電子檔案管理、電子紀錄管理、媒體概論、多媒體製作、與數位圖 書館與博物館等內涵。 作業 實際以 MARC、Dublin Core 等格式編電子資源。 電子資源可選中英文電子書、電子期刊及網站各一,分別以 CMARC、MARC21 及 Dublin Core 等格式編目,並比較各有何優缺點。 參考書目: 1.陳和琴等著。資訊組織。臺北縣蘆洲市:國立空中大學,民 92。 2.陳亞寧、陳淑君。Metadata 初探。http://www.sinica.edu.tw/~cdp/project/04/6_1.htm 3.王梅玲。電子資源對圖書館資訊組織工作的挑戰。書苑季刊 45 期(89 年 7 月) 第 54-67 頁。 4.杜宜凌。淺談 CIMI。http://www.lib.ntu.edu.tw/pub/mk/mk43/mk43-2.html 5.吳政叡。都柏林核心集與元資料系統。台北市:漢美,1998。 6.陳昭珍。XML, Metadata 與檔案資料數位化。 < http://archives.sinica.edu.tw/main/seminar/890713/article06.html> 7.陳雪華, "網路資源組織與 Metadata 之發展", 圖書館學刊, 12(民 86):19-37。 8.張莉慧,「CIMI 與數位化博物館」,博物館學季刊 13 卷 1 期(民國 88 年 1 月),頁 97-103。 9.Introduction to Metadata : pathways to digital information.
  38. 38. <http://www.getty.edu/research/conducting_research/standards/intrometadata/> 1 Sherry L. Vellucci. Options for Organizing Electronic Resources: The Coexistence of Metadata (http://www.asis.org/Bulletin/Oct-97/vellucci.htm) 2 相關詮釋資料之介紹與比較 http://ross.lis.ntu.edu.tw/achievement/metadata.htm#19 3 XML 小百科(http://www.xml.org.tw/Function/fglossary.asp) 4 檔案編碼描述格式 http://www.sinica.edu.tw/~metadata/ead/ead_preface.htm 5 劉嘉慧,GILS 介紹 http://www.ascc.net/nl/88/1510/04.txt 6 “CIMI Introduction”.( http://www.cimi.org/about/introduction.html) 7 王梅玲。電子資源對圖書館資訊組織工作的挑戰。書苑季刊 45 期(89 年 7 月) 第 54-67 頁。
  39. 39. 153

×