More Related Content
More from kulibrarians (20)
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(配布形式)
- 1. マークアップ言語を用いた目録データの変換について∗
佐野 広明†
2002 年 2 月 28 日
1 発表内容
1. 国立情報学研究所セミナーについての概要 (公的なもの)
2. セミナーでの研究について (メイン)
3. セミナーにまつわる話 (今後セミナーに参加しようと思っている方の参考のために)
4. 研究の過程で使用したツール (直接研究に関わらないもの) の紹介
2 国立情報学研究所セミナーについて
目的
実際の学術研究活動の体験を通して高度化する学術情報システムの環境に対応しうる知識と技術を修得し,
学術研究活動支援の中核となる要員を養成する。
歴史
• 東京大学図書館情報学セミナー、東京大学文献情報センター・セミナー、学術情報センター・セミナーと
変遷
• 平成 7 年度に再開。平成 8、9 年度と実施された。そして国立情報学研究所となってから国立情報学研究
所セミナーとして平成 12、13 年度に実施された。
期間
2001(平成 13) 年
6 月 18 日 (月)∼7 月 6 日 (金)
9 月 25 日 (火)∼10 月 5 日 (金)
12 月 3 日 (月)∼12 月 14 日 (金)
参加者
• 福嶋徹さん (宇部工業高等専門学校 情報処理センター)
• 寸田五郎さん (宮崎大学附属図書館 受入管理係)
∗ 京大図書館職員勉強会 (2002.2.28)
† 京都大学総合人間学部図書館
1
- 2. 京大図書館職員勉強会 (2002.2.28) 2
• 佐野広明 (京都大学総合人間学部図書館)
内容
• 完全に個別研究のみ
• 各日程最終日前日に発表会(着手、中間、最終)
• レポートの提出。NII 成果普及課のホームページに掲載。冊子としても刊行される (3 月中旬予定)。
• 指導教官 (宮澤彰先生)
3 研究内容
• 研究の背景
• SGML を用いた目録作成システム
• XML を用いた目録作成システム
• 日本語データの扱い
• 変換の検証
4 研究の背景
• マークアップ言語による目録データ記述
• フォーマット変換
• XML の有用性・将来性
5 SGML を用いた目録作成システム
• ハンガリーにおける日本語図書の整理
• USMARC への変換
• SGML の採用
• Emacs を使った統合的環境
– OS は、FreeBSD(2.2.6∼3.2, 4.2)
– 日本語入力は、SKK
– Emacs-lisp による目録作成環境構築
6 システム概要図 (SGML 版)
図 1 を参照。
7 SGML データの例
<Record RecStat=”n” Type=”a” BibLvl=”m” EncLvl=” ” Desc=”i”>
<F001>ocm34114195
<F008 Entrd=”971112” DatTp=”s” Date1=”1995” Date2=” ” Ctry=”ja ” Illus=” ” IntLvl=” ” Repr=” ” Cont=” ”
GovtPub=” ” ConfPub=”0” Fests=”0” Indx=”0” Fiction=”0” Biogr=” ” Lang=”jpn” ModRec=” ” Source=”d”>
<F020><a>4 00 430375 3 :<c>Y602
<F040><a>HuDeKLEK
<F066><c>$B
<F080><a>821.521-5
- 3. 京大図書館職員勉強会 (2002.2.28) 3
SGML ESIS
USMARC
図 1: システム概要図 (SGML 版)
<F084><Two>njb<a>914.6
<F100 i1=”1”><a>Ōe, Kenzaburō<d>(1935-)
<J100 i1=”1”><a>大江, 健三郎<d>(1935-)
<F245 i1=”1” i2=”0”><a>Aimai na Nihon no watakushi /<c>Ōe Kenzaburō cho
<J245 i1=”1” i2=”0”><a>あいまいな日本の私 /<c>大江健三郎著
<F260><a>Tōkyō :<b>Iwanami Shoten,<c>1995
<J260><a>東京 :<b>岩波書店,<c>1995
<F300><a>II, 232 p. ;<c>18 cm
<F490 i1=”1”><a>(Iwanami shinsho ;<v>shin akaban 375)
<J490 i1=”1”><a>(岩波新書 ;<v>新赤版 375)
<F830 i2=”0”><a>Iwanami shinsho
<J830 i2=”0”><a>岩波新書
<F949><a>S914.6/O14<l>D1/J<n>12.305/1996<t>jc<z>02375533
<F960><c>20<d>19960708<s>小島亮<p>620<z>02375533
8 ESIS データの例
...
Ai1 TOKEN 1
Ai2 TOKEN 0
(F245
(a
-Aimai na Nihon no watakushi /
)a
(c
-{macr}Oe Kenzabur{macr}o cho
)c
)F245
Ai1 TOKEN 1
Ai2 TOKEN 0
(J245
(a
-あいまいな日本の私 /
)a
(c
-大江健三郎著
)c
)J245
...
9 XML を用いた目録作成システム
• NACSIS-CAT の利用
• XML への変換と MARC 21 への変換
• XSLT(XSL for Transformations) によるフォーマット変換
• 開発環境
– IBM ThinkPad T22(Pentium III 900MHz, メモリ 512MB, HD 20GB)
– OS: Windows2000 SP2 → Windows XP Professional
– VMware 上の FreeBSD 4.4R
– Perl 5.6.1
– Meadow 1.15pre1 と Emacs 20.7
- 4. 京大図書館職員勉強会 (2002.2.28) 4
10 システム概要図 (XML 版)
図 2 を参照。
NACSIS-CAT MARC 21
ESIS
XSLT
図 2: システム概要図 (XML 版)
11 Perl スクリプト類
• CATP 接続
• カナ → ローマ字変換
イノウエ問題
× inōe
○ inoue
12 日本語データの扱い
• XML でのデータの持ち方 (Fxxx と Jxxx)
• MARC 21 での扱い (タグ 880 からのリンク)
• 文字コードの問題
• 言語属性
13 変換の検証
• XSLT スタイルシート (695 行)
• 形式上の変換はほぼ可能
• できないこと (日本語からハンガリー語など)
14 まとめ
• 構造的なものの変換には有効
• XML の特性を利用したシステム (他データとの連携、横断検索など)
- 5. 京大図書館職員勉強会 (2002.2.28) 5
• 実用性の追及
15 セミナーにまつわる話
• 参加の経緯
• 研修場所
• 研修時間
• 研修費用
• 機材・参考資料の購入
• 宿舎
• 研究テーマについて
• セミナーを振り返って
16 おまけ
セミナー中に利用した (遊んだ) ツール類
• VMware(大江将史, 「特集 VMware で UNIX」, UNIX MAGAZINE, Vol.16, No.1, p.51-65, 2001)
• ASTEC-X(http://www.astec.co.jp/products/ASTECX/astecx.html)
• Cygwin(http://www.cygwin.com)
• dvipdfm(http://www.matsusaka-u.ac.jp/˜okumura/texfaq/pdf.html)
• prosper(http://hashi4.civil.tohoku.ac.jp/soft/node10.html)
• WinSCP(http://winscp.vse.cz)