小倉百人一首LOD
~図書館のオープン
データを活用する~
高橋 菜奈子
2018年9月1日
Code4Lib Japan @ 長野県立図書館
1
自己紹介
目録 貴重資料 デジタル&オープン サービス
東北大学
附属図書館
3年 目録 展示
新潟大学
附属図書館
4年 目録
ILL
漢籍・史料
整理、展示
デジタルアーカイブ 参考調査
literacy
宮城教育大
学図書館
2年 ILL ウェブサイト 閲覧
literacy
一橋大学
附属図書館
8年 目録 漢籍・史料
整理、展示
機関リポジトリ
デジタルアーカイブ
ウェブサイト
国立情報学
研究所
6年 NACSIS-CAT
/ILL
これから委
SPARC Japan
機関リポジトリ委員
会委員
研修
千葉大学
附属図書館
管理職
3年目
JPCOAR委員
OA委員会委員
主なキャリア: 目録・機関リポジトリ・デジタルアーカイブなど、メタデータと
オープンアクセス関連 2
LODへの挑戦
• LOD連続講座への参加
– Linked Open Data Initiativeによる開講
– http://linkedopendata.jp/?p=594
• LODチャレンジへの参加
– 2011年から実施されているLODのコンテスト
– アプリケーション部門、データセット部門、基盤技術部門、ビ
ジュアライゼーション部門がある。
– 研究者・技術者・行政職・図書館員・学生など様々な参加者
• 2016:郷土かるたLOD
– アイデア部門優秀賞受賞
– http://idea.linkdata.org/idea/idea1s2085i
• 2017:小倉百人一首LOD
– データセット部門最優秀賞受賞
– http://idea.linkdata.org/idea/idea1s2398i
3
LODとは
4
Linked Open Dataとは
• オープンデータ
– 自由な再利用可能なライセンスの明示されたデータ
– 機械可読のデータ
• リンクトデータ
– リソースとリソースがリンクされたデータ
• 5つの星
– ***** LOD
– **** RDF
– *** 非独占
– ** 構造化
– * ライセンス
5
RDF(Resource Description Framework)
• 3つのトリプルで表現する
– リソースはURIを指定する必要がある
– プロパティで関係を表す
– リテラルはURIを持たない文字列
在原業平
URI
ちはやぶる
URI
作者は
ちはやぶる
URI
ちはやぶる 神代も聞かず
龍田川
上の句は
リソース
リテラル
プロパティ
http://xxxxx/yyyhttp://xxxxx/xxx
http://xxxxx/xxx
6
語彙の定義
• 関係を表す語彙を探す
• なければ、独自定義する
在原業平
URI
ちはやぶる
URI
作者は
ちはやぶる
URI
ちはやぶる 神代も聞かず
龍田川
上の句は
dcterms: creator
karuta: firstHalf
7
Linked Dataへ
• トリプルを次々とリンクする
在原業平
URI
ちはやぶる
URI
DBPediaの
在原業平
URI
owl:sameAs
dcterms: creator
karuta: firstHalf
ちはやぶる 神代も聞かず
龍田川
小倉百人
一首URI
dcterms: isPartOf
小倉百人一首
画像
URI
schema:
image
在原業平
foaf:name
rdfs: label 8
RDFグラフの記述
• N-Triples
• Turtle
• TriG
• N-Quads
• JSON-LD
• RDFa
• RDF/XML
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix cc: <http://creativecommons.org/ns#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix bibo: <http://bibliographic-ontology.org/bibo/> .
@prefix dc: <http://purl.org/dc/terms/> .
@prefix dcterms: <http://purl.org/dc/elements/1.1/> .
@prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> .
@prefix karuta: <http://karutalod.web.fc2.com/vocabulary/> .
<http://linkdata.org/resource/rdf1s6834i#ogura_017>
rdfs:label "ogura_017"@ja,"ちはやぶる 神代も聞かず 龍田川 から紅に 水くくるとは"@ja ;
karuta:historicalTranscription "ちはやぶる かみよもきかず たつたがは からくれなゐに みづくく
るとは"@ja ;
dc:creator "在原業平朝臣"@ja ;
dcterms:creator <http://linkdata.org/resource/rdf1s6833i#kajin_017>;
bibo:number "17"@ja ;
karuta:textOfYomi "ちはやぶる神代も聞かず龍田川 から紅に水くくるとは"@ja ;
karuta:textOfTori "からくれなゐにみつくくるとは"@ja ;
karuta:imageOfYomi <https://commons.wikimedia.org/wiki/File:Hyakuninisshu_017.jpg> ;
karuta:uniqueSyllable "ちは"@ja ;
karuta:firstHalf "ちはやぶる 神代も聞かず 龍田川"@ja ;
karuta:transcriptionOfFirstHalf "ちはやぶる かみよもきかず たつたがわ "@ja ;
karuta:secondHalf "から紅に 水くくるとは"@ja ;
karuta:transcriptionOfSecondHalf "からくれないに みずくくるとは"@ja ;
karuta:bonze "殿"@ja ;
dc:source "古今集"@ja ;
dc:subject "秋"@ja ;
dc:spacial "龍田川"@ja ;
geo:lat "34.612665"^^xsd:float ;
geo:long "135.714085"^^xsd:float ;
dcterms:refenreces <http://linkdata.org/resource/rdf1s6837i#ndl_hishikawa_017>,
<http://linkdata.org/resource/rdf1s6838i#ndl_nazorae_017>,
<http://linkdata.org/resource/rdf1s6840i#osakaml_utena_017>,
<http://linkdata.org/resource/rdf1s6856i#nijl_izumiya_017>,
<http://linkdata.org/resource/rdf1s6839i#ndl_shikishi_017> ;
dcterms:isPartOf <http://linkdata.org/resource/rdf1s6836i#ogura>.Turtleの例 9
LinkDataツールの利用
• LinkData.orgのツールを使って、EXCELからRDFを生成
– 表形式で作成すれば、Turtleに変換してくれる
– 表にIdentifierを記入しておけば、URIを生成してくれる
• 1枚の表(EXCEL)には1種類のリソースのみ。複数の表を
組み合わせる。
※
http://linkdata.org/r
esource/rdf1s6834i#
ogura_017
Identifier rdfs:label dc:creator
ogura_017 ちはやぶる神代も聞かず… 在原業平朝臣
ogura_018 住の江の岸に寄る浪… 藤原敏行朝臣
ogura_019 難波潟短き葦のふしのまも… 伊勢
Identifier foaf:name Karuta:hitoricalTranscription
kajin_017 在原業平朝臣 ありはらのなりひらあそん
kajin_018 藤原敏行朝臣 ふじわらのとしゆきあそん
kajin_019 伊勢 いせ
http://linkdata.org/r
esource/rdf1s6833i
#kajin_017
Open Refineを使うなど、他の手段でもLODは作れる。
10
小倉百人一首LOD
11
小倉百人一首LODのねらい
• かるたのLOD化(モデルと語彙の設計)
– 郷土かるた(いろはかるた)に続き、小倉百人一首の
設計
• 文化情報資源のLODの普及
– 行政の情報公開・生活の利便性を追求するオープン
データだけではなく、社会を豊かにする文化情報資
源のLODへ
– かるたは、言葉・文学・絵画・歴史・地域文化を含ん
だ総合芸術的な遊び。ゲームとしての魅力と文化情
報資源としての魅力を兼ねそなえている。
• 既存オープンデータのリンク
– 図書館の所蔵するオープンデータ画像をつなぎ、活
用の可能性を引き出す
12
図書館所蔵資料のオープンデータ
• 図書館の文脈でのオープンデータ
所蔵資料のデジタルアーカイブの画像にライセンスを
つけてオープンデータとして公開
– 今後、研究成果のオープンアクセスから研究データのオープン化(オー
プンサイエンス)へという流れと交差する可能性もあるのか?
• オープンデータを公開している図書館
– 国立国会図書館 国文学研究資料館
– 大阪市立図書館 京都大学附属図書館
– 島根大学附属図書館 東京大学総合図書館 等
– 千葉大学附属図書館も近日公開予定
13
つながる古典籍のオープンデータ
• 図書館のオープン
データの課題
– 活用が見えづらい
– オープンデータを公
開している図書館の
情報がまとまってい
ない
 バラバラのオープン
データ画像をつなぐ
– 情報の組織化・LOD
化によって、活用の
可能性を示す
小倉百
人一首
LOD
国立国会
図書館の
画像
国文学研
究資料館
の画像
大阪市立
図書館の
画像
Linked Open Dataによって、つながる画像群
小倉百
人一首
LOD
各地の図書館の小野小町
「はなのいろは」
14
小倉百人一首のデータモデル
• LODチャレンジ2017応募作品
http://idea.linkdata.org/idea/idea1s2398i
• かるたLODのウェブサイト
http://karutalod.web.fc2.com/ogura.html
• 独自語彙のNamespace
http://karutalod.web.fc2.com/vocabulary/
• 公開済データ(LinkData.org)
http://user.linkdata.org/user/tnanako/work
かるたデータ
歌人データ
各古典籍のデータ
15
かるたのグラフ(基本形)
かるた
カード
dc: title
karuta: textOfTori
読札のテキスト
かるたセット
dcterms: isPartOf
出版社
karuta:imageOfYomi
dc:publisher
取札のテキスト
主題
タイトル
読札の画像 取札の画像
付加的情報
karuta:imageOfTorikaruta: textOfYomi
主題
主題など
書誌的事項
16
小倉百人一首かるたデータ
• 和歌をリソースとして作成
• ゲームに必要な情報を整理し、語彙を定義
– 独自定義の語彙:読札のテキスト、取札のテキスト、
読札の画像、取札の画像、決まり字、坊主めくり用の
区分
• 和歌集としての必要な情報も収録
– 独自定義の語彙:上の句、下の句
– 歌枕として詠まれた地名と緯度・経度
– 歌番号、出展の選集と部立て
• 正確な漢字・かな遣いの表記
– 競技かるた用の読札に準拠
• 古典籍画像へのリンク
– かるたデータの和歌から各古典籍の和歌にリンク 17
小倉百人一首かるたのグラフ
かるた
(和歌)URI
karuta: textOfTori
読札のテキスト
小倉百人一首
URI
dcterms isPartOf
schema:image
dc:creator
取札のテキスト
決まり字
画像
karuta: textOfYomi
主題(部立)
坊主めくり
区分
歌枕
上の句 下の句
位置情報
dc: title
藤原定家
小倉百人一首
歌人URI
歌人名
古典籍中の
和歌URI
ヨミ
和歌のテキスト
dc:creator
dcterms:creator
dcterms:references
karuta: secondHalfkaruta: firstHalf
dc: subject
dc: spacial
geo:lat
geo:long
karuta:bonze
karuta:uniqueS
yllable
rdfs: label
karuta:his
toricalTran
scription
18
小倉百人一首歌人データ
• 歌人をリソースとして作成
• かるたデータからリンクする典拠の役割
• 基本情報として名前表記をデータ化
– 漢字表記・歴史的かな遣い、現代かな遣い、ロー
マ字表記、英語翻訳名
• DBPedia、NDL Authoritiesにリンク
– 人物の詳細な情報は外部リソースにゆだねる
19
歌人のグラフ
DBPedia
歌人
URI
かるた
(和歌)URI
DBPediaの
歌人URI
owl:sameAs
dcterms: creator
歌人名
漢字表記foaf:name
NDL
NDL
Authoritiesの
歌人URI
歌人名
現代カナ
表記
歌人名
ローマ字
表記
歌人名
歴史的カナ
表記
歌人名
英語翻訳
owl:sameAs
karuta:transcription
mads:hasTrans
criptionVariant
karuta:historical
Transcription
karuta:roman
Transcription
20
古典籍画像データ
• オープンデータ画像が利用できる古典籍を資
料単位でリソースとして作成
– タイトルごとにリソースを設定
– 書誌事項、所蔵館、ライセンスの情報を整理
– 収録する和歌にリンク
• 各古典籍ごとに和歌をリソースとして作成
– 現代かな遣い、歴史的かな遣いを忠実に翻刻
– 公開されている画像へのリンク(DOI,URL)
– かるたデータの和歌からのリンク
21
古典籍のグラフ
karuta: textOfTori
読札のテキスト
(翻刻)
古典籍資料
URI
dcterms: isPartOf
schema:image
dc:publisher
取札のテキスト
(翻刻)
karuta: textOfYomi
dc: title
所蔵館 資料名
歌人名
(翻刻)
出版者ライセンス
かるた
(和歌)URI
古典籍中の
和歌URI
画像URI
dc:creator
dcterms:
references
dcterms: licence
bibo: owner
dcterms: hasPart
画像URI
schema:image
和歌のテキスト
(翻刻)
rdfs: label
22
作成公開済みのデータセット
• 小倉百人一首かるたデータ
http://linkdata.org/work/rdf1s6834i
• 小倉百人一首の歌人データ
http://linkdata.org/work/rdf1s6833i
• 小倉百人一首オープンデータ画像リスト
http://linkdata.org/work/rdf1s6836i
– 小倉百人一首(国立国会図書館所蔵)
http://linkdata.org/work/rdf1s6837i
– 小倉擬百人一首(国立国会図書館所蔵)
http://linkdata.org/work/rdf1s6838i
– 小倉山荘色紙型和歌(国立国会図書館所蔵)
http://linkdata.org/work/rdf1s6839i
– 小倉百首(大阪市立図書館所蔵)
http://linkdata.org/work/rdf1s6840i
– 小倉百人一首(国文学研究資料館所蔵)
http://linkdata.org/work/rdf1s6856i 23
LinkDataへの登録
• LinkData.org (http://linkdata.org/)
http://user.linkdata.org/user/tnanako/work
ダウンロード
24
25
26
小倉百人一首LOD活用の可能性
• ゲームアプリの中で古典籍の画像の活用
• 翻刻データを使って和歌ごとの日本語表記の分析
– ちはやぶる 神代も聞かず 龍田川 から紅に 水くくるとは
– 千早振 神代もきかす 龍田川 からくれなゐに 水くゝるとは
– 千早振 神代もきかず たつ田川 からくれなゐに 水くゞるとは
– 千早振 神代もきかす たつた川 から紅に 水くゝるとは
– 千早ふる 神代もきかず たつた川 からくれないに 水くゞるとは
国文研所蔵「小
倉百人一首」の
小野小町
国立国会図書館所蔵
「小倉百人一首」「錦
百人一首あづま織」
の小野小町
大阪市立図書館所蔵「小倉
百首」万葉仮名のちはやふる
27
小倉百人一首LODのアップデート
28
IIIFとは?
• IIIF(International Image Interoperability
Framework)は、画像へのアクセスを標準化し
相互運用性を確保するための国際規格
• IIIF対応のデジタルアーカイブを公開する図書
館が増加中
2018年のLODチャレンジは
IIIF対応で応募予定
29
IIIF対応の画像データの活用
• 画像APIの活用
– 複数のかるたが含まれ
る画像から当該かるた
を切出してリンク
• マニフェストの活用
– 一つのビューワーで、異
なる所蔵館のかるたを
比較
国文学研究資料館
の画像
国立国会図書館の
画像
「ちはやぶる」の画像
のみにリンク可能
いずれも、菱川師宣画「小倉百人一首」
ちはやぶる国立国会図書館の画像 30
かるたLODの今後
• 郷土かるたLOD(2016)
– データの拡充
• 小倉百人一首LOD(2017)
– 古典籍データの拡充
– 英語に翻訳された百人一首のLOD化
– IIIF対応(2018)
• いろはかるたLOD
• 創作かるた
⇒かるた文化の豊かな世界をもっと楽しむための
データ基盤の形成へ
31
Codeを書く方へ
かるたデータを活用したアプリを作ってくれる
方を募集中です!
Codeを書かない方へ
ツールを使ってLODをつくることができます。
かるたのデータを作りながらLODを勉強した
い方を募集中です!
32

Ogura LOD at code4lib_20180901