Linked Open Dataによる多様なミュージアム情報の統合発表者:嘉村哲郎kamura@nii.ac.jp総合研究大学院大学複合科学研究科
 背景 技術背景 関連研究 LODAC Museum 考察発表内容2LODACについてオープン化の時代新しい情報流通の形Linked Data(LOD)循環型情報活用RDF表現データの標準化情報源と情報統合公開・共有利用データについてまとめ応用例LODへの誘い
LODACプロジェクト(2010.4~)3「学術リソースのためのオープンソーシャルセマンティックWeb基盤の構築」情報・システム研究機構新領域融合センタープロジェクトLODAC = Linked Open Data for Academia(http://lod.ac/)概要国内の学術情報をLinked Open Data(LOD)で公開・共有を促進学術、社会一般等、広範囲なデータ利用の仕組みを構築はじめのターゲット複雑な構造を持つ未整理な情報が分散している学術・一般に貢献できるミュージアム領域
オープン化の情報時代へ4人文系分野で構築されてきたデータ資料データベース化、デジタルアーカイブデータ精度も高く情報資産としての価値が高いどこにあるのか?研究機関や個人研究者が保有外部には公開していない情報が大量に存在データ整理されていない情報もあるミュージアム領域ではその数程しれず今まで知らなかった情報が使えるようになったら?
新しい情報流通の形5Web of Document = 従来のWeb上のデータWebで公開した情報は情報として利用可能PDF、HTML、CSV等で公開   データとして利用するには情報の加工が必要     例:HTMLから余計なタグを排除してデータを抽出するWeb of Data = 新しいWebの情報流通Webで公開した情報はデータとして利用可能RDF、SPARQL Endpoint等リンクを参照してデータとして使える公開情報例:アーティストプロフィール、書誌情報、イベント情報
Linked Open Data(LOD)6公開情報を蓄積し、誰でも使えるようにするLinked Dataの原則あらゆる事柄にURIをつけるHTTP経由でURIを参照URIを参照したときは情報を閲覧できる他の関連情報へのリンクを含める
情報のオープン化へ7これからのWeb収集(情報を収集)利用(蓄積した情報は自分や社会のために)公開(多様なサービスを利用して情報発信)共有(様々な用途・広範な社会に利用してもらう)
循環型情報活用8製作過程の記録ノートA.制作に至った背景、動機B.発見、手法C.実験データ過去の手法に手を加え、新しい手法で創造A.製作過程B.類似作品との相違C.実験データ循環型情報活用(文化・芸術)Linked Open Dataで公開実験データ一部は保持 新たな作品展開
新たな分野,知の創出
次世代へ継承類似・関連情報等の横断的検索サービス
標準化データ形式9RDF1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表すトリプルが複数集まることで1データとして構成される横山大観述語http://lod.ac/id/1767http://lod.ac/id/4471http://lod.ac/id/4580skos:prefLabeldc:creator目的語rdf:typefoaf:personhttp://lod.ac/id/1767http://lod.ac/id/4773lodac:createsF主語lodac:createsdc:title生々流転図2つのトリプルからなる1データ4つのトリプルからなる1データ
標準化データ形式10RDF1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表すトリプルが複数集まることで1データとして構成されるF主語横山大観述語http://lod.ac/id/1767http://lod.ac/id/4471http://lod.ac/id/4580http://lod.ac/id/1767skos:prefLabeldc:creator目的語目的語foaf:personrdf:type述語F主語http://lod.ac/id/4773lodac:createslodac:createsF主語dc:title目的語生々流転図目的語6つのトリプルからなる1データ
RDF形式による表現11<?xml version="1.0" encoding="utf-8"?> </rdf:Description>  <rdf:Descriptionrdf:about="http://lod.ac/ref/20811">    <ns0:P62I_is_depicted_by xmlns:ns0="http://purl.org/NET/cidoc-crm/core#">巻末に年記、落款、印章</ns0:P62I_is_depicted_by>  </rdf:Description>   <rdf:Descriptionrdf:about="http://lod.ac/ref/20811">    <ns0:creator xmlns:ns0="http://purl.org/dc/elements/1.1/">横山大観</ns0:creator>  </rdf:Description>  <rdf:Descriptionrdf:about="http://lod.ac/ref/20811">    <ns0:source xmlns:ns0="http://purl.org/dc/terms/" rdf:resource="http://search.artmuseums.go.jp"/>  </rdf:Description></rdf:RDF>F主語述語1目的語243述語「P62I_is_depected_by」の表す意味はhttp://purl.org/NET/cidoc-crm/coreにある「http://lod.ac/ref/20811」「P62I_is_depicted_by」は「巻末に年記、落款、印章」がある「http://lod.ac/ref/20811」の「creator」は「横山大観」である「http://lod.ac/ref/20811」の「source」は「http://search.artmuseums.go.jp」である「http://lod.ac/ref/20811」のデータは1-3で構成されている。
RDFによる情報共有の利点12URIがリソースIDとして機能するURIを見ることで情報の定義が書いてある共通のURIを利用(共有)することで出所が保証された内容の情報を利用することが出来るXMLの問題なぜXMLはだめなのか?<person>  <name>横山大観</name></person><作家>  <作家名>横山大観</作家名></作家>・personとnameはなにを意味するのか。人物? 本名? 作家名?・nameと作家名は同じ意味なのだろうか? (同一性問題)・作家名にpersonと記述して良いのだろうか(拘束条件)
LOD活動事例13国立国会図書館(NDLSH)RDF/SKOS語彙を使用した件名目録表のLinked DataDBpedia(英語版)WikiPediaの情報をLODで利用可※日本語版DBpediaはLODACプロジェクトで準備中
<foaf:pagerdf:resource="/music/artists/70ea63ea-70dc-4b63-951a-2c249d2b3b0a.html"/><owl:sameAsrdf:resource="http://dbpedia.org/resource/Ricky_Martin"/><mo:musicbrainzrdf:resource="http://musicbrainz.org/artist/70ea63ea-70dc-463-951a-2c2.html"/><mo:imagerdf:resource="http://static.bbc.co.uk/music/images/artists/234x132/70ea63ea.jpg"/><foaf:homepagerdf:resource="http://www.rickymartin.com"/><mo:fanpagerdf:resource="http://www.rickymartin.com.br/"/><mo:wikipediardf:resource="http://en.wikipedia.org/wiki/Ricky_Martin"/></mo:MusicArtist></rdf:RDF>LOD利用事例(英国放送協会)14LODを利用したコンテンツ例Dbpedia(WikiPedia)から概要MusicBrainzから関連情報
Linked Data Cloud15
LODAC Museum17Web of Document をWeb of Dataへ1.データの標準化異なる情報源からのデータを収集して標準形式に変換2.情報関連付け・統合化標準形式に基づいた複数の情報源のデータを統合3.公開・共有統合したデータの一覧、網羅性のある一般的な検索LODとして利用できる基盤構築同じ内容を含む情報を統合化LODとして公開
ミュージアム資料実在するミュージアム14館から収集関連資料別の視点から整理された資料情報国指定文化財データベース文化遺産オンラインその他の情報日本語版Dbpedia(国土交通省国土計画局GIS)統合化の基点になる情報日本美術シソーラス(筑波大学日本美術シソーラスデータベース作成委員会編)美術に関する作品、人物、流派、所蔵館情報が含まれたデータセット標準化と情報源18情報源
メタデータ(語彙)利用方針19できるだけ既存の語彙を使用階層構造や利用範囲がある語彙は字面のみを利用どうしても存在しない語彙は独自の語彙として定義メタデータ数・作品 46個・人物 23個・施設 13個・書誌 12個
統合データと参照データ20参照用データ(http://lod.ac/ref/)収集したデータをそのまま参照し、メタデータ以外の内容は加工しないデータ内容の権限は情報源が持つ統合データ(http://lod.ac/id)LODACが関連ある参照用データを統合したデータ統合内容、編集内容権限はLODACが持つ各データには管理するために識別子が付けられる情報源Bの参照用データ統合データ情報源Aの参照用データcrm:P55_has_current_locationdc:creator作品dc:referencesdc:referencescrm:P55_has_current_locationcrm:P55_has_current_location収蔵館dc:creatordc:referencesdc:referencesdc:creator作者dc:referencesdc:references
21所蔵館情報の統合化文字列完全一致による所蔵館情報の統合A.日本美術シソーラスDBの所蔵館情報648件B.文化遺産オンラインの所蔵館情報915件結果77件の所蔵館が一致し、それぞれの情報を統合したA、Bともに異なる情報をリンクとしてLODACが管理するデータに統合統合化情報(LODAC管理)Aの情報Bの情報
22その他構築時における課題日本語読みと複数人名表記foaf:nick [  a lodac:Name;  lodac:label “嘉村"@ja; lodac:label “かむら"@ja-hrkt;  lodac:label ”KAMURA"@en;].ID700ID100ID700REF100REF700ID400同一内容の統合情報複数存在時の対応「ID100の内容がID700と同じ場合」1. ID100に記述されるREF700を一旦削除する2. ID700をリンク先とする他のID(ID400)の リンク先をID100に変更する3. ID700を削除し、ID700のアクセスはID100 へいくようリダイレクトさせる4. ID100にはID700としてアクセスできるよう REF700のリンクを再リンクする
23作者名をキーとする作品情報の統合基点(日本美術シソーラス)とする作者情報(下村観山の場合) -> 2件の作品情報があるLinked Data化とLODACによる作品情報統合->12件の追加作品情報(6件の異なる情報源)-> dbpedia日本語版へのリンク他の情報源へリンクLODAC管理データ(一部省略)作品リンクDBpedia作者の基点情報
LODAC Museumのデータ24特定項目キーの単純文字列統合実験結果総データ数「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出
LODAC Museumサイト構成25
LODAC Museumサイト構成26統合情報(作品)一覧
LODAC Museumサイト構成27WikiPediaの解説分を引用!
LODAC Museumサイト構成28日本美術シソーラスの情報,専門性が高い
29まとめ特定項目をキーに統合 ->  分散する情報が集積複数情報の統合によって元データにない情報(発見)の獲得多様な情報のLinked Data化はさらなる発見・知の獲得可能性予想できないデータの使い方やアプリケーションが期待できる情報源に変更があった際の参照用データの同期方法人名辞典や専門辞書の情報をどこから収集するかCSVインポートなど容易なLOD参加のための基盤準備LODAC Museumのデータ拡充(西洋美術など)考察おもな課題
30LOD応用例(地域情報+ミュージアム) 地域情報LOD  観光情報LOD +  ミュージアムLOD 地図情報LOD関連資料を巡る日本縦断ツアー地域とイベント情報による展覧会+αの情報資料に登場する歴史メニューが食べられる食情報+資料情報+地域情報ゲームやドラマに使用された資料軌跡(新たなターゲット層の獲得)
横浜では地域LOD、まもなく開始31
LOD応用例: ミュージアムマスターオンライン32ユーザによるコメントとコレクション関係の発見学芸員ではない一般ユーザによる資料コメント資料にある情報だけを見るのではなく様々な情報とつなげてコレクションを作る -> 元資料に興味を持つ可能性も 例えば・・・仏像への個人的解釈お寺にある弁財天像動画サイトの動画周辺情報の発信1.重要文化財弁財天像2.了法寺(八王子)ミュージアムマスター(JMMA2009)3.了法寺テーマソング4.イベント
情報をLODで公開しよう33まずは情報をオープンに、共有することから始めよう文化遺産(Cultural Heritage)から文化資産・資源へ(芸術・文化) × 情報 =多様多面な日本を世界に発信Museum Library Archives(MLA)を超えた連携をMLA3(Museum Library Archives, Arts andAcademia)えむえるえーきゅーぶ多くの人が使えば、それだけ多くの使い方が生まれます

Linked Open Dataによる多様なミュージアム情報の統合