Linked Open Dataによる多様なミュージアム情報の統合

4,503 views
4,435 views

Published on

Integration of distributed of museum information with linked open data.
じんもんこん2010発表資料補填版

Published in: Education
1 Comment
5 Likes
Statistics
Notes
  • English Version is here: http://www.slideshare.net/takeda/takeda-101214final
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total views
4,503
On SlideShare
0
From Embeds
0
Number of Embeds
1,012
Actions
Shares
0
Downloads
26
Comments
1
Likes
5
Embeds 0
No embeds

No notes for slide

Linked Open Dataによる多様なミュージアム情報の統合

  1. 1. Linked Open Dataによる<br />多様なミュージアム情報の統合<br />発表者:嘉村哲郎<br />kamura@nii.ac.jp<br />総合研究大学院大学複合科学研究科<br />
  2. 2.  背景<br /> 技術背景<br /> 関連研究<br /> LODAC Museum<br /> 考察<br />発表内容<br />2<br />LODACについて<br />オープン化の時代<br />新しい情報流通の形<br />Linked Data(LOD)<br />循環型情報活用<br />RDF表現<br />データの標準化<br />情報源と情報統合<br />公開・共有<br />利用データについて<br />まとめ<br />応用例<br />LODへの誘い<br />
  3. 3. LODACプロジェクト(2010.4~)<br />3<br />「学術リソースのためのオープンソーシャルセマンティックWeb基盤の構築」情報・システム研究機構新領域融合センタープロジェクト<br />LODAC = Linked Open Data for Academia(http://lod.ac/)<br />概要<br />国内の学術情報をLinked Open Data(LOD)で公開・共有を促進<br />学術、社会一般等、広範囲なデータ利用の仕組みを構築<br />はじめのターゲット<br />複雑な構造を持つ<br />未整理な情報が分散している<br />学術・一般に貢献できる<br />ミュージアム領域<br />
  4. 4. オープン化の情報時代へ<br />4<br />人文系分野で構築されてきたデータ<br />資料データベース化、デジタルアーカイブ<br />データ精度も高く情報資産としての価値が高い<br />どこにあるのか?<br />研究機関や個人研究者が保有<br />外部には公開していない情報が大量に存在<br />データ整理されていない情報もある<br />ミュージアム領域ではその数程しれず<br />今まで知らなかった情報が使えるようになったら?<br />
  5. 5. 新しい情報流通の形<br />5<br />Web of Document = 従来のWeb上のデータ<br />Webで公開した情報は情報として利用可能<br />PDF、HTML、CSV等で公開<br />   データとして利用するには情報の加工が必要     例:HTMLから余計なタグを排除してデータを抽出する<br />Web of Data = 新しいWebの情報流通<br />Webで公開した情報はデータとして利用可能<br />RDF、SPARQL Endpoint等<br />リンクを参照してデータとして使える公開情報<br />例:アーティストプロフィール、書誌情報、イベント情報<br />
  6. 6. Linked Open Data(LOD)<br />6<br />公開情報を蓄積し、誰でも使えるようにする<br />Linked Dataの原則<br />あらゆる事柄にURIをつける<br />HTTP経由でURIを参照<br />URIを参照したときは情報を閲覧できる<br />他の関連情報へのリンクを含める<br />
  7. 7. 情報のオープン化へ<br />7<br />これからのWeb<br />収集(情報を収集)<br />利用(蓄積した情報は自分や社会のために)<br />公開(多様なサービスを利用して情報発信)<br />共有(様々な用途・広範な社会に利用してもらう)<br />
  8. 8. 循環型情報活用<br />8<br />製作過程の記録ノート<br />A.制作に至った背景、動機<br />B.発見、手法<br />C.実験データ<br />過去の手法に手を加え、<br />新しい手法で創造<br />A.製作過程<br />B.類似作品との相違<br />C.実験データ<br />循環型情報活用<br />(文化・芸術)<br />Linked Open Dataで公開<br />実験データ一部は保持<br /><ul><li> 新たな作品展開
  9. 9. 新たな分野,知の創出
  10. 10. 次世代へ継承</li></ul>類似・関連情報等の横断的検索サービス<br />
  11. 11. 標準化データ形式<br />9<br />RDF<br />1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す<br />トリプルが複数集まることで1データとして構成される<br />横山大観<br />述語<br />http://lod.ac/id/1767<br />http://lod.ac/id/4471<br />http://lod.ac/id/4580<br />skos:prefLabel<br />dc:creator<br />目的語<br />rdf:type<br />foaf:person<br />http://lod.ac/id/1767<br />http://lod.ac/id/4773<br />lodac:creates<br />F主語<br />lodac:creates<br />dc:title<br />生々流転図<br />2つのトリプルからなる1データ<br />4つのトリプルからなる1データ<br />
  12. 12. 標準化データ形式<br />10<br />RDF<br />1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す<br />トリプルが複数集まることで1データとして構成される<br />F主語<br />横山大観<br />述語<br />http://lod.ac/id/1767<br />http://lod.ac/id/4471<br />http://lod.ac/id/4580<br />http://lod.ac/id/1767<br />skos:prefLabel<br />dc:creator<br />目的語<br />目的語<br />foaf:person<br />rdf:type<br />述語<br />F主語<br />http://lod.ac/id/4773<br />lodac:creates<br />lodac:creates<br />F主語<br />dc:title<br />目的語<br />生々流転図<br />目的語<br />6つのトリプルからなる1データ<br />
  13. 13. RDF形式による表現<br />11<br /><?xml version="1.0" encoding="utf-8"?><br /> </rdf:Description><br /> <rdf:Descriptionrdf:about="http://lod.ac/ref/20811"><br /> <ns0:P62I_is_depicted_by xmlns:ns0="http://purl.org/NET/cidoc-crm/core#">巻末に年記、落款、印章</ns0:P62I_is_depicted_by><br /> </rdf:Description><br /> <rdf:Descriptionrdf:about="http://lod.ac/ref/20811"><br /> <ns0:creator xmlns:ns0="http://purl.org/dc/elements/1.1/">横山大観</ns0:creator><br /> </rdf:Description><br /> <rdf:Descriptionrdf:about="http://lod.ac/ref/20811"><br /> <ns0:source xmlns:ns0="http://purl.org/dc/terms/" rdf:resource="http://search.artmuseums.go.jp"/><br /> </rdf:Description></rdf:RDF><br />F主語<br />述語<br />1<br />目的語<br />2<br />4<br />3<br />述語「P62I_is_depected_by」の表す意味はhttp://purl.org/NET/cidoc-crm/coreにある<br />「http://lod.ac/ref/20811」「P62I_is_depicted_by」は「巻末に年記、落款、印章」がある<br />「http://lod.ac/ref/20811」の「creator」は「横山大観」である<br />「http://lod.ac/ref/20811」の「source」は「http://search.artmuseums.go.jp」である<br />「http://lod.ac/ref/20811」のデータは1-3で構成されている。<br />
  14. 14. RDFによる情報共有の利点<br />12<br />URIがリソースIDとして機能する<br />URIを見ることで情報の定義が書いてある<br />共通のURIを利用(共有)することで出所が保証された内容の情報を利用することが出来る<br />XMLの問題なぜXMLはだめなのか?<br /><person><br /> <name>横山大観</name><br /></person><br /><作家><br /> <作家名>横山大観</作家名><br /></作家><br />・personとnameはなにを意味するのか。人物? 本名? 作家名?<br />・nameと作家名は同じ意味なのだろうか? (同一性問題)<br />・作家名にpersonと記述して良いのだろうか(拘束条件)<br />
  15. 15. LOD活動事例<br />13<br />国立国会図書館(NDLSH)<br />RDF/SKOS語彙を使用した件名目録表のLinked Data<br />DBpedia(英語版)<br />WikiPediaの情報をLODで利用可<br />※日本語版DBpediaはLODACプロジェクトで準備中<br />
  16. 16. <foaf:pagerdf:resource="/music/artists/70ea63ea-70dc-4b63-951a-2c249d2b3b0a.html"/><br /><owl:sameAsrdf:resource="http://dbpedia.org/resource/Ricky_Martin"/><br /><mo:musicbrainzrdf:resource="http://musicbrainz.org/artist/70ea63ea-70dc-463-951a-2c2.html"/><br /><mo:imagerdf:resource="http://static.bbc.co.uk/music/images/artists/234x132/70ea63ea.jpg"/><br /><foaf:homepagerdf:resource="http://www.rickymartin.com"/><br /><mo:fanpagerdf:resource="http://www.rickymartin.com.br/"/><br /><mo:wikipediardf:resource="http://en.wikipedia.org/wiki/Ricky_Martin"/><br /></mo:MusicArtist><br /></rdf:RDF><br />LOD利用事例(英国放送協会)<br />14<br />LODを利用したコンテンツ例<br />Dbpedia(WikiPedia)から概要<br />MusicBrainzから関連情報<br />
  17. 17. Linked Data Cloud<br />15<br />
  18. 18.
  19. 19. LODAC Museum<br />17<br />Web of Document をWeb of Dataへ<br />1.データの標準化<br />異なる情報源からのデータを収集して標準形式に変換<br />2.情報関連付け・統合化<br />標準形式に基づいた複数の情報源のデータを統合<br />3.公開・共有<br />統合したデータの一覧、網羅性のある一般的な検索<br />LODとして利用できる基盤構築<br />同じ内容を含む情報を統合化<br />LODとして公開<br />
  20. 20. ミュージアム資料<br />実在するミュージアム14館から収集<br />関連資料<br />別の視点から整理された資料情報<br />国指定文化財データベース<br />文化遺産オンライン<br />その他の情報<br />日本語版Dbpedia<br />(国土交通省国土計画局GIS)<br />統合化の基点になる情報<br />日本美術シソーラス(筑波大学日本美術シソーラスデータベース作成委員会編)<br />美術に関する作品、人物、流派、所蔵館情報が含まれたデータセット<br />標準化と情報源<br />18<br />情報源<br />
  21. 21. メタデータ(語彙)利用方針<br />19<br />できるだけ既存の語彙を使用<br />階層構造や利用範囲がある語彙は字面のみを利用<br />どうしても存在しない語彙は独自の語彙として定義<br />メタデータ数<br />・作品 46個<br />・人物 23個<br />・施設 13個<br />・書誌 12個<br />
  22. 22. 統合データと参照データ<br />20<br />参照用データ(http://lod.ac/ref/)<br />収集したデータをそのまま参照し、メタデータ以外の内容は加工しない<br />データ内容の権限は情報源が持つ<br />統合データ(http://lod.ac/id)<br />LODACが関連ある参照用データを統合したデータ<br />統合内容、編集内容権限はLODACが持つ<br />各データには管理するために識別子が付けられる<br />情報源Bの参照用データ<br />統合データ<br />情報源Aの参照用データ<br />crm:P55_has_current_location<br />dc:creator<br />作品<br />dc:references<br />dc:references<br />crm:P55_has_current_location<br />crm:P55_has_current_location<br />収蔵館<br />dc:creator<br />dc:references<br />dc:references<br />dc:creator<br />作者<br />dc:references<br />dc:references<br />
  23. 23. 21<br />所蔵館情報の統合化<br />文字列完全一致による所蔵館情報の統合<br />A.日本美術シソーラスDBの所蔵館情報648件<br />B.文化遺産オンラインの所蔵館情報915件<br />結果77件の所蔵館が一致し、それぞれの情報を統合した<br />A、Bともに異なる情報をリンクとしてLODACが管理するデータに統合<br />統合化情報(LODAC管理)<br />Aの情報<br />Bの情報<br />
  24. 24. 22<br />その他構築時における課題<br />日本語読みと複数人名表記<br />foaf:nick [ <br /> a lodac:Name; <br /> lodac:label “嘉村"@ja;<br /> lodac:label “かむら"@ja-hrkt; <br /> lodac:label ”KAMURA"@en;<br />].<br />ID700<br />ID100<br />ID700<br />REF100<br />REF700<br />ID400<br />同一内容の統合情報複数存在時の対応<br />「ID100の内容がID700と同じ場合」<br />1. ID100に記述されるREF700を一旦削除する<br />2. ID700をリンク先とする他のID(ID400)の リンク先をID100に変更する<br />3. ID700を削除し、ID700のアクセスはID100 へいくようリダイレクトさせる<br />4. ID100にはID700としてアクセスできるよう REF700のリンクを再リンクする<br />
  25. 25. 23<br />作者名をキーとする作品情報の統合<br />基点(日本美術シソーラス)とする作者情報(下村観山の場合) -> 2件の作品情報がある<br />Linked Data化とLODACによる作品情報統合->12件の追加作品情報(6件の異なる情報源)-> dbpedia日本語版へのリンク<br />他の情報源へリンク<br />LODAC管理データ(一部省略)<br />作品リンク<br />DBpedia<br />作者の基点情報<br />
  26. 26. LODAC Museumのデータ<br />24<br />特定項目キーの単純文字列統合実験結果<br />総データ数<br />「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった<br />「機械処理による可能性」<br />複合的な項目に対して複数アルゴリズムによる抽出<br />
  27. 27. LODAC Museumサイト構成<br />25<br />
  28. 28. LODAC Museumサイト構成<br />26<br />統合情報(作品)一覧<br />
  29. 29. LODAC Museumサイト構成<br />27<br />WikiPediaの<br />解説分を引用!<br />
  30. 30. LODAC Museumサイト構成<br />28<br />日本美術シソーラスの情報,専門性が高い<br />
  31. 31. 29<br />まとめ<br />特定項目をキーに統合 ->  分散する情報が集積<br />複数情報の統合によって元データにない情報(発見)の獲得<br />多様な情報のLinked Data化はさらなる発見・知の獲得可能性<br />予想できないデータの使い方やアプリケーションが期待できる<br />情報源に変更があった際の参照用データの同期方法<br />人名辞典や専門辞書の情報をどこから収集するか<br />CSVインポートなど容易なLOD参加のための基盤準備<br />LODAC Museumのデータ拡充(西洋美術など)<br />考察<br />おもな課題<br />
  32. 32. 30<br />LOD応用例(地域情報+ミュージアム)<br /> 地域情報LOD  観光情報LOD +  ミュージアムLOD 地図情報LOD<br />関連資料を巡る日本縦断ツアー<br />地域とイベント情報による展覧会+αの情報<br />資料に登場する歴史メニューが食べられる食情報+資料情報+地域情報<br />ゲームやドラマに使用された資料軌跡(新たなターゲット層の獲得)<br />
  33. 33. 横浜では地域LOD、まもなく開始<br />31<br />
  34. 34. LOD応用例: ミュージアムマスターオンライン<br />32<br />ユーザによるコメントとコレクション関係の発見<br />学芸員ではない一般ユーザによる資料コメント<br />資料にある情報だけを見るのではなく様々な情報とつなげてコレクションを作る -> 元資料に興味を持つ可能性も<br /> <br />例えば・・・<br />仏像への個人的解釈<br />お寺にある弁財天像<br />動画サイトの動画<br />周辺情報の発信<br />1.重要文化財弁財天像<br />2.了法寺(八王子)<br />ミュージアムマスター(JMMA2009)<br />3.了法寺テーマソング<br />4.イベント<br />
  35. 35. 情報をLODで公開しよう<br />33<br />まずは情報をオープンに、共有することから始めよう<br />文化遺産(Cultural Heritage)から文化資産・資源へ<br />(芸術・文化) × 情報 =多様多面な日本を世界に発信<br />Museum Library Archives(MLA)を超えた連携を<br />MLA3(Museum Library Archives, Arts andAcademia)えむえるえーきゅーぶ<br />多くの人が使えば、それだけ多くの使い方が生まれます<br />
  36. 36. 34<br />もっと芸術・文化に柔軟性と活力を!!<br />ポップカルチャー<br />
  37. 37. We Are LODAC Project<br />35<br />LODのことならLODACへご相談下さい!<br />http://lod.ac/<br />ご静聴ありがとうございました※LODAC Museumは試験公開版になります<br />

×