Your SlideShare is downloading. ×
Linked Open Dataによる多様なミュージアム情報の統合
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Linked Open Dataによる多様なミュージアム情報の統合

4,146
views

Published on

Integration of distributed of museum information with linked open data. …

Integration of distributed of museum information with linked open data.
じんもんこん2010発表資料補填版

Published in: Education

1 Comment
4 Likes
Statistics
Notes
  • English Version is here: http://www.slideshare.net/takeda/takeda-101214final
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total Views
4,146
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
25
Comments
1
Likes
4
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Linked Open Dataによる
    多様なミュージアム情報の統合
    発表者:嘉村哲郎
    kamura@nii.ac.jp
    総合研究大学院大学複合科学研究科
  • 2.  背景
     技術背景
     関連研究
     LODAC Museum
     考察
    発表内容
    2
    LODACについて
    オープン化の時代
    新しい情報流通の形
    Linked Data(LOD)
    循環型情報活用
    RDF表現
    データの標準化
    情報源と情報統合
    公開・共有
    利用データについて
    まとめ
    応用例
    LODへの誘い
  • 3. LODACプロジェクト(2010.4~)
    3
    「学術リソースのためのオープンソーシャルセマンティックWeb基盤の構築」情報・システム研究機構新領域融合センタープロジェクト
    LODAC = Linked Open Data for Academia(http://lod.ac/)
    概要
    国内の学術情報をLinked Open Data(LOD)で公開・共有を促進
    学術、社会一般等、広範囲なデータ利用の仕組みを構築
    はじめのターゲット
    複雑な構造を持つ
    未整理な情報が分散している
    学術・一般に貢献できる
    ミュージアム領域
  • 4. オープン化の情報時代へ
    4
    人文系分野で構築されてきたデータ
    資料データベース化、デジタルアーカイブ
    データ精度も高く情報資産としての価値が高い
    どこにあるのか?
    研究機関や個人研究者が保有
    外部には公開していない情報が大量に存在
    データ整理されていない情報もある
    ミュージアム領域ではその数程しれず
    今まで知らなかった情報が使えるようになったら?
  • 5. 新しい情報流通の形
    5
    Web of Document = 従来のWeb上のデータ
    Webで公開した情報は情報として利用可能
    PDF、HTML、CSV等で公開
       データとして利用するには情報の加工が必要     例:HTMLから余計なタグを排除してデータを抽出する
    Web of Data = 新しいWebの情報流通
    Webで公開した情報はデータとして利用可能
    RDF、SPARQL Endpoint等
    リンクを参照してデータとして使える公開情報
    例:アーティストプロフィール、書誌情報、イベント情報
  • 6. Linked Open Data(LOD)
    6
    公開情報を蓄積し、誰でも使えるようにする
    Linked Dataの原則
    あらゆる事柄にURIをつける
    HTTP経由でURIを参照
    URIを参照したときは情報を閲覧できる
    他の関連情報へのリンクを含める
  • 7. 情報のオープン化へ
    7
    これからのWeb
    収集(情報を収集)
    利用(蓄積した情報は自分や社会のために)
    公開(多様なサービスを利用して情報発信)
    共有(様々な用途・広範な社会に利用してもらう)
  • 8. 循環型情報活用
    8
    製作過程の記録ノート
    A.制作に至った背景、動機
    B.発見、手法
    C.実験データ
    過去の手法に手を加え、
    新しい手法で創造
    A.製作過程
    B.類似作品との相違
    C.実験データ
    循環型情報活用
    (文化・芸術)
    Linked Open Dataで公開
    実験データ一部は保持
    • 新たな作品展開
    • 9. 新たな分野,知の創出
    • 10. 次世代へ継承
    類似・関連情報等の横断的検索サービス
  • 11. 標準化データ形式
    9
    RDF
    1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す
    トリプルが複数集まることで1データとして構成される
    横山大観
    述語
    http://lod.ac/id/1767
    http://lod.ac/id/4471
    http://lod.ac/id/4580
    skos:prefLabel
    dc:creator
    目的語
    rdf:type
    foaf:person
    http://lod.ac/id/1767
    http://lod.ac/id/4773
    lodac:creates
    F主語
    lodac:creates
    dc:title
    生々流転図
    2つのトリプルからなる1データ
    4つのトリプルからなる1データ
  • 12. 標準化データ形式
    10
    RDF
    1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す
    トリプルが複数集まることで1データとして構成される
    F主語
    横山大観
    述語
    http://lod.ac/id/1767
    http://lod.ac/id/4471
    http://lod.ac/id/4580
    http://lod.ac/id/1767
    skos:prefLabel
    dc:creator
    目的語
    目的語
    foaf:person
    rdf:type
    述語
    F主語
    http://lod.ac/id/4773
    lodac:creates
    lodac:creates
    F主語
    dc:title
    目的語
    生々流転図
    目的語
    6つのトリプルからなる1データ
  • 13. RDF形式による表現
    11
    <?xml version="1.0" encoding="utf-8"?>
    </rdf:Description>
    <rdf:Descriptionrdf:about="http://lod.ac/ref/20811">
    <ns0:P62I_is_depicted_by xmlns:ns0="http://purl.org/NET/cidoc-crm/core#">巻末に年記、落款、印章</ns0:P62I_is_depicted_by>
    </rdf:Description>
    <rdf:Descriptionrdf:about="http://lod.ac/ref/20811">
    <ns0:creator xmlns:ns0="http://purl.org/dc/elements/1.1/">横山大観</ns0:creator>
    </rdf:Description>
    <rdf:Descriptionrdf:about="http://lod.ac/ref/20811">
    <ns0:source xmlns:ns0="http://purl.org/dc/terms/" rdf:resource="http://search.artmuseums.go.jp"/>
    </rdf:Description></rdf:RDF>
    F主語
    述語
    1
    目的語
    2
    4
    3
    述語「P62I_is_depected_by」の表す意味はhttp://purl.org/NET/cidoc-crm/coreにある
    「http://lod.ac/ref/20811」「P62I_is_depicted_by」は「巻末に年記、落款、印章」がある
    「http://lod.ac/ref/20811」の「creator」は「横山大観」である
    「http://lod.ac/ref/20811」の「source」は「http://search.artmuseums.go.jp」である
    「http://lod.ac/ref/20811」のデータは1-3で構成されている。
  • 14. RDFによる情報共有の利点
    12
    URIがリソースIDとして機能する
    URIを見ることで情報の定義が書いてある
    共通のURIを利用(共有)することで出所が保証された内容の情報を利用することが出来る
    XMLの問題なぜXMLはだめなのか?
    <person>
    <name>横山大観</name>
    </person>
    <作家>
    <作家名>横山大観</作家名>
    </作家>
    ・personとnameはなにを意味するのか。人物? 本名? 作家名?
    ・nameと作家名は同じ意味なのだろうか? (同一性問題)
    ・作家名にpersonと記述して良いのだろうか(拘束条件)
  • 15. LOD活動事例
    13
    国立国会図書館(NDLSH)
    RDF/SKOS語彙を使用した件名目録表のLinked Data
    DBpedia(英語版)
    WikiPediaの情報をLODで利用可
    ※日本語版DBpediaはLODACプロジェクトで準備中
  • 16. <foaf:pagerdf:resource="/music/artists/70ea63ea-70dc-4b63-951a-2c249d2b3b0a.html"/>
    <owl:sameAsrdf:resource="http://dbpedia.org/resource/Ricky_Martin"/>
    <mo:musicbrainzrdf:resource="http://musicbrainz.org/artist/70ea63ea-70dc-463-951a-2c2.html"/>
    <mo:imagerdf:resource="http://static.bbc.co.uk/music/images/artists/234x132/70ea63ea.jpg"/>
    <foaf:homepagerdf:resource="http://www.rickymartin.com"/>
    <mo:fanpagerdf:resource="http://www.rickymartin.com.br/"/>
    <mo:wikipediardf:resource="http://en.wikipedia.org/wiki/Ricky_Martin"/>
    </mo:MusicArtist>
    </rdf:RDF>
    LOD利用事例(英国放送協会)
    14
    LODを利用したコンテンツ例
    Dbpedia(WikiPedia)から概要
    MusicBrainzから関連情報
  • 17. Linked Data Cloud
    15
  • 18.
  • 19. LODAC Museum
    17
    Web of Document をWeb of Dataへ
    1.データの標準化
    異なる情報源からのデータを収集して標準形式に変換
    2.情報関連付け・統合化
    標準形式に基づいた複数の情報源のデータを統合
    3.公開・共有
    統合したデータの一覧、網羅性のある一般的な検索
    LODとして利用できる基盤構築
    同じ内容を含む情報を統合化
    LODとして公開
  • 20. ミュージアム資料
    実在するミュージアム14館から収集
    関連資料
    別の視点から整理された資料情報
    国指定文化財データベース
    文化遺産オンライン
    その他の情報
    日本語版Dbpedia
    (国土交通省国土計画局GIS)
    統合化の基点になる情報
    日本美術シソーラス(筑波大学日本美術シソーラスデータベース作成委員会編)
    美術に関する作品、人物、流派、所蔵館情報が含まれたデータセット
    標準化と情報源
    18
    情報源
  • 21. メタデータ(語彙)利用方針
    19
    できるだけ既存の語彙を使用
    階層構造や利用範囲がある語彙は字面のみを利用
    どうしても存在しない語彙は独自の語彙として定義
    メタデータ数
    ・作品 46個
    ・人物 23個
    ・施設 13個
    ・書誌 12個
  • 22. 統合データと参照データ
    20
    参照用データ(http://lod.ac/ref/)
    収集したデータをそのまま参照し、メタデータ以外の内容は加工しない
    データ内容の権限は情報源が持つ
    統合データ(http://lod.ac/id)
    LODACが関連ある参照用データを統合したデータ
    統合内容、編集内容権限はLODACが持つ
    各データには管理するために識別子が付けられる
    情報源Bの参照用データ
    統合データ
    情報源Aの参照用データ
    crm:P55_has_current_location
    dc:creator
    作品
    dc:references
    dc:references
    crm:P55_has_current_location
    crm:P55_has_current_location
    収蔵館
    dc:creator
    dc:references
    dc:references
    dc:creator
    作者
    dc:references
    dc:references
  • 23. 21
    所蔵館情報の統合化
    文字列完全一致による所蔵館情報の統合
    A.日本美術シソーラスDBの所蔵館情報648件
    B.文化遺産オンラインの所蔵館情報915件
    結果77件の所蔵館が一致し、それぞれの情報を統合した
    A、Bともに異なる情報をリンクとしてLODACが管理するデータに統合
    統合化情報(LODAC管理)
    Aの情報
    Bの情報
  • 24. 22
    その他構築時における課題
    日本語読みと複数人名表記
    foaf:nick [
     a lodac:Name;
     lodac:label “嘉村"@ja;
     lodac:label “かむら"@ja-hrkt;
     lodac:label ”KAMURA"@en;
    ].
    ID700
    ID100
    ID700
    REF100
    REF700
    ID400
    同一内容の統合情報複数存在時の対応
    「ID100の内容がID700と同じ場合」
    1. ID100に記述されるREF700を一旦削除する
    2. ID700をリンク先とする他のID(ID400)の リンク先をID100に変更する
    3. ID700を削除し、ID700のアクセスはID100 へいくようリダイレクトさせる
    4. ID100にはID700としてアクセスできるよう REF700のリンクを再リンクする
  • 25. 23
    作者名をキーとする作品情報の統合
    基点(日本美術シソーラス)とする作者情報(下村観山の場合) -> 2件の作品情報がある
    Linked Data化とLODACによる作品情報統合->12件の追加作品情報(6件の異なる情報源)-> dbpedia日本語版へのリンク
    他の情報源へリンク
    LODAC管理データ(一部省略)
    作品リンク
    DBpedia
    作者の基点情報
  • 26. LODAC Museumのデータ
    24
    特定項目キーの単純文字列統合実験結果
    総データ数
    「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった
    「機械処理による可能性」
    複合的な項目に対して複数アルゴリズムによる抽出
  • 27. LODAC Museumサイト構成
    25
  • 28. LODAC Museumサイト構成
    26
    統合情報(作品)一覧
  • 29. LODAC Museumサイト構成
    27
    WikiPediaの
    解説分を引用!
  • 30. LODAC Museumサイト構成
    28
    日本美術シソーラスの情報,専門性が高い
  • 31. 29
    まとめ
    特定項目をキーに統合 ->  分散する情報が集積
    複数情報の統合によって元データにない情報(発見)の獲得
    多様な情報のLinked Data化はさらなる発見・知の獲得可能性
    予想できないデータの使い方やアプリケーションが期待できる
    情報源に変更があった際の参照用データの同期方法
    人名辞典や専門辞書の情報をどこから収集するか
    CSVインポートなど容易なLOD参加のための基盤準備
    LODAC Museumのデータ拡充(西洋美術など)
    考察
    おもな課題
  • 32. 30
    LOD応用例(地域情報+ミュージアム)
     地域情報LOD  観光情報LOD +  ミュージアムLOD 地図情報LOD
    関連資料を巡る日本縦断ツアー
    地域とイベント情報による展覧会+αの情報
    資料に登場する歴史メニューが食べられる食情報+資料情報+地域情報
    ゲームやドラマに使用された資料軌跡(新たなターゲット層の獲得)
  • 33. 横浜では地域LOD、まもなく開始
    31
  • 34. LOD応用例: ミュージアムマスターオンライン
    32
    ユーザによるコメントとコレクション関係の発見
    学芸員ではない一般ユーザによる資料コメント
    資料にある情報だけを見るのではなく様々な情報とつなげてコレクションを作る -> 元資料に興味を持つ可能性も
     
    例えば・・・
    仏像への個人的解釈
    お寺にある弁財天像
    動画サイトの動画
    周辺情報の発信
    1.重要文化財弁財天像
    2.了法寺(八王子)
    ミュージアムマスター(JMMA2009)
    3.了法寺テーマソング
    4.イベント
  • 35. 情報をLODで公開しよう
    33
    まずは情報をオープンに、共有することから始めよう
    文化遺産(Cultural Heritage)から文化資産・資源へ
    (芸術・文化) × 情報 =多様多面な日本を世界に発信
    Museum Library Archives(MLA)を超えた連携を
    MLA3(Museum Library Archives, Arts andAcademia)えむえるえーきゅーぶ
    多くの人が使えば、それだけ多くの使い方が生まれます
  • 36. 34
    もっと芸術・文化に柔軟性と活力を!!
    ポップカルチャー
  • 37. We Are LODAC Project
    35
    LODのことならLODACへご相談下さい!
    http://lod.ac/
    ご静聴ありがとうございました※LODAC Museumは試験公開版になります

×