Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Linked Dataの概要と課題

2,183 views

Published on

第63回日本図書館情報学会研究大会シンポジウム・発表資料

Published in: Science
  • Be the first to comment

Linked Dataの概要と課題

  1. 1. Linked Dataの概要と課題 高久雅生 筑波大学図書館情報メディア系 masao@slis.tsukuba.ac.jp 1 第63回日本図書館情報学会研究大会シンポジウム 2015年10月18日(日) @ 学習院女子大学
  2. 2. 自己紹介 • 高久雅生(たかくまさお) • 所属:筑波大学図書館情報メディア系 • 関心領域 情報検索、情報探索行動、電子図書館 • 書誌データ流通 機関リポジトリソフトウェアの開発、運用 オープンソースの図書館蔵書検索システム Next-L Enju開発者チームの一員 FRBR&RDA勉強会主催者の一人 2
  3. 3. ウェブ上における書誌データ流通 3 ? 検索エンジン 出版社 書店 ブログ SNS 図書館 目録
  4. 4. 4https://ja.wikipedia.org/wiki/夏目漱石
  5. 5. (最初にまとめから) • ウェブ上でのプレゼンスを高める  信頼性の高い,精緻なデータを活用したい機運 • Linked Data: セマンティックウェブの落とし子  ウェブ上のデータの機械処理・理解を目的とする発想 なので、既存の書誌情報処理と大きな差異 • Linked Dataを情報資源の組織化という視点で眺め ると、識別子・典拠情報管理の部分において共通点 が大きい  ただし、Linked Dataにおける識別子はウェブ空間に由来  ※URI = Uniform Resource Identifier • 国際的・分野横断の応用を期待  ただし、直接的な応用アプリケーションはさほど多く ない 5
  6. 6. Semantic Web (1) Tim Berners-Lee, James Hendler, Ora Lassila. The Semantic Web. Scientific American, 2001, Vol.284, No.5, pp.35-43. • WebからSemantic Webへ • 意味的記述と機械的理解を 可能とするWebマークアップ • エージェント型の応用アプリ ケーション 6
  7. 7. Semantic Webアプリケーション (1) • 例: “仕事帰りに寄れる歯医者さんを知りたい” 仕事: 平日9:00-18:00 仕事帰りに寄る:つくばエクスプレス(TX)沿線 • 18時以降に診察可能 • TX沿線の駅名:つくば,研究学園,…,南流山,北千 住, 秋葉原 • 駅から徒歩 500m 圏内 7
  8. 8. Semantic Webアプリケーション (2) • Webマークアップを通じた 情報抽出 • 曖昧性の解消 月=月曜日 = Monday = Mon. 「9:00-13:00・15:00-19:00」 休診日, 診療時間 祝日,祝祭日,年中無休 • 常識の理解 1週間 = 月火水木金土日 平日=月~金 8
  9. 9. Semantic Webの課題 • Webの分散性 + 膨大な情報 数千億 - 1兆ページを超えるWeb空間 • 多様な概念や記述によるビッグデータが取得可能 • 情報発信ルートの多彩さ • 多言語、多文化 統制された語彙使用や慣習を前提としえない • 汎用モデルの困難さ 計算機アプリケーションによる意味理解は困難 9
  10. 10. Linked Dataの概要 • 経緯:セマンティックウェブの弱点を補うた め、シンプルなデータモデルで個別の応用を 作りやすくする試み • 個別のリソースの情報を構造化していく  できるところからでよい  一つずつプロパティ(property)を追加する • データモデル  RDF(Resource Description Framework)のデー タモデル = トリプルモデル(三つ組) • データ型:リソースとリテラル  リソースはウェブ上にアドレスを持つ識別子 (URI)として振舞う 10
  11. 11. RDFデータモデル • RDF (Resource Description Framework) • グラフデータモデル ラベル付き有向グラフ 三つ組(Triple)による表現 • 特徴 シンプルで強力なデータ表現 記述規則が複雑となりがち 処理演算に時間がかかる 11 芥川龍之介羅生門 著者
  12. 12. Linked Dataの概要 (2) • 構造化データ • “ドキュメントとしてのWeb” → “データのWeb” • Linked Dataの4原則 事物をURIを使って名前付ける 事物をHTTP + URIで参照する URIを参照したときに関連情報を表示する 外部のリソースへのリンクも含める 12
  13. 13. シンプルなWebデータの構造化の手法 • Microformat, Microdata <a href=“http://masao.jpn.org/”>高久雅生</a> <a href=“http://masao.jpn.org/” rel=“author”> 高久雅生</a> • テキストに対するマークアップに意味を付与  ドメイン(分野)毎に合意された意味関係を付与 することにより、アプリケーション利用、再利用 を促進  サーチエンジンにおける利用: Schema.org 13
  14. 14. RDFグラフモデルの一例 14 つくば市(つくばし)は、茨城県南部に位置 する市である。学術・研究都市としての筑波 研究学園都市はつくば市全域を区域とする。 特例市、業務核都市、国際会議観光都市に指 定されている。 (Wikipedia日本語版) つくば市 茨城県 南部 茨城県 市 地方自治体 市町村 都道府県 町 村 筑波研究 学園都市 特例市 gn:location gn:location org:alias rdf:type rdfs:subClassOf rdfs:subClassOf rdfs:subClassOf rdf:type
  15. 15. Linked Dataの提供例 (DBPedia) • 例: http://ja.dbpedia.org/page/つくば市 • 百科事典サービスWikipedia上からデータ抽 出したもの(+人手による属性同定とマッピ ング) http://mappings.dbpedia.org/index.php/Ma pping_ja 15
  16. 16. 16
  17. 17. 17
  18. 18. 18 Richard Cyganiak, Anja Jentzsch. “Linking Open Data cloud diagram”. http://lod-cloud.net/ (Last updated: 2014-08-30)
  19. 19. 19 Richard Cyganiak, Anja Jentzsch. “Linking Open Data cloud diagram”. http://lod-cloud.net/ (Last updated: 2014-08-30) 出版物 生物系 領域 横断 SNS 地理情報 政府系 公的データ マルチ メディア CGM 言語資源
  20. 20. Linked Dataの提供例 (CiNii Articles) • 通常のWebページ(HTML) http://ci.nii.ac.jp/naid/130003392336 • RDF表現 (XML) http://ci.nii.ac.jp/naid/130003392336.rdf • ボキャブラリ Dublin Core Prism (Publishing Requirements for Industry Standard Metadata) (―雑誌情報) FOAF (The Friend of a Friend) (―著者情報) 20
  21. 21. BIBFRAMEとは (1) • 米国議会図書館(LC)が2012年に公表した 書誌データ用のデータモデル • FRBR類似の書誌情報のための概念モデル • Linked Dataの考え方に沿っている データモデルはRDFグラフモデルを前提 • 4つのコアクラスからなる Creative Work Instance Authority Annotation 21
  22. 22. BIBFRAMEとは (2) • 概念モデル(データ種別毎の構造) 22
  23. 23. BIBFRAMEに基づくデータ例 23 Work Instance heldItem Rebecca Stefoff. Al Gore: Fighting for a Greener Planet. Lerner Pub Group, 2008, 48p.
  24. 24. BIBFRAMEのデータ例 (Work) 24 sample: work bf:Work Stefoff, Rebecca, 1951- Al Gore : fighting for … lcc: E840.8.G65 lang:eng sample: person1 rdf:type bf:authorized AccessPoint bf:classificationLCC bf:language bf:creator Stefoff, Rebecca, 1951- bf:authorized AccessPoint names: n85352761 bf:Person rdf:type bf:has Authority sample: worktitle bf:workTitle bf:Title rdf:type Al Gore fighting for a greener … bf:titleValue bf:subtitle
  25. 25. BIBFRAMEのデータ例 (Instance) 2525 sample: instance bf:Instance Isbn:97815 75059488 rdf:type bf:isbn13 sample: instance title bf:instanceTitle bf:Title rdf:type Al Gore fighting for a greener … bf:titleValue bf:subtitle bf:Monograph 24cm. bf:dimensions Rev. ed. bf:edition 48 p. bf:extentbf:lccn bf:Identifier rdf:type identifiers: lccn bf:identifier Scheme 2007049050 bf:identifier Value bf:publication bf:Provider rdf:type bf:provider Name bf:Organizationrdf:type Lerner Publications Co. bf:label
  26. 26. BIBFRAMEのデータ例 (HeldItem) 26 sample: work sample: instance sample: person1 bf:creator bf:instanceOf sample: item1 bf:holdingFor bf:HeldItem rdf:type E840.8.G65 S74 2009 bf:shelfMarkLcc
  27. 27. BIBFRAMEの特徴 • シンプルな語彙設計  クラス数:約50種類,プロパティ数:約300種  Linked Dataとしての使い勝手  LCが開発してきたLinked Data公開と調和 • http://id.loc.gov/ • ツール群の提供  MARC21RDF/XML等との変換など • 留意点  プロパティ群、語彙集合が未確定  RDA等を含む,書誌情報流通領域でのLinked Data 語彙との調整が必要(?) • RDAと比してLinked Dataへの親和性は高いように見える 27
  28. 28. まとめ • Linked Data  「データのウェブ」のためのデータ提供方式  RDFデータモデルを前提 • 書誌情報の組織化  分野横断でつながるための整備において重要  FRBR,RDA,BIBFRAME,Schema.orgなど種々の書 誌情報モデルに基づく形式化が試みられている • BIBFRAME  Linked Dataモデルによる書誌情報のモデル化  仕様は未完成  MARC21からの変換ツール等も提供されている 28
  29. 29. 今後に向けて • 図書館の現場で培ってきた書誌データその もの(+その方法論)をより広い領域に活 かしたり、展開したりするには、Linked Dataのようなウェブ向けの枠組みを用いる ことは有用か? • ウェブ上における情報管理の枠組みはさほ ど厳密でない点に留意する必要 データ欠損,リンク切れを許容 Linked Data語彙集合における決定版(完全 版)が不在 29

×