More Related Content
Similar to Linked Dataの概要と課題 (20)
More from Masao Takaku (20)
Linked Dataの概要と課題
- 5. (最初にまとめから)
• ウェブ上でのプレゼンスを高める
信頼性の高い,精緻なデータを活用したい機運
• Linked Data: セマンティックウェブの落とし子
ウェブ上のデータの機械処理・理解を目的とする発想
なので、既存の書誌情報処理と大きな差異
• Linked Dataを情報資源の組織化という視点で眺め
ると、識別子・典拠情報管理の部分において共通点
が大きい
ただし、Linked Dataにおける識別子はウェブ空間に由来
※URI = Uniform Resource Identifier
• 国際的・分野横断の応用を期待
ただし、直接的な応用アプリケーションはさほど多く
ない
5
- 6. Semantic Web (1)
Tim Berners-Lee, James Hendler, Ora
Lassila. The Semantic Web. Scientific
American, 2001, Vol.284, No.5, pp.35-43.
• WebからSemantic Webへ
• 意味的記述と機械的理解を
可能とするWebマークアップ
• エージェント型の応用アプリ
ケーション
6
- 7. Semantic Webアプリケーション (1)
• 例: “仕事帰りに寄れる歯医者さんを知りたい”
仕事: 平日9:00-18:00
仕事帰りに寄る:つくばエクスプレス(TX)沿線
• 18時以降に診察可能
• TX沿線の駅名:つくば,研究学園,…,南流山,北千
住, 秋葉原
• 駅から徒歩 500m 圏内
7
- 8. Semantic Webアプリケーション (2)
• Webマークアップを通じた
情報抽出
• 曖昧性の解消
月=月曜日 = Monday = Mon.
「9:00-13:00・15:00-19:00」
休診日, 診療時間
祝日,祝祭日,年中無休
• 常識の理解
1週間 = 月火水木金土日
平日=月~金
8
- 9. Semantic Webの課題
• Webの分散性 + 膨大な情報
数千億 - 1兆ページを超えるWeb空間
• 多様な概念や記述によるビッグデータが取得可能
• 情報発信ルートの多彩さ
• 多言語、多文化
統制された語彙使用や慣習を前提としえない
• 汎用モデルの困難さ
計算機アプリケーションによる意味理解は困難
9
- 11. RDFデータモデル
• RDF (Resource Description Framework)
• グラフデータモデル
ラベル付き有向グラフ
三つ組(Triple)による表現
• 特徴
シンプルで強力なデータ表現
記述規則が複雑となりがち
処理演算に時間がかかる
11
芥川龍之介羅生門
著者
- 12. Linked Dataの概要 (2)
• 構造化データ
• “ドキュメントとしてのWeb”
→ “データのWeb”
• Linked Dataの4原則
事物をURIを使って名前付ける
事物をHTTP + URIで参照する
URIを参照したときに関連情報を表示する
外部のリソースへのリンクも含める
12
- 13. シンプルなWebデータの構造化の手法
• Microformat, Microdata
<a href=“http://masao.jpn.org/”>高久雅生</a>
<a href=“http://masao.jpn.org/” rel=“author”>
高久雅生</a>
• テキストに対するマークアップに意味を付与
ドメイン(分野)毎に合意された意味関係を付与
することにより、アプリケーション利用、再利用
を促進
サーチエンジンにおける利用: Schema.org
13
- 15. Linked Dataの提供例 (DBPedia)
• 例: http://ja.dbpedia.org/page/つくば市
• 百科事典サービスWikipedia上からデータ抽
出したもの(+人手による属性同定とマッピ
ング)
http://mappings.dbpedia.org/index.php/Ma
pping_ja
15
- 19. 19
Richard Cyganiak, Anja Jentzsch. “Linking Open Data cloud
diagram”. http://lod-cloud.net/ (Last updated: 2014-08-30)
出版物
生物系
領域
横断
SNS
地理情報
政府系
公的データ
マルチ
メディア
CGM
言語資源
- 20. Linked Dataの提供例 (CiNii Articles)
• 通常のWebページ(HTML)
http://ci.nii.ac.jp/naid/130003392336
• RDF表現 (XML)
http://ci.nii.ac.jp/naid/130003392336.rdf
• ボキャブラリ
Dublin Core
Prism (Publishing Requirements for Industry
Standard Metadata) (―雑誌情報)
FOAF (The Friend of a Friend) (―著者情報)
20
- 24. BIBFRAMEのデータ例 (Work)
24
sample:
work
bf:Work
Stefoff, Rebecca, 1951-
Al Gore : fighting for …
lcc:
E840.8.G65
lang:eng
sample:
person1
rdf:type
bf:authorized
AccessPoint
bf:classificationLCC
bf:language
bf:creator
Stefoff, Rebecca, 1951-
bf:authorized
AccessPoint
names:
n85352761
bf:Person
rdf:type
bf:has
Authority
sample:
worktitle
bf:workTitle
bf:Title
rdf:type
Al Gore
fighting for a greener …
bf:titleValue
bf:subtitle
- 27. BIBFRAMEの特徴
• シンプルな語彙設計
クラス数:約50種類,プロパティ数:約300種
Linked Dataとしての使い勝手
LCが開発してきたLinked Data公開と調和
• http://id.loc.gov/
• ツール群の提供
MARC21RDF/XML等との変換など
• 留意点
プロパティ群、語彙集合が未確定
RDA等を含む,書誌情報流通領域でのLinked Data
語彙との調整が必要(?)
• RDAと比してLinked Dataへの親和性は高いように見える
27
- 28. まとめ
• Linked Data
「データのウェブ」のためのデータ提供方式
RDFデータモデルを前提
• 書誌情報の組織化
分野横断でつながるための整備において重要
FRBR,RDA,BIBFRAME,Schema.orgなど種々の書
誌情報モデルに基づく形式化が試みられている
• BIBFRAME
Linked Dataモデルによる書誌情報のモデル化
仕様は未完成
MARC21からの変換ツール等も提供されている
28