日本語Linked Data Cloudの現状
Upcoming SlideShare
Loading in...5
×
 

日本語Linked Data Cloudの現状

on

  • 604 views

2014年人工知能学会 Linked Dataとオントロジーセッションの発表

2014年人工知能学会 Linked Dataとオントロジーセッションの発表

Statistics

Views

Total Views
604
Views on SlideShare
596
Embed Views
8

Actions

Likes
5
Downloads
3
Comments
1

1 Embed 8

https://twitter.com 8

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

11 of 1

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • 2014-05-19追記: i-Scoverについて,基準1と2を満たしているとの指摘を受けました.検討したところ,こちらの調査不足で確かに満たしていますので文言の訂正を行いました.数値は都合上そのままにしてあります.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    日本語Linked Data Cloudの現状 日本語Linked Data Cloudの現状 Presentation Transcript

    • 日本語Linked Data Cloud の現状 加藤文彦*1 ,武田英明*2 ,小出誠二*1 ,大向一輝*2 *1 情報・システム研究機構,*2 国立情報学研究所 ! 2014年度人工知能学会全国大会(第28回) オーガナイズドセッション 「OS-19 Linked Dataとオントロジー」 1G5-OS-19b-7 2014-05-12
    • 背景 • 数年前までは日本語のLinked Dataは殆ど存在しなかった • LOD cloud(2011-09-19版) には国立国会図書館のみ • SIGSWOやLODチャレンジ等 によって日本語のデータが増 加している • 日本語における現状を把握し たい 2 Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
    • 1. データ公開者が日本にいる人・組織等 2. 日本語ラベルあり 3. 1000トリプル以上 4. LOD CloudかJLDCのデータセットとの RDFリンクが10以上 5. 参照解決可能,データダンプ,あるいは SPARQLエンドポイントのいずれかに よってデータセットを公開 JLDC: 日本語Linked Data Cloud • 手動で各データセットのトリプ ル数とRDFリンク数を調査 • 描画ツール: OmniGraffle • 分類: LOD cloud参考に独断 • 採用基準に合致する場合は LOD cloud内のデータセット も明示 • 現状NDLのみ 採用基準 3
    • 調査方法 • 対象: 主にSIGSWOやLODチャレンジ • SPARQLエンドポイントがある場合 • トリプル数 • SELECT (COUNT(?s) AS ?c) { ?s ?p ?o } • 一部のTripleStoreが自動的に追加するデータはそのまま含む • 同一エンドポイント上にGRAPHで複数データセットが含まれている場合はGRAPH指定して個別に計測 • RDFリンク数 • 外部へリンクしているpredicateを調査 • 各predicate毎にobjectをFILTERしてCOUNT • データダンプあるいは参照解決可能な場合 • データをダウンロードして手元でエンドポイントを立てた後に,上記の方法で調査 4
    • JLDC: 2013-06-19 ! • 17データセット • 2013-06-20 第2回オープ ンデータ京都勉強会 • http://www.slideshare.net/ fumihiro/ 20130620-23239372 5
    • JLDC: 2013-10-15 ! • 21データセット • 分類変更 • 追加: RIHN, Earthquake Archives Fukushima, GeoLOD, Neji LOD • LODIブログ • http://linkedopendata.jp/?p=411 6
    • JLDC: 2014-03-10 ! • 27データセット • 追加: Statdb, Senkyo, i- Scover, Allie, LSD, Michishiru • 一部英語表記に合わせた • 本原稿及びLODIブログ • http://linkedopendata.jp/?p=486 7
    • 8 分類 データセット数 トリプル数 外部リンク数 Industry 1 87,983 112 Geographic 2 63,98,759 15,869 Life Science 4 140,510,938 278,023 Cross-domain 3 108,000,143 1,651,140 Media 2 33,137,619 720,067 Government 3 5,415,553 54,351 Publication 11 (注)82,097,407 (注)1,238,166 UGC 1 140,554 1,994 Total 27 (注)375,788,956 (注)3,959,722 LOD cloud 295 31,634,213,770 503,998,829 注: Publicationのトリプル数及び外部リンク数はCiNii及びKAKENを除いた分 2014-03-10版
    • 9 分類 データセット数 トリプル数 外部リンク数 Industry 1 87,983 112 Geographic 2 63,98,759 15,869 Life Science 4 140,510,938 278,023 Cross-domain 3 108,000,143 1,651,140 Media 2 33,137,619 720,067 Government 3 5,415,553 54,351 Publication 12 (注)494,567,525 (注)14,225,715 UGC 0 0 0 Total 28 (注)788,118,520 (注)16,945,277 LOD cloud 295 31,634,213,770 503,998,829 注: CiNii Booksを除く 2014-05-12暫定版
    • 採用外データセット例 • RDFリンクがない • 該当例: Radiation LOD等多数 • RDFリンクが間違っている • 該当例: アイドルLOD • predicateがowl:seeAlso 且つリンク先がentity URIではない • 調査時に利用できなかった • 該当例: Yahoo!カテゴリLOD 10
    • LOD cloud基準を適用 27 → 13 11
    • 1. (参照)解決可能なhttp(s) URIs 2. 良く利用される形式でのRDFデータの解 決 • content-negotiationかどうかは問わない 3. 1000トリプル以上 4. 既存のLOD cloudのデータセットとの RDFリンクが50以上 5. RDFクローリングまたはRDFダンプ,あ るいはSPARQLエンドポイントによって データセット全体にアクセス可能 6. 認証なしかつ無料でアクセス可能 LOD cloud採用候補 採用基準 12
    • LOD cloud 採用外ポイント • entity URIsが解決可能ではなく,SPARQLエンドポイント を通して提供されている • entity URIsが解決可能ではなく,RDFダンプとして提供さ れている • オリジナルのデータなしに既存のRDFデータセットのキャッ シュ,コピーあるいは集約をしている • クライアントのデータ入力に対してRDFを生成するサービス • 他のデータセットとリンクされていない 13
    • LOD cloud調査方法 データ公開者にトリプル数や 外部リンク数等を自己申告さ せて半自動生成 1.datahub (http://datahub.io) にデータセ ット登録 2.登録内容をバリデータ(http:// validator.lod-cloud.net)に適合 3.LOD cloud作者に連絡 データセット公開者 • lodcloud groupに,適合するデータセッ トを追加 • lodcloud groupからCKAN APIでデータ 取得してOmniGraffleファイルを生成 • VoID Generatorは公開されているが OmniGraffleの部分は非公開 • https://github.com/lod-cloud/ datahub2void • http://lod-cloud.net/data/void.ttl LOD cloud作成者 14
    • 基準外のデータセット数 LOD cloud基準 データセット数 (重複あり) 1 解決可能なhttp URIs 8 2 RDFデータの解決 9 3 1000トリプル以上 0 4 50以上のRDFリンク 4 5 データセット全体へのアクセス 2 6 認証なしかつ無料のアクセス 1 15
    • 基準1及び2 • 該当例: i-Scover等 • (2014-05-19追記: i-Scoverは基準 を満たしているとの指摘を受けてい ます.訂正を含んだ最新の図につい ては近日公開予定です.) • 殆どは1+2両方不足だが,青空文庫 LODは2のみ • Linked Data4原則の2と3に相当 • 基準外だとただのRDFデータセット LOD cloud基準 データセット 数(重複あり) 1 解決可能なhttp URIs 8 2 RDFデータの解決 9 16
    • 基準4 • 該当例: saveMLAK等 • 細かいデータセットを省く ため • リンクが多いから良いデー タセットとは必ずしも限ら ない LOD cloud基準 データセット 数(重複あり) 4 50以上のRDFリ ンク 4 17
    • 基準5 • 該当例: CiNii, KAKEN • 参照解決可能だがデータ全 体にアクセスするのは困難 • NIIのデータについては現在 収集して計測中 LOD cloud基準 データセット 数(重複あり) 5 データセット全体 へのアクセス 2 18
    • 基準6 • 該当例: PinQA • 正確にはLOD cloudの基準 ではなく,LOD cloudにお けるオープンの定義 • 但しPinQAは2014年4月25 日にサービスが終了したた めそもそもデータセットが なくなった LOD cloud基準 データセット 数(重複あり) 6 認証なしかつ無料 のアクセス 1 19
    • Future Work • 調査中のデータセット • データセット全体の取得: CiNii, KAKEN等 • 前回利用できなかったものの再調査 • 外部リンクがないデータセットを含んだ調査 • 調査作業の改善 • (データセット公開者へ)datahubへの登録やVoIDの提供を推奨 • JLDCのデータを整備してVoIDで公開 • 図生成の自動化 20
    • まとめ • 日本語におけるLinked Dataの現状を調査して日本 語Linked Data Cloudを作成した • 本家LOD cloudに採用される可能性を調査した • データセット提供者には本家のバリデータを通して 基準を満たすのを推奨したい 21