日本語Linked Data Cloud
の現状
加藤文彦*1
,武田英明*2
,小出誠二*1
,大向一輝*2
*1
情報・システム研究機構,*2
国立情報学研究所
!
2014年度人工知能学会全国大会(第28回)
オーガナイズドセッション 「...
背景
• 数年前までは日本語のLinked
Dataは殆ど存在しなかった
• LOD cloud(2011-09-19版)
には国立国会図書館のみ
• SIGSWOやLODチャレンジ等
によって日本語のデータが増
加している
• 日本語における...
1. データ公開者が日本にいる人・組織等
2. 日本語ラベルあり
3. 1000トリプル以上
4. LOD CloudかJLDCのデータセットとの
RDFリンクが10以上
5. 参照解決可能,データダンプ,あるいは
SPARQLエンドポイントの...
調査方法
• 対象: 主にSIGSWOやLODチャレンジ
• SPARQLエンドポイントがある場合
• トリプル数
• SELECT (COUNT(?s) AS ?c) { ?s ?p ?o }
• 一部のTripleStoreが自動的に追加す...
JLDC: 2013-06-19
!
• 17データセット
• 2013-06-20 第2回オープ
ンデータ京都勉強会
• http://www.slideshare.net/
fumihiro/
20130620-23239372
5
JLDC: 2013-10-15
!
• 21データセット
• 分類変更
• 追加: RIHN, Earthquake
Archives Fukushima,
GeoLOD, Neji LOD
• LODIブログ
• http://linked...
JLDC: 2014-03-10
!
• 27データセット
• 追加: Statdb, Senkyo, i-
Scover, Allie, LSD,
Michishiru
• 一部英語表記に合わせた
• 本原稿及びLODIブログ
• http:...
8
分類 データセット数 トリプル数 外部リンク数
Industry 1 87,983 112
Geographic 2 63,98,759 15,869
Life Science 4 140,510,938 278,023
Cross-dom...
9
分類 データセット数 トリプル数 外部リンク数
Industry 1 87,983 112
Geographic 2 63,98,759 15,869
Life Science 4 140,510,938 278,023
Cross-dom...
採用外データセット例
• RDFリンクがない
• 該当例: Radiation LOD等多数
• RDFリンクが間違っている
• 該当例: アイドルLOD
• predicateがowl:seeAlso 且つリンク先がentity URIではな...
LOD cloud基準を適用
27 → 13
11
1. (参照)解決可能なhttp(s) URIs
2. 良く利用される形式でのRDFデータの解
決
• content-negotiationかどうかは問わない
3. 1000トリプル以上
4. 既存のLOD cloudのデータセットとの
RD...
LOD cloud 採用外ポイント
• entity URIsが解決可能ではなく,SPARQLエンドポイント
を通して提供されている
• entity URIsが解決可能ではなく,RDFダンプとして提供さ
れている
• オリジナルのデータなしに...
LOD cloud調査方法
データ公開者にトリプル数や
外部リンク数等を自己申告さ
せて半自動生成
1.datahub (http://datahub.io) にデータセ
ット登録
2.登録内容をバリデータ(http://
validator....
基準外のデータセット数
LOD cloud基準
データセット数
(重複あり)
1 解決可能なhttp URIs 8
2 RDFデータの解決 9
3 1000トリプル以上 0
4 50以上のRDFリンク 4
5 データセット全体へのアクセス 2
...
基準1及び2
• 該当例: i-Scover等
• (2014-05-19追記: i-Scoverは基準
を満たしているとの指摘を受けてい
ます.訂正を含んだ最新の図につい
ては近日公開予定です.)
• 殆どは1+2両方不足だが,青空文庫
LO...
基準4
• 該当例: saveMLAK等
• 細かいデータセットを省く
ため
• リンクが多いから良いデー
タセットとは必ずしも限ら
ない
LOD cloud基準
データセット
数(重複あり)
4
50以上のRDFリ
ンク
4
17
基準5
• 該当例: CiNii, KAKEN
• 参照解決可能だがデータ全
体にアクセスするのは困難
• NIIのデータについては現在
収集して計測中
LOD cloud基準
データセット
数(重複あり)
5
データセット全体
へのアクセス
...
基準6
• 該当例: PinQA
• 正確にはLOD cloudの基準
ではなく,LOD cloudにお
けるオープンの定義
• 但しPinQAは2014年4月25
日にサービスが終了したた
めそもそもデータセットが
なくなった
LOD clo...
Future Work
• 調査中のデータセット
• データセット全体の取得: CiNii, KAKEN等
• 前回利用できなかったものの再調査
• 外部リンクがないデータセットを含んだ調査
• 調査作業の改善
• (データセット公開者へ)da...
まとめ
• 日本語におけるLinked Dataの現状を調査して日本
語Linked Data Cloudを作成した
• 本家LOD cloudに採用される可能性を調査した
• データセット提供者には本家のバリデータを通して
基準を満たすのを推...
Upcoming SlideShare
Loading in …5
×

日本語Linked Data Cloudの現状

1,168 views

Published on

2014年人工知能学会 Linked Dataとオントロジーセッションの発表

Published in: Technology
1 Comment
7 Likes
Statistics
Notes
No Downloads
Views
Total views
1,168
On SlideShare
0
From Embeds
0
Number of Embeds
24
Actions
Shares
0
Downloads
6
Comments
1
Likes
7
Embeds 0
No embeds

No notes for slide

日本語Linked Data Cloudの現状

  1. 1. 日本語Linked Data Cloud の現状 加藤文彦*1 ,武田英明*2 ,小出誠二*1 ,大向一輝*2 *1 情報・システム研究機構,*2 国立情報学研究所 ! 2014年度人工知能学会全国大会(第28回) オーガナイズドセッション 「OS-19 Linked Dataとオントロジー」 1G5-OS-19b-7 2014-05-12
  2. 2. 背景 • 数年前までは日本語のLinked Dataは殆ど存在しなかった • LOD cloud(2011-09-19版) には国立国会図書館のみ • SIGSWOやLODチャレンジ等 によって日本語のデータが増 加している • 日本語における現状を把握し たい 2 Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
  3. 3. 1. データ公開者が日本にいる人・組織等 2. 日本語ラベルあり 3. 1000トリプル以上 4. LOD CloudかJLDCのデータセットとの RDFリンクが10以上 5. 参照解決可能,データダンプ,あるいは SPARQLエンドポイントのいずれかに よってデータセットを公開 JLDC: 日本語Linked Data Cloud • 手動で各データセットのトリプ ル数とRDFリンク数を調査 • 描画ツール: OmniGraffle • 分類: LOD cloud参考に独断 • 採用基準に合致する場合は LOD cloud内のデータセット も明示 • 現状NDLのみ 採用基準 3
  4. 4. 調査方法 • 対象: 主にSIGSWOやLODチャレンジ • SPARQLエンドポイントがある場合 • トリプル数 • SELECT (COUNT(?s) AS ?c) { ?s ?p ?o } • 一部のTripleStoreが自動的に追加するデータはそのまま含む • 同一エンドポイント上にGRAPHで複数データセットが含まれている場合はGRAPH指定して個別に計測 • RDFリンク数 • 外部へリンクしているpredicateを調査 • 各predicate毎にobjectをFILTERしてCOUNT • データダンプあるいは参照解決可能な場合 • データをダウンロードして手元でエンドポイントを立てた後に,上記の方法で調査 4
  5. 5. JLDC: 2013-06-19 ! • 17データセット • 2013-06-20 第2回オープ ンデータ京都勉強会 • http://www.slideshare.net/ fumihiro/ 20130620-23239372 5
  6. 6. JLDC: 2013-10-15 ! • 21データセット • 分類変更 • 追加: RIHN, Earthquake Archives Fukushima, GeoLOD, Neji LOD • LODIブログ • http://linkedopendata.jp/?p=411 6
  7. 7. JLDC: 2014-03-10 ! • 27データセット • 追加: Statdb, Senkyo, i- Scover, Allie, LSD, Michishiru • 一部英語表記に合わせた • 本原稿及びLODIブログ • http://linkedopendata.jp/?p=486 7
  8. 8. 8 分類 データセット数 トリプル数 外部リンク数 Industry 1 87,983 112 Geographic 2 63,98,759 15,869 Life Science 4 140,510,938 278,023 Cross-domain 3 108,000,143 1,651,140 Media 2 33,137,619 720,067 Government 3 5,415,553 54,351 Publication 11 (注)82,097,407 (注)1,238,166 UGC 1 140,554 1,994 Total 27 (注)375,788,956 (注)3,959,722 LOD cloud 295 31,634,213,770 503,998,829 注: Publicationのトリプル数及び外部リンク数はCiNii及びKAKENを除いた分 2014-03-10版
  9. 9. 9 分類 データセット数 トリプル数 外部リンク数 Industry 1 87,983 112 Geographic 2 63,98,759 15,869 Life Science 4 140,510,938 278,023 Cross-domain 3 108,000,143 1,651,140 Media 2 33,137,619 720,067 Government 3 5,415,553 54,351 Publication 12 (注)494,567,525 (注)14,225,715 UGC 0 0 0 Total 28 (注)788,118,520 (注)16,945,277 LOD cloud 295 31,634,213,770 503,998,829 注: CiNii Booksを除く 2014-05-12暫定版
  10. 10. 採用外データセット例 • RDFリンクがない • 該当例: Radiation LOD等多数 • RDFリンクが間違っている • 該当例: アイドルLOD • predicateがowl:seeAlso 且つリンク先がentity URIではない • 調査時に利用できなかった • 該当例: Yahoo!カテゴリLOD 10
  11. 11. LOD cloud基準を適用 27 → 13 11
  12. 12. 1. (参照)解決可能なhttp(s) URIs 2. 良く利用される形式でのRDFデータの解 決 • content-negotiationかどうかは問わない 3. 1000トリプル以上 4. 既存のLOD cloudのデータセットとの RDFリンクが50以上 5. RDFクローリングまたはRDFダンプ,あ るいはSPARQLエンドポイントによって データセット全体にアクセス可能 6. 認証なしかつ無料でアクセス可能 LOD cloud採用候補 採用基準 12
  13. 13. LOD cloud 採用外ポイント • entity URIsが解決可能ではなく,SPARQLエンドポイント を通して提供されている • entity URIsが解決可能ではなく,RDFダンプとして提供さ れている • オリジナルのデータなしに既存のRDFデータセットのキャッ シュ,コピーあるいは集約をしている • クライアントのデータ入力に対してRDFを生成するサービス • 他のデータセットとリンクされていない 13
  14. 14. LOD cloud調査方法 データ公開者にトリプル数や 外部リンク数等を自己申告さ せて半自動生成 1.datahub (http://datahub.io) にデータセ ット登録 2.登録内容をバリデータ(http:// validator.lod-cloud.net)に適合 3.LOD cloud作者に連絡 データセット公開者 • lodcloud groupに,適合するデータセッ トを追加 • lodcloud groupからCKAN APIでデータ 取得してOmniGraffleファイルを生成 • VoID Generatorは公開されているが OmniGraffleの部分は非公開 • https://github.com/lod-cloud/ datahub2void • http://lod-cloud.net/data/void.ttl LOD cloud作成者 14
  15. 15. 基準外のデータセット数 LOD cloud基準 データセット数 (重複あり) 1 解決可能なhttp URIs 8 2 RDFデータの解決 9 3 1000トリプル以上 0 4 50以上のRDFリンク 4 5 データセット全体へのアクセス 2 6 認証なしかつ無料のアクセス 1 15
  16. 16. 基準1及び2 • 該当例: i-Scover等 • (2014-05-19追記: i-Scoverは基準 を満たしているとの指摘を受けてい ます.訂正を含んだ最新の図につい ては近日公開予定です.) • 殆どは1+2両方不足だが,青空文庫 LODは2のみ • Linked Data4原則の2と3に相当 • 基準外だとただのRDFデータセット LOD cloud基準 データセット 数(重複あり) 1 解決可能なhttp URIs 8 2 RDFデータの解決 9 16
  17. 17. 基準4 • 該当例: saveMLAK等 • 細かいデータセットを省く ため • リンクが多いから良いデー タセットとは必ずしも限ら ない LOD cloud基準 データセット 数(重複あり) 4 50以上のRDFリ ンク 4 17
  18. 18. 基準5 • 該当例: CiNii, KAKEN • 参照解決可能だがデータ全 体にアクセスするのは困難 • NIIのデータについては現在 収集して計測中 LOD cloud基準 データセット 数(重複あり) 5 データセット全体 へのアクセス 2 18
  19. 19. 基準6 • 該当例: PinQA • 正確にはLOD cloudの基準 ではなく,LOD cloudにお けるオープンの定義 • 但しPinQAは2014年4月25 日にサービスが終了したた めそもそもデータセットが なくなった LOD cloud基準 データセット 数(重複あり) 6 認証なしかつ無料 のアクセス 1 19
  20. 20. Future Work • 調査中のデータセット • データセット全体の取得: CiNii, KAKEN等 • 前回利用できなかったものの再調査 • 外部リンクがないデータセットを含んだ調査 • 調査作業の改善 • (データセット公開者へ)datahubへの登録やVoIDの提供を推奨 • JLDCのデータを整備してVoIDで公開 • 図生成の自動化 20
  21. 21. まとめ • 日本語におけるLinked Dataの現状を調査して日本 語Linked Data Cloudを作成した • 本家LOD cloudに採用される可能性を調査した • データセット提供者には本家のバリデータを通して 基準を満たすのを推奨したい 21

×