SlideShare a Scribd company logo
1 of 21
Download to read offline
日本語Linked Data Cloud
の現状
加藤文彦*1
,武田英明*2
,小出誠二*1
,大向一輝*2
*1
情報・システム研究機構,*2
国立情報学研究所
!
2014年度人工知能学会全国大会(第28回)
オーガナイズドセッション 「OS-19 Linked Dataとオントロジー」
1G5-OS-19b-7
2014-05-12
背景
• 数年前までは日本語のLinked
Dataは殆ど存在しなかった
• LOD cloud(2011-09-19版)
には国立国会図書館のみ
• SIGSWOやLODチャレンジ等
によって日本語のデータが増
加している
• 日本語における現状を把握し
たい
2
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
1. データ公開者が日本にいる人・組織等
2. 日本語ラベルあり
3. 1000トリプル以上
4. LOD CloudかJLDCのデータセットとの
RDFリンクが10以上
5. 参照解決可能,データダンプ,あるいは
SPARQLエンドポイントのいずれかに
よってデータセットを公開
JLDC: 日本語Linked Data Cloud
• 手動で各データセットのトリプ
ル数とRDFリンク数を調査
• 描画ツール: OmniGraffle
• 分類: LOD cloud参考に独断
• 採用基準に合致する場合は
LOD cloud内のデータセット
も明示
• 現状NDLのみ
採用基準
3
調査方法
• 対象: 主にSIGSWOやLODチャレンジ
• SPARQLエンドポイントがある場合
• トリプル数
• SELECT (COUNT(?s) AS ?c) { ?s ?p ?o }
• 一部のTripleStoreが自動的に追加するデータはそのまま含む
• 同一エンドポイント上にGRAPHで複数データセットが含まれている場合はGRAPH指定して個別に計測
• RDFリンク数
• 外部へリンクしているpredicateを調査
• 各predicate毎にobjectをFILTERしてCOUNT
• データダンプあるいは参照解決可能な場合
• データをダウンロードして手元でエンドポイントを立てた後に,上記の方法で調査
4
JLDC: 2013-06-19
!
• 17データセット
• 2013-06-20 第2回オープ
ンデータ京都勉強会
• http://www.slideshare.net/
fumihiro/
20130620-23239372
5
JLDC: 2013-10-15
!
• 21データセット
• 分類変更
• 追加: RIHN, Earthquake
Archives Fukushima,
GeoLOD, Neji LOD
• LODIブログ
• http://linkedopendata.jp/?p=411
6
JLDC: 2014-03-10
!
• 27データセット
• 追加: Statdb, Senkyo, i-
Scover, Allie, LSD,
Michishiru
• 一部英語表記に合わせた
• 本原稿及びLODIブログ
• http://linkedopendata.jp/?p=486
7
8
分類 データセット数 トリプル数 外部リンク数
Industry 1 87,983 112
Geographic 2 63,98,759 15,869
Life Science 4 140,510,938 278,023
Cross-domain 3 108,000,143 1,651,140
Media 2 33,137,619 720,067
Government 3 5,415,553 54,351
Publication 11 (注)82,097,407 (注)1,238,166
UGC 1 140,554 1,994
Total 27 (注)375,788,956 (注)3,959,722
LOD cloud 295 31,634,213,770 503,998,829
注: Publicationのトリプル数及び外部リンク数はCiNii及びKAKENを除いた分
2014-03-10版
9
分類 データセット数 トリプル数 外部リンク数
Industry 1 87,983 112
Geographic 2 63,98,759 15,869
Life Science 4 140,510,938 278,023
Cross-domain 3 108,000,143 1,651,140
Media 2 33,137,619 720,067
Government 3 5,415,553 54,351
Publication 12 (注)494,567,525 (注)14,225,715
UGC 0 0 0
Total 28 (注)788,118,520 (注)16,945,277
LOD cloud 295 31,634,213,770 503,998,829
注: CiNii Booksを除く
2014-05-12暫定版
採用外データセット例
• RDFリンクがない
• 該当例: Radiation LOD等多数
• RDFリンクが間違っている
• 該当例: アイドルLOD
• predicateがowl:seeAlso 且つリンク先がentity URIではない
• 調査時に利用できなかった
• 該当例: Yahoo!カテゴリLOD
10
LOD cloud基準を適用
27 → 13
11
1. (参照)解決可能なhttp(s) URIs
2. 良く利用される形式でのRDFデータの解
決
• content-negotiationかどうかは問わない
3. 1000トリプル以上
4. 既存のLOD cloudのデータセットとの
RDFリンクが50以上
5. RDFクローリングまたはRDFダンプ,あ
るいはSPARQLエンドポイントによって
データセット全体にアクセス可能
6. 認証なしかつ無料でアクセス可能
LOD cloud採用候補
採用基準
12
LOD cloud 採用外ポイント
• entity URIsが解決可能ではなく,SPARQLエンドポイント
を通して提供されている
• entity URIsが解決可能ではなく,RDFダンプとして提供さ
れている
• オリジナルのデータなしに既存のRDFデータセットのキャッ
シュ,コピーあるいは集約をしている
• クライアントのデータ入力に対してRDFを生成するサービス
• 他のデータセットとリンクされていない
13
LOD cloud調査方法
データ公開者にトリプル数や
外部リンク数等を自己申告さ
せて半自動生成
1.datahub (http://datahub.io) にデータセ
ット登録
2.登録内容をバリデータ(http://
validator.lod-cloud.net)に適合
3.LOD cloud作者に連絡
データセット公開者
• lodcloud groupに,適合するデータセッ
トを追加
• lodcloud groupからCKAN APIでデータ
取得してOmniGraffleファイルを生成
• VoID Generatorは公開されているが
OmniGraffleの部分は非公開
• https://github.com/lod-cloud/
datahub2void
• http://lod-cloud.net/data/void.ttl
LOD cloud作成者
14
基準外のデータセット数
LOD cloud基準
データセット数
(重複あり)
1 解決可能なhttp URIs 8
2 RDFデータの解決 9
3 1000トリプル以上 0
4 50以上のRDFリンク 4
5 データセット全体へのアクセス 2
6 認証なしかつ無料のアクセス 1
15
基準1及び2
• 該当例: i-Scover等
• (2014-05-19追記: i-Scoverは基準
を満たしているとの指摘を受けてい
ます.訂正を含んだ最新の図につい
ては近日公開予定です.)
• 殆どは1+2両方不足だが,青空文庫
LODは2のみ
• Linked Data4原則の2と3に相当
• 基準外だとただのRDFデータセット
LOD cloud基準
データセット
数(重複あり)
1
解決可能なhttp
URIs
8
2 RDFデータの解決 9
16
基準4
• 該当例: saveMLAK等
• 細かいデータセットを省く
ため
• リンクが多いから良いデー
タセットとは必ずしも限ら
ない
LOD cloud基準
データセット
数(重複あり)
4
50以上のRDFリ
ンク
4
17
基準5
• 該当例: CiNii, KAKEN
• 参照解決可能だがデータ全
体にアクセスするのは困難
• NIIのデータについては現在
収集して計測中
LOD cloud基準
データセット
数(重複あり)
5
データセット全体
へのアクセス
2
18
基準6
• 該当例: PinQA
• 正確にはLOD cloudの基準
ではなく,LOD cloudにお
けるオープンの定義
• 但しPinQAは2014年4月25
日にサービスが終了したた
めそもそもデータセットが
なくなった
LOD cloud基準
データセット
数(重複あり)
6
認証なしかつ無料
のアクセス
1
19
Future Work
• 調査中のデータセット
• データセット全体の取得: CiNii, KAKEN等
• 前回利用できなかったものの再調査
• 外部リンクがないデータセットを含んだ調査
• 調査作業の改善
• (データセット公開者へ)datahubへの登録やVoIDの提供を推奨
• JLDCのデータを整備してVoIDで公開
• 図生成の自動化
20
まとめ
• 日本語におけるLinked Dataの現状を調査して日本
語Linked Data Cloudを作成した
• 本家LOD cloudに採用される可能性を調査した
• データセット提供者には本家のバリデータを通して
基準を満たすのを推奨したい
21

More Related Content

What's hot

ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)KnowledgeGraph
 
第5回AIツール入門講座 Linked Open Dataの現状とその活用
第5回AIツール入門講座 Linked Open Dataの現状とその活用第5回AIツール入門講座 Linked Open Dataの現状とその活用
第5回AIツール入門講座 Linked Open Dataの現状とその活用Fumihiro Kato
 
「LODの概要」と 「LODとオープンデータに関する最新情報」
「LODの概要」と 「LODとオープンデータに関する最新情報」「LODの概要」と 「LODとオープンデータに関する最新情報」
「LODの概要」と 「LODとオープンデータに関する最新情報」Kouji Kozaki
 
情報の構造化@Linked Open Data連続講座(2014.6.2)
情報の構造化@Linked Open Data連続講座(2014.6.2)情報の構造化@Linked Open Data連続講座(2014.6.2)
情報の構造化@Linked Open Data連続講座(2014.6.2)Ikki Ohmukai
 
SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!uedayou
 
LOD公開のレシピ(第3回LODとオントロジー勉強会)
LOD公開のレシピ(第3回LODとオントロジー勉強会)LOD公開のレシピ(第3回LODとオントロジー勉強会)
LOD公開のレシピ(第3回LODとオントロジー勉強会)Kouji Kozaki
 
Introduction of neo4j
Introduction of neo4jIntroduction of neo4j
Introduction of neo4jIto Kunihiko
 
LODを使ってみよう!
LODを使ってみよう!LODを使ってみよう!
LODを使ってみよう!uedayou
 
オープンデータカタログの先
オープンデータカタログの先オープンデータカタログの先
オープンデータカタログの先Fumihiro Kato
 
OrientDBのご紹介 OSC2014 Tokyo/Fall LT
OrientDBのご紹介 OSC2014 Tokyo/Fall LTOrientDBのご紹介 OSC2014 Tokyo/Fall LT
OrientDBのご紹介 OSC2014 Tokyo/Fall LTKazunobu Yamaguchi
 
Linked Data Cloudの話
Linked Data Cloudの話Linked Data Cloudの話
Linked Data Cloudの話Fumihiro Kato
 
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発KnowledgeGraph
 
LOD (Linked Open Data) の動向と今後の展望
LOD (Linked Open Data) の動向と今後の展望LOD (Linked Open Data) の動向と今後の展望
LOD (Linked Open Data) の動向と今後の展望Kouji Kozaki
 
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」Fuyuko Matsumura
 
Linked Open Data(LOD)を用いた オープンデータの活用事例と今後の展望
Linked Open Data(LOD)を用いたオープンデータの活用事例と今後の展望Linked Open Data(LOD)を用いたオープンデータの活用事例と今後の展望
Linked Open Data(LOD)を用いた オープンデータの活用事例と今後の展望Kouji Kozaki
 
大阪市オープンデータポータルAPI(SPARQL)勉強会
大阪市オープンデータポータルAPI(SPARQL)勉強会大阪市オープンデータポータルAPI(SPARQL)勉強会
大阪市オープンデータポータルAPI(SPARQL)勉強会Kouji Kozaki
 

What's hot (20)

ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)
 
第5回AIツール入門講座 Linked Open Dataの現状とその活用
第5回AIツール入門講座 Linked Open Dataの現状とその活用第5回AIツール入門講座 Linked Open Dataの現状とその活用
第5回AIツール入門講座 Linked Open Dataの現状とその活用
 
「LODの概要」と 「LODとオープンデータに関する最新情報」
「LODの概要」と 「LODとオープンデータに関する最新情報」「LODの概要」と 「LODとオープンデータに関する最新情報」
「LODの概要」と 「LODとオープンデータに関する最新情報」
 
情報の構造化@Linked Open Data連続講座(2014.6.2)
情報の構造化@Linked Open Data連続講座(2014.6.2)情報の構造化@Linked Open Data連続講座(2014.6.2)
情報の構造化@Linked Open Data連続講座(2014.6.2)
 
WiredTigerを詳しく説明
WiredTigerを詳しく説明WiredTigerを詳しく説明
WiredTigerを詳しく説明
 
SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!
 
LOD公開のレシピ(第3回LODとオントロジー勉強会)
LOD公開のレシピ(第3回LODとオントロジー勉強会)LOD公開のレシピ(第3回LODとオントロジー勉強会)
LOD公開のレシピ(第3回LODとオントロジー勉強会)
 
Introduction of neo4j
Introduction of neo4jIntroduction of neo4j
Introduction of neo4j
 
LODを使ってみよう!
LODを使ってみよう!LODを使ってみよう!
LODを使ってみよう!
 
オープンデータカタログの先
オープンデータカタログの先オープンデータカタログの先
オープンデータカタログの先
 
OrientDBのご紹介 OSC2014 Tokyo/Fall LT
OrientDBのご紹介 OSC2014 Tokyo/Fall LTOrientDBのご紹介 OSC2014 Tokyo/Fall LT
OrientDBのご紹介 OSC2014 Tokyo/Fall LT
 
DBpedia Japaneseとは?
DBpedia Japaneseとは?DBpedia Japaneseとは?
DBpedia Japaneseとは?
 
Linked Data Cloudの話
Linked Data Cloudの話Linked Data Cloudの話
Linked Data Cloudの話
 
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
 
Linked Open Dataとは
Linked Open DataとはLinked Open Dataとは
Linked Open Dataとは
 
LOD (Linked Open Data) の動向と今後の展望
LOD (Linked Open Data) の動向と今後の展望LOD (Linked Open Data) の動向と今後の展望
LOD (Linked Open Data) の動向と今後の展望
 
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」
 
Linked Open Data(LOD)を用いた オープンデータの活用事例と今後の展望
Linked Open Data(LOD)を用いたオープンデータの活用事例と今後の展望Linked Open Data(LOD)を用いたオープンデータの活用事例と今後の展望
Linked Open Data(LOD)を用いた オープンデータの活用事例と今後の展望
 
LODとメディア ニューヨークタイムズ最新事情
LODとメディア ニューヨークタイムズ最新事情LODとメディア ニューヨークタイムズ最新事情
LODとメディア ニューヨークタイムズ最新事情
 
大阪市オープンデータポータルAPI(SPARQL)勉強会
大阪市オープンデータポータルAPI(SPARQL)勉強会大阪市オープンデータポータルAPI(SPARQL)勉強会
大阪市オープンデータポータルAPI(SPARQL)勉強会
 

Similar to 日本語Linked Data Cloudの現状

「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会KAMURA
 
工業分野におけるlinked open data活用に向けた取り組み
工業分野におけるlinked open data活用に向けた取り組み工業分野におけるlinked open data活用に向けた取り組み
工業分野におけるlinked open data活用に向けた取り組みShusaku Egami
 
オープンデータの技術よりな話
オープンデータの技術よりな話オープンデータの技術よりな話
オープンデータの技術よりな話Fumihiro Kato
 
オープンデータと Linked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸RオープンデータとLinked Open Data(LOD)@神戸R
オープンデータと Linked Open Data(LOD)@神戸RKouji Kozaki
 
「オープンなジオデータを考える」資料
「オープンなジオデータを考える」資料「オープンなジオデータを考える」資料
「オープンなジオデータを考える」資料Fumihiro Kato
 
オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻Kouji Kozaki
 
Learn about ODF / ODFを見なおそう
Learn about ODF / ODFを見なおそうLearn about ODF / ODFを見なおそう
Learn about ODF / ODFを見なおそうNaruhiko Ogasawara
 
オープンデータとLinked Open Data
オープンデータとLinked Open DataオープンデータとLinked Open Data
オープンデータとLinked Open DataFumihiro Kato
 
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)NTT DATA Technology & Innovation
 
Linked Dataの基本原則 -LODを公開するときに知っておきたい基本技術-
Linked Dataの基本原則-LODを公開するときに知っておきたい基本技術-Linked Dataの基本原則-LODを公開するときに知っておきたい基本技術-
Linked Dataの基本原則 -LODを公開するときに知っておきたい基本技術-Kouji Kozaki
 
OpenDocument interoperability test workshop
OpenDocument interoperability test workshopOpenDocument interoperability test workshop
OpenDocument interoperability test workshopMakoto Takizawa
 
CDH4->5 update苦労話
CDH4->5 update苦労話CDH4->5 update苦労話
CDH4->5 update苦労話Yu Yamada
 
LODで広がる オープンデータ活用の可能性
LODで広がるオープンデータ活用の可能性LODで広がるオープンデータ活用の可能性
LODで広がる オープンデータ活用の可能性Kouji Kozaki
 
千代田区Excelデータの位置情報化
千代田区Excelデータの位置情報化千代田区Excelデータの位置情報化
千代田区Excelデータの位置情報化Sayoko Shimoyama
 
座談会資料(事前配布) 20161217
座談会資料(事前配布) 20161217座談会資料(事前配布) 20161217
座談会資料(事前配布) 20161217知礼 八子
 

Similar to 日本語Linked Data Cloudの現状 (20)

DBpedia Japanese
DBpedia JapaneseDBpedia Japanese
DBpedia Japanese
 
Linked Open Dataとは
Linked Open DataとはLinked Open Dataとは
Linked Open Dataとは
 
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
 
工業分野におけるlinked open data活用に向けた取り組み
工業分野におけるlinked open data活用に向けた取り組み工業分野におけるlinked open data活用に向けた取り組み
工業分野におけるlinked open data活用に向けた取り組み
 
オープンデータの技術よりな話
オープンデータの技術よりな話オープンデータの技術よりな話
オープンデータの技術よりな話
 
20151028koyama
20151028koyama20151028koyama
20151028koyama
 
オープンデータと Linked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸RオープンデータとLinked Open Data(LOD)@神戸R
オープンデータと Linked Open Data(LOD)@神戸R
 
「オープンなジオデータを考える」資料
「オープンなジオデータを考える」資料「オープンなジオデータを考える」資料
「オープンなジオデータを考える」資料
 
オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻
 
Learn about ODF / ODFを見なおそう
Learn about ODF / ODFを見なおそうLearn about ODF / ODFを見なおそう
Learn about ODF / ODFを見なおそう
 
オープンデータとLinked Open Data
オープンデータとLinked Open DataオープンデータとLinked Open Data
オープンデータとLinked Open Data
 
Linked Data in Japan/Semantic Conference In Japan 2010
Linked Data in Japan/Semantic Conference In Japan 2010Linked Data in Japan/Semantic Conference In Japan 2010
Linked Data in Japan/Semantic Conference In Japan 2010
 
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
 
Linked Dataの基本原則 -LODを公開するときに知っておきたい基本技術-
Linked Dataの基本原則-LODを公開するときに知っておきたい基本技術-Linked Dataの基本原則-LODを公開するときに知っておきたい基本技術-
Linked Dataの基本原則 -LODを公開するときに知っておきたい基本技術-
 
OpenDocument interoperability test workshop
OpenDocument interoperability test workshopOpenDocument interoperability test workshop
OpenDocument interoperability test workshop
 
CDH4->5 update苦労話
CDH4->5 update苦労話CDH4->5 update苦労話
CDH4->5 update苦労話
 
Geonamesjp_0312
Geonamesjp_0312Geonamesjp_0312
Geonamesjp_0312
 
LODで広がる オープンデータ活用の可能性
LODで広がるオープンデータ活用の可能性LODで広がるオープンデータ活用の可能性
LODで広がる オープンデータ活用の可能性
 
千代田区Excelデータの位置情報化
千代田区Excelデータの位置情報化千代田区Excelデータの位置情報化
千代田区Excelデータの位置情報化
 
座談会資料(事前配布) 20161217
座談会資料(事前配布) 20161217座談会資料(事前配布) 20161217
座談会資料(事前配布) 20161217
 

More from Fumihiro Kato

オープンなデータベースを利用した行動計画提案に関する研究
オープンなデータベースを利用した行動計画提案に関する研究オープンなデータベースを利用した行動計画提案に関する研究
オープンなデータベースを利用した行動計画提案に関する研究Fumihiro Kato
 
ウィキペディアタウン: 市民による地域情報化の一手法
ウィキペディアタウン: 市民による地域情報化の一手法ウィキペディアタウン: 市民による地域情報化の一手法
ウィキペディアタウン: 市民による地域情報化の一手法Fumihiro Kato
 
DBpedia Japanese 運営の現状
DBpedia Japanese 運営の現状DBpedia Japanese 運営の現状
DBpedia Japanese 運営の現状Fumihiro Kato
 
シビックテック: インターネット時代の市民と行政の協働
シビックテック: インターネット時代の市民と行政の協働シビックテック: インターネット時代の市民と行政の協働
シビックテック: インターネット時代の市民と行政の協働Fumihiro Kato
 
Open Park Yokohama: 公園LODの試作
Open Park Yokohama: 公園LODの試作Open Park Yokohama: 公園LODの試作
Open Park Yokohama: 公園LODの試作Fumihiro Kato
 
ウィキペディアタウン
ウィキペディアタウンウィキペディアタウン
ウィキペディアタウンFumihiro Kato
 
DBpedia in the Japanese LOD cloud
DBpedia in the Japanese LOD cloudDBpedia in the Japanese LOD cloud
DBpedia in the Japanese LOD cloudFumihiro Kato
 
データポータルソフトウェアCKAN
データポータルソフトウェアCKANデータポータルソフトウェアCKAN
データポータルソフトウェアCKANFumihiro Kato
 
データカタログソフトウェア CKAN
データカタログソフトウェア CKANデータカタログソフトウェア CKAN
データカタログソフトウェア CKANFumihiro Kato
 
LOD: Linked Open Data
LOD: Linked Open DataLOD: Linked Open Data
LOD: Linked Open DataFumihiro Kato
 
CKAN日本語コミュニティの現状と課題
CKAN日本語コミュニティの現状と課題CKAN日本語コミュニティの現状と課題
CKAN日本語コミュニティの現状と課題Fumihiro Kato
 
えほん関連検索
えほん関連検索えほん関連検索
えほん関連検索Fumihiro Kato
 
サーバサイドコース Sinatra + SPARQL 編
サーバサイドコース Sinatra + SPARQL 編サーバサイドコース Sinatra + SPARQL 編
サーバサイドコース Sinatra + SPARQL 編Fumihiro Kato
 
パートナーデータ紹介 NII, LODAC, 鯖江, OSM
パートナーデータ紹介 NII, LODAC, 鯖江, OSMパートナーデータ紹介 NII, LODAC, 鯖江, OSM
パートナーデータ紹介 NII, LODAC, 鯖江, OSMFumihiro Kato
 
オープンデータとその技術 - 学術情報サービスとオープンデータ
オープンデータとその技術 - 学術情報サービスとオープンデータオープンデータとその技術 - 学術情報サービスとオープンデータ
オープンデータとその技術 - 学術情報サービスとオープンデータFumihiro Kato
 

More from Fumihiro Kato (20)

オープンなデータベースを利用した行動計画提案に関する研究
オープンなデータベースを利用した行動計画提案に関する研究オープンなデータベースを利用した行動計画提案に関する研究
オープンなデータベースを利用した行動計画提案に関する研究
 
DBpedia Japanese
DBpedia JapaneseDBpedia Japanese
DBpedia Japanese
 
ウィキペディアタウン: 市民による地域情報化の一手法
ウィキペディアタウン: 市民による地域情報化の一手法ウィキペディアタウン: 市民による地域情報化の一手法
ウィキペディアタウン: 市民による地域情報化の一手法
 
DBpedia Japanese 運営の現状
DBpedia Japanese 運営の現状DBpedia Japanese 運営の現状
DBpedia Japanese 運営の現状
 
シビックテック: インターネット時代の市民と行政の協働
シビックテック: インターネット時代の市民と行政の協働シビックテック: インターネット時代の市民と行政の協働
シビックテック: インターネット時代の市民と行政の協働
 
Open Park Yokohama: 公園LODの試作
Open Park Yokohama: 公園LODの試作Open Park Yokohama: 公園LODの試作
Open Park Yokohama: 公園LODの試作
 
ウィキペディアタウン
ウィキペディアタウンウィキペディアタウン
ウィキペディアタウン
 
DBpedia in the Japanese LOD cloud
DBpedia in the Japanese LOD cloudDBpedia in the Japanese LOD cloud
DBpedia in the Japanese LOD cloud
 
Open Park Yokohama
Open Park YokohamaOpen Park Yokohama
Open Park Yokohama
 
データポータルソフトウェアCKAN
データポータルソフトウェアCKANデータポータルソフトウェアCKAN
データポータルソフトウェアCKAN
 
データカタログソフトウェア CKAN
データカタログソフトウェア CKANデータカタログソフトウェア CKAN
データカタログソフトウェア CKAN
 
LOD: Linked Open Data
LOD: Linked Open DataLOD: Linked Open Data
LOD: Linked Open Data
 
スキーマとURI
スキーマとURIスキーマとURI
スキーマとURI
 
CKAN日本語コミュニティの現状と課題
CKAN日本語コミュニティの現状と課題CKAN日本語コミュニティの現状と課題
CKAN日本語コミュニティの現状と課題
 
sgvizler
sgvizlersgvizler
sgvizler
 
えほん関連検索
えほん関連検索えほん関連検索
えほん関連検索
 
サーバサイドコース Sinatra + SPARQL 編
サーバサイドコース Sinatra + SPARQL 編サーバサイドコース Sinatra + SPARQL 編
サーバサイドコース Sinatra + SPARQL 編
 
パートナーデータ紹介 NII, LODAC, 鯖江, OSM
パートナーデータ紹介 NII, LODAC, 鯖江, OSMパートナーデータ紹介 NII, LODAC, 鯖江, OSM
パートナーデータ紹介 NII, LODAC, 鯖江, OSM
 
オープンデータとその技術 - 学術情報サービスとオープンデータ
オープンデータとその技術 - 学術情報サービスとオープンデータオープンデータとその技術 - 学術情報サービスとオープンデータ
オープンデータとその技術 - 学術情報サービスとオープンデータ
 
LODI紹介
LODI紹介LODI紹介
LODI紹介
 

Recently uploaded

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 

Recently uploaded (8)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 

日本語Linked Data Cloudの現状

  • 2. 背景 • 数年前までは日本語のLinked Dataは殆ど存在しなかった • LOD cloud(2011-09-19版) には国立国会図書館のみ • SIGSWOやLODチャレンジ等 によって日本語のデータが増 加している • 日本語における現状を把握し たい 2 Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
  • 3. 1. データ公開者が日本にいる人・組織等 2. 日本語ラベルあり 3. 1000トリプル以上 4. LOD CloudかJLDCのデータセットとの RDFリンクが10以上 5. 参照解決可能,データダンプ,あるいは SPARQLエンドポイントのいずれかに よってデータセットを公開 JLDC: 日本語Linked Data Cloud • 手動で各データセットのトリプ ル数とRDFリンク数を調査 • 描画ツール: OmniGraffle • 分類: LOD cloud参考に独断 • 採用基準に合致する場合は LOD cloud内のデータセット も明示 • 現状NDLのみ 採用基準 3
  • 4. 調査方法 • 対象: 主にSIGSWOやLODチャレンジ • SPARQLエンドポイントがある場合 • トリプル数 • SELECT (COUNT(?s) AS ?c) { ?s ?p ?o } • 一部のTripleStoreが自動的に追加するデータはそのまま含む • 同一エンドポイント上にGRAPHで複数データセットが含まれている場合はGRAPH指定して個別に計測 • RDFリンク数 • 外部へリンクしているpredicateを調査 • 各predicate毎にobjectをFILTERしてCOUNT • データダンプあるいは参照解決可能な場合 • データをダウンロードして手元でエンドポイントを立てた後に,上記の方法で調査 4
  • 5. JLDC: 2013-06-19 ! • 17データセット • 2013-06-20 第2回オープ ンデータ京都勉強会 • http://www.slideshare.net/ fumihiro/ 20130620-23239372 5
  • 6. JLDC: 2013-10-15 ! • 21データセット • 分類変更 • 追加: RIHN, Earthquake Archives Fukushima, GeoLOD, Neji LOD • LODIブログ • http://linkedopendata.jp/?p=411 6
  • 7. JLDC: 2014-03-10 ! • 27データセット • 追加: Statdb, Senkyo, i- Scover, Allie, LSD, Michishiru • 一部英語表記に合わせた • 本原稿及びLODIブログ • http://linkedopendata.jp/?p=486 7
  • 8. 8 分類 データセット数 トリプル数 外部リンク数 Industry 1 87,983 112 Geographic 2 63,98,759 15,869 Life Science 4 140,510,938 278,023 Cross-domain 3 108,000,143 1,651,140 Media 2 33,137,619 720,067 Government 3 5,415,553 54,351 Publication 11 (注)82,097,407 (注)1,238,166 UGC 1 140,554 1,994 Total 27 (注)375,788,956 (注)3,959,722 LOD cloud 295 31,634,213,770 503,998,829 注: Publicationのトリプル数及び外部リンク数はCiNii及びKAKENを除いた分 2014-03-10版
  • 9. 9 分類 データセット数 トリプル数 外部リンク数 Industry 1 87,983 112 Geographic 2 63,98,759 15,869 Life Science 4 140,510,938 278,023 Cross-domain 3 108,000,143 1,651,140 Media 2 33,137,619 720,067 Government 3 5,415,553 54,351 Publication 12 (注)494,567,525 (注)14,225,715 UGC 0 0 0 Total 28 (注)788,118,520 (注)16,945,277 LOD cloud 295 31,634,213,770 503,998,829 注: CiNii Booksを除く 2014-05-12暫定版
  • 10. 採用外データセット例 • RDFリンクがない • 該当例: Radiation LOD等多数 • RDFリンクが間違っている • 該当例: アイドルLOD • predicateがowl:seeAlso 且つリンク先がentity URIではない • 調査時に利用できなかった • 該当例: Yahoo!カテゴリLOD 10
  • 12. 1. (参照)解決可能なhttp(s) URIs 2. 良く利用される形式でのRDFデータの解 決 • content-negotiationかどうかは問わない 3. 1000トリプル以上 4. 既存のLOD cloudのデータセットとの RDFリンクが50以上 5. RDFクローリングまたはRDFダンプ,あ るいはSPARQLエンドポイントによって データセット全体にアクセス可能 6. 認証なしかつ無料でアクセス可能 LOD cloud採用候補 採用基準 12
  • 13. LOD cloud 採用外ポイント • entity URIsが解決可能ではなく,SPARQLエンドポイント を通して提供されている • entity URIsが解決可能ではなく,RDFダンプとして提供さ れている • オリジナルのデータなしに既存のRDFデータセットのキャッ シュ,コピーあるいは集約をしている • クライアントのデータ入力に対してRDFを生成するサービス • 他のデータセットとリンクされていない 13
  • 14. LOD cloud調査方法 データ公開者にトリプル数や 外部リンク数等を自己申告さ せて半自動生成 1.datahub (http://datahub.io) にデータセ ット登録 2.登録内容をバリデータ(http:// validator.lod-cloud.net)に適合 3.LOD cloud作者に連絡 データセット公開者 • lodcloud groupに,適合するデータセッ トを追加 • lodcloud groupからCKAN APIでデータ 取得してOmniGraffleファイルを生成 • VoID Generatorは公開されているが OmniGraffleの部分は非公開 • https://github.com/lod-cloud/ datahub2void • http://lod-cloud.net/data/void.ttl LOD cloud作成者 14
  • 15. 基準外のデータセット数 LOD cloud基準 データセット数 (重複あり) 1 解決可能なhttp URIs 8 2 RDFデータの解決 9 3 1000トリプル以上 0 4 50以上のRDFリンク 4 5 データセット全体へのアクセス 2 6 認証なしかつ無料のアクセス 1 15
  • 16. 基準1及び2 • 該当例: i-Scover等 • (2014-05-19追記: i-Scoverは基準 を満たしているとの指摘を受けてい ます.訂正を含んだ最新の図につい ては近日公開予定です.) • 殆どは1+2両方不足だが,青空文庫 LODは2のみ • Linked Data4原則の2と3に相当 • 基準外だとただのRDFデータセット LOD cloud基準 データセット 数(重複あり) 1 解決可能なhttp URIs 8 2 RDFデータの解決 9 16
  • 17. 基準4 • 該当例: saveMLAK等 • 細かいデータセットを省く ため • リンクが多いから良いデー タセットとは必ずしも限ら ない LOD cloud基準 データセット 数(重複あり) 4 50以上のRDFリ ンク 4 17
  • 18. 基準5 • 該当例: CiNii, KAKEN • 参照解決可能だがデータ全 体にアクセスするのは困難 • NIIのデータについては現在 収集して計測中 LOD cloud基準 データセット 数(重複あり) 5 データセット全体 へのアクセス 2 18
  • 19. 基準6 • 該当例: PinQA • 正確にはLOD cloudの基準 ではなく,LOD cloudにお けるオープンの定義 • 但しPinQAは2014年4月25 日にサービスが終了したた めそもそもデータセットが なくなった LOD cloud基準 データセット 数(重複あり) 6 認証なしかつ無料 のアクセス 1 19
  • 20. Future Work • 調査中のデータセット • データセット全体の取得: CiNii, KAKEN等 • 前回利用できなかったものの再調査 • 外部リンクがないデータセットを含んだ調査 • 調査作業の改善 • (データセット公開者へ)datahubへの登録やVoIDの提供を推奨 • JLDCのデータを整備してVoIDで公開 • 図生成の自動化 20
  • 21. まとめ • 日本語におけるLinked Dataの現状を調査して日本 語Linked Data Cloudを作成した • 本家LOD cloudに採用される可能性を調査した • データセット提供者には本家のバリデータを通して 基準を満たすのを推奨したい 21