Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
Web技術勉強会 第25回
龍一 田中
LODを使ってみよう!
uedayou
SPARQLアプリケーション開発
Toshiaki Katayama
Rとcdisc@moss10 公開用
Masafumi Okada
RとCDISC
Masafumi Okada
SPARQLでマッシュアップ-LOD活用のための技術紹介-
uedayou
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
National Institute of Informatics (NII)
Rawler基本
Takaichi Ito
1
of
12
Top clipped slide
Silkについて
Jul. 24, 2012
•
0 likes
2 likes
×
Be the first to like this
Show More
•
2,397 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Yoshitaka Minami
Follow
特任助教 at University of Tokyo
Advertisement
Advertisement
Advertisement
Recommended
LODを閲覧する/作成する
Linked Open Dataチャレンジ実行委員会
13.5K views
•
15 slides
d3sparql.js
Toshiaki Katayama
1.6K views
•
14 slides
Linked Open Dataとは
Linked Open Dataチャレンジ実行委員会
14.2K views
•
27 slides
Shibuya Perl Mongers#12 No Sql Couch Db
Makoto Ohnami
564 views
•
32 slides
学術分野の事例紹介
Linked Open Dataチャレンジ実行委員会
11.2K views
•
7 slides
データサイエンティスト必見!M-1グランプリ
Satoshi Kitajima
24.8K views
•
50 slides
More Related Content
Slideshows for you
(9)
Web技術勉強会 第25回
龍一 田中
•
648 views
LODを使ってみよう!
uedayou
•
7.7K views
SPARQLアプリケーション開発
Toshiaki Katayama
•
801 views
Rとcdisc@moss10 公開用
Masafumi Okada
•
1.1K views
RとCDISC
Masafumi Okada
•
2K views
SPARQLでマッシュアップ-LOD活用のための技術紹介-
uedayou
•
25K views
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
National Institute of Informatics (NII)
•
12.1K views
Rawler基本
Takaichi Ito
•
653 views
Sparql epcuでlodをマッシュアップ
Chubu University
•
2.5K views
Similar to Silkについて
(20)
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
linzhixing
•
3.6K views
ふぉとぶらり+LODAC -iPhoneアプリでのSPARQLでの活用事例-
uedayou
•
3.1K views
負荷テストことはじめ
Kazumune Katagiri
•
13.5K views
Elasticsearch入門 pyfes 201207
Jun Ohtani
•
21.9K views
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
Koichiro Sasaki
•
6.4K views
SPARQLから入門するLinked Open Data(LOD)ハンズオン 第2回
yamahige
•
1.6K views
Solr6 の紹介(第18回 Solr勉強会 資料) (2016年6月10日)
Issei Nishigata
•
4.5K views
イマドキの現場で使えるJavaライブラリ事情
takezoe
•
24.8K views
Azure DataLake 大全
Daiyu Hatakeyama
•
942 views
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
Yu Ishikawa
•
4.7K views
XLWrapについてのご紹介
Ohsawa Goodfellow
•
3.2K views
Elasticsearchの基本動作まとめ
朋哉 池田
•
325 views
RとSQLiteで気軽にデータベース作成
弘毅 露崎
•
10.1K views
Apache Torqueについて
tako pons
•
2.2K views
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
•
1.2K views
Spring data-rest-and-spring-cloud-contract
Takeshi Ogawa
•
8.6K views
Springでdao 20070413
Funato Takashi
•
3.1K views
Why dont you_create_new_spark_jl
Shintaro Fukushima
•
3.4K views
Rユーザのためのspark入門
Shintaro Fukushima
•
9.9K views
Css2014 ruo ando_2014-10-23-01
Ruo Ando
•
552 views
Advertisement
Silkについて
リンク生成ツール
-Silk- 2012/07/24 Linked Data勉強会 南 佳孝
Silkとは • 2つの異なるデータソースの
データ項目間のリンクを生成するツール – リンクするデータ項目の条件を設定できる – SPARQL endpointsを利用できる – 利用形態 Hadoopベース • Single Machine • MapReduce APIを提供 • Server Web上でテスト • Workbench
Silkの使い方 • インストール –
http://www4.wiwiss.fu-berlin.de/bizer/silk/ – ↑からダウンロードして解凍するだけ • 設定ファイルの作成 – XMLファイル – リンクするデータ項目の条件を設定 – Silk Link Specification Language (Silk-LSL)で記述 • 実行 – java -DconfigFile=test.xml -jar C:hogehogesilk.jar
設定できる条件 • Prefix
– NamespaceのPrefixを設定 • DataSources – データソースを指定 • sparql endpointのURLを設定 • LinkType – マッチしたデータをリンクするプロパティを設定 • 比較条件 – sparqlクエリで比較対象のデータを設定 – 比較方法を設定 • Output – 出力するファイル名とフォーマット
PrefixとDataSources <Prefixes> <Prefix id="rdfs"
namespace="http://www.w3.org/2000/01/rdf-schema#" /> <Prefix id="species" namespace="http://lod.ac/ns/species#" /> <Prefix id="owl" namespace="http://www.w3.org/2002/07/owl#" /> </Prefixes> fileと指定することも可 その場合は、formatの指定が必要 ※RDF/XML、N-TRIPLE、TURTLE、TTL、N3 <DataSources> <DataSource id="lodac" type="sparqlEndpoint"> <Param name="endpointURI" value="http://lod.ac/sparql" /> </DataSource> <DataSource id="species" type="sparqlEndpoint"> <Param name="endpointURI" value="http://lod.ac/species/sparql" /> </DataSource> </DataSources> その他に、login、password、instanceList、 PageSize、graph、pauseTime、retryCount、 RetryPauseを指定可
LinkTypeとデータセット <LinkType>owl:sameAs</LinkType> <SourceDataset dataSource="lodac" var="a">
<RestrictTo> ?a rdf:type foaf:Organization SPARQLで記述 </RestrictTo> </SourceDataset> <TargetDataset dataSource="species" var="b"> <RestrictTo> ?b species:museumName ?o </RestrictTo> </TargetDataset>
LinkageRule
比較方法とそのパラメータを指定 <LinkageRule> <Aggregate type="average"> <Compare metric="levenshteinDistance" threshold="2.0"> <Input path="?a/rdfs:label[@lang='ja']" /> <Input path="?b/species:museumName" /> </Compare> </Aggregate> </LinkageRule> 比較対象をPath形式で記述
比較方法 • 文字列ベースで距離比較 •
パラメータ – levenshteinDistance – required (optional) • 置換や挿入の回数 • 両方のインスタンスがあ – levenshtein る場合のみ • 正規化され、0~1の間 – weight (optional) – jaro – threshold • 人名に特化した手法 • 文字列間の距離(-1~1) – jaroWinkler – distanceMeasure – equality • jaccard、dice、 softjaccard、num、date、 • イコールなら0 dateTime、wgs84 – Inequality – Inputs • イコールなら1 • 比較対象を設定
パスの記述方法 • SPARQLで取得した値からパスを指定する –/
• プロパティ経由で次の値を取得 – 例)博物館→名称 – • プロパティ経由で前の値を取得 – 例)蝶が収蔵されている博物館 – [] • 言語タグなどのフィルター • TransformInput で変換も可能
Outputs
デフォルトは下記に出力 ユーザディレクトリ/.silk/outoput <Outputs> <Output type="file" minConfidence="0.95"> <Param name="file" value="accepted_links.nt" /> <Param name=“format” value=“ntriples” /> </Output> <Output type="file" maxConfidence="0.95"> <Param name="file" value="verify_links.nt" /> ntriplesかalignmentを指定 <Param name="format" value="alignment" /> </Output> </Outputs>
テストケース • 対象データ –
LODACの博物館情報(20万件) – LODACの生物情報 • 標本が収蔵されている博物館(120万件) • 処理数とかかった時間 – 20万かける120万=2400億回 – 11時間
処理スピードについて • 処理するサーバ次第 –
対象の件数が多いと幾何級数的に遅くなる場 合がある • OFFSETなどに時間がかかることが原因 例えば、こんなクエリを投げてい る SELECT DISTINCT ?a ?o WHERE { ?a <http://lod.ac/ns/species#scientificName> ?o . } OFFSET 54000 LIMIT 1000
Advertisement