MULDER: Querying the Linked Data Web by Bridging RDF Molecule Templates

MULDER: Querying the Linked Data Web
by Bridging RDF Molecule Templates
Kemele M. Endris, Mikhail Galkin, I. Lytra, M. Mami, M.E. Vidal, Sören Auer
DEXA 2017 - August 28-31, 2017
Lyon, France

2
Geonames
Motivating Example
NYTimes SWDF
Federated Query Engine

3
SPARQL Query
#triples of Triple patterns in each Data Source
TP1
TP2
TP3
32,581
117,915
0
Geonames
TP1
TP2
TP3
31,763
0
1,761
NYTimes
TP1
TP2
TP3
319
1,112
0
SWDF
SELECT DISTINCT ?s
WHERE {
?s foaf:page ?page .
?s owl:sameAs ?same.
?s geo:inCountry ?inCountry
}
TP1
TP2
TP3
Motivating Example

4
SELECT DISTINCT ?s
WHERE {
}
TP1
Data Sources Selected by Federated Engines
ANAPSID SSGS ANAPSID SSGM
TP2
TP3
TP1
TP2
TP3
TP1
TP2
TP3
@SWDF, Geonames
@SWDF, Geonames, NYTimes
@NYTimes @NYTimes
@NYTimes
@SWDF
@SWDF, Geonames
Motivating Example

5
FedX ANAPSID SSGS ANAPSID SSGM
32,900
371
32,900
150,790
1,249
1,761 1,761
239.4 sec 0.338 sec 88.9 sec
20 0 19
Execution
time:
#Triples:
SELECT DISTINCT ?s
WHERE {
}
TP1
TP2
TP3
#Triples Found & Execution Time
Complete!
Motivating Example
TP1
TP2
TP2
TP3TP3
TP1

6
FedX ANAPSID SSGS ANAPSID SSGM
SWDF + Geonames SWDF SWDF + Geonames
SWDF + Geonames + NYTimes SWDF NYTimes
NYTimes NYTimes NYTimes
TP1
TP2
TP3
Data Sources Selected by Federated Engines
239.4 sec 0.338 sec 88.9 sec
20 0 19
Execution time:
#Triples:
● The best decomposition:
TP1 -----> Geonames
TP2 -----> NYTimes & Geonames
TP3 -----> NYTimes
Complete!
TP1
TP2
TP3
Motivating Example

7
Source Selection &
Decomposition
Query Planning
Query Execution
Query
Result
SPARQL
Query
Query Federation Basic Components
Source
Descriptions

8
● MULDER relies on RDF
molecule templates for
source selection, and query
decomposition and
optimization
MULDER: Architecture

9
• RDF Molecule Templates (RDF-MTs)
• describe the set of properties associated with same type of RDF Molecules
• RDF Molecule - a set of triples that share same subject
MULDER: Source Description Model
dbo:Fictional_
Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:City
owl:sameAs
dbo:birthplace
geo:Feature
geo:population
dbo:Person
dbo:occupation
dbo:series
dbo:portrayer
owl:sameAs

10
• RDF-MTs define a community of RDF molecules that share same
characteristics, e.g., having same rdf:type, or wikidata:P31
(instance of)
• RDF-MTs are defined in terms of:
• Web service API interfaces
• Type of Molecule
• Set of predicates
• Intra and inter links between RDF-MTs
RDF Molecule Templates

11
dbr:Fox_
Mulder
dbr:David_
Duchovny
dbr:FBI
dbr:X_Files
dbo:Fictional_
Character
dbo:Person
rdf:type
rdf:type
dbo:occupation
dbo:series
dbo:portrayer
DBpedia
RDF Molecule (1)

12
RDF Molecule Templates (RDF-MTs) (1)
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:Person
dbo:occupation
dbo:series
dbo:portrayer
dbr:Fox_
Mulder
dbr:David_
Duchovny
dbr:FBI
dbr:X_Files
dbo:Fictional_
Character
dbo:Person
rdf:type
rdf:type
dbo:occupation
dbo:series
dbo:portrayer
DBpedia

13
RDF Molecule (2)
DBpedia
owl:sameAs
rdf:type
dbr:Fox_
Mulder
dbr:David_
Duchovny
dbr:FBI
dbr:X_Files
dbo:Fictional_
Character
dbo:Person
rdf:type
rdf:type
dbo:occupation
dbo:series
dbo:portrayer
dbo:birthplace
dbr:New_York
_City
mdb:141
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:Person
dbo:occupation
dbo:series
dbo:portrayer

14
RDF-MTs (2)
DBpedia
owl:sameAs
rdf:type
dbr:Fox_
Mulder
dbr:David_
Duchovny
dbr:FBI
dbr:X_Files
dbo:Fictional_
Character
dbo:Person
rdf:type
rdf:type
dbo:occupation
dbo:series
dbo:portrayer
dbo:birthplace
dbr:New_York
_City
mdb:141
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:Person
dbo:occupation
dbo:series
dbo:portrayer
owl:sameAs dbo:birthplace

15
RDF Molecule (3)
dbr:Fox_
Mulder
dbr:David_
Duchovny
dbr:FBI
dbr:X_Files
dbo:Fictional_
Character
dbo:Person
rdf:type
rdf:type
dbo:occupation
dbo:series
dbo:portrayer
dbr:New_York
_Citydbo:City
dbo:birthplace
rdf:type
rdf:type
DBpedia
geo:5128581
owl:sameAs
owl:sameAs
mdb:141
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:Person
dbo:occupation
dbo:series
dbo:portrayer

16
RDF-MTs (3)
dbr:Fox_
Mulder
dbr:David_
Duchovny
dbr:FBI
dbr:X_Files
dbo:Fictional_
Character
dbo:Person
rdf:type
rdf:type
dbo:occupation
dbo:series
dbo:portrayer
dbr:New_York
_Citydbo:City
dbo:birthplace
rdf:type
rdf:type
DBpedia
geo:5128581
owl:sameAs
owl:sameAs
mdb:141
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:Person
dbo:occupation
dbo:series
dbo:portrayer
owl:sameAs
dbo:City

17
RDF Molecule (4)
geo:Feature
dbr:Fox_
Mulder
dbr:David_
Duchovny
dbr:FBI
dbr:X_Files
dbo:Fictional_
Character
dbo:Person
rdf:type
rdf:type
dbo:occupation
dbo:series
dbo:portrayer
dbr:New_York
_Citydbo:City
dbo:birthplace
rdf:type
rdf:type
DBpedia
Geonames
8175133
geo:population
rdf:type
geo:5128581
owl:sameAs
owl:sameAs
mdb:141
owl:sameAs
dbo:City
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:Person
dbo:occupation
dbo:series
dbo:portrayer

18
RDF-MTs (4)
owl:sameAs
geo:Feature
dbr:Fox_
Mulder
dbr:David_
Duchovny
dbr:FBI
dbr:X_Files
dbo:Fictional_
Character
dbo:Person
rdf:type
rdf:type
dbo:occupation
dbo:series
dbo:portrayer
dbr:New_York
_Citydbo:City
dbo:birthplace
rdf:type
rdf:type
DBpedia
Geonames
8175133
geo:population
rdf:type
geo:5128581
owl:sameAs
owl:sameAs
mdb:141
dbo:City
geo:Feature
geo:population
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:Person
dbo:occupation
dbo:series
dbo:portrayer

19
RDF-MTs: Intra and Inter Links
owl:sameAs
geo:Feature
dbr:Fox_
Mulder
dbr:David_
Duchovny
dbr:FBI
dbr:X_Files
dbo:Fictional_
Character
dbo:Person
rdf:type
rdf:type
dbo:occupation
dbo:series
dbo:portrayer
dbr:New_York
_Citydbo:City
dbo:birthplace
rdf:type
rdf:type
DBpedia
Geonames
8175133
geo:population
rdf:type
geo:5128581
owl:sameAs
owl:sameAs
mdb:141
dbo:City
geo:Feature
geo:population
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:Person
dbo:occupation
dbo:series
dbo:portrayer
owl:sameAs
dbo:portrayer
dbo:birthplace

20
• MULDER creates a query decomposition with service graph
patterns (SGPs) of star-shaped subqueries built according to
RDF-MTs
• Star-shaped subqueries (SSQs) are a set of triple patterns that share the
same subject (variable or constant)
• minimize execution time and maximize answer completeness by selecting
only relevant sources
MULDER: Decomposition & Source Selection

21
SELECT DISTINCT ?rper ?city ?ppl
WHERE {
?fc dbo:series dbr:X_Files .
?fc dbo:occupation ?occup .
?fc dbo:portrayer ?rper .
?rper owl:sameAs ?same .
?rper dbo:birthplace ?city .
?city owl:sameAs ?feat .
?feat geo:population ?ppl .
}
Query Decomposition

22
?rper
?fc
?occup
dbr:X_Files
SSQ1
WHERE {
}
t1
t2
t3
t4
t5
t6
t7
SSQ1
SSQ2
SSQ3
SSQ4
Star-shaped Subqueries (SSQs)

23
t1 t2
t3
t4
t5
t6 t7
dbo:portrayer
dbo:birthplace
owl:sameAs
WHERE {
}
t1
t2
t3
t4
t5
t6
t7
SSQ1
SSQ2
SSQ3
SSQ4
Joinable SSQs

24
Matching SSQs Vs RDF-MTs
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:City
owl:sameAs
dbo:birthplace
geo:Feature
geo:population
dbo:Person
dbo:occupation
dbo:seriesdbo:portrayer
owl:sameAs
t1 t2
t3
t4
t5
t6
t7
dbo:portrayer
dbo:birthplace
owl:sameAs
t1 t2
t3
dbo:portrayer
t6 owl:sameAs
?
dbo:Person
dbo:Person
dbo:Person
dbo:Fictional_
Character
dbo:City geo:Feature

25
Matching SSQs Vs RDF-MTs
dbo:Fictional
_Character
dbo:occupation
dbo:series
dbo:portrayer
dbo:City
owl:sameAs
dbo:birthplace
geo:Feature
geo:population
dbo:Person
dbo:occupation
dbo:seriesdbo:portrayer
owl:sameAs
t1 t2
t3
t4
t5
t6
t7
dbo:portrayer
dbo:birthplace
owl:sameAs
t1 t2
t3
dbo:portrayer
t6 owl:sameAs ?
dbo:Person
dbo:Person
dbo:Person
dbo:Fictional_
Character
dbo:City geo:Feature

26
• Sources associated to SSQs determined from RDF-MTs metadata
• An SSQ that matches more than one RDF-MT in the same dataset will be
decomposed to a single service endpoint
• An SSQ that have matching RDF-MTs from more than one dataset will be
decomposed to each service endpoint of datasets
Source Selection

27
t1 t2
t3
t4
t5
t6 t7
dbo:portrayer
dbo:birthplace
owl:sameAs
dbo:portrayer
Person@DBpedia
t1 t2
t3
Person@DBpedia
Fictional_Character@DBpedia
Feature@GeonamesCity@DBpedia
Source Selection

28
t4
t5
t6 t7
dbo:portrayer
dbo:birthplace
owl:sameAs
Person@DBpedia
Person/Fictional_Character@DBpedia
Feature@GeonamesCity@DBpedia
Source Selection
t1 t2
t3

29
• MULDER implements a greedy
heuristic based approach to
generate a bushy plan
• leaves correspond to SSQs
• number of joins between SSQs is
maximized while the plan height is
minimized
Query Planning
t1 t2
t3
t4
t5
t6
t7
DBpedia DBpedia GeonamesDBpedia
JOIN
JOIN
JOIN

30
• Research Questions:
RQ1) Do different source descriptions have impact on query
processing in terms of efficiency and effectiveness?
RQ2) Are RDF-MT based query processing techniques able to
enhance query execution time and completeness?
Experimental Study

31
• Metrics
• Execution time: elapsed time between the submission of a query to an
engine and the delivery of the answers (timeout: 300 sec)
• Cardinality: number of answers returned
• Completeness: query result percentage w.r.t answers from union of all
datasets
Experimental Setup

32
➢ Goal: assess query performance of MULDER utilizing different
source descriptions: RDF-Molecule, METIS, and SemEP based
source descriptions
• METIS and SemEP are community detection algorithms used for
graph partitioning
• METIS and SemEP based Molecule templates are composed of predicates
with similar co-occurrence values
• Each predicate is assigned to only one community
Experiment I

33
• BSBM1
: Berlin SPARQL Benchmark
• Builds around an e-commerce use case where a set of products is offered
by different vendors and consumers have posted reviews about products.
• supports the creation of arbitrarily large datasets
• Eight RDF classes
• Product, ProductType, ProductFeature, Vendor, Person, Review, Publisher, and Offer
• Data Generated:
• 200M triples
• Queries:
• 12 queries, with 20 query mixes
Experiment I: Benchmark
1. http://wifo5-03.informatik.uni-mannheim.de/bizer/berlinsparqlbenchmark/spec/

34
Results: Exp I
Performance of MULDER source descriptions
★ RDF-MT based source descriptions allow MULDER
to identify query decompositions and plans that
speed up query processing, while answer
completeness is not affected (RQ1)
○ RDF-MTs help MULDER reduce intermediate
results by selecting only relevant sources

35
➢ Goal: Compares MULDER with state of the art federated query
engines: FedX and ANAPSID
• FedX:
• Sends ASK queries to discover the structure of data sources at query time
• implements blocking join operators; i.e., results delivered after all data
received from sources
• ANAPSID:
• Sources described in terms of set of RDF properties in each data source
• source descriptions computed beforehand
• implements non-blocking operator; i.e., results delivered as soon as they
arrive from sources
Experiment II

36
• Setup I:
• Data: BSBM 200M triples
• Query: 12 queries, with 20 query mixes
• Setup II:
• Data: FedBench - 10 datasets, in two collections:
• Cross-domain: LinkedMDB, DBPedia, GeoNames, NYTimes, SWDF, Jamendo
• Life Science: Drugbank, DBpedia, KEGG, CheBI
• Query: 35 queries
• 25 FedBench queries, includes Cross Domain (CD), Linked Data (LD) and Life Science
(LS) queries
• 10 complex (C) queries over FedBench datasets (M. Vidal, et.al)
Experiment II: Benchmarks

37
FedBench: Connection between RDF-MTs

38
Results: Exp II-I
● Performance of MULDER compared to other
Federated Engines on synthetic dataset (BSBM)
● ANAPSID returns query answers fast but at the cost
of completeness,
● FedX is slower than MULDER and ANAPSID
★ MULDER better identify decomposition and plan
that minimizes execution time and answer
completeness by utilizing RDF-MTs, compared to
FedX and ANAPSID! (RQ2)

39
Results: Exp II-II
● Performance of MULDER compared to other Federated
Engines on FedBench dataset
○ Answer completeness and execution time
● Quadrants:
○ I and III: indicates bad performance and
incomplete results
○ II: (almost) complete but slower execution time
○ IV: indicates best execution time and (almost)
complete results
★ MULDER - RDF-MTs performs better in terms of
execution time and answer completeness
compared to FedX and ANAPSID! (RQ2)

40
• MULDER is a query engine for federated access to SPARQL
endpoints:
• uses RDF-MTs to describe data source interfaces
• RDF-MTs enable MULDER decomposition and planning methods to identify
efficient and effective query plans compared to METIS and SemeEP based
source descriptions (RQ1)
• MULDER significantly reduces query execution time and increases
answer completeness compared to FedX and ANAPSID, by selecting
relevant sources and creating best execution plan (RQ2)
Conclusion

41
• Integrate additional web access interfaces: such as TPFs and
RESTful APIs
• Empower RDF-MTs with additional information such as: link
selectivity, statistics, etc
Future Work

42
Thank you!!
Follow me @KemeleM
endris@cs.uni-bonn.de
kemele.endris@gmail.com
University of Bonn,
Fraunhofer IAIS
Germany
Full experimental data:
https://github.com/EIS-Bonn/MULDER

Thank you
for your attention!
wdaqua.eu
wdaqua.eu
43

MULDER: Querying the Linked Data Web by Bridging RDF Molecule Templates

Recommended

Recommended

More Related Content

What's hot

What's hot (13)

Similar to MULDER: Querying the Linked Data Web by Bridging RDF Molecule Templates

Similar to MULDER: Querying the Linked Data Web by Bridging RDF Molecule Templates (20)

Recently uploaded

Recently uploaded (20)

MULDER: Querying the Linked Data Web by Bridging RDF Molecule Templates