Iswc 2009 LarKC Tutorial: Architecture

1. LarKC Architecture and Technology Michael Witbrock, Cycorp Europe (+UIBK) with contributions from all LarKC developers

2. Realising the Architecture Workflow Support System Plug-in Manager Plug-in Registry Plug-in API Data Layer API RDF Store Data Layer 2

4. Non-functionalproperties

5. WSDL descriptionPlug-in Plug-in description + URI getIdentifier() + QoSInformationgetQoSInformation() Plug-ins are assembled into Workflows, to realise a LarKC Experiment or Application Plug-ins are identified by a URI (Uniform Resource Identifier) Plug-ins provide MetaData about what they do (Functional properties): e.g. type = Selecter Plug-ins provide information about their behaviour and needs, including Quality of Service information (Non-functional properties): e.g. Throughput, MinMemory, Cost,… Plug-ins can be provided with a Contract that tells them how to behave (e.g. Contract : “give me the next 10 results”) and Context information used to store state between invocations 3

7. Google – Keyword Query  Natural Language Document

8. Triple Store – SPARQL Query  RDF Graphs4

10. SPARQL Query  Keyword Query

11. SPARQL Query  SPARQL Query (different abstraction)

12. SQARQL Query  CycL Query5

14. Structured Data Sources  RDF Graph

15. RDF Graph  RDF Graph (e.g. foaf vocabulary to facebook vocabulary)6

16. LarKC Plug-in API: SELECT Selecter + SetOfStatements select(SetOfStatementstheSetOfStatements, Contract contract, Contextcontext) SELECT: Given a set of statements (e.g. a number of RDF Graphs) will choose a selection/sample from this set Collection of RDF Graphs  Triple Set (Merged) Collection of RDF Graphs  Triple Set (10% of each) Collection of RDF Graphs  Triple Set (N Triples) 7

17. LarKC Plug-in API: REASON Reasoner + VariableBindingsparqlSelect(SPARQLQuerytheQuery, SetOfStatementstheSetOfStatements, Contract contract, Context context) + SetOfStatementssparqlConstruct(SPARQLQuerytheQuery, SetOfStatementstheSetOfStatements, Contract contract, Context context) + SetOfStatementssparqlDescribe(SPARQLQuerytheQuery, SetOfStatementstheSetOfStatements, Contract contract, Context context) + BooleanInformationSetsparqlAsk(SPARQLQuerytheQuery, SetOfStatementstheSetOfStatements, Contract contract, Context context) REASON: Executes a query against the supplied set of statements SPARQL Query  Variable Binding (Select) SPARQL Query  Set of statements (Construct) SPARQL Query  Set of statements (Describe) SPARQL Query  Boolean (Ask) 8

18. LarKC Plug-in API: DECIDE Decider + VariableBindingsparqlSelect(SPARQLQuerytheQuery, QoSParameterstheQoSParameters) + SetOfStatementssparqlConstruct(SPARQLQuerytheQuery, QoSParameterstheQoSParameters) + SetOfStatementssparqlDescribe(SPARQLQuerytheQuery, QoSParameterstheQoSParameters) + BooleanInformationSetsparqlAsk(SPARQLQuerytheQuery, QoSParameterstheQoSParameters) DECIDE: Builds the workflow and manages the control flow Scripted Decider: Predefined workflow is built and executed Self-configuring Decider: Uses plug-in descriptions (functional and non-functional properties) to build the workflow 9

20. Previous early adopters workshop @ ESWC

21. 20 people attended

22. participants modified plug-ins, modified workflowsStandard Open Environment: subversion connection, command line build, or eclipse, netbeans soon? Plug-in API Decider Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in API Plug-in API Plug-in API Plug-in API Plug-in API Selecter Query Transformer Identifier Reasoner Info. Set Transformer Plug-in Registry Pipeline Support System 10

24. Plug-in API enables interoperability (between plug-in and platform and between plug-ins)

25. Plug-ins I/O abstract data structures of RDF triples => flexibility for assembling plug-ins and for plug-in writers

26. Compatibility ensured by DECIDER and workflow configurators, based on plug-in description+ Collection<InformationSet> identify (Query theQuery, Contract contract, Context context) + Set<Query> transform(Query theQuery, Contract theContract, Context theContext) + InformationSet transform(InformationSet theInformationSet, Contract theContract, Context theContext) + SetOfStatements select(SetOfStatements theSetOfStatements, Contract contract, Context context)

27. LarKC Architecture Application Plug-in API Decider Pipeline Support System Plug-in Registry Plug-in API Platform Utility Functionality Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager APIs Plug-in API Plug-in API Plug-in API Plug-in API Plug-in API Plug-ins Query Transformer Identifier Selecter Reasoner Info. Set Transformer Plug-in API Plug-in API Plug-in API Plug-in API Plug-in API External systems External data sources Data Layer API Data Layer RDF Store RDF Store RDF Store RDF Doc RDF Doc RDF Doc LarKC Plug-in API 12

28. Plug-in API Decider Decider Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in API Plug-in API Plug-in API Plug-in API Plug-in API Selecter Query Transformer Identifier Reasoner Info. Set Transformer Info Set Transformer Identifier Selecter Query Transformer Reasoner Plug-in Registry Workflow Support System RDF Store What does a workflow look like? 13

29. What Does a Workflow Look Like? Plug-in API Default Graph Decider Decider RDF Graph RDF Graph Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager RDF Graph RDF Graph RDF Graph Plug-in API Plug-in API Plug-in API Plug-in API Plug-in API Selecter Query Transformer Identifier Reasoner Info. Set Transformer RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph Info Set Transformer Identifier Selecter Query Transformer Reasoner Plug-in Registry Workflow Support System RDF Graph RDF Graph Data Layer Data Layer Data Layer Data Layer RDF Store RDF Graph 14

30. LarKC Data Model :Transport By Reference Labeled Set: Pointers to data Dataset: Collection of named graphs Default Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph Current Scale: O(1010) triples 15

31. What Does a Workflow Look Like? Plug-in API Default Graph Decider Decider RDF Graph RDF Graph Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager RDF Graph RDF Graph RDF Graph Plug-in API Plug-in API Plug-in API Plug-in API Plug-in API Selecter Query Transformer Identifier Reasoner Info. Set Transformer RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph Info Set Transformer Identifier Selecter Query Transformer Reasoner Plug-in Registry Workflow Support System RDF Graph RDF Graph Data Layer Data Layer Data Layer Data Layer RDF Store RDF Graph 16

32. What Does a Pipeline Look Like? Plug-in API Decider Decider Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Info Set Transformer Identifier Plug-in API Plug-in API Plug-in API Plug-in API Plug-in API Selecter Query Transformer Identifier Reasoner Info. Set Transformer Identifier Info Set Transformer Identifier Selecter Query Transformer Reasoner Plug-in Registry Wlorkflow Support System Data Layer Data Layer Data Layer Data Layer RDF Store 17

33. Remote and Heterogeneous Plug-ins Remote Plug-in Manager TRANSFORM TRANSFORM IDENTIFY IDENTIFY Adaptor SPARQL- GATE API SPARQL SPARQL-CycL SPARQL External or non-Java Code Research Cyc GATE Data Layer SINDICE Medical Data 18

34. What Does a Workflow Look Like? Plug-in API Decider Decider Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Reasoner Info Set Transformer Identifier Plug-in API Plug-in API Plug-in API Plug-in API Plug-in API Selecter Query Transformer Identifier Reasoner Info. Set Transformer Info Set Transformer Identifier Info Set Transformer Identifier Selecter Query Transformer Reasoner Plug-in Registry Workflow Support System Data Layer Data Layer Data Layer Data Layer RDF Store 19

36. Non-functional (e.g. QoS)

38. Describes Inputs/Outputs

39. Automatically extracted using API

40. Decider can use for dynamic configuration

41. Rule-based

42. FastA B S R S R VB VB 20

44. Run in separate threads

45. Automatically add meta-data to registry when loaded

47. Application Plug-in API Decider Pipeline Support System Plug-in Registry Platform Utility Functionality Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager Plug-in Manager APIs Plug-in API Plug-in API Plug-in API Plug-in API Plug-in API Plug-ins Query Transformer Identifier Selecter Reasoner Info. Set Transformer Data Layer API Data Layer RDF Store RDF Store RDF Store RDF Doc RDF Doc RDF Doc LarKC Data Layer 22 External systems Data Layer API External data sources Data Layer

48. LarKC Data Layer 23 Main goal: The LarKC Data Layer supports all LarKC plug-ins with respect to: storage, retrieval and light-weight inference on top of large volumes of data automates the exchange of RDF data by reference and by value offers other utility tools to manage data (e.g. merger) Labeled Set Default Graph Dataset RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph RDF Graph

49. The implementation of the data layer was evaluated against Well-known benchmarks: LUBM (Lehigh Univ. Benchmark) and BSBM (Berlin SPARQL Benchmark), and Two views to the web of linked data used in LarKC: PIKB (Pathway and Interaction Knowledge Base) and LDSR (Linked Data Semantic Repository) Loading: 15B statements at 18 KSt/sec. on $10,000 server 1B statements at 66 KSt/sec. on $2,000 desktop Reasoning & Materialization: LUBM: 21 KSt/sec for 1BSt and 10 KSt/sec for 7B expl. statements LDSR: 14 KSt/sec for 357M expl. statements PIKB: 10 KSt/sec for 1.5B expl. Statements Competitive with State of the Art 24 LarKC Data Layer Performance

50. 25 LarKC Data Layer Evaluation: Loading

51. Inference with both LDSR and PIKB prove to be much more complex than LUBM, because The datasets are much better interconnected There are plenty of owl:sameAs links OWL vocabulary is used disregarding its formal semantics E.g. in DBPedia there are skos:broader cycles of categories with length 180 Optimizations of the handling of owl:sameAs are crucial PIKB: 1.47B explicit statements + 842M inferred LDSR loaded in 7 hours on desktop: Number of imported statements (NIS): 357M Number of new inferred statements: 512M Number of stored statements (NSS): 869M Number of retrievable statements (NRS): 1.14B owl:sameAs optimisation allowed reducing the indices by 280M statements 26 LarKC Data Layer Evaluation: Linked Data

53. In the twenties of plug-ins already

54. Plug-ins written with little help from architects

55. Plug-ins run successfully, and perform together

56. Outside plugin-writers:

57. OKKAM, NeOn, AberdeenPlug-in Manager Plug-in API Identifier 27

58. Active and Ready for the Public 2170 check-outs 1380 commits 23 users of code repository LarKC + Alpha Plus Early Adopters Workshop branch 20 downloads of alpha 1 public release since 30th May 2009. 28

59. Lessons Learned (1/2) API Design Types of Plug-ins: 5 (+1 => 2 types of TRANSFORM) I/O data structures more abstract => more flexibility for assembling plug-ins and for plug-in writers Test API Implementation Validation and refinement of API (introduction of ‘Contract’ and ‘Context’ parameters) Transforming Cyc into LarKC Platform Minimization and reorganization of Cyc code as a basis for the LarKC Platform Plug-ins and Use cases implementation Feedback collected, as our first early adopters, on different topics (how-to guidelines, context parameter, plug-ins types, data caching,…) 29

60. Lessons Learned (2/2) Licensing: Licensing policies aligned with partners’ and project’s interests => maximize openess and external contributions without preventing from exploitation Components’ licenses monitoring to avoid conflicts MaRVIN and IBIS: strategy applicable to large-scale deployment, autonomous and symmetric nodes, asynchronous communication between nodes, well-balanced load needed abstraction layer hiding resources heterogeneity (IBIS) 30

61. Project Timeline 42 0 6 18 33 10 Use Cases V2 Use Cases V3 Use Cases V1 Plug-ins Surveys (plug-ins, platform) & Requirements (use cases) Offer computing resources Monitoring & instrumentation Anytime behaviour Prototype Internal Release Public Release Final Release Data caching 14 31

63. Extend meta-data representation for QoS, parallelism and use it.

64. Concentrate on parallel and distributed execution.

65. Concentrate on parallel and distributed data layer; caching and data migration.

66. Support more plug-in needs while maintaining platform integrity (e.g. efficient weight modification for spreading activation)

68. Initial Project Objectives (DoW)

69. LarKC Collider Platform (WP5 discussions)

70. LarKC Rapid Prototyping

71. LarKC Use Cases (WP6, WP7a, WP7b)

73. Resources

74. Heterogeneity

75. Usage

76. Interoperability

77. Parallelization “within plug-ins”

78. Distributed/remote execution

79. Data Layer

80. Data Caching

81. Anytime Behaviour

82. Plug-in Registration and Discovery

83. Plug-in Monitoring and Measurement

84. Support for Developers

86. Support anytime/streaming

87. Experimental instrumentation and monitoringData Layer RDF Store RDF Store RDF Store RDF Doc RDF Doc RDF Doc 32

89. Architecture refinementEarly Adopters

90. fin

Iswc 2009 LarKC Tutorial: Architecture

Recommended

Recommended

More Related Content

What's hot

What's hot (6)

Viewers also liked

Viewers also liked (6)

Similar to Iswc 2009 LarKC Tutorial: Architecture

Similar to Iswc 2009 LarKC Tutorial: Architecture (20)

Recently uploaded

Recently uploaded (20)

Iswc 2009 LarKC Tutorial: Architecture

Editor's Notes