Wissenstechnologie 2007 - VI

909 views
800 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
909
On SlideShare
0
From Embeds
0
Number of Embeds
14
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Wissenstechnologie 2007 - VI

  1. 1. Wissenstechnologie VU SPARQL, Triple Stores, Suche im Semantic Web, Microformats und RDFa Peter Scheir TU Graz & Know-Center http://kmi.tugraz.at http://www.know-center.at This work is licensed under the Creative Commons Attribution 2.0 Austria License. To view a copy of this license, visit http://creativecommons.org/licenses/by/2.0/at/.
  2. 2. Inhalt SPARQL Triple Stores Suche im Semantic Web Microformats und RDFa 2 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  3. 3. Semantic Web Stack SPARQL 3 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  4. 4. SPARQL SPARQL Query Language for RDF Abfragesprache für RDF Graphen Ähnlich zu SQL Kein INSERT, UPDATE, DELETE Entwicklung durch die RDF Data Access Working Group Derzeit Proposed Recommendation (12 November 2007) http://www.w3.org/TR/rdf-sparql-query/ http://thefigtrees.net/lee/sw/sparql-faq 4 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  5. 5. SPARQL - Beispiel Daten: http://example.org/book/book1 http://purl.org/dc/elements/1.1/title quot;SPARQL Tutorialquot; . Abfrage: SELECT ?title WHERE { <http://example.org/book/book1> <http://purl.org/dc/elements/1.1/title> ?title . } Ergebnis: title quot;SPARQL Tutorialquot; 5 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  6. 6. SPARQL - Beispiel Daten: @prefix foaf: <http://xmlns.com/foaf/0.1/> . _:a foaf:name quot;Johnny Lee Outlawquot; . _:a foaf:mbox <mailto:jlow@example.com> . _:b foaf:name quot;Peter Goodguyquot; . _:b foaf:mbox <mailto:peter@example.org> . Abfrage: PREFIX foaf: http://xmlns.com/foaf/0.1/ SELECT ?name ?mbox WHERE { ?x foaf:name ?name . ?x foaf:mbox ?mbox } Ergebnis: name mbox quot;Johnny Lee Outlawquot; mailto:jlow@example.com quot;Peter Goodguyquot; <mailto:peter@example.org> 6 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  7. 7. SPARQL Abfrage: PREFIX foaf: http://xmlns.com/foaf/0.1/ SELECT ?name ?mbox WHERE { ?x foaf:name ?name . ?x foaf:mbox ?mbox } Variablen durch ? gekennzeichnet Alle Statements werden zurückgegeben die auf Muster in WHERE passen Prefix um kürzere Queries schreiben zu können WHERE optional 7 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  8. 8. SPARQL Abfrage: PREFIX abc: http://example.com/exampleOntologie# SELECT ?capital ?country WHERE { ?x abc:cityname ?capital. ?y abc:countryname ?country. ?x abc:isCapitalOf ?y. ?y abc:isInContinent abc:europe. } Beispiel von: http://de.wikipedia.org/wiki/SPARQL Einfach Joins zu beschreiben (im Vergleich zu SQL) 8 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  9. 9. Was ist mit XPath? 9 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  10. 10. Inhalt SPARQL Triple Stores Suche im Semantic Web Microformats und RDFa 10 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  11. 11. Überblick Triple Stores RDF-Graph (S,P,O) author http://book.at/isbn123 http://fussball.de/G. Müller price title name 11 Ein Leben für die Tore €15 Gerd Müller http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  12. 12. Überblick Triple Stores Subjekt Prädikat Objekt http://book.at/isbn123 author http://fussball.de/G. Müller http://book.at/isbn123 price €15 http://book.at/isbn123 Title Ein Leben für die Tore http://fussball.de/G. Müller Name Gerd Müller author http://book.at/isbn123 http://fussball.de/G. Müller name price title 12 Gerd Müller Ein Leben für die Tore €15 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  13. 13. Überblick Triple Stores Abfrage: Titel der Bücher von Gerd Müller? Subjekt Prädikat Objekt http://book.at/isbn123 author http://fussball.de/G. Müller http://book.at/isbn123 price €15 http://book.at/isbn123 Title Ein Leben für die Tore http://fussball.de/G. Müller Name Gerd Müller 13 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  14. 14. Abbildung in relationalen Datenbanken Abbildung in Form von ein bis 6 Tabellen Darstellung in Form eines linearisierten Graphs Zentrale Tabelle: S,P,O Tabelle Verschiedene Indizes für Zugriff Mapping von SPARQL Anfragen auf eine Menge von SQL Anfragen 14 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  15. 15. Abbildung in relationalen Datenbanken Beispiel Sesame subject predicate object 1 2 3 1 4 5 1 7 8 Id value 1 http://book.at/isbn123 author 2 3 http://fussball.de/G. Müller 4 price 5 €15 15 7 Titel 8 Ein Leben für die Tore http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  16. 16. Abbildung in relationalen Datenbanken Einfache Repräsentation im RDBMS Unabhängig vom Schema Flexibilität Keine schemaspezifischen Anpassungen des DBMS Im Allgemeinen Generik vs. Leistungsfähigkeit 16 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  17. 17. Erhöhung der Leistungsfähigkeit Mapping des Schemas auf eine relationale Struktur Buch_ID Preis Titel http://book.at/isbn123 15 Ein Leben für die Tore Autor_ID Name http://fussball.de/G. Müller Gerd Müller Autor_ID Buch_ID 17 http://fussball.de/G. Müller http://book.at/isbn123 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  18. 18. Erhöhung der Leistungsfähigkeit Subject Property Materialized Views (Oracle) Buch_ID Autor Titel http://book.at/isbn123 http://fussball.de/G. Müller Ein Leben für die Tore 18 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  19. 19. Erhöhung der Leistungsfähigkeit „Echte“ native RDF Triple Stores Optimierung durch Verwendung spezialisierter Indizes (Self-Joint Optimierung) Indizierung verschiedener Kombinationen von S,P,O P,S,O O,P,S O,S,P S,O,P 19 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  20. 20. Tripel Stores Implementierungen Jena/Jena 2 Hewlett Packard Java Open Source Anbindung an gängige RDBMS SPARQL als Abfragesprache RDF/RDFS/OWL 20 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  21. 21. Tripel Stores Implementierungen Sesame Aduna Technologies Java Open Source Anbindung an gängige RDBMS Eigener native Store RDQL als Abfragesprache 21 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  22. 22. Tripel Stores Implementierungen Kowari Tucana Technologies „Native“ Triple Store RDQL als Abfragesprache Volltextsuche integriert Integrierbar mit Jena 22 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  23. 23. Tripel Stores Implementierungen 3Store University of Southhampton C Library kombiniert mit MySQL RDQL als Abfragesprache Anwendung in unterschiedlichen EU Projekten und kommerziellen Projekten 23 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  24. 24. Tripel Stores Implementierungen Oracle 10g Oracle Ergänzung der Oracle DB um „native“ Triple Store Kombination Triple Store Query mit SQL (teilw. SPARQL kompatibel) Kombinierbar mit anderen Oracle Modulen Erster Triple Store eines großen kommerziellen Anbieters 24 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  25. 25. Leistungsfähigkeit Open Source Portwin & Parvatikar (2006) Scaling Jena in a Commercial Environment: The Ingenta MetaStore Project Standardtestdatensatz Domäne Universitäten ~200 Millionen Triples (RDF), 11 Millionen Triples (OWL), 4.3 Millionen Dokumente Kowari: 1 Milliarde Triple Unoptimiert, 7 Millionen Triples Einfache Queries im Millisekundenbereich Inferenzen (RDFS/OWL) je nach Komplexität Sekunden bis Minutenbereich 25 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  26. 26. Leistungsfähigkeit Oracle BioMed Literatur Datenbank (UniProt Datensatz) 80 Millionen Triple ~5 GB RDF/XML Daten (~2,5 GB Triple; 1,7 GB Mapping; 4,8 GB Indizes) Queries im Millisekunden/Sekundenbereich Optimierungspotential Subject Property Materialized View ~30% 26 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  27. 27. Leistungsfähigkeit Zusammenfassung Trade-off Generik vs. Leistung/Skalierbarkeit Hohes Optimierungspotential: Optimierte Strukturen einfach aus generischer Struktur erzeugbar Hoher Einfluss des Schemas resp. der Domäne Nicht skalierbar auf Größe des Internets, jedoch skalierbar auf Unternehmensgröße Intelligente Kombination von Retrieval/Inferenz notwendig 27 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  28. 28. Inhalt SPARQL Triple Stores Suche im Semantic Web Microformats und RDFa 28 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  29. 29. Suche im Web derzeit Suche nach Dokumenten Information Retrieval Z.B. Suchmaschinen Dokumente und Anfrage werden auf Basis eines Modells repräsentiert und verglichen Unterschiedliche Modelle Bsp.: Vektorraummodell 29 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  30. 30. Vektorraummodell Repräsentation der Dokumente als Vektoren Vektor hat so viele Dimensionen wie Terme (Wörter) im System Wenn Wort in Dokument vorkommt ist Komponente in Vektor 1, sonst 0 (vereinfacht!) Anfrage wird ebenfalls als Vektor repräsentiert Winkel zwischen Vektoren sagt über deren Ähnlichkeit aus Ähnlichstes Dokument zu Anfrage wird als höchstes gereiht 30 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  31. 31. Vektorraummodell 31 [Granitzer 2006] http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  32. 32. Vektorraummodell Repräsentation der Dokumente als Vektoren Komponente in Termvektor = Anzahl des Wortes in Dokument Auch reelle Gewichtung der Terme in Vektoren Termfrequenz (term frequency, tf) Inverse Dokumentenhäufigkeit (inverse document frequency, idf) tfidf (tf*idf, tf/idf, tf-idf) 32 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  33. 33. Vektorraummodell Anfragevektor Dokumentvektor 33 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  34. 34. Vektorraummodell Skalarprodukt Kosinusmaß 34 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  35. 35. Vektorraummodell Kosinusmaß Normalisierung durch L2-Norm (Länge der Vektoren) Keine Bevorteilung von langem Dokument in denen viele, unterschiedliche Worte vorkommen Variationen dieser Maße mit verschiedenen Normalisierungen 35 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  36. 36. Vergleich mit Suche in wissensbasierten Systemen Vorweg: Es existieren Ausnahmen und Mischformen 36 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  37. 37. Art von Wiedergewonnenem Information Retrieval Unsicherheit, Vagheit Wissensbasierte Systeme Modelliertes Wissen ist wahr 37 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  38. 38. Speicherort Information Retrieval Datenbanken Dokumente auf File-Servern jetzt Web Wissensbasierte Systeme Wissensbasen (Datenbanken), Zukunft: Verteilte Wissensbasen im Web 38 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  39. 39. Abfragen Information Retrieval Oft eingeben von Suchtermen Meist Laien Wissensbasierte Systeme Formulierung von komplexeren Anfragen Meist Experten 39 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  40. 40. Ergebnisse Information Retrieval Gereiht nach der vermuteten Relevanz für den Suchenden Wissensbasierte Systeme Alle Ergebnisse sind Relevant 40 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  41. 41. Repräsentation Information Retrieval Unterschiedliche Modelle Dokumente und Anfrage werden auf Basis des Modells repräsentiert und verglichen Bsp.: Vektorraummodell Wissensbasierte Systeme Unterschiedliche Repräsentationsformen von Wissen Formulierung von Anfragen für Repräsentationsform 41 Bsp.: RDF, OWL und SPARQL http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  42. 42. Weiter Punkte? 42 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  43. 43. Inhalt SPARQL Triple Stores Suche im Semantic Web Microformats und RDFa 43 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  44. 44. Microformats Einbetten von semantischer Zusatzinformation in XHTML Seiten Lowercase semantic web add semantics to today's web rather than create a future web http://www.tantek.com/presentations/2004etech/realw orldsemanticspres.html 44 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  45. 45. Microformats - Nutzen Extrahieren von Daten aus menschenlesbaren Webseiten durch Programme (smart scraping) http://microformats.org/wiki/what-can-you-do-with- microformats Um z.B.: Adressen aus Webseite in Adressbuch zu übertragen Termin aus Webseite in Kalender zu übertragen Rezensionen aus unterschiedlichen Quellen zu aggregieren Verteiltes soziales Netzwerk aufzubauen 45 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  46. 46. Microformats - Beispiel Kontaktdaten: Peter Scheir TU Graz peter.scheir@TUGraz.at Inffeldgasse 21a Graz , 8010 AUSTRIA In HTML: <div>Peter Scheir</div> <div>TU Graz</div> <div><a href=quot;mailto:peter.scheir@TUGraz.atquot;>peter.scheir@ TUGraz.at</a></div> 46 <div>Inffeldgasse 21a</div> <div>Graz, 8010 AUSTRIA</div> http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  47. 47. Microformats - Beispiel Kontaktdaten: Peter Scheir TU Graz peter.scheir@TUGraz.at Inffeldgasse 21a Graz , 8010 AUSTRIA Als Microformat (hcard): <div id=quot;hcard-Peter-Scheirquot; class=quot;vcardquot;> <div class=quot;fnquot;>Peter Scheir</div> <div class=quot;orgquot;>TU Graz</div> <div><a class=quot;emailquot; href=quot;mailto:peter.scheir@TUGraz.atquot;>peter.scheir@TUGraz .at</a></div> <div class=quot;adrquot;> <div class=quot;street-addressquot;>Inffeldgasse 21a</div> <span class=quot;localityquot;>Graz</span> ,<span class=quot;postal-codequot;>8010</span> <span class=quot;country-namequot;>AUSTRIA</span> 47 </div></div> http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  48. 48. Microformats Verschiedene Microformats für verschieden Zwecke hCard: Kontaktdaten von Personen und Organisationen hCalendar: Kalendereinträge hReview: Bewertung XFN: Sozial Netzwerke rel-license: Lizenzen rel-tag: Tags, Schlüsselwörter, Kategorien … http://microformats.org/wiki/Main_Page 48 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  49. 49. Microformats the microformats principles solve a specific problem start as simple as possible design for humans first, machines second reuse building blocks from widely adopted standards modularity / embeddability enable and encourage decentralized development, content, services http://microformats.org/about/ 49 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  50. 50. Microformats - Anwendungen Microformat Suche mit Technorati http://kitchen.technorati.com/ Operator Firefox Add-On https://addons.mozilla.org/en- US/firefox/addon/4106 50 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  51. 51. RDFa Einbetten von semantischer Zusatzinformation in XHTML Seiten Einbetten von RDF in XHTML Seiten Reuse von RDF (Schema), OWL Vokabularien RDFa Primer W3C Working Draft 26 October 2007 http://www.w3.org/TR/xhtml-rdfa-primer/ RDFa in XHTML: Syntax and Processing Working Draft 18 October 2007 http://www.w3.org/TR/rdfa-syntax/ 51 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  52. 52. RDFa - Beispiel Kontaktdaten: Peter Scheir TU Graz peter.scheir@TUGraz.at Inffeldgasse 21a Graz , 8010 AUSTRIA In RDFa: <div xmlns:contact=quot;http://www.w3.org/2001/vcard-rdf/3.0#quot; about=quot;http://www.kmi.tugraz.at/staff/peterquot;> <div property=quot;contact:fnquot;>Peter Scheir</div> <div property=quot;contact:orgquot;>TU Graz</div> <div><a rel=quot;contact:emailquot; href=quot;mailto:peter.scheir@TUGraz.atquot;>peter.scheir@TUGraz.at< /a> </div> <div property=quot;contact:adrquot;> <div property=quot;contact:Streetquot;>Inffeldgasse 21a</div> <span property=quot;contact:Localityquot;>Graz</span> ,<span property=quot;contact:Pcodequot;>8010</span> 52 <span property=quot;contact:Countryquot;>AUSTRIA</span> </div></div> http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  53. 53. RDFa Verwendung von Namespaces Reuse von RDF (Schema), OWL Vokabularien Verwendete XHTML Attribute: @rel – Verbindung zwischen zwei Ressourcen (Prädikat) @rev – Umgekehrte Verbindung zwischen zwei Ressourcen (Prädikat) @href – Ziel Ressource einer Verbindung (Objekt) @src - Ziel Ressource einer Verbindung mit eingebetteter Ressource (Objekt) Zusätzliche XHTML Attribute von RDFa: @about – Die Ressource über die etwas ausgesagt wird (Subjekt) @property – Verbindung zwischen Subjekt und einem Literal (Prädikat) @resource – Ziel Ressource einer Verbindung – nicht klickbar (Objekt) @datatype – Datentyp eines Literals @content – maschinenlesbarer Inhalt eines Literals 53 @instanceof – Ressource ist Instanz von Klasse (Subjekt) http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  54. 54. Ende Danke für die Aufmerksamkeit Fragen / Kommentare? peter.scheir@tugraz.at 54 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at
  55. 55. License This work is licensed under the Creative Commons Attribution 2.0 Austria License. To view a copy of this license, visit http://creativecommons.org/licenses/by/2.0/at/. Contributors: Michael Granitzer Peter Scheir Klaus Tochtermann 55 http://kmi.tugraz.at November 2007 Wissenstechnologie @ kmi.tugraz.at

×