13 - Semantic Search - Semantic Web Technologien WS 2011/12

912 views
827 views

Published on

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
912
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
76
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

13 - Semantic Search - Semantic Web Technologien WS 2011/12

  1. 1. Semantic Web Technologien Vorlesung Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2011/12 Blog zur Vorlesung: http://wwwsoup2011.blogspot.com/Mittwoch, 25. Januar 12
  2. 2. icSemantic Web TechnologienWiederholung n t m a S e s2 & i o n t a a t D a i c e d p l n k A p L i eb W Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  3. 3. Semantic Web Technologien Vorlesungsinhalt3 1. Einführung 2. Semantic Web Basisarchitektur Die Sprachen des Semantic Web - Teil 1 3. Wissensrepräsentation und Logik Die Sprachen des Semantic Web - Teil 2 4. Semantic Web Anwendungen Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  4. 4. 4 t i c a n S e m c h a r S eAlbrecht Dürer: Melancholia I, 1514 Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  5. 5. Semantic Web Technologien Vorlesungsinhalt 4. Semantic Web Anwendungen 4.1.Ontological Engineering 4.2.Linked Data Engineering 4.3.Semantic Search 4.4.Aktuelle Projekte: Yovisto, mediaglobe und Semantic Media Explorer Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  6. 6. 6 4.3 Semantische Suche 4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval 4.3.3 Semantische Analyse und Retrieval 4.3.4 Explorative Suche Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  7. 7. 7 Das ,Google-Dilemma‘ Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  8. 8. 8 Das ,Google-Dilemma‘ Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  9. 9. 9 chteten) E rgebnisliste wi n (nach R elevanz ge e ng einer linear • Erzeugu k • TFIDF / PageRan e) gd atenanalys li sierung (Lo • Persona le Ergebnisse • multimoda F •acetierung Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  10. 10. Klassisches Information Retrieval10 Information requests files of records Menge von Dokumenten Menge von Anfragen similarity Anfrage- Indexierung formulierung Indexierungssprache (nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983) Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  11. 11. Klassisches Information Retrieval similarity information Anfrage- Indexierung files of records11 requests formulierung Menge von Anfragen Indexierungs- Menge von Dokumenten sprache “Information-Retrieval Systeme • verarbeiten Dateien mit Informationsressourcen und Informationsanfragen, • identifizieren und liefern aus diesen Dateien bestimmte Informationsressourcen als Antwort auf eine Informationsanfrage. • Das Finden (Retrieval) bestimmter Ressourcen hängt von der Ähnlichkeit der Ressourcen und den Anfragen ab, gemessen am Vergleich bestimmter Attributwerte.” (nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983) Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  12. 12. Klassisches Information Retrieval (vereinfachte Variante....) Menge von Dokumenten12 „Suchen“ SUCHEN, vb. , in allen ger n ? sprachen bezeugt: got.sokjan, ags. sēcan, as. sokian, an. Soekj Suchterm(e) Schlüsselwörter [Bd. 20, Sp. 835] sēza, ahd. suohhan. aus idg. sprachen steht am nächsten lat. sāgiospüre, air. saigim gehe Suchanfrage einer sache nach, suche; zur weiteren verwandtschaft vgl. Walde-Pokorny 2, 449. der umlaut des stammvokals erscheint im nd., er wird im md. verzeichnet vonCrecelius oberhess. wb. 827; Spiess henneb. id. 248; Hertel Thüringen240; Gerbet Vogtland 425 und auf kolonialem boden bei Schröerdeutsche mundarten des ungrischen berglandes 225. neben eigentlichem suchen einer sache Suchindex nachspüren, sich bemühen, sie aufzufinden (dann auch jemanden aufsuchen, ihn bedrohen, angreifen) steht eine reich bezeugte bedeutungsgruppe mehr Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  13. 13. Klassisches Information Retrieval Information13 beruht auf Retrieval mit dem Ziel Analyse/Modellierung der im Objektbereich Bereitstellen festgelegten von Wissensobjekte Informationen durch Anwendung von durch Anwendung von Suchfunktionen Verfahren der und Wissensrekonstruktion Navigationsformen Informations- Retrieval aufbereitung Interne Wissens- Ergebnisse abgelegt als repräsentationen operieren über Allgemeines Modell des Information Retrieval nach [Kuhlen 1995] Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  14. 14. Klassisches Information Retrieval14 Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, Advances in Information Systems and Management Science, Bd. 10, Logos Verlag, Berlin, 2004. Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  15. 15. Information Retrieval Modelle • Boolean Retrieval15 • Vector Space Model A B • Probabilistic Model C (A ∧ ¬B) ∧ C • verwendet Aussagenlogik als Retrievalsprache • erlaubt Selektion und Verknüpfung beliebiger Dokumentenmengen aus einer einer Dokumentenkollektion • mit Hilfe Boolescher Junktoren (Suchoperatoren) • einfache Implementierung • keine differenzierte Termgewichtung möglich • keine Rangreihenfolge der Ergebnisse (Ranking) Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  16. 16. Information Retrieval Modelle • Boolean Retrieval Bsp.: n = 316 • Vector Space Model Deskriptor2 Dokument = (2,4,2) Suchabfrage = (1,0,0) • Probabilistic Model 4 •Dokumente und Anfragen werden als Punkte Dokument in einem hochdimensionalen, metrischen Vektorraum repräsentiert •Zum Retrieval wird die Distanz zwischen Suchanfrage- und Dokumentenvektor ρ Suchanfrage verwendet •Relevanzbewertung (Ranking) erfolgt nach 2 Deskriptor1 der ermittelten Distanz 2 •Differenzierte Termgewichtung möglich •lineare Termanordnung im Dokument geht Deskriptor3 verloren •mangelnde semantische Sensitivität (Vokabularabhängigkeit) Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  17. 17. Information Retrieval Modelle • Boolean Retrieval17 • Vector Space Model • Probabilistic Model • Dokumente werden gemäß der Wahrscheinlichkeit ihrer Relevanz bzgl. der Anfrage gewichtet • IR-System schätzt die Wahrscheinlichkeit der Relevanz bzgl. einer Anfrage ab Robertson, S. E., Sparck Jones, K.: Relevance weighting of search terms. In Document Retrieval Systems, P. Willett, Ed. Taylor Graham Series In Foundations Of Information Science, vol. 3. Taylor Graham Publishing, London, UK, 143-160, 1988. Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  18. 18. Probabilistic Retrieval Modelle18 Termgewichtungen für Terme ti bzgl. Suchanfrage Für neues Dokument dm kann Relevanz bzgl. Suchanfrage mit Hilfe der Termgewichte bestimmt werden Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  19. 19. Evaluation von Information Retrieval Systemen relevante Dokumente, die gefunden wurden19 |R∩P| Recall= |R| |R∩P| Precision= P |P| R (1+α)⋅(Recall ⋅ Precision ) Fα= α⋅(Recall + Precision ) relevante Dokumente gefundene Dokumente Recall: Anteil der korrekt als positiv klassifizierten Dokumente an der Gesamtheit aller positiven Dokumente (Trefferquote) Precision: Anteil der korrekt als positiv klassifizierten Dokumente an der Gesamtheit der als positiv klassifizierten Dokumente (Genauigkeit) F-Measure: gewichtetes harmonisches Mittel aus Trefferquote und Genauigkeit Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  20. 20. Suchmaschinen im WWW20 • World Wide Web ist ein verteiltes Hypermediasystem • multimediale Dokumente • über Hyperlinks miteinander vernetzt • WWW-Suchmaschinen sind Information Retrieval Systeme mit folgenden Aufgaben • Erstellung und Pflege eines Indexes (Web Crawler + Indexing) • Verarbeitung von Suchabfragen (Retrieval + Ranking) • Aufbereitung der Ergebnisse (Visualisierung) Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  21. 21. Web-Crawler (Web Robot)21 HTTP Request WWW-Server 2 4 http://www.xxxx.de/1234... http://www.xxxx.de/2234... http://www.xxxx.de/3234... http://www.xxxx.de/4234... <a href=“...“ .../> http://www.xxxx.de/5234... 1 http://www.xxxx.de/6234... http://www.xxxx.de/7234... <a href=“...“ .../> ... WWW-Server liefert angefragte HTML-Dokumente an den 3 Web-Crawler zurück HTML URL Liste Dokumente Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  22. 22. Suchmaschinen im WWW Preprocessing und Indexierung22 Datennormalisierung Wortidentifikation Sprachidentifikation Datenanalyse und Anlegen Word Stemming der Index- Datenstrukturen POS-Tagging Deskriptorengenerierung Web Crawler Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  23. 23. Suchmaschinen im WWW Effiziente Indexdatenstrukturen Ananas23 DocID Pos Frequenz Gewicht D123 1;13;77;132 4 9.4 D456 22;38 2 6.7 Aachen … … … … D998 15 1 1.2 Altavista Ananas Invertierte Datei … … Zustand Location List D123 Zypern Frequenz URL <H1> … <H6> <title> … text 4 1 1 0 1 … 1 Indexdatei D123 http://producers.ananas.org/index.htm <html> <head><title=“Ananas around the World“> </head> <body> … </body> </html> Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam Direkte DateiMittwoch, 25. Januar 12
  24. 24. Suchmaschinen im WWW Relevanzbewertung (Ranking)24 • Linkpopularität (Google PageRank) resultierender Ausgangssituation Iteration der PageRank Berechnung PageRank A B A B Nr. PR(A) PR(B) PR(C) PR(D) 1.0 1.0 1 1,0 1,0 1,0 1,0 1.49 0,78 2 1,0 0,575 2,275 0,15 3 2,083 0,575 1,191 0,15 2 … … … … … 1.0 1.0 1.57 0,15 n 1,49 0,7833 1,577 0,15 C D C D Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  25. 25. Aber...Das WWW ist ziemlich groß •ca. 25 x 109 in Suchmaschinen indizierte25 Dokumente (TNL Blog: Google has 24 billion items index, considers MSN search nearest competitor, September 2005) •Web Crawler: > 1012 Dokumente (The Official Google Blog: We knew the Web was Big....., Juli 25, 2008) •Google Search Index Caffeine umfasst ca.100 Million Gigabytes i.e. 1017 Byte (SMX Video: Google’s Matt Cutts On Caffeine Launch, June 9, 2010, http://searchengineland.com/smx-video-googles-matt-cutts-on-caffeine- launch-43933) •DeepWeb (Darkweb) schätzungsweise bis zu 550 mal größer als das Surface Web (Bergman, 2001) Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  26. 26. und damit nicht genug...26 Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  27. 27. Problemfeld Informationssuche27 Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  28. 28. Problemfeld Informationsextraktion28 Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  29. 29. 29 4.3 Semantische Suche 4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval 4.3.3 Semantische Analyse und Retrieval 4.3.4 Explorative Suche Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  30. 30. 30 Google und Multimediasuche Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  31. 31. 31 How does Google find Multimedia? Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  32. 32. Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  33. 33. How does Google find Multimedia? ... <a href="/mission_pages/shuttle/shuttlemissions/sts134/ multimedia/index.html"> <IMG WIDTH="100" ALT="Close-up view of Endeavours crew cabin prior to docking with the International Space Station" TITLE="Close-up view of Endeavours crew cabin prior to docking with the International Space Station" SRC="/images/ content/549665main_2011-05-18_1600_100-75.jpg" HEIGHT="75" ALIGN="Bottom" BORDER="0" /> </a> <p><a href="/mission_pages/shuttle/shuttlemissions/sts134/ multimedia/index.html">&rsaquo;&nbsp;STS-134 Multimedia</a></ p> ... ‣Google Multimedia Search relies on link context Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  34. 34. Google Image Search makes use of visual similarity Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  35. 35. How to Search in Multimedia Archives? Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  36. 36. How to Search inMultimedia Archives? Step 1: Digitalization of analog data Step 2: Annotation with (text based) metadata Step 3: Content based search on textual metadata Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  37. 37. How to Search inMultimedia Archives?• manual annotation with text based descriptive metadata ...how to extract metadata in an automated way? Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  38. 38. Automated Audiovisual Analysis Visual Concept Analysis Classification: Face Studio Indoor Detection Person Identification overlay News Show Tracking Logo Clustering Detection text scene text Audio-Mining structural Automated speaker analysis Speech identification Recognition Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  39. 39. Automated Audiovisual Analysis • Result: Multimedia data with spatiotemporal Annotations time Metadata (e.g. MPEG-7) ... <Video> <TemporalDecomposition> <VideoSegment> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <MediaTime> <MediaTimePoint> T00:05:05:0F25 </MediaTimePoint> <MediaDuration> PT00H00M31S0N25F </MediaDuration> </MediaTime> ... </VideoSegment> </TemporalDecomposition> </Video> ... Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  40. 40. Automated Audiovisual Analysis • Result: Multimedia data with spatiotemporal Annotations Metadata (e.g. MPEG-7) ... <SpatialDecomposition> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <SpatialMask> <SubRegion> <Polygon> <Coords> 480 150 620 480 </Coords> </Polygon> </SubRegion> </SpatialMask> ... </SpatialDecomposition> ... Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  41. 41. Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  42. 42. ... <SpatialDecomposition> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <SpatialMask> <SubRegion> <Polygon> <Coords> 480 150 620 480 </Coords> </Polygon> </SubRegion> </SpatialMask> ... </SpatialDecomposition> ... But wha t about semantic metadata .. ? Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  43. 43. 24 24 24 24 24 24 24 4 24 24 24 243 4.3 Semantische Suche 4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval 4.3.3 Semantische Analyse und Retrieval 4.3.4 Explorative Suche Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  44. 44. Semantische Suche Begriffsbestimmung44 • Verknüpfung von (textuellen) Metadaten mit semantischen 2 4Entitäten 24 424 2 • Entitätenzentriertes Information Retrieval • Ausnutzung von semantischen Relationen, wie z.B. inhaltliche Ähnlichkeiten bzw. Verwandschaften • Interoperable Metadaten durch Semantik • zur inhaltlichen Beschreibung • zur struturellen/technischen Beschreibung (Multimedia Ontologien) • Ziel: quantitative und qualitative Verbesserung der im Information Retrieval erzielten Suchergebnisse Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  45. 45. Semantische Metadaten Multimedia Ontologien • MPEG-7 has been re-engineered to become an OWL-DL45 ontology (2007: Arndt et al., COMM model) 24 24 424 2 • Localize a region → Draw a bounding box • Annotate the content → Interpret the content → Tag ,Astronaut‘ Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  46. 46. Semantische Metadaten Multimedia Ontologien Example: Tagging with an MPEG-7 Ontology46 24 24 424 2 Reg1 mpeg7:StillRegion rdf:type decom position Reg1 mpeg7 :spatial_ mpeg7:image mpeg7:SpatialMask mpeg7:depicts mpeg7:depicts mpeg7:polygon dbpedia:Astronaut mpeg7:Coords Man on the Moon Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  47. 47. Named Entity Recognition47 24 24 424 Neil Armstrong 2 Entities is a is a Classes Astronaut Person Named Entity Recognition „locating and classifying atomic elements...into is a predefined categories such as names, persons, organizations, locations, expressions of time, quantities, monetary values, etc.“ Science Occupation C.J.Rijsbergen, Information Retrieval (1979) is a Employment Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  48. 48. Named Entity Recognition48 Neil Armstrong is a is a Astronaut Person is a Science Occupation is a Employment Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  49. 49. Semantic Multimedia Retrieval49 24 24 424 2 Video Analysis / time Metadata Extraction metadata metadata metadata metadata Entity Recognition/ metadata Mapping e.g., person xy location yz event abc e.g., bibliographical data, geographical data, encyclopedic data, .. Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  50. 50. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text50 24 24 424 Entity Mapping Neil Armstrong 2 is a is a Astronaut Person is a Science Occupation is a Employment Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  51. 51. Named Entity Recognition Text51 rdfs:label Neil Armstrong Neil Armstrong is a is a rdf:type dbpedia-owl:Astronaut Astronaut Person is a rdf:type foaf:Person Science Occupation is a Employment Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  52. 52. Named Entity Recognition Text52 24 Text 24 „Armstrong betrat als erster Mensch den Mond.“ 424 2 Entity Mapping http://dbpedia.org/resource/Neil_Armstrong Aber wie finde ich die passende Entität ? Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  53. 53. Aber wie find Named Entity Recognition e ich die passende Enti tät Text ?53 24 Text 24 „Armstrong betrat als erster Mensch den Mond.“ 424 2 Determine possible Entity Mapping Candidates Armstrong Tools Anton Armstrong Armstrong, Ontario Armstrong (Automobile) Armstrong, Florida Edward Armstrong Armstrong (Mondkrater) Gary Armstrong Armstrong County, Texas George Armstrong The Armstrongs Ian Armstrong Armstrong Tunnel The Armstrong Twins Craig Armstrong Louis Armstrong + 200 mehr... Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  54. 54. Aber wie find Named Entity Recognition e ich die passende Enti tät Text ?54 24 Text 24 „Armstrong betrat als erster Mensch den Mond.“ 424 2 Determine possible Entity Mapping Candidates Flagge We have to examine the Context... Weltraum Mond Mondfähre „Eagle“ Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  55. 55. Text55 Der Kontext (lat. contextus = verflochten) wird durch das Umfeld eines Wortes bzw. Begriffes und dessen Zusammenhang mit umgebenden Worten bzw. Begriffen gebildet und legt dessen Bedeutung (Semantik) fest. Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  56. 56. Named Entity Recognition Text56 24 „Armstrong betrat als erster Mensch den Mond.“ Text 24 424 2 Determine Named Entities from Text Armstrong Mensch Create all possible Sets of Mapping Candidates Mond Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  57. 57. Named Entity Recognition Text „Armstrong betrat als erster Mensch den Mond.“ Text57 24 24 424 2 Create all possible Sets of Mapping Candidates Armstrong Mensch Mond George Armstrong Custer Human Neil Armstrong Bill Mensch MOND The Armstrong Twins Bob Mensch Der Mond (Oper) Armstrong, Florida Craig Armstrong David Mensch Mond Nickel Company Brunner Mond Armstrong, Ontario Homer Mensch Alfred Mond Armstrong (Mondkrater) Bernard Mond Sir Thomas Armstrong Louise Mensch Chava Mond Armstrong Gun Peter Mond Henry Mond Armstrong‘s Theorem Mensch (album) Halber Mensch Louis Armstrong Julian Mond Louis Armstrong International Airport Mensch ärgere Dich nicht Armstrong County, Texass Mensch Computer Ludwig Mond Robert Mond Joe Armstrong Peter van Mensch Ian Armstrong Violet Mond Daniel Mensch MOND Technologies Armstrong Tunnel Armstrong Automobile Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  58. 58. Named Entity Recognition (1) Co-occurence Analysis58 (2) Semantic Analysis 24 (3) Machine Learning 24 424 2 Armstrong Mensch Mond Armstrong, Florida Mensch (Album) MOND Technologies ‣ For all possible Combinations do: ‣ Determine the probability of the co-occurence of a term combination in an arbitrary text document corpus ‣ Select the combination with the maximum probability Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  59. 59. Named Entity Recognition (1) Co-occurence Analysis59 (2) Semantic Analysis 24 (3) Machine Learning 24 424 2 Armstrong Mensch Mond George Armstrong Custer Human Mond (Erdtrabant) Neil Armstrong Bob Mensch Der Mond (Oper) Louis Armstrong Craig Armstrong David Mensch Mond Nickel Company Armstrong, Florida Brunner Mond Armstrong, Ontario Homer Mensch Alfred Mond Bernard Mond Armstrong (Mondkrater) Louise Mensch Chava Mond Peter Mond Henry Mond Mensch (album) Halber Mensch Armstrong Gun Julian Mond Mensch ärgere Dich nicht Sir Thomas Armstrong Mensch Computer Ludwig Mond Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  60. 60. Wie kann ich semantische Metadaten im Retrieval nutzen? Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12 Turmbau zu Babel, Pieter Brueghel, 1563
  61. 61. Semantische Metadaten ermöglichen eine Verbesserung der traditionellen Schlüsselwort-basierten Suche durch (1) Erweiterung / Präzisierung der Suchergebnisse (Query String Refinement) (2) Herstellung von Querverweisen (Cross Referencing) (3) Nutzung von semantischen Beziehungen zur • Visualisierung und • Navigation durch den Suchraum (Explorative Suche) (4) Herleitung von impliziten Informationen (Reasoning) Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12 Turmbau zu Babel, Pieter Brueghel, 1563
  62. 62. Erweiterung / Präzisierung der Suchergebnisse • Keyword-basierte Suche liefert nicht alle inhaltlich relevanten62 Suchergebnisse zu einer Suchphrase, da Synonyme, 24 Metaphern und Umschreibungen den gesuchten Inhalt mit 24 424 anderen Termen beschreiben. 2 • Erweiterung der ursprünglichen Suchphrase (Query Refinement) • Nutzung von Wörterbüchern und Thesauri • Synonyme, Ober- und Unterbegriffe • Nutzung von Domain Ontologien • Meronyme, Holonyme, Assoziationen Ursprüngliche Suchphrase: Bank Mögliche Erweiterung: Bank ∨ Kreditanstalt ∨ Sparkasse ∨ ... Bank ∨ Konto ∨ Kredit ∨ ... Bank ∨ Santander ∨ Raiffeisen ∨ ... Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  63. 63. Präzisierung der Suchergebnisse • Keyword-basierte Suche liefert zu viele inhaltlich nicht relevante63 Suchergebnisse zu einer Suchphrase, da Suchbegriffe mehrere Bedeutung und in unterschiedlichem Kontext/Pragmatik genutzt 24 24 424 werden. 2 • Verfeinerung der ursprünglichen Suchphrase (Query Refinement) • Nutzung von Wörterbüchern und Thesauri • Homonyme mit Hilfe von Ober- und Unterbegriffen disambiguieren • Nutzung von Domain Ontologien • Meronyme, Holonyme Ursprüngliche Suchphrase: Bank Mögliche Erweiterung: Bank ∧ Kreditanstalt oder Bank ∧ Sitzgelegenheit oder Bank ∧ Sediment Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  64. 64. Herstellung von Querverweisen □ Bereitstellung von Suchergebnissen, die zwar den Suchbegriff64 nicht notwendigerweise enthalten, aber mit diesem in 24 □ inhaltlichem Zusammenhang stehen 24 424 Nutzung von Domain Ontologien 2 □ Nutzung von Thesauri und Kookurrenzanalysen repräsentativer Dokumentenkorpora Suchphrase: Neil Armstrong ermittelter Oberbegriff: Apollo 11 Ausweitung der Suche auf andere Crewmitglieder dbprop:mission dbpedia:Michael_Collins dbpedia:Apollo_11 dbprop:mission dbprop:mission NER Neil Armstrong dbpedia:Neil_Armstrong dbpedia:Buzz_Aldrin Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  65. 65. 65 4.3 Semantische Suche 4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval 4.3.3 Semantische Analyse und Retrieval 4.3.4 Explorative Suche Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  66. 66. Searching is not always66 just searching Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  67. 67. Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...67 Brave Ne - The Al w World. - Aldo u (Hamburg batros Continen s H U X L E Y. t 257 S. 8 usw., Albatros al Library, 47 “ Verlag, 1933) II 1, 25 06, 3454 8 Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  68. 68. 68 Mir hat das Buch „Brave New World“ von Aldous Huxley gefallen und ich weiß nicht genau, was ich als nächstes lesen soll.... Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  69. 69. 69 Exploratory Search • What, if the user does not know, which query string to use? • What, if the user is looking for complex answers ? • What, if the user does not know the domain he/she is looking for? • What, if the user wants to know all(!) about a specific topic? • ...,Browsing‘ instead of ,Searching‘ • ...to find something by chance -> Serendipity • ...to get an overview • ...enable content based navigation Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  70. 70. 70 http://dbpedia.org/page/Brave_New_World What facts for dbpedia:Brave_New_World are relevant? ...use heuristics Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  71. 71. 71 or uth :a wl r -o ho ut dia l :a w pe ia-o ed db p db dbpedia-owl:author dbpedia-owl:author dbpedia:Aldous_Huxley dbpedia:Brave_New_World Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  72. 72. dbpedia:H._G._Wells72 dbpedia:George_Orwell es nc lue inf y/ log to s ce on en flu ia: in y/ ed g p olo nt db ia:o p ed db dbpedia-owl:author dbpedia:ontology/influences dbpedia:Aldous_Huxleydbpedia:Brave_New_World dbpedia:Michel_Houellebecq Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  73. 73. dbpedia:H._G._Wells dbpedia:George_Orwell dbpedia:Michel_Houellebecq73 dbpedia-owl:notableWork dbpedia-owl:notableWork dbpedia-owl:notableWorkdbpedia:The_Time_Machine dbpedia:Nineteen_Eighty-Four dbpedia:Les_Particules_élémentaires Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  74. 74. Problem: Was ist eigentlich wichtig?74 • Linked Data beinhaltet ungewichtetes Wissen • ungewichtet = keine Unterscheidung, ob wichtig oder unwichtig • z.B.., Aldous Huxley • > 400 Fakten (RDF-triples) • > 70 Eigenschaften (properties) Aldous Huxley • keine Reihenfolge • keine Relevanzbewertungen • Entwicklung von Heuristischen Verfahren zur Relevanz-Bewertung von Linked Data Fakten • semantische Graphenanalyse • statistische Verfahren http://dbpedia.org/page/Aldous_Huxley Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  75. 75. Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Aldous Huxley‘75 • Identifikation einer Entität dbpedia:Aldous_Huxley • Bestimmung eines geeigneten Properties dbpedia:Aldous_Huxley foaf:name “Aldous Huxley“ . dbpedia:Aldous_Huxley rdfs:type yago:EnglishScienceFictionWriters . ... dbpedia:Aldous_Huxley dbpedia:ontology/influences dbpedia:H._G._Wells . dbpedia:H._G._Wells rdfs:type yago:EnglishScienceFictionWriters . ... dbpedia:George_Orwell dbpedia:ontology/influences dbpedia:Ernest_Hemingway . dbpedia:George_Orwell rdfs:type yago:EnglishScienceFictionWriters . Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  76. 76. Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Aldous Huxley‘76 • Identifikation einer Entität dbpedia:Aldous Huxley • Bestimmung eines geeigneten Properties • Nutzung der gefundenen Properties zur Navigation des Suchraums H.G. Wells Aldous Huxley George Orwell dbpedia:ontology/influences dbpedia:ontology/influences rdfs:type rdfs:type rdfs:type Yago:EnglishScienceFictionWriters Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  77. 77. 77 4.3 Semantische Suche 4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval 4.3.3 Semantische Analyse und Retrieval 4.3.4 Explorative Suche Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  78. 78. Semantic Web Technologien Vorlesungsinhalt 4. Semantic Web Anwendungen 4.1.Ontological Engineering 4.2.Linked Data Engineering 4.3.Semantic Search 4.4.Aktuelle Projekte: Yovisto, mediaglobe und Semantic Media Explorer Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  79. 79. Explorative Suche mit yovisto79 http://mediaglobe.yovisto.com:8080/ Waitelonis, Sack: Augmenting Video Search with Linked Open Data, Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam in Proc. I-Semantics , Graz 2009.Mittwoch, 25. Januar 12
  80. 80. 80http://mediaglobe.yovisto.com:8080/mggui/#start Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  81. 81. Semantic Web Technologien Vorlesungsinhalt 4. Semantic Web Anwendungen 4.1.Ontological Engineering 4.2.Linked Data Engineering 4.3.Semantic Search 4.4.Aktuelle Projekte: Yovisto, mediaglobe und Semantic Media Explorer Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
  82. 82. 4. Semantic Web Anwendungen 4.3 Semantic Search82 Materialien □Blog http://wwwsoup2011.blogspot.com/ □Webseite http://www.hpi.uni-potsdam.de/studium/lehrangebot/veranstaltung/ semantic_web_technologien.html □bibsonomy - Bookmarks http://www.bibsonomy.org/user/lysander07/swt1112_14 Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12

×