Seminar Semantic Media Mining - Kickoff

  • 433 views
Uploaded on

Handout für die Einführungsveranstaltung zum Seminar "Semantic Media Mining", 17.10.2012, Hasso Plattner Institut, Universität Potsdam, Dr. Harald Sack, Wintersemester 2012/13

Handout für die Einführungsveranstaltung zum Seminar "Semantic Media Mining", 17.10.2012, Hasso Plattner Institut, Universität Potsdam, Dr. Harald Sack, Wintersemester 2012/13

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
433
On Slideshare
0
From Embeds
0
Number of Embeds
4

Actions

Shares
Downloads
10
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. SEMANTIC MEDIA MINING Seminar Dr. Harald Sack / Jörg Waitelonis Christian Hentschel / Magnus Knuth / Nadine Steinmetz Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2012/13 Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).Freitag, 19. Oktober 12
  • 2. Semantic Media Mining2 1. Dozenten 2. Semantic Multimedia 3. Seminar Themen 4. Administratives Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 3. Semantic Media Mining Dozenten / Tutoren3 Dr. Harald Sack ■ Senior Researcher am HPI ■ Leiter der Forschungsgruppe „Semantische Technologien“ ■ Forschungsschwerpunkte: □ Semantic Web Technologien □ Multimedia Retrieval □ Wissensrepräsentation ■ Yovisto.com / SEMEX Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 4. Semantic Media Mining Dozenten / Tutoren4 Dipl. Inform. Jörg Waitelonis ■ Studium Informatik Uni-Jena bis 2006 ■ 2006-2007 Exist-Seed Projekt Osotis ■ seit 2007 Gründer von yovisto.com ■ Forschung: Semantic Web, Multimedia-Retrieval, Suchmaschinen Technologien Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 5. Semantic Media Mining Dozenten / Tutoren5 Dipl.-Inf. Magnus Knuth ■ Studium Informatik, Uni Leipzig bis 2007 ■ Institut für Medizinische Informatik, Statistik und Epidemiologie, Uni Leipzig 2006-2010 ■ Research Assistant am HPI, Contentus & Mediaglobe ■ Forschungsgebiete: Semantic Web, Knowledge Management, Read-Write-Web, Linked Data Cleansing Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 6. Semantic Media Mining Dozenten / Tutoren6 Dipl.-Inf. Nadine Steinmetz ■ Studium Informatik, TU Ilmenau bis 2005 ■ 2005-2010 TU Berlin: • kooperative Lernszenarien • Integration von Semantic Web Technologien in kooperative Lernplattformen ■ seit 05/2010 am HPI: • Semantische Analyse, Named Entity Recognition, Disambiguierung Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 7. Semantic Media Mining Dozenten / Tutoren7 Christian Hentschel, M.Sc. ■ 2005: B.Sc. in Softwaresystemtechnik ■ 2007: M.Sc. in Computational Visualistics an der Otto-von-Guericke-Universität Magdeburg ■ 2007-2011: wiss. Mitarbeiter am Fraunhofer Heinrich Hertz Institut ■ Theseus ■ seit 2011: Doktorand am HPI ■ Forschungsgebiet: visuelle Klassifikation von Bild- und Videoinhalten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 8. 8 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 9. 9 ■ Projektzeitraum: 2009-2012 ■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten ■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von AV-Inhalten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 10. Freitag, 19. Oktober 12
  • 11. Semantic Media Mining11 1. Dozenten 2. Semantic Multimedia 3. Seminar Themen 4. Administratives Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 12. 12 Wie kann ich etwas (wieder) finden...? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 13. Metadaten13 „Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia) „Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985) „Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 14. 14 • bibliografische Metadaten Identifikation über ISBN / ISSN Autor(en) Titel ... Klassifikation über Kategorien Schlüsselwörter Abstract / Zusammenfassung ... Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 15. Strukturierte Metadaten • bestehen aus Name-Werte Paaren (Autor = “Böll, Heinrich“)15 • sind typisiert (Autor ist vom Typ Zeichenkette) • Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung (z.B. Standardisierung bei Dublin Core) • Title: Namen des Objekts. • Creator: Personen, Organisationen oder Di enste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autor innen oder Autoren. • Subject: Thema (topic) des Objekts, typisc herweise Stichwörter, Deskriptoren oder Elemente eines Klassifikation ssystems. • Description: Beschreibung des Inhalts de s Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen , die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisation en, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht un ter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren ). .... Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 16. Strukturierte Metadaten16 • können hierarchisch strukturiert werden (Taxonomie) Moderner Mensch (Homo sapiens) Mensch (Homo) Menschenartige (Hominidae) Primaten Säugetiere (Mammaliae) Wirbeltiere Tierreich (Animalia) Mehrzeller (Eukaria) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 17. Strukturierte Metadaten • Klassifikationssysteme17 z.B. Dewey Decimal System DDC 1 (1876) DDC 23 (2011) • 44 Seiten • 4 Bände • 4000 Seiten Hauptklassen • 45.000 Klassen 000 Inf.-Wiss., allg. Werke 100 Philosophie • 96.000 Registerbegriffe 200 Religion 300 Sozialwissenschaften 400 Sprachen 500 Naturwissenschaften 600 Technik (Angew. Wiss.) 700 Künste 800 Literatur 900 Geschichte Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 18. Unstrukturierte Metadaten • als unstrukturierte Metadaten werden textuelle Metadaten18 bezeichnet, deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) Inhalt. • Bsp.: Inhaltsangabe/abstract Über die Entstehung der Arten von Charles Darwin (englisch: On the Origin of Species), veröffentlicht am 24. November 1859, ist ein wissenschaftliches Buch, das als grundlegendes Werk der Evolutionsbiologie gilt. Sein vollständiger Titel lautet: On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Als 1872 die sechste Auflage, das war die letzte von Darwin selbst bearbeitete, erschien, wurde der Kurztitel zu: The Origin of Species abgeändert. Darwin stellte in seinem Buch die wissenschaftliche Theorie vor, dass sich Populationen von Lebewesen im Laufe von Generationen durch den Prozess der natürlichen Selektion evolutionär verändern. Er lieferte zahlreiche Belege für die Vorstellung, dass die Vielfalt der heute existierenden Organismen von gemeinsamen Vorfahren abstammt. Auf Darwins Reise mit der HMS Beagle in den 1830er Jahren sammelte er erste Hinweise für seine Vorstellungen und vermehrte diese später durch Experimente und wissenschaftliche Korrespondenz.... Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 19. Autoritative vs. nicht-autoritative Metadaten19 • Autoritative Metadaten stammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. • dem Autor der Original-Daten • einem ausgewiesenen Experten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 20. Autoritative vs. nicht-autoritative Metadaten20 • Nicht-autoritative Metadaten stammen von einer prinzipiell unzuverlässigen Quelle, wie z.B. • den Benutzern • prominentes Beispiel: Social Tagging Systeme Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 21. Kollaborative Annotation -- Social Tagging21 Apfel Ressource apple Autor Apfel Obst Frühstück Frucht Benutzer kaufen © E.C. Publications, Inc. nicht- autoritative autoritative Metadaten Metadaten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 22. Kollaborative Annotation -- Social Tagging22 http://www.wordle.net/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 23. Semantische Metadaten23 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 24. Semantische Metadaten24 • sind strukturierte/unstrukturierte Metadaten • Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie) und daher maschinenlesbar (und maschinenverstehbar) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 25. Semantische Metadaten25 "An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“ (Thomas R. Gruber, 1993) Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante Begriffe, Beziehungen) Explizit: Bedeutungen aller Begriffe definiert Formal: maschinenverstehbar Gemeinsam: Konsens bzgl. Ontologie Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 26. Semantische Metadaten26 Publikation Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 27. Semantische Metadaten26 Eigenschaften • Titel • Schlüsselwörter • ... Publikation Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 28. Semantische Metadaten26 Eigenschaften Buch • Titel • Schlüsselwörter • ... ist eine Publikation Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 29. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 30. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation verlegt Verlag Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 31. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation wird verfasst von verlegt Verlag Autor verfasst Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 32. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation wird verfasst 1..n von verlegt 1..n Verlag Autor verfasst Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 33. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation wird verfasst 1..n von verlegt 1..n Verlag Autor Person verfasst ist eine Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 34. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 35. Semantische Metadaten26 Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 36. Semantische Metadaten26 Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine ist ein Springer Verlag Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 37. Semantische Metadaten26 Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine ist ein ist eine Springer Verlag HaraldSack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 38. Semantische Metadaten26 Digitale Kommunikation ist ein Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine ist ein ist eine Springer Verlag HaraldSack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 39. Semantische Metadaten26 Digitale Kommunikation ist ein Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine Frau ist eine verlegt 1..n Verlag Autor Person verfasst ist eine ist eine ist ein ist eine Mann Springer Verlag HaraldSack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 40. Semantische Metadaten26 Digitale Kommunikation ist ein Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine Frau ist eine verlegt 1..n Verlag Autor Person ≠ verfasst ist eine ist eine ist ein ist eine Mann Springer Verlag HaraldSack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 41. Semantische Metadaten27 • erlauben die Festlegung formaler Axiome • z.B. „Es ist nicht möglich, dass das Publikationsdatum vor dem Geburtsdatum eines Autors der Publikation liegt.“ • erlauben das Ziehen von Schlussfolgerungen • z.B. „Alle Menschen sind sterblich.“ „Sokrates ist ein Mensch.“ „Daher ist Sokrates sterblich.“ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam Raffael: Die Schule von Athen, 1510Freitag, 19. Oktober 12
  • 42. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 43. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Jörg Waitelonis Text Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 44. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Jörg Waitelonis Text http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 45. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Jörg Waitelonis Text http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 46. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Jörg Waitelonis Text http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata foaf:Person RDF Metadata Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 47. Entity Mapping29 Jörg Waitelonis is a foaf:Project property foaf:Document disjoint with foaf:Person foaf:firstname Jörg foaf:Organization property foaf:lastname Waitelonis knows property foaf:interest foaf:Person foaf:publications foaf:workplaceHomepage is a ... Harald Sack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 48. Entity Mapping29 Entity Mapping Jörg Waitelonis is a foaf:Project property foaf:Document disjoint with foaf:Person foaf:firstname Jörg foaf:Organization property foaf:lastname Waitelonis knows property foaf:interest foaf:Person foaf:publications foaf:workplaceHomepage is a ... Harald Sack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 49. Named Entity Recognition30 Entitäten- zuweisung Jörg Waitelonis Entität Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 50. Named Entity Recognition30 Entitäten- zuweisung Jörg Waitelonis Entität ist ein Doktorand Klasse Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 51. Named Entity Recognition30 Entitäten- zuweisung Jörg Waitelonis Entität ist ein Doktorand Klasse ist eine Person Klasse Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 52. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Determine possible Entity Mapping CandidatesFreitag, 19. Oktober 12
  • 53. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text We have to examine the Context... Determine possible Entity Mapping CandidatesFreitag, 19. Oktober 12
  • 54. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text We have to examine the Context... Determine possible Entity Mapping CandidatesFreitag, 19. Oktober 12
  • 55. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ TextFreitag, 19. Oktober 12
  • 56. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Create all possible Sets of Mapping CandidatesFreitag, 19. Oktober 12
  • 57. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Create all possible Sets of Mapping Candidates Armstrong George Armstrong Custer Neil Armstrong The Armstrong Twins Armstrong, Florida Craig Armstrong Armstrong, Ontario Armstrong (Mondkrater) Armstrong Gun Sir Thomas Armstrong Armstrong‘s Theorem Louis Armstrong Louis Armstrong International Airport Armstrong County, Texass Joe Armstrong Ian Armstrong Armstrong Tunnel Armstrong AutomobileFreitag, 19. Oktober 12
  • 58. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Create all possible Sets of Mapping Candidates Armstrong Mensch George Armstrong Custer Human Neil Armstrong Bill Mensch The Armstrong Twins Bob Mensch Armstrong, Florida Craig Armstrong David Mensch Armstrong, Ontario Homer Mensch Armstrong (Mondkrater) Armstrong Gun Sir Thomas Armstrong Louise Mensch Armstrong‘s Theorem Mensch (album) Halber Mensch Louis Armstrong Louis Armstrong International Airport Mensch ärgere Dich nicht Armstrong County, Texass Mensch Computer Joe Armstrong Peter van Mensch Ian Armstrong Armstrong Tunnel Daniel Mensch Armstrong AutomobileFreitag, 19. Oktober 12
  • 59. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Create all possible Sets of Mapping Candidates Armstrong Mensch Mond George Armstrong Custer Human Neil Armstrong Bill Mensch MOND The Armstrong Twins Bob Mensch Der Mond (Oper) Armstrong, Florida Craig Armstrong David Mensch Mond Nickel Company Brunner Mond Armstrong, Ontario Homer Mensch Alfred Mond Armstrong (Mondkrater) Bernard Mond Sir Thomas Armstrong Louise Mensch Chava Mond Armstrong Gun Peter Mond Henry Mond Armstrong‘s Theorem Mensch (album) Halber Mensch Louis Armstrong Julian Mond Louis Armstrong International Airport Mensch ärgere Dich nicht Armstrong County, Texass Mensch Computer Ludwig Mond Robert Mond Joe Armstrong Peter van Mensch Ian Armstrong Violet Mond Daniel Mensch MOND Technologies Armstrong Tunnel Armstrong AutomobileFreitag, 19. Oktober 12
  • 60. Named Entity Recognition (1) Co-occurence Analysis (2) Semantic Analysis Armstrong Mensch Mond George Armstrong Custer Human Mond (Erdtrabant) Neil Armstrong Bob Mensch Der Mond (Oper) Louis Armstrong Craig Armstrong David Mensch Mond Nickel Company Armstrong, Florida Brunner Mond Armstrong, Ontario Homer Mensch Alfred Mond Bernard Mond Armstrong (Mondkrater) Louise Mensch Chava Mond Peter Mond Henry Mond Mensch (album) Halber Mensch Armstrong Gun Julian Mond Mensch ärgere Dich nicht Sir Thomas Armstrong Mensch Computer Ludwig Mond Demo: SEMEX NER http://mediaglobe.yovisto.com/semex/Freitag, 19. Oktober 12
  • 61. Semantic Media Mining34 1. Dozenten 2. Semantic Multimedia 3. Seminar Themen 4. Administratives Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 62. Seminar Themen35 (1) Linked Soccer: Man muss keine Ahnung von Fußball haben. (2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 63. Linked Soccer - Motivation36 ■ Informationen liegen in verschiedenen, losen, un-/semi-strukturierten Datenquellen, z.B.: □ Spieler- und Teaminformationen in Wikipedia/DBpedia □ Live-Spielergebnisse in Live-Tickern und Tweets □ historische Begegnungen auf versch. Webseiten (z.B. von Vereinen) ■ Ziel: ein Datensatz, der all diese Informationen strukturiert aggregiert und sich selbständig aktualisiert □ Erzeugung eines Linked Data Datensatzes, □ aus frei verfügbaren Quellen, □ mit vorhandenen semantischen Entitäten verbunden □ stetige Aktualisierung anhand neu verfügbarer Daten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 64. Linked Soccer - das Spiel37 ■ “Linked Soccer” ist ein Spiel in 16 Seminartreffen ■ gespielt wird in Teams zu je 3-4 Spielern ■ Ziel des Spiels ist die Beantwortung von Fragen zu Fußballstatistiken mit Hilfe von aggregiertem Linked Data ■ Der Spielverlauf ist wie folgt: □ Teilnahme an Seminartreffen □ Zwischen- und Abschlusspräsentation □ Ausarbeitung □ Software Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 65. Ziel des Spiels38 Beantworte folgende Fragen (Beispiel) mit Hilfe von Linked Data: ■ Welcher Verein erzielte in der Geschichte der 2. Bundesliga die wenigsten Tore? ■ Welcher Spieler erzielte bei Spielen in der 1. Bundesliga die meisten Eigentore? ■ Bei welcher Begegnung der laufenden Saison 2012/2013 wurden die meisten Gelb- Roten Karten gezeigt (1. und 2. Bundesliga gemeinsam)? ■ Welches Team (1. und 2. Bundesliga gemeinsam) erzielte in der Saison 1995/1996 die meisten Tore in der ersten Halbzeit? ■ Welcher Spieler des Teams “SpVgg Greuther Fürth” wurde in der Spielsaison 2009/2010 am häufigsten in der Spielhälfte seiner eigenen Mannschaft gefoult? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 66. Spieltaktik: Linked Data39 ■ Verwendung von Informationen über Entitäten aus der Linked Open Data Cloud (DBpedia, Freebase, ...) ■ einfach erweiterbares Datenschema (RDF, RDFS) ■ Abfrage per SPARQL ■ Nutzung von semantischen Technologien: □ Named Entity Recognition □ RDFa □ GRDDL Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 67. Die Spieler: Entitäten40 Welche Entitäten kommen in Frage? ■ Spieler ■ Mannschaften ■ Begegnungen □ Ergebnis, Tore, Karten, Fouls, ... ■ Ligen ■ Verbände ■ ... Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 68. Die Spielregeln: Datenquellen41 Fokus auf öffentliche und freie Quellen: ■ DBpedia (http://dbpedia.org/page/Johannes_Focher) ■ öffentliche Kalender (https://www.google.com/calendar/ical/ spielplan.fussball.em%40gmail.com/public/basic.ics) ■ Wikipedia ■ Twitter/Facebook ■ RSS-Feeds (News, Medien) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 69. Die Spielregeln (2)42 alternative Quellen (nach Absprache mit den Schiedsrichtern!): ■ www.fussballdaten.de ■ www.worldfootball.net ■ www.fussball.de ■ UEFA (z.B. http://www.uefa.com/uefachampionsleague/ season=2012/clubs/club=52758/matches/index.html) ■ Statistiken von Vereinsseiten (z.B. http://www.bvb.de/?%9CS %1B%E7%F4%9D) ■ diverse Live-Ticker (z.B. http://liveticker.tagesspiegel.de/de/ popup/co12/) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 70. Die Meisterschaft43 ■ Recherche von öffentlichen Datenquellen 1. Woche ■ Selektion relevanter Entitäten 2. Woche ■ Erstellen einer erweiterbaren Datenstruktur 3. Woche ■ Entwickeln einer Strategie zur Extraktion der Daten 4. Woche ■ Identifikation der Entitäten (z.B. anhand von Bezeichnern und Hash-Tags), Aggregation der Daten (Mapping) ■ Persistierung der Daten in geeignetem Store 9. Woche ■ Entwickeln einer dynamischen Webseite zur Präsentation der Daten 12. Woche ■ Ableiten von Statistiken 13. Woche ■ Erweiterungen 16. Woche Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 71. Die Kommentare44 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 72. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 73. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 74. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 75. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein Werner Schneyder: „Ich weiss, es gibt keinen schönsten Sport. Fußball ist aber die Ausnahme.“ = Daten sollen attraktiv präsentiert werden, externe Ressourcen sollen sinnvoll eingebunden werden Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 76. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein Werner Schneyder: „Ich weiss, es gibt keinen schönsten Sport. Fußball ist aber die Ausnahme.“ = Daten sollen attraktiv präsentiert werden, externe Ressourcen sollen sinnvoll eingebunden werden Giovanni Trapattoni: „Fußball ist Ding, Dang, Dong. Es gibt nicht nur Ding.“ = ??? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 77. Materialien / Einstieg in das Thema45 ■ Bücher zu Semantic Web Technologien □ T. Heath, Ch. Bitzer Linked Data - Evolving the Web into a Global Data Space, Morgan & Claypool, 2011. ■ Tutorial: How to Publish Linked Data on the Web, Bizer et. al ■ Linked Data Starting Point (Papers und Tools): http://linkeddata.org ■ DBpedia (http://dbpedia.org/) ■ Twitter API (https://dev.twitter.com/docs) ■ W3C GRDDL Specification (http://www.w3.org/TR/grddl/) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 78. (2) Intelligente Produktempfehlungen, oder46 was haben Mozartkugeln mit dem Wetter zu tun? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 79. (2) Intelligente Produktempfehlungen, oder46 was haben Mozartkugeln mit dem Wetter zu tun? ■viele online Geschäftsmodelle basieren auf Werbung ■unterschiedliche Arten von Werbe-Einblendungen: ■Einblendungen als Text (incl. Link) ■Einblendungen als Bilder (horizontal/vertikal/kombiniert) ■PopUps & Co. ■Video Werbung: Bumper, Zwischeneinblendungen Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 80. (2) Intelligente Produktempfehlungen, oder46 was haben Mozartkugeln mit dem Wetter zu tun? ■viele online Geschäftsmodelle basieren auf Werbung ■unterschiedliche Arten von Werbe-Einblendungen: ■Einblendungen als Text (incl. Link) ■Einblendungen als Bilder (horizontal/vertikal/kombiniert) ■PopUps & Co. ■Video Werbung: Bumper, Zwischeneinblendungen Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 81. (2) Intelligente Produktempfehlungen47 ■ Wie wird die Werbung bzgl. einer Webseite ausgewählt? ■ Abhängig vom Benutzer (Personalisierung), z.B. bei Facebook, Cookies ■ Abhängig von Aktionen der Benutzer, z.B. Sucheingabe bei Googel AdSense ■ Collaborative Filtering, z.B. Amazon “Nutzer die Artikel X gekauft haben, haben auch Artikel Y gekauft.” ■ ohne besonderen Zusammenhang zum Inhalt Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 82. (2) Intelligente Produktempfehlungen47 ■ Wie wird die Werbung bzgl. einer Webseite ausgewählt? ■ Abhängig vom Benutzer (Personalisierung), z.B. bei Facebook, Cookies ■ Abhängig von Aktionen der Benutzer, z.B. Sucheingabe bei Googel AdSense ■ Collaborative Filtering, z.B. Amazon “Nutzer die Artikel X gekauft haben, haben auch Artikel Y gekauft.” ■ ohne besonderen Zusammenhang zum Inhalt Das ist die Regel Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 83. (2) Intelligente Produktempfehlungen48 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 84. (2) Intelligente Produktempfehlungen49 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 85. 50 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 86. (2) Intelligente Produktempfehlungen51 Ziel: ■ Intelligente Verknüpfung von Multimediadaten mit inhaltlich dazu passenden Produkten. ■ Online Werbung wird zu inhaltsbasierten Produktempfehlungen. ■ “Storytelling”, um dem Nutzer zu kommunizieren, warum dieses Produkt empfohlen wird (Assoziationsketten). ■ Verwendung von semantischen Technologien: ■ RDF / RDFa ■ Named Entity Recognition Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 87. (2) Intelligente Produktempfehlungen52 Beispiel “Baumgartner springt aus der Stratosphäre und holt sich den Weltrekord” generierte Empfehlungen z.B. ■ Guiness Buch der Rekorde, Craig Glenday [1] ■ Mirabell Mozartkugeln Geschenkbox [2] ■ “Wie wird das Wetter?: Eine verständliche Einführung für jedermann von Jörg Kachelmann und Siegfried Schöpfer (1. Februar 2006) EUR 8,95 Taschenbuch” [3] [1] http://www.amazon.com/Guinness-World-Records-Craig-Glenday/dp/0440423104 [2] http://www.austriangrocery.com/de/mirabell-mozartkugeln/mirabell-mozartkugeln-geschenkbox [3| http://www.amazon.de/Wie-wird-das-Wetter-verständliche/dp/3499620898/ref=sr_1_1?ie=UTF8&qid=1350294405&sr=8-1 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 88. (2) Intelligente Produktempfehlungen53 Schritt 1: Semantische Produktdatenbank aufbauen ■ manuell: Annotation des Produktes durch sem. Entitäten/Kategorien ■ automatisch: Wo findet man (semantische) Produktbeschreibungen? ■ eingebettet in Webseiten (als Microformat, RDFa) ■ z.B. sears.com ■ vgl. Goodrelations Ontologie (mit Mappings zu DBpedia) ■ in semantischen Suchmaschinen (z.B. http://sindice.com) Demo: RDFa Distiller http://www.w3.org/2007/08/pyRdfa/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 89. (2) Intelligente Produktempfehlungen54 Schritt 2: Semantische Entitäten des Eingabetextes ermitteln (NER) ■ “Eingabetext” kann stammen aus: ■ Webseiten ■ Social Media Posts: Tweets, Facebook, Google +, etc ■ Videos ■ sonstigen Dokumenten ■ Named Entity Recognition ■ Zuordung von Begriffen zu semantischen Entitäten ■ Mehrdeutigkeiten auflösen (Disambiguierung) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 90. (2) Intelligente Produktempfehlungen54 Schritt 2: Semantische Entitäten des Eingabetextes ermitteln (NER) “Baumgartner springt aus der Stratosphäre ■ “Eingabetext” kann stammen aus: und ■ Webseiten holt sich den Weltrekord” ■ Social Media Posts: Tweets, Facebook, Google +, etc ■ Videos dbp:Felix_Baumgartner ■ sonstigen Dokumenten dbp:Stratosphere ■ Named Entity Recognition ■ Zuordung von Begriffen zu semantischen Entitäten dbp:World_record ■ Mehrdeutigkeiten auflösen (Disambiguierung) PREFIX dbp: http://dbpedia.org/resource/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 91. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 92. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 93. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER dbp:Felix_Baumgartner Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 94. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 95. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject category:People_from_Salzburg Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 96. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject dbp:Wolfgang_Amadeus_Mozart dc:subject category:People_from_Salzburg Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 97. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject dbp:Wolfgang_Amadeus_Mozart dc:subject category:People_from_Salzburg dc:subject category:Wolfgang_Amadeus_Mozart Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 98. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject dbp:Wolfgang_Amadeus_Mozart dc:subject category:Wolfgang_Amadeus_Mozart_in_popular_culture category:People_from_Salzburg skos:broader dc:subject category:Wolfgang_Amadeus_Mozart Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 99. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject dc:subject dbp:Wolfgang_Amadeus_Mozart dc:subject category:Wolfgang_Amadeus_Mozart_in_popular_culture category:People_from_Salzburg skos:broader dc:subject category:Wolfgang_Amadeus_Mozart Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 100. (2) Intelligente Produktempfehlungen56 Formal: Spezielle Anwendung von (semantischer) Suche ■ Produkte sind die Dokumente ■ Texte (z.B. aus Webseiten, Video, Audio) sind die Suchanfragen: ■ “Finde die am besten passenden Produkte zu einem gegebenen Text” P ... Menge von Dokumenten (Produkte). FP = featP(p) ... Funktion zum Extrahieren von Deskriptoren FP eines Dokuments. FQ = featQ(p) ... Funktion zum Extrahieren von Deskriptoren FQ einer Suchanfrage. dist(FP, FQ) ... Distanzfunktion basierend auf einer Metrik, die den Abstand zwischen zwei Mengen von Deskriptoren bestimmt. Aufgabe für das Seminar: P erzeugen, featP, featQ, dist(FP, FQ) implementieren. Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 101. (2) Intelligente Produktempfehlungen57 Vorgehen: 1. Literatur Recherche 2. Anforderungsanalyse aufstellen 3. initiale Produktdatenbank P erstellen (featP) 4. Text-Analyse implementieren (featQ) 5. zwei einfache Metriken implementieren ( dist(FP, FQ) ) 6. Evaluation: ■ entweder gegen Ground Truth? ■ oder durch Rating/Voting? 7. weitere Metriken implementieren 8. Optimieren 9. Produktdatenbank erweitern Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 102. (2) Intelligente Produktempfehlungen57 Vorgehen: 1. Literatur Recherche 1. Woche 2. Anforderungsanalyse aufstellen 2. Woche 3. initiale Produktdatenbank P erstellen (featP) 3. Woche 4. Text-Analyse implementieren (featQ) 4.-5. Woche 5. zwei einfache Metriken implementieren ( dist(FP, FQ) ) 6.-7. Woche 6. Evaluation: ■ entweder gegen Ground Truth? 8.-9. Woche ■ oder durch Rating/Voting? 7. weitere Metriken implementieren 8. Optimieren Rest 9. Produktdatenbank erweitern Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 103. (2) Intelligente Produktempfehlungen Einstiegs- und Lesestoff:58 ■ Recommender Systems: http://en.wikipedia.org/wiki/Recommender_system ■ Empfehlungsdienst http://de.wikipedia.org/wiki/Empfehlungsdienst ■ Verkaufsführung http://de.wikipedia.org/wiki/Guided_Selling ■ Bharat Bhasker; K. Srikumar (2010). Recommender Systems in E-Commerce. CUP. ISBN 978-0-07-068067-8. ■ Francesco Ricci; Lior Rokach; Bracha Shapira; Paul B. Kantor, ed. (2011). Recommender Systems Handbook. ISBN 978-0-387-85819-7. ■ Bracha Shapira; Lior Rokach (June 2012). Building Effective Recommender Systems. ISBN 978-1-4419-0047-0. ■ Dietmar Jannach; Markus Zanker; Alexander Felfernig; Gerhard Friedrich (2010). Recommender Systems:An Introduction. CUP. ISBN 978-0-521-49336-9. ■ E. Peis; J. M. Morales-del-Castillo; J. A. Delgado-López. Semantic Recommender Systems. Analysis of the state of the topic: http://www.upf.edu/hipertextnet/en/numero-6/recomendacion.html ■ ACM Conference on Recommender Systems: http://www.recsys.acm.org/2012/ program.html ■ Goodrelations Paper: An ontology for describing products and services offers on the web; M. Hepp - Knowledge Engineering: Practice and Patterns, 2008 - Springer http:// www.heppnetz.de/projects/goodrelations/ ■ DBpedia: http://dbpedia.org/ , Freebase: http://freebase.org/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 104. Semantic Media Mining59 1. Dozenten 2. Semantic Multimedia 3. Seminar Themen 4. Administratives Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 105. Seminar Semantic Media Mining60 □ Semesterwochenstunden: 4 □ ECTS: 6 □ Leistungsfeststellung: □ Schriftliche Ausarbeitung zum Vortragsthema (Umfang ca. 20 Seiten) □ Musterausarbeitung in den Materialien zum Seminar □ Umsetzung einer vorgegebenen Implementierungsaufgabe im Team □ Präsentation der Ergebnisse (Zwischenpräsentation, Endpräsentation, Wochenbesprechungen) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 106. Seminar Semantic Media Mining61 □ Projektteams mit je 2-3 Studenten bearbeiten alle die selbe Aufgabenstellung (doodle Link s. Blog) bis 24.10. □ Termine □ 24.10.2012: Technologieeinführung □ ab dem 29.10.2012: Wöchentliche Seminargruppentreffen □ Termine nach Absprache □ ca. 19.12.2012: Zwischenpräsentation der Projektergebnisse □ ca. 6.2.2013: Abschlusspräsentation der Ergebnisse □ ca. 6.3.2013: Abgabe Ausarbeitung Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 107. Seminar Semantic Multimedia62 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  • 108. Seminar Semantic Media Mining63 Literatur • P. Hitzler, S. Roschke, Y. Sure: Semantic Web Grundlagen, Springer, 2007. • Grundlegende Materialien via Seminar-Blog http://smm2013.blogspot.com/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12