• Like
Metadaten - eine (extrem) kurze Einführung
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

Metadaten - eine (extrem) kurze Einführung

  • 2,900 views
Published

Präsentation vom Abschlusskongress des Projekts 'Cinearchiv digital' im fx.center Babelsberg am 25.3.2009.

Präsentation vom Abschlusskongress des Projekts 'Cinearchiv digital' im fx.center Babelsberg am 25.3.2009.

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,900
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
46
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Metadaten – Struktur, Analyse, Suchsystematik Ergebnisse Focus Group 2 Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam cinearchive digital, 25. März 2009
  • 2. Metadaten Struktur, Analyse, Suchsystematik Ergebnisse Focus Group 2 2 Inhalt Teil I: Dr. Harald Sack, HPI Potsdam 1. Metadaten - eine kurze Einführung 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse Teil II: Prof. Dr. Angela Schreyer, FH Potsdam 3. Metadaten in Videoportalen im Vergleich Teil III: Dr. Patrick Ndjiki-Nya, HHI Berlin 4. Automatische Audio-/Videoanalyse zur Metadatengewinnung cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 3. Hasso Plattner Institut für IT Systems Engineering Universität Potsdam • im Oktober 1998 im Rahmen 3 einer Public Private Partnership gegründet • An-Institut der Universität Potsdam • zwei universitäre Informatik-Studiengänge IT Systems Engineering mit Abschlüssen • Bachelor of Science (6 Semester) und • Master of Science (4 Semester) • 10 Professuren und 438 Studenten (WS08/09) • 284 Bachelor Studenten • 154 Master Studenten cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 4. Teil 1: Dr. Harald Sack, HPI Potsdam 4 1. Metadaten - eine kurze Einführung 1.1 Motivation 1.2 Metadaten Definitionen 1.3 strukturierte vs. unstrukturierte Metadaten 1.4 semantische Metadaten 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.1 Teilnehmer 2.2 Metadaten Bedarfsanalyse 2.3 cinearchiv digital Metadaten Schema cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 5. 1. Metadaten - eine kurze Einführung 1.1 Motivation 5 Wie findet man etwas in einem audiovisuellen Archiv? • Damit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen. cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 6. 1. Metadaten - eine kurze Einführung 1.1 Motivation Wie findet man etwas in einem audiovisuellen Archiv? 6 automatische inhaltliche Analyse ist • schwierig und • berechnungs-/speicheraufwändig • ???? ???? Marlene Dietrich { „...ich bin von Kopf bis Fuß...“ cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 7. 1. Metadaten - eine kurze Einführung 1.1 Motivation Wie findet man etwas in einem audiovisuellen Archiv? 7 • Suche in traditionellen (textbasierten) Medien • Digitalisierung, Texterfassung, Texterkennung und Suche ist bereits auf hohem Niveau möglich und skalierbar • Suche in audiovisuellen Medien • Digitalisierung • Erschließung • manuell • automatisiert • zusätzliche Dimension (Zeit) cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 8. 1. Metadaten - eine kurze Einführung 1.1 Motivation Wie findet man etwas in einem audiovisuellen Archiv? 8 • Fazit: Wir benötigen textuelle Beschreibungen • des Inhalts • des Produktionsprozesses • der technischen Parameter • etc.... Metadaten cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 9. Teil 1: Dr. Harald Sack, HPI Potsdam 9 1. Metadaten - eine kurze Einführung 1.1 Motivation 1.2 Metadaten Definitionen 1.3 strukturierte vs. unstrukturierte Metadaten 1.4 semantische Metadaten 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.1 Teilnehmer 2.2 Metadaten Bedarfsanalyse 2.3 cinearchiv digital Metadaten Schema cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 10. 1. Metadaten - eine kurze Einführung 1.2 Metadaten Definitionen Metadaten 10 „Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia) „Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985) „Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C) cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 11. 1. Metadaten - eine kurze Einführung 1.2 Metadaten Definitionen Metadaten 11 einfaches Beispiel: Bücher und bibliografische Metadaten • Identifikation über • ISBN / ISSN • Autor(en) • Titel • ... Klassifikation über • Kategorien • Schlüsselwörter • Abstract / Zusammenfassung • ... cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 12. Teil 1: Dr. Harald Sack, HPI Potsdam 12 1. Metadaten - eine kurze Einführung 1.1 Motivation 1.2 Metadaten Definitionen 1.3 strukturierte vs. unstrukturierte Metadaten 1.4 semantische Metadaten 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.1 Teilnehmer 2.2 Metadaten Bedarfsanalyse 2.3 cinearchiv digital Metadaten Schema cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 13. 1. Metadaten - eine kurze Einführung 1.3 strukturierte vs. unstrukturierte Metadaten Strukturierte Metadaten 13 bestehen aus Name-Werte Paaren (Autor = „Böll, Heinrich“) • sind typisiert (Autor ist vom Typ „Zeichenkette“) • Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung • (z.B. Standardisierung bei Cublin Core) • Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren). .... cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 14. 1. Metadaten - eine kurze Einführung 1.3 strukturierte vs. unstrukturierte Metadaten Strukturierte Metadaten 14 können hierarchisch strukturiert werden (Taxonomie) • Moderner Mensch (Homo sapiens) Mensch (Homo) Menschenartige (Hominidae) Primaten Säugetiere (Mammaliae) Wirbeltiere Tierreich (Animalia) Mehrzeller (Eukaria) cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 15. 1. Metadaten - eine kurze Einführung 1.3 strukturierte vs. unstrukturierte Metadaten Strukturierte Metadaten 15 Klassifikationssysteme • z.B. Dewey Decimal System • DDC 1 (1876) DDC 22 (2003) • 44 Seiten • 4 Bände • 4000 Seiten • 45.000 Klassen • 96.000 Registerbegriffe Hauptklassen 000 Inf.-Wiss., allg. Werke 100 Philosophie 200 Religion 300 Sozialwissenschaften 400 Sprachen 500 Naturwissenschaften 600 Technik (Angew. Wiss.) 700 Künste 800 Literatur 900 Geschichte cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 16. 1. Metadaten - eine kurze Einführung 1.3 strukturierte vs. unstrukturierte Metadaten Unstrukturierte Metadaten 16 als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet, • deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) inhalt. Bsp.: Inhaltsangabe/abstract • Josef von Sternbergs Geschichte vom Fall eines bigotten Kleinbürgers gehört zu den größten Leistungen des deutschen Films überhaupt - ein stilistisch brillanter, vom Expressionismus beeinflusster Klassiker mit 'starmaking quality'. 'Der blaue Engel' machte Marlene Dietrich berühmt und begründete zugleich ein Rollenprofil, das auch ihre späteren amerikanischen Arbeiten mit Sternberg prägen sollte: das der Verführerin, die gewissermaßen ihrer eigenen Sinnlichkeit ausgeliefert ist.... cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 17. 1. Metadaten - eine kurze Einführung 1.3 strukturierte vs. unstrukturierte Metadaten Autoritative vs. nicht-autoritative Metadaten 17 Autoritative Metadaten • stammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. dem Autor der Original-Daten • einem ausgewiesenen Experten • Nicht-autoritative Metadaten • stammen von einer prinzipiell unzuverlässigen Quelle, wie z.B. den Benutzern • prominentes Beispiel: Social Tagging Systeme • cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 18. 1. Metadaten - eine kurze Einführung 1.3 strukturierte vs. unstrukturierte Metadaten Kollaborative Annotation -- Social Tagging 18 Apfel Ressource Autor apple Apfel Obst Frucht Frühstück Benutzer kaufen nicht- autoritative autoritative Metadaten Metadaten cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 19. 1. Metadaten - eine kurze Einführung 1.3 strukturierte vs. unstrukturierte Metadaten Kollaborative Annotation -- Social Tagging 19 cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 20. Teil 1: Dr. Harald Sack, HPI Potsdam 20 1. Metadaten - eine kurze Einführung 1.1 Motivation 1.2 Metadaten Definitionen 1.3 strukturierte vs. unstrukturierte Metadaten 1.4 semantische Metadaten 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.1 Teilnehmer 2.2 Metadaten Bedarfsanalyse 2.3 cinearchiv digital Metadaten Schema cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 21. 1. Metadaten - eine kurze Einführung 1.4 semantische Metadaten Semantische Metadaten 21 • sind strukturierte/unstrukturierte Metadaten • Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie) und daher maschinenlesbar (und maschinenverstehbar) quot;An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“ (Thomas R. Gruber, 1993) Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante Begriffe, Beziehungen) Explizit: Bedeutungen aller Begriffe definiert Formal: maschinenverstehbar Gemeinsam: Konsens bzgl. Ontologie cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 22. 1. Metadaten - eine kurze Einführung 1.4 semantische Metadaten 22 Semantische Metadaten • Beispiel Digitale Kommunikation ist ein Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine Frau ist eine verlegt 1..n Verlag ≠ Person Autor verfasst ist eine ist eine Mann ist ein ist eine Springer Verlag HaraldSack cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 23. 1. Metadaten - eine kurze Einführung 1.4 semantische Metadaten 23 Semantische Metadaten • erlauben die Festlegung formaler Axiome z.B. „Es ist nicht möglich, dass das Publikationsdatum vor dem • Geburtsdatum eines Autors der Publikation liegt.“ erlauben das Ziehen von Schlussfolgerungen • z.B. Alle Menschen sind sterblich. • Sokrates ist ein Mensch. Daher ist Sokrates sterblich. Daher ist es mit semantischen Metadaten möglich, implizit vorhandenes • Wissen, explizit zu machen cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 24. 1. Metadaten - eine kurze Einführung 1.4 semantische Metadaten 24 Semantische Metadaten für Audiovisuelle Daten Zeit Metadaten Metadaten Metadaten Metadaten Metadaten Metadaten z.B. bibliografische Daten, geografische Daten, enzyklopädische Daten, .... cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 25. Teil 1: Dr. Harald Sack, HPI Potsdam 25 1. Metadaten - eine kurze Einführung 1.1 Motivation 1.2 Metadaten Definitionen 1.3 strukturierte vs. unstrukturierte Metadaten 1.4 semantische Metadaten 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.1 Teilnehmer 2.2 Metadaten Bedarfsanalyse 2.3 cinearchiv digital Metadaten Schema cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 26. 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.1 Teilnehmer 26 Focus Group 2 - Metadaten •ArchivInForm GmbH •Bundesarchiv-Filmarchiv •DEFA Stiftung •Deutsches Musikarchiv •Deutsche Nationalbibliothek •Deutsches Rundfunkarchiv •Fachhochschule Potsdam •Fraunhoher Intelligente Analyse- und Informationssysteme •Grundy UFA •Fraunhofer Institut für Nachrichtentechnik, Heinrich-Hertz •Hasso-Plattner-Institut für IT Systems Engineering •Hochschule für Film und Fernsehen quot;Konrad Wolfquot; •In2 search interfaces developement Ltd. cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 27. 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.2 Metadaten Bedarfsanalyse 27 Metadaten -Bedarfsanalyse • zu klärende Fragen • aktuelle Entwicklungen im Audio-/Video-Mining • Hilfsmittel für Archivare • Fortschreitende Automatisierung, wo befinden wir uns? • Metadatenstandards? • automatische und semi-automatische Erschließung • Feststellung Status Quo Ausgangspunkt und Diskussionsgrundlage: Statuspapier zur Metadatenerfassung cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 28. 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.2 Metadaten Bedarfsanalyse 28 Metadaten -Bedarfsanalyse • Arbeitsgrundlage: definierte Anforderungen der Focus Groups 1 und 3 • Focus Group 1: • Digitalisierung erfolgt durchweg in HD • Focus Group 3: • In einer zu realisierenden Anwendung sollen nach folgenden Entitäten gesucht werden können • Personen • Orte • Gebäude / Landmarks • Ereignisse cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 29. 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.3 Cinearchiv Digital Metadaten Schema 29 Metadaten Schema • hierarchischer Aufbau • Kollektion / Sammlung • Einzelmedium • Mediensegment • weitere Untergliederung der Metadaten in • strukturelle, deskriptive Metadaten • inhaltsbezogene Metadaten • inhaltliche Metadaten für Kollektionen / Einzelmedien können aus Metadaten für Mediensegmente erschlossen werden. cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 30. Teil 1: Dr. Harald Sack, HPI Potsdam 30 1. Metadaten - eine kurze Einführung 1.1 Motivation 1.2 Metadaten Definitionen 1.3 strukturierte vs. unstrukturierte Metadaten 1.4 semantische Metadaten 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse 2.1 Teilnehmer 2.2 Metadaten Bedarfsanalyse 2.3 cinearchiv digital Metadaten Schema cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
  • 31. Metadaten Struktur, Analyse, Suchsystematik Ergebnisse Focus Group 2 31 Inhalt Teil I: Dr. Harald Sack, HPI Potsdam 1. Metadaten - eine kurze Einführung 2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse Teil II: Prof. Dr. Angela Schreyer, FH Potsdam 3. Metadaten in Videoportalen im Vergleich Teil III: Dr. Patrick Ndjiki-Nya, HHI Berlin 4. Automatische Audio-/Videoanalyse zur Metadatengewinnung cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009