Strukturelle Metadaten für historische Zeitungen.
Überlegungen zu einem Standardmodell
Günter Mühlberger
Universität Innsb...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innov...
Vielen Dank für die Aufmerksamkeit!
lGünter Mühlberger
<guenter.muehlberger@uibk.ac.at>
Upcoming SlideShare
Loading in …5
×

Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

294 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
294
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen

  1. 1. Strukturelle Metadaten für historische Zeitungen. Überlegungen zu einem Standardmodell Günter Mühlberger Universität Innsbruck Digitalisierung und elektronische Archivierung
  2. 2. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Agenda •Historische Zeitungen – ein kleiner Streifzug •Warum strukturelle Metadaten? •Konzepte / Standardisierung •Umsetzung im Europeana Newspaper Projekt •Ausblick 2
  3. 3. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Wiener Zeitung 1750 3
  4. 4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Insprug, 7. Julii / 29. Juli 1750 4
  5. 5. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Lista deren Verstorbenen zu Wien, 1750 5
  6. 6. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Wiener Zeitung, 22. Jänner 1800 6
  7. 7. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Wiener Zeitung, 22. Jänner 1800 7
  8. 8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Wiener Zeitung, 1800 8
  9. 9. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Grundriß der Handlungsgeschichte, 1799 9
  10. 10. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Die Presse, 18. Juni 1870 10
  11. 11. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Innsbrucker Nachrichten 4. Juni 1870 11
  12. 12. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 1925 12
  13. 13. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Arbeiterzeitung 2. Juni 1925 13
  14. 14. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Beobachtungen • Zeitung = Neuigkeiten • Lange Reihe von einzelnen Ereignissen • Ordnung = Zeit und Ort • Bis heute erhalten! • Grundprinzip = Wiederholung • Makrostruktur bleibt über lange Zeiträume erhalten • Sektionen: Ort des Geschehens als die älteste Überschrift • Ausdifferenzierungen • Nicht alles lässt sich unter Zeit und Ort subsummieren: inhaltliche und andere Kriterien • Titel (erste Worte eines Artikels, Worte in Klammer, etc.) • Untertitel, Übertitel, etc. • Verfasser eines Beitrags • Originalbeitrag, Verfasser,... • Announcen und Werbung • Unterhaltung / Literarische Beiträge • Meinung • Etc. 14
  15. 15. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Warum strukturelle Metadaten? • Volltextsuche • Treffsicherheit bei der Volltextsuche • Typische Einheit für Volltextsuche ist derzeit die Ausgabe und Seite – kann präzisiert werden • Strukturelle Metadaten als Facetten für die Suche • Treffer in redaktionellem Inhalt hat andere Funktion als in einer Anzeige, Werbung, etc. • Beispiel (Leonding) • Content Sections • Crowd Sourcing • Beispiel der Australischen Nationalbibliothek ist bekannt • Was wäre, wenn Nutzer auch diverse strukturelle Metadaten korrigieren könnten? Abgrenzung Werbung / Inhalt oder “Lista der Verstorbenen”, etc. • Benutzer müssen angeleitet werden, bzw. die Klassifikation sollte zur Verfügung stehen 15
  16. 16. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Wert struktureller Metadaten • OCR Korrektur • Viele Elemente wiederholen sich und können mit vergleichsweise wenig Mühe (automatisch) korrigiert werden, da sie ja grundsätzlich bekannt sind • Bsp. Wiederkehrende Überschriften, Orte in Pre-Überschriften • Bsp. Werbeeinschaltungen, die über Jahre hinweg gleich oder sehr ähnlich sind • Bsp. Regionale Zeitung: OCR Korrektur von allgemeinen Meldungen, die sich besser und genauer in anderen Zeitungen der Epoche finden, wird weniger Sinn machen, als z.B. die Korrektur der lokalen Nachrichten, die ausschließlich in dieser Zeitung zu finden sind • Voraussetzung für Natural Language Processing (NLP) • Named Entities Recognition • Topic Mining • Summarization • Verfahren benötigen möglichst klar abgegrenzte inhaltliche Einheiten 16
  17. 17. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Wert struktureller Metadaten • Anreicherung durch Verlinkung mit externen, strukturierten Datenquellen • Z.B. Buchanzeigen: Machen einen ganz wesentlichen Teil historischer Zeitungen aus – die genannten Titel lassen sich in modernen Bibliothekskatalogen identifizieren • Detto Theateraufführungen, oder die Liste der Verstorbenen • Detto Kolportageromane, Gedichte und ähnliches • Event Detection and Linking • Viele der Content Unit beziehen sich auf Ereignisse, die an anderer Stelle genauer beschrieben sind: Wikipedia Eintrag, Geschichtsbuch, etc. • Zusammenführung von Zeitungsartikel mit standardisierter historischer Information 17
  18. 18. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Vorschlag für drei einfache Begriffe • Newspaper Content Units • Klassifikation • Newspaper Content Sections • Newspaper Structural Elements 18
  19. 19. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Newspaper Content Units •Definition • Kriterium: Inhaltlich! • In letzer Instanz entscheidet die inhaltliche Definition •Eigenschaften • Inhaltlich klar abgegrenzte Einheit • Bsp.: Goldenes Dachl und Maria-Hilf-Gnadenbild • Definierter Inhalt • Als Abgrenzung gegen Sektionen • Oftmals dezidierter Verfasser • Oftmals im Layout abgegrenzt von anderen Einheiten 19
  20. 20. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Newspaper Content Section •Definition • Sind nicht so sehr inhaltliche Einheiten, sondern dienen der Makro-Gliederung. •Eigenschaften • Wiederholen sich innerhalb der Zeitung über längere Zeiträume und tendenziell ad infinito • Meist im Layout klar abgehoben • Enthalten (mehrere) inhaltliche Einheiten (NCI) zu dem vorgegeben Thema (Ort, Schlagwort, Kategorie) 20
  21. 21. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Newspaper Structural Elements •Definition • Strukturelle Elemente werden durch ihre Funktion definiert – nicht aber durch ihren Inhalt. • Ihre Funktion liegt darin, dass sie dem Leser bei der Navigation, beim Verständnis, etc. helfen, die Zeitung (in Papierform) einfacher zu benutzen. •Eigenschaften • Sind immer Teil einer Newspaper Content Section oder Items. • Sie fügen dem Inhalt zusätzliche Funktionen hinzu • Bsp.: Titel: Früher gab es keine Titel von Artikeln, erst mit zunehmender Größe der Seite, Mehrspaltigkeit, etc. war es nützlich dem Leser zu vermitteln wo die nächste inhaltliche Einheit beginnt und worüber sie handelt. 21
  22. 22. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Daumenregeln •Wenn man eine historische Zeitung oder einen Artikel in ein eBook konvertieren würde, dann • wären Newspaper Content Sections “Schlagworte” “Kategorien” unter denen man den Inhalt finden würde • bliebe der Text eines Newspaper Content Items unverändert, • würde man Struktural Elements für die nähere Beschreibung (Metadaten) bzw. für das neue Layout nützen, jedoch immer verändern. 22
  23. 23. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NCU - Klassifikation •Klassifikation • Wir haben ein unmittelbares Gefühl: Artikel, Wetterbericht, Börsenbericht, Buchbesprechung, Werbung, Wohnungsverkauf, Mietgesuch, etc. • These: 80% der NCUs lassen sich einfach zuordnen •Kriterien • Was “bewirkt” ein NCU beim Leser? • Bessere Informiertheit? Unterhaltung?... 23
  24. 24. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Texttypen - Klassen •Fünf Klassen • Information • Anzeigen (classified advertisement) und Werbung • Unterhaltung • Meinung • Metainformation •Historischer Ausdifferenzierungsprozess 24
  25. 25. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Information •Information • Das wichtigste Konzept • Neueste Nachrichten • Der Leser sollte nachher “besser informiert” sein als vorher. •Beispiele • Artikel, Hintergrundartikel, Kurzartikel, aber auch Wetterbericht, Börsennotizen, etc. 25
  26. 26. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Advertisement •Anzeigen/Werbung • Im englischen Sprachraum “classified advertisement” und “advertisement” zusammengefasst • Historisch gesehen relativ bald entstanden • Typischerweise Information, die nicht direkt aus der Redaktion kommt und für die der Verfasser zahlen muss • Der Leser wird nicht nur informiert, sondern aufgefordert eine bestimmte Handlung zu setzen: Ein Produkt zu kaufen, eine Wohnung zu besichtigen, sich auf ein Stellenangebot zu melden, an einem Begräbnis teilzunehmen, etc. 26
  27. 27. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Entertainment •Unterhaltung • Eine Kategorie, die offenbar erst im Laufe des 19. Jahrunderts Einzug in die Zeitung hält. • Kolportageroman als das bekannteste Beispiel, starke Ausdifferenzierung. • Der Leser soll emotional involviert werden, das bedeutet nicht unbedingt “oberflächliches Amusement” sondern kann eben auch die Liebesgeschichte, der Aphorismus, ein Gedicht sein 27
  28. 28. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Opinion •Meinung • Klare Abgrenzung Information – Meinung ist ein Dogma der modernen Zeitung, allerdings historisch gesehen sehr spät erfolgt. • Feuilleton als das bekannteste Beispiel aus dem 19. Jahrhundert • Leser soll in seinen Werthaltungen gefordert werden. Zustimmung oder Ablehnung als die intendierten Verhaltensweisen • Beispiele wären Kommentare, Leitartikel, aber auch Leserbriefe, etc. 28
  29. 29. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Metainformation •Metainformation • Kleine Kategorie, aber das Impressum oder die Richigstellung, etc. können sonst eigentlich nicht subsummiert werden • Wo spricht die Zeitung sozusagen über sich selbst? 29
  30. 30. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Beispiel 30 Innsbrucker Nachrichten, 4 Juni 1870
  31. 31. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Umsetzung in METS/ALTO • ENMAP • Strukturelle Metadaten vs. deskriptive Metadaten • Autor, Titel, Untertitel, Ort der Handlung, dazugehöriges Bild und Bildunterschrift, etc. sind “normale” bibliographische MD • Sollten in METS DMD abgebildet werden, dort MODS als Schema • Daumenregel: bibliographische MD sollten verläßlich sein (manuelle Erfassung oder Korrektur) • Sollten nur für NCU erstellt werden. • Strukturelle Elemente • Logische StructMap in METS enthält NCUs und NCS als die wichtigsten Gliederungselemente, diese sind verlinkt mit der DMD Section. • Strukturelle Elemente finden sich in der StructMap gelistet. 31
  32. 32. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Ausblick •ENP interner Workshop in Innsbruck • Praxistest • Probe, ob diese Kategorien auch für andere Länder und Sprachen verwendet werden können, bzw. wie robust die Definitionen etc. sind •Geplant: Workshop zur automatisierten Erkennung struktureller Metadaten • Ende 2014 • In Vorbereitung •Veröffentlichung zum Thema 32
  33. 33. Vielen Dank für die Aufmerksamkeit! lGünter Mühlberger <guenter.muehlberger@uibk.ac.at>

×