Digitalisierungspraxis - Müller - Zeitungsvolltexte

1,754 views
1,714 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,754
On SlideShare
0
From Embeds
0
Number of Embeds
872
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Digitalisierungspraxis - Müller - Zeitungsvolltexte

  1. 1. Historische Zeitungen Online– Schritt für Schritt Christa Müller Österreichische Nationalbibliothek
  2. 2. ANNO – AustriaNNewspapers Online• http://anno.onb.ac.at/• historische österreichische Zeitungen und Zeitschriften• seit Mai 2003• 6,5 Mio gescannte Zeitungsseiten online• ca. 190 Zeitungs- und Zeitschriftentiteln• frei und kostenlos• täglich > 1500 Leser
  3. 3. Warum Zeitungen?• internationale, regionale und lokale Geschichte, Politik, Kultur und Gesellschaftsfragen• unmittelbarer Spiegel des Tagesgeschehens• Verbesserung der Zugänglichkeit (Probleme für Leser)• Integrierte Sammlungen• Schonung der Originale• Zusatznutzen
  4. 4. Massendigitalisierung: ANNO• Dienstleister scannt – EU-weite Ausschreibung• nicht vom MF, immer vom Original• Auflicht und Durchlauf• pro Jahr ca. 1 Mio Seiten
  5. 5. Besonderheiten derZeitungen• vertraute Textsorte• nur sehr wenige Exemplare erhalten• „Verbrauchsgut“
  6. 6. Verbesserungen für dieLeser: Schritt für Schritt1. Imageversion: • Titelliste • Jahreseinstieg
  7. 7. Verbesserte Nutzung vonZeitschriften• Inhaltsverzei chnisse erschließen
  8. 8. ANNO – OCR-Pilot
  9. 9. ANNO in TelPlus
  10. 10. BesondereHerausforderungen für OCR• Zeitungen weniger sorgfältig gedruckt als Bücher: Druckerschwärze ungleichmäßig, dünnes Papier• großes Format• viele Eigennamen (Orte und Personen)• mehrere Spalten• kleine Schrift
  11. 11. ABO – Austrian Books Online• Public-Private-Partnership• historischen Buchbestand vom 16. bis zum 19. Jahrhundert• 600.000 urheberrechtsfreie Werke• 180 Millionen Seiten
  12. 12. Texterkennung• Volltextsuche in Zeitungen getrennt von Büchern• Suchworte mit Tagesdatumsangaben kombinieren• OCR von Zeitungen nicht so gut wie von Büchern
  13. 13. Was nun?• Leser findet immer etwas – was?• Was findet er nicht?• möglicher erster Lösungsansatz: Index offenlegen – positionierbar – Filter – Fuzzy Logik – durchsuchbar – …… ????
  14. 14. Danke!• anno.onb.ac.at

×