Your SlideShare is downloading. ×
0
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Stockmann Endnutzer Impact Workshop MUC
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Stockmann Endnutzer Impact Workshop MUC

521

Published on

Published in: Education, Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
521
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
8
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Was tun mit den Ergebnissen der OCR? Die Sicht der Endnutzer CB4 IMPACT Workshop, 4.3.2010 Ralf Stockmann SUB Göttingen / Abteilung Forschung und Entwicklung
  • 2. OCR in Göttingen <ul><li>Bestand: 8 Mio. Seiten </li></ul><ul><li>Ca. 20 % Fraktur (derzeit keine OCR vorgesehen) </li></ul><ul><li>Jährlicher Zuwachs: 2 Mio. Seiten </li></ul><ul><li>Renderfarm beim GBV (16 Kerne) </li></ul><ul><li>ABBY recognition server </li></ul><ul><li>160 Seiten pro Minute </li></ul><ul><li>In Goobi Workflowsystem integriert </li></ul><ul><li>Als Dienstleistung auf dem Markt angeboten </li></ul>
  • 3. Endnutzer – wer ist das? <ul><li>Wissenschaftler </li></ul><ul><li>Schüler/Studierende </li></ul><ul><li>Laien </li></ul><ul><li>Bibliothekare (Aufbau von digitalen Inhaltsverzeichnissen) </li></ul><ul><li>Google (und andere Dienste) </li></ul>
  • 4. Wie sichtbar sind die Volltexte? <ul><li>Versteckt in Suchindex </li></ul><ul><li>Versteckt, aber Image-Highlighting der Fundstelle </li></ul><ul><li>Volltext als Layer hinter dem Image (etwa in PDF gebunden) </li></ul><ul><li>Volltext sichtbar über / neben dem Image </li></ul><ul><li>Nur Volltext sichtbar </li></ul><ul><li>Volltext als Download </li></ul><ul><li>Volltext für Harvester verfügbar (TEI Datei in OAI) </li></ul>
  • 5. In welchen Formaten? <ul><li>Fragmentiert in einem Suchindex (Text nicht rekonstruierbar) </li></ul><ul><li>Durch Wortkoordinaten platziert, aber kein Dokumentenzusammenhang (bin ich Teil eines Satzes?) </li></ul><ul><li>Text einer Seite (eventuell mit Absätzen / Zeilenumbruch / Spalten) </li></ul><ul><li>Dokumenttext über mehrere Seiten </li></ul><ul><ul><li>PDF </li></ul></ul><ul><ul><li>TEI (Text Encoding Initiative) </li></ul></ul><ul><ul><li>Semantische Auszeichnung </li></ul></ul><ul><li>Informationen, die der Anbieter wegwirft / wegsperrt, kann der Nutzer nicht wieder herstellen </li></ul>
  • 6. Vier Gruppen der Nutzung <ul><li>Suche / Retrieval </li></ul><ul><ul><li>Bekannt und gezeigt </li></ul></ul><ul><li>Als Werkzeug zur Generierung händischer Metadaten </li></ul><ul><li>Semantische / qualitative Analysen </li></ul><ul><ul><li>Themenkarrieren </li></ul></ul><ul><ul><li>Netzwerke (Personen) </li></ul></ul><ul><li>Textarbeit </li></ul><ul><ul><li>Virtuelle Forschungsumgebungen </li></ul></ul>
  • 7. OCR als Produktionswerkzeug
  • 8. Semantische Graphen über <ul><li>Themen </li></ul><ul><li>Personen </li></ul><ul><li>Personenbeziehungen </li></ul>
  • 9. Anwendungen <ul><li>Exploratives Browsing </li></ul><ul><li>Relevanz von Metadaten für die Erschließungsqualität, oder: kann man durch den Einsatz von Volltexten auf Meta- Strukturdatengenerierung verzichten? </li></ul><ul><li>Experiment: Vergleich der semantischen Graphen zu </li></ul><ul><ul><li>Nur bibliographische Metadaten </li></ul></ul><ul><ul><li>Metadaten + Strukturdaten (Inhaltsverzeichnisse) </li></ul></ul><ul><ul><li>Nur Volltexte </li></ul></ul><ul><ul><li>Bibliographische Metadaten + Volltexte </li></ul></ul><ul><ul><li>Bibliographische Metadaten + Strukturdaten + Volltexte </li></ul></ul><ul><ul><li>Ergebnisse auf dem Bibliothekartag in Leipzig </li></ul></ul>
  • 10. Semantische / qualitative Analysen Goethe
  • 11. Goethe Schiller
  • 12. Virtuelle Forschungsumgebungen TextGridLab
  • 13. Empfehlungen <ul><li>Alle Qualität der OCR nutzt nichts, wenn es nicht bei unseren Kunden ankommt </li></ul><ul><li>auch fehlerhafte OCR Ergebnisse sind nützlich </li></ul><ul><li>Explorative, semantische Verfahren werden viele Textwissenschaften nachhaltig beeinflussen </li></ul><ul><li>Aber: wir können nur einen Bruchteil der denkbaren und sinnvollen Nutzungen vorhersehen / anbieten </li></ul><ul><li>Darum: Volltexte in möglichst vielen Formaten und an möglichst vielen Schnittstellen zur Nachnutzung anbieten (PDF, txt, TEI, OAI, ...) </li></ul>
  • 14. Ausblick <ul><li>Ulrich Johannes Schneider in der SZ am 1.3. </li></ul><ul><ul><li>Sollten wir nicht anerkennen, dass die neue Technik mindestens ebenso revolutionär wirkt wie der Buchdruck selbst vor über 500 Jahren? </li></ul></ul><ul><li>Ja – aber nicht durch Image-Digitalisierung, sondern die Volltexterfassung. </li></ul>

×