War es bis vor wenigen Jahren unvorstellbar, dass historische Handschriften automatisiert texterkannt werden können, so haben maschinenlernende Verfahren nunmehr den Durchbruch gebracht. Ob mittelalterlicher Codices oder frühneuzeitliche Handschrift, ob Arabisch, Hebraeisch oder Bangla - mit einigen Dutzend Seiten können die zugrundeliegenden neuronalen Netze so trainiert werden, dass die Transkription für die weitere Verarbeitung brauchbar ist. Um die Technologie einem großen Kreis an Nutzerinnen und Nutzern verfügbar zu machen, wurde im Rahmen zweier EU Projekte die Froschungsplattform Transkribus entwickelt. Mit Transkribus erhalten Nutzerinnen und Nutzer ein Werkzeug, mit dem sie selbst alle Schritte im Workflow abdecken können. Mehr als 18.000 Benutzer haben sich in der Plattform bereits registriert und vielfach das Programm ausprobiert. Der Vortrag wird anhand konkreter Beispiele die Leistungsfähigkeit moderner Texterkennungsverfahren geben, sowie einen Ausblick auf die künftigen Entwicklungen bieten.
Im Geschäftsjahr 2011 ist die Zahl der Benutzer und der Bibliotheksbesuche weiter angewachsen. Der leicht rückläufigen Ausleihe (2,2 Millionen Vorgänge) steht eine überproportionale gestiegene Nachfrage nach digitalen Medien gegenüber. Die Zahl der virtuellen Besucher und der Zugriffe auf die elektronischen Ressourcen steigt zugleich weiterhin exponentiell an. Mit über 3 Millionen Scans bzw. 16.000 digitalen Drucken sowie 70.000 neuen Bilddokumenten steigert das Digitalisierungszentrum die Jahresproduktion nochmals um fast ein Drittel.
Mit der auch schon in den Vorjahren verfolgten Perspektive, weniger von innen nach außen als von außen nach innen zu berichten. Kennzahlen, Organigramm, Perspektiven von BenutzerInnen und KooperationspartnerInnen
Im Geschäftsjahr 2011 ist die Zahl der Benutzer und der Bibliotheksbesuche weiter angewachsen. Der leicht rückläufigen Ausleihe (2,2 Millionen Vorgänge) steht eine überproportionale gestiegene Nachfrage nach digitalen Medien gegenüber. Die Zahl der virtuellen Besucher und der Zugriffe auf die elektronischen Ressourcen steigt zugleich weiterhin exponentiell an. Mit über 3 Millionen Scans bzw. 16.000 digitalen Drucken sowie 70.000 neuen Bilddokumenten steigert das Digitalisierungszentrum die Jahresproduktion nochmals um fast ein Drittel.
Mit der auch schon in den Vorjahren verfolgten Perspektive, weniger von innen nach außen als von außen nach innen zu berichten. Kennzahlen, Organigramm, Perspektiven von BenutzerInnen und KooperationspartnerInnen
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...intranda GmbH
2. intranda viewer Tag - Robert Strötgen: Integration von Fremddigitalisaten, Quellenkommentierungen und internationale Digitalisierungsplattform: Planungen beim Georg-Eckert-Institut
10 Jahre Evolution: Digitalisierung an der UB Greifswaldintranda GmbH
Vortrag von Bruno Blüggel über die Durchführung von Digitalisierungsprojekten an der Universitätsbibliothek Greifswald und die damit verbunden Herausforderungen
Der Vortrag geht ein auf die Umarbeitung des Freihandbestandes einer großen Universitätsbibliothek. Die Medien werden fit gemacht für eine neue Generation von Ausleih- und Rückgabe-Automaten. Im Mittelpunkt steht dabei die Organisation und Abwicklung des Projekts zwischen Bibliothek und beauftragter Firma.
Vortrag "Das DFG-Pilotprojekt Virtuelles deutsches Urkundennetzwerk Von exemplarischer Urkundendigitalisierung in Archiven zu einem umfassenden Digitalisierungskonzept?", Tag der Landesgeschichte, Bremen, 24.9. 2011
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chinfoclio.ch
Présentation de Susanne Schneider (E-Lib.ch, ETH Bibliothek, Zürich) lors du colloque infoclio.ch à Berne le 16 septembre 2010.
Das Projekt Webportal E-lib.ch umfasst den Aufbau eines nationalen Portals für wissenschaftliche Informationen und Dienstleistungen. Kernziele sind dabei die Realisierung eines zentralen instiegspunktes für die ressourcenübergreifende Recherche und den Zugriff auf wissenschaftliche Informationsressourcen sowie die Gestaltung einer übersichtlichen grafischen Benutzeroberfläche. Es wird im Rahmen des Innovations- und Kooperationsprojektes E-lib.ch: Elektronische Bibliothek Schweiz umgesetzt und bildet das Dach für die mit E-lib.ch verbundenen Teilprojekte.
Vortrag bei der Weiterbildungsveranstaltung "Integrated Search" des Zentrum für Bibliotheks- und Informationswissenschaftliche Weiterbildung, Köln, 09.05.2011
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...Dr. Achim Bonte
Auf der Basis der Software Rosetta bieten die SLUB Dresden und die TIB Hannover abgestimmte Langzeitarchivierungsservices an. Das Netzwerk ist offen für weitere Leistungsknoten. Beschrieben werden u.a. die strategischen Ziele, Kompetenzschwerpunkte, Leistungen und Konditionen des LZA-Verbunds
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...intranda GmbH
2. intranda viewer Tag - Robert Strötgen: Integration von Fremddigitalisaten, Quellenkommentierungen und internationale Digitalisierungsplattform: Planungen beim Georg-Eckert-Institut
10 Jahre Evolution: Digitalisierung an der UB Greifswaldintranda GmbH
Vortrag von Bruno Blüggel über die Durchführung von Digitalisierungsprojekten an der Universitätsbibliothek Greifswald und die damit verbunden Herausforderungen
Der Vortrag geht ein auf die Umarbeitung des Freihandbestandes einer großen Universitätsbibliothek. Die Medien werden fit gemacht für eine neue Generation von Ausleih- und Rückgabe-Automaten. Im Mittelpunkt steht dabei die Organisation und Abwicklung des Projekts zwischen Bibliothek und beauftragter Firma.
Vortrag "Das DFG-Pilotprojekt Virtuelles deutsches Urkundennetzwerk Von exemplarischer Urkundendigitalisierung in Archiven zu einem umfassenden Digitalisierungskonzept?", Tag der Landesgeschichte, Bremen, 24.9. 2011
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chinfoclio.ch
Présentation de Susanne Schneider (E-Lib.ch, ETH Bibliothek, Zürich) lors du colloque infoclio.ch à Berne le 16 septembre 2010.
Das Projekt Webportal E-lib.ch umfasst den Aufbau eines nationalen Portals für wissenschaftliche Informationen und Dienstleistungen. Kernziele sind dabei die Realisierung eines zentralen instiegspunktes für die ressourcenübergreifende Recherche und den Zugriff auf wissenschaftliche Informationsressourcen sowie die Gestaltung einer übersichtlichen grafischen Benutzeroberfläche. Es wird im Rahmen des Innovations- und Kooperationsprojektes E-lib.ch: Elektronische Bibliothek Schweiz umgesetzt und bildet das Dach für die mit E-lib.ch verbundenen Teilprojekte.
Vortrag bei der Weiterbildungsveranstaltung "Integrated Search" des Zentrum für Bibliotheks- und Informationswissenschaftliche Weiterbildung, Köln, 09.05.2011
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...Dr. Achim Bonte
Auf der Basis der Software Rosetta bieten die SLUB Dresden und die TIB Hannover abgestimmte Langzeitarchivierungsservices an. Das Netzwerk ist offen für weitere Leistungsknoten. Beschrieben werden u.a. die strategischen Ziele, Kompetenzschwerpunkte, Leistungen und Konditionen des LZA-Verbunds
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
Georg Rehm. Transformieren, Manipulieren, Kuratieren? Technologien für die Wissensarbeit im Netz. KOOP-LITERA International. Konferenz 2017, Berlin, Germany, June 2017. June 20, 2017. Invited talk.
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Thilo Stadelmann
Die Swiss Alliance for Data-Intensive Services (Data+Service) schafft Mehrwert durch Innovation. Innovation entsteht, wenn sich die richtigen Partner treffen. Wir schaffen inspirierende Begegnungsflächen in Konferenzen, Workshops und Expert Groups. Wir helfen bei der Konkretisierung von Ideen in Projektskizzen in Innovation Boot Camps. Und wir setzen Projektskizzen in innovativen Mehrwert um im Rahmen von Kooperationsprojekten.
Georg Rehm. Kuratieren im Zeitalter der KI. #DKT17 - Kuratieren im Zeitalter der KI, Berlin, Germany, October 2017. October 12, 2017. Invited keynote talk.
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...Matthias Arnold
Der Turkologische Anzeiger Online war ein erfolgreiches Digitalisierungsprojekt am Excellenzcluster "Asien und Europa" und eine Kooperation der Heidelberg Research Architecture mit der Computerlinguistik und der islamwissenschaft. Nach Projektende konnte die Plattform nur über eine bestimmte Zeit lauffähig gehalten werden. Der Vortrag führt in das Projekt und die Probleme bei der Erhaltung des Systems ein. Wesentliche Herausforderung war die Strukturierung der Daten auf der Basis internationaler Datenstandards und der Aufbau einer aktuellen und gut dokumentierten Datenbank. Abschliessend wird das Nachfolgesystem vorgestellt, das die Basis für eine nachhaltige Datenvorhaltung bei der UB Heidelberg darstellt.
Vortrag in der Reihe "Interdisziplinäres Forum digitaler Textwissenschaften" (InFoDiTex), Heidelberg, 8. Mai 2018
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
Numéerisation de masse et traitement des grands corpus de textes utilisant des méthodes des humanitées numéeriques / Massendigitalisierung und die Bearbeitung großer Textkorpora mit Methoden der 'Digital Humanities', 12-13 March 2015, Stuttgart, Germany
Fortbildung: Selbermachen! Praktische Tipps zur Archivierung digitaler Unterlagen, Digitalisierung und Öffentlichkeitsarbeit im Netz - Teil: Digitalisierung und Öffentlichkeitsarbeit im Netz (22. Juni 2012, Südwestdeutscher Archivtag 2012). Unter Benutzung von Folien von Daniel Jeller - ICARUS (Digitization).
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
Georg Rehm and Clemens Neudecker. Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken . Berliner Bibliothekswissenschaftliches Kolloqium (BBK), Humboldt-Universität zu Berlin, Berlin, Germany, June 2017. June 06, 2017. Invited talk.
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
In der Präsentation werden zunächst digitale Kuratierungstechnologien vorgestellt, wie sie derzeit im Rahmen eines vom Bundesministerium für Bildung und Forschung geförderten Verbundprojekts unter der Leitung des DFKI für die Anwendung in vier Branchen bzw. Domänen entwickelt werden.* Unter Kuratierungstechnologien verstehen wir verschiedene semantische Sprach- und Wissenstechnologien für die Analyse, Verarbeitung und Erstellung digitaler Inhalte und ihr Zusammenspiel in domänenspezifischen Workflows. Anschließend werden verschiedene exemplarische Anwendungsszenarien in Bibliotheken thematisiert, die sich insbesondere durch die Massendigitalisierung ergeben.
Anhand von Beispielen aus der bibliothekarischen Arbeit im 21. Jahrhundert sowie der Nachnutzung digitaler Bibliotheksdaten in Wissenschaft und Kreativwirtschaft werden die vielfältigen Möglichkeiten und Potenziale der Nutzung von Kuratierungstechnologien zur Datenaufbereitung, Datenanreicherung und Bereitstellung von attraktiven Diensten in Bibliotheken sowie für die Entwicklung neuartiger Forschungs- und Geschäftsfelder in deren Umfeld aufgezeigt.
*http://digitale-kuratierung.de/
Digitale Editionsprojekte mit Werkzeugen unterstützen und en passant dieNachnutzbarkeit der Forschungsdaten fördern: Das Beispiel TextGrid
TextGrid is designed for researchers who require tools and services for the
description, annotation, indexing, analysis, and publication of cultural
artifacts, particularly texts, images, manuscripts, musical score, and other
objects, and who place value on long-term data curation and ensuring the
reusability of research data. TextGrid is a research group consisting of ten
project partners and has been funded since February 2006 by the German
Federal Ministry for Education and Research. Since the release of TextGrid
version 1.0 in July 2011, the Virtual Research Environment is primarily used
by projects creating digital editions in philology, the history of science,
and musicology.
In this presentation in the session "Virtual Research Environments,"
TextGrid's specific organizational and technical approach, in contrast to
other concepts for Virtual Research Environments, will be presented. TextGrid
is developing a complete solution for the entire research process in digital
edition projects. TextGrid provides two closely linked components: a desktop
software with research tools and a repository for research data. In the
integrated work environment, researchers will have direct access to help
functions and tools for metadata encoding and for long-term preservation,
with the aim of ensuring the long-term availability and accessibility of
research data. Using the example of various publishing projects that already
use TextGrid in their research, the advantages and disadvantages of the
TextGrid approach will be discussed.
The Lower Saxony State and University Library, Goettingen, is leading the
project. As an academic library, it sees as its task to work together with
scholarly disciplines to develop services to support the research process and
to promote the use of digital methods.
17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...ETH-Bibliothek
In Zeiten der Digitalisierung ist es nicht einfach, einen inspirierenden und motivierenden Arbeitsplatz zu kreieren: Papier trifft auf digitale Tools, Funktionen und Organigramme treffen auf interdisziplinäre Fragestellungen. Und was wir in der Kommunikation beobachten, taucht auch in der Arbeitswelt immer mehr auf: Mobile first, Flexibilität auf allen Ebenen. Das verändert die Art und Weise, wie wir zusammenarbeiten. Und auch Mitarbeitende haben neue Ansprüche an die Führung, ihren Arbeitsort, ihre Arbeitszeit.
Eine an die heutigen Ansprüche angepasste moderne Arbeitswelt ist für die Weiterentwicklung des gesamten Unternehmens wichtig, aber auch, um als Arbeitgeber attraktiv zu sein.
Vor einigen Jahren hat die Mobiliar daher work@mobiliar ins Leben gerufen: Work@mobiliar ist mehr als Raumgestaltung. Es beschäftigt sich mit Kultur, Kulturwandel und Mindset. Die Referentin führt in ihrem Vortrag aus, wie die Initiative eingeführt wurde, welche Massnahmen ergriffen wurden und erläutert dies an praktischen Beispielen.
OriginStamp: Trusted Time Stamping via the Bitcoin BlockchainETH-Bibliothek
The document discusses trusted timestamping via the Bitcoin blockchain. It introduces Originstamp, a service that uses the blockchain to prove a data record existed at a certain point in time and has not been manipulated since. A live demo is shown of hashing a document and recording it on the blockchain to establish an immutable timestamp. Potential applications discussed include journalism, research data, insurance, and digital libraries.
Tracking Citations to Research Software via PIDsETH-Bibliothek
Tracking citations to research software via persistent identifiers is difficult due to dilution of citations over many PIDs assigned to a software package. On top of this, software citations are often consistently being edited out by every actor part of the scholarly communication process such as reference managers, publishers, professors and discovery systems. Thus, the survival rate of a software citation is extremely low in the current scholarly ecosystem. The Sloan-funded Asclepias project is a collaboration between a publisher, discovery system and repository with the goal to promote scientific software into an identifiable, citable, and preservable object. We have built a citation broker that is currently tracking some 6.000 citations to Zenodo DOIs from NASA ADS,
CrossRef and EuropePMC.
Persistent Identifiers for Scientific Data at CSCSETH-Bibliothek
Everyone knows the importance of FAIR data principles, data reuse opportunities and provenance traceability. In this talk, Mario Valle will explore the technical and human, non-technical, prerequisites that make these principles concrete. The Swiss National Supercomputing Centre (CSCS) is supporting Swiss scientists by providing and managing Persistent Identifiers (PIDs) to name scientific data. Besides this base service, the CSCS is also experimenting and collecting use cases to make this deceptive simple thing, the PID string, a tool that could help speed up science in Switzerland.
Building Open Research Infrastructure with PIDsETH-Bibliothek
Learn more about ORCID, how it enables connections between persistent identifiers to increase transparency and trust in research information and how to get involved.
DataCite and its Members: Connecting Research and Identifying KnowledgeETH-Bibliothek
PIDs and their metadata support scholarly research and its increasing amounts and
variety of scholarly output. DataCite provides services which enable the research community to identify, connect, cite and track these outputs, making content FAIR. New
services include data level metrics and the use of identifiers for organizations and new
types of content, e.g. software, repositories and instruments. As an open, collaborative
and community driven membership organization we rely on our members for their
input and experience to build services that are beneficial for the research community
as a whole. DataCite services as well as current and future initiatives will be described
and it will be shown how members can contribute and benefit. Over the course of the
years, our membership has grown and diversified and we are therefore refreshing and
clarifying our member model. The new member model will be presented and described.
Bilder online recherchieren – Tipps und TricksETH-Bibliothek
Über die Google Bildersuche zur Bilddatenbank des Bildarchivs der ETH-Bibliothek (E-Pics Bildarchiv Online), allgemeine Suchstrategien, thematische Suche und Ähnlichkeitssuche,
Nutzung und Bildrechte, weitere Datenbanken für Bildmaterialien
Herausforderungen im Datenmanagement von MetadatenETH-Bibliothek
Herausforderungen im Datenmanagement von Metadaten. Datenmanagement wird für viele Organisationen in der Schweiz immer wichtiger. Dabei ist die Bedeutung von Metadaten im Rahmen von Prozessdefinitionen nicht zu unterschätzen. Ohne entsprechende Datendokumentation haben z.B. Forschungsdaten wenig Aussagekraft, die ihre Bedeutung nicht mehr nachvollziehbar ist. Oftmals zwingt dieses Dilemma Mitarbeiter von Forschungsdateneinrichtungen in den Bereich der Nachdokumentation. Dieser Vortrag zeigt die Verwendung von Data Life Cycle Modellen, nennt Beispiele für verschiedene Metadatenstandards und passend dazu der Verwendung von Toolchains zur Datendokumentation.
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...ETH-Bibliothek
Gamification bedeutet die Übertragung spielbasierter Elemente auf ursprünglich spielfremde Kontexte. Damit soll die Motivation der Anwender verstärkt werden, um gestellte Aufgaben leichter lösen zu können. Gamification-Szenarien verwenden in der Regel nur einzelne Elemente von Spielsystemen. Davon grenzen sich Serious Games («angewandte Spiele») ab, die über ausgefeilte Spielmechaniken verfügen und die Spielenden umfassender zu engagieren vermögen.
Diese Entwicklungen sind nicht neu, aber das «Heilsversprechen» digitaler Spiele für seriöse oder angewandte Kontexte sind tief in die Gesellschaft diffundiert. Die beiden Referenten zeigen auf, welche theoretischen Grundlagen hinter diesen Spielphänomenen stecken, was bei der Entwicklung bedacht werden muss und wie mit diesen Grundlagen, über den Magic Circle der Games hinaus, auch kulturelle und gesellschaftliche Entwicklungen erklärt werden können. Die Fragen werden anhand von konkreten Beispielen aus Projekten in der Therapie, Forschung und Entwicklungshilfe erörtert.
Presentations, exercises and discussion of the following topics:
- General requirements of research Data management
- Guidelines and responsibilities
- Data management plans (DMP) for the Swiss national Science Foundation (SNSF)
- Data management in practice
- Prerequisites for re-use
- Useful services and tools
- Exchange of experiences, methods and tools
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....ETH-Bibliothek
Openness, exchange, FAIR data - oh brave new world. For some researchers, this is no longer a vision but already their day-to-day reality. For many others, however, terms like ‘open’, ‘FAIR data’* or ‘data exchange’ pose a challenge. What contribution can we make to ensure that new data comply with the FAIR Data Principles, and how can we measure the FAIRness of existing data? “Trust” is a key aspect: Trust that others interpret ‘your’ data correctly for example, or trust in data repositories.
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...ETH-Bibliothek
Präsentation am Deutschen Bibliothekartag, Juni 2018
1. Das Thomas-Mann-Archiv der ETH Zürich und das Projekt «Thomas Mann Nachlassbibliothek»
Katrin Keller
2. Technische Umsetzung des Projekts
Michael Ehrismann
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek ETH-Bibliothek
Präsentation am Deutschen Bibliothekartag, Juni 2018
ETH-Bibliothek: Kurze Geschichte
Die Plattform e-rara.ch
E-Pics: Die Plattform für Bilder und Illustrationen
E-Pics: Alte und Seltene Drucke
E-Pics: Die Provenienzdatenbank
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung, Erkennung und Suche in historischen Dokumenten
1. Transkribus
Eine Forschungsplattform für die
automatisierte Digitalisierung, Erkennung
und Suche in historischen Dokumenten
Günter Mühlberger
Universität Innsbruck,
Digitisation and Digital Preservation Group
2. Agenda
• Einleitung
• Technologie
• Resultate
• Transkribus – Expert client
• Transkribus – Plattform
• Sharing is caring oder die Zukunft von Transkribus
12. Fortschritte im READ Projekt – seit 2016
Dataset SPRNN (=2016) HTR+ (e2017) HTR+(e2018)
StAZH 14,48*
Bozen
Ratsprotokolle
(24,39)
• All figures as CER – Character Error Rate
• No dictionaries
Source: CITLab team
13. Fortschritt 2017 (nicht implementiert)
Dataset SPRNN 2016 HTR+ (e2017) HTR+(e2018)
StAZH 14,48* 4,45
Bozen
Ratsprotokolle
(24,39) 6,70
• All figures as CER – Character Error Rate
• Source: CITLab team
14. Fortschritt Ende 2018 (implementiert)
Dataset SPRNN 2016 HTR+ (e2017) HTR+(e2018)
StAZH
19th C.
14,48* 4,45 2,97
Bozen
17th C.
(24,39) 6,70 4,89
• All figures as CER – Character Error Rate
• Source: CITLab team
16. Zeilenerkennung
• Zu Beginn des Projekts “die” Herausforderung
• Komplexes Layout
• Viele verschiedene Texttypen
• Tabellen
• Schmutz, Ränder, Durchscheinen, Streichungen, Zeichnungen, Separatoren, Buchschmuck,…
• Erfolgsgeschichte
• Neue Methoden: Machine Learning
• Representatives und gut ausgewähltes Datensetz (2000 Seiten von verschiedenen Archiven
und Zeitepochen)
• Offshore Firma zur Erstellung des “Ground Truth” (100.000+ Zeilen manuell eingezeichnet)
• Wissenschaftlicher Wettbewerb: ICDAR 2017
• Forschungsdaten sind auf ZENODO verfügbar: cBAD
• Beste Lösung kommt von der Uni Rostock, Citlab Team
24. Mittelalterliche Schriften
• Kooperation mit Dominique Stuetzmann und CNRS (Institut de
recherche et d'histoire des textes) Paris
• HIMANIS Projekt
• Viele verschiedene Schreiber
• Französisch und Latein
• Trainingset: 550.381 Wörter oder 1197 Seiten
• CER am Testset = 6,4%
• WER am Testset = 22,1%
29. Gedruckter Text - Zeitungen
• Wiener Diarium – in Kooperation mit Österreichischer Akademie der
Wissenschaften
• Zeitung aus dem 18. Jhd.
• Bitonale Scans
• Trainingset: 179.997 Wörter oder 345 Seiten
• CER am Testset = 0,81
• WER am Testset = 3,02
Vergleichbare Ergebnisse mit NZZ Modell – für ca. 160 Jahre (1780 – 1940 1
Titelseite pro Jahr – insg. 167 Titelseiten) – CER am Testset: 0,47% – impresso
Projekt
33. Layout Analyse und automatisierte Texterkennung für historische
Dokumente zeigen exzellente Resultate für gedruckte Schriften und gute
bis sehr gute Ergebnisse für handschriftliche Dokumente.
35. Keyword Spotting (KWS)
• Hintergrund
• Neuronale Netze liefern mehr als nur den reinen Text
• Sogenannte Konfidenztabellen
• Keyword Spotting
• Eine effiziente Methode um diese Konfidenztabellen für die Suche nutzbar zu
machen
• Der Benutzer kann selbst entscheiden wie tief er gehen möchte
• Geht es darum rasch “etwas” zu finden – oder ein bestimmtes Wort – z.B.
einen Familiennamen – sicher in einem Dokument zu entdecken
57. Transkribus Zukunft
• Projekt endet mit 30. Juni 2019
• Allerdings ist die Nachfrage schon heute so groß, dass der Weiterbetrieb
der Plattform bis Ende 2020 und darüber hinaus gesichert ist
• EU Projekt NewsEye (2018-2021)
• DFG Projekt Greifswald (2019-2020)
• Projekt mit Nationalarchiv Finland (2019)
• Projekt mit Nationalarchiv Niederlande (2019-2020)
• Leuchtturmprojekt Tirol (2019-2020)
• Projekt mit Trinity College Dublin (2019-2021)
• Projekt mit Staatsarchiv Zürich (2019-2020)
• Und weitere in Vorbereitung…
60. Warum nicht ein Geschäftsmodell entwickeln, in dem die
Forschungsdaten – hier also das Wissen um historische Schriften und
Dokumente – im Mittelpunkt stehen? Und das auf dem Gedanken der
Zusammenarbeit und des Teilens beruht?
61. European Cooperative Society (SCE)
• Kooperative - Genossenschaft
• Ermöglicht die Zusammenarbeit unabhängiger Institutionen um ein
gemeinsames Ziel zu erreichen
• Verteilte Eigentümerschaft und das Teilen von Daten stehen im Mittelpunkt
• Wichtige Eigenschaften einer SCE
• Offen für neue Mitglieder, geringe Hürde: 1000 EUR Anteil als Minimum
• Demokratische Konstitution: Verwaltungsrat - Generalversammlung
• Direkter Vorteil für Mitglieder als Ziel – kein Shareholder Value
• Kunden werden Eigentümer, Eigentümer werden Kunden
• Subskriptionsgebühren und servicebasierte Gebühren
62. Derzeitiger Stand
• Statuten
• Weitgehend fertig gestellt
• Verwaltungsrat wird in den nächsten Wochen geformt
• Gründungsakt soll vor dem Sommer stattfinden
• Gründungsmitglieder
• Universität Innsbruck, Universität Greifswald, Technische Universität Valencia,
National Archiv Finland, British Library, Universitätsbibliothek Belgrade,
Diözesan Archiv Passau, Universität Rostock, ZAMG Wien, Geneanet
Frankreich, etc..
• Jede Institution, die mit Transkribus arbeiten möchte, ist herzlich
eingeladen mitzumachen!
63. Vielen Dank für die Aufmerksamkeit
Weitere Informationen
https://read.transkribus.eu/
https://transkribus.eu/
https://read.transkribus.eu/coop/
This project has received funding from the European Union’s
Horizon 2020 research and innovation programme under
grant agreement No 674943.