SlideShare a Scribd company logo
Workshop Transkribus
19 oktober 2021
verwelkoming en introductie tot
Transkribus
Transkribus?
• 2013-2019: TranScriptorium & READ
• sinds 2019: READ-COOP
• tekstherkenning, beeldanalyse, structuurherkenning
• TS Lite
• read&search
• ...
programma
10u00 - 10u30: verwelkoming en introductie tot Transkribus
10u30 - 10u45: opladen van gedigitaliseerde tekstbestanden
10u45 - 11u30: lay-outanalyse
PAUZE
11u45 - 12u30: transcriptie van handgeschreven en gedrukte teksten
PAUZE
13u15 - 13u30: export van transcriptieresultaten
13u30 - 14u30: trainen van Transkribus en reeds beschikbare modellen
14u30 - 14u45: Transkribus als samenwerkingsplatform
14u45 - 15u00: korte rondvraag en afsluiting
opladen van gedigitaliseerde
bestanden
bestanden
• bestandsformaten:
• PDF, JPEG, PNG en TIFF
• de bestandsgrootte/-formaat heeft een impact op de oplaad-/verwerkingstijd
• JPEG = veel gebruikt formaat
• beeldkwaliteit:
• bestanden op minimaal 300 dpi gedigitaliseerd
• voldoende wit-zwart contrast
• heb aandacht voor de stand van het document tijdens het digitaliseren
opladen: collecties
tab ‘server’
• gebruikers:
• ‘Manage user’
• Transkribus gebruikers
zoeken via hun email-adres
• rol toekennen
Zoeken via
email
Rol toekennen
opladen: collecties
tab ‘server’
• dupliceren vs toevoegen aan
diverse collecties:
• optie ‘Link to different collection’
• groen “+” icoontje
• werken in een en hetzelfde
document
• optie ‘Duplicate/copy’
• pagina icoontje
• werken op een kopie van het
document
opladen: oplaadmogelijkheden
tab ‘server’ - map icoontje
• eigen scans
• ‘importeren naar server’ is de meest
duurzame optie
• ken steeds een (gestructureerde) titel en
collectie toe
• Transkribus laadt enkel mappen op geen
beelden
• structureer beelden per editie in een map
• impact op de export
• opladen in bulk
• via FTP server ‘ftp://transkribus.eu/’
• ideaal voor grote bestanden of datasets
• bestanden ophalen via ‘Upload via
private FTP’
lay-out analyse
introductie
Transkribus als tool voor:
• uitvoeren automatische HTR en OCR processen
• opstellen van Ground Truth bestanden
• bestanden met foutvrije segmentatie en tekst ifv onderzoek of het trainen van
modellen
Ground Truth productie
• stap 1: handmatige layout analyse of correctie HTR/OCR
• proces waarbij de structuur van een scan wordt gedefinieerd
• basisstructuur: regio’s, lijnen en leesvolgorde
• stap 2: handmatige transcriptie of correctie HTR/OCR
handmatige segmentatie: voorbereiding
viewing profile
• kleine visuele aanpassingen ifv uit te
voeren taak
• bovenste werkbalk > profiles
• default: standaard interface
• segmentation: profiel voor segmentatie
met contrasterende kleuren
• transcription
• transcription InvisibleTabs
• optie eigen profiel samenstellen
handmatige segmentatie: voorbereiding
zichtbaarheid
• bovenste werkbalk > ‘Shape visibility’ > ‘Show regions’ en ‘Show
baselines’ aanvinken
handmatige segmentatie: regio’s
regio’s
• gebieden die structureel en
inhoudelijk van elkaar
verschillen
• voorbeeld (afbeelding)
• tekst = TextRegion
• separatoren = SeparatorRegion
• foto’s = ImageRegion
• kader = GraphicRegion
handmatige segmentatie: regio’s
algemene regel
• overlap vermijden
canvas-menu
• verticale werkbalk in het
midden van het scherm
• bevat alle functionaliteiten voor
segmentatie
handmatige segmentatie: regio’s
soorten regio’s
• + TR: tekstregio's
• + ...
• Table: tabellen
• Printspace: overkoepelende regio waar alle
tekst zich in bevindt
• Graphic: decoraties en tekeningen
• Image: foto’s en illustraties
• Seperator: separatoren (schedingslijnen)
• Noise: beschadigde delen
Oefening regio’s
1. kies een pagina uit jouw collectie
a. in de collectie gedeeld door Amber kan je
verschillende pagina’s terugvinden
b. ga naar de bovenste werkbalk en blader door
de pagina’s dmv de blauwe pijlen
1. duid alle of zoveel mogelijk regio’s aan
afhankelijk van de grote van jouw pagina
a. ga naar het canvas-menu
b. gebruik ‘TR’ voor tekstregio’s
c. ga naar ‘+...’ voor andere type regio’s
d. gebruik de escape toets om terug over te
schakelen naar de gewone cursor
handmatige segmentatie: correctie
regio aanpassen door:
• regio te selecteren en te verschuiven,
vergroten en verkleinen met je muis
• via de tools van het canvas-menu
• passer met plus: punten toevoegen om
rechthoekige vorm van de regio te
wijzigen
• passer met min: punten verwijderen om
de rechthoekige vorm van de regio te
wijzigen
• schaar met H: regio horizontaal te splitsen
• schaar met V: regio verticaal te splitsen
• pijl: om regio’s van eenzelfde soort samen
te voegen
Oefening correctie
1. voeg twee gelijksoortige regio’s samen met de
samenvoegfunctie en splits ze weer op met de knipfunctie
(opdracht kan ook omgekeerd)
2. pas de vorm van een regio aan door punten toe te voegen
3. pas de vorm van een regio aan door punten te verwijderen
handmatige segmentatie: baselines
baselines: stap na het zetten van regio’s
• deze definiëren waar een regel staat binnen een bepaalde
regio
algemene regels
• iedere regel binnen een regio > nieuwe baseline
• een baseline start iets voor de eerste letter van de zin en eindig
iets na de laatste
• mogen niet onderling of met regio’s overlappen
handmatige segmentatie: baselines
canvas-menu > + BL
uitvoering
• iets voor de eerste letter van de regel staan met
cursor
• klik éénmaal
• verplaats de cursor iets voorbij de laatste letter
van de regel
• dubbelklik
corrigeren
• idem regio
Oefening baselines
1. trek baselines voor één regio op jouw pagina
a. trek één lijn te lang
b. trek één lijn te kort
2. test nogmaals de correctietools uit
a. selecteer de te lange baseline en maak het korter door een
punt te verwijderen
b. selecteer de te korte baseline maak het langer door een
punt toe te voegen
c. selecteer een baseline en splits deze in twee en voeg deze
weer samen
handmatige segmentatie: leesvolgorde
laatste stap: leesvolgorde controleren
van de regio’s en baselines
• de volgorde waarin een tekst
wordt gelezen
zichtbaarheid
• bovenste werkbalk > ‘Shape
visibility’ > ‘Show regions reading
order’ en ‘Show lines reading
order’ aanvinken
algemeen principe
• van boven naar onder en van links
naar rechts
Oefening leesvolgorde
1. controleer de leesvolgorde en pas aan waar nodig
a. geen foute leesvolgorde?
i. klik op een nummer en geeft het een fout nummer
ii. corrigeer het foute nummer
Automatische processen: processen
1. CITlab Advanced 2. Printed Block Detection +
CITlab Advanced
simpele scans: 1 bladzijde met 1
kolom
complexere scans: dubbelscans
en bladzijden met kolommen
1 stap:
- CITlab Advanced: regio’s en
baselines
2 stappen:
- Printed Block Detection: regio’s
- CITlab Advanced: baselines
handmatige correctie handmatige correctie
Automatische processen: toepassen
hoofdmenu > tab ‘Tools’ > sectie layout analysis
simpele scans
• methode: CITlab Advanced
• uit te voeren op
• Current page
• Pages
• Current collection
• aanvinken
• Find Text Regions
• Find Text Lines
• Run…
• corrigeren
Automatische processen: toepassen
hoofdmenu > tab ‘Tools’ > sectie ‘layout analysis’
complexere scans
• stap 1
• methode: Printed Block Detection
• uit te voeren op
• Current page
• Pages
• Current collection
• aanvinken
• Find Text Regions
• Run…
Automatische processen: toepassen
hoofdmenu > tab ‘Tools’ > sectie layout analysis
• stap 2
• methode: CITlab Advanced
• uit te voeren op
• Current page
• Pages
• Current collection
• aanvinken
• Find Lines in Regions
• Run…
• corrigeren
Oefening automatische processen
1. start met een blanco scan
a. via versiegeschiedenis kan je onder status ‘NEW’ terugkeren naar
een blanco scan
b. vergeet niet om deze op te slaan via ‘ctrl+s’
2. pas een automatische proces toe
a. bepaal welke proces geschikt is
i. simpele scan?
ii. complexere scan?
b. pas toe
Oefening automatische processen
PAUZE
we starten terug om 11u45
Bundesarchiv, Bild 183-S15390 /
CC-BY-SA 3.0
transcriptie van handgeschreven en
gedrukte teksten
handmatige transcriptie
Richtlijnen/conventies
• https://readcoop.eu/transkribus/howto/transkribus-transcription-conventions/
• richtlijnen ≠ reglement
• Project-afhankelijk
• Testfase
• Machineperspetief
• teken per teken met inbegrip voor (historische) spelling- en grammaticafouten*
• woorden combineren (gescheiden/aaneen)
• hoofdletters
• doorhalingen
• superscript
• onduidelijkheden
handmatige transcriptie
*uitzonderingen
● spaties
● uitlijning/inspringen
handmatige transcriptie
• Viewing profiles
• voorgeprogrammeerd
• zelf instellen
• teksteditor > sleutel-icoontje :
• bij ‘profiles’ > “save current as new profile”
handmatige transcriptie
• teksteditor
Oefening transcriptie
1. Kies uit je persoonlijke reader een pagina naar wens
2. Zorg ervoor dat de regions en lijnen aangeduid zijn, en dat de te
transcriberen lijnen (baselines) er ‘goed’ uitzien
3. Selecteer het transcriptie viewing profiel
4. Start met transcriberen!
PAUZE
we starten terug om 13u15
Bundesarchiv, Bild 183-S15390/
CC-BY-SA 3.0
export van transcriptieresultaten
export opties
• druk op folder met groene pijltje R
Bestandsformaten:
• Transkribus Document
• METS: PAGE XML ALTO
• PDF
• text overlay
• TEI
• DOCX
• Simple TXT
• Tag export Excel/IOB
• Table export
trainen van Transkribus en reeds
beschikbare modellen
waarom een model?
• Snel resultaat: 1p/30s
• groot corpus
• Maar niet feilloos
• CER (character error rate)
• <10%
• ‘eerste aanzet’
hoe werkt een model?
• Extern
• servers Innsbruck
• niet belastend voor eigen toestel
• Credits
• https://readcoop.eu/transkribus/credits/
hoe werkt een model?
• OCR - HTR - ATR?
• ATR : automatic text recognition > = OCR + HTR
• OCR : optical character recognition
• kijkt naar individuele karakters
• standaard font, vast aantal opties (karakters)
• HTR : handwritten text recognition
• hanteert taal-logica
• lettercombinaties
• oneindige opties
• N grams - kansberekening : “best guesses”
een (bestaand) model kiezen
• +- 100 public models
• tools > text recognition > HTR (CITlab) > ‘Models …’
een (bestaand) model kiezen
• Language
• Details
• Description
• Epochs
• Show train set
• Learning curve
• CER
• Train
• Validation
een (bestaand) model gebruiken
• > Run
een eigen model trainen
• Tools > Train
• Velden invullen (Model Name, Description, Language, Epochs Base
Model)
• Documents >
Training/validation
Transkribus als
samenwerkingsplatform
introductie: Transkribus Lite
webgebaseerde versie Transkribus
vergemakkelijkt samenwerking
• https://transkribus.eu/lite/
• gebruiksvriendelijke interface
• oorspronkelijk ontwikkeld voor
het maken van transcripties
recente updates
• maken nu ook mogelijk om de
automatische HTR en OCR te
gebruiken
• aanwezigheid van oude en
nieuwe interface
voorbereiding
1. documentbeheer
• collecties
• per persoon
• per instelling
• per titel
• ...
• rechten
• owner
• editor
• transcriber
• reader
1. lay-outanalyse
voorbereiding
3. training
• werking interface
• richtlijnen
4. communicatie
• status Transkribus
• In Progress
• Done
• Final
• Ground Truth
• samenwerkingsdocument
• opmerkingen
• extra vermelding status
Transkribus Lite: collectieoverzicht
klik op ‘Open collection’
Transkribus Lite: document openen
klik op ‘Open Document’
Klik op ‘Open’
Transkribus Lite: pagina viewer
klik op de Edit knop
Transkribus Lite: document editor
geavanceerde opties:
● Annotation
● Advanced
rondvraag & afsluiting
Documentatie
How-to Guides Transkribus:
https://readcoop.eu/transkribus/resources/how-to-guides/
Tutorials
• basis NL https://www.youtube.com/watch?v=o6BRXq1S-b8&t=3031s
• expert NL https://www.youtube.com/watch?v=I_KUIrwphJw&t=3070s
• basis EN https://www.youtube.com/watch?v=5YCfaFNMol4&t=5419s
• expert EN https://www.youtube.com/watch?v=yxLyzRZaff8&t=5473s
Wiki handleiding: https://transkribus.eu/wiki/index.php/Main_Page
Contactgegevens
MoMu - Amber Tillemans
amer.tillemans@momu.be
Vlaamse Erfgoedbibliotheken - Team Nieuwe Tijdingen
nieuwetijdingen@vlaamse-erfgoedbibliotheken.be
meemoo - Astrid Vergauwe
astrid.vergauwe@meemoo.be
Zijn er nog
vragen?

More Related Content

What's hot

Lecture 1 Introduction to Translation.pptx
Lecture 1 Introduction to Translation.pptxLecture 1 Introduction to Translation.pptx
Lecture 1 Introduction to Translation.pptx
ssuser7c8e99
 
Trans studies lecture 2
Trans studies lecture 2Trans studies lecture 2
Trans studies lecture 2
Abdullah Saleem
 
Levels of translating
Levels of translatingLevels of translating
Levels of translating
Shiela Ann Neron
 
The translation of metaphor
The translation of metaphorThe translation of metaphor
The translation of metaphor
Amer Minhas
 
Equivalencein translation
Equivalencein translationEquivalencein translation
Equivalencein translation
Dorina Moisa
 
Four Levels Of Translation
Four Levels Of TranslationFour Levels Of Translation
Four Levels Of Translation
Shiela Ann Neron
 
Historia y clases de servicios de referencia
Historia y clases de servicios de referenciaHistoria y clases de servicios de referencia
Historia y clases de servicios de referencia
Marisa Menendez
 
Trasnlation shift
Trasnlation shiftTrasnlation shift
Trasnlation shift
Buhsra
 
Catalogacion de publicaciones seriadas
Catalogacion de publicaciones seriadasCatalogacion de publicaciones seriadas
Catalogacion de publicaciones seriadas
Karen_lpa
 
Introducing cat tools
Introducing cat toolsIntroducing cat tools
Introducing cat tools
Adrian Brand
 
Introduction to SharePoint Framework (SPFx)
Introduction to SharePoint Framework (SPFx)Introduction to SharePoint Framework (SPFx)
Introduction to SharePoint Framework (SPFx)
Fabio Franzini
 
Publicaciones seriadas
Publicaciones seriadasPublicaciones seriadas
Publicaciones seriadas
Jonathan Rodriguez
 
La lingüística forense y sus líneas de investigación
La lingüística forense y sus líneas de investigaciónLa lingüística forense y sus líneas de investigación
La lingüística forense y sus líneas de investigación
sacadfyl
 
Magento CMS Presentation
Magento CMS PresentationMagento CMS Presentation
Magento CMS Presentation
RAJU MAKWANA
 
Some problems of ambiguity in translation with reference to english and arabic
Some problems of ambiguity in translation with reference to english and arabicSome problems of ambiguity in translation with reference to english and arabic
Some problems of ambiguity in translation with reference to english and arabic
falah_hasan77
 
SharePoint Site IA Architecture Design Considerations - Innovate Vancouver.pdf
SharePoint Site IA Architecture Design Considerations - Innovate Vancouver.pdfSharePoint Site IA Architecture Design Considerations - Innovate Vancouver.pdf
SharePoint Site IA Architecture Design Considerations - Innovate Vancouver.pdf
Innovate Vancouver
 
Vinay and Darblernet's Model of Translation.ppt
Vinay and Darblernet's Model of Translation.pptVinay and Darblernet's Model of Translation.ppt
Vinay and Darblernet's Model of Translation.ppt
PariNaz10
 
スタートアップ・新規事業におけるファーストカスタマーの獲得方法
スタートアップ・新規事業におけるファーストカスタマーの獲得方法スタートアップ・新規事業におけるファーストカスタマーの獲得方法
スタートアップ・新規事業におけるファーストカスタマーの獲得方法
知記 渡部
 
Power Platform Architecture Corrections
Power Platform Architecture CorrectionsPower Platform Architecture Corrections
Power Platform Architecture Corrections
Yusuke Ohira
 
Catford and Translation Shifts.pptx
Catford and Translation Shifts.pptxCatford and Translation Shifts.pptx
Catford and Translation Shifts.pptx
PariNaz10
 

What's hot (20)

Lecture 1 Introduction to Translation.pptx
Lecture 1 Introduction to Translation.pptxLecture 1 Introduction to Translation.pptx
Lecture 1 Introduction to Translation.pptx
 
Trans studies lecture 2
Trans studies lecture 2Trans studies lecture 2
Trans studies lecture 2
 
Levels of translating
Levels of translatingLevels of translating
Levels of translating
 
The translation of metaphor
The translation of metaphorThe translation of metaphor
The translation of metaphor
 
Equivalencein translation
Equivalencein translationEquivalencein translation
Equivalencein translation
 
Four Levels Of Translation
Four Levels Of TranslationFour Levels Of Translation
Four Levels Of Translation
 
Historia y clases de servicios de referencia
Historia y clases de servicios de referenciaHistoria y clases de servicios de referencia
Historia y clases de servicios de referencia
 
Trasnlation shift
Trasnlation shiftTrasnlation shift
Trasnlation shift
 
Catalogacion de publicaciones seriadas
Catalogacion de publicaciones seriadasCatalogacion de publicaciones seriadas
Catalogacion de publicaciones seriadas
 
Introducing cat tools
Introducing cat toolsIntroducing cat tools
Introducing cat tools
 
Introduction to SharePoint Framework (SPFx)
Introduction to SharePoint Framework (SPFx)Introduction to SharePoint Framework (SPFx)
Introduction to SharePoint Framework (SPFx)
 
Publicaciones seriadas
Publicaciones seriadasPublicaciones seriadas
Publicaciones seriadas
 
La lingüística forense y sus líneas de investigación
La lingüística forense y sus líneas de investigaciónLa lingüística forense y sus líneas de investigación
La lingüística forense y sus líneas de investigación
 
Magento CMS Presentation
Magento CMS PresentationMagento CMS Presentation
Magento CMS Presentation
 
Some problems of ambiguity in translation with reference to english and arabic
Some problems of ambiguity in translation with reference to english and arabicSome problems of ambiguity in translation with reference to english and arabic
Some problems of ambiguity in translation with reference to english and arabic
 
SharePoint Site IA Architecture Design Considerations - Innovate Vancouver.pdf
SharePoint Site IA Architecture Design Considerations - Innovate Vancouver.pdfSharePoint Site IA Architecture Design Considerations - Innovate Vancouver.pdf
SharePoint Site IA Architecture Design Considerations - Innovate Vancouver.pdf
 
Vinay and Darblernet's Model of Translation.ppt
Vinay and Darblernet's Model of Translation.pptVinay and Darblernet's Model of Translation.ppt
Vinay and Darblernet's Model of Translation.ppt
 
スタートアップ・新規事業におけるファーストカスタマーの獲得方法
スタートアップ・新規事業におけるファーストカスタマーの獲得方法スタートアップ・新規事業におけるファーストカスタマーの獲得方法
スタートアップ・新規事業におけるファーストカスタマーの獲得方法
 
Power Platform Architecture Corrections
Power Platform Architecture CorrectionsPower Platform Architecture Corrections
Power Platform Architecture Corrections
 
Catford and Translation Shifts.pptx
Catford and Translation Shifts.pptxCatford and Translation Shifts.pptx
Catford and Translation Shifts.pptx
 

Similar to Workshop Transkribus

DCT - PEMT
DCT - PEMTDCT - PEMT
DCT - PEMT
Isabella Massardo
 
TYPO3 Congres 2012 - Aan de slag met TYPO3 Extbase en Fluid
TYPO3 Congres 2012 - Aan de slag met TYPO3 Extbase en FluidTYPO3 Congres 2012 - Aan de slag met TYPO3 Extbase en Fluid
TYPO3 Congres 2012 - Aan de slag met TYPO3 Extbase en Fluid
TYPO3 Nederland
 
DSD-NL 2014 - Cursus Baseline 5, Koen Volleberg, Lievense-CSO
DSD-NL 2014 - Cursus Baseline 5, Koen Volleberg, Lievense-CSODSD-NL 2014 - Cursus Baseline 5, Koen Volleberg, Lievense-CSO
DSD-NL 2014 - Cursus Baseline 5, Koen Volleberg, Lievense-CSODeltares
 
VIGC Live Preflight-profielen voor InDesign CS4 (2009)
VIGC Live Preflight-profielen voor InDesign CS4 (2009)VIGC Live Preflight-profielen voor InDesign CS4 (2009)
VIGC Live Preflight-profielen voor InDesign CS4 (2009)VIGCbe
 
Wordcamp Utrecht 2019
Wordcamp Utrecht 2019Wordcamp Utrecht 2019
Wordcamp Utrecht 2019
Peter Luit
 
Grafische technieken-en-drukwerkbegeleiding
Grafische technieken-en-drukwerkbegeleidingGrafische technieken-en-drukwerkbegeleiding
Grafische technieken-en-drukwerkbegeleiding
Alexander Overdiep
 

Similar to Workshop Transkribus (6)

DCT - PEMT
DCT - PEMTDCT - PEMT
DCT - PEMT
 
TYPO3 Congres 2012 - Aan de slag met TYPO3 Extbase en Fluid
TYPO3 Congres 2012 - Aan de slag met TYPO3 Extbase en FluidTYPO3 Congres 2012 - Aan de slag met TYPO3 Extbase en Fluid
TYPO3 Congres 2012 - Aan de slag met TYPO3 Extbase en Fluid
 
DSD-NL 2014 - Cursus Baseline 5, Koen Volleberg, Lievense-CSO
DSD-NL 2014 - Cursus Baseline 5, Koen Volleberg, Lievense-CSODSD-NL 2014 - Cursus Baseline 5, Koen Volleberg, Lievense-CSO
DSD-NL 2014 - Cursus Baseline 5, Koen Volleberg, Lievense-CSO
 
VIGC Live Preflight-profielen voor InDesign CS4 (2009)
VIGC Live Preflight-profielen voor InDesign CS4 (2009)VIGC Live Preflight-profielen voor InDesign CS4 (2009)
VIGC Live Preflight-profielen voor InDesign CS4 (2009)
 
Wordcamp Utrecht 2019
Wordcamp Utrecht 2019Wordcamp Utrecht 2019
Wordcamp Utrecht 2019
 
Grafische technieken-en-drukwerkbegeleiding
Grafische technieken-en-drukwerkbegeleidingGrafische technieken-en-drukwerkbegeleiding
Grafische technieken-en-drukwerkbegeleiding
 

More from Vlaamse Erfgoedbibliotheken

Overlegplatform_2023_Fotoreportage.pdf
Overlegplatform_2023_Fotoreportage.pdfOverlegplatform_2023_Fotoreportage.pdf
Overlegplatform_2023_Fotoreportage.pdf
Vlaamse Erfgoedbibliotheken
 
Overlegplatform 2023_20230915_2_Overlegplatform_JonasVanMulder_KADOC-.pdf
Overlegplatform 2023_20230915_2_Overlegplatform_JonasVanMulder_KADOC-.pdfOverlegplatform 2023_20230915_2_Overlegplatform_JonasVanMulder_KADOC-.pdf
Overlegplatform 2023_20230915_2_Overlegplatform_JonasVanMulder_KADOC-.pdf
Vlaamse Erfgoedbibliotheken
 
BROCHURE FARO-Meerstemmigheid
BROCHURE FARO-MeerstemmigheidBROCHURE FARO-Meerstemmigheid
BROCHURE FARO-Meerstemmigheid
Vlaamse Erfgoedbibliotheken
 
Overlegplatform 2023_20230915_1_Sarah Fierens_DBNL-klassiekers en kantlijnen....
Overlegplatform 2023_20230915_1_Sarah Fierens_DBNL-klassiekers en kantlijnen....Overlegplatform 2023_20230915_1_Sarah Fierens_DBNL-klassiekers en kantlijnen....
Overlegplatform 2023_20230915_1_Sarah Fierens_DBNL-klassiekers en kantlijnen....
Vlaamse Erfgoedbibliotheken
 
Overlegplatform 2023_20230915_5_Diewer van der Meijden_KU_Leuven_Bibliotheken...
Overlegplatform 2023_20230915_5_Diewer van der Meijden_KU_Leuven_Bibliotheken...Overlegplatform 2023_20230915_5_Diewer van der Meijden_KU_Leuven_Bibliotheken...
Overlegplatform 2023_20230915_5_Diewer van der Meijden_KU_Leuven_Bibliotheken...
Vlaamse Erfgoedbibliotheken
 
Overlegplatform 2023_20230915_3_Olga Van Oost_Diversiteitsplan.pptx
Overlegplatform 2023_20230915_3_Olga Van Oost_Diversiteitsplan.pptxOverlegplatform 2023_20230915_3_Olga Van Oost_Diversiteitsplan.pptx
Overlegplatform 2023_20230915_3_Olga Van Oost_Diversiteitsplan.pptx
Vlaamse Erfgoedbibliotheken
 
Overlegplatform 2023_20230915_0_Resultaten bevraging.pdf
Overlegplatform 2023_20230915_0_Resultaten bevraging.pdfOverlegplatform 2023_20230915_0_Resultaten bevraging.pdf
Overlegplatform 2023_20230915_0_Resultaten bevraging.pdf
Vlaamse Erfgoedbibliotheken
 
Overlegplatform 2023_20230915_4_Dries Blanchaert_Luisterpuntbibliotheek_DEF.pptx
Overlegplatform 2023_20230915_4_Dries Blanchaert_Luisterpuntbibliotheek_DEF.pptxOverlegplatform 2023_20230915_4_Dries Blanchaert_Luisterpuntbibliotheek_DEF.pptx
Overlegplatform 2023_20230915_4_Dries Blanchaert_Luisterpuntbibliotheek_DEF.pptx
Vlaamse Erfgoedbibliotheken
 
Overlegplatform_De win win van de beroepsinlevingsstage_Vlaamse erfgoedbiblio...
Overlegplatform_De win win van de beroepsinlevingsstage_Vlaamse erfgoedbiblio...Overlegplatform_De win win van de beroepsinlevingsstage_Vlaamse erfgoedbiblio...
Overlegplatform_De win win van de beroepsinlevingsstage_Vlaamse erfgoedbiblio...
Vlaamse Erfgoedbibliotheken
 
Overlegplatform_Ervaring met werkervaring_Erfgoedbibliotheek Hendrik Conscien...
Overlegplatform_Ervaring met werkervaring_Erfgoedbibliotheek Hendrik Conscien...Overlegplatform_Ervaring met werkervaring_Erfgoedbibliotheek Hendrik Conscien...
Overlegplatform_Ervaring met werkervaring_Erfgoedbibliotheek Hendrik Conscien...
Vlaamse Erfgoedbibliotheken
 
Overlegplatform_De bib bende en de boekenclub_Museum M_20211119
Overlegplatform_De bib bende en de boekenclub_Museum M_20211119Overlegplatform_De bib bende en de boekenclub_Museum M_20211119
Overlegplatform_De bib bende en de boekenclub_Museum M_20211119
Vlaamse Erfgoedbibliotheken
 
Overlegplatform_Van korte of lange duur. Vrijwilligerswerking van KADOC_20211119
Overlegplatform_Van korte of lange duur. Vrijwilligerswerking van KADOC_20211119Overlegplatform_Van korte of lange duur. Vrijwilligerswerking van KADOC_20211119
Overlegplatform_Van korte of lange duur. Vrijwilligerswerking van KADOC_20211119
Vlaamse Erfgoedbibliotheken
 
Overlegplatform_ Tot uw dienst _Vlaamse erfgoedbibliotheken_20211119
Overlegplatform_ Tot uw dienst _Vlaamse erfgoedbibliotheken_20211119Overlegplatform_ Tot uw dienst _Vlaamse erfgoedbibliotheken_20211119
Overlegplatform_ Tot uw dienst _Vlaamse erfgoedbibliotheken_20211119
Vlaamse Erfgoedbibliotheken
 
Waarderingstraject wiskundige oude drukken
Waarderingstraject wiskundige oude drukkenWaarderingstraject wiskundige oude drukken
Waarderingstraject wiskundige oude drukken
Vlaamse Erfgoedbibliotheken
 
Wijzer Waarderen - Overlegplatform voor erfgoedbibliotheken 2018
Wijzer Waarderen - Overlegplatform voor erfgoedbibliotheken 2018Wijzer Waarderen - Overlegplatform voor erfgoedbibliotheken 2018
Wijzer Waarderen - Overlegplatform voor erfgoedbibliotheken 2018
Vlaamse Erfgoedbibliotheken
 
Waarderen van krantencollecties: een praktijkvoorbeeld - Overlegplatform voor...
Waarderen van krantencollecties: een praktijkvoorbeeld - Overlegplatform voor...Waarderen van krantencollecties: een praktijkvoorbeeld - Overlegplatform voor...
Waarderen van krantencollecties: een praktijkvoorbeeld - Overlegplatform voor...
Vlaamse Erfgoedbibliotheken
 
Overleg Cultureel Erfgoed: belangenbehartiger van cultureel erfgoed - Overleg...
Overleg Cultureel Erfgoed: belangenbehartiger van cultureel erfgoed - Overleg...Overleg Cultureel Erfgoed: belangenbehartiger van cultureel erfgoed - Overleg...
Overleg Cultureel Erfgoed: belangenbehartiger van cultureel erfgoed - Overleg...
Vlaamse Erfgoedbibliotheken
 
Beleid Vlaamse Erfgoedbibliotheek 2019-2023 / Vlaamse Erfgoedbibliotheek 2.0 ...
Beleid Vlaamse Erfgoedbibliotheek 2019-2023 / Vlaamse Erfgoedbibliotheek 2.0 ...Beleid Vlaamse Erfgoedbibliotheek 2019-2023 / Vlaamse Erfgoedbibliotheek 2.0 ...
Beleid Vlaamse Erfgoedbibliotheek 2019-2023 / Vlaamse Erfgoedbibliotheek 2.0 ...
Vlaamse Erfgoedbibliotheken
 
Het kwaliteitslabel in de praktijk - Overlegplatform voor erfgoedbibliotheken...
Het kwaliteitslabel in de praktijk - Overlegplatform voor erfgoedbibliotheken...Het kwaliteitslabel in de praktijk - Overlegplatform voor erfgoedbibliotheken...
Het kwaliteitslabel in de praktijk - Overlegplatform voor erfgoedbibliotheken...
Vlaamse Erfgoedbibliotheken
 
Cultureel-erfgoedprojecten van de Vlaamse Overheid en kwaliteitslabel - Overl...
Cultureel-erfgoedprojecten van de Vlaamse Overheid en kwaliteitslabel - Overl...Cultureel-erfgoedprojecten van de Vlaamse Overheid en kwaliteitslabel - Overl...
Cultureel-erfgoedprojecten van de Vlaamse Overheid en kwaliteitslabel - Overl...
Vlaamse Erfgoedbibliotheken
 

More from Vlaamse Erfgoedbibliotheken (20)

Overlegplatform_2023_Fotoreportage.pdf
Overlegplatform_2023_Fotoreportage.pdfOverlegplatform_2023_Fotoreportage.pdf
Overlegplatform_2023_Fotoreportage.pdf
 
Overlegplatform 2023_20230915_2_Overlegplatform_JonasVanMulder_KADOC-.pdf
Overlegplatform 2023_20230915_2_Overlegplatform_JonasVanMulder_KADOC-.pdfOverlegplatform 2023_20230915_2_Overlegplatform_JonasVanMulder_KADOC-.pdf
Overlegplatform 2023_20230915_2_Overlegplatform_JonasVanMulder_KADOC-.pdf
 
BROCHURE FARO-Meerstemmigheid
BROCHURE FARO-MeerstemmigheidBROCHURE FARO-Meerstemmigheid
BROCHURE FARO-Meerstemmigheid
 
Overlegplatform 2023_20230915_1_Sarah Fierens_DBNL-klassiekers en kantlijnen....
Overlegplatform 2023_20230915_1_Sarah Fierens_DBNL-klassiekers en kantlijnen....Overlegplatform 2023_20230915_1_Sarah Fierens_DBNL-klassiekers en kantlijnen....
Overlegplatform 2023_20230915_1_Sarah Fierens_DBNL-klassiekers en kantlijnen....
 
Overlegplatform 2023_20230915_5_Diewer van der Meijden_KU_Leuven_Bibliotheken...
Overlegplatform 2023_20230915_5_Diewer van der Meijden_KU_Leuven_Bibliotheken...Overlegplatform 2023_20230915_5_Diewer van der Meijden_KU_Leuven_Bibliotheken...
Overlegplatform 2023_20230915_5_Diewer van der Meijden_KU_Leuven_Bibliotheken...
 
Overlegplatform 2023_20230915_3_Olga Van Oost_Diversiteitsplan.pptx
Overlegplatform 2023_20230915_3_Olga Van Oost_Diversiteitsplan.pptxOverlegplatform 2023_20230915_3_Olga Van Oost_Diversiteitsplan.pptx
Overlegplatform 2023_20230915_3_Olga Van Oost_Diversiteitsplan.pptx
 
Overlegplatform 2023_20230915_0_Resultaten bevraging.pdf
Overlegplatform 2023_20230915_0_Resultaten bevraging.pdfOverlegplatform 2023_20230915_0_Resultaten bevraging.pdf
Overlegplatform 2023_20230915_0_Resultaten bevraging.pdf
 
Overlegplatform 2023_20230915_4_Dries Blanchaert_Luisterpuntbibliotheek_DEF.pptx
Overlegplatform 2023_20230915_4_Dries Blanchaert_Luisterpuntbibliotheek_DEF.pptxOverlegplatform 2023_20230915_4_Dries Blanchaert_Luisterpuntbibliotheek_DEF.pptx
Overlegplatform 2023_20230915_4_Dries Blanchaert_Luisterpuntbibliotheek_DEF.pptx
 
Overlegplatform_De win win van de beroepsinlevingsstage_Vlaamse erfgoedbiblio...
Overlegplatform_De win win van de beroepsinlevingsstage_Vlaamse erfgoedbiblio...Overlegplatform_De win win van de beroepsinlevingsstage_Vlaamse erfgoedbiblio...
Overlegplatform_De win win van de beroepsinlevingsstage_Vlaamse erfgoedbiblio...
 
Overlegplatform_Ervaring met werkervaring_Erfgoedbibliotheek Hendrik Conscien...
Overlegplatform_Ervaring met werkervaring_Erfgoedbibliotheek Hendrik Conscien...Overlegplatform_Ervaring met werkervaring_Erfgoedbibliotheek Hendrik Conscien...
Overlegplatform_Ervaring met werkervaring_Erfgoedbibliotheek Hendrik Conscien...
 
Overlegplatform_De bib bende en de boekenclub_Museum M_20211119
Overlegplatform_De bib bende en de boekenclub_Museum M_20211119Overlegplatform_De bib bende en de boekenclub_Museum M_20211119
Overlegplatform_De bib bende en de boekenclub_Museum M_20211119
 
Overlegplatform_Van korte of lange duur. Vrijwilligerswerking van KADOC_20211119
Overlegplatform_Van korte of lange duur. Vrijwilligerswerking van KADOC_20211119Overlegplatform_Van korte of lange duur. Vrijwilligerswerking van KADOC_20211119
Overlegplatform_Van korte of lange duur. Vrijwilligerswerking van KADOC_20211119
 
Overlegplatform_ Tot uw dienst _Vlaamse erfgoedbibliotheken_20211119
Overlegplatform_ Tot uw dienst _Vlaamse erfgoedbibliotheken_20211119Overlegplatform_ Tot uw dienst _Vlaamse erfgoedbibliotheken_20211119
Overlegplatform_ Tot uw dienst _Vlaamse erfgoedbibliotheken_20211119
 
Waarderingstraject wiskundige oude drukken
Waarderingstraject wiskundige oude drukkenWaarderingstraject wiskundige oude drukken
Waarderingstraject wiskundige oude drukken
 
Wijzer Waarderen - Overlegplatform voor erfgoedbibliotheken 2018
Wijzer Waarderen - Overlegplatform voor erfgoedbibliotheken 2018Wijzer Waarderen - Overlegplatform voor erfgoedbibliotheken 2018
Wijzer Waarderen - Overlegplatform voor erfgoedbibliotheken 2018
 
Waarderen van krantencollecties: een praktijkvoorbeeld - Overlegplatform voor...
Waarderen van krantencollecties: een praktijkvoorbeeld - Overlegplatform voor...Waarderen van krantencollecties: een praktijkvoorbeeld - Overlegplatform voor...
Waarderen van krantencollecties: een praktijkvoorbeeld - Overlegplatform voor...
 
Overleg Cultureel Erfgoed: belangenbehartiger van cultureel erfgoed - Overleg...
Overleg Cultureel Erfgoed: belangenbehartiger van cultureel erfgoed - Overleg...Overleg Cultureel Erfgoed: belangenbehartiger van cultureel erfgoed - Overleg...
Overleg Cultureel Erfgoed: belangenbehartiger van cultureel erfgoed - Overleg...
 
Beleid Vlaamse Erfgoedbibliotheek 2019-2023 / Vlaamse Erfgoedbibliotheek 2.0 ...
Beleid Vlaamse Erfgoedbibliotheek 2019-2023 / Vlaamse Erfgoedbibliotheek 2.0 ...Beleid Vlaamse Erfgoedbibliotheek 2019-2023 / Vlaamse Erfgoedbibliotheek 2.0 ...
Beleid Vlaamse Erfgoedbibliotheek 2019-2023 / Vlaamse Erfgoedbibliotheek 2.0 ...
 
Het kwaliteitslabel in de praktijk - Overlegplatform voor erfgoedbibliotheken...
Het kwaliteitslabel in de praktijk - Overlegplatform voor erfgoedbibliotheken...Het kwaliteitslabel in de praktijk - Overlegplatform voor erfgoedbibliotheken...
Het kwaliteitslabel in de praktijk - Overlegplatform voor erfgoedbibliotheken...
 
Cultureel-erfgoedprojecten van de Vlaamse Overheid en kwaliteitslabel - Overl...
Cultureel-erfgoedprojecten van de Vlaamse Overheid en kwaliteitslabel - Overl...Cultureel-erfgoedprojecten van de Vlaamse Overheid en kwaliteitslabel - Overl...
Cultureel-erfgoedprojecten van de Vlaamse Overheid en kwaliteitslabel - Overl...
 

Workshop Transkribus

  • 2. verwelkoming en introductie tot Transkribus
  • 3. Transkribus? • 2013-2019: TranScriptorium & READ • sinds 2019: READ-COOP • tekstherkenning, beeldanalyse, structuurherkenning • TS Lite • read&search • ...
  • 4. programma 10u00 - 10u30: verwelkoming en introductie tot Transkribus 10u30 - 10u45: opladen van gedigitaliseerde tekstbestanden 10u45 - 11u30: lay-outanalyse PAUZE 11u45 - 12u30: transcriptie van handgeschreven en gedrukte teksten PAUZE 13u15 - 13u30: export van transcriptieresultaten 13u30 - 14u30: trainen van Transkribus en reeds beschikbare modellen 14u30 - 14u45: Transkribus als samenwerkingsplatform 14u45 - 15u00: korte rondvraag en afsluiting
  • 6. bestanden • bestandsformaten: • PDF, JPEG, PNG en TIFF • de bestandsgrootte/-formaat heeft een impact op de oplaad-/verwerkingstijd • JPEG = veel gebruikt formaat • beeldkwaliteit: • bestanden op minimaal 300 dpi gedigitaliseerd • voldoende wit-zwart contrast • heb aandacht voor de stand van het document tijdens het digitaliseren
  • 7. opladen: collecties tab ‘server’ • gebruikers: • ‘Manage user’ • Transkribus gebruikers zoeken via hun email-adres • rol toekennen Zoeken via email Rol toekennen
  • 8. opladen: collecties tab ‘server’ • dupliceren vs toevoegen aan diverse collecties: • optie ‘Link to different collection’ • groen “+” icoontje • werken in een en hetzelfde document • optie ‘Duplicate/copy’ • pagina icoontje • werken op een kopie van het document
  • 9. opladen: oplaadmogelijkheden tab ‘server’ - map icoontje • eigen scans • ‘importeren naar server’ is de meest duurzame optie • ken steeds een (gestructureerde) titel en collectie toe • Transkribus laadt enkel mappen op geen beelden • structureer beelden per editie in een map • impact op de export • opladen in bulk • via FTP server ‘ftp://transkribus.eu/’ • ideaal voor grote bestanden of datasets • bestanden ophalen via ‘Upload via private FTP’
  • 11. introductie Transkribus als tool voor: • uitvoeren automatische HTR en OCR processen • opstellen van Ground Truth bestanden • bestanden met foutvrije segmentatie en tekst ifv onderzoek of het trainen van modellen Ground Truth productie • stap 1: handmatige layout analyse of correctie HTR/OCR • proces waarbij de structuur van een scan wordt gedefinieerd • basisstructuur: regio’s, lijnen en leesvolgorde • stap 2: handmatige transcriptie of correctie HTR/OCR
  • 12. handmatige segmentatie: voorbereiding viewing profile • kleine visuele aanpassingen ifv uit te voeren taak • bovenste werkbalk > profiles • default: standaard interface • segmentation: profiel voor segmentatie met contrasterende kleuren • transcription • transcription InvisibleTabs • optie eigen profiel samenstellen
  • 13. handmatige segmentatie: voorbereiding zichtbaarheid • bovenste werkbalk > ‘Shape visibility’ > ‘Show regions’ en ‘Show baselines’ aanvinken
  • 14. handmatige segmentatie: regio’s regio’s • gebieden die structureel en inhoudelijk van elkaar verschillen • voorbeeld (afbeelding) • tekst = TextRegion • separatoren = SeparatorRegion • foto’s = ImageRegion • kader = GraphicRegion
  • 15. handmatige segmentatie: regio’s algemene regel • overlap vermijden canvas-menu • verticale werkbalk in het midden van het scherm • bevat alle functionaliteiten voor segmentatie
  • 16. handmatige segmentatie: regio’s soorten regio’s • + TR: tekstregio's • + ... • Table: tabellen • Printspace: overkoepelende regio waar alle tekst zich in bevindt • Graphic: decoraties en tekeningen • Image: foto’s en illustraties • Seperator: separatoren (schedingslijnen) • Noise: beschadigde delen
  • 17. Oefening regio’s 1. kies een pagina uit jouw collectie a. in de collectie gedeeld door Amber kan je verschillende pagina’s terugvinden b. ga naar de bovenste werkbalk en blader door de pagina’s dmv de blauwe pijlen 1. duid alle of zoveel mogelijk regio’s aan afhankelijk van de grote van jouw pagina a. ga naar het canvas-menu b. gebruik ‘TR’ voor tekstregio’s c. ga naar ‘+...’ voor andere type regio’s d. gebruik de escape toets om terug over te schakelen naar de gewone cursor
  • 18. handmatige segmentatie: correctie regio aanpassen door: • regio te selecteren en te verschuiven, vergroten en verkleinen met je muis • via de tools van het canvas-menu • passer met plus: punten toevoegen om rechthoekige vorm van de regio te wijzigen • passer met min: punten verwijderen om de rechthoekige vorm van de regio te wijzigen • schaar met H: regio horizontaal te splitsen • schaar met V: regio verticaal te splitsen • pijl: om regio’s van eenzelfde soort samen te voegen
  • 19. Oefening correctie 1. voeg twee gelijksoortige regio’s samen met de samenvoegfunctie en splits ze weer op met de knipfunctie (opdracht kan ook omgekeerd) 2. pas de vorm van een regio aan door punten toe te voegen 3. pas de vorm van een regio aan door punten te verwijderen
  • 20. handmatige segmentatie: baselines baselines: stap na het zetten van regio’s • deze definiëren waar een regel staat binnen een bepaalde regio algemene regels • iedere regel binnen een regio > nieuwe baseline • een baseline start iets voor de eerste letter van de zin en eindig iets na de laatste • mogen niet onderling of met regio’s overlappen
  • 21. handmatige segmentatie: baselines canvas-menu > + BL uitvoering • iets voor de eerste letter van de regel staan met cursor • klik éénmaal • verplaats de cursor iets voorbij de laatste letter van de regel • dubbelklik corrigeren • idem regio
  • 22. Oefening baselines 1. trek baselines voor één regio op jouw pagina a. trek één lijn te lang b. trek één lijn te kort 2. test nogmaals de correctietools uit a. selecteer de te lange baseline en maak het korter door een punt te verwijderen b. selecteer de te korte baseline maak het langer door een punt toe te voegen c. selecteer een baseline en splits deze in twee en voeg deze weer samen
  • 23. handmatige segmentatie: leesvolgorde laatste stap: leesvolgorde controleren van de regio’s en baselines • de volgorde waarin een tekst wordt gelezen zichtbaarheid • bovenste werkbalk > ‘Shape visibility’ > ‘Show regions reading order’ en ‘Show lines reading order’ aanvinken algemeen principe • van boven naar onder en van links naar rechts
  • 24. Oefening leesvolgorde 1. controleer de leesvolgorde en pas aan waar nodig a. geen foute leesvolgorde? i. klik op een nummer en geeft het een fout nummer ii. corrigeer het foute nummer
  • 25. Automatische processen: processen 1. CITlab Advanced 2. Printed Block Detection + CITlab Advanced simpele scans: 1 bladzijde met 1 kolom complexere scans: dubbelscans en bladzijden met kolommen 1 stap: - CITlab Advanced: regio’s en baselines 2 stappen: - Printed Block Detection: regio’s - CITlab Advanced: baselines handmatige correctie handmatige correctie
  • 26. Automatische processen: toepassen hoofdmenu > tab ‘Tools’ > sectie layout analysis simpele scans • methode: CITlab Advanced • uit te voeren op • Current page • Pages • Current collection • aanvinken • Find Text Regions • Find Text Lines • Run… • corrigeren
  • 27. Automatische processen: toepassen hoofdmenu > tab ‘Tools’ > sectie ‘layout analysis’ complexere scans • stap 1 • methode: Printed Block Detection • uit te voeren op • Current page • Pages • Current collection • aanvinken • Find Text Regions • Run…
  • 28. Automatische processen: toepassen hoofdmenu > tab ‘Tools’ > sectie layout analysis • stap 2 • methode: CITlab Advanced • uit te voeren op • Current page • Pages • Current collection • aanvinken • Find Lines in Regions • Run… • corrigeren
  • 29. Oefening automatische processen 1. start met een blanco scan a. via versiegeschiedenis kan je onder status ‘NEW’ terugkeren naar een blanco scan b. vergeet niet om deze op te slaan via ‘ctrl+s’ 2. pas een automatische proces toe a. bepaal welke proces geschikt is i. simpele scan? ii. complexere scan? b. pas toe
  • 30. Oefening automatische processen PAUZE we starten terug om 11u45 Bundesarchiv, Bild 183-S15390 / CC-BY-SA 3.0
  • 31. transcriptie van handgeschreven en gedrukte teksten
  • 32. handmatige transcriptie Richtlijnen/conventies • https://readcoop.eu/transkribus/howto/transkribus-transcription-conventions/ • richtlijnen ≠ reglement • Project-afhankelijk • Testfase • Machineperspetief • teken per teken met inbegrip voor (historische) spelling- en grammaticafouten* • woorden combineren (gescheiden/aaneen) • hoofdletters • doorhalingen • superscript • onduidelijkheden
  • 34. handmatige transcriptie • Viewing profiles • voorgeprogrammeerd • zelf instellen • teksteditor > sleutel-icoontje : • bij ‘profiles’ > “save current as new profile”
  • 36. Oefening transcriptie 1. Kies uit je persoonlijke reader een pagina naar wens 2. Zorg ervoor dat de regions en lijnen aangeduid zijn, en dat de te transcriberen lijnen (baselines) er ‘goed’ uitzien 3. Selecteer het transcriptie viewing profiel 4. Start met transcriberen!
  • 37. PAUZE we starten terug om 13u15 Bundesarchiv, Bild 183-S15390/ CC-BY-SA 3.0
  • 39. export opties • druk op folder met groene pijltje R Bestandsformaten: • Transkribus Document • METS: PAGE XML ALTO • PDF • text overlay • TEI • DOCX • Simple TXT • Tag export Excel/IOB • Table export
  • 40. trainen van Transkribus en reeds beschikbare modellen
  • 41. waarom een model? • Snel resultaat: 1p/30s • groot corpus • Maar niet feilloos • CER (character error rate) • <10% • ‘eerste aanzet’
  • 42. hoe werkt een model? • Extern • servers Innsbruck • niet belastend voor eigen toestel • Credits • https://readcoop.eu/transkribus/credits/
  • 43. hoe werkt een model? • OCR - HTR - ATR? • ATR : automatic text recognition > = OCR + HTR • OCR : optical character recognition • kijkt naar individuele karakters • standaard font, vast aantal opties (karakters) • HTR : handwritten text recognition • hanteert taal-logica • lettercombinaties • oneindige opties • N grams - kansberekening : “best guesses”
  • 44. een (bestaand) model kiezen • +- 100 public models • tools > text recognition > HTR (CITlab) > ‘Models …’
  • 45. een (bestaand) model kiezen • Language • Details • Description • Epochs • Show train set • Learning curve • CER • Train • Validation
  • 46. een (bestaand) model gebruiken • > Run
  • 47. een eigen model trainen • Tools > Train • Velden invullen (Model Name, Description, Language, Epochs Base Model) • Documents > Training/validation
  • 49. introductie: Transkribus Lite webgebaseerde versie Transkribus vergemakkelijkt samenwerking • https://transkribus.eu/lite/ • gebruiksvriendelijke interface • oorspronkelijk ontwikkeld voor het maken van transcripties recente updates • maken nu ook mogelijk om de automatische HTR en OCR te gebruiken • aanwezigheid van oude en nieuwe interface
  • 50. voorbereiding 1. documentbeheer • collecties • per persoon • per instelling • per titel • ... • rechten • owner • editor • transcriber • reader 1. lay-outanalyse
  • 51. voorbereiding 3. training • werking interface • richtlijnen 4. communicatie • status Transkribus • In Progress • Done • Final • Ground Truth • samenwerkingsdocument • opmerkingen • extra vermelding status
  • 52. Transkribus Lite: collectieoverzicht klik op ‘Open collection’
  • 53. Transkribus Lite: document openen klik op ‘Open Document’ Klik op ‘Open’
  • 54. Transkribus Lite: pagina viewer klik op de Edit knop
  • 55. Transkribus Lite: document editor geavanceerde opties: ● Annotation ● Advanced
  • 57. Documentatie How-to Guides Transkribus: https://readcoop.eu/transkribus/resources/how-to-guides/ Tutorials • basis NL https://www.youtube.com/watch?v=o6BRXq1S-b8&t=3031s • expert NL https://www.youtube.com/watch?v=I_KUIrwphJw&t=3070s • basis EN https://www.youtube.com/watch?v=5YCfaFNMol4&t=5419s • expert EN https://www.youtube.com/watch?v=yxLyzRZaff8&t=5473s Wiki handleiding: https://transkribus.eu/wiki/index.php/Main_Page
  • 58. Contactgegevens MoMu - Amber Tillemans amer.tillemans@momu.be Vlaamse Erfgoedbibliotheken - Team Nieuwe Tijdingen nieuwetijdingen@vlaamse-erfgoedbibliotheken.be meemoo - Astrid Vergauwe astrid.vergauwe@meemoo.be