duizend jaar geschiedenis ligt op honderd
kilometer plank van het
de geschiedenis dijt uit, jaarlijks met kilometers

Catc...
Catch+, Scratch+, ... Scratch4All



Doel



SCRipt Analysis Tools for the Cultural Heritage



"Googelen" in digitale afb...
Catch+, Scratch+, ... Scratch4All



 .... ongeacht het handschrift.




19e eeuws handschrift        20e eeuws Sütterlins...
Catch+, Scratch+, ... Scratch4All



Methode


• patroonherkenning van woorden en delen van woorden
    • maar ... compute...
Catch+, Scratch+, ... Scratch4All



Nuttig voor archieven ?



• archieven zijn grotendeels
chronologisch geordend

• inv...
Catch+, Scratch+, ... Scratch4All



... want ...

                                    • chronologische archieven zijn
   ...
Catch+, Scratch+, ... Scratch4All



... en ...

                                    • ... chronologische archieven:

    ...
Catch+, Scratch+, ... Scratch4All



dus ...


• de indices scannen
• de digitale afbeeldingen “scratchen”

• de chronolog...
Catch+, Scratch+, ... Scratch4All



Metadata ...




• ... elke afzonderlijke paragraaf (index entry) verwijst naar een
d...
Catch+, Scratch+, ... Scratch4All



... gekoppeld aan het document
Catch+, Scratch+, ... Scratch4All



Huidige situatie

• wetenschappelijke resultaten zeer succesvol

• patroonherkennings...
Catch+, Scratch+, ... Scratch4All



Gewenste situatie


• systeem beschikbaar buiten RuG-AI-omgeving

• proces beheersbaa...
Catch+, Scratch+, ... Scratch4All



Belang


• belangrijk voor erfgoedsector:
    • het kunnen ontsluiten van handgeschre...
Catch+, Scratch+, ... Scratch4All



Belang voor Nationaal Archief



•          één meter

    “gescratchte” indices bied...
Catch+, Scratch+, ... Scratch4All



… en het archief van het Kabinet der Koningin


                                    •...
Catch+, Scratch+, ... Scratch4All



Resultaat voor andere instellingen


• software voor doorzoekbaar maken van handgesch...
Catch+, Scratch+, ... Scratch4All



Planning

• definiëren gebruiksspecificaties (2009)

• contractonderhandelingen, proj...
Upcoming SlideShare
Loading in …5
×

KVAN10 - Catch+, Schratch+ ... Schratch4All - Henny van Schie

930 views

Published on

Published in: Technology, Business
  • Be the first to comment

  • Be the first to like this

KVAN10 - Catch+, Schratch+ ... Schratch4All - Henny van Schie

  1. 1. duizend jaar geschiedenis ligt op honderd kilometer plank van het de geschiedenis dijt uit, jaarlijks met kilometers Catch+, Scratch+, … Scratch4All
  2. 2. Catch+, Scratch+, ... Scratch4All Doel SCRipt Analysis Tools for the Cultural Heritage "Googelen" in digitale afbeeldingen van handgeschreven archiefmateriaal ....
  3. 3. Catch+, Scratch+, ... Scratch4All .... ongeacht het handschrift. 19e eeuws handschrift 20e eeuws Sütterlinschrift MAAR: de computer moet elk handschrift aanleren
  4. 4. Catch+, Scratch+, ... Scratch4All Methode • patroonherkenning van woorden en delen van woorden • maar ... computer moet handschriften “leren” lezen • regelmatigheden van de inhoud van teksten (statistische computerlinguistiek ) • layout-analyse
  5. 5. Catch+, Scratch+, ... Scratch4All Nuttig voor archieven ? • archieven zijn grotendeels chronologisch geordend • inventarissen en catalogi bieden geen toegang • digitalisering van de metadata in deze toegangen levert dus te weinig toegankelijkheid op
  6. 6. Catch+, Scratch+, ... Scratch4All ... want ... • chronologische archieven zijn veelal zeer omvangrijk • en bevatten heel veel verschillende handschriften, maar ...
  7. 7. Catch+, Scratch+, ... Scratch4All ... en ... • ... chronologische archieven: • zijn vaak wel voorzien van handgeschreven (alfabetische) indices, die • de metadata bevatten van de documenten in die archieven opgeslagen
  8. 8. Catch+, Scratch+, ... Scratch4All dus ... • de indices scannen • de digitale afbeeldingen “scratchen” • de chronologische brievenseries scannen • GEEN metadata toekennen, behoudens een nummer • linken van de “gescratchte” metadata van de indices aan de chronologisch geordende brieven
  9. 9. Catch+, Scratch+, ... Scratch4All Metadata ... • ... elke afzonderlijke paragraaf (index entry) verwijst naar een document in de chronologische serie, • i.c. 1903 Maart 4, No. 13
  10. 10. Catch+, Scratch+, ... Scratch4All ... gekoppeld aan het document
  11. 11. Catch+, Scratch+, ... Scratch4All Huidige situatie • wetenschappelijke resultaten zeer succesvol • patroonherkenningssysteem lokaal bij RuG (AI) • verschillende soorten bronnen zijn bewerkt • maar: • geen mogelijkheid om nieuwe bronnen toe te voegen en te bewerken
  12. 12. Catch+, Scratch+, ... Scratch4All Gewenste situatie • systeem beschikbaar buiten RuG-AI-omgeving • proces beheersbaar en aanstuurbaar door deelnemende erfgoedinstellingen • “gescratchte” bestanden raadpleegbaar in een gebruikersvriendelijke interface
  13. 13. Catch+, Scratch+, ... Scratch4All Belang • belangrijk voor erfgoedsector: • het kunnen ontsluiten van handgeschreven materiaal, op een snellere, efficiëntere manier • belangrijk voor “het publiek”: • handgeschreven materiaal kunnen raadplegen, als ware het gedrukt • innovatief: • een nauwelijks bestaande techniek komt beschikbaar
  14. 14. Catch+, Scratch+, ... Scratch4All Belang voor Nationaal Archief • één meter “gescratchte” indices biedt toegang tot bijna • 40 meter chronologisch geordende Koninklijke besluiten, wetten en kabinetsbrieven
  15. 15. Catch+, Scratch+, ... Scratch4All … en het archief van het Kabinet der Koningin • heeft een omvang van (periode 1798-1988): - 3250 strekkende meter • en bestaat uit: - 28.000 dozen - met ca. 1000 pagina’s per doos • 28.000.000 paginas (scans)
  16. 16. Catch+, Scratch+, ... Scratch4All Resultaat voor andere instellingen • software voor doorzoekbaar maken van handgeschreven teksten, zonder volledige annotatie • mits: • de bron in één of slechts enkele handschriften is geschreven • de scans van goede kwaliteit zijn • de middelen aanwezig zijn om de computer het handschrift “aan te leren”
  17. 17. Catch+, Scratch+, ... Scratch4All Planning • definiëren gebruiksspecificaties (2009) • contractonderhandelingen, projectplan (2010 jan.-juni) • bouw systeemomgeving (2010 juli-okt.) • bouw beheersmodule (2010 okt.- 2011 feb.) • aanpassing of bouw transcriptie en zoekmodule (2011 feb.- juni) • testen en instructie gebruik (2011 juli-dec.) • oplevering (2011 laatste kwartaal)

×