Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

dr Aleksandra Trtovac, Nove perspektive digitalizacije u arhivima - Automatsko prepoznavanje rukom pisanog teksta

7 views

Published on

Međunarodno arhivističko savetovanje, Čačak, 9-11. oktobar 2019/International archival consultation conference, Čačak, 9-11 October 2019
Teme/Themes: „Arhivi u elektornskom okruženju“/Archives in elecronic environment
Teme/Themes: Arhivska služba danas i u budućnosti. Aktuelna pitanja i problemi/Archival service today and in the future. Curent questions and problems

Published in: Education
  • Be the first to comment

  • Be the first to like this

dr Aleksandra Trtovac, Nove perspektive digitalizacije u arhivima - Automatsko prepoznavanje rukom pisanog teksta

  1. 1. Nova perspektiva digitalizacije u arhivima - automatsko prepoznavanje rukom pisanog teksta dr Adam Sofornijević dr Aleksandra Trtovac Univerzitetska biblioteka “Svetozar Marković”, Beograd „Međunarodno arhivističko savetovanje “ , Čačak 9-11.oktobar 2019.
  2. 2. Sadržaj Digitalizacija rukopisne građe Pretraga preko punog teksta Transkribus Iskustva UBSM Zaključak
  3. 3. Digitalizacija rukopisne građe • Rukopisna građa je sastavni deo bibliotečkih, arhivskih i muzejskih fondova • Deo ličnih arhivskih fondova i privatnih bibliotečkih kolekcija • Digitalizacija kao proces trajnog čuvanja, ali i otkrivanja sadržaja, njegove prezentacije i promocije
  4. 4. Pretraga preko punog teksta •Formiranje digitalne biblioteke radi upravljanja, čuvanja i obezbeđivanje pristupa digitalnim objektima, kao i promocije i prezentacije sadržaja •Digitalni dokumenti obrađeni tehnologijama za optičko prepoznavanje teksta •Pronalaženje informacija pretragom preko svake pojedinačne reči u tekstu – apsolutni cilj kvalitetne digitalne biblioteke
  5. 5. Pretraga preko punog teksta •Korisnik u fokusu •Pretvaranje rukom pisanih slova u mašinski čitljiv tekst •Tehnologija mašinskog učenja u službi raščitavanja rukom pisane građe •Promena u pristupu procesu digitalizacije naučne i kulturne baštine
  6. 6. Ključne reči Transkribus DocScan ScanTent
  7. 7. Nove tehnologije • Istraživači u laboratoriji Computer Vision Lab na Tehničkom univerzitetu u Beču kao deo projekta HORIZON 2020 READ razvijaju: – Mobilnu aplikaciju DocScan i – Prenosni uređaj ScanTent.
  8. 8. Transkribus •Transkribus - platforma za automatsko prepoznavanje, transkripciju i pretraživanje istorijskih dokumenata. •Transkribus razvija i održava Grupa za digitalizaciju i digitalnu zaštitu na Univerzitetu u Inzbruku • Finansirala ga je Evropska komisija kao deo projekta H2020 READ (Recognition and Enrichment of Archival Documents) (2015-2019), tj. projekta za prepoznavanje i obogaćivanje arhivskih dokumenata. •Od jula 2019 finansira se kroz prvu panevropsku kolaborativu u kulturi .
  9. 9. Transkribus •Pruža podršku korisnicima koji se bave transkripcijom štampanih ili rukopisnih dokumenata •Namenjen je istraživačima iz humanističkih nauka, arhivistima i bibliotekarima, volonterima, kao i IT stručnjacima •Veći deo softvera je u otvorenom pristupu
  10. 10. Alati za automatsku obradu u Transkribusu • Prepoznavanje rukopisnog teksta korišćenjem tehnologije HTR (Handwritten Text Recognition) – algoritam za mašinsko učenje zasnovan na transkripciji određenog broja stranica (ground truth) • Optičko prepoznavanje karaktera korišćenjem ABBYY Finereader Engine 11 (OCR - Optical Character Recognition) • Prepoznavanje ključnih reči (KWS - Keyword Spotting)
  11. 11. Referentni skup podataka – ground truth Transkripcija referentnih podataka pogodna je za: •Kreiranje seta podataka koji omogućava sistemu za prepoznavanje rukopisnog teksta (HTR) da nauči da dešifruje rukopisna dokumenta; •Pokretanje HTR modela na priloženim dokumentima i dobijanje automatski generisanog transkripta; •Pretraživanja punog teksta korišćenjem metode pronalaženje ključnih reči koja daje neuporedivo bolje rezultate u odnosu na standardne pretrage punog teksta; •Pripremu dokumenata za naučna izdanja.
  12. 12. Iskustva UBSM •Izrada HTR modela za srpski jezik i ćirilicu •Rukopisi Branimira Ćosića, Isidore Sekulić, Anice Savić Rebac, Uroša Džonića, Jovana Skerlića, Mike Alasa... •Saradnja sa bibliotekama, muzejima i arhivima •Saradnja sa Britanskom bibliotekom na izradi HTR modela za arapsko pismo
  13. 13. Iskustva UBSM •Saradnja sa Istorijskim arhivom grada Novog Sada na realizaciji projekta “Nova paradigma arhivske delatnosti: obezbeđivanje infrastrukturnih preduslova za potpunu pretraživost dokumenata Istorijskog arhiva grada Novog Sada” •Izrada portala za pretraživanje 10.000 skeniranih strana arhivske građe putem primene tehnologije HTR (Handwritten Text Recognition) za prepoznavanje ključnih reči (KWS - Keyword Spotting)
  14. 14. Transkript arapskog rukopisa
  15. 15. Prva panevropska Kolaborativa •Organizacioni okvir dugoročne održivosti rezultata projekta HORIZON 2020 READ - prva panevropska Kolaborativa u oblasti kulture i nauke na Evropskom istraživačkom prostroru. •U okviru zadružnog principa, koji obezbeđuje kompanijske organizacione osnove, uz istovremeno garantovanje reinvestiranja ostvarenog profita u unapređenje usluga •Kolaborativa koju čine organizacije i pojedinci iz svih zemalja Evrope će počev od 1. juna 2019. omogućiti razvijanje servisa pokrenutih kroz projekat HORIZON 2020 READ.
  16. 16. Pre zaključka •“... mi imamo nešto što se zove kriva tehnološkog razvoja koja je eksponencijalna i da ako idemo duž te krive, nikada nećemo stići one koji su daleko odmakli, ali da možemo preskočiti i da ima nešto što se zove prednost onoga koji kasno dođe, koji ne mora prolaziti korake koji su drugi prošli već se može odmah uključiti u više nivoe", skreće pažnju Sofronijević.
  17. 17. Zaključak •Univerzitetska biblioteka “Svetozar Marković” u Beogradu razvija procese digitalizacije kroz projekte koje podržavaju Ministarstvo kulture i informisanja Republike Srbije i EU •U saradnji sa domaćim ustanovama kulture, učešćem u ovakvim projektima, potpuno se menja pristup procesu digitalizacije naučne i kulturne baštine •Omogućava se opsežna pretraga preko punog teksta bibliotečkih fondova, arhivske i muzejske građe, kao i privatnih zbirki istorijskih dokumenata •Fokus digitalizacije pomeren od centra ka spolja, a na zahtev i u skladu sa potrebama savremenog korisnika.
  18. 18. HVALA NA PAŽNJI! sofronijevic@unilib.rs aleksandra@unilib.rs

×