Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Vēsturisko materiālu digitalizācija LNB

1,637 views

Published on

Arturs Zogla, Aigars Staks
Europeana Meeting, Ramava, Latvia
6 October 2010

Published in: Education, Travel, Business
  • Be the first to comment

Vēsturisko materiālu digitalizācija LNB

  1. 1. Vēsturisko materiālu digitalizācija LNB Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010.
  2. 2. Digitalizācijas vēsture LNB <ul><li>~1998.g statēģiskie lēmumi – </li></ul><ul><ul><li>mikrofilmas vs. skenētie attēli </li></ul></ul><ul><li>2006. maijs digitālās bibliotēkas attīstības pāns </li></ul>DiBi misija ir organizēt Latvijas valsts un latviešu tautas kultūrvēsturiskā mantojuma saglabāšanu digitalizētā formā un nodrošināt tā pieejamību sabiedrībai.
  3. 3. Digitizējamo datu tipi, problēmas <ul><li>Grāmatas un avīzes </li></ul><ul><ul><li>Milzīgs apjoms, reizēm slikta kvalitāte, dažadas valodas </li></ul></ul><ul><li>Mikrofilmas </li></ul><ul><ul><li>Mehāniski bojājumi, zemas kvalitātes darbs </li></ul></ul><ul><li>Audio ieraksti </li></ul><ul><ul><li>Bojājumi, lēns apstrādes process </li></ul></ul><ul><li>Fotogrāfijas </li></ul><ul><ul><li>Metadatu atklāšana </li></ul></ul><ul><li>Citi – Kartes, Plakāti utt. </li></ul><ul><ul><li>Lietojamības izaicinājumi </li></ul></ul>
  4. 4. Lielākie projekti <ul><li>Periodika.lv - 2008 </li></ul><ul><li>DOM - 2009 </li></ul><ul><li>“ Zudusī Latvija” (Europeana Local) - 2010 </li></ul><ul><li>ERAF – digitālās bibliotēkas 2.kārta -2011 </li></ul><ul><li>ERAF – e-pakalpojumi - 2012 </li></ul><ul><li>... </li></ul>
  5. 5. DiBI 2.kārtas projekta mērķis <ul><li>Digitalizēt: </li></ul><ul><ul><li>~2.1 milj. periodisko izdevumu lpp. (~700 nosaukumi) </li></ul></ul><ul><ul><li>~1.4 milj. grāmatu lpp. (~7000 grāmatas) </li></ul></ul><ul><li>Izveidot vēsturisko tekstu portālu </li></ul><ul><li>Iesaistīt lietotājus satura uzlabošanā </li></ul>
  6. 6. Digitalizācijas process
  7. 7. Materiālu atlase [1] <ul><li>Periodiskie izdevumi </li></ul><ul><ul><li>Laika periods: 1760.-1995. </li></ul></ul><ul><ul><li>Tipi: avīzes, žurnāli, zinātniskie raksti </li></ul></ul><ul><ul><li>Valodas: latviešu, vācu, krievu </li></ul></ul><ul><li>Grāmatas </li></ul><ul><ul><li>Laika periods: 19.gs. vidus – 2009. </li></ul></ul><ul><ul><li>Valodas: latviešu, vācu, krievu, latgaliešu, franču, zviedru, u.c. </li></ul></ul>
  8. 8. Materiālu atlase [2] <ul><li>LNB galvenā grāmatu krātuve </li></ul><ul><li>LNB periodisko izdevumu nod. </li></ul><ul><li>LNB restaurācijas nod. </li></ul><ul><li>Latvijas Akadēmiskā bibliotēka </li></ul><ul><li>LU bibliotēka </li></ul><ul><li>LNB Silakroga depozitārijs </li></ul>
  9. 9. Skenēšana [1] <ul><li>Projekta periods: 2010. feb. – 2011. jūn. </li></ul><ul><li>Kopējais lapu skaits: ~3.5 milj. </li></ul><ul><li>Viens sūtījums reizi 2 nedēļās </li></ul><ul><ul><li>Periodika: ~46 000 lappušu </li></ul></ul><ul><ul><li>Grāmatas: ~55 000 lappušu </li></ul></ul><ul><li>Skenētājs: </li></ul>
  10. 10. Skenēšana [6] <ul><li>Materiālu atlases principi </li></ul><ul><ul><li>Pieprasītākie </li></ul></ul><ul><ul><li>Fiziski sabrūkošie (laikraksti) </li></ul></ul><ul><ul><li>Kultūrvēsturiski nozīmīgie </li></ul></ul><ul><ul><li>Vairāku izdevumu gadījumā – pirmizdevumi </li></ul></ul><ul><ul><li>Vairāku eksemplāru gadījumā – labākās kvalitātes eksemplārs </li></ul></ul>
  11. 11. Skenēšana [7] <ul><li>Pavaddokuments – katram sūtījumam </li></ul>
  12. 12. Skenēšana [8]
  13. 13. Skenēšana [9]
  14. 14. Skenēšana [10] <ul><li>JPEG 2000 datne katrai lappusei </li></ul><ul><ul><li>Grāmatām, žurnāliem – krāsainas (RGB) </li></ul></ul><ul><ul><li>Laikrakstiem – melnbaltas (Greyscale) </li></ul></ul><ul><ul><li>Izšķirtspēja: 400 dpi </li></ul></ul><ul><li>Datnes izmērs: 3-100 MB </li></ul>
  15. 15. Skenēšana [11] Katrā mapē – viena grāmata
  16. 16. Skenēšana [12] Katrā datnē – viena lpp
  17. 17. Skenēšana [13] <ul><li>Sūtījumu izsekošanas rīks </li></ul>
  18. 18. Skenēšana [14] Tipisks epasts digitalizēšanas gaitā
  19. 19. Skenēšana [15] <ul><li>“ Latviešu avīzes”, 1828. g. </li></ul>
  20. 20. Skenēšana [16] ~1.4 cm
  21. 21. Segmentēšana [1] <ul><li>Izdevuma loģisko daļu identificēšana </li></ul><ul><ul><li>Raksti/rakstu virsraksti </li></ul></ul><ul><ul><li>Attēli/attēlu paraksti </li></ul></ul><ul><ul><li>Autori </li></ul></ul><ul><ul><li>Tabulas </li></ul></ul><ul><ul><li>Reklāmas </li></ul></ul><ul><li>Teksta atpazīšana (OCR) </li></ul>
  22. 22. Segmentēšana [2] Maksims Gorkijs Rīgas jūrmalā 1905. gada rudenī ievērojamais krievu proletariāta rakstnieks M a k s i m s G o r k i j s pavadīja dažas nedēļas Rīgas jūrmalā... OCR
  23. 23. Segmentēšana [3] <ul><li>Valodas: </li></ul><ul><li>LV, GE, RU, LA, LG, SE, LT, FR, .... </li></ul><ul><li>Druka: </li></ul><ul><li>Jaunā druka </li></ul><ul><li>Vecā druka </li></ul><ul><li>Jauktā druka (jaunā+vecā) </li></ul><ul><li>Mašīnraksts </li></ul><ul><li>Rokraksts </li></ul>
  24. 24. Segmentēšana [4] <ul><li>Vecā druka </li></ul>
  25. 25. Segmentēšana [5] <ul><li>Jauktā druka </li></ul>Vecā druka Jaunā druka
  26. 26. Segmentēšana [6] <ul><li>Mašīnraksts </li></ul>
  27. 27. Segmentēšana [7] <ul><li>Vecā krievu rakstība </li></ul>
  28. 28. Segmentēšana [8] <ul><li>Latgaliešu </li></ul>
  29. 29. Segmentēšana [9] <ul><li>Franču </li></ul>
  30. 30. Segmentēšana [10] <ul><li>Senprūšu </li></ul>
  31. 31. Segmentēšana [11] <ul><li>OCR kvalitāte (pa simboliem) </li></ul><ul><ul><li>Mūsdienu tekstiem – tuvu 100% </li></ul></ul><ul><ul><li>Vecai drukai – 80% </li></ul></ul><ul><ul><li>Visblāvākajam mašīnrakstam - <50% </li></ul></ul><ul><li>Virsrakstus un attēlu parakstus labo manuāli </li></ul>
  32. 32. Segmentēšana [12] <ul><li>Mūsdienu teksta OCR kvalitāte </li></ul>Oriģināls OCR Simboli pareizi/kopā: 396/403 (~98%)
  33. 33. Segmentēšana [13] <ul><li>Vecās drukas teksta OCR kvalitāte </li></ul>Oriģināls OCR Simboli pareizi/kopā: 685/739 (~92.7%)
  34. 34. Segmentēšana [14] <ul><li>Gala rezultāts: </li></ul><ul><ul><li>1 METS datne – katram izdevumam </li></ul></ul><ul><ul><li>1 ALTO datne – katrai lappusei </li></ul></ul><ul><ul><li>1 JPG datne – katrai lappusei </li></ul></ul><ul><ul><li>1 OCR datne – katram rakstam </li></ul></ul><ul><ul><li>1 PDF datne – katram izdevumam </li></ul></ul>Nepieciešami saskarnei
  35. 35. Segmentēšana [15] PDF datne ar satura rādītāju
  36. 36. Segmentēšana [16] Atpazīts, iezīmējams un kopējams teksts
  37. 37. Saskarne [1] <ul><li>Mantojums-1 </li></ul>http://data.lnb.lv/digitala_biblioteka/laikraksti/
  38. 38. Saskarne [2] http://www.periodika.lv
  39. 39. Saskarne [3] <ul><li>Mantojums-1 </li></ul><ul><ul><li>Avīzes digitalizētas un pieejamas Internetā </li></ul></ul><ul><li>Periodika.lv </li></ul><ul><ul><li>Atpazīts avīžu teksts (OCR) un padarīts meklējams </li></ul></ul><ul><li>Nākotnes saskarne </li></ul><ul><ul><li>Lietotāju līdzdalība satura pilnveidošanā </li></ul></ul><ul><ul><li>Interaktivitāte </li></ul></ul>
  40. 40. Saskarne [4] <ul><li>Austrālijas pieredze </li></ul><ul><ul><li>Austrālijas NB avīžu digitalizācijas projekts </li></ul></ul>http://newspapers.nla.gov.au/ndp/del/home
  41. 41. Saskarne [5] <ul><li>Austrālijas pieredze </li></ul><ul><ul><li>Lietotāju iesaiste satura pilnveidošanā </li></ul></ul>OCR kļūdu labošana Komentāri Birkas
  42. 42. Saskarne [6] <ul><li>Austrālijas pieredze </li></ul><ul><ul><li>Lietotāju iesaiste satura pilnveidošanā </li></ul></ul>
  43. 43. Saskarne [7] <ul><li>“ Gudrā” personu identificēšana </li></ul>Andris Bērziņš politiķis Andris Bērziņš aktieris Andris Bērziņš politiķis Andris Bērziņš ?
  44. 44. Saskarne [8] <ul><li>“ Gudrā” vietu identificēšana </li></ul>“ Mežciems”? Latvijas Ģeotelpiskās informācijas aģentūras dati Pamatnosaukums Objekta veids Administratīvā vai teritoriālā vienība Mežciems dzc. pietura Daugavpils, Latvija, Eiropas Savienība Mežciems lielciems Jaunsvirlaukas pagasts, Jelgavas novads, agrāk Jelgavas rajons Mežciems pilsētas daļa Vidzemes priekšpilsēta, Latvija Mežciems pilsētas daļa Daugavpils, Latvija, Eiropas Savienība Mežciems skrajciems Gaujienas pagasts, Apes novads, agrāk Alūksnes rajons Mežciems vasarnīcu ciems Carnikavas novads, agrāk Rīgas rajons Mežciems viensēta Gaiķu pagasts, Brocēnu novads, agrāk Saldus rajons
  45. 45. Saskarne [9] <ul><li>“ Gudrā” vietu identificēšana </li></ul>“ Ogre”? Ogre – pilsēta Ogre – upe “ Ogre” – trikotāžas kombināts
  46. 46. Paldies par uzmanību! [email_address] [email_address]

×