Vēsturisko   materiālu  digitalizācija LNB Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010.
Digitalizācijas  vēsture LNB <ul><li>~1998.g statēģiskie lēmumi –  </li></ul><ul><ul><li>mikrofilmas vs. skenētie attēli <...
Digitizējamo datu tipi, problēmas <ul><li>Grāmatas un avīzes </li></ul><ul><ul><li>Milzīgs apjoms, reizēm slikta kvalitāte...
Lielākie projekti <ul><li>Periodika.lv - 2008 </li></ul><ul><li>DOM - 2009 </li></ul><ul><li>“ Zudusī Latvija” (Europeana ...
DiBI 2.kārtas projekta   mērķis <ul><li>Digitalizēt: </li></ul><ul><ul><li>~2.1 milj. periodisko izdevumu lpp. (~700 nosau...
Digitalizācijas process
Materiālu atlase [1] <ul><li>Periodiskie izdevumi </li></ul><ul><ul><li>Laika periods:  1760.-1995. </li></ul></ul><ul><ul...
Materiālu atlase [2] <ul><li>LNB  galvenā grāmatu krātuve </li></ul><ul><li>LNB  periodisko izdevumu nod. </li></ul><ul><l...
Skenēšana [1] <ul><li>Projekta periods: 2010. feb. – 2011. jūn. </li></ul><ul><li>Kopējais lapu skaits:  ~3.5 milj. </li><...
Skenēšana [6] <ul><li>Materiālu atlases principi </li></ul><ul><ul><li>Pieprasītākie </li></ul></ul><ul><ul><li>Fiziski sa...
Skenēšana [7] <ul><li>Pavaddokuments – katram sūtījumam </li></ul>
Skenēšana [8]
Skenēšana [9]
Skenēšana [10] <ul><li>JPEG 2000 datne katrai lappusei </li></ul><ul><ul><li>Grāmatām, žurnāliem – krāsainas (RGB) </li></...
Skenēšana [11] Katrā mapē – viena grāmata
Skenēšana [12] Katrā datnē – viena lpp
Skenēšana [13] <ul><li>Sūtījumu izsekošanas rīks </li></ul>
Skenēšana [14] Tipisks epasts digitalizēšanas gaitā
Skenēšana [15] <ul><li>“ Latviešu avīzes”, 1828. g. </li></ul>
Skenēšana [16] ~1.4 cm
Segmentēšana [1] <ul><li>Izdevuma loģisko daļu identificēšana </li></ul><ul><ul><li>Raksti/rakstu virsraksti </li></ul></u...
Segmentēšana [2] Maksims Gorkijs Rīgas jūrmalā 1905. gada rudenī ievērojamais krievu proletariāta rakstnieks M a k s i m s...
Segmentēšana [3] <ul><li>Valodas: </li></ul><ul><li>LV, GE, RU, LA, LG, SE, LT, FR, .... </li></ul><ul><li>Druka: </li></u...
Segmentēšana [4] <ul><li>Vecā druka </li></ul>
Segmentēšana [5] <ul><li>Jauktā druka </li></ul>Vecā druka Jaunā druka
Segmentēšana [6] <ul><li>Mašīnraksts </li></ul>
Segmentēšana [7] <ul><li>Vecā krievu rakstība </li></ul>
Segmentēšana [8] <ul><li>Latgaliešu </li></ul>
Segmentēšana [9] <ul><li>Franču </li></ul>
Segmentēšana [10] <ul><li>Senprūšu </li></ul>
Segmentēšana [11] <ul><li>OCR kvalitāte (pa simboliem) </li></ul><ul><ul><li>Mūsdienu tekstiem – tuvu 100% </li></ul></ul>...
Segmentēšana [12] <ul><li>Mūsdienu teksta  OCR kvalitāte </li></ul>Oriģināls OCR Simboli pareizi/kopā: 396/403 (~98%)
Segmentēšana [13] <ul><li>Vecās drukas teksta  OCR kvalitāte </li></ul>Oriģināls OCR Simboli pareizi/kopā: 685/739 (~92.7%)
Segmentēšana [14] <ul><li>Gala rezultāts: </li></ul><ul><ul><li>1 METS  datne – katram izdevumam </li></ul></ul><ul><ul><l...
Segmentēšana [15] PDF datne ar satura rādītāju
Segmentēšana [16] Atpazīts, iezīmējams un kopējams teksts
Saskarne [1] <ul><li>Mantojums-1 </li></ul>http://data.lnb.lv/digitala_biblioteka/laikraksti/
Saskarne [2] http://www.periodika.lv
Saskarne [3] <ul><li>Mantojums-1 </li></ul><ul><ul><li>Avīzes digitalizētas un pieejamas Internetā </li></ul></ul><ul><li>...
Saskarne [4] <ul><li>Austrālijas pieredze </li></ul><ul><ul><li>Austrālijas NB avīžu digitalizācijas projekts </li></ul></...
Saskarne [5] <ul><li>Austrālijas pieredze </li></ul><ul><ul><li>Lietotāju iesaiste satura pilnveidošanā </li></ul></ul>OCR...
Saskarne [6] <ul><li>Austrālijas pieredze </li></ul><ul><ul><li>Lietotāju iesaiste satura pilnveidošanā </li></ul></ul>
Saskarne [7] <ul><li>“ Gudrā” personu identificēšana </li></ul>Andris Bērziņš politiķis Andris Bērziņš aktieris Andris Bēr...
Saskarne [8] <ul><li>“ Gudrā” vietu identificēšana </li></ul>“ Mežciems”? Latvijas Ģeotelpiskās informācijas aģentūras  da...
Saskarne [9] <ul><li>“ Gudrā” vietu identificēšana </li></ul>“ Ogre”? Ogre – pilsēta Ogre – upe “ Ogre” – trikotāžas kombi...
Paldies par uzmanību! [email_address] [email_address]
Upcoming SlideShare
Loading in …5
×

Vēsturisko materiālu digitalizācija LNB

1,599 views

Published on

Arturs Zogla, Aigars Staks
Europeana Meeting, Ramava, Latvia
6 October 2010

Published in: Education, Travel, Business
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,599
On SlideShare
0
From Embeds
0
Number of Embeds
19
Actions
Shares
0
Downloads
5
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Vēsturisko materiālu digitalizācija LNB

  1. 1. Vēsturisko materiālu digitalizācija LNB Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010.
  2. 2. Digitalizācijas vēsture LNB <ul><li>~1998.g statēģiskie lēmumi – </li></ul><ul><ul><li>mikrofilmas vs. skenētie attēli </li></ul></ul><ul><li>2006. maijs digitālās bibliotēkas attīstības pāns </li></ul>DiBi misija ir organizēt Latvijas valsts un latviešu tautas kultūrvēsturiskā mantojuma saglabāšanu digitalizētā formā un nodrošināt tā pieejamību sabiedrībai.
  3. 3. Digitizējamo datu tipi, problēmas <ul><li>Grāmatas un avīzes </li></ul><ul><ul><li>Milzīgs apjoms, reizēm slikta kvalitāte, dažadas valodas </li></ul></ul><ul><li>Mikrofilmas </li></ul><ul><ul><li>Mehāniski bojājumi, zemas kvalitātes darbs </li></ul></ul><ul><li>Audio ieraksti </li></ul><ul><ul><li>Bojājumi, lēns apstrādes process </li></ul></ul><ul><li>Fotogrāfijas </li></ul><ul><ul><li>Metadatu atklāšana </li></ul></ul><ul><li>Citi – Kartes, Plakāti utt. </li></ul><ul><ul><li>Lietojamības izaicinājumi </li></ul></ul>
  4. 4. Lielākie projekti <ul><li>Periodika.lv - 2008 </li></ul><ul><li>DOM - 2009 </li></ul><ul><li>“ Zudusī Latvija” (Europeana Local) - 2010 </li></ul><ul><li>ERAF – digitālās bibliotēkas 2.kārta -2011 </li></ul><ul><li>ERAF – e-pakalpojumi - 2012 </li></ul><ul><li>... </li></ul>
  5. 5. DiBI 2.kārtas projekta mērķis <ul><li>Digitalizēt: </li></ul><ul><ul><li>~2.1 milj. periodisko izdevumu lpp. (~700 nosaukumi) </li></ul></ul><ul><ul><li>~1.4 milj. grāmatu lpp. (~7000 grāmatas) </li></ul></ul><ul><li>Izveidot vēsturisko tekstu portālu </li></ul><ul><li>Iesaistīt lietotājus satura uzlabošanā </li></ul>
  6. 6. Digitalizācijas process
  7. 7. Materiālu atlase [1] <ul><li>Periodiskie izdevumi </li></ul><ul><ul><li>Laika periods: 1760.-1995. </li></ul></ul><ul><ul><li>Tipi: avīzes, žurnāli, zinātniskie raksti </li></ul></ul><ul><ul><li>Valodas: latviešu, vācu, krievu </li></ul></ul><ul><li>Grāmatas </li></ul><ul><ul><li>Laika periods: 19.gs. vidus – 2009. </li></ul></ul><ul><ul><li>Valodas: latviešu, vācu, krievu, latgaliešu, franču, zviedru, u.c. </li></ul></ul>
  8. 8. Materiālu atlase [2] <ul><li>LNB galvenā grāmatu krātuve </li></ul><ul><li>LNB periodisko izdevumu nod. </li></ul><ul><li>LNB restaurācijas nod. </li></ul><ul><li>Latvijas Akadēmiskā bibliotēka </li></ul><ul><li>LU bibliotēka </li></ul><ul><li>LNB Silakroga depozitārijs </li></ul>
  9. 9. Skenēšana [1] <ul><li>Projekta periods: 2010. feb. – 2011. jūn. </li></ul><ul><li>Kopējais lapu skaits: ~3.5 milj. </li></ul><ul><li>Viens sūtījums reizi 2 nedēļās </li></ul><ul><ul><li>Periodika: ~46 000 lappušu </li></ul></ul><ul><ul><li>Grāmatas: ~55 000 lappušu </li></ul></ul><ul><li>Skenētājs: </li></ul>
  10. 10. Skenēšana [6] <ul><li>Materiālu atlases principi </li></ul><ul><ul><li>Pieprasītākie </li></ul></ul><ul><ul><li>Fiziski sabrūkošie (laikraksti) </li></ul></ul><ul><ul><li>Kultūrvēsturiski nozīmīgie </li></ul></ul><ul><ul><li>Vairāku izdevumu gadījumā – pirmizdevumi </li></ul></ul><ul><ul><li>Vairāku eksemplāru gadījumā – labākās kvalitātes eksemplārs </li></ul></ul>
  11. 11. Skenēšana [7] <ul><li>Pavaddokuments – katram sūtījumam </li></ul>
  12. 12. Skenēšana [8]
  13. 13. Skenēšana [9]
  14. 14. Skenēšana [10] <ul><li>JPEG 2000 datne katrai lappusei </li></ul><ul><ul><li>Grāmatām, žurnāliem – krāsainas (RGB) </li></ul></ul><ul><ul><li>Laikrakstiem – melnbaltas (Greyscale) </li></ul></ul><ul><ul><li>Izšķirtspēja: 400 dpi </li></ul></ul><ul><li>Datnes izmērs: 3-100 MB </li></ul>
  15. 15. Skenēšana [11] Katrā mapē – viena grāmata
  16. 16. Skenēšana [12] Katrā datnē – viena lpp
  17. 17. Skenēšana [13] <ul><li>Sūtījumu izsekošanas rīks </li></ul>
  18. 18. Skenēšana [14] Tipisks epasts digitalizēšanas gaitā
  19. 19. Skenēšana [15] <ul><li>“ Latviešu avīzes”, 1828. g. </li></ul>
  20. 20. Skenēšana [16] ~1.4 cm
  21. 21. Segmentēšana [1] <ul><li>Izdevuma loģisko daļu identificēšana </li></ul><ul><ul><li>Raksti/rakstu virsraksti </li></ul></ul><ul><ul><li>Attēli/attēlu paraksti </li></ul></ul><ul><ul><li>Autori </li></ul></ul><ul><ul><li>Tabulas </li></ul></ul><ul><ul><li>Reklāmas </li></ul></ul><ul><li>Teksta atpazīšana (OCR) </li></ul>
  22. 22. Segmentēšana [2] Maksims Gorkijs Rīgas jūrmalā 1905. gada rudenī ievērojamais krievu proletariāta rakstnieks M a k s i m s G o r k i j s pavadīja dažas nedēļas Rīgas jūrmalā... OCR
  23. 23. Segmentēšana [3] <ul><li>Valodas: </li></ul><ul><li>LV, GE, RU, LA, LG, SE, LT, FR, .... </li></ul><ul><li>Druka: </li></ul><ul><li>Jaunā druka </li></ul><ul><li>Vecā druka </li></ul><ul><li>Jauktā druka (jaunā+vecā) </li></ul><ul><li>Mašīnraksts </li></ul><ul><li>Rokraksts </li></ul>
  24. 24. Segmentēšana [4] <ul><li>Vecā druka </li></ul>
  25. 25. Segmentēšana [5] <ul><li>Jauktā druka </li></ul>Vecā druka Jaunā druka
  26. 26. Segmentēšana [6] <ul><li>Mašīnraksts </li></ul>
  27. 27. Segmentēšana [7] <ul><li>Vecā krievu rakstība </li></ul>
  28. 28. Segmentēšana [8] <ul><li>Latgaliešu </li></ul>
  29. 29. Segmentēšana [9] <ul><li>Franču </li></ul>
  30. 30. Segmentēšana [10] <ul><li>Senprūšu </li></ul>
  31. 31. Segmentēšana [11] <ul><li>OCR kvalitāte (pa simboliem) </li></ul><ul><ul><li>Mūsdienu tekstiem – tuvu 100% </li></ul></ul><ul><ul><li>Vecai drukai – 80% </li></ul></ul><ul><ul><li>Visblāvākajam mašīnrakstam - <50% </li></ul></ul><ul><li>Virsrakstus un attēlu parakstus labo manuāli </li></ul>
  32. 32. Segmentēšana [12] <ul><li>Mūsdienu teksta OCR kvalitāte </li></ul>Oriģināls OCR Simboli pareizi/kopā: 396/403 (~98%)
  33. 33. Segmentēšana [13] <ul><li>Vecās drukas teksta OCR kvalitāte </li></ul>Oriģināls OCR Simboli pareizi/kopā: 685/739 (~92.7%)
  34. 34. Segmentēšana [14] <ul><li>Gala rezultāts: </li></ul><ul><ul><li>1 METS datne – katram izdevumam </li></ul></ul><ul><ul><li>1 ALTO datne – katrai lappusei </li></ul></ul><ul><ul><li>1 JPG datne – katrai lappusei </li></ul></ul><ul><ul><li>1 OCR datne – katram rakstam </li></ul></ul><ul><ul><li>1 PDF datne – katram izdevumam </li></ul></ul>Nepieciešami saskarnei
  35. 35. Segmentēšana [15] PDF datne ar satura rādītāju
  36. 36. Segmentēšana [16] Atpazīts, iezīmējams un kopējams teksts
  37. 37. Saskarne [1] <ul><li>Mantojums-1 </li></ul>http://data.lnb.lv/digitala_biblioteka/laikraksti/
  38. 38. Saskarne [2] http://www.periodika.lv
  39. 39. Saskarne [3] <ul><li>Mantojums-1 </li></ul><ul><ul><li>Avīzes digitalizētas un pieejamas Internetā </li></ul></ul><ul><li>Periodika.lv </li></ul><ul><ul><li>Atpazīts avīžu teksts (OCR) un padarīts meklējams </li></ul></ul><ul><li>Nākotnes saskarne </li></ul><ul><ul><li>Lietotāju līdzdalība satura pilnveidošanā </li></ul></ul><ul><ul><li>Interaktivitāte </li></ul></ul>
  40. 40. Saskarne [4] <ul><li>Austrālijas pieredze </li></ul><ul><ul><li>Austrālijas NB avīžu digitalizācijas projekts </li></ul></ul>http://newspapers.nla.gov.au/ndp/del/home
  41. 41. Saskarne [5] <ul><li>Austrālijas pieredze </li></ul><ul><ul><li>Lietotāju iesaiste satura pilnveidošanā </li></ul></ul>OCR kļūdu labošana Komentāri Birkas
  42. 42. Saskarne [6] <ul><li>Austrālijas pieredze </li></ul><ul><ul><li>Lietotāju iesaiste satura pilnveidošanā </li></ul></ul>
  43. 43. Saskarne [7] <ul><li>“ Gudrā” personu identificēšana </li></ul>Andris Bērziņš politiķis Andris Bērziņš aktieris Andris Bērziņš politiķis Andris Bērziņš ?
  44. 44. Saskarne [8] <ul><li>“ Gudrā” vietu identificēšana </li></ul>“ Mežciems”? Latvijas Ģeotelpiskās informācijas aģentūras dati Pamatnosaukums Objekta veids Administratīvā vai teritoriālā vienība Mežciems dzc. pietura Daugavpils, Latvija, Eiropas Savienība Mežciems lielciems Jaunsvirlaukas pagasts, Jelgavas novads, agrāk Jelgavas rajons Mežciems pilsētas daļa Vidzemes priekšpilsēta, Latvija Mežciems pilsētas daļa Daugavpils, Latvija, Eiropas Savienība Mežciems skrajciems Gaujienas pagasts, Apes novads, agrāk Alūksnes rajons Mežciems vasarnīcu ciems Carnikavas novads, agrāk Rīgas rajons Mežciems viensēta Gaiķu pagasts, Brocēnu novads, agrāk Saldus rajons
  45. 45. Saskarne [9] <ul><li>“ Gudrā” vietu identificēšana </li></ul>“ Ogre”? Ogre – pilsēta Ogre – upe “ Ogre” – trikotāžas kombināts
  46. 46. Paldies par uzmanību! [email_address] [email_address]

×