Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

OCR en toepassing bij de KB by Marian Hellema

794 views

Published on

Presentation given on the KB IMPACT Demo Day on 16 February 2011 in The Hague.

Published in: Education
  • Be the first to comment

  • Be the first to like this

OCR en toepassing bij de KB by Marian Hellema

  1. 1. OCR en toepassing bij de KB IMPACT Demo-dag Marian Hellema, 16 februari 2011
  2. 2. Origineel
  3. 3. Digitaliseren <ul><li>Onder meer: </li></ul><ul><li>Image van iedere pagina </li></ul><ul><li>OCR: tekstuele versie </li></ul>
  4. 4. Waarom OCR? <ul><li>Zoeken en vinden </li></ul><ul><ul><li>fulltext search </li></ul></ul><ul><li>Presentatie </li></ul><ul><ul><li>highlighten van zoektermen </li></ul></ul><ul><ul><li>alleen-tekst-presentatie </li></ul></ul>
  5. 5. Zoeken ( fulltext search) <ul><li>Tekst wordt ge ïndexeerd in zoekmachine </li></ul>
  6. 6. Presentatie: highlighting
  7. 7. Presentatie: alleen-tekst
  8. 8. Layout-informatie <ul><li>Standaard: ALTO </li></ul><ul><li>OCR-tekst en co ördinaten </li></ul><ul><ul><li>tekstblokken, regels en woorden </li></ul></ul><ul><ul><li>co ördinaten geven de positie op de pagina aan </li></ul></ul><ul><ul><li>gekoppeld aan het image van de pagina </li></ul></ul><ul><li>informatie over de betrouwbaarheid van de tekenherkenning </li></ul><ul><li>layout-informatie </li></ul>
  9. 9. Stukje ALTO <ul><li><TextBlock ID=&quot;P1_TB00004&quot; HPOS=&quot;105&quot; VPOS=&quot;145&quot; WIDTH=&quot;457&quot; HEIGHT=&quot;57“ </li></ul><ul><li> STYLEREFS=&quot;TXT_0 PAR_LEFT&quot;> </li></ul><ul><li><TextLine ID=&quot;P1_TL00006&quot; HPOS=&quot;135&quot; VPOS=&quot;155&quot; WIDTH=&quot;423&quot; HEIGHT=&quot;43&quot;> </li></ul><ul><li> <String ID=&quot;P1_ST00019&quot; HPOS=&quot;135&quot; VPOS=&quot;163&quot; WIDTH=&quot;25&quot; HEIGHT=&quot;34“ </li></ul><ul><li>CONTENT=&quot; 9 &quot; WC=&quot;0.51&quot; CC=&quot;4&quot;/> </li></ul><ul><li>... </li></ul><ul><li> <String ID=&quot;P1_ST00020&quot; HPOS=&quot;184&quot; VPOS=&quot;157&quot; WIDTH=&quot;234&quot; HEIGHT=&quot;39&quot; </li></ul><ul><li>CONTENT=&quot; NOVEMBER &quot; WC=&quot;0.98&quot; CC=&quot;93748026&quot;/> </li></ul><ul><li>... </li></ul><ul><li> <String ID=&quot;P1_ST00021&quot; HPOS=&quot;446&quot; VPOS=&quot;155&quot; WIDTH=&quot;111&quot; HEIGHT=&quot;38&quot; </li></ul><ul><li>CONTENT=&quot; 1837 .&quot; WC=&quot;0.53&quot; CC=&quot;15654&quot;/> </li></ul><ul><li></TextLine> </li></ul><ul><li></TextBlock> </li></ul>
  10. 10. Hoe gaat OCR in zijn werk? <ul><li>bewerken van images </li></ul><ul><ul><li>despeckling, rechtzetten, ..... </li></ul></ul><ul><li>analyse van de pagina </li></ul><ul><ul><li>herkenning van illustraties, lijnen, tekstblokken, regels, woorden, .... </li></ul></ul><ul><ul><li>herkenning van logische documentstructuur: titels, paginanummers, inhoudsopgave, ... </li></ul></ul><ul><li>tekenherkenning </li></ul>
  11. 11. Hoe gaat OCR in zijn werk? <ul><li>Extra mogelijkheden: </li></ul><ul><li>training van de software </li></ul><ul><li>inzetten van woordenboeken </li></ul>
  12. 12. Waarom is IMPACT nodig?

×