OCR en toepassing bij de KB by Marian Hellema

718 views
659 views

Published on

Presentation given on the KB IMPACT Demo Day on 16 February 2011 in The Hague.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
718
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

OCR en toepassing bij de KB by Marian Hellema

  1. 1. OCR en toepassing bij de KB IMPACT Demo-dag Marian Hellema, 16 februari 2011
  2. 2. Origineel
  3. 3. Digitaliseren <ul><li>Onder meer: </li></ul><ul><li>Image van iedere pagina </li></ul><ul><li>OCR: tekstuele versie </li></ul>
  4. 4. Waarom OCR? <ul><li>Zoeken en vinden </li></ul><ul><ul><li>fulltext search </li></ul></ul><ul><li>Presentatie </li></ul><ul><ul><li>highlighten van zoektermen </li></ul></ul><ul><ul><li>alleen-tekst-presentatie </li></ul></ul>
  5. 5. Zoeken ( fulltext search) <ul><li>Tekst wordt ge ïndexeerd in zoekmachine </li></ul>
  6. 6. Presentatie: highlighting
  7. 7. Presentatie: alleen-tekst
  8. 8. Layout-informatie <ul><li>Standaard: ALTO </li></ul><ul><li>OCR-tekst en co ördinaten </li></ul><ul><ul><li>tekstblokken, regels en woorden </li></ul></ul><ul><ul><li>co ördinaten geven de positie op de pagina aan </li></ul></ul><ul><ul><li>gekoppeld aan het image van de pagina </li></ul></ul><ul><li>informatie over de betrouwbaarheid van de tekenherkenning </li></ul><ul><li>layout-informatie </li></ul>
  9. 9. Stukje ALTO <ul><li><TextBlock ID=&quot;P1_TB00004&quot; HPOS=&quot;105&quot; VPOS=&quot;145&quot; WIDTH=&quot;457&quot; HEIGHT=&quot;57“ </li></ul><ul><li> STYLEREFS=&quot;TXT_0 PAR_LEFT&quot;> </li></ul><ul><li><TextLine ID=&quot;P1_TL00006&quot; HPOS=&quot;135&quot; VPOS=&quot;155&quot; WIDTH=&quot;423&quot; HEIGHT=&quot;43&quot;> </li></ul><ul><li> <String ID=&quot;P1_ST00019&quot; HPOS=&quot;135&quot; VPOS=&quot;163&quot; WIDTH=&quot;25&quot; HEIGHT=&quot;34“ </li></ul><ul><li>CONTENT=&quot; 9 &quot; WC=&quot;0.51&quot; CC=&quot;4&quot;/> </li></ul><ul><li>... </li></ul><ul><li> <String ID=&quot;P1_ST00020&quot; HPOS=&quot;184&quot; VPOS=&quot;157&quot; WIDTH=&quot;234&quot; HEIGHT=&quot;39&quot; </li></ul><ul><li>CONTENT=&quot; NOVEMBER &quot; WC=&quot;0.98&quot; CC=&quot;93748026&quot;/> </li></ul><ul><li>... </li></ul><ul><li> <String ID=&quot;P1_ST00021&quot; HPOS=&quot;446&quot; VPOS=&quot;155&quot; WIDTH=&quot;111&quot; HEIGHT=&quot;38&quot; </li></ul><ul><li>CONTENT=&quot; 1837 .&quot; WC=&quot;0.53&quot; CC=&quot;15654&quot;/> </li></ul><ul><li></TextLine> </li></ul><ul><li></TextBlock> </li></ul>
  10. 10. Hoe gaat OCR in zijn werk? <ul><li>bewerken van images </li></ul><ul><ul><li>despeckling, rechtzetten, ..... </li></ul></ul><ul><li>analyse van de pagina </li></ul><ul><ul><li>herkenning van illustraties, lijnen, tekstblokken, regels, woorden, .... </li></ul></ul><ul><ul><li>herkenning van logische documentstructuur: titels, paginanummers, inhoudsopgave, ... </li></ul></ul><ul><li>tekenherkenning </li></ul>
  11. 11. Hoe gaat OCR in zijn werk? <ul><li>Extra mogelijkheden: </li></ul><ul><li>training van de software </li></ul><ul><li>inzetten van woordenboeken </li></ul>
  12. 12. Waarom is IMPACT nodig?

×