Fep lotte wilms

618 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
618
On SlideShare
0
From Embeds
0
Number of Embeds
65
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Outline of your presentation:
  • Fep lotte wilms

    1. 1. Functional Extension Parser Lotte Wilms - Koninklijke Bibliotheek
    2. 2. Functional Extension Parser (FEP) <ul><li>De FEP zal bibliotheken dienen met de structurele annotatie van documenten </li></ul><ul><li>Een generieke regelset is ontwikkeld welke aangepast kan worden aan alle boeken van 1600 tot 2000 </li></ul><ul><li>Structuur types momenteel ondersteund: </li></ul><ul><ul><li>Pagina nummer </li></ul></ul><ul><ul><li>Bedrukt tekstgedeelte </li></ul></ul><ul><ul><li>Koppen </li></ul></ul><ul><ul><li>Inhoudsopgave (gelinked aan koppen) </li></ul></ul><ul><ul><li>Kopregel </li></ul></ul><ul><ul><li>Voetnoten </li></ul></ul><ul><ul><li>Grafische elementen met ondertitels </li></ul></ul><ul><li>Ondersteuning voor andere typen documenten zal nog komen </li></ul>
    3. 3. Hoe werkt het? <ul><li>Documenten worden verwerkt met OCR </li></ul><ul><ul><li>Standaard OCR software, zoals ABBYY, Adaptive OCR of Tesseract-OCR </li></ul></ul><ul><li>OCR XML Output bestand of ALTO file </li></ul><ul><ul><li>Informatie over layout wordt uit dit bestand gehaald en verwerkt door FEP </li></ul></ul><ul><ul><li>Verschillende typen blokken: tekst, afbeelding, tabel </li></ul></ul><ul><ul><li>Paragrafen, regels en lettergrootte </li></ul></ul><ul><ul><li>Positie van letters </li></ul></ul><ul><li>Aanpak </li></ul><ul><ul><li>Regels worden handmatig en automatisch geproduceerd </li></ul></ul>
    4. 4. Hoe komt het naar bibliotheken? <ul><li>Commerciële service </li></ul><ul><ul><li>Gerund door the Department for Digitisation and Digital Preservation (DEA) </li></ul></ul><ul><ul><li>Momenteel met enkele pilot projecten bezig: Tijdschriften, dissertaties, systeemkaarten </li></ul></ul><ul><li>Standaard web-service </li></ul><ul><ul><li>Bibliotheken kunnen de web-service direct in hun workflow opnemen, mits ze de processing pipeline beschikbaar hebben </li></ul></ul><ul><li>Batch processing </li></ul><ul><ul><li>Grote volumes van documenten kunnen geoutsourced worden en verwerkt bij DEA </li></ul></ul><ul><li>Regel aanpassing </li></ul><ul><ul><li>Voor grote aantallen documenten kan DEA de regelset aanpassen aan specifieke document types en elementen </li></ul></ul>
    5. 5. <ul><li>Principe </li></ul><ul><li>Digitale bibliotheek toepassing: Matchen van afbeelding en pagina nummer </li></ul><ul><li>Ondersteunt kwaliteitscontrole in een digitaliseringsworkflow </li></ul><ul><li>Doelstelling: Vind pagina nummers en reconstrueer de gehele rij </li></ul><ul><li>Huidige kwaliteit herkenning: 98% </li></ul><ul><li>Pagina nummer </li></ul>
    6. 6. <ul><li>Principe </li></ul><ul><li>Digitale bibliotheek toepassing: centreer images </li></ul><ul><li>Print on Demand: Produceer pre-press PDFs voor POD bedrijven </li></ul><ul><li>Verbetert afbeeldingen: micro-rechtzetten en aanpassing van maat </li></ul><ul><li>Helpt bij het maken van perfecte randen, welke bijna identiek zijn aan de originele </li></ul><ul><li>Huidige kwaliteit van herkenning: meer dan 90% </li></ul><ul><li>Bedrukt tekstgedeelte </li></ul>
    7. 7.
    8. 8.
    9. 9. <ul><li>Principe </li></ul><ul><li>Ondersteunt gemakkelijke navigatie voor digitale bibliotheek gebruikers: klik op de originele inhoudsopgave en ga naar de juiste pagina </li></ul><ul><li>Vergemakkelijkt de transformatie naar eBooks </li></ul><ul><li>Huidige kwaliteit van herkenning: nog geen precieze cijfers bekend, maar meer dan 80% kan worden verwacht </li></ul><ul><li>Gelinkede inhoudsopgave </li></ul>
    10. 10. <ul><li>Principe </li></ul><ul><li>Betere indexering voor full-text zoeken, bijv. Kunnen koppen belangrijker worden gemaakt dan lopende tekst </li></ul><ul><li>Koppen kunnen gebruikt worden voor de hierarchische structuur van boeken </li></ul><ul><li>Lezen in eBooks wordt makkelijker </li></ul><ul><li>Huidige kwaliteit van herkenning: meer dan 80% </li></ul><ul><li>Koppen </li></ul>
    11. 11. <ul><li>Principe </li></ul><ul><li>Koptitel herhaalt meestal de titel van het boek en/of hoofdstuk </li></ul><ul><li>Deze herhaalde informatie kan voor het zoeken worden genegeerd </li></ul><ul><li>Ook wordt het lezen van eBooks gemakkelijker zonder koptitel </li></ul><ul><li>Huidige kwaliteit van herkenning: 98% </li></ul><ul><li>Koptitel </li></ul>
    12. 12. <ul><li>Principe </li></ul><ul><li>Voetnoten zijn meestal commentaar op de lopende tekst en verwijzen vaak naar andere boeken of artikelen </li></ul><ul><li>Automatische detectie van voetnoten maakt de tekst beter leesbaar als eBook en zoeken wordt accurater </li></ul><ul><li>Huidige kwaliteit van herkenning: meer dan 90% </li></ul><ul><li>Voetnoten </li></ul>
    13. 13. <ul><li>Principe </li></ul><ul><li>Toepassing digitale bibliotheek: zoeken in de tekst wordt preciezer </li></ul><ul><li>eBooks: Negeer pagina nummer, custodes en signaturen </li></ul><ul><li>Bereidt de text voor op geavacanceerdere tags </li></ul><ul><li>Doelstelling: Reconstrueer het voornaamste lettertype en ‘noteer’ andere elementen </li></ul><ul><li>Huidige kwaliteit van herkenning: 99% </li></ul><ul><li>Lopende tekst </li></ul>
    14. 14. Hoe corrigeer je het? <ul><li>Online Correctie Tool </li></ul><ul><ul><li>Maakt het mogelijk om alle structurele elementen die automatisch zijn herkend te corrigerenllows </li></ul></ul><ul><ul><li>Voordelen: </li></ul></ul><ul><ul><ul><li>Gestandardiseerde workflow, output, user hoeft geen software te installeren. </li></ul></ul></ul><ul><ul><ul><li>Kan gebruikt worden in digitale bibliotheek toepassingen voor gezamenlijke verbetering van structurele elementen </li></ul></ul></ul><ul><ul><li>Nadelen </li></ul></ul><ul><ul><ul><li>Hangt af van internetverbinding (langzaam) </li></ul></ul></ul><ul><li>Lokale Correctie Tool </li></ul><ul><ul><li>Voor snelle en automatische correctie </li></ul></ul>

    ×