Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

IMPACT Framework en Evaluatie by Clemens Neudecker

654 views

Published on

Presentation given on the KB IMPACT Demo Day on 16 February 2011 in The Hague.

Published in: Education
  • Be the first to comment

  • Be the first to like this

IMPACT Framework en Evaluatie by Clemens Neudecker

  1. 1. IMPACT Framework en Evaluatie Clemens Neudecker, Technisch Project Manager IMPACT
  2. 2. Achtergrond: Een uiteenlopende set van tools <ul><li>Verschillende tools van diverse ontwikkelaars, </li></ul><ul><li>gericht op specifieke problemen </li></ul><ul><li>Verschillende platforms (Windows/Linux), </li></ul><ul><li>executables, DLL’s, SDK’s, broncode </li></ul><ul><li>Prototypes of proof-of-concept, </li></ul><ul><li>state-of-the-art commerciële producten </li></ul><ul><li>Gebruikers zonder of met weinig achtergrond in computers </li></ul>
  3. 3. IMPACT Framework <ul><li>“ Een uniform technisch framework waarmee eindgebruikers op een duidelijke en consistente manier met IMPACT tools en applicaties kunnen werken” </li></ul><ul><li>Opgebouwd uit open source </li></ul><ul><li>software componenten </li></ul><ul><li>(Apache License 2.0) </li></ul><ul><li>Gebaseerd op open </li></ul><ul><li>standaarden </li></ul><ul><li>Service oriented architecture, </li></ul><ul><li>distributed processing </li></ul>
  4. 4. Applicatie integratie <ul><li>Transformatie van tools naar web services met gebruik van een generieke wrapper (Java-based) </li></ul><ul><li>Web-based implementatie van tools, platform-onafhankelijk </li></ul><ul><li>Web services kunnen worden gecombineerd in workflows (ketens) </li></ul>
  5. 5. Workflow integratie: Mashups <ul><li>OCR workflow = </li></ul><ul><li>data pipeline </li></ul><ul><li>Bouwstenen = </li></ul><ul><li>stappen in het proces (knooppunten) </li></ul><ul><li>Integratie = </li></ul><ul><li>interactie tussen knooppunten </li></ul><ul><li>Samenwerking myGrid </li></ul>
  6. 6. Workflow management <ul><li>Web 2.0 style registry: myExperiment </li></ul><ul><li>Lokale client: Taverna Workbench </li></ul><ul><li>Web client: project website </li></ul>
  7. 7. Voordelen <ul><li>Flexibel </li></ul><ul><li>Modulair </li></ul><ul><li>Transparant </li></ul><ul><li>Mogelijkheid tot uitbreiding </li></ul><ul><li>Kan gebruikt worden als: productieplatform, evaluatie framework, </li></ul><ul><li>systeem voor digitale duurzaamheid – en nog veel meer! </li></ul>
  8. 8. Evaluatie <ul><li>Bibliotheken selecteren afbeeldingen voor datasets </li></ul><ul><li>(toevallig & met focus op een collectie) </li></ul><ul><li>Ground truth wordt geproduceerd </li></ul><ul><li>(100% correcte tekst en lay-out) </li></ul><ul><li>Vergelijking van workflows </li></ul><ul><li>(verschillende combinaties van tools) </li></ul>
  9. 9. Image Datasets <ul><li>Collectie van datasets per institutie, status November 2010: </li></ul><ul><li>- 534,193 afbeeldingen in totaal (met uniek ID) </li></ul><ul><li>- 3.2 TB aan ruimte </li></ul><ul><li>- Metadata </li></ul>
  10. 10. Ground Truth <ul><li>Ground truth = 100% correcte transformatie van tekst en lay-out (coordinaten) </li></ul><ul><li>PAGE formaat specificatie </li></ul><ul><li>Ground truthing tools </li></ul><ul><li>Ground truthing richlijnen </li></ul><ul><li>Grote handmatige inspanning, </li></ul><ul><li>niet triviaal! </li></ul>
  11. 11. IMPACT Framework <ul><li>Modulaire en transparente methode voor evaluatie van specifieke workflows </li></ul>
  12. 12. Evaluatie: OCR Nauwkeurigheid
  13. 13. Gedeeltelijk gemist Gemist Samen- smelten Gesplitst Ground Truth Segmentatie Resultaat Mis-classi-ficatie Paragraaf (Onder)titel Evaluatie: Layout en Segmentatie
  14. 14. Live Demonstratie <ul><li>Workflow registry </li></ul><ul><li>Lokale client </li></ul><ul><li>Web client </li></ul>

×