Your SlideShare is downloading. ×
  • Like
Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

  • 509 views
Published

 

Published in Technology , Business
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
509
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. ESTRAZIONE AUTOMATICA DI INFORMAZIONI DA DOCUMENTI CARTACEI: PROGETTO E REALIZZAZIONE DI UN SISTEMA DI SUPERVISIONE Università Degli Studi Di Trieste Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica Laureando: Luca Bressan Relatore: Prof. Alberto Bartoli Correlatori: Prof. Eric Medvet Ing. Giorgio Davanzo
  • 2. Scenario
    • La gestione di documenti cartacei è onerosa dal punto di vista del:
      • Costo di gestione
      • Volume di documenti movimentati
    • Aumenta l’utilizzo di sistemi di document understanding
  • 3. Sistemi di document understanding
    • document understanding: estrazione contenuto informativo tramite tecniche di elaborazione ed analisi immagini
    • Vantaggi:
    • Gestione del contenuto informativo del documento, non del documento in sé
    • Minor costo di archiviazione
    • Minor costo di gestione dell’informazione
  • 4. Il sistema di estrazione automatica di informazioni da documenti cartacei (SEAD)
    • Sistema di document understanding realizzato presso il laboratorio di “Reti di calcolatori” del D.E.E.I.
    • Implementa algoritmi di estrazione, sottomessi per la pubblicazione internazionale. sviluppati presso il laboratorio di “Reti di calcolatori”
  • 5. Funzionamento del SEAD
    • Ingresso: immagine da elaborare
    • uscita: documento rappresentato come:
      • Classe
      • Campi
      • Modello
  • 6. Classe di un documento
    • Insieme dei documenti che fanno riferimento ad una medesima tipologia.
    • Esempi di classe :
      • Fatture
      • Bolle
      • Scontrini fiscali
      • Ecc.
  • 7. Campo
    • Documenti appartenenti alla stessa classe contengono le stesse informazioni.
    • La singola informazione presente in un documento viene definita campo
  • 8. Modello
    • Insieme di documenti appartenenti alla stessa classe e con stesso layout
    • Esempio:
      • Fatture emesse dal medesimo software
  • 9. Obiettivi del SEAD
    • Fornito in ingresso un documento da elaborare il SEAD cerca in maniera automatica di:
    • Scegliere la classe corretta
    • Scegliere il modello corretto
    • Individuare i campi presenti ed estrarre l'informazione
  • 10. Workflow del SEAD
  • 11. Necessità interazione operatore (I)
    • Il sistema può non essere in grado di individuare il modello
    • Esempi:
    • documento potrebbe essere associato a più modelli molto simili tra loro
    • Modello mai incontrato prima
    • La elaborazione del documento verrà guidata da un operatore
  • 12. Necessità interazione operatore (II)
    • Il sistema ha applicato il modello corretto
    • L’elaborazione ha però portato ad errori
    • Esempi:
    • Selezione errata del blocco da associare ad un campo
    • Campo non trovato
    • Valore estratto non corretto (errore dell’OCR)
    • L’operatore dovrà eseguire delle correzioni
  • 13. Architettura sistema di supervisione
  • 14. Client
    • Web application realizzata utilizzando il Framework GWT
    • Vantaggi derivanti dall’utilizzo di GWT
      • Sviluppo in linguaggio Java
      • Compatibilità con i diversi browser
      • Librerie base per la realizzazione della GUI fornite con l’SDK
  • 15. Comunicazione client/server
    • Utilizzato il meccanismo di RPC fornito fa GWT
    • Basato su servlet
    • Permette al client di richiedere i dati da presentare
    • Permette al client di inviare al sistema le modifiche effettuate
  • 16. Business e Data tier
    • Nel Business Tier vengono definiti:
      • Entità
      • EJB di interfacciamento
      • EJB implementativi logica
    • Persistenza tramite JPA
      • Permette la serializzazione/mappatura di oggetti java su database relazionali
  • 17. Interfaccia grafica
    • Progettata cercando di massimizzare:
      • Intuitività di utilizzo
      • Rapidità di intervento
      • Utilizzo dello spazio a schermo
    • Fondamentale:
    • garantire elevato grado di automazione ed efficienza del processo complessivo
  • 18. Layout interfaccia grafica
  • 19. Interfaccia grafica
    • Azioni implementate:
    • Selezione manuale dei campi all’interno del documento
    • Correzione del valore estratto per il singolo campo
    • Segnalazione assenza campo
  • 20. Interfaccia grafica
    • Azioni implementate:
    • Inserimento valore campo in assenza di blocco adeguato
    • Annullamento modifiche effettuate
    • Navigazione su documenti multipagina