ESTRAZIONE AUTOMATICA DI INFORMAZIONI DA DOCUMENTI CARTACEI: PROGETTO E REALIZZAZIONE DI UN SISTEMA DI SUPERVISIONE  Unive...
Scenario <ul><li>La gestione di documenti cartacei è onerosa dal punto di vista del: </li></ul><ul><ul><li>Costo di gestio...
Sistemi di document understanding <ul><li>document understanding:  estrazione  contenuto informativo  tramite tecniche di ...
Il sistema di estrazione automatica di informazioni da documenti cartacei (SEAD) <ul><li>Sistema di  document understandin...
Funzionamento del SEAD <ul><li>Ingresso:  immagine  da elaborare </li></ul><ul><li>uscita: documento rappresentato come: <...
Classe di un documento <ul><li>Insieme dei documenti che fanno riferimento ad una medesima tipologia.  </li></ul><ul><li>E...
Campo <ul><li>Documenti appartenenti alla stessa  classe  contengono le stesse informazioni.  </li></ul><ul><li>La singola...
Modello <ul><li>Insieme di documenti appartenenti alla stessa  classe  e con stesso layout </li></ul><ul><li>Esempio: </li...
Obiettivi del SEAD <ul><li>Fornito in ingresso un  documento  da elaborare il SEAD cerca in maniera automatica di: </li></...
Workflow del SEAD
Necessità interazione operatore (I) <ul><li>Il sistema può non essere in grado di individuare il modello </li></ul><ul><li...
Necessità interazione operatore (II) <ul><li>Il sistema ha applicato il modello corretto </li></ul><ul><li>L’elaborazione ...
Architettura sistema di supervisione
Client <ul><li>Web application realizzata utilizzando il Framework GWT </li></ul><ul><li>Vantaggi derivanti dall’utilizzo ...
Comunicazione client/server <ul><li>Utilizzato il meccanismo di RPC fornito fa GWT </li></ul><ul><li>Basato su servlet </l...
Business e Data tier <ul><li>Nel Business Tier vengono definiti: </li></ul><ul><ul><li>Entità </li></ul></ul><ul><ul><li>E...
Interfaccia grafica <ul><li>Progettata cercando di massimizzare: </li></ul><ul><ul><li>Intuitività di utilizzo </li></ul><...
Layout interfaccia grafica
Interfaccia grafica <ul><li>Azioni implementate: </li></ul><ul><li>Selezione manuale dei campi all’interno del documento <...
Interfaccia grafica <ul><li>Azioni implementate: </li></ul><ul><li>Inserimento valore campo in assenza di blocco adeguato ...
Upcoming SlideShare
Loading in …5
×

Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

722 views
594 views

Published on

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
722
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

  1. 1. ESTRAZIONE AUTOMATICA DI INFORMAZIONI DA DOCUMENTI CARTACEI: PROGETTO E REALIZZAZIONE DI UN SISTEMA DI SUPERVISIONE Università Degli Studi Di Trieste Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica Laureando: Luca Bressan Relatore: Prof. Alberto Bartoli Correlatori: Prof. Eric Medvet Ing. Giorgio Davanzo
  2. 2. Scenario <ul><li>La gestione di documenti cartacei è onerosa dal punto di vista del: </li></ul><ul><ul><li>Costo di gestione </li></ul></ul><ul><ul><li>Volume di documenti movimentati </li></ul></ul><ul><li>Aumenta l’utilizzo di sistemi di document understanding </li></ul>
  3. 3. Sistemi di document understanding <ul><li>document understanding: estrazione contenuto informativo tramite tecniche di elaborazione ed analisi immagini </li></ul><ul><li>Vantaggi: </li></ul><ul><li>Gestione del contenuto informativo del documento, non del documento in sé </li></ul><ul><li>Minor costo di archiviazione </li></ul><ul><li>Minor costo di gestione dell’informazione </li></ul>
  4. 4. Il sistema di estrazione automatica di informazioni da documenti cartacei (SEAD) <ul><li>Sistema di document understanding realizzato presso il laboratorio di “Reti di calcolatori” del D.E.E.I. </li></ul><ul><li>Implementa algoritmi di estrazione, sottomessi per la pubblicazione internazionale. sviluppati presso il laboratorio di “Reti di calcolatori” </li></ul>
  5. 5. Funzionamento del SEAD <ul><li>Ingresso: immagine da elaborare </li></ul><ul><li>uscita: documento rappresentato come: </li></ul><ul><ul><li>Classe </li></ul></ul><ul><ul><li>Campi </li></ul></ul><ul><ul><li>Modello </li></ul></ul>
  6. 6. Classe di un documento <ul><li>Insieme dei documenti che fanno riferimento ad una medesima tipologia. </li></ul><ul><li>Esempi di classe : </li></ul><ul><ul><li>Fatture </li></ul></ul><ul><ul><li>Bolle </li></ul></ul><ul><ul><li>Scontrini fiscali </li></ul></ul><ul><ul><li>Ecc. </li></ul></ul>
  7. 7. Campo <ul><li>Documenti appartenenti alla stessa classe contengono le stesse informazioni. </li></ul><ul><li>La singola informazione presente in un documento viene definita campo </li></ul>
  8. 8. Modello <ul><li>Insieme di documenti appartenenti alla stessa classe e con stesso layout </li></ul><ul><li>Esempio: </li></ul><ul><ul><li>Fatture emesse dal medesimo software </li></ul></ul>
  9. 9. Obiettivi del SEAD <ul><li>Fornito in ingresso un documento da elaborare il SEAD cerca in maniera automatica di: </li></ul><ul><li>Scegliere la classe corretta </li></ul><ul><li>Scegliere il modello corretto </li></ul><ul><li>Individuare i campi presenti ed estrarre l'informazione </li></ul>
  10. 10. Workflow del SEAD
  11. 11. Necessità interazione operatore (I) <ul><li>Il sistema può non essere in grado di individuare il modello </li></ul><ul><li>Esempi: </li></ul><ul><li>documento potrebbe essere associato a più modelli molto simili tra loro </li></ul><ul><li>Modello mai incontrato prima </li></ul><ul><li>La elaborazione del documento verrà guidata da un operatore </li></ul>
  12. 12. Necessità interazione operatore (II) <ul><li>Il sistema ha applicato il modello corretto </li></ul><ul><li>L’elaborazione ha però portato ad errori </li></ul><ul><li>Esempi: </li></ul><ul><li>Selezione errata del blocco da associare ad un campo </li></ul><ul><li>Campo non trovato </li></ul><ul><li>Valore estratto non corretto (errore dell’OCR) </li></ul><ul><li>L’operatore dovrà eseguire delle correzioni </li></ul>
  13. 13. Architettura sistema di supervisione
  14. 14. Client <ul><li>Web application realizzata utilizzando il Framework GWT </li></ul><ul><li>Vantaggi derivanti dall’utilizzo di GWT </li></ul><ul><ul><li>Sviluppo in linguaggio Java </li></ul></ul><ul><ul><li>Compatibilità con i diversi browser </li></ul></ul><ul><ul><li>Librerie base per la realizzazione della GUI fornite con l’SDK </li></ul></ul>
  15. 15. Comunicazione client/server <ul><li>Utilizzato il meccanismo di RPC fornito fa GWT </li></ul><ul><li>Basato su servlet </li></ul><ul><li>Permette al client di richiedere i dati da presentare </li></ul><ul><li>Permette al client di inviare al sistema le modifiche effettuate </li></ul>
  16. 16. Business e Data tier <ul><li>Nel Business Tier vengono definiti: </li></ul><ul><ul><li>Entità </li></ul></ul><ul><ul><li>EJB di interfacciamento </li></ul></ul><ul><ul><li>EJB implementativi logica </li></ul></ul><ul><li>Persistenza tramite JPA </li></ul><ul><ul><li>Permette la serializzazione/mappatura di oggetti java su database relazionali </li></ul></ul>
  17. 17. Interfaccia grafica <ul><li>Progettata cercando di massimizzare: </li></ul><ul><ul><li>Intuitività di utilizzo </li></ul></ul><ul><ul><li>Rapidità di intervento </li></ul></ul><ul><ul><li>Utilizzo dello spazio a schermo </li></ul></ul><ul><li>Fondamentale: </li></ul><ul><li>garantire elevato grado di automazione ed efficienza del processo complessivo </li></ul>
  18. 18. Layout interfaccia grafica
  19. 19. Interfaccia grafica <ul><li>Azioni implementate: </li></ul><ul><li>Selezione manuale dei campi all’interno del documento </li></ul><ul><li>Correzione del valore estratto per il singolo campo </li></ul><ul><li>Segnalazione assenza campo </li></ul>
  20. 20. Interfaccia grafica <ul><li>Azioni implementate: </li></ul><ul><li>Inserimento valore campo in assenza di blocco adeguato </li></ul><ul><li>Annullamento modifiche effettuate </li></ul><ul><li>Navigazione su documenti multipagina </li></ul>

×