Advertisement

CGD2021 - "Aprenent a millorar la gestió documental amb la intel·ligència artificial"

Congrés Govern Digital
Nov. 24, 2021
Advertisement

More Related Content

Similar to CGD2021 - "Aprenent a millorar la gestió documental amb la intel·ligència artificial"(20)

More from Congrés Govern Digital(20)

Advertisement

CGD2021 - "Aprenent a millorar la gestió documental amb la intel·ligència artificial"

  1. Extracció i normalització de dades per a la difusió i explotació transversal a la gestió documental. BOPB (1833-1997) Diputació de Barcelona Jordi Vilamala NOUS ESCENARIS. NOVES OPORTUNITATS.
  2. www.eurecat.org 1. Objectiu del projecte L’objectiu del projecte és estudiar i dur a terme proves de viabilitat que permetin a la Diputació de Barcelona tenir coneixement sobre el potencial de les tecnologies d’indexació automàtica i quins resultats es podrien arribar a obtenir en el marc de la iniciativa de digitalització de l’arxiu. 02 L’objectiu general s’aconseguirà a través de dos subojectius operatius:  Poder indexar tots els anuncis històrics amb els criteris actuals.  Poder extreure i generar resums dels anuncis.
  3. www.eurecat.org 2. Equip del Projecte 03
  4. www.eurecat.org 3. Metodologia de Treball Estructurada en tres blocs diferenciats i escalonats per disposar de resultats parcials al finalitzar cada bloc. 04 Bloc 1 • Normalització i identificació de fitxers digitals Bloc 2 • Aplicació d’extracció i generació de resums Bloc 3 • Resum de tecnologies i resultats viables
  5. www.eurecat.org Bloc 1. Normalització i identificació fitxers Inventari de dades i qualitat de dades Softwares d’OCR extremadament sensibles a: • Manca de contrast • Transparències • Soroll • Baixa resolució • Rotacions • Falta de paral·lelisme entre línies • Imatges RGB Es dissenya flux automàtic per processar i corregir les imatges, si cal, que consta dels següents paquets de tasques: Reescalat RGB2Gray CLAHE (Contrast adaptatiu) Denoising Binarització: mètode Otsu
  6. www.eurecat.org Bloc 2. Extracció i generació de resums Els següents passos s’estan desenvolupant en paral·lel: Anàlisi diplomática del BOPB Conjunt de prova a mostres OCR de diferents anualitats 1833-1886 1887-1933 1933-1940 1940-1974 Lliure Tesseract, i2OCR, FreeOCR, SimpleOCR Pagament ABBYY FineReader Benchmarking d’algoritmes OCR Cal fragmentar l’arxiu abans d’aplicar l’OCR. TESSERACT incorpora opció detecció text i la seva posició. L’estat de l’art dona bons resultats amb aquesta opció, però dependrà d'aplicació de regles heurístiques basades en paraules clau que permetin detectar l’anunci en cada cas Fragmentació de fitxers Es treballa amb algoritmes basats en TRANSFORMERS GPT-2- entrenat en anglès; algoritme no públic. Open AI T5 – entrenat en anglès. Google MT5 –101 idiomes diferents; per ser efectiu cal fine tuning. Google GPT-3 – evolució GPT-2; model més potent que existeix; no és públic. Open AI Generació de resums Anàlisi diplomàtica del BOPB al llarg de la publicació per determinar característiques de la publicació, marques de text, idioma, codis i separadors.
  7. www.eurecat.org Bloc 2. Primers resultats S'ha convocat un procés públic per a la selecció d'un tècnic TIC. la convocatòria es publicarà al web de l'Àrea Metropolitana de Barcelona (www.amb.cat) l'endemà de la publicació d'aquesta convocatòria al BOPB. Resum manual Resum T5 https://bop.diba.cat/anunci/3141531/convocatoria-publica-per-a-la-seleccio-d-un-a-tecnic-a-especialista-en-sistemes-informatics-adscrit-a-al-servei-tic-de-la-direccio-de-serveis-generals-area- metropolitana-de-barcelona
  8. www.eurecat.org Bloc 2. Primers resultats Instruments i altres objectes relacionats amb actuacions musicals a la via pública retirats per la Guàrdia Urbana i que fins ara no han estat reclamats pels interessats. Transcorregut el termini de dos mesos des de la publicació d'aquesta resolució, els instruments no retirats es lliuraran gratuïtament a entitats sense ànim de lucre i amb finalitats socials. Resum manual Resum T5 https://bop.diba.cat/anunci/3145620/relacio-dels-instruments-musicals-i-altres-objectes-relacionats-amb-actuacions-musicals-a-la-via-publica-retirats-per-la-guardia-urbana-durant-els-anys- 2019-i-2020-ubicats-al-diposit-municipal-ajuntament-de-barcelona-institut-de-cultura
  9. www.eurecat.org Conclusions Els resultats del Bloc 1 + el Bloc 2 ens han de permetre arribar a 09 Bloc 3 • Resum de tecnologies i resultats viables
  10. ORGANITZA #CGD2021 Gràcies! governdigital.cat @GovernDigital @JordiVilamala Jordi Vilamala Salvans, Cap de la Secció d’Arxiu i Gestió Documental Direcció dels Serveis de Secretaria, Adjunta a la Secretaria General Àrea de Presidència Diputació de Barcelona
Advertisement