CGD2021 - "Aprenent a millorar la gestió documental amb la intel·ligència artificial"
Extracció i normalització de dades
per a la difusió i explotació
transversal a la gestió documental.
BOPB (1833-1997)
Diputació de Barcelona
Jordi Vilamala
NOUS ESCENARIS. NOVES OPORTUNITATS.
www.eurecat.org
1. Objectiu del projecte
L’objectiu del projecte és estudiar i dur a
terme proves de viabilitat que permetin a la
Diputació de Barcelona tenir coneixement sobre
el potencial de les tecnologies d’indexació
automàtica i quins resultats es podrien arribar
a obtenir en el marc de la iniciativa de
digitalització de l’arxiu.
02
L’objectiu general s’aconseguirà a través de dos subojectius
operatius:
Poder indexar tots els anuncis històrics amb els
criteris actuals.
Poder extreure i generar resums dels anuncis.
www.eurecat.org
3. Metodologia de Treball
Estructurada en tres blocs diferenciats i escalonats per disposar de resultats
parcials al finalitzar cada bloc.
04
Bloc 1
• Normalització i
identificació de
fitxers digitals
Bloc 2
• Aplicació d’extracció i
generació de resums
Bloc 3
• Resum de
tecnologies i
resultats viables
www.eurecat.org
Bloc 1. Normalització i identificació fitxers
Inventari de dades i qualitat de dades
Softwares d’OCR extremadament sensibles a:
• Manca de contrast
• Transparències
• Soroll
• Baixa resolució
• Rotacions
• Falta de paral·lelisme entre línies
• Imatges RGB
Es dissenya flux automàtic per processar i corregir les imatges, si cal, que
consta dels següents paquets de tasques:
Reescalat RGB2Gray
CLAHE
(Contrast
adaptatiu)
Denoising
Binarització:
mètode Otsu
www.eurecat.org
Bloc 2. Extracció i generació de resums
Els següents passos s’estan desenvolupant en paral·lel:
Anàlisi diplomática del BOPB
Conjunt de prova a mostres OCR
de diferents anualitats
1833-1886
1887-1933
1933-1940
1940-1974
Lliure
Tesseract, i2OCR, FreeOCR,
SimpleOCR
Pagament
ABBYY FineReader
Benchmarking d’algoritmes OCR
Cal fragmentar l’arxiu abans
d’aplicar l’OCR.
TESSERACT incorpora opció
detecció text i la seva posició.
L’estat de l’art dona bons
resultats amb aquesta opció,
però dependrà d'aplicació de
regles heurístiques basades en
paraules clau que permetin
detectar l’anunci en cada cas
Fragmentació de fitxers
Es treballa amb algoritmes basats
en TRANSFORMERS
GPT-2- entrenat en anglès;
algoritme no públic. Open AI
T5 – entrenat en anglès. Google
MT5 –101 idiomes diferents; per
ser efectiu cal fine tuning. Google
GPT-3 – evolució GPT-2; model
més potent que existeix; no és
públic. Open AI
Generació de resums
Anàlisi diplomàtica del BOPB
al llarg de la publicació per
determinar característiques
de la publicació, marques de
text, idioma, codis i
separadors.
www.eurecat.org
Bloc 2. Primers resultats
S'ha convocat un procés públic per a la selecció d'un tècnic TIC. la convocatòria
es publicarà al web de l'Àrea Metropolitana de Barcelona (www.amb.cat)
l'endemà de la publicació d'aquesta convocatòria al BOPB.
Resum manual
Resum T5
https://bop.diba.cat/anunci/3141531/convocatoria-publica-per-a-la-seleccio-d-un-a-tecnic-a-especialista-en-sistemes-informatics-adscrit-a-al-servei-tic-de-la-direccio-de-serveis-generals-area-
metropolitana-de-barcelona
www.eurecat.org
Bloc 2. Primers resultats
Instruments i altres objectes relacionats amb actuacions musicals a la via pública retirats
per la Guàrdia Urbana i que fins ara no han estat reclamats pels interessats.
Transcorregut el termini de dos mesos des de la publicació d'aquesta resolució, els
instruments no retirats es lliuraran gratuïtament a entitats sense ànim de lucre i amb
finalitats socials.
Resum manual
Resum T5
https://bop.diba.cat/anunci/3145620/relacio-dels-instruments-musicals-i-altres-objectes-relacionats-amb-actuacions-musicals-a-la-via-publica-retirats-per-la-guardia-urbana-durant-els-anys-
2019-i-2020-ubicats-al-diposit-municipal-ajuntament-de-barcelona-institut-de-cultura