1. OCR
Esta tecnología tiene especial aplicabilidad en sistemas informáticos de
gestión documental, como puede intuirse. Muchas aplicaciones de gestión
documental suelen manejar documentos escritos, almacenados en archivos con
diversos formatos de imagen (pdf, jpg, tiff, etc). Esto es debido
fundamentalmente a que la base documental de este tipo de aplicaciones suele
obtenerse tras realizar un proceso de digitalización (escaneo, etc) de los
documentos impresos en papel, a fin de poder ser manejados por dicha
aplicación.
2. QUE ES OCR
El OCR (Optical character recognition) es un software de
reconocimiento de texto que saca de una imagen el texto que contiene y
lo transforma en cadenas de caracteres para guardarlos en un formato
que se pueda utilizar en programas de edición de texto.
3. VENTAJAS
La principal ventaja es la capacidad de buscar contenido dentro de un documento escaneado sin ocr. Esto
supone realizar búsquedas rápidas sin tener que perder tiempo buscando entre todo el documento, página a
página, palabra a palabra, para encontrar algo concreto.
Además, este tipo de soluciones en organizaciones que ya tienen hardware de escaneo (equipos
multifinción o escáneres) supone que no hay que reemplazar estos equipos por escáneres más modernos, en
muchos casos con la misma calidad de escaneo, y con la única aportación del software OCR en el dispositivo.
Al centralizar, dentro de un Sistema de Gestión Documental el Software OCR, podemos realizar
búsquedas directamente sobre los ficheros en formato imagen (por ejemplo un JPG) que contienen texto, y
sólo se utiliza este software en una única ubicación, el servidor que alberga el Software de Gestión Documental.
4. DESVENTAJAS
Hay varias desventajas del servicio de OCR en cuanto al coste, así como el proceso de
reconocimiento de caracteres. Inicialmente, el coste de desarrollar la reproducción a través del
proceso de OCR puede parecer lucrativo, pero si se considera el costo de todo el ciclo de vida del
sistema de OCR, el coste será mucho mayor que los datos.
De alta precisión de OCR software puede leer más de 400 caracteres por
segundo, aproximadamente, y genera menor número de errores del OCR en comparación con
cualquier software de OCR ordinaria. Por lo tanto, si usted está buscando para el proceso de
OCR que usted tiene que mantener una estación de trabajo independiente para corregir errores
del OCR.
El software de OCR no es eficiente en el reconocimiento de la escritura y las fuentes, que son
muy similares a la escritura. En tales casos, escribir manual juega mejor papel que en el proceso
de OCR.
5. BENEFICIOS
Con respecto al proceso ordinario del OCR, costo de conversión del ciclo de
vida es menor en el servicio de datos de entrada y ofrece una completa flexibilidad a
los operadores de entrada de datos preparación de documentos digitales de varios
formatos como papel o archivos de audio. Considere el servicio de transcripción
médica, donde usted necesita para preparar los documentos digitales de los archivos
de audio. OCR no puede elaborar el documento digital mediante el escaneo de los
archivos de audio. En dichos servicios, entrada de datos puede resultar mejor que el
OCR.
6. UTILIDADES
El uso de aplicaciones OCR permite extraer el contenido textual de
documentos contenidos en formato de imagen, a fin de realizar diversas
funciones de gestión documental, tales como:
Búsqueda de documentos con cierta información.
Extracción de la información concreta de un documento.
Pasar de un documento escrito contenido en un archivo de imagen, a un
archivo con formato de texto plano.
Un ejemplo sencillo de aplicación de la tecnología OCR podría ser el
siguiente. Se tiene la siguiente imagen y desea extraerse el texto contenido en
la misma.