Facturas y recibos Formularios de
aplicación
Formas de impuestos Formularios bancarios
Formularios médicos
Formularios de
autorización
Formularios de
construcción
…
Muchos tipos
diferentes de formas
Introducción
Machine Learning
• Ciencia de datos + Estadística
• Permite que una computadora aprenda sin ser programada
explícitamente.
• Modelos:
• Regresión
• Clasificación
• Agrupación en clústeres
• Detección de anomalías
Visión
Permite que tus apps
comprendan imágenes
y videos, detectando
rostros y sentimientos
Voz
Escucha e identifica a los
usuarios mediante su
voz, desarrolla apps que
hablen con ellos,
entiende su intención,
filtra ruido.
Decisión
Toma decisiones inteligentes
en segundos identificando
contenido no deseado,
anomalías y además crea
experiencias personalizadas
Lenguaje
Procesa el texto e identifica lo
que los usuarios quieren.
Democratizando la Inteligencia Artificial
Azure Cognitive Services
microsoft.com/cognitive
Form Recognizer Service
Extracción de datos en cualquier proceso comercial que
tome formularios y necesite generar datos estructurados
No se requiere trabajo de etiquetado y solo se necesita un
puñado de documentos de muestra para entrenar un
modelo (5 formularios)
1. Solicitud de Tarjeta de Crédito
Empresa
Solicitante
IBANs
2. Datos escritos a mano
Nombre
Empleto
Datos de contacto
3. Factura de servicios
Tablas
Monto
Nombre
Dirección
Form Recognizer
Beneficios
• Ahorre una cantidad significativa de tiempo en la lectura repetitiva de
documentos y la entrada de datos.
• Eliminar el error de entrada de datos
• Automatice los flujos de trabajo de principio a fin al agregar una toma de
decisiones inteligente.
• Encuentre y dirija documentos anómalos a un usuario para su revision
• Reduzca el tiempo y los costos, permitiendo a los empleados concentrarse
en tareas más importantes.
Precio
Instancia Tipo de documento Precio (USD)
Gratis: web / contenedor Todo 0 – 500 páginas gratis por mes
S0: web / contenedor Personalizado $50 por 1000 páginas
S0: web / contenedor Pre-built:
- Layout
- Receipt,
- Business Card
- Id
- Invoice
- Document
- W-2
$10 por 1000 páginas
Para aprender más
Documentación de Form Recognizer
https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer/
Microsoft Learn: Introducción a Form Recognizer
https://docs.microsoft.com/en-us/learn/modules/intro-to-form-recognizer/
Form Recognizer Studio
https://formrecognizer.appliedai.azure.com/studio
¡Gracias por tu atención!
Luis Beltrán
Tomás Bata University in Zlín
Tecnológico Nacional de México en Celaya
About Me:
https://about.me/luis-beltran
Editor's Notes
Uno de los problemas muy comunes que tienen las compañías es que hay demasiada información valiosa que muchas veces no se procesa o se tiene que transcribir manualmente como las facturas, recibos donde hay datos como cuántos item se compraron, montos y también formularios de aplicación ya sea para un crédito de los empleados, formas de impuestos y que muchas veces tienen un formato definido o una estructura muy muy alineada en la que lo único que cambia es la información que está contenida
Puede haber existir una de dos situaciones una es que esa información se transcribe es decir hay alguien dedicado ahí que empieza a capturer los datos para introducirlos en un sistema o simplemente se tiene el archivo en digital y no se hace nada solamente está almacenado entonces bueno qué podemos hacer para resolver esta situación. Una opción es utilizar machine learning.
Machine Learning es un campo de estudio que mezcla la ciencia de datos con la estadística para permitir a las computadoras la capacidad de "aprender" sin ser programadas explícitamente. Esto permite a los usuarios ampliar la experiencia y mejorar los resultados con una intervención humana mínima.
ML crea resultados mediante modelos de regresión, detección de anomalías, agrupación en clústeres y clasificación. ¿Qué preguntas de negocios estás tratando de resolver? Esa es la clave para determinar el tipo de algoritmo/método que vas a aplicar.
Así que ahora podrías pensar. ¿Necesito ser un experto en ML, python, redes neuronales y otras técnicas para analizar enormes conjuntos de datos con el fin de analizar documentos con una alta exactitud, precisión y confianza? ¿Es esta una tarea solo al alcance de los científicos de datos?
Gracias a los servicios cognitivos en la nube que ofrece Microsoft Azure, no necesita ser un experto o científico de datos para inyectar inteligencia artificial en sus aplicaciones.
CS incluyen APIs, SDKs y servicios disponibles que tienen como objetivo ayudar a los desarrolladores a crear aplicaciones inteligentes sin el uso de "inteligencia artificial directa" y sin la necesidad de habilidades y conocimientos de ciencia de datos. En resumen, Azure Cognitive Services permite a los desarrolladores agregar fácilmente características cognitivas a sus aplicaciones. Es decir, que las aplicaciones vean, escuchen, hablen, comprendan e incluso comiencen a razonar. La oferta de Azure Cognitive Services se puede dividir en cuatro pilares principales: visión, voz, lenguaje y decisión.
Ponga en marcha soluciones de IA en cuestión de días, no en meses.
Solucione escenarios de uso comunes con inteligencia artificial para tareas específicas para dar valor tangible a su organización rápidamente, acelerando el desarrollo y maximizando la seguridad y privacidad de los datos.
Los servicios de IA aplicados combinan Azure Cognitive Services, IA específica de tareas y lógica de negocios para ofrecerle servicios clave de IA.
Regresando a nuestro problema inicial, existe Form Recognizer, un servicio cognitivo que utiliza machine learning, deep learning y reconocimiento óptico de caracteres (OCR) para leer automáticamente la información de imágenes y archivos PDF. Form Recognizer identifica y extrae datos de sus documentos y organiza la información por usted como los montos de venta, nombres de personas que están en una sección específica del documento, como en una tabla o en la parte superior.
En este servicio existen dos opciones, suministrar ejemplos sin trabajo de etiquetado o bien etiquetando para generar un modelo personalizado.
Form Recognizer Layout API puede extraer texto y estructuras de tabla, incluidos los números de fila y columna asociados con el texto, y sus coordenadas de cuadro delimitador.
Los modelos preconstruidos de Form Recognizer están disponibles para cuatro aplicaciones: facturas, recibos de ventas, identificaciones y tarjetas de visita.
Modelo de factura
El modelo de factura preconstruida extrae datos de las facturas en varios formatos y devuelve datos estructurados. Este modelo extrae información clave como el ID de la factura, los detalles del cliente y del proveedor, la información de envío y facturación, los totales de precios y los montos de impuestos.
Además, este modelo está diseñado para analizar y devolver todo el texto y las tablas en datos estructurados para automatizar el proceso de facturación.
Modelo de recibo
Este modelo se utiliza para analizar los ingresos de ventas en inglés de restaurantes, tiendas minoristas, gasolineras y más, de Australia, Canadá, Gran Bretaña, India y los Estados Unidos. Extrae la información que necesita, como la hora y la fecha de la transacción, la información del comerciante y los montos totales y de impuestos. Los datos se pueden extraer de diferentes tipos de recibos, tanto en copias escaneadas como en imágenes telefónicas.
Modelo de ID
Este modelo extrae información de pasaportes mundiales y licencias de conducir estadounidenses, como el número de documento, el nombre, el país de residencia y la fecha de vencimiento, y la devuelve en una lista estructurada.
Modelo de tarjetas de negocio
Este modelo extrae información clave, como nombres y números de contacto, y la compila en una respuesta JSON organizada.
Modelos personalizados
Form Recognizer ofrece 'modelos' de extracción de datos personalizados que se pueden adaptar a sus formularios específicos para extraer texto, pares clave/valor, y datos de tabla.
Los modelos personalizados se crean cargando cinco o más formularios de ejemplo. A continuación, Form Recognizer "entrena" un modelo personalizado que puede extraer datos adaptados específicamente a sus formularios. Después de entrenar un modelo personalizado, puede probarlo y volver a entrenarlo para extraer datos de forma fiable de más formularios según sus necesidades.
Form Recognizer se puede integrar en aplicaciones, con SDK disponibles en muchos idiomas, shells y a través de REST, lo que le permite mejorar los flujos de trabajo existentes con datos no estructurados de documentos digitales o basados en papel.
Por ejemplo, se puede construir una aplicación móvil en la que se envía una petición web con la imagen de tu documento para que se procese en la nube y obtengas la respuesta que buscas.
Las organizaciones a menudo reciben varios tipos de formularios, de los que puede ser difícil extraer datos sin una dolorosa entrada manual de datos. Al extraer los datos digitalmente y combinarlos con los sistemas operativos existentes y los servicios de almacenamiento de datos, las organizaciones pueden obtener información y ofrecer valor a sus clientes y usuarios comerciales.
Muchos casos de uso transaccional requieren intervención manual, pero la entrada de datos puede ser tediosa y provocar errores. Form Recognizer puede integrarse en aplicaciones existentes y proporcionar una respuesta JSON estándar, lo que permite a los desarrolladores verificar la entrada manual de datos con Form Recognizer. Las respuestas estándar permiten una lógica simple para verificar si los puntos de datos de la entrada manual de datos y el Reconocedor de formularios son diferentes, por ejemplo, si se perdió un decimal durante la entrada manual de datos. Esto puede ayudar a reducir los errores y aumentar la responsabilidad en las empresas. Por ejemplo, los bancos pueden asegurarse de que los clientes no obtengan préstamos que no deberían obtener, o que no se les niegue por pequeños errores humanos, como un punto decimal fuera de lugar.