Autoclasificación de documentos.
Buenas Prácticas y Trucos para Obtener el Mayor
Rendimiento
Enero/2014
Índice
Buenas Prácticas
Método 1: Análisis de Imágenes
Método 2: Expresiones Regulares
Ejemplo práctico
Buenas Prácticas

Calidad de la imagen: mínimo 300 DPI (puntos
por pulgada
Buenas Prácticas
Calidad de los documentos
(manchas, dobleces, mal escaneo)
Buenas Prácticas
Formatos estándares de Imagen
PDF, TIFF, PNG24, JPEG etc.
Análisis de Imágenes

Utilizando imágenes: Histograma
Análisis de Imágenes

Histograma de la imagen previa
Análisis de la Imagen
Usando el tamaño (ancho y alto)
Análisis de Imágenes
Redes Neuronales
Expresiones Regulares
Buscamos patrones en el documento
(También útil para la keyword extraction)
Cómo clasificar
documentos?

Nombre de Empresa (Telefónica, Walt-Disney)
Tipo de Documento (Factura, Contrato)
RUT ↔ C.I.F...
Cómo definir modelos?
Modelo = Plantilla = Tipo de Documento
Ejemplo: Tickets Starbucks, Tarjeta Embarque
American Airline...
Why?
There is a better way
to do document
management”
Gracias
Preguntas?
Upcoming SlideShare
Loading in …5
×

Autoclasificación de documentos con Athento: Buenas prácticas y trucos para obtener el mayor rendimiento

1,331 views

Published on

En esta presentación aprenderás:

* Qué características de los documentos nos ayudarán a obtener mejores resultados de clasificación.
* Qué mecanismos de clasificación utiliza Athento para la autoclasificación de documentos.
* Qué son modelos de clasificación.
* Como utilizar palabras clave para obtener mejores resultados de clasificación.


Published in: Technology
  • Be the first to comment

  • Be the first to like this

Autoclasificación de documentos con Athento: Buenas prácticas y trucos para obtener el mayor rendimiento

  1. 1. Autoclasificación de documentos. Buenas Prácticas y Trucos para Obtener el Mayor Rendimiento Enero/2014
  2. 2. Índice Buenas Prácticas Método 1: Análisis de Imágenes Método 2: Expresiones Regulares Ejemplo práctico
  3. 3. Buenas Prácticas Calidad de la imagen: mínimo 300 DPI (puntos por pulgada
  4. 4. Buenas Prácticas Calidad de los documentos (manchas, dobleces, mal escaneo)
  5. 5. Buenas Prácticas Formatos estándares de Imagen PDF, TIFF, PNG24, JPEG etc.
  6. 6. Análisis de Imágenes Utilizando imágenes: Histograma
  7. 7. Análisis de Imágenes Histograma de la imagen previa
  8. 8. Análisis de la Imagen Usando el tamaño (ancho y alto)
  9. 9. Análisis de Imágenes Redes Neuronales
  10. 10. Expresiones Regulares Buscamos patrones en el documento (También útil para la keyword extraction)
  11. 11. Cómo clasificar documentos? Nombre de Empresa (Telefónica, Walt-Disney) Tipo de Documento (Factura, Contrato) RUT ↔ C.I.F.
  12. 12. Cómo definir modelos? Modelo = Plantilla = Tipo de Documento Ejemplo: Tickets Starbucks, Tarjeta Embarque American Airlines
  13. 13. Why? There is a better way to do document management”
  14. 14. Gracias Preguntas?

×