Copyright © OpenText Corporation. All rights reserved.Open Text CaptureCenterClassificação e ExtraçãoAutomática de Dados d...
Tecnologias de Documento daOpen Text
Tecnologias de Documento da Open Text Antigo CGK, Computer Gesellschaft Konstanz Processando Documentos desde 1972 Inco...
Alguns de Nossos Clientes4OEM Clientes Diretoso
Beneficios, Escopo e Casos deUso
OCC – BeneficioCopyright © Open Text Corporation. All rights reserved.QMelhorar a Qualidade da Informação Melhorar o comp...
ProdutosSlide 7Nota FiscalRequerimentoVerificaçãoSolicitaçãoOpenTextEnterprise ScanInvoice Capture CenterOpenText Capture ...
Casos de UsoSlide 8GeraDinheiroEconomizaDinheiroDocumentoEletrônicoQualificadoPermiteWorkflowDigitalCaptura deDados /Docum...
Caso de Uso: Digitalização de CorrespondênciaLAD I G I TP A P E LTempo DecorridoDistribuição InternaTrabalho ProdutivoAnál...
Funcionalidades e Características
Visão Geral dos Componentes do OCCIM EXFax, Email,FTP site,Pasta de RedeSharePointCliente doEnterprise ScanAplicações deNe...
Reconhecimento: Diferente Tipos de DocumentosDocumentosEstruturados> FormuláriosDocumentos Semi-Estruturados> Correspondên...
Passos no Reconhecimento de DocumentosSlide 13Interpretação: Reforçar os dados extraídos dentro do contexto da informação2...
ImportaçãoImportação Direta a partir do Enterprise Scan Estrutura de documento e pasta mantidos ES de meta dados mapeado...
Reconhecimento: Separação de DocumentoDocumento 1 Documento 2 Documento 3 Coleta de páginas individuais em documentos Fr...
Reconhecimento: Classificação de Documento16 Classifique cada documento deacordo com a sua categoria MétodosBaseado em R...
Reconhecimento: Motores de ExtraçãoCopyright © Open Text Corporation. All rights reserved.Baseado em RegrasClassificação &...
Extração de Formas LivresNormalizar“10/24/10”Format (US)Day = 24Month = OctYear = 201024.10.2010Decompõe a “string” emsubu...
Efeito de Longo Prazo das Técnicas de FormaLivreAbordagem de OCCReconhecimentode forma livreTecnologiaAdaptativa(=aprendiz...
Opção de Nota FiscalO Capture Center utiliza uma base de conhecimentointerna de notas fiscaisAs regras de extração forma d...
Extração de Dados de Nota FiscalFornecedorNúmero da NotaLinha de ItensValor LiquidoValor TotalData da NotaNúmero do Pedido...
Amostra de Dados de Nota FiscalDadosID do fornecedor como no dado mestreNome do vendedorComo o dado é extraído?Pesquisa de...
Amostra de Dados de Nota Fiscal (continuação)DadosLiquido, bruto, valor e moeda (padrão)Percentagem de imposto(s), valor(s...
Amostra de Dados de Nota Fiscal (continuação)DataData de emissãoNúmero de referência do fornecedorComo os dados são extraí...
Amostra de Dados de Nota Fiscal (continuação)DadoNúmero do pedido de comprasComo os dados são extraídos?Uso de base de con...
Amostra de Dados de Nota Fiscal (continuação)DataNúmero do pedido, número de ordem dalinha, quantidade, unidade, preçounit...
OCR – Estado da ArteImpressoTexto OCREscrita ManualEscrita CursivaPraticamenteperfeitoPerfeito ouaceitávelPara produçãoApe...
Reconhecimento: Balanceamento de Carga Fácil de Escalar Maior rendimento com clusters de servidores de reconhecimento S...
ValidaçãoCopyright © Open Text Corporation. All rights reserved. Correção deSeparação de documentoClassificação de docume...
Entrada com um só cliqueCopyright © Open Text Corporation. All rights reserved.
Validação de Desenho de MáscaraSlide 31 Copyright © Open Text Corporation. All rights reserved.
ExportaçãoContent Server (LiveLink) Pasta dependente da classe dodocumento Configuração de nome de arquivo Meta dados p...
ConfiguraçãoImportação de esquema de dados das categorias do Content Serverou das bibliotecas do SharePointFácil definição...
Monitoramento e RelatóriosFerramenta de monitoramento para controlar fase deprodução Saúde das fontes de entrada e dos re...
Interface para criação de Scripts eProgramaçãoEscreva scripts em C#Programe com .net (DLLs)Pontos de entrada durante o rec...
Slide 36ObrigadoMarcelo CarreraSales ExecutiveAv. Ibirapuera, 2332, Torre II, Cj. 132Tel: +55 11 5054-8373Mobile: +55 11 9...
Upcoming SlideShare
Loading in …5
×

Classificação e extração com occ

523 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
523
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Classificação e extração com occ

  1. 1. Copyright © OpenText Corporation. All rights reserved.Open Text CaptureCenterClassificação e ExtraçãoAutomática de Dados deDocumentoMarcelo CarreraSales ExecutiveApril 20, 2013Copyright © Open Text Corporation. All rights reserved.Slide 1
  2. 2. Tecnologias de Documento daOpen Text
  3. 3. Tecnologias de Documento da Open Text Antigo CGK, Computer Gesellschaft Konstanz Processando Documentos desde 1972 Incomparável: Pacote completo de tecnologia Líder mundial em tecnologia de reconhecimento Atendimento Global Desde 2009 como parte da Open Text CDT: Captaris Document Technologies e ODT: OCÉ Document Technologies3
  4. 4. Alguns de Nossos Clientes4OEM Clientes Diretoso
  5. 5. Beneficios, Escopo e Casos deUso
  6. 6. OCC – BeneficioCopyright © Open Text Corporation. All rights reserved.QMelhorar a Qualidade da Informação Melhorar o compartilhamento de informação Aproveitar um conjunto comum de regras de negócio Reduzir erros$Reduzir Custos Operacionais Automatizar tarefas manuais Implantar uma plataforma única de entrada de documentos Reduzir preenchimento/armazenamento de papelAcelerar os Processos de NegócioDiminuir o tempo de um cicloReduzir o processamento de exceçãoMelhorar o relacionamento com clientesAumentar produtividade da equipeConformidade (“Compliance”) Garantir conformidade / auditabilidade Melhorar visibilidade dos processos de negócio Ter evidências para o caso de um litigio§§
  7. 7. ProdutosSlide 7Nota FiscalRequerimentoVerificaçãoSolicitaçãoOpenTextEnterprise ScanInvoice Capture CenterOpenText Capture CenterAplicações AlvoContent ServerTCP, IDM, VRD, C360, P360, …SharePointCopyright © Open Text Corporation. All rights reserved.
  8. 8. Casos de UsoSlide 8GeraDinheiroEconomizaDinheiroDocumentoEletrônicoQualificadoPermiteWorkflowDigitalCaptura deDados /DocumentoReduzirEntradaManual PermiteautomaçãodeProcessos Digitalização deCorrespondência Digitalizar Documentosem Arquivos Eletrônicos Conversão deDocumentos deProcessos Antigo Gerenciamento deTransações e Processos Centro de Serviços Captura Ad-HocCopyright © Open Text Corporation. All rights reserved.
  9. 9. Caso de Uso: Digitalização de CorrespondênciaLAD I G I TP A P E LTempo DecorridoDistribuição InternaTrabalho ProdutivoAnálise deDocumentoDigitalizaçãoPreparaçãoEntrega deCorrespondênciaDistribuição InternaCopiaTrabalho ProdutivoEntregaTransporteInternoSeleçãoEntrega deCorrespondênciaCopyright © Open Text Corporation. All rights reserved.
  10. 10. Funcionalidades e Características
  11. 11. Visão Geral dos Componentes do OCCIM EXFax, Email,FTP site,Pasta de RedeSharePointCliente doEnterprise ScanAplicações deNegócioArquivoConfiguraçãoMonitoramentoExpediçãoValidaçãoReconhecimentoOpen Text Capture CenterCopyright © Open Text Corporation. All rights reserved.
  12. 12. Reconhecimento: Diferente Tipos de DocumentosDocumentosEstruturados> FormuláriosDocumentos Semi-Estruturados> Correspondência B2BDocumentosDesestruturados> Correspondência C2BOs dados estão emgrupos lógicos masas suas posições sãodesconhecidasOs dados podemestar em qualquerlugar do documentoDados em posiçõesfixasCopyright © Open Text Corporation. All rights reserved.
  13. 13. Passos no Reconhecimento de DocumentosSlide 13Interpretação: Reforçar os dados extraídos dentro do contexto da informação21012010332.29 USDX-44277K441258-3Data: Jan 21. 2010Valor: 332,29 $Nr do Pedido: X-44277Fornecedor: Mueller & FriendsClassificação: Identificação do tipo de documento„Nota Fiscal”„Notas de Entrega“„Pedidos“„Outros“Extração: Buscar informação básica no documentoData: Jan 21. 2010Valor: 332,29 $Nr do Pedido: X-44277Fornecedor: Mueller & FriendsInvoice…Separação: Dividir um lote de imagens em documentos individuais (várias páginas)Copyright © Open Text Corporation. All rights reserved.
  14. 14. ImportaçãoImportação Direta a partir do Enterprise Scan Estrutura de documento e pasta mantidos ES de meta dados mapeados para o index de dados do OCCEntrada de Documento (hot spot) por File system E-Mail FTP site SharePointTipos de Documentos Documentos Bitmap: TIFF, GIF, JPG, … Petro e Branco, escala de cinza, colorido Documentos PDFCopyright © Open Text Corporation. All rights reserved.
  15. 15. Reconhecimento: Separação de DocumentoDocumento 1 Documento 2 Documento 3 Coleta de páginas individuais em documentos Fronteiras do documento podem ser definidas por bordasCódigo de BarraPatch CodeNúmero Fixo de PáginasConteúdo e regrasCopyright © Open Text Corporation. All rights reserved.
  16. 16. Reconhecimento: Classificação de Documento16 Classifique cada documento deacordo com a sua categoria MétodosBaseado em Regras, ex. certasfrases ou objetos em algumaposiçãoAdaptativa: aprendizado baseadoem amostrasPontos de identificação: pornúmeros, códigos de barrasUma combinação dos tipos acima
  17. 17. Reconhecimento: Motores de ExtraçãoCopyright © Open Text Corporation. All rights reserved.Baseado em RegrasClassificação &ExtraçãoAdaptativaAuto-rotaçãoDesentortar /Limpar ImagemRemoção deLinhasFiltro de CorAdaptiveBinarization…Processamentode ImagensCódigo deBarras 1DCódigo deBarras 2DPatch CodeCheck BoxMark SensePadrão deReconhecimentoImpressoraEscrita a mãoOCR Fonte.g. MICRCore OCRReconhecimentode FormuláriosReconhecimentode formas livresClassificação(ACT)Extração(ART)Bando de dadosbase (SnapMatch)Motor de Reconhecimento (RecoStar) Leitor de Documento(DOKuStar)
  18. 18. Extração de Formas LivresNormalizar“10/24/10”Format (US)Day = 24Month = OctYear = 201024.10.2010Decompõe a “string” emsubunidades e reformataconforme exigidoVericarCompara com regras denegócio e verifica se fazsentidoPeríodovalido?24.10.2010yes noExportaEntradaManualAnalisarDateWordNumberBusca identicações quefazem sentido com asregrasTransforma pixels emcaracteres por meio doreconhecimento ótico decaracteresOCRCLERK: 12DATE SHIPPEDORDER DATE10/30/0210/24/02COVER CODEPA3ExtrairOrder_Date =“10/24/10”Encontra a data corretaentre todas asalternaticas possiveisCopyright © Open Text Corporation. All rights reserved.
  19. 19. Efeito de Longo Prazo das Técnicas de FormaLivreAbordagem de OCCReconhecimentode forma livreTecnologiaAdaptativa(=aprendizado)Combinandoforma livre eadaptativaReconhecimentobaseado(template) naformaAumento da taxa de reconhecimento durante tempo de produçãoCopyright © Open Text Corporation. All rights reserved.
  20. 20. Opção de Nota FiscalO Capture Center utiliza uma base de conhecimentointerna de notas fiscaisAs regras de extração forma desenvolvidas e testadas combase em amostras de notas fiscais de mais de 4000fornecedores diferentes.Exemplos de idiomas de mais de 25 paises incluindo oBrasilTaxa de reconhecimento de mais de 95% no nível decampos, com valores médios entre 70% a 90%Refinamento continuo baseado na experiência de camposCopyright © Open Text Corporation. All rights reserved.
  21. 21. Extração de Dados de Nota FiscalFornecedorNúmero da NotaLinha de ItensValor LiquidoValor TotalData da NotaNúmero do PedidoMoedaNota da EntregaCopyright © Open Text Corporation. All rights reserved.
  22. 22. Amostra de Dados de Nota FiscalDadosID do fornecedor como no dado mestreNome do vendedorComo o dado é extraído?Pesquisa de base de dados SnapMatchUtiliza o dado mestre de fornecedor incluindoinformações auxiliares (nome daempresa, número de FAX etelefone, endereço, …)UsoNecessário para a postagemCampos mandatórios para formulários de notafiscalConfiguraçãoScript para download para base defornecedoresNúmero Tel / FaxNomeEndereçoConta do bancoDados mestre(extraido doERP)Outro…ID do fornecedorNome do fornecedorFornecedorCopyright © Open Text Corporation. All rights reserved.
  23. 23. Amostra de Dados de Nota Fiscal (continuação)DadosLiquido, bruto, valor e moeda (padrão)Percentagem de imposto(s), valor(s), frete, …(opcional)Como os dados são extraídos?Uso de base de conhecimento de nota fiscalPesquisa por itens (uma nota fiscal é cheia devalores)Relacionamento lógicos e geométricos entrevalores são utilizados para remover asambiguidadesUsoNecessário para a postagemCampos mandatórios para formulários de notafiscalConfiguraçãoConfiguração de idiomaValor(es)Copyright © Open Text Corporation. All rights reserved.
  24. 24. Amostra de Dados de Nota Fiscal (continuação)DataData de emissãoNúmero de referência do fornecedorComo os dados são extraídos?Uso de base de conhecimento de nota fiscalPesquisa por itens (uma nota fiscal é cheia devalores)Normalmente a data e o número da nota fiscalestão próximosUsoNecessário para a postagemCampos mandatórios para formulários de notafiscalConfiguraçãoConfiguração de idiomaIntervalo de datas aceitas por scriptData é numero da nota fiscalCopyright © Open Text Corporation. All rights reserved.
  25. 25. Amostra de Dados de Nota Fiscal (continuação)DadoNúmero do pedido de comprasComo os dados são extraídos?Uso de base de conhecimento de nota fiscalPesquisa por itens chaveUso de sintaxe pre-definida (450…) ou fazendodownload dos pedidos de compras emabertoUsoNecessário para a postagem e paraconferência de itens por linhaCampos mandatórios para formulários de notafiscalConfiguraçãoSintaxe utilizada pela empresa para númerosde pedidosConfiguração de idiomaNúmero do Pedido de ComprasCopyright © Open Text Corporation. All rights reserved.
  26. 26. Amostra de Dados de Nota Fiscal (continuação)DataNúmero do pedido, número de ordem dalinha, quantidade, unidade, preçounitário, preço total, percentagem deimposto e valor, descrição, número da notade entrega.Como os dados são extraídos?Análise de layout e conteúdoUso opcional de cabeçalhos de colunaVariando a ordem de linhasUsoOs dados precisam estar de acordo com opedido e os bens entreguesUso: OpcionalmenteConfiguraçãoConfiguração de idiomaItens de LinhaCopyright © Open Text Corporation. All rights reserved.
  27. 27. OCR – Estado da ArteImpressoTexto OCREscrita ManualEscrita CursivaPraticamenteperfeitoPerfeito ouaceitávelPara produçãoApenas emambientes restritosCopyright © Open Text Corporation. All rights reserved.
  28. 28. Reconhecimento: Balanceamento de Carga Fácil de Escalar Maior rendimento com clusters de servidores de reconhecimento Suporta todos os cenários de fail-overCopyright © Open Text Corporation. All rights reserved.Servidor deReconhecimento 2Nós RuntimeServidorOCCServidor deReconhecimento 1Nós RuntimeNós Runtime
  29. 29. ValidaçãoCopyright © Open Text Corporation. All rights reserved. Correção deSeparação de documentoClassificação de documentoDados ExtraidosDesenho ergonômicoDestaque (Highlight) de dadosextraidosPula campos corretosControle total por tecladoEntrada com clique único: Extração dedados semi-automatica comapontamento do dado
  30. 30. Entrada com um só cliqueCopyright © Open Text Corporation. All rights reserved.
  31. 31. Validação de Desenho de MáscaraSlide 31 Copyright © Open Text Corporation. All rights reserved.
  32. 32. ExportaçãoContent Server (LiveLink) Pasta dependente da classe dodocumento Configuração de nome de arquivo Meta dados por categoria Disparo de WorkflowSharePoint Biblioteca depentende da classe dodocumento Configuração do nome do arquivo Atributos da biblioteca Atributos do caminho da informaçãoFile System Pasta e nome do arquivosselecionáveis Dado em XML ou CSVExportação customizadaCopyright © Open Text Corporation. All rights reserved.
  33. 33. ConfiguraçãoImportação de esquema de dados das categorias do Content Serverou das bibliotecas do SharePointFácil definição de tipos de camposComece com KFI (key from image) e depois automatize passo a passo Entrada de dados semiautomática Aprendizado adaptativo Operadores de extração pré-definidos Operadores de extração definidos pelousuárioDesign Studio para definição decampos para formulários e parasem formulários Processos simplificados para desenvolvimento,teste e implementação Teste com grandes volume de dados Teste de regraçãoCopyright © Open Text Corporation. All rights reserved.
  34. 34. Monitoramento e RelatóriosFerramenta de monitoramento para controlar fase deprodução Saúde das fontes de entrada e dos respectivos destinos Saúde de todos os servidores de reconhecimento Lista de todos os clientes de validação ativos Sumário de todos os “batches” ativos Drill down em perfis individuias e “batches”.Mudança de estado de “batches” e recursos deprocessamentoRelatório de histórico de “batches” Passos de processamento Quando, o que e o tempo que levou Monitoramento da performanceSlide 34 Copyright © Open Text Corporation. All rights reserved.
  35. 35. Interface para criação de Scripts eProgramaçãoEscreva scripts em C#Programe com .net (DLLs)Pontos de entrada durante o reconhecimento Antes do reconhecimento, ex. Predefinição de metadados Depois da classificação, ex. Para substituir decisão de classificaçãoautomática Depois do reconhecimento, e.g. Para validar dados ou combinardiversos campos de dadosDurante a validação Baseados em eventos disparados pelo usuário como entrada de dadose mudança de valorExportação customizadaConector de entradaSlide 35 Copyright © Open Text Corporation. All rights reserved.
  36. 36. Slide 36ObrigadoMarcelo CarreraSales ExecutiveAv. Ibirapuera, 2332, Torre II, Cj. 132Tel: +55 11 5054-8373Mobile: +55 11 98536-7739Email: mcarrera@opentext.com

×