• Like

Aplicação de text mining

  • 155 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
155
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
1
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Introdução Objetivo Estrutura de Prevenção a Fraude Metodologia de Análise Resultados Preliminares Considerações
  • 2. Objetivo Este estudo tem o objetivo de demonstrar as potencialidades das metodologias e tecnologias em análise de dados para suportar processos inteligentes nas áreas reguladoras do cliente (órgão do Governo Federal). Sendo assim, foi definido o seguinte cenário de análise de modelagem estatística: Identificar, a partir de denúncias de irregularidade em processos de benefício social, o potencial de fraude que resultem em operação da Polícia Federal.
  • 3. Estrutura de Prevenção a Fraude
  • 4. Os Instrumentos na Prevenção a Fraude Processos Procedimentos Políticas Indicadores Modelagem Estatística MIS Management Information System
  • 5. Metodologia de Análise
  • 6. Metodologia de Análise Quantidade Total de Dados Trabalhados na Operação Analítica Denúncias arquivadas Denúncias que geraram Operação da PF Denúncias em aberto
  • 7. Metodologia de Análise Tomamos todas as denúncias desde 2006, cerca 12.900, e definimos: Success Denúncias que geraram operação da Polícia Federal; Unsuccess Denúncias arquivadas que não geraram operação da Polícia Federal; e Excluded Denúncias não-arquivadas e que não gerou conhecimento. Separamos todas as denúncias Excluded, ignorando-as para efeito de modelagem estatística por um instante. Buscamos criar um modelo que interprete o fenômeno “Denúncia que gera uma Operação” a partir de todos os casos de Success e Unsuccess.
  • 8. Metodologia de Análise Fase 1 – Preparação da Base de Dados Trainning Separamos 60% da base dos anos de 2006 a 2010 para construir os modelos estatísticos. Test Separamos 40% da base dos anos de 2006 a 2010 para testar a qualidade e acurácia dos modelos estatísticos. Forecast Controlled Base Separamos todas as denúncias Success e Unsuccess de 2011, na intenção de prever o resultado de ocorrências arquivadas. Forecast Uncontrolled Base Por fim, aplicamos o melhor modelo nas denúncias não-arquivadas (Excluded) de 2011. Geramos uma amostra de 33 denúncias que foram classificadas como Success e Unsuccess para avaliação das equipes de investigação.
  • 9. Metodologia de Análise Fase 2 – Metodologia de Modelagem Estatística Text Mining Gerar um conjunto de Palavras significantes para interpretar o conteúdo dos textos de denúncias. O resultado é uma tabela com Palavras comuns e importantes e suas quantidades em cada denúncia. A solução STATISTICA Text Mining identificou cerca de 340 palavras importantes. A equipe de negócio selecionou 152 palavras relevantes para análise.
  • 10. Metodologia de Análise Fase 2 – Metodologia de Modelagem Estatística Tipos de Modelos Os modelos utilizados focam Classificação, desta forma, eles buscam a melhor função, algoritmo ou conjunto de regras matemáticas que discriminem Success e Unsuccess. Se esse modelo existir, ele deve ser capaz de separar, a partir das variáveis (Palavras contidas nas denúncias), com forte acurácia (acima de 75%) Statistical Modelling Discriminant Analysis Logistic Regression Decision Trees C&RT Random Forest Machine Learning Suport Vector Machine Artificial Intelligence Neural Network
  • 11. Resultados Preliminares
  • 12. Resultados Preliminares O algoritmo matemático que melhor classificou o fenômeno foi C&RT Decision Tree, uma opção de machine learning. Training Forecast 2011 Testing 2011 Testing 68,5% 69,4% 72,9%
  • 13. Conclusão
  • 14. Conclusão O modelo não considera ajustes finos na construção do léxico deste trabalho ou, ainda, uma estrutura semântica; portanto, tais ajustes poderiam incorporar melhoria significativa na acurácia do modelo. Além disso, não foi considerado: segmentação de gerências com mais impacto de processos fraudulentos; correlações entre denúncias; limpeza de informações contendo denúncias infundadas; blending models. Considerando o curto espaço de tempo, decidiu-se focar em resultados de impacto direto na performance de operações; no entanto, as possibilidades de soluções inteligentes nos processos internos constituem ganhos significativos no melhor desempenho da área gestora do processo. Os modelos estatísticos (Regressão Logística, Análise Discriminante, Análise de Componentes Principais, Análise de Agrupamentos e outros) poderiam sugerir outros caminhos analíticos e fomentar novos insights.
  • 15. Facebook.com/iminersolutions twitter.com/iminersolutions iminer@iminer.com.br +55 11 3996 4226