3. Objetivo
Este estudo tem o objetivo de demonstrar as potencialidades das
metodologias e tecnologias em análise de dados para suportar processos
inteligentes nas áreas reguladoras do cliente (órgão do Governo Federal).
Sendo assim, foi definido o seguinte cenário de análise de modelagem
estatística:
Identificar, a partir de denúncias de
irregularidade em processos de
benefício social, o potencial de
fraude que resultem em operação
da Polícia Federal.
7. Metodologia de Análise
Quantidade Total de Dados Trabalhados na Operação Analítica
Denúncias arquivadas
Denúncias que geraram
Operação da PF
Denúncias em aberto
8. Metodologia de Análise
Tomamos todas as denúncias desde 2006, cerca 12.900, e definimos:
Success
Denúncias que geraram operação da Polícia Federal;
Unsuccess
Denúncias arquivadas que não geraram operação da Polícia Federal; e
Excluded
Denúncias não-arquivadas e que não gerou conhecimento.
Separamos todas as
denúncias Excluded,
ignorando-as para efeito de
modelagem estatística por
um instante.
Buscamos criar um modelo
que interprete o fenômeno
“Denúncia que gera uma
Operação” a partir de todos
os casos de Success e
Unsuccess.
9. Metodologia de Análise
Fase 1 – Preparação da Base de Dados
Trainning
Separamos 60% da base dos anos de 2006 a 2010 para construir os
modelos estatísticos.
Test
Separamos 40% da base dos anos de 2006 a 2010 para testar a
qualidade e acurácia dos modelos estatísticos.
Forecast Controlled Base
Separamos todas as denúncias Success e Unsuccess de 2011, na
intenção de prever o resultado de ocorrências arquivadas.
Forecast Uncontrolled Base
Por fim, aplicamos o melhor modelo nas denúncias não-arquivadas
(Excluded) de 2011. Geramos uma amostra de 33 denúncias que foram
classificadas como Success e Unsuccess para avaliação das equipes de
investigação.
10. Metodologia de Análise
Fase 2 – Metodologia de Modelagem Estatística
Text Mining
Gerar um conjunto de Palavras significantes para interpretar o conteúdo dos textos
de denúncias. O resultado é uma tabela com Palavras comuns e importantes e
suas quantidades em cada denúncia. A solução STATISTICA Text Mining
identificou cerca de 340 palavras importantes. A equipe de negócio selecionou
152 palavras relevantes para análise.
11. Metodologia de Análise
Fase 2 – Metodologia de Modelagem Estatística
Tipos de Modelos
Os modelos utilizados focam Classificação, desta forma, eles buscam a melhor
função, algoritmo ou conjunto de regras matemáticas que discriminem Success e
Unsuccess. Se esse modelo existir, ele deve ser capaz de separar, a partir das
variáveis (Palavras contidas nas denúncias), com forte acurácia (acima de 75%)
Statistical Modelling
Discriminant Analysis
Logistic Regression
Decision Trees
C&RT
Random Forest
Machine Learning
Suport Vector Machine
Artificial Intelligence
Neural Network
13. Resultados Preliminares
O algoritmo matemático que melhor classificou o fenômeno foi C&RT Decision
Tree, uma opção de machine learning.
Training
Forecast
2011
Testing
2011
Testing
68,5%
69,4%
72,9%
15. Conclusão
O modelo não considera ajustes finos na construção do léxico deste
trabalho ou, ainda, uma estrutura semântica; portanto, tais ajustes
poderiam incorporar melhoria significativa na acurácia do modelo.
Além disso, não foi considerado: segmentação de gerências com mais
impacto de processos fraudulentos; correlações entre denúncias; limpeza
de informações contendo denúncias infundadas; blending models.
Considerando o curto espaço de tempo, decidiu-se focar em resultados de
impacto direto na performance de operações; no entanto, as
possibilidades de soluções inteligentes nos processos internos constituem
ganhos significativos no melhor desempenho da área gestora do processo.
Os modelos estatísticos (Regressão Logística, Análise Discriminante,
Análise de Componentes Principais, Análise de Agrupamentos e outros)
poderiam sugerir outros caminhos analíticos e fomentar novos insights.