Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção de Servidores Públicos Federais

246 views

Published on

Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção de Servidores Públicos Federais

  1. 1. Filiação Partidária e Risco de Corrupção de Servidores Públicos Federais Ricardo Silva Carvalho – CGU/SE/DIE/CGIE Brasil 100% Digital: 1º Seminário sobre Análise de Dados na Administração Pública | 11/09/2015 @ TCU
  2. 2. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 2
  3. 3. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 3
  4. 4. Introdução INTERESSES ILEGÍTIMOS CORRUPÇÃO FILIAÇÃO Partido Político 4
  5. 5. Introdução Objetivo 5
  6. 6. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 6
  7. 7. Entendimento do Negócio DIE PREVENÇÃO E COMBATE À CORRUPÇÃO Diretoria de Pesquisas e Informações Estratégicas Servidores públicos federais alocados em todos os estados PRIORIZAÇÃO EFETIVA EM LARGA ESCALA SERVIDOR PÚBLICO FEDERAL Equipe Reduzida 7
  8. 8. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 8
  9. 9. Entendimento dos Dados SIAPE TSE BD PRINCIPAL SERVIDORES FILIADOS TCU RFB CGU CEAFCORRUPTOS FILIADOS NÃO-CORRUPTOS FILIADOS CORRUPTO NÃO-CORRUPTO SERVIDOR PÚBLICO Cadastro de servidores Dados de filiação partidária 9
  10. 10. Entendimento dos Dados SIAPE TSE CORRUPTOS FILIADOS NÃO-CORRUPTOS FILIADOS   2 1 12 k l ij ij i j ij O E E       2 1 158  H0: Variáveis são independentes H0 não pode ser aceita 10
  11. 11. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 11
  12. 12. Preparação dos Dados CORRUPTOS FILIADOS NÃO-CORRUPTOS FILIADOS LIMPEZA DE DADOS  Valores inválidos Total de dias filiado Número máximo de dias filiado a um partido Maior código de motivo de cancelamento SELEÇÃO DE ATRIBUTOS  Correlation-Based  3 atributos selecionados UNDERSAMPLING  Não-Corruptos filiados AGREGAÇÃO  6 Atributos ATRIBUTOS FINAIS 12
  13. 13. Preparação dos Dados DISCRETIZAÇÃO  Multi-interval (MI)  Equal-Freq. (EQ)  Prop. K-int. (PKI) 9 NORMALIZAÇÃO Média 0 Variância 1 1 10 datasets Total de dias filiado Número máximo de dias filiado a um partido Maior código de motivo de cancelamento ATRIBUTOS FINAIS 13
  14. 14. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 14
  15. 15. Modelagem TREINAMENTO = 90% TESTE = 10% Bayesian Networks (BN) Random Forest (RF) Support Vector Machines (SVM) Artificial Neural Networks (ANN) MetaCost WRAPPER [0.0 1.0] [5.0 0.0] CUSTO de FALSOS POSITIVOS 15 Modelagem  4 algoritmos x 10 datasets = 40 modelos
  16. 16. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 16
  17. 17. Avaliação DATASET 4  Atrib. 1 = MI  Atrib. 2 = PKI RESULTADO MÉDIO DOS 4 ALGORITMOS PARA CADA DATASET 17
  18. 18. Avaliação RANDOM FOREST RESULTADO FINAL POR ALGORITMO PARA DATASET 4 18
  19. 19. Avaliação 86% 15% + 13% + 12% -  7% + COMPARAÇÃO FINAL ENTRE MODELO DE ESPECIALISTAS E MODELO GERADO PELO RANDOM FOREST (DADOS DE TESTE) 19
  20. 20. Avaliação CONFIRMOU + COD_MAIOR_MOTIV_CANC + RISCO DE CORRUPÇÃO IGNOROU NR_PARTIDOS_FILIADO GANHO DE CONHECIMENTO + NR_DIAS_FILIADO  - RISCO DE CORRUPÇÃO VISUALIZAÇÃO DE UMA DAS ÁRVORES DO MODELO 20
  21. 21. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 21
  22. 22. Conclusão 1) Dados apoiam hipótese (Filiação Partidária  Corrupção) 2) Resultados justificam uso de aprendizagem de máquina 3) Análise piloto de risco de corrupção na DIE / CGU 4) Trabalho gerou artigo aceito em conferência internacional  BRACIS 2014 – Brazilian Conference on Intelligent Systems  Using Political Party Affiliation Data to Measure Civil Servants’ Risk of Corruption  http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6984825 22
  23. 23. Obrigado! Ricardo Silva Carvalho – CGU/SE/DIE/CGIE ricardo.carvalho@cgu.gov.br ricardosc@gmail.com LinkedIn: br.linkedin.com/in/ricardoscr 23

×