Your SlideShare is downloading. ×
Previsão de Inadimplência por Redes Neurais Artificiais na Presença de Baixo Risco
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Previsão de Inadimplência por Redes Neurais Artificiais na Presença de Baixo Risco

2,210
views

Published on

A análise de inadimplência creditícia tem sido objeto de estudo para diversos pesquisadores e profissionais. Mesmo em casos onde há ocorrência da inadimplência é um evento quase raro, empresas …

A análise de inadimplência creditícia tem sido objeto de estudo para diversos pesquisadores e profissionais. Mesmo em casos onde há ocorrência da inadimplência é um evento quase raro, empresas concessionárias de empréstimos precisam se apoiar em boas práticas de concessão de empréstimos por diversos motivos. O presente artigo visa estudar o fenômeno da inadimplência através de redes neurais artificiais neste ambiente de baixa inadimplência. Para isto, utilizaremos uma base de dados real de uma cooperativa de crédito brasileira para estudo e aplicação das técnicas aqui apresentadas.

Published in: Business, Economy & Finance

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,210
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
92
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. Previsão de Inadimplência por Redes Neurais Artificiais na Presença de Baixo Risco Anderson Guimarães de Pinho Pontifícia Universidade Católica do Rio de Janeiro – Rio de Janeiro – RJ – Brasil agp.net@gmail.com Resumo Seja qual for a técnica utilizada, é necessária A análise de inadimplência creditícia tem sido uma amostra de casos adimplentes e objeto de estudo para diversos pesquisadores e inadimplentes para estimação e validação dos profissionais. Mesmo em casos onde há modelos acima mencionados. A literatura ocorrência da inadimplência é um evento quase sugere ao menos a separação destes casos raro, empresas concessionárias de empréstimos precisam se apoiar em boas práticas de entre grupos de treinamento/estimação e concessão de empréstimos por diversos motivos. outro de teste/generalização (ver Rezende, O presente artigo visa estudar o fenômeno da p.158). Em casos onde a inadimplência é um inadimplência através de redes neurais artificiais evento de baixo risco, é problemática esta neste ambiente de baixa inadimplência. Para isto, separação entre grupos, pois qualquer utilizaremos uma base de dados real de uma observação fora do conjunto de cooperativa de crédito brasileira para estudo e treinamento/estimação pode ser de vital aplicação das técnicas aqui apresentadas. importância para o aprendizado correto de um Palavras-chave: Credit e Behavior Scoring, comportamento inadimplente. Inadimplência, Redes Neurais, Comitê de Redes, Bootstrap. Neste sentido, o presente artigo objetivará a investigação de Redes Neurais no contexto de crédito e behavior scoring, na presença de 1. Introdução baixo risco de inadimplência. Para tanto, faremos uso de Redes Neurais com Múltiplas A análise preditora de inadimplência tem sido Camadas (ou Multi-Layers Perceptrons), objeto de interesse para empresas nos mais treinadas com o Algoritmo de Retro- diversos segmentos. Um deles que merece propagação (Backpropagation). bastante destaque pela quantidade de material produzido na literatura é o financeiro, na Na aplicação das técnicas propostas, análise de inadimplência creditícia. Neste utilizaremos uma base de dados real de uma ramo, muitos métodos quantitativos para cooperativa de crédito brasileira. O artigo criação de modelos de previsão na concessão está organizado da seguinte forma: em (2), de crédito têm sido explorados. Ver [3], [7]. apresentaremos a relevância do tema; em (3) seremos breve sobre a metodologia de Na análise de concessão de crédito, análise; em (4) detalharemos o caso da destacam-se pelo tradicionalismo as técnicas empresa em estudo, juntamente com os de análise multivariada, como a análise procedimentos de limpeza, seleção e discriminante, e a de regressão logística. transformação de variáveis; em (5) Contudo, técnicas de inteligência artificial apresentaremos os resultados obtidos; e como algoritmos genéticos e redes neurais finalmente em (6), as principais conclusões e tem sido alvo de debate, em especial pelos os próximos passos. desempenhos obtidos e pela associação com outros campos da ciência. Outro aspecto é a 2. Relevância do Tema capacidade, em especial das redes neurais com múltiplas camadas, na separação de Analistas de risco estão continuamente padrões não lineares (Haykin, p.202). estudando uma maneira mais eficiente e objetiva de se decidir com grande acurácia e
  • 2. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. rapidez, qual o risco associado na concessão de uma característica bastante relevante: a de crédito a algum tomador em particular. A objetividade. A melhor forma de se entender partir da análise de ficha cadastral e histórico e controlar o risco são através de soluções transacional de uma amostra de clientes back-end de credit-scoring e/ou behavior- tomadores de crédito, modelos estatísticos e scoring pela criação de sistemas baseados em de inteligência artificial são utilizados para a conhecimento (SBCs). SBCs é uma classe criação de sistemas capazes de identificarem especial de sistemas inteligentes no qual o futuros clientes adimplentes ou conhecimento é representado explicitamente inadimplentes. Estes sistemas representam e separado do programa que o manipula uma grande vantagem competitiva, (Rezende, p.8) particularmente, quando se tratam de soluções automatizadas de back-end1. É importante deixarmos claro as diferenças existentes entre credit e behavior scoring. O Sistemas de decisão back-end baseados em primeiro acontece antes da concessão do conhecimento armazenado de grades bases de crédito ou contratação do serviço sujeito à dados, geram produtividade para a empresa, inadimplência. Clientes são avaliados com baixos custos operacionais, eficiência em base no seu risco de inadimplência futuro no processos, e estabelecem boas práticas na momento antes da concessão. Já behavior administração do relacionamento com o scoring acontece como uma medida de cliente. Administradores podem automatizar monitoramento do cliente com o crédito decisões de baixo risco – como exemplo, a contratado, utilizando o desempenho da concessão de crédito pré-aprovado ao cliente, conta do cliente como fonte preditora (dentre ou ajuste da linha de crédito concebida – e outras variáveis). Resumidamente, modelos concentrar esforços na avaliação do crédito de credit scoring ajudam a empresa a adquirir direto, ou colecionar informações sobre uma carteira de clientes com baixo risco de contas propícias a inadimplência. inadimplência, garantindo a sustentabilidade e lucratividade futura do negócio. Já behavior Seja qual for a técnica utilizada na scoring a monitorá-los em caso de mudança identificação da inadimplência, o resultado para um perfil de alto risco, viabilizando uma pela aplicação trata-se de uma nota ou score ação preventiva de inadimplência. O do cliente, a qual pode ser usada por si só diagrama abaixo ilustra estes dois momentos. para derivarmos a decisão de caracterizá-lo como futuro inadimplente (ou adimplente). Diagrama 1 – Momentos antes a Score este, muitas vezes, de carácter Inadimplência probabilístico (Carvalho apud Clemente, Behavior Scoring p.97), podendo ainda ser combinado com outra informação para que se chegue a outra Cadastro e Início do Relacionamento Concessão do Empréstimo Término do Prazo Estimado para Quitação medida de risco de inadimplência. Algumas décadas atrás, a maioria dos bancos Inadimplência: Sim ou Não? Credit Scoring confiava exclusivamente no julgamento subjetivo de seus analistas para determinar o 3. Metodologia de Análise risco de crédito de uma empresa. Apesar de muito importante nas decisões relativas à A técnica utilizada neste artigo para previsão concessão de crédito, o exame em de inadimplência será redes neurais do tipo profundidade realizado pelo analista carece perceptrons de múltiplas camadas (MLP), com algoritmo de retropropagação. Redes 1 Front-end e back-end são termos utilizados para deste tipo foram popularizadas por Rumelhart os estágios iniciais e finais de um processo. O e McClelland após o ano de 1985, acabando front-end é responsável por coletar informações com o pessimismo que existia sobre imputadas pelos usuários, enquanto que back-end máquinas de múltiplas camadas, causado pelo a usá-las.
  • 3. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. livro de Minsky e Papert (1969). É vasta a aprendizado e generalização. Tais aspectos literatura detalhando o algoritmo de serão motivos de atenção no capítulo 5. O retropropagação e o funcionamento da redes grande desafio nosso será qual modelo de múltiplas camadas, motivo o qual não escolher (o melhor), dentre vários seria diferente na aplicação de fenômenos de disponíveis. Vale ressaltar que a modelagem inadimplência. Seremos breve sobre a técnica de eventos com baixa chance de ocorrência é em questão. Para detalhes mais técnicos complexa, pois neste caso, dispõe-se de recomendamos ao leitor a leitura de [2]. poucas observações para separação de grupos, e posterior verificação das Uma MLP consiste de um conjunto de capacidades de aprendizado e generalização. unidades de entradas sensoriais constituindo a Para tanto, alguns procedimento para camada de entrada, uma ou mais camadas particionamento da amostra são discutidos escondidas de nós computacionais, e uma em 4.5.1 e 4.5.2. camada de saída conforme objetivo do analista (classificar, prever, estimar). O 4. Caso Cooperativa de Crédito número de entradas e saídas depende da dimensionalidade dos dados, enquanto que o Para a análise comparativa das técnicas aqui número de neurônios nas camadas apresentadas utilizaremos a base de dados de intermediárias da complexidade do problema uma empresa real brasileira. Trata-se de uma (Rezende, p.145). cooperativa de crédito com mais de 5.000 associados. Pela definição do Sebrae SP, uma São redes tipicamente para aprendizado cooperativa de crédito trata-se de uma supervisionado. O sinal de entrada se propaga associação formada por no mínimo 20 para frente, na camada de saída os sinais são pessoas, que possui legislação própria e comparados com os esperados, e os erros são oferece aos associados serviços equivalentes computados e retropropagados para as a uma instituição financeira. camadas anteriores. Esta retropropagação permite a atualização dos pesos sinápticos, e O Sebrae ressalta que um dos maiores a rede aprende um conhecimento por benefícios da cooperativa de crédito são as correção do erro. Em outras palavras, o vantajosas taxas e os encargos oferecidos aos aprendizado da rede está associado à associados por ser esta uma entitade sem fins capacidade das mesmas adaptarem seus lucrativos, e conseqüentemente, com baixa parâmetros como conseqüência da sua tributação. Por estes motivos, é grande a iteração gradativa com o meio externo demanda por produtos e serviços oferecidos, (Rezende, p.142). resultado o qual não seria diferente para empréstimos e financiamentos dos mais A generalização por sua vez, esta associada a diversos tipos. Uma instituição deste tipo capacidade da rede em dar respostas corretas necessita se apoiar em boas práticas de (ou aproximadas) a padrões não apresentados concessão de créditos evitando a na fase de aprendizado. Este aspecto deve ser inadimplência futura dos cooperados. controlado ainda na fase de aprendizado. O excesso de neurônios nas camadas Neste ambiente, estudaremos modelos de intermediárias, conseqüentemente elevado redes neurais que atendam ao problema da número de pesos sinápticos, ou ainda o inadimplência futura, simultaneamente, em elevado número de épocas de treinamento dois momentos da vida do cliente. O pode ocasionar o fenômeno denominado primeiro, antes da concessão (Credit overtraining, quando a rede não responde Scoring), e o segundo após a concessão bem a padrões nunca vistos. (Behavior Scoring). Ou seja, não haverá distinção quanto ao momento de tomação de A estrutura da rede neural bem como a empréstimo. Esperamos que a inclusão de duração da fase de treinamento influencia uma variável no modelo neural do tipo tempo diretamente na qualidade do modelo, ou seja, de cadastro (ou contrato) possa captar
  • 4. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. possíveis efeitos quanto ao momento de Grupos de Variáveis Qtde Variáveis Cheque Especial 6 tomação do empréstimo. Débito Automático em Conta Corrente 3 Empréstimos 37 Para isto, utilizaremos uma base de dados Fundos de Investimento 23 com 2644 contas distintas com empréstimos Movimentação de Créditos e Débitos em C.c. 16 em aberto no período de junho de 2007 a Seguros Contratados 11 Total 96 julho de 2008. 4.1. Integração dos dados É importante dizer que 1 (uma) das variáveis de empréstimo trata-se da principal variável São muitas as informações disponíveis sobre de interesse deste estudo a ser modelada, ou os cooperados. A organização e manutenção seja, a variável dependente dos modelos: a de um data warehouse 2 integrado garante marcação de existência de algum contrato agilidade na tomada de decisão na inadimplente, sim ou não, flgInadimplente. cooperativa em estudo, pois fornece Barth (p.2) ressalta que a inadimplência pode informação atualizada sobre as mais diversas se manifestar de diversas formas dependendo fontes de dados. Sobre este data warehouse, do negócio e interesse do analista. No caso da pode-se dizer que dentre todas as tabelas de cooperativa, é declarado como inadimplente o histórico disponíveis, duas delas serão de contrato com pelo menos uma prestação em grande importância para análise dos modelos atraso a mais de 30 dias. aqui propostos. Uma será a tabela de cadastro do cooperado, com informações 4.2. Limpeza e Preparação dos Dados sempre atualizadas disponíveis desde o início Muitos problemas podem se encontrados na do relacionamento. Abaixo segue uma base de dados, os quais prejudicam o poder descrição das principais informações de classificação das ferramentas aqui encontradas nesta última tabela: estudadas. A limpeza de dados tem como Tabela 1 – Variáveis da Tabela Cadastral objetivo remover anomalias dos dados, aumentando ou melhorando sua qualidade Variável Tipo Descrição (Oliveira apud Rahm). Oliveira divide os DataNascimento Data Data de nascimento do cooperado. EstadoCivil Nominal Estado civil do cooperado principais problemas encontrados nos dados DataMatrícula Data Data de matrícula do cooperado. Uf Nominal Estado de residência do cooperado. em dois: (1) em tabelas isoladas; (2) em Cidade Nominal Cidade de residência do cooperado. múltiplas tabelas. Quando se trata de uma Bairro Nominal Bairro de residência do cooperado. RegiãoEstado Nominal Região de residência (Fonte: IBGE). tabela isolada, problemas podem acontecer ZonaMunicipal Nominal Zona municipal de residência (Fonte: IBGE). em: nível de atributo, nível de registro, ou RegiãoAdministrativa Nominal Região administrativa de residênca (Fonte: IBGE). RendaLíquidaMensal Numérica Renda líquida mensal declarada. nível de tabela. TipoCliente Nominal Tipo de cooperado, segundo critérios da instituição. Sobre nosso problema de inadimplência, Sobre a 2ª tabela, pode-se dizer que se seremos breve apresentando os principais encontram disponíveis 96 variáveis encontrados, e o procedimento executado resumindo histórico transacional da conta para limpeza. corrente do cooperado, sobre seis grandes grupos de produtos oferecidos, conforme Em nível de atributo, muitas variáveis abaixo. Pouparemos o leitor da apresentação apresentaram valor faltante, e neste caso destas variáveis, descrevendo-as quando procedemos com a criação de uma classe necessária. “não preenchida” para variáveis categóricas, e preenchimento de média para variáveis Tabela 2 – Grupos de Variáveis Métricas numéricas. Nas variáveis geográficas como Transacionais Bairro e Cidade, era freqüente a presença de erros ortográficos. Neste caso, prosseguimos com a correção manual dos campos, corrigindo a informação também em outro 2 Mais detalhes acessar http://www.datawarehouse.inf.br.
  • 5. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. atributos com algum nível de dependência caso aceita-se a inclusão da variável contínua como RegiãoAdministrativa. Uma variável na modelagem. altamente propícia a apresentar valores incorretos é a RendaLíquidaMensal. Porém 1   2 (1) t  observado  nada foi feito neste caso.  2  2 1  2 n1 n2 Em nível de registro, muitas variáveis geográficas apresentavam nível de Todas as variáveis contínuas foram dependência. Sobre isto, prosseguimos com a submetidas ao teste t acima, com nível de correção manual desde níveis menos para confiança de 99%, e as menos significantes mais agregados. No entanto, esta variável é foram excluídas da análise. de grande importância para a empresa, devendo alguma técnica de correção Tendo ainda o cuidado em evitar problemas automática intrínseca ser analisada de redundância de informação na modelagem, futuramente. as variáveis mais significativas foram submetidas à análise de correlação cruzada Em nível de tabela, podemos dizer que havia uma a uma, conforme fórmula em (2). Neste problemas de redundância de uma mesma caso, utilizou-se como critério de exclusão, entidade. Um cooperado, a exemplo, pode para 1 (uma) de duas variáveis, as que possuir mais de uma conta, sendo assim apresentassem o módulo da correlação representado por mais de uma linha na tabela. superior a 0,70. Coube ao analista decidir por Neste caso, a de-duplicação das linhas critérios empíricos qual de duas variáveis ocorreu tendo como chave primária o CPF do excluir. cooperado. 1 n  xi  x  xi  x  (2), Em múltiplas tabelas, nada foi feito, pois   corr ( X 1 , X 2 )     n i 1  dp( X 1 )  dp( X 2 )  tais problemas (caso existam) acontecem em    níveis anteriores quando da integração das tabelas 1 e 2 apresentadas. Podemos dizer que Contrariando qualquer critério de seleção estão mais propícias a redundância, e menos apresentado, por motivos também empíricos, a referências incorretas. inclui-se a variável RendaLíquidaMensal. Finalmente, obtiveram-se as seguintes Feito isto, podemos prosseguir para a análise variáveis contínuas finais para modelagem: de seleção de variáveis. Tabela 3 – Variáveis Contínuas Selecionadas 4.3. Seleção de Variáveis para Modelagem 4.3.1. Contínuas Variável VlrCreditado_U6M Descrição Valor creditado em conta nos últimos 6 meses. Qtd_DocTedSaqCh_U6M Qtde transações em conta nos últimos 6 meses. Para seleção de variáveis contínuas, utilizou- VlrLimiteEspecial Valor de limite no cheque especial. Vlr_CredOper_UM Valor referente a pagamentos no último mês. se a estatística de teste t-student com o VlrMIN2_DocTedSaqCh_UM 2o maior valor debitado no último mês. objetivo de inferir se as médias observadas VlrExcessoLimite Valor ultrapassado do limite especial últimos mês. RendaLíquidaMensal Renda líquida mensal declarada. nas variáveis de teste entre o grupo de IdadeAnos Idade em Anos inadimplentes e adimplentes eram TempoCadastro Tempo de Cadastro em Meses significativamente diferentes. Compara-se o valor t-observado dado em (1) com o t- 4.3.2. Categóricas tabelado da distribuição t-student t(n1+n2-2;1-, Para seleção de variáveis categóricas, onde n1 e n2 são tamanhos dos grupos de utilizou-se a estatística de teste Qui-Quadrado adimplentes e inadimplentes, e  nível de (X2). Dada uma tabela de contingência da confiança desejado. Caso o valor observado variável flgInadimplente cruzada com seja maior que o tabelado, rejeita-se a qualquer outra varivel categórica possível hipótese nula de igualdade de médias, e neste
  • 6. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. inclusora no modelo, defini-se a estatística de xi  mín( x) teste X2 como sendo: x i,  (4) máx( x)  mín( x) X   2 Ni Nj E ij  Oij  2 (3) Pela normalização padrão, atributos são i 1 j 1 Eij normalizados segundo a função em (5). Recebem esta normalização, variáveis Onde Eij é a esperança do número de associadas a valores financeiros. Uma vez observações na célula ij, e Oij o observado na verificado que há grande presença de outliers célula ij. Compara-se o X2 observado, com o na base de dados, e optou-se por não retirá- tabelado X2((c-1)x(l-1);1-), da distribuição Qui- los por de fato corresponder a uma realidade Quadrado. Onde c é o número de colunas e l do negócio, esta normalização se adequará é o número de linhas. Em caso de bem aos resultados por considerar o desvio superioridade do observado, rejeita-se a padrão na medida de normalização. Após a hipótese de independência entre variáveis, e normalização normal padrão, observações neste caso inclui-se a variável na modelagem. variam dentro de um intervalo de -1 a 1, apresentando alguns outliers fora deste Para mais detalhes, recomendamos Bussab intervalo. (p.87,187-188). Da mesma forma, para o teste t-Student recomenda-se Bussab (p.361-381), xi   x ,i  (5) e para a estatística de correlação de Pearson,  Bussab (p.85-86). Outro motivo para considerarmos outliers na Após a aplicar o teste ao nível de base de dados, é o fato de haver poucos significância de 99%, utilizamos o coeficiente registros de inadimplência, e neste caso, o de correlação cruzada para verificarmos alta tratamento pela exclusão da observação correlação entre variáveis. Sendo assim, poderia ocasionar em perda de informação exclui-se 1 (uma) de duas variáveis que valiosa. apresentassem correlação superior a 0,70, restando-nos as seguintes: Já na codificação em bits, categorias (c) de variáveis são representadas por no mínimo n Tabela 4 – Variáveis Categóricas bits, onde 2n  c . Selecionadas para Modelagem Variável Descrição A tabela 5 mostra um resumo das RegiãoAdministrativa Região administrativa moradia. transformações feitas. A variável dependente TipoCliente Classificação do cooperado. flginvestiu_U6M Indicador de ter investido últimos 6 meses. do modelo encontra-se em itálico, TomouEmprestimo_UM Indicador de ter tomado empréstimo último mês. flginadimplente. TomouEmprestimo_U6M Indicador ter tomado empréstimo últimos 6 meses. TomouEmprestimo_U12M Indicador ter tomado empréstimo últimos 12 meses. flg_DocTed_U12M Indicador utilização de Doc/Ted últimos 12 meses. Tabela 5 – Variáveis Finais Transformadas flg_Cheque_U12M Indicador utilização de Cheque últimos 12 meses. flgDevedorFinalPeriodo Indicador de saldo devedor último mês. 4.4. Transformação dos Dados Faz-se necessário uma transformação nos dados para aplicação das técnicas aqui propostas. Na normalização pela Faixa Dinâmica, atributos são transformados na faixa de {0,1} segundo (4). Esta normalização garantirá, por exemplo, que idades próximas umas as outras, continuem próximas após a transformação.
  • 7. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. Transformação / 72 Variável Transformadas Tipo 70 68 Codificação 64 IdadeAnos Norm. Faixa Dinâmica X1 Real {0,1} 60 TempoCadastro Norm. Faixa Dinâmica X2 Real {0,1} 60 55 RendaLíquidaMensal Normalização Padrão X3 Real {-1,1} 49 RegiãoAdministrativa Códificação Bits X4 ... X8 Inteira {0,1} 50 TipoCliente Códificação Bits X9 .. X11 Inteira {0,1} 43 VlrCreditado_U6M Normalização Padrão X12 Real {-1,1} 40 37 Qtd_DocTedSaqCh_U6M Norm. Faixa Dinâmica X13 Real {0,1} VlrLimiteEspecial Normalização Padrão X14 Real {-1,1} 29 30 Vlr_CredOper_UM Normalização Padrão X15 Real {-1,1} VlrMIN2_DocTedSaqCh_UM Normalização Padrão X16 Real {-1,1} 20 20 VlrExcessoLimite Normalização Padrão X17 Real {-1,1} 20 flginvestiu_U6M Nenhuma X18 Inteira {0,1} 10 9 8 TomouEmprestimo_UM Inteira {0,1} 7 6 5 Codificação 5 4 4 4 TomouEmprestimo_U6M X19, X20 Inteira {0,1} Bits TomouEmprestimo_U12M Inteira {0,1} 0 flg_DocTed_U12M Nenhuma X21 Inteira {0,1} PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 flg_Cheque_U12M Nenhuma X22 Inteira {0,1} flgDevedorFinalPeriodo Nenhuma X23 Inteira {0,1} % de Variância Acumulado % flgInadimplente Nenhuma Y Inteira {0,1} As variáveis acima estão prontas para darem 4.5. Particionamento da Amostra entrada nos modelos neurais a serem analisados segundos experimentos detalhados Feita seleção das variáveis finais do modelo, em 4.5.1 e 4.5.2. Numa outra hora, é necessária a separação da amostra entre testaremos também um conjunto reduzido de grupos de treinamento, validação e teste. O variáveis dado pelas 10 maiores principais grupo de treinamento será utilizado para a componentes [13] extraídas das 23 variáveis atualização dos pesos sinápticos. O de em tabela 5 (matriz de entrada X). Tais validação para controle da fase de variáveis resumem 71,9% da variabilidade treinamento, evitando overtraining. E o de existente na matriz X. teste, para verificação da capacidade de generalização da rede. O teste com estas 10 principais componentes – ao invés das 23 variáveis originais – é Duas formas de experimentos foram importante, pois nos permite verificarmos se utilizadas: (1) a primeira tratou-se da a inclusão de mais neurônios na camada reamostragem de novos indivíduos do grupo escondida com menos variáveis de entrada – de inadimplentes para balanceamento da conseqüentemente menos pesos sinápticos – amostra; (2) a segunda, da criação de um resulta em maior ou igual acurácia. Isto vai comitê de redes neurais com a replicação dos de encontro com o compromisso entre grupos de inadimplentes. Ambos os convergência e generalização, também experimentos são descritos a seguir. conhecido como “bias and variance dilemma”, 4.5.1. Bootstrapping para Rede evitando a rede ser pequena a ponto de não Individual modelar fielmente os dados, ou ser muito grande e não responder corretamente a Para treinamento das Redes Neurais, é padrões nunca vistos. Abaixo uma recomendável o balanceamento da amostra de visualização da variância explicada adimplentes e inadimplentes. Nosso problema (autovalores em %) por cada uma das encontra-se dividido em 88 casos de principais componentes: inadimplência, e 2.556 casos de adimplência. Se utilizássemos a amostra assim balanceada, Gráfico 1 – 10 Maiores Principais a rede rapidamente reconheceria que para Componentes Extraídas obter baixas estimativas de erro e alto percentual de acerto total, era mais vantajoso atualizar seus pesos de forma a tendenciar todos os indivíduos como futuros adimplentes, subestimando sobremaneira o % acerto para os inadimplentes.
  • 8. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. Uma das formas de balancearmos a amostra Modelagem 1 (uma) Rede Individual: seria utilizarmos a técnica de bootstrap. A Inadimplentes Adimplentes técnica de bootstrap [11] foi introduzida por 88 2.556 Efron como abordagem ao cálculo de Validação Validação intervalos de confiança de parâmetros, em 20% 20% circunstâncias em que outras técnicas não são Inadimplentes Adimplentes aplicáveis, e em particular, o número de 70 2.045 amostra é reduzido. Em nosso caso, a idéia básica trata-se da seguinte: uma vez que não se dispõe de histórico de inadimplência superior a 12 meses – e mesmo que existisse, Inadimplentes Adimplentes 2.045 2.045 poderia ser ainda insatisfatória esta quantidade de inadimplentes – a técnica de bootstrap tratará a amostra observada como Treino Teste Treino Teste se ela representa-se exatamente toda a 80% 20% 80% 20% população de inadimplentes, e com isso obterá novas amostras a partir da observada 4.5.2. Replicação da Amostra para (89 inadimplentes). Em suma, a técnica de Comitê de Redes Neurais bootstrap tenta repetir a experiência que seria desejada realizar na prática – obter novas Um comitê de redes neurais trata-se da amostras – se tal fosse possível. combinação de duas ou mais redes individuais. O objetivo da montagem do Antes que a técnica de bootstrapping fosse comitê trata-se obter uma maior cobertura do utilizada, 20% do grupo de inadimplentes (18 espaço de características que uma única rede casos) e 20% do grupo de adimplentes (511 individualmente não obteria. Redes casos) foram separados para amostra de individualmente (RN1,..., RNn) são validação. Com os 80% restante, foi redundantes, pois grande parte do espaço de conduzido o experimento de reamostragem características é coberto por todas as redes. por bootstrapping em ambiente Excel. Mas quando combinadas, as redes podem atingir um maior grau de cobertura pelos Com a mesma probabilidade de seleção espaços de classificação onde não há uma (p=1/88), 2.045 amostras foram obtidas dos especialização das demais (ou seja, não há 70 inadimplentes. Feito isto, dispomos de uma interseção de todas as redes dois grupos equivalentes de adimplentes e combinadas). inadimplentes com 2.045 indivíduos cada um. Sobre estes, 80% foram deixados como grupo Santos et al [12] apresentam várias técnicas de controle, e outros 20% como grupo de para se desenvolver comitês e combinar os teste. O diagrama abaixo resume o outputs de redes individuais. Neste artigo, um procedimento executado: comitê de três redes neurais é apresentado. A montagem deste comitê foca na variação do Diagrama 2 – Experimento por Bootstrapping conjunto de treinamento. Para cada rede do comitê, treinamento e teste acontecem a partir de 210 cooperados selecionados aleatoriamente do grupo de adimplentes e triplicação (70x3) do grupo de inadimplentes. Embora haja a replicação do grupo de inadimplentes, não podemos chamar este método de desenvolvimento de comitês – variando o conjunto de treinamento e teste – como sendo “Driven Pattern Replication”
  • 9. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. (ver Santos, p.5). Isto porque não há o Para o experimento 1, particionamento por treinamento de alguma rede especializada em Bootstrapping, foram testados vários números alguma das classes, e sim, redes que de neurônios na camada escondida diferenciem igualmente ambas as classes. O (2,3,4,5,6,10,12), e optou-se pelo que diagrama abaixo resume o procedimento apresenta-se menor SSE e maior % acerto nas executado: classes em questão. Tendo escolhido a quantidade de neurônios na camada Diagrama 3 – Experimento por Replicação escondida, eram testadas várias épocas de treinamento (25, 50, 100, 200, 400, e 800), Modelagem 1 (um) Comitê com 3 Redes: escolhendo também aquele que se apresenta Inadimplentes Adimplentes menor SSE e maior % acerto. Abaixo, 88 2.556 resultados obtidos para as duas redes finais Validação Validação 20% 20% ajustadas, a 1ª com a matriz de entradas X, e Inadimplentes Adimplentes a 2ª com a matriz de entradas PCA: 70 2.045 Tabela 6 – Resultados por Bootstrapping SSE % Acerto Teste Resultado Inadimplentes Adimplentes Treino Teste Adim. Inadim. Total 210 2.045 MLP 10-10-2 - PCA X 45,7 12,2 96,8 100,0 98,4 MLP 23-5-2 - Matrix X 42,8 12,4 96,6 100,0 98,3 Para o experimento 2, o mesmo Rede 1 Rede 2 Rede 3 procedimento de variação de variação dos Treino Teste Treino Teste Treino Teste parâmetros foi executado, porém certa 80% 20% 80% 20% 80% 20% atenção foi dada na escolha final. Como três redes simultaneamente formariam um A metodologia utilizada neste artigo para classificador, utilizamos a média obtida por combinar as redes tratou-se do método de cada uma das variações dos parâmetros entre votação. Após definição de topologia e fases as três redes. Só assim foi possível determinar de treinamento (comum para as três redes), em termos de menor SSE e maior % acerto, cada rede votará em uma das classes, e quais configurações apresentariam melhor daremos como classificação final a com desempenho médio entre as três redes que maior número de votos. formariam o comitê (sem a agregação dos votos ainda). Ajustado estes parâmetros, cada 5. Resultados Obtidos rede era treinada e votos eram obtidos para formar um classificador somente. Resultados Resultados foram obtidos com a ajuda do abaixo: Software SPSS 16.0 ©. Sobre a topologia da rede, utilizou-se Multi-layers Perceptrons Tabela 7 – Resultados por Replicação com somente uma camada oculta. Neurônios tanto na camada oculta, quanto na de saída SSE % Acerto Teste Resultado Treino Teste Adim. Inadim. Total apresentaram função de ativação sigmóide. O Comitê 3 MLP 10-10-2 - PCA X - - 95,2 100,0 97,6 tipo de treinamento utilizado foi em Batch Comitê 3 MLP 23-4-2 - Matrix X - - 92,9 100,0 96,4 com o algoritmo gradiente decrescente. O treinamento era interrompido quando fosse Resultados da variação de parâmetros podem observado um aumento da soma dos erros ser verificados em anexo para o procedimento quadráticos (SSE) na amostra de validação por Bootstrapping. Para o procedimento por em 20 ciclos seguidos ou o número máximo replicação e criação de comitê não de ciclos fosse atingido. Números de disponibilizamos os resultados, por se neurônios na camada escondida e número de tratarem de muitas tabelas. ciclos de treinamento foram determinados conforme experimento a seguir. 6. Conclusões e Próximos Passos
  • 10. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. O procedimento por bootstrapping se mostrou [2] HAYKIN, Simon. Redes Neurais, Princípios altamente eficaz uma vez que produziu e Práticas. Paulo Matins Engel. 2ed. Porto ótimos resultados de acerto no grupo de teste. Alegre: Bookman, 2001. Sobre a escolha da Matriz X ou de PCA [3] BARTH, Nelson Lerner. Construindo como entradas, vemos que com menos Modelos de Previsão. Paulo Matins Engel. 2ed. variáveis - digamos 72% da variabilidade Porto Alegre: Bookman, 2001. existente em X -, chega-se a resultados bastante fidedignos. [4] ALMEIDA, Fernando C; DUMONTIER, Pascal. O Uso de Redes Neurais em Avaliação Quanto ao comitê com replicação da amostra, de Risco de Inadimplência. Revista de apesar dos resultados serem semelhantes ao Administração FEA/USP, vol.31, n.1, p.52-63, do procedimento anterior, há de se concluir jan. /mar. 1996. que a arquitetação deste tipo de procedimento [5] FILHO, Elson Felix Mendes et al. O Uso de pode se tornar extremamente complexa na Redes Neurais em Avaliação de Risco de prática, mais sujeita a erros de rotina, motivo Inadimplência. Simpósio Brasileiro de Redes o qual desmotivamos a aplicação comercial. Neurais, 1996, Recife. Em casos de difícil modelagem com grande [6] CORRÊA, Marcelo França; VELLASCO, presença de dados ruidosos, o estudo de Marley. Análise de Risco de Crédito em modelos neurais organizados em forma de Correspondentes Bancários através de Redes comitês possa ser mais atrativo, pois garantirá Neurais. Revista ICA nº1, Departamento uma maior cobertura do espaço de Engenharia Elétrica Puc-Rio, abr. 2008. características. Em nosso estudo fica claro [7] RIBEIRO, Andriele Ferreira et al. Análise que as características que propiciam a Discriminante x Redes Neurais Artificiais: inadimplência é algo comum a maioria dos Uma Comparação de Técnicas Aplicadas à inadimplentes, vista a diferença obtida entre Previsão de Concordatas. 3º Encontro da os procedimentos. Sociedade Brasileira de Finanças, 2003. Mesmo assim, o método por formação de [8] CORRÊA, Marcelo França, MACHADO, comitê ainda foi de grande atrativo, pois Maria Algusta Soares. Construção de um explicitou uma nova forma de se trabalhar na Modelo de Credit Scoring Baseado em Redes presença de poucos padrões. Neurais para Previsão de Inadimplência na Concessão de Micro Crédito. Enampad, 2004. Se o analista exposto ao problema [9] RIBEIRO, Evandro Marcos et al. Aplicação apresentado desejar prosseguir novos estudos das Redes Neurais na Concessão de Crédito – buscando uma possível excelência na Um Estudo de Caso em uma Empresa de generalização, outras variações de parâmetros Consórcio. 6º Congresso USP Controladoria e e estruturas podem ser testadas no comitê Contabilidade, 2006. como: variações do número de redes participantes; na forma de se agregar [10] MACIEL, Josias. Análise de um Sistema de classificadores individuais; mudança do corte Crédito Cooperativo Através de Redes Neurais individual da pseudo-probabilidade de uma (MLP) com a Utilização do Algoritmo rede. Para detalhes sobre criação e Levenberg Marquardt. Dissertação do Programa de Pós-Graduação em Métodos Numéricos em combinação de técnicas, recomendamos [12]. Engenharia, UFPR: Curitiba, 2005. 7. Referências Bibliográficas [11] RIZZO, Ana Lucia Tucci; CYMROT, Raquel. Utilização da Técnica de [1] REZENDE, Solagem Oliveira. Sistemas Reamostragem Bootstrap em Aplicação na Inteligentes: Fundamentos e Aplicações. Engenharia de Produção. VI Encontro Latino Barueri, SP: Manole, 2005. Americano de Pós-Graduação, UNIVAP: São Paulo, 2006.
  • 11. Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008. [12] SANTOS, R.O.V. dos et al; Mutilayer Neurônios na SSE % Acerto Teste Perceptron Classifiers: ensembles creation and Camada Escondida Treino Teste Adim. Inadim. Total combining techniques. Relatório Interno, Puc- 2 88,9 23,4 94,3 99,7 97,0 Rio, 2001. 3 80,2 20,4 94,8 100,0 97,4 4 71,5 17,7 95,4 100,0 97,7 [13] JOHNSON, R.A.D; WICHERN, W.; 5 65,1 14,6 96,4 100,0 98,2 Applied Multivariate Statistical Analysis. 4ª 6 77,9 20,8 94,5 100,0 97,2 Ed., Prentice Hall, 1998. 10 86,4 21,8 94,1 100,0 97,1 12 68,8 18,5 95,6 99,7 97,6 [14] OLIVEIRA, Paulo Jorge et al. Limpeza de Dados – Uma Visão Geral. Departamento de Anexo D – Variações de Treinamento para Engenharia Informática, Instituto Politécnico do procedimento por Bootstrapping em Matriz- Porto, Portugal. X, com 5 neurônios na camada escondida. [15] BUSSAB, Wilton de O.; MORETTIN, Pedro A.. Estatística Básica. 5ed. São Paulo: Saraiva, 2006. Duração da Fase SSE % Acerto Teste de Treinamento Treino Teste Adim. Inadim. Total 8. Anexos 25 88,4 20,3 95,1 100,0 97,6 50 76,0 18,4 95,4 100,0 97,7 Anexo A – Variações de Neurônios para 100 58,4 15,9 95,6 100,0 97,8 procedimento por Bootstrapping em PCA-X. 200 64,7 17,0 95,4 100,0 97,7 400 51,0 13,7 96,3 100,0 98,2 Neurônios na SSE % Acerto Teste 800 42,8 12,4 96,6 100,0 98,3 Camada Escondida Treino Teste Adim. Inadim. Total 2 154,8 42,4 92,8 97,1 94,9 3 132,7 35,6 93,3 96,7 95,0 4 102,3 27,7 94,6 97,9 96,3 5 107,6 30,2 95,2 97,4 96,3 6 93,2 24,4 95,8 98,0 96,9 10 68,7 17,8 96,7 99,1 97,9 12 70,5 19,9 95,3 99,3 97,3 Anexo B – Variações de Treinamento para procedimento por Bootstrapping em PCA-X, com 10 neurônios na camada escondida. Duração da Fase SSE % Acerto Teste de Treinamento Treino Teste Adim. Inadim. Total 25 67,7 19,8 97,1 98,3 97,7 50 79,2 21,9 97,6 97,3 97,4 100 61,4 19,1 96,6 98,3 97,4 200 60,2 18,7 97,3 98,3 97,8 400 45,7 12,2 96,8 100,0 98,4 800 74,5 22,3 96,6 97,3 96,9 Anexo C – Variações de Neurônios para procedimento por Bootstrapping em Matriz-X.

×