Data Mining
2011/2012
Modelo de segmentação na
Indústria Elétrica
Índice
Lisboa, 9 de Dezembro de 2011
Hugo Rodrigues hugo...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 2
Introdução ............................
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 3
Tabela de Imagens
Fig 1 – Criação de...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 4
Introdução1.
No âmbito da cadeira de...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 5
Importação da ABT3.
Foi necessário a...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 6
Exploração das variáveis4.
Explorand...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 7
Como resultado, passámos a ter o núm...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 8
Os resultados obtidos foram os segui...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 9
Fig 14 – Metadata Node
O nosso model...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 10
As variáveis tinham a seguinte dist...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 11
Reduzimos para 4 uma vez que 2 dele...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 12
Análise dos Segmentos
Fig 25 – Anál...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 13
O segmento 2 é o que possui maior v...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 14
Os 4 segmentos resultantes do model...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 15
Observamos os seguintes perfis de s...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 16
 O segmento 3 identifica clientes ...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 17
Acreditamos que com estas recomenda...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 18
Neste trabalho, para simular a scor...
Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 19
O resultado desta scorização foi:
F...
Anexos13.
Upcoming SlideShare
Loading in …5
×

Modelo de segmentação de Clientes

4,641 views
4,370 views

Published on

Desenvolvimento de um modelo de segmentação na indústria elétrica

Published in: Business
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,641
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Modelo de segmentação de Clientes

  1. 1. Data Mining 2011/2012 Modelo de segmentação na Indústria Elétrica Índice Lisboa, 9 de Dezembro de 2011 Hugo Rodrigues hugo.rodrigues@gmail.com
  2. 2. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 2 Introdução ..............................................................................................................41. Criação de Projeto e Diagrama......................................................................................42. Importação da ABT ...................................................................................................53. Exploração das variáveis .............................................................................................64. Filtros ....................................................................................................................75. Valores omissos........................................................................................................76. Criar/Transformar variáveis..........................................................................................97. Desenvolvimento dos Clusters .................................................................................... 108. Análise de Perfil dos Segmentos.................................................................................. 139. Comparação de Perfis .............................................................................................. 1510. Estratégias de Marketing........................................................................................... 1611. Scorização............................................................................................................. 1712. Anexos................................................................................................................. 2013.
  3. 3. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 3 Tabela de Imagens Fig 1 – Criação de um diagrama ............................................................................. 4 Fig 2 – Criação do projeto inicial, criando uma libname ............................................. 5 Fig 3 – Propriedades da ABT disponibilizada ............................................................. 5 Fig 4 – Resultado da importação: variáveis existentes e respectivo papel .................... 5 Fig 5 – Variáveis rejeitadas.................................................................................... 6 Fig 6 – Resultado da ABT após o tratamento de variáveis .......................................... 6 Fig 7 – Node do tipo SAS Code para tratamento da variável data_nasc ...................... 6 Fig 8 – Resultado da nova variável Idade com anos ................................................. 7 Fig 9 – Filter Node ............................................................................................... 7 Fig 10 – Correção de Outliers ................................................................................ 7 Fig 11 – Stat Explore Node ................................................................................... 7 Fig 12 – Missing Values identificados nas variáveis .................................................. 8 Fig 13 –Missing Values Node ................................................................................. 8 Fig 14 – Metadata Node........................................................................................ 9 Fig 15 – Variáveis Tratadas................................................................................... 9 Fig 16 – Transform Variables Node ........................................................................ 9 Fig 17 – Métodos de transformação de variáveis...................................................... 9 Fig 18 – Variáveis alvo de transformação...............................................................10 Fig 19 – Variáveis transformadas..........................................................................10 Fig 20 – Cluster Node..........................................................................................10 Fig 21 – Variáveis não utilizadas para os clusters....................................................10 Fig 22 – Cluster Plot (não hierárquico) ..................................................................11 Fig 23 – Dimensão dos Clusters............................................................................11 Fig 24 – Valor das Variáveis.................................................................................11 Fig 25 – Análise dos Segmentos ...........................................................................12 Fig 26 – Análise do Consumo por Segmento...........................................................12 Fig 27 – Análise da Potência Contratada por Segmento ...........................................12 Fig 28 – Análise da Faturação por Segmento..........................................................13 Fig 29 – Análise da Classe de Conta por Segmento .................................................13 Fig 30 –Segment Profile Node ..............................................................................13 Fig 31 – Segment Size ........................................................................................14 Fig 32 – Variable Worth.......................................................................................14 Fig 33 – Segment Profile .....................................................................................15 Fig 34 –Score Node.............................................................................................17 Fig 35 –SAS Code...............................................................................................17 Fig 36 –Scorização de 2011 .................................................................................18 Fig 37 –Aplicação do modelo Scoring ....................................................................18 Fig 38 –Resultado do Scoring ...............................................................................19
  4. 4. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 4 Introdução1. No âmbito da cadeira de Data Mining foi proposto a elaboração de um trabalho que é o desenvolvimento de um modelo de segmentação na indústria eléctrica. Para uma leitura simples decidimos modelar o trabalho segmentado, ou seja segmentar os vários perfis a serem utilizados. Este tipo de operação são de um enorme relevo porque isto permite aos gestores analisar a sua organização, bem como analisar a nível segmentar dos vários produtos e serviços, face a isso também compreender melhor os vários serviços que os seus concorrentes diretos fornecem e até mesmo possíveis concorrentes num futuro próximo. Pelo conhecimento aplicado nas aulas, podemos alinhar o modelo de segmentação de clientes em 5 fases:  Análise dos vários perfis utilizados  Planeamento do modelo analítico  Implementação do modelo proposto  Tabela ABT o Caso de exclusão  Oportunidades identificadas nos vários grupos Criação de Projeto e Diagrama2. Recorrendo a aplicação SAS Enterprise Miner Workstation 7.1 efetuámos a criação de um novo projeto: Fig 1 – Criação de um diagrama
  5. 5. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 5 Importação da ABT3. Foi necessário adicionar uma opção para ignorar a validação das variáveis para podermos carregar a ABT disponibilizada: Fig 2 – Criação do projeto inicial, criando uma libname Efetuámos o seguinte procedimento para importação da ABT RAW para o projeto: Fig 3 – Propriedades da ABT disponibilizada Conseguimos observar que os dados que vão ser utilizados têm como base uma tabela com 17 variáveis e 288890 observações. Esta ABT vai ser utilizada para efetuarmos a exploração de dados para o projeto. Fig 4 – Resultado da importação: variáveis existentes e respectivo papel
  6. 6. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 6 Exploração das variáveis4. Explorando os dados da ABT disponibilizada, concluímos que existem variáveis que não são relevantes para a nossa análise. As variáveis Ntelefone, Tel_alternativo e n_contrib não acrescentam valor que diferencie a segmentação por ou todos terem, ou por não fazer sentido (ter ou não ter telefone alternativo quando já têm Telefone). Fig 5 – Variáveis rejeitadas Também observamos que existem variáveis mal classificadas quanto ao seu papel e level. Dessa forma efetuámos a seguinte correção: Fig 6 – Resultado da ABT após o tratamento de variáveis A variável data_nasci não é trabalhável da forma como consta na tabela, sendo necessário efetuar uma transformação para o formato numérico, em anos. Fig 7 – Node do tipo SAS Code para tratamento da variável data_nasc Código: data &EM_EXPORT_TRAIN; set &EM_IMPORT_DATA; Idade = Floor((date()-data_nasci)/365); /* Determina o número de dias até à data, converte para anos e arredonda */ run;
  7. 7. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 7 Como resultado, passámos a ter o número de anos para cada observação: Fig 8 – Resultado da nova variável Idade com anos Filtros5. Após a exploração das variáveis percebemos que nas variáveis intervalares existem outliers. Para o tratamento desta situação utilizou-se um node do tipo Filter. Fig 9 – Filter Node Para tal efetuamos a aplicação de filtros sobre as observações efetuadas. Fig 10 – Correção de Outliers Valores omissos6. Analisando os resultados, com um nó do tipo Stat Explore observamos que existem missing values em ambos os tipos de variáveis. Fig 11 – Stat Explore Node
  8. 8. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 8 Os resultados obtidos foram os seguintes: Fig 12 – Missing Values identificados nas variáveis Para efetuar o tratamento dos valores omissos, utilizamos um nó do tipo Impute. Fig 13 –Missing Values Node Para o tratamento, adotámos uma estratégia baseada nos seguintes parâmetros: Propriedade Valor Missing Cutoff 50 % Default Input Method (para as variáveis de classe e intervalares) Tree Default Character Value Desc Default Number Value 0 Ao utilizarmos este método as variáveis género e distribuidora serão afetadas pois a percentagem de missing values é superior ao valor de cuttoff que definimos. Para ultrapassar esta questão definimos que devem ser consideradas e como método utilizado a constant. A variável género é por isso eliminada uma vez que não faz sentido a imputação de omissos a Masc ou Fem. De seguida efetuamos um filtro de variáveis para ficarmos com um novo conjunto de trabalho.
  9. 9. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 9 Fig 14 – Metadata Node O nosso modelo passa a considerar as seguintes variáveis: Fig 15 – Variáveis Tratadas Criar/Transformar variáveis7. Verificamos que no conjunto obtido existem assimetrias que podem prejudicar os resultados. Para tratamento destes casos foi necessário efetuarmos transformação. Fig 16 – Transform Variables Node Para selecionarmos o melhor método de transformação foi necessário efetuar várias tentativas. Como parâmetros base definimos o seguinte: Propriedade Valor Method First N Cutoff Value 1.04E-4 Após várias tentativas selecionámos para as variáveis os seguintes métodos de transformação: Fig 17 – Métodos de transformação de variáveis
  10. 10. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 10 As variáveis tinham a seguinte distribuição: Fig 18 – Variáveis alvo de transformação Com a transformação passámos a ter os seguintes resultados: Fig 19 – Variáveis transformadas Desenvolvimento dos Clusters8. Para o desenvolvimento de clusters tivemos uma primeira abordagem baseada em cluster node: Fig 20 – Cluster Node Iniciámos a análise com um cluster hierárquico. Neste caso a definição dos métodos e quantidade é automática. Após uma afinação concluímos que deveríamos reduzir o valor máximo do critério de seleção. O resultado automático resultou em 9 clusters. Os resultados não foram interessantes pois observamos demasiados clusters, e todos eles muito próximos (distância curta). Realizámos por isso um cluster do tipo Não Hierárquico. Neste caso demos um valor inicial de 5 clusters. Verificámos que existem frequências muito díspares entre os clusters considerados. Efetuamos uma revisão nas variáveis a considerar para a análise. Por serem muito semelhantes, descartamos as seguintes: Fig 21 – Variáveis não utilizadas para os clusters
  11. 11. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 11 Reduzimos para 4 uma vez que 2 deles estavam muito próximos. O resultado final foi o seguinte: Fig 22 – Cluster Plot (não hierárquico) Dimensão dos Clusters Fig 23 – Dimensão dos Clusters Valor de importância das Variáveis Fig 24 – Valor das Variáveis
  12. 12. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 12 Análise dos Segmentos Fig 25 – Análise dos Segmentos O segmento 3 é o que possui maior valor médio de consumo mensal, seguindo-se dos segmentos 2, 4 e 1: Fig 26 – Análise do Consumo por Segmento O segmento 2 é o que possui maior nível de potência contratada associada ao contrato, seguindo-se dos segmentos 1, 4 e 3: Fig 27 – Análise da Potência Contratada por Segmento
  13. 13. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 13 O segmento 2 é o que possui maior volume de faturação, seguindo-se dos segmentos 3, 4 e 1: Fig 28 – Análise da Faturação por Segmento O segmento 4 é o que possui maior volume de clientes residenciais, seguindo-se dos segmentos 3, 2 e 1: Fig 29 – Análise da Classe de Conta por Segmento Análise de Perfil dos Segmentos9. Através do nó Segment Profile podemos verificar os dados segmentados e analisados pelo cluster, e identificar os factores de diferenciação em relação à população. Através dos relatórios fornecidos por este nó (comparação dos segmentos com a população) podemos analisar e delinear posteriormente estratégias de marketing de acordo com objectivos da empresa. Fig 30 –Segment Profile Node
  14. 14. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 14 Os 4 segmentos resultantes do modelo têm o seguinte peso e distribuição: Fig 31 – Segment Size Verifica-se que o segmento 3 é o mais observado com 40% do valor total da população analisada. Segue-se o segmento 4 com 31,96%, o segmento 2 com 18,65% e por ultimo o segmento 1 com 9,31%. As variáveis possuem o seguinte peso por segmento: Fig 32 – Variable Worth
  15. 15. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 15 Observamos os seguintes perfis de segmento: Fig 33 – Segment Profile Comparação de Perfis10. Para avaliarmos se os segmentos obtidos fazem sentido, poderemos verificar pela análise da figura Fig 33 – Segment Profile, que os gráficos representantes da população (a vermelho para as variáveis intervalares) não coincidem com os gráficos do segmento (a azul para as variáveis intervalares). Comparando o resultado dos clusters com os perfis dos segmentos, podemos concluir que é possível adotarmos a segmentação para a segmentação dos clientes com base no segmento. Segmento/Variáveis Faturação Consumo Potência Contratada Residencial Segmento 1 * * *** * Segmento 2 **** *** **** ** Segmento 3 *** **** * *** Segmento 4 ** ** ** **** Analisando os resultados anteriores poderemos concluir o seguinte:  O segmento 1 poderá ser composto por Empresas, uma vez que se identifica ter um baixo volume residencial e uma potência contratada elevada (Industria, comércio,etc.);  O segmento 2 retrata clientes que poderão ser empresas ou residenciais, cuja faturação é elevada, resultante de uma atividade intensa dado o consumo elevado;
  16. 16. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 16  O segmento 3 identifica clientes residenciais, com um nível de potencia contratada baixo, mas que consomem muito, resultando no segundo segmento mais importante ao nível da faturação;  O segmento 4 inclui os clientes residenciais que têm um consumo e potência contratada baixos e como tal um nível de faturação baixo. Estratégias de Marketing11. Para uma abordagem comercial, tendo como objetivo criar um conjunto de oportunidades sobre os segmentos encontrados. Ao nível estratégico, as ações recomendadas visam reter os clientes mais valiosos para a empresa, ou seja, os que representam maior faturação. Promover a comunicação da empresa para com os clientes empresariais e aumentar o nível de envolvimento dos pequenos clientes. Num nível mais tático, propomos a seguinte estrutura comercial para cada camada:  Platina (Segmento 2): Segmento de topo que representa clientes sobre os quais deverão ser promovidas ações comerciais de comunicação (contato permanente e pró-ativo), de forma a garantir a exclusividade na utilização da rede elétrica atual e consequentemente garantir a manutenção dos clientes.  Ouro (Segmento 3): Este segmento representa os clientes que consomem muita energia. Recomendamos que sejam efetuadas ações de marketing que demonstrem o valor obtido pela utilização da rede de energia atual, e como a eficácia do serviço é elemento diferenciador para a qualidade de vida. Recomendamos também a criação de cartões de cliente que proporcionem vantagens pessoais em serviços diversos.  Prata (Segmento 4): Este segmento representa os pequenos consumidores residenciais. Recomendamos que sejam efetuadas campanhas de marketing através de uma abordagem ao nível das redes sociais, por ser mais direta, tendo uma implicação na cultura do público-alvo mais abrangente dentro deste segmento.  Bronze (Segmento 1): Este segmento representa clientes empresariais que consomem muita energia. Recomendamos que sejam efetuadas campanhas de marketing personalizadas, dado representar um subconjunto reduzido da população, que demonstrem a qualidade do serviço atual e os benefícios obtidos pela utilização da rede atual. Propomos também que seja demonstrada flexibilidade na prestação de serviços complementares por forma a alargar o portefólio de serviços contratados.
  17. 17. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 17 Acreditamos que com estas recomendações será possível inverter ou minimizar a perda de fidelização dos clientes atuais face à possível liberalização do mercado elétrico. Scorização12. Para automatizar o processo de análise de clientes, com base no modelo validado, que normalmente ocorre com regularidade, realiza-se a ação de scorização. No modelo analítico utiliza-se o nó de score: Fig 34 –Score Node O Score permite ter acesso a todo o código subjacente à criação do modelo, que poderá ser aplicado sobre uma nova ABT com dados atualizados à data. Foram produzidos dois modelos de código. Um representa o código total – SAS Code. O outro modelo representa uma versão reduzida e otimizada. Fig 35 –SAS Code
  18. 18. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 18 Neste trabalho, para simular a scorização do mês de janeiro de 2011, associamos ao node de scoring uma nova instância da ABT ABT_FACTUR_ENERGIA com o Role de “Score”. Fig 36 –Scorização de 2011 Na aplicação do modelo foram consideradas as seguinte variáveis: Fig 37 –Aplicação do modelo Scoring
  19. 19. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica Hugo Rodrigues 19 O resultado desta scorização foi: Fig 38 –Resultado do Scoring
  20. 20. Anexos13.

×