Data Mart - Modelando com Excel 2007 II

2,609 views

Published on

Neste tutorial, que é uma continuação do artigo "Data Mart - Modelagem de negócio I" trata uma solução com estatísticas do IBGE usando uma proposta e refinando-a usando o Excel 2007.

Published in: Business
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,609
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Data Mart - Modelando com Excel 2007 II

  1. 1. Data Mart<br />Análise utilizando Excel 2007<br />Rafael Junqueira<br />
  2. 2. Conceito de Data Mining<br />Data mining significa ‘Mineirando dados’ para o nosso estudo, aqueles que leram o artigo “Dart Mart – Modelagem de negócios I” presente aqui no SlideShare puderam entender o conceito de análise de negócios usando o sistema OLAP.<br />Data Mining (DM) é um recurso de extrair do dado a informação objeto da análise. Um dos destaques é as chamadas operações de agregação.<br />Cruzamento de dados <br />‘Data Mining’<br />
  3. 3. Processo do Data Mining<br />Objetivo<br />Do<br />Negócio<br />Vendas de imóveis<br />Dado trabalhado<br />Considere um dado trabalhado, como exemplo de dado trabalhado é quando olhamos para uma tabela e nela encontra-se informações de fornecedores (nomes dos fornecedores, o que oferecem, dados de contato e etc).<br />Este dado trabalhado quando passa a ter utilidade analítica pode sofrer uma mineração para obter outras informações implícitas ou explícitas.<br />Uma forma que usaremos de Data Mining no Excel 2007 são as operações de agregação. Que são por definição operações que exploram o dados sob outros aspectos.<br />A dúvida sobre o assunto irá desmanchar com a figura do lado.<br />Data Mining<br />Info sobre vendas<br />Info sobre contatos<br />Info sobre clientes<br />Dados ‘mineirados’ para análise<br />
  4. 4. Data mining x ETL<br />ETL é um processo que significa ‘Extrair, transformar e carregar’ dados de um banco de dados (Dado trabalhado) para um ambiente OLAP (Processos analíticos on-line).<br />O ETL é uma espécie de DM porque ele já lida com o objetivo do negócio – “O que pegar na fonte? Que dados extrair? Que informação agregar?”.<br />No Excel 2007 vamos utilizar funções com =MÁXIMO(), =MÍNIMO(), =SOMA(),=PROCV () para obter informações de acordo com nosso contexto.<br />Exemplo de agregação<br />Sistema OLAP (CUBO) para analisar cruzamento de dados<br />
  5. 5. Agregando OLAP + ETL + DM<br />OLAP é um sistema de modelagem de análise de negócios, ETL é um recurso de extração de uma fonte de dados para um ambiente de análise, e assim vamos dividi-lo de um conceito de DM aplicada durante a análise. Percebam o sistema abaixo, antes de passarmos para um estudo de caso.<br />BDR<br />OLTP<br />ETL<br />OLAP<br />Data Mining<br />Dimensão 3<br />Dimensão 1<br />Dimensão 2<br />Dimensão são novos caminhos de análise.<br />
  6. 6. Estudo de caso IBGE-Educação<br />Nós vamos usar um banco de dados real do IBGE.<br />O objetivo do negócio é – “Obter um desempenho de matrículas nos anos de 2005 e 2009 para escolas localizadas na cidade do Rio de Janeiro. Considerando de forma fictícia que o governo queira aprovar uma verba de renovação para a escola que teve a menor taxa de variação nas matrículas neste período”<br />
  7. 7. Modelando 2005-09-IBGE<br />O objetivo inicial era de obter um desempenho nas matrículas, ou seja encontrar a escola que tivesse o maior número de matrícula em 2005 e 2009.<br />Com o segundo momento, o governo precisando aprovar uma verba para a melhor escola que obter uma variação menor de matrículas, no período de 2005-2009 não ter variado muito do número inicial, e assim destinar esta verba para esta escola.<br />O nosso modelo precisa encontrar então, a escola com a menor variação neste período de matrículas.<br />Dese_Matrícula<br />Chave_tempo<br />Chave_escola<br />Total_Matrículas<br />MAXIMO_MAT<br />Porc_Ent_Peri<br />Tempo<br />Escola<br />Chave_tempo<br />Chave_escola<br />Ano<br />Grau_ensino<br />Escola_Tipo<br />Nome_Escola<br />Num_Matrícula<br />Como modelar a proposta?<br />
  8. 8. Modelo 2005-09 IBGE<br />Recomendo a leitura do artigo “Dart Mart – Modelagem de negócio I” para entender esta parte e inclusive o slide anterior. Vamos instanciar as análises.<br />2009, Ensino Fundamental, escola pública estadual, ‘São Abruel’, 26.065.<br />O nome é fictício, mas esta instância corresponde com a primeira aparição, entrada abaixo do número total de matrículas no ano de 2009 confirmam? <br />Demais:<br />2009, Ensino Fundamental, escola pública federal, ‘Alegretto’, 10.158<br />2009, Ensino Fundamental, escola pública municipal, ‘Viva’, 556.942<br />2009, Ensino Fundamental, escola privada, ‘O Rico’, 216.719<br />O ano de 2005 é instanciado juntamente. No entanto dei exemplo de apenas um período.<br />
  9. 9. OLAP - Excel<br />Uma sistema que realiza um Data Mining nos períodos de 2005-2009.<br />
  10. 10. Operação Olap vs Excel<br />A operação usada no nosso modelo de negócio, podemos ver no FATO “Dese_Matrículas” onde temos Total de MatrículasMáximo_MatPorc_Ent_Per que tem a finalidade de achar o total de matrículas no período (no Excel não foi feito esta operação). Máximo_Mat (maior matrícula) e Porc_Ent_Per (Porcentagem entre os períodos) esse é um dado que deve ter entrada manual como pode ser visto no desenho anterior.<br />Para achar a escola com o maior número de matrícula foi preciso usar a função PROCV(), para achar a maior matrícula foi usada a função MÁXIMO() e para calcular a porcentagem a função SOMA(AA/AA). <br />No entanto podemos testar cada valor em porcentagem para vermos a menor variação, alias o nosso objetivo não é esclarecer para o governo a escola com a menor variação de matrículas de 2005-2009?<br />
  11. 11. Variação e Escola<br />Percebe-se que a menor variação que oscila para cima é do Rico com 4%, a maior matrícula em ambos períodos é do Viva. Qual é a melhor decisão? <br />
  12. 12. Decisão<br />No primeiro momento não tínhamos como tirar conclusões, com o nosso modelo em OLAP percebemos que a métrica ‘Total de matrículas’ não tem muita coerência. Por isso a escolha de não usá-la no Excel foi uma decisão de recursos de Data Mining. O que não é útil não deve ser usado, óbvio? Mas não é tão assim, existe muita redundância quando se trata de filtrar dados dentro de uma cadeia nebulosa de acontecimentos.<br />As vezes a redundância gera discernimento em qual operação utilizar. Então ao passar a idéia do modelo para o EXCEL , foi de utilizar as métricas de porcentagem para calcular a menor variação (a oscilação foi uma percepção lógica) aliás todas as variações estão positivas, qual indica alta ou baixa? Percebemos que a escola Viva tem a maior matrícula, só que sua variação vai para 6% para baixo, ele perde matrículas. Vem o Rico que em matrícula é o segundo, e tem um aumento de 4%. Como decidir? Não é agora que é feita essa decisão final.<br />
  13. 13. Decisão parcial<br />O modelo de OLAP não é necessariamente a decisão final. Na verdade ela compôs um elemento de ajuda num sistema SAD (Sistema de apoio a decisão). Outros fatores irão ajudar a escolher a escola que deverá receber a injeção de verba.<br />Agora neste momento não teríamos ainda um fator que defini-se. Por ora seria o Viva, e por ora seria o Rico. <br />As perguntas que surgem são:<br />O que significa esses 4% de alta?<br />Qual é a estabilidade da escola Viva?<br />Qual é o plano de governo adotado neste período?<br />Observem que não existe uma resposta para proposta. O modelo que rascunhamos levantou variáveis e métricas. O Excel encontrou outras soluções. E agora temos nas mãos documentos de visão – o objetivo depende de outros fatores.<br />
  14. 14. Apresentação<br />Sou formando em Bacharel de Ciência da Computação, e minha <br />investida é na área de tecnologia aplicada a administração.<br />Neste tutorial ensinei um aprofundamento da metodologia OLAP <br />usando o Excel numa solução real usando um banco de dados do <br />IBGE com estatísticas da cidade do Rio de Janeiro relacionando <br />matrículas nos períodos de 2005-2009 de escolas do ensino <br />fundamental.<br />Fontes de banco de dados: IBGE<br />Link: http://www.ibge.gov.br/cidadesat/topwindow.htm?1<br />
  15. 15. Contatos<br />sahelblender3d@gmail.com<br />sahhara@bol.com.br<br />http://www.facebook.com/profile.php?id=100000535996424<br />

×