• Save
Data Mart - Modelando com Excel 2007 II
Upcoming SlideShare
Loading in...5
×
 

Data Mart - Modelando com Excel 2007 II

on

  • 2,385 views

Neste tutorial, que é uma continuação do artigo "Data Mart - Modelagem de negócio I" trata uma solução com estatísticas do IBGE usando uma proposta e refinando-a usando o Excel 2007.

Neste tutorial, que é uma continuação do artigo "Data Mart - Modelagem de negócio I" trata uma solução com estatísticas do IBGE usando uma proposta e refinando-a usando o Excel 2007.

Statistics

Views

Total Views
2,385
Views on SlideShare
2,385
Embed Views
0

Actions

Likes
2
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Data Mart - Modelando com Excel 2007 II Data Mart - Modelando com Excel 2007 II Presentation Transcript

    • Data Mart
      Análise utilizando Excel 2007
      Rafael Junqueira
    • Conceito de Data Mining
      Data mining significa ‘Mineirando dados’ para o nosso estudo, aqueles que leram o artigo “Dart Mart – Modelagem de negócios I” presente aqui no SlideShare puderam entender o conceito de análise de negócios usando o sistema OLAP.
      Data Mining (DM) é um recurso de extrair do dado a informação objeto da análise. Um dos destaques é as chamadas operações de agregação.
      Cruzamento de dados
      ‘Data Mining’
    • Processo do Data Mining
      Objetivo
      Do
      Negócio
      Vendas de imóveis
      Dado trabalhado
      Considere um dado trabalhado, como exemplo de dado trabalhado é quando olhamos para uma tabela e nela encontra-se informações de fornecedores (nomes dos fornecedores, o que oferecem, dados de contato e etc).
      Este dado trabalhado quando passa a ter utilidade analítica pode sofrer uma mineração para obter outras informações implícitas ou explícitas.
      Uma forma que usaremos de Data Mining no Excel 2007 são as operações de agregação. Que são por definição operações que exploram o dados sob outros aspectos.
      A dúvida sobre o assunto irá desmanchar com a figura do lado.
      Data Mining
      Info sobre vendas
      Info sobre contatos
      Info sobre clientes
      Dados ‘mineirados’ para análise
    • Data mining x ETL
      ETL é um processo que significa ‘Extrair, transformar e carregar’ dados de um banco de dados (Dado trabalhado) para um ambiente OLAP (Processos analíticos on-line).
      O ETL é uma espécie de DM porque ele já lida com o objetivo do negócio – “O que pegar na fonte? Que dados extrair? Que informação agregar?”.
      No Excel 2007 vamos utilizar funções com =MÁXIMO(), =MÍNIMO(), =SOMA(),=PROCV () para obter informações de acordo com nosso contexto.
      Exemplo de agregação
      Sistema OLAP (CUBO) para analisar cruzamento de dados
    • Agregando OLAP + ETL + DM
      OLAP é um sistema de modelagem de análise de negócios, ETL é um recurso de extração de uma fonte de dados para um ambiente de análise, e assim vamos dividi-lo de um conceito de DM aplicada durante a análise. Percebam o sistema abaixo, antes de passarmos para um estudo de caso.
      BDR
      OLTP
      ETL
      OLAP
      Data Mining
      Dimensão 3
      Dimensão 1
      Dimensão 2
      Dimensão são novos caminhos de análise.
    • Estudo de caso IBGE-Educação
      Nós vamos usar um banco de dados real do IBGE.
      O objetivo do negócio é – “Obter um desempenho de matrículas nos anos de 2005 e 2009 para escolas localizadas na cidade do Rio de Janeiro. Considerando de forma fictícia que o governo queira aprovar uma verba de renovação para a escola que teve a menor taxa de variação nas matrículas neste período”
    • Modelando 2005-09-IBGE
      O objetivo inicial era de obter um desempenho nas matrículas, ou seja encontrar a escola que tivesse o maior número de matrícula em 2005 e 2009.
      Com o segundo momento, o governo precisando aprovar uma verba para a melhor escola que obter uma variação menor de matrículas, no período de 2005-2009 não ter variado muito do número inicial, e assim destinar esta verba para esta escola.
      O nosso modelo precisa encontrar então, a escola com a menor variação neste período de matrículas.
      Dese_Matrícula
      Chave_tempo
      Chave_escola
      Total_Matrículas
      MAXIMO_MAT
      Porc_Ent_Peri
      Tempo
      Escola
      Chave_tempo
      Chave_escola
      Ano
      Grau_ensino
      Escola_Tipo
      Nome_Escola
      Num_Matrícula
      Como modelar a proposta?
    • Modelo 2005-09 IBGE
      Recomendo a leitura do artigo “Dart Mart – Modelagem de negócio I” para entender esta parte e inclusive o slide anterior. Vamos instanciar as análises.
      2009, Ensino Fundamental, escola pública estadual, ‘São Abruel’, 26.065.
      O nome é fictício, mas esta instância corresponde com a primeira aparição, entrada abaixo do número total de matrículas no ano de 2009 confirmam?
      Demais:
      2009, Ensino Fundamental, escola pública federal, ‘Alegretto’, 10.158
      2009, Ensino Fundamental, escola pública municipal, ‘Viva’, 556.942
      2009, Ensino Fundamental, escola privada, ‘O Rico’, 216.719
      O ano de 2005 é instanciado juntamente. No entanto dei exemplo de apenas um período.
    • OLAP - Excel
      Uma sistema que realiza um Data Mining nos períodos de 2005-2009.
    • Operação Olap vs Excel
      A operação usada no nosso modelo de negócio, podemos ver no FATO “Dese_Matrículas” onde temos Total de MatrículasMáximo_MatPorc_Ent_Per que tem a finalidade de achar o total de matrículas no período (no Excel não foi feito esta operação). Máximo_Mat (maior matrícula) e Porc_Ent_Per (Porcentagem entre os períodos) esse é um dado que deve ter entrada manual como pode ser visto no desenho anterior.
      Para achar a escola com o maior número de matrícula foi preciso usar a função PROCV(), para achar a maior matrícula foi usada a função MÁXIMO() e para calcular a porcentagem a função SOMA(AA/AA).
      No entanto podemos testar cada valor em porcentagem para vermos a menor variação, alias o nosso objetivo não é esclarecer para o governo a escola com a menor variação de matrículas de 2005-2009?
    • Variação e Escola
      Percebe-se que a menor variação que oscila para cima é do Rico com 4%, a maior matrícula em ambos períodos é do Viva. Qual é a melhor decisão?
    • Decisão
      No primeiro momento não tínhamos como tirar conclusões, com o nosso modelo em OLAP percebemos que a métrica ‘Total de matrículas’ não tem muita coerência. Por isso a escolha de não usá-la no Excel foi uma decisão de recursos de Data Mining. O que não é útil não deve ser usado, óbvio? Mas não é tão assim, existe muita redundância quando se trata de filtrar dados dentro de uma cadeia nebulosa de acontecimentos.
      As vezes a redundância gera discernimento em qual operação utilizar. Então ao passar a idéia do modelo para o EXCEL , foi de utilizar as métricas de porcentagem para calcular a menor variação (a oscilação foi uma percepção lógica) aliás todas as variações estão positivas, qual indica alta ou baixa? Percebemos que a escola Viva tem a maior matrícula, só que sua variação vai para 6% para baixo, ele perde matrículas. Vem o Rico que em matrícula é o segundo, e tem um aumento de 4%. Como decidir? Não é agora que é feita essa decisão final.
    • Decisão parcial
      O modelo de OLAP não é necessariamente a decisão final. Na verdade ela compôs um elemento de ajuda num sistema SAD (Sistema de apoio a decisão). Outros fatores irão ajudar a escolher a escola que deverá receber a injeção de verba.
      Agora neste momento não teríamos ainda um fator que defini-se. Por ora seria o Viva, e por ora seria o Rico.
      As perguntas que surgem são:
      O que significa esses 4% de alta?
      Qual é a estabilidade da escola Viva?
      Qual é o plano de governo adotado neste período?
      Observem que não existe uma resposta para proposta. O modelo que rascunhamos levantou variáveis e métricas. O Excel encontrou outras soluções. E agora temos nas mãos documentos de visão – o objetivo depende de outros fatores.
    • Apresentação
      Sou formando em Bacharel de Ciência da Computação, e minha
      investida é na área de tecnologia aplicada a administração.
      Neste tutorial ensinei um aprofundamento da metodologia OLAP
      usando o Excel numa solução real usando um banco de dados do
      IBGE com estatísticas da cidade do Rio de Janeiro relacionando
      matrículas nos períodos de 2005-2009 de escolas do ensino
      fundamental.
      Fontes de banco de dados: IBGE
      Link: http://www.ibge.gov.br/cidadesat/topwindow.htm?1
    • Contatos
      sahelblender3d@gmail.com
      sahhara@bol.com.br
      http://www.facebook.com/profile.php?id=100000535996424