Introdução à Analise de Dados - aula 3 - Agregação de Dados

755 views
657 views

Published on

Slides da aula sobre Agregação de dados do curso "Introdução à Análise de Dados" do centro de informática da ufpb.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
755
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
49
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Introdução à Analise de Dados - aula 3 - Agregação de Dados

  1. 1. AGREGAÇÃO DE DADOS Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  2. 2. OBJETIVOS DA AULA • Apresentar a primeira etapa do processo de transformação de dados em informação • Descrever os diferentes níveis de agregação de dados • Exibir erros comuns na análise de dados agregados
  3. 3. NÍVEIS DE AGREGAÇÃO Fato Série Multi-série Multi-série somável Registros de sumário Transações individuais Habilidade para explorar os dados - +
  4. 4. NÍVEIS DE AGREGAÇÃO Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021 Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362 Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657 Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
  5. 5. FATO • Um fato (factoid) é um ponto único de informação • Calculado a partir dos dados crus, é escolhido para enfatizar um ponto específico • Não possibilita qualquer exploração dos dados ! 36.7% do café vendido em 2000 foi consumido por mulheres.
  6. 6. SÉRIE • Apresenta um tipo de informação (variável dependente) comparado com outra (variável independente) • Frequentemente a variável independente é o tempo
  7. 7. SÉRIE • Neste exemplo, o total de vendas depende do ano • Ou seja, o ano é independente (escolha um ano) e o total de vendas é dependente (baseado nesta escolha, o consumo foi de x) Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312
  8. 8. SÉRIE • Uma série também pode ser baseada em valores contínuos, como temperatura. Temperatura da Água (C) Tempo até uma queimadura de 1o grau 116 35 minutos 122 1 mínuto 131 5 segundos 140 2 segundos 149 1 segundo 154 Instantâneo
  9. 9. SÉRIE • Ou ser uma seqüência de valores não-contíguos, mas relacionados em uma mesma categoria Planeta Massa relativa á da Terra Mercúrio 0.0553 Vênus 0.815 Terra 1 Marte 0.107 Júpiter 317.8 Saturno 95.2 Urano 14.5 Netuno 17.1
  10. 10. SÉRIE • Em muitos casos uma série possui apenas uma variável dependente para cada variável independente • Em outras palavras, há apenas um valor para o consumo total de café para cada ano • Este tipo de informação geralmente é exibido utilizando um gráfico de barras, de colunas ou de série temporal
  11. 11. SÉRIE Total de vendas 0 35000 70000 105000 140000 2000 2001 2002 2003 2004 2005 2006 2007 2008
  12. 12. MULTI-SÉRIE • Uma multi-série é um conjunto de dados que possui vários itens de informação dependente para um único item de informação independente • Com esse conjunto de dados sabemos que em 2001 foram servidas 16.452 doses de café para homens e 14.021 doses de café regular (com cafeína e açúcar) Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362
  13. 13. MULTI-SÉRIE • Porém, não sabemos como combinar essas duas informações de forma útil: elas não são relacionadas! • Não temos como dizer qual o percentual de cafés regulares servidos para homens • Multi-série são simplesmente várias séries em um mesmo gráfico ou tabela • Podemos exibi-las juntas mas não temos como combiná-las de forma significativa
  14. 14. MULTI-SÉRIE 0 17500 35000 52500 70000 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino Regular
  15. 15. MULTI-SÉRIE SOMÁVEL • Como o próprio nome já sugere, uma multi-série somável diz respeito a uma estatística em particular (sexo, tipo de café) segmentada em subgrupos Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021
  16. 16. MULTI-SÉRIE SOMÁVEL • Como sabemos que um bebedor de café é homem ou mulher, podemos somar estes valores para obter uma observação sobre o total de consumo e com isso exibir porcentagens Consumo de Café por sexo em 2001 28% 72% Homem Mulher
  17. 17. MULTI-SÉRIE SOMÁVEL Consumo total de café, por sexo 0 35000 70000 105000 140000 2000 2001 2002 2003 2004 2005 2006 2007 2008 Masculino Feminino
  18. 18. MULTI-SÉRIE SOMÁVEL • Um desafio ao se utilizar multi-séries é entender quais séries podem ser combinadas. • Não há nada nesta tabela que nos diga como combinar estas informações - processamento humano! Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312 Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291 Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021 Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362 Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657 Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293
  19. 19. É DIFÍCIL EXPLORAR DADOS RESUMIDOS • 36.7% das cafés vendidos em 2000 foram consumidos por mulheres • Foram vendidos 9.929 cafés regulares em 200 • Portanto, mulheres compraram 3643.9 cafés regulares em 2010
  20. 20. É DIFÍCIL EXPLORAR DADOS RESUMIDOS • Errado! • O fato do resultado ser uma fração já nos mostra que isso não é uma boa idéia (ninguém compra .9 xícaras de café) • Este tipo de inferência só pode ser feita se soubermos como uma categoria (tipo de café) é distribuída em uma outra categoria (sexo). • A única forma de explorar realmente os dados e poder responder novas questões é analisar os dados crus • Depois é preciso saber como agregá-los corretamente
  21. 21. REGISTROS DE SUMÁRIO Nome Sexo Regular Decaf Mocha Total Pedro M 2 3 1 6 Maria F 4 0 0 4 José M 1 2 4 7 Joana F 3 1 0 4 Belinha F 1 0 0 1 João M 2 1 3 6 Biu M 3 1 0 4 Jacó M 0 0 1 1 Total 5M, 3F 16 8 9 33
  22. 22. REGISTROS DE SUMÁRIO • Esse tipo de tabela é bastante familiar para qualquer um que já usou o Excel • Tivemos 5 consumidores do sexo masculino e 3 do feminino • Vendemos 16 cafés regulares, 8 decaf e 9 mochas, totalizando 33 cafés
  23. 23. REGISTROS DE SUMÁRIO • Mas o mais importante é que podemos combinar categorias de dados para responder mais perguntas exploratória • Por exemplo “Mulheres preferem algum tipo específico de café?”
  24. 24. REGISTROS DE SUMÁRIO • Olhando esta tabela podemos "afirmar" que mulheres preferem café regular e homens não têm uma preferência específica. Sexo Média de Regulares Média de Decaf Média de Mocha M 1.60 1.40 1.80 F 2.67 0.33 0.00 Total 2.29 1.14 1.14
  25. 25. REGISTROS DE SUMÁRIO • Mesmo agora ainda temos algum nível de agregação • Resumimos os dados em várias dimensões - sexo e tipo de café - ao agregá-los por nome de cliente. • Apesar desses ainda não serem os dados crus, já estamos bem próximos disso. • Uma vantagem desse agrupamento é reduzir o tamanho do conjunto de dados
  26. 26. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES • É comum agregar registros de sumário ou dados crus para podermos exibi-los mais facilmente. • Considere as seguintes transações Nome Regular Decaf Mocha Pedro 2 3 1 Maria 4 0 0 José 1 2 4 Joana 3 1 0 Belinha 1 0 0 João 2 1 3 Biu 3 1 0 Jacó 0 0 1 Total 16 8 9 Médias 2 1 1.125
  27. 27. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES Média de xícaras consumidas 0 0.5 1 1.5 2 Regular Decaf Mocha
  28. 28. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES • A média esconde detalhes! • É possível que algumas pessoas tenham tomado uma única dose de um determinado café e outras tenham tomando várias doses. • Existem formas mais adequadas para observar as variações de forma a melhor exibir a forma de uma informação • Se mantemos os dados crus podemos entrelaçar mais de uma variável dependente a cada variável independente.
  29. 29. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES Frequênciadecadaevento 0 1 2 3 1 2 3 4 5 6 7 Moda: o número mais frequente de cafés consumidos é 4 Média: o número médio de cafés por cliente é 4.12
  30. 30. USANDOVISUALIZAÇÃO PARA REVELARVARIAÇÕES • A média foi 4.12 porém o histograma demonstra que há 3 clientes que bebem muito café! • Quando se tem os dados crus é possível identificar exceções e pontos fora da curva (outliers) e contar uma história mais precisa. • Porém, estes ainda não são os dados crus!
  31. 31. TRANSAÇÕES INDIVIDUAIS • Estas transações podem ser agregadas por qualquer coluna. • O tempo também pode ser agregado em intervalos (hora, dia, ano, etc) • Os dados que vimos lá no início da aula podem ser facilmente gerados a partir de um conjunto de transações como estas • Mas é impossível fazer o caminho inverso! Hora Nome Sexo Café 17:00 Pedro M Regular 17:01 Maria F Regular 17:02 José M Mocha 17:03 Joana F Decaf 17:04 Belinha F Regular 17:05 João M Regular 17:06 Biu M Mocha 17:07 Jacó M Decaf
  32. 32. DECIDINDO COMO AGREGAR OS DADOS • Quando agregamos dados crus como estes para gerar sumários como os que vimos hoje nós perdemos a história dos dados • Por exemplo, quando agrupamos as transações individuais para fazer uma totalização anual, nós: • Removemos os nomes dos clientes, tornando os dados anônimos • Agrupamos os horários de compras, gerando um sumário por ano
  33. 33. DECIDINDO COMO AGREGAR OS DADOS • Qualquer um desses dois itens de dados poderia ser utilizado para identificar que alguém consome uma quantidade muito grande de café • E se ao invés de café, estivéssemos vendendo bebidas alcóolicas? • Deveríamos alertar um cliente que bebe demais? • Se um cliente se envolve em um acidente, os registros do seu consumo de bebidas alcóolicas poderiam ser utilizados como prova contra ele?
  34. 34. REFERÊNCIAS • Data + Design:A simple introduction to preparing an visualizing information,Tina Chiasson et al

×