1) O documento discute métodos para avaliar se dados satisfazem a suposição de normalidade, necessária para alguns métodos estatísticos.
2) São apresentados procedimentos como gráficos de distribuição, Q-Q plots e testes estatísticos para verificar a normalidade univariada e bivariada dos dados.
3) Caso os dados não sejam normais, devem ser usadas técnicas apropriadas para dados não-normais ou realizadas transformações nos dados visando normalizá-los.
2. Alguns métodos de Inferência Estatística partem do pressuposto de normalidade dos dados. A qualidade das inferências feitas por estes métodos depende de quão próxima é a população em estudo da normal multivariada. Procedimentos para verificação de dados que apresentam desvios da suposição de normalidade se fazem necessários.
3. PROBLEMA: As observações Xi parecem violar a suposição de normalidade? Sugestão: verificar se as distribuições marginais do vetor aleatório parecem normais; se os diagramas de dispersão das variáveis tomadas duas a duas têm uma aparência elíptica; se existem observações discrepantes (outliers) que mereçam ser verificadas.
4.
5.
6.
7. São de fato um gráfico do quantil amostral versus quantil esperado sob normalidade (podem ser usados para validar outras distribuições diferentes da normal).
8. Quando a configuração de pontos no gráfico se aproxima de uma reta, a suposição de normalidade é sustentável.
9. A normalidade é suspeita se houver pontos que se desviam do comportamento linear.
10. A forma como os pontos se desviam do comportamento linear pode fornecer pistas sobre a natureza da não normalidade das observações.
11.
12. PASSOS NA CONSTRUÇÃO DO Q-Q plot Para uma distribuição normal padrão, podemos obter os quantis q(i)tais que P(Z≤ q(i))=(i-0,5)/n. A idéia será olhar os pontos (q(i),x(i)) com a mesma probabilidade acumulada (i-0,5)/n. Se os dados, de fato, provêm de uma normal, os pares serão aproximadamente linearmente relacionados, pois o quantil esperado sob normalidade é aproximadamente σ q(i)+μ, com σ representando o desvio-padrão e μ a média da distribuição.
13. Usando o R para a construção do Q-Q plot No R temos a função ppoints(n) que gera o vetor de valores (i-0,5)/n, para i variando de 1 a n. Para gerar os quantis esperados sob normalidade usaremos a função qnorm(p), que retorna o quantil cuja probabilidade acumulada é p. (Quando não especificamos nada além de p, o R retorna quantis da N(0,1)). A função usada para ordenar um vetor de números no R é a função sort(x).
16. Os dados estão organizados de tal modo que as colunas de 4 a 8 representam medidas morfológicas de caranguejos de duas espécies (linha 1 a 100 uma espécie e de 101 a 200 a outra).
17. Também há a divisão por gênero (macho e fêmea) tal que as 50 primeiras linhas de cada espécie são do gênero macho e, as restantes, do gênero fêmea.
18.
19.
20. Avaliação da normalidade das distribuições marginais Uma medida quantitativa para auxiliar na avaliação do Q-Q plot é calcular a correlação rQ entre os quantis esperados e o vetor observado ordenado. A hipótese de normalidade é rejeitada ao nível de significância α se rQobtido for menor que um valor apropriado. Por exemplo, ao nível de significância de 5% amostras de tamanho 50, a hipótese deve ser rejeitada se rQ for inferiro a 0,9768.
48. Avaliando compostos lineares Para avaliar os compostos sugeridos no slide anterior, primeiro devemos obter os n valores correspondentes a tais compostos. Por simplicidade, consideraremos apenas o primeiro grupo. A verificação para os demais grupos fica como um exercício. Primeiro vamos obter a decomposição espectral de S1 fazendo DES1=eigen(S1). DES1 receberá dois objetos: o vetor de autovalores em ordem decrescente de magnitude e a matriz ortogonal na qual as colunas são os autovetores correspondentes.
63. Avaliação da Normalidade bivariada Além disso, vimos que se , então A grosso modo, devemos esperar que cerca de 50% das observações caiam na região (no elipsóide) Assim um procedimento útil, embora não exato, é comparar as proporções de pontos dentro de um contorno com a proba- bilidade teórica correspondente.
64. Avaliação da Normalidade bivariada Um método um pouco mais formal para julgar a normalidade bivariada é baseado no quadrado da distância generalizada Esse procedimento não é limitado ao caso p=2, pode ser usado. para p>2.
65. Avaliação da Normalidade bivariada Quando a população é de fato normal multivariada e ambos n e n-p são maiores que 25 ou 30, cada uma das distâncias generalizadas quadradas devem comportar-se segundo uma distribuição de qui-quadrado com p graus de liberdade. Apesar dessas distâncias não serem independentes ou terem distribuição exata de Qui-quadrado, é útil construir um gráfico como se fossem. O gráfico resultante é chamado gráfico qui-quadrado.
66. Construção do gráfico qui-quadrado 1. Ordene as distâncias quadradas amostrais obtendo 2. Construa o gráfico de dispersão dos pontos: representando o 100(i-0,5)/n quantil da distribuição de qui-quadrado com p graus de liberdade. A nuvem de pontos deve se ajustar a uma reta. Um padrão diferente sugere falta de normalidade
67. Verificando a normalidade bivariada dos dados em crabs Para começar devemos calcular as distâncias quadradas. Para isso vamos definir a matriz de dados x=matrix(0,200,5) e fazer x1=x[1:50,1:5]. Em seguida vamos calcular o vetor de médias m1=matrix(0,1,5) // for (i in 1:5){m1[i]=mean(x1[,i])} e a matriz de covariância amostral S1=cov(x1). Defina o vetor que receberá as distâncias quadradas: dquad1=matrix(0,50) e faça for (i in 1:50){dquad1[i]=(x1[i,]-m1)%*%solve(S1)%*%t(x1[i,]-m1)}
70. A figura a seguir mostra os gráficos obtidos para os quatro grupos.
71.
72.
73. 1) Usar técnicas estatísticas apropriadas para dados não-normais, após verificar a distribuição plausível para os dados (Poisson, Gamma,etc.)
74.
75.
76.
77.
78.
79. Porém, não há garantias de que mesmo a melhor escolha de λ produzirá um conjunto de dados transformados que seja adequado à suposição de normalidade.
80. Os resultados obtidos por uma transformação selecionada de acordo com esse procedimento devem ser cuidadosamente examinados para possíveis violações da suposição de normalidade.