O documento apresenta os resultados de uma análise descritiva multivariada de dados sobre autenticação de notas. Foram analisadas quatro variáveis medidas em 1372 amostras classificadas em notas verdadeiras e falsificadas. A análise incluiu estatísticas descritivas univariadas e multivariadas como médias, variâncias, correlações e matrizes de dispersão para as variáveis e classes.
1. Estatística Multivariada
Análise Descritiva - Dados: Autenticação de Notas
Vanessa Souza Santos
Universidade Federal do Amazonas
Programa de Pós Graduação em Matemática
2 de junho de 2014
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 1 / 40
2. Conteúdo
1 Introdução
2 Autenticação de Notas
Base de Dados
3 Resultados
Análise Descritiva Multivariada
Análise Descritiva Univariada
Dados Padronizados
4 Referências
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 2 / 40
3. INTRODUÇÃO
Introdução
A analise multivariada refere-se a um conjunto de métodos estatísticos
que torna possível a analise simultânea de medidas múltiplas para
individuo, objeto ou fenômeno observado.
O propósito da análise multivariada é medir, explicar e predizer o grau
de relação entre as variáveis estudada.
A seguir será realizado um estudo, através de uma análise descritiva
multivariada, sobre uma amostra de dados que contém variáveis que
ajudam na identicação de cédulas de dinheiro.
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 3 / 40
4. INTRODUÇÃO
Representação dos dados multivariados - p variáveis medidas em n
indivíduos.
Variáveis
Indivíduo 1 2 · · · p
1 x11 x12 · · · x1p
2 x21 x22 · · · x2p
...
...
...
...
...
n xn1 xn2 · · · xnp
Na forma matricial
X =
x11 x12 · · · x1p
x21 x22 · · · x2p
...
...
...
...
xn1 xn2 · · · xnp
,
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 4 / 40
5. INTRODUÇÃO
Distribuição Normal Multivariada
A densidade normal multivariada é uma generalização da densidade
normal univariada.
Se X tem distribuição normal multivariada, então sua função
densidade é denida da seguinte forma
fX(x) =
1
(2π)p/2|Σ|1/2
exp −(x − µ)t
|Σ|−1
(x − µ)/2 ,
onde −∞ xi ∞, i = 1, 2, . . . , p.
A notação usada será Np(µ, Σ), em que µ é o vetor de médias
populacional e Σ é a matriz de covariância populacional.
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 5 / 40
6. INTRODUÇÃO
Vetor de Médias
Seja n observações de um vetor em Rp, tal que xi = (xi1, xi2, . . . , xip),
i = 1, 2, . . . , n. A média amostral para cada variável é
xj =
1
n
n
i=1
xij , ∀ j = 1, 2, . . . , p
onde o vetor de médias é da seguinte forma
x =
x1
x2
...
xp
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 6 / 40
7. INTRODUÇÃO
Matriz de Covariâcia
Seja n observações de um vetor em Rp, tal que xi = (xi1, xi2, . . . , xip),
i = 1, 2, . . . , n. Por denição, a variância amostral é dada por
sjj =
1
n − 1
n
i=1
(xij − ¯xj )2
j = 1, 2, 3, . . . , p
Dessa forma, a covariância amostral é dada por
sjk =
1
n − 1
n
i=1
(xij − ¯xj )(xik − ¯xk) ∀k = j
Logo, a matriz de covariância amostral
s =
s11 s12 · · · s1p
s21 s22 · · · s2p
...
...
...
...
sp1 sp2 · · · spp
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 7 / 40
8. INTRODUÇÃO
Coeciente de correlação amostral é uma medida de associação linear
entre duas variáveis não depende da unidade de mensuração.
O coeciente de correlação amostral, é denido por:
rjk =
n
i=1(xij − ¯xj )(xik − ¯xk)
n
i=1(xij − ¯xj )2 n
i=1(xik − ¯xk)2
, ∀k = j
A matriz de correlação amostral é dada por:
R =
1 r12 · · · r1p
r21 1 · · · r2p
...
...
...
...
rp1 rp2 · · · 1
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 8 / 40
9. AUTENTICAÇÃO DE NOTAS Base de Dados
Descrição da base de dados
Os dados foram extraídos de imagens que foram retiradas amostras de
notas, classicadas como verdadeiras e falsas;
Para digitalização, utilizou-se uma câmera industrial geralmente
utilizada para inspeção de impressão;
As imagens nais têm 400 x 400 pixels;
Foram utilizada uma resolução de 660 dpi na escala cinza;
Ferramenta de transformação de leves ondulações foram usadas para
extrair recursos de imagens;
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 9 / 40
10. AUTENTICAÇÃO DE NOTAS Base de Dados
Descrição da base de dados
Informações de atributo:
1. variação da imagem (contínua)
2. distorção da imagem (contínua)
3. curtose da imagem (contínua)
4. a entropia da imagem (contínua)
5. classe 0 : Nota Verdadeira
1 : Nota Falsicada
Total de Observações: n = 1372
Total de Observações para Classe 0: n0 = 762
Total de Observações para Classe 1: n1 = 610
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 10 / 40
11. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Vetor de Médias Amostral
Variável Geral Classe 0 Classe 1
Variacao 0.434 2.277 -1.868
Distorcao 1.922 4.257 -0.994
Curtose 1.398 0.797 2.148
Entropia -1.192 -1.148 -1.247
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 11 / 40
14. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Dispersão por classe
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 14 / 40
15. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Dispersão por classe
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 15 / 40
16. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Dispersão por classe
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 16 / 40
17. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Dispersão por classe
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 17 / 40
18. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Gráco da Matriz de Correlação - Geral
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 18 / 40
19. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Gráco da Matriz de Correlação - Classe 0
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 19 / 40
20. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Gráco da Matriz de Correlação - Classe 1
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 20 / 40
21. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Grácos da Densidade Bidimensional
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 21 / 40
22. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Vericando a Normalidade Conjunta
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 22 / 40
24. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Vericando Normalidade - Variável: Variação da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 24 / 40
25. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Gráco de Dispersão e Box Plot - Variação da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 25 / 40
27. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Vericando Normalidade - Distorção da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 27 / 40
28. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Gráco de Dispersão e Box Plot - Distorção da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 28 / 40
30. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Vericando Normalidade - Curtose da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 30 / 40
31. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Gráco de Dispersão e Box Plot - Curtose da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 31 / 40
33. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Vericando Normalidade - Entropia da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 33 / 40
34. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Gráco de Dispersão e Box Plot - Entropia da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 34 / 40
35. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Teste de Normalidade para cada variável - Shapiro-Wilk
Variável Categoria p-valor
Geral 4.686e-12
Variação Classe 0 8.765e-11
Classe 1 0.0003136
Geral 8.224e-15
Distorção Classe 0 2.2e-16
Classe 1 8.562e-14
Geral 2.2e-16
Curtose Classe 0 1.679e-11
Classe 1 2.2e-16
Geral 2.2e-16
Entropia Classe 0 2.2e-16
Classe 1 2.2e-16
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 35 / 40
36. RESULTADOS Dados Padronizados
Dados Padronizados
Normalmente as características são observadas em unidades de
medidas diferentes entre si, e neste caso, é conveniente padronizar as
variáveis Xj (j = 1, 2, . . . , p).
O procedimento para padronizar os dados de uma matriz de dados xij
é o seguinte:
zij =
xij − xj
√
sjj
, i = 1, 2, . . . , n e j = 1, 2, . . . , p
Assim, obtemos
Z =
z11 z12 · · · z1p
z21 z22 · · · z2p
...
...
...
...
zn1 zn2 · · · znp
,
onde Cov(Z) = Cor(Z) = R.
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 36 / 40
37. RESULTADOS Dados Padronizados
Dados Padronizados- Geral
Vetor de Médias Amostral de Z
Variável Variação Distorção Curtose Entropia
Média −1.53e − 17 −3.702e − 17 1.439e − 17 −5.053e − 17
Matriz de Covariância Amostral de Z
Variação 1.000 0.264 -0.381 0.277
Distorção 0.264 1.000 -0.787 -0.526
Curtose -0.381 -0.787 1.000 0.319
Entropia 0.277 -0.526 0.319 1.000
Matriz de Correlação Amostral de Z
Variação 1.000 0.264 -0.381 0.277
Distorção 0.264 1.000 -0.787 -0.526
Curtose -0.381 -0.787 1.000 0.319
Entropia 0.277 -0.526 0.319 1.000
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 37 / 40
38. RESULTADOS Dados Padronizados
Dados Padronizados- CLASSE 0 - Notas verdadeiras
Vetor de Médias Amostral de Z0
Variável Variação Distorção Curtose Entropia
Média 0 0 0 0
Matriz de Covariância Amostral de Z0
Variação 1.000 -0.227 -0.330 0.416
Distorção -0.227 1.000 -0.751 -0.674
Curtose -0.330 -0.751 1.000 0.415
Entropia 0.416 -0.674 0.415 1.000
Matriz de Correlação Amostral de Z0
Variação 1.000 -0.227 -0.330 0.416
Distorção -0.227 1.000 -0.751 -0.674
Curtose -0.330 -0.751 1.000 0.415
Entropia 0.416 -0.674 0.415 1.000
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 38 / 40
39. RESULTADOS Dados Padronizados
Dados Padronizados- CLASSE 1 - Notas Falsas
Vetor de Médias Amostral de Z1
Variável Variação Distorção Curtose Entropia
Média 0 0 0 0
Matriz de Covariância Amostral de Z1
Variação 1.000 0.074 -0.474 0.324
Distorção 0.074 1.000 -0.888 -0.509
Curtose -0.474 -0.888 1.000 0.276
Entropia 0.324 -0.509 0.276 1.000
Matriz de Correlação Amostral de Z1
Variação 1.000 0.074 -0.474 0.324
Distorção 0.074 1.000 -0.888 -0.509
Curtose -0.474 -0.888 1.000 0.276
Entropia 0.324 -0.509 0.276 1.000
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 39 / 40
40. REFERÊNCIAS
Referências
Bache, K. Lichman, M. (2013). UCI Machine Learning Repository
[http://archive.ics.uci.edu/ml]. Irvine, CA: University of California,
School of Information and Computer Science.
Johnson, R. A. Wichern, D. W. Applied Multivariate Statistical
Analysis. 6th Edition. Prentice Hall. New Jersey, 2007.
Mardia, K. V. Applications of some Measures of Multivariate Skewness
and Kurtosis for Testing Normality and Robustness Studies. Sankhyã
A, [S.l.], 36, 115-128, 1974.
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 40 / 40