SlideShare a Scribd company logo
1 of 40
Download to read offline
Estatística Multivariada
Análise Descritiva - Dados: Autenticação de Notas
Vanessa Souza Santos
Universidade Federal do Amazonas
Programa de Pós Graduação em Matemática
2 de junho de 2014
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 1 / 40
Conteúdo
1 Introdução
2 Autenticação de Notas
Base de Dados
3 Resultados
Análise Descritiva Multivariada
Análise Descritiva Univariada
Dados Padronizados
4 Referências
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 2 / 40
INTRODUÇÃO
Introdução
A analise multivariada refere-se a um conjunto de métodos estatísticos
que torna possível a analise simultânea de medidas múltiplas para
individuo, objeto ou fenômeno observado.
O propósito da análise multivariada é medir, explicar e predizer o grau
de relação entre as variáveis estudada.
A seguir será realizado um estudo, através de uma análise descritiva
multivariada, sobre uma amostra de dados que contém variáveis que
ajudam na identicação de cédulas de dinheiro.
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 3 / 40
INTRODUÇÃO
Representação dos dados multivariados - p variáveis medidas em n
indivíduos.
Variáveis
Indivíduo 1 2 · · · p
1 x11 x12 · · · x1p
2 x21 x22 · · · x2p
...
...
...
...
...
n xn1 xn2 · · · xnp
Na forma matricial
X =





x11 x12 · · · x1p
x21 x22 · · · x2p
...
...
...
...
xn1 xn2 · · · xnp





,
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 4 / 40
INTRODUÇÃO
Distribuição Normal Multivariada
A densidade normal multivariada é uma generalização da densidade
normal univariada.
Se X tem distribuição normal multivariada, então sua função
densidade é denida da seguinte forma
fX(x) =
1
(2π)p/2|Σ|1/2
exp −(x − µ)t
|Σ|−1
(x − µ)/2 ,
onde −∞  xi  ∞, i = 1, 2, . . . , p.
A notação usada será Np(µ, Σ), em que µ é o vetor de médias
populacional e Σ é a matriz de covariância populacional.
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 5 / 40
INTRODUÇÃO
Vetor de Médias
Seja n observações de um vetor em Rp, tal que xi = (xi1, xi2, . . . , xip),
i = 1, 2, . . . , n. A média amostral para cada variável é
xj =
1
n
n
i=1
xij , ∀ j = 1, 2, . . . , p
onde o vetor de médias é da seguinte forma
x =





x1
x2
...
xp





Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 6 / 40
INTRODUÇÃO
Matriz de Covariâcia
Seja n observações de um vetor em Rp, tal que xi = (xi1, xi2, . . . , xip),
i = 1, 2, . . . , n. Por denição, a variância amostral é dada por
sjj =
1
n − 1
n
i=1
(xij − ¯xj )2
j = 1, 2, 3, . . . , p
Dessa forma, a covariância amostral é dada por
sjk =
1
n − 1
n
i=1
(xij − ¯xj )(xik − ¯xk) ∀k = j
Logo, a matriz de covariância amostral
s =





s11 s12 · · · s1p
s21 s22 · · · s2p
...
...
...
...
sp1 sp2 · · · spp





Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 7 / 40
INTRODUÇÃO
Coeciente de correlação amostral é uma medida de associação linear
entre duas variáveis não depende da unidade de mensuração.
O coeciente de correlação amostral, é denido por:
rjk =
n
i=1(xij − ¯xj )(xik − ¯xk)
n
i=1(xij − ¯xj )2 n
i=1(xik − ¯xk)2
, ∀k = j
A matriz de correlação amostral é dada por:
R =





1 r12 · · · r1p
r21 1 · · · r2p
...
...
...
...
rp1 rp2 · · · 1





Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 8 / 40
AUTENTICAÇÃO DE NOTAS Base de Dados
Descrição da base de dados
Os dados foram extraídos de imagens que foram retiradas amostras de
notas, classicadas como verdadeiras e falsas;
Para digitalização, utilizou-se uma câmera industrial geralmente
utilizada para inspeção de impressão;
As imagens nais têm 400 x 400 pixels;
Foram utilizada uma resolução de 660 dpi na escala cinza;
Ferramenta de transformação de leves ondulações foram usadas para
extrair recursos de imagens;
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 9 / 40
AUTENTICAÇÃO DE NOTAS Base de Dados
Descrição da base de dados
Informações de atributo:
1. variação da imagem (contínua)
2. distorção da imagem (contínua)
3. curtose da imagem (contínua)
4. a entropia da imagem (contínua)
5. classe 0 : Nota Verdadeira
1 : Nota Falsicada
Total de Observações: n = 1372
Total de Observações para Classe 0: n0 = 762
Total de Observações para Classe 1: n1 = 610
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 10 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Vetor de Médias Amostral
Variável Geral Classe 0 Classe 1
Variacao 0.434 2.277 -1.868
Distorcao 1.922 4.257 -0.994
Curtose 1.398 0.797 2.148
Entropia -1.192 -1.148 -1.247
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 11 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Covariância Amostral
1
1
Geral
Variável Variação Distorção Curtose Entropia
Variação 8.081 4.405 -4.664 1.653
Distorção 4.406 34.446 -19.905 -6.490
Curtose -4.664 -19.905 18.577 2.887
Entropia 1.653 -6.490 2.887 4.414
Classe 0
Variação 4.078 -2.352 -2.159 1.786
Distorção -2.352 26.407 -12.499 -7.365
Curtose -2.159 -12.499 10.497 2.854
Entropia 1.786 -7.365 2.854 4.516
Classe 1
Variação 3.539 0.749 -4.691 1.262
Distorção 0.749 29.213 -25.245 -5.697
Curtose -4.691 -25.245 27.687 3.008
Entropia 1.262 -5.697 3.008 4.289
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 12 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Correlação Amostral
2
2
Geral
Variação 1.000 0.264 -0.382 0.277
Distorção 0.264 1.000 -0.787 -0.527
Curtose -0.382 -0.787 1.000 0.319
Entropia 0.277 -0.527 0.319 1.000
Classe 0
Variação 1.000 -0.227 -0.330 0.416
Distorção -0.227 1.000 -0.751 -0.674
Curtose -0.330 -0.751 1.000 0.415
Entropia 0.416 -0.674 0.415 1.000
Classe 1
Variação 1.000 0.074 -0.474 0.324
Distorção 0.074 1.000 -0.888 -0.509
Curtose -0.474 -0.888 1.000 0.276
Entropia 0.324 -0.509 0.276 1.000
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 13 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Dispersão por classe
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 14 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Dispersão por classe
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 15 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Dispersão por classe
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 16 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Matriz de Dispersão por classe
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 17 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Gráco da Matriz de Correlação - Geral
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 18 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Gráco da Matriz de Correlação - Classe 0
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 19 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Gráco da Matriz de Correlação - Classe 1
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 20 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Grácos da Densidade Bidimensional
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 21 / 40
RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA
Vericando a Normalidade Conjunta
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 22 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Estatísticas - Variável: Variação da Imagem
Estatísticas Geral Classe 0 Classe 1
Mínimo -7.042 -4.286 -7.042
Máximo 6.825 6.825 2.392
1o Quartil -1.773 0.883 -3.061
3o Quartil 2.821 3.884 -0.542
Média 0.434 2.277 -1.868
Mediana 0.496 2.553 -1.806
Lim Inf 0.283 2.133 -2.018
Lim Sup 0.584 2.420 -1.719
Variancia 8.081 4.078 3.539
Desvio 2.843 2.019 1.881
Assimetria -0.149 -0.491 -0.300
Curtose -0.756 -0.368 -0.193
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 23 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Vericando Normalidade - Variável: Variação da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 24 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Gráco de Dispersão e Box Plot - Variação da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 25 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Estatísticas - Distorção da Imagem
Estatísticas Geral Classe 0 Classe 1
Mínimo -13.773 -6.932 -13.773
Máximo 12.952 12.952 9.601
1o Quartil -1.708 0.450 -5.810
3o Quartil 6.815 8.692 3.189
Média 1.922 4.257 -0.994
Mediana 2.320 5.669 0.173
Lim Inf 1.612 3.891 -1.423
Lim Sup 2.233 4.622 -0.564
Variancia 34.446 26.407 29.213
Desvio 5.869 5.139 5.405
Assimetria -0.393 -0.379 -0.515
Curtose -0.444 -1.046 -0.543
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 26 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Vericando Normalidade - Distorção da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 27 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Gráco de Dispersão e Box Plot - Distorção da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 28 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Estatísticas - Curtose da Imagem
Estatísticas Geral Classe 0 Classe 1
Mínimo -5.286 -4.942 -5.286
Máximo 17.927 8.829 17.927
1o Quartil -1.575 -1.710 -1.357
3o Quartil 3.179 2.653 5.626
Média 1.398 0.797 2.148
Mediana 0.617 0.701 0.374
Lim Inf 1.169 0.566 1.730
Lim Sup 1.626 1.027 2.567
Variancia 18.576 10.497 27.687
Desvio 4.310 3.240 5.262
Assimetria 1.086 0.428 0.952
Curtose 1.255 -0.342 0.186
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 29 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Vericando Normalidade - Curtose da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 30 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Gráco de Dispersão e Box Plot - Curtose da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 31 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Estatísticas - Entropia da Imagem
Estatísticas Geral Classe 0 Classe 1
Mínimo -8.548 -8.548 -7.589
Máximo 2.450 2.450 2.135
1o Quartil -2.413 -2.228 -2.458
3o Quartil 0.395 0.423 0.342
Média -1.192 -1.148 -1.247
Mediana -0.587 -0.552 -0.662
Lim Inf -1.303 -1.299 -1.411
Lim Sup -1.080 -0.997 -1.082
Variancia 4.414 4.516 4.289
Desvio 2.101 2.125 2.071
Assimetria -1.020 -0.996 -1.055
Curtose 0.486 0.405 0.585
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 32 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Vericando Normalidade - Entropia da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 33 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Gráco de Dispersão e Box Plot - Entropia da Imagem
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 34 / 40
RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA
Teste de Normalidade para cada variável - Shapiro-Wilk
Variável Categoria p-valor
Geral 4.686e-12
Variação Classe 0 8.765e-11
Classe 1 0.0003136
Geral 8.224e-15
Distorção Classe 0 2.2e-16
Classe 1 8.562e-14
Geral 2.2e-16
Curtose Classe 0 1.679e-11
Classe 1 2.2e-16
Geral 2.2e-16
Entropia Classe 0 2.2e-16
Classe 1 2.2e-16
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 35 / 40
RESULTADOS Dados Padronizados
Dados Padronizados
Normalmente as características são observadas em unidades de
medidas diferentes entre si, e neste caso, é conveniente padronizar as
variáveis Xj (j = 1, 2, . . . , p).
O procedimento para padronizar os dados de uma matriz de dados xij
é o seguinte:
zij =
xij − xj
√
sjj
, i = 1, 2, . . . , n e j = 1, 2, . . . , p
Assim, obtemos
Z =





z11 z12 · · · z1p
z21 z22 · · · z2p
...
...
...
...
zn1 zn2 · · · znp





,
onde Cov(Z) = Cor(Z) = R.
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 36 / 40
RESULTADOS Dados Padronizados
Dados Padronizados- Geral
Vetor de Médias Amostral de Z
Variável Variação Distorção Curtose Entropia
Média −1.53e − 17 −3.702e − 17 1.439e − 17 −5.053e − 17
Matriz de Covariância Amostral de Z
Variação 1.000 0.264 -0.381 0.277
Distorção 0.264 1.000 -0.787 -0.526
Curtose -0.381 -0.787 1.000 0.319
Entropia 0.277 -0.526 0.319 1.000
Matriz de Correlação Amostral de Z
Variação 1.000 0.264 -0.381 0.277
Distorção 0.264 1.000 -0.787 -0.526
Curtose -0.381 -0.787 1.000 0.319
Entropia 0.277 -0.526 0.319 1.000
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 37 / 40
RESULTADOS Dados Padronizados
Dados Padronizados- CLASSE 0 - Notas verdadeiras
Vetor de Médias Amostral de Z0
Variável Variação Distorção Curtose Entropia
Média 0 0 0 0
Matriz de Covariância Amostral de Z0
Variação 1.000 -0.227 -0.330 0.416
Distorção -0.227 1.000 -0.751 -0.674
Curtose -0.330 -0.751 1.000 0.415
Entropia 0.416 -0.674 0.415 1.000
Matriz de Correlação Amostral de Z0
Variação 1.000 -0.227 -0.330 0.416
Distorção -0.227 1.000 -0.751 -0.674
Curtose -0.330 -0.751 1.000 0.415
Entropia 0.416 -0.674 0.415 1.000
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 38 / 40
RESULTADOS Dados Padronizados
Dados Padronizados- CLASSE 1 - Notas Falsas
Vetor de Médias Amostral de Z1
Variável Variação Distorção Curtose Entropia
Média 0 0 0 0
Matriz de Covariância Amostral de Z1
Variação 1.000 0.074 -0.474 0.324
Distorção 0.074 1.000 -0.888 -0.509
Curtose -0.474 -0.888 1.000 0.276
Entropia 0.324 -0.509 0.276 1.000
Matriz de Correlação Amostral de Z1
Variação 1.000 0.074 -0.474 0.324
Distorção 0.074 1.000 -0.888 -0.509
Curtose -0.474 -0.888 1.000 0.276
Entropia 0.324 -0.509 0.276 1.000
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 39 / 40
REFERÊNCIAS
Referências
Bache, K.  Lichman, M. (2013). UCI Machine Learning Repository
[http://archive.ics.uci.edu/ml]. Irvine, CA: University of California,
School of Information and Computer Science.
Johnson, R. A.  Wichern, D. W. Applied Multivariate Statistical
Analysis. 6th Edition. Prentice Hall. New Jersey, 2007.
Mardia, K. V. Applications of some Measures of Multivariate Skewness
and Kurtosis for Testing Normality and Robustness Studies. Sankhyã
A, [S.l.], 36, 115-128, 1974.
Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 40 / 40

More Related Content

Similar to Análise de Notas Falsas

Estatística na educação
Estatística na educação Estatística na educação
Estatística na educação UFMA e UEMA
 
Medidas de Posição e Dispersão
Medidas de Posição e DispersãoMedidas de Posição e Dispersão
Medidas de Posição e DispersãoLucasCoimbra24
 
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdfAula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdfJeremiasFontinele
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaCarlos Moura
 
0 Aula De ValidaçãO
0   Aula De ValidaçãO0   Aula De ValidaçãO
0 Aula De ValidaçãOAlvaro Neto
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptssuser2b53fe
 
EQUIPAMENTO MÉDICO PORTÁTIL PARA ACOMPANHAMENTO DO COMPROMETIMENTO MOTOR EM P...
EQUIPAMENTO MÉDICO PORTÁTIL PARA ACOMPANHAMENTO DO COMPROMETIMENTO MOTOR EM P...EQUIPAMENTO MÉDICO PORTÁTIL PARA ACOMPANHAMENTO DO COMPROMETIMENTO MOTOR EM P...
EQUIPAMENTO MÉDICO PORTÁTIL PARA ACOMPANHAMENTO DO COMPROMETIMENTO MOTOR EM P...Vic Fernandes
 
Bioestatística, tópicos avançados 4. ed. - www.meulivro.biz.pdf
Bioestatística, tópicos avançados 4. ed. - www.meulivro.biz.pdfBioestatística, tópicos avançados 4. ed. - www.meulivro.biz.pdf
Bioestatística, tópicos avançados 4. ed. - www.meulivro.biz.pdfAnneChagas2
 
Estatística Descritiva - IFMA
Estatística Descritiva - IFMAEstatística Descritiva - IFMA
Estatística Descritiva - IFMALeandro Marques
 
Análise exploratória e modelação com r parte 2
Análise exploratória e modelação com r  parte 2Análise exploratória e modelação com r  parte 2
Análise exploratória e modelação com r parte 2Lucas Castro
 

Similar to Análise de Notas Falsas (17)

Aula1 estatistica
Aula1 estatisticaAula1 estatistica
Aula1 estatistica
 
Aula7
Aula7Aula7
Aula7
 
Joex 09
Joex 09Joex 09
Joex 09
 
Estatística na educação
Estatística na educação Estatística na educação
Estatística na educação
 
Medidas de Posição e Dispersão
Medidas de Posição e DispersãoMedidas de Posição e Dispersão
Medidas de Posição e Dispersão
 
Apostila bioestatistica 2018
Apostila bioestatistica 2018Apostila bioestatistica 2018
Apostila bioestatistica 2018
 
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdfAula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisa
 
0 Aula De ValidaçãO
0   Aula De ValidaçãO0   Aula De ValidaçãO
0 Aula De ValidaçãO
 
Estdescr1
Estdescr1Estdescr1
Estdescr1
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
Estdescr1
Estdescr1Estdescr1
Estdescr1
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 
EQUIPAMENTO MÉDICO PORTÁTIL PARA ACOMPANHAMENTO DO COMPROMETIMENTO MOTOR EM P...
EQUIPAMENTO MÉDICO PORTÁTIL PARA ACOMPANHAMENTO DO COMPROMETIMENTO MOTOR EM P...EQUIPAMENTO MÉDICO PORTÁTIL PARA ACOMPANHAMENTO DO COMPROMETIMENTO MOTOR EM P...
EQUIPAMENTO MÉDICO PORTÁTIL PARA ACOMPANHAMENTO DO COMPROMETIMENTO MOTOR EM P...
 
Bioestatística, tópicos avançados 4. ed. - www.meulivro.biz.pdf
Bioestatística, tópicos avançados 4. ed. - www.meulivro.biz.pdfBioestatística, tópicos avançados 4. ed. - www.meulivro.biz.pdf
Bioestatística, tópicos avançados 4. ed. - www.meulivro.biz.pdf
 
Estatística Descritiva - IFMA
Estatística Descritiva - IFMAEstatística Descritiva - IFMA
Estatística Descritiva - IFMA
 
Análise exploratória e modelação com r parte 2
Análise exploratória e modelação com r  parte 2Análise exploratória e modelação com r  parte 2
Análise exploratória e modelação com r parte 2
 

Análise de Notas Falsas

  • 1. Estatística Multivariada Análise Descritiva - Dados: Autenticação de Notas Vanessa Souza Santos Universidade Federal do Amazonas Programa de Pós Graduação em Matemática 2 de junho de 2014 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 1 / 40
  • 2. Conteúdo 1 Introdução 2 Autenticação de Notas Base de Dados 3 Resultados Análise Descritiva Multivariada Análise Descritiva Univariada Dados Padronizados 4 Referências Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 2 / 40
  • 3. INTRODUÇÃO Introdução A analise multivariada refere-se a um conjunto de métodos estatísticos que torna possível a analise simultânea de medidas múltiplas para individuo, objeto ou fenômeno observado. O propósito da análise multivariada é medir, explicar e predizer o grau de relação entre as variáveis estudada. A seguir será realizado um estudo, através de uma análise descritiva multivariada, sobre uma amostra de dados que contém variáveis que ajudam na identicação de cédulas de dinheiro. Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 3 / 40
  • 4. INTRODUÇÃO Representação dos dados multivariados - p variáveis medidas em n indivíduos. Variáveis Indivíduo 1 2 · · · p 1 x11 x12 · · · x1p 2 x21 x22 · · · x2p ... ... ... ... ... n xn1 xn2 · · · xnp Na forma matricial X =      x11 x12 · · · x1p x21 x22 · · · x2p ... ... ... ... xn1 xn2 · · · xnp      , Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 4 / 40
  • 5. INTRODUÇÃO Distribuição Normal Multivariada A densidade normal multivariada é uma generalização da densidade normal univariada. Se X tem distribuição normal multivariada, então sua função densidade é denida da seguinte forma fX(x) = 1 (2π)p/2|Σ|1/2 exp −(x − µ)t |Σ|−1 (x − µ)/2 , onde −∞ xi ∞, i = 1, 2, . . . , p. A notação usada será Np(µ, Σ), em que µ é o vetor de médias populacional e Σ é a matriz de covariância populacional. Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 5 / 40
  • 6. INTRODUÇÃO Vetor de Médias Seja n observações de um vetor em Rp, tal que xi = (xi1, xi2, . . . , xip), i = 1, 2, . . . , n. A média amostral para cada variável é xj = 1 n n i=1 xij , ∀ j = 1, 2, . . . , p onde o vetor de médias é da seguinte forma x =      x1 x2 ... xp      Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 6 / 40
  • 7. INTRODUÇÃO Matriz de Covariâcia Seja n observações de um vetor em Rp, tal que xi = (xi1, xi2, . . . , xip), i = 1, 2, . . . , n. Por denição, a variância amostral é dada por sjj = 1 n − 1 n i=1 (xij − ¯xj )2 j = 1, 2, 3, . . . , p Dessa forma, a covariância amostral é dada por sjk = 1 n − 1 n i=1 (xij − ¯xj )(xik − ¯xk) ∀k = j Logo, a matriz de covariância amostral s =      s11 s12 · · · s1p s21 s22 · · · s2p ... ... ... ... sp1 sp2 · · · spp      Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 7 / 40
  • 8. INTRODUÇÃO Coeciente de correlação amostral é uma medida de associação linear entre duas variáveis não depende da unidade de mensuração. O coeciente de correlação amostral, é denido por: rjk = n i=1(xij − ¯xj )(xik − ¯xk) n i=1(xij − ¯xj )2 n i=1(xik − ¯xk)2 , ∀k = j A matriz de correlação amostral é dada por: R =      1 r12 · · · r1p r21 1 · · · r2p ... ... ... ... rp1 rp2 · · · 1      Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 8 / 40
  • 9. AUTENTICAÇÃO DE NOTAS Base de Dados Descrição da base de dados Os dados foram extraídos de imagens que foram retiradas amostras de notas, classicadas como verdadeiras e falsas; Para digitalização, utilizou-se uma câmera industrial geralmente utilizada para inspeção de impressão; As imagens nais têm 400 x 400 pixels; Foram utilizada uma resolução de 660 dpi na escala cinza; Ferramenta de transformação de leves ondulações foram usadas para extrair recursos de imagens; Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 9 / 40
  • 10. AUTENTICAÇÃO DE NOTAS Base de Dados Descrição da base de dados Informações de atributo: 1. variação da imagem (contínua) 2. distorção da imagem (contínua) 3. curtose da imagem (contínua) 4. a entropia da imagem (contínua) 5. classe 0 : Nota Verdadeira 1 : Nota Falsicada Total de Observações: n = 1372 Total de Observações para Classe 0: n0 = 762 Total de Observações para Classe 1: n1 = 610 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 10 / 40
  • 11. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Vetor de Médias Amostral Variável Geral Classe 0 Classe 1 Variacao 0.434 2.277 -1.868 Distorcao 1.922 4.257 -0.994 Curtose 1.398 0.797 2.148 Entropia -1.192 -1.148 -1.247 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 11 / 40
  • 12. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Matriz de Covariância Amostral 1 1 Geral Variável Variação Distorção Curtose Entropia Variação 8.081 4.405 -4.664 1.653 Distorção 4.406 34.446 -19.905 -6.490 Curtose -4.664 -19.905 18.577 2.887 Entropia 1.653 -6.490 2.887 4.414 Classe 0 Variação 4.078 -2.352 -2.159 1.786 Distorção -2.352 26.407 -12.499 -7.365 Curtose -2.159 -12.499 10.497 2.854 Entropia 1.786 -7.365 2.854 4.516 Classe 1 Variação 3.539 0.749 -4.691 1.262 Distorção 0.749 29.213 -25.245 -5.697 Curtose -4.691 -25.245 27.687 3.008 Entropia 1.262 -5.697 3.008 4.289 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 12 / 40
  • 13. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Matriz de Correlação Amostral 2 2 Geral Variação 1.000 0.264 -0.382 0.277 Distorção 0.264 1.000 -0.787 -0.527 Curtose -0.382 -0.787 1.000 0.319 Entropia 0.277 -0.527 0.319 1.000 Classe 0 Variação 1.000 -0.227 -0.330 0.416 Distorção -0.227 1.000 -0.751 -0.674 Curtose -0.330 -0.751 1.000 0.415 Entropia 0.416 -0.674 0.415 1.000 Classe 1 Variação 1.000 0.074 -0.474 0.324 Distorção 0.074 1.000 -0.888 -0.509 Curtose -0.474 -0.888 1.000 0.276 Entropia 0.324 -0.509 0.276 1.000 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 13 / 40
  • 14. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Matriz de Dispersão por classe Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 14 / 40
  • 15. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Matriz de Dispersão por classe Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 15 / 40
  • 16. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Matriz de Dispersão por classe Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 16 / 40
  • 17. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Matriz de Dispersão por classe Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 17 / 40
  • 18. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Gráco da Matriz de Correlação - Geral Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 18 / 40
  • 19. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Gráco da Matriz de Correlação - Classe 0 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 19 / 40
  • 20. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Gráco da Matriz de Correlação - Classe 1 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 20 / 40
  • 21. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Grácos da Densidade Bidimensional Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 21 / 40
  • 22. RESULTADOS ANÁLISE DESCRITIVA MULTIVARIADA Vericando a Normalidade Conjunta Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 22 / 40
  • 23. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Estatísticas - Variável: Variação da Imagem Estatísticas Geral Classe 0 Classe 1 Mínimo -7.042 -4.286 -7.042 Máximo 6.825 6.825 2.392 1o Quartil -1.773 0.883 -3.061 3o Quartil 2.821 3.884 -0.542 Média 0.434 2.277 -1.868 Mediana 0.496 2.553 -1.806 Lim Inf 0.283 2.133 -2.018 Lim Sup 0.584 2.420 -1.719 Variancia 8.081 4.078 3.539 Desvio 2.843 2.019 1.881 Assimetria -0.149 -0.491 -0.300 Curtose -0.756 -0.368 -0.193 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 23 / 40
  • 24. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Vericando Normalidade - Variável: Variação da Imagem Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 24 / 40
  • 25. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Gráco de Dispersão e Box Plot - Variação da Imagem Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 25 / 40
  • 26. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Estatísticas - Distorção da Imagem Estatísticas Geral Classe 0 Classe 1 Mínimo -13.773 -6.932 -13.773 Máximo 12.952 12.952 9.601 1o Quartil -1.708 0.450 -5.810 3o Quartil 6.815 8.692 3.189 Média 1.922 4.257 -0.994 Mediana 2.320 5.669 0.173 Lim Inf 1.612 3.891 -1.423 Lim Sup 2.233 4.622 -0.564 Variancia 34.446 26.407 29.213 Desvio 5.869 5.139 5.405 Assimetria -0.393 -0.379 -0.515 Curtose -0.444 -1.046 -0.543 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 26 / 40
  • 27. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Vericando Normalidade - Distorção da Imagem Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 27 / 40
  • 28. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Gráco de Dispersão e Box Plot - Distorção da Imagem Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 28 / 40
  • 29. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Estatísticas - Curtose da Imagem Estatísticas Geral Classe 0 Classe 1 Mínimo -5.286 -4.942 -5.286 Máximo 17.927 8.829 17.927 1o Quartil -1.575 -1.710 -1.357 3o Quartil 3.179 2.653 5.626 Média 1.398 0.797 2.148 Mediana 0.617 0.701 0.374 Lim Inf 1.169 0.566 1.730 Lim Sup 1.626 1.027 2.567 Variancia 18.576 10.497 27.687 Desvio 4.310 3.240 5.262 Assimetria 1.086 0.428 0.952 Curtose 1.255 -0.342 0.186 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 29 / 40
  • 30. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Vericando Normalidade - Curtose da Imagem Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 30 / 40
  • 31. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Gráco de Dispersão e Box Plot - Curtose da Imagem Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 31 / 40
  • 32. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Estatísticas - Entropia da Imagem Estatísticas Geral Classe 0 Classe 1 Mínimo -8.548 -8.548 -7.589 Máximo 2.450 2.450 2.135 1o Quartil -2.413 -2.228 -2.458 3o Quartil 0.395 0.423 0.342 Média -1.192 -1.148 -1.247 Mediana -0.587 -0.552 -0.662 Lim Inf -1.303 -1.299 -1.411 Lim Sup -1.080 -0.997 -1.082 Variancia 4.414 4.516 4.289 Desvio 2.101 2.125 2.071 Assimetria -1.020 -0.996 -1.055 Curtose 0.486 0.405 0.585 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 32 / 40
  • 33. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Vericando Normalidade - Entropia da Imagem Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 33 / 40
  • 34. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Gráco de Dispersão e Box Plot - Entropia da Imagem Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 34 / 40
  • 35. RESULTADOS ANÁLISE DESCRITIVA UNIVARIADA Teste de Normalidade para cada variável - Shapiro-Wilk Variável Categoria p-valor Geral 4.686e-12 Variação Classe 0 8.765e-11 Classe 1 0.0003136 Geral 8.224e-15 Distorção Classe 0 2.2e-16 Classe 1 8.562e-14 Geral 2.2e-16 Curtose Classe 0 1.679e-11 Classe 1 2.2e-16 Geral 2.2e-16 Entropia Classe 0 2.2e-16 Classe 1 2.2e-16 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 35 / 40
  • 36. RESULTADOS Dados Padronizados Dados Padronizados Normalmente as características são observadas em unidades de medidas diferentes entre si, e neste caso, é conveniente padronizar as variáveis Xj (j = 1, 2, . . . , p). O procedimento para padronizar os dados de uma matriz de dados xij é o seguinte: zij = xij − xj √ sjj , i = 1, 2, . . . , n e j = 1, 2, . . . , p Assim, obtemos Z =      z11 z12 · · · z1p z21 z22 · · · z2p ... ... ... ... zn1 zn2 · · · znp      , onde Cov(Z) = Cor(Z) = R. Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 36 / 40
  • 37. RESULTADOS Dados Padronizados Dados Padronizados- Geral Vetor de Médias Amostral de Z Variável Variação Distorção Curtose Entropia Média −1.53e − 17 −3.702e − 17 1.439e − 17 −5.053e − 17 Matriz de Covariância Amostral de Z Variação 1.000 0.264 -0.381 0.277 Distorção 0.264 1.000 -0.787 -0.526 Curtose -0.381 -0.787 1.000 0.319 Entropia 0.277 -0.526 0.319 1.000 Matriz de Correlação Amostral de Z Variação 1.000 0.264 -0.381 0.277 Distorção 0.264 1.000 -0.787 -0.526 Curtose -0.381 -0.787 1.000 0.319 Entropia 0.277 -0.526 0.319 1.000 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 37 / 40
  • 38. RESULTADOS Dados Padronizados Dados Padronizados- CLASSE 0 - Notas verdadeiras Vetor de Médias Amostral de Z0 Variável Variação Distorção Curtose Entropia Média 0 0 0 0 Matriz de Covariância Amostral de Z0 Variação 1.000 -0.227 -0.330 0.416 Distorção -0.227 1.000 -0.751 -0.674 Curtose -0.330 -0.751 1.000 0.415 Entropia 0.416 -0.674 0.415 1.000 Matriz de Correlação Amostral de Z0 Variação 1.000 -0.227 -0.330 0.416 Distorção -0.227 1.000 -0.751 -0.674 Curtose -0.330 -0.751 1.000 0.415 Entropia 0.416 -0.674 0.415 1.000 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 38 / 40
  • 39. RESULTADOS Dados Padronizados Dados Padronizados- CLASSE 1 - Notas Falsas Vetor de Médias Amostral de Z1 Variável Variação Distorção Curtose Entropia Média 0 0 0 0 Matriz de Covariância Amostral de Z1 Variação 1.000 0.074 -0.474 0.324 Distorção 0.074 1.000 -0.888 -0.509 Curtose -0.474 -0.888 1.000 0.276 Entropia 0.324 -0.509 0.276 1.000 Matriz de Correlação Amostral de Z1 Variação 1.000 0.074 -0.474 0.324 Distorção 0.074 1.000 -0.888 -0.509 Curtose -0.474 -0.888 1.000 0.276 Entropia 0.324 -0.509 0.276 1.000 Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 39 / 40
  • 40. REFERÊNCIAS Referências Bache, K. Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science. Johnson, R. A. Wichern, D. W. Applied Multivariate Statistical Analysis. 6th Edition. Prentice Hall. New Jersey, 2007. Mardia, K. V. Applications of some Measures of Multivariate Skewness and Kurtosis for Testing Normality and Robustness Studies. Sankhyã A, [S.l.], 36, 115-128, 1974. Vanessa Souza Santos (UFAM) Estatística Multivariada 2 de junho de 2014 40 / 40