SlideShare a Scribd company logo
1 of 38
Download to read offline
CORRELAÇÃO E CLASSIFICAÇÃO 
Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
AGENDA 
• Estruturas de correlação 
• Classificador Naive Bayes 
• Árvores de Decisão 
• Avaliando um Classificador
ESTRUTURAS DE CORRELAÇÃO 
• Tipicamente, dividimos as variáveis em duas partes para podermos analisar 
de diferentes formas os relacionamentos entre elas 
• Variável de entrada: X 
• Variável alvo: U 
• Procuramos encontrar uma regra F para estabelecer uma relação entre a 
variável de entrada e a variável alvo 
• U = F(X) 
• Isto nos permitiria prever U a partir de X.
ESTRUTURAS DE CORRELAÇÃO 
• A regra U=F(X) pode ser utilizada para prever U a 
partir de X 
• Devido a sua grande importância prática, este 
problema tem recebido grande atenção de 
pesquisadores 
• O resultado são várias formas diferentes para 
encontrar estas regras
MODELO OCULTO DE MARKOV 
• Considere dois amigos (Alice e Bob) que moram distantes um do outro e 
que se falam diariamente ao telefone sobre o que fizeram durante o dia 
• Bob só se interessa por três tipos de atividade: caminhadas, compras e 
limpeza do apartamento 
• A escolha sobre o que fazer é determinada exclusivamente pelo clima do dia 
• Alice não tem dados específicos sobre o clima da cidade onde Bob mora, mas 
tem uma noção sobre a tendência de chuva ou de sol. 
• Baseado no que Bob diz que fez, Alice ela tenta adivinhar como estava o clima 
na cidade de Bob
MODELO OCULTO DE MARKOV
MODELO OCULTO DE MARKOV 
• Usa estados observáveis para prever estados não-observáveis 
• As transições entre os estados não observáveis 
seguem um processo de Cadeia de Markov 
• Propriedade: Os estados anteriores são irrelevantes 
para a predição dos estados seguintes, desde que o 
estado atual seja conhecido
REDES BAYESIANAS 
• Uma rede bayesiana é um modelo probabilístico que representa um conjunto de 
variáveis aleatórias e as dependências condicionais entre elas através de um grafo 
acíclico dirigido (DAG). 
• Os nós representam as variáveis aleatórias no sentido Bayesiano (quantidades 
observáveis, parâmetros desconhecidos ou hipóteses) 
• Os vértices representam dependências condicionais, nós não conectados 
representam variáveis condicionalmente independentes umas das outras 
• Por exemplo, uma rede bayesiana pode ser utilizada para representar os 
relacionamentos entre sintomas e doenças. 
• Dado um conjunto de sintomas, a rede poderia ser utilizada para calcular a 
probabilidade da presença de diferentes doenças
REDES BAYESIANAS 
Irrigação Chuva 
Grama 
molhada
REDES NEURAIS 
• Modelos computacionais inspirados pelo sistema nervoso central 
• Atualmente têm evoluído para uma abordagem mais prática, baseada 
em estatística e processamento de sinais 
• Utilizados para estimar ou aproximar funções que dependem de um 
grande número de entradas que são geralmente desconhecidas 
• Representadas por neurônios, capazes de computar valores a partir de 
entradas e conexões (sinapses) entre estes neurônios 
• Muito utilizadas para reconhecimento de padrões
REDES NEURAIS
ÁRVORES DE DECISÃO 
• Uma árvore 
mostrando a chance 
de sobrevivência 
dos passageiros do 
Titanic 
• Folhas representam 
as probabilidades
ESTRUTURAS DE CORRELAÇÃO 
• Entre as diferentes formas para as regras U = F(X), 
destacam-se 
• Modelo Oculto de Markov (Hidden Markov Model) 
• Redes Bayesianas 
• Redes Neurais 
• Árvores de Decisão
CLASSIFICADOR NAÏVE BAYES 
Artigo bebida igualdad 
e 
gasolina jogos popular preços crença talento imposto 
s 
mulher 
F1 1 2 0 1 2 0 0 0 0 2 
F2 0 0 0 1 0 1 0 2 0 2 
F3 0 2 0 0 0 0 0 1 0 2 
F4 2 1 0 0 0 2 0 2 0 1 
E1 2 0 1 2 2 0 0 1 0 0 
E2 0 1 0 3 2 1 2 0 0 0 
E3 1 0 2 0 1 1 0 3 1 1 
E4 0 1 0 1 1 0 1 1 0 0 
H1 0 0 2 0 1 2 0 0 2 0 
H2 1 0 2 2 0 2 2 0 0 0 
H3 0 0 1 1 2 1 1 0 2 0 
H4 0 0 1 0 0 2 2 0 2 0 
X 1 1 2 1 1 0 0 1 0 0
CLASSIFICADOR NAÏVE BAYES 
• Pensamento Bayesiano: considere a situação 
anterior, de acordo com os 12 artigos 
• Três classes F, E, e H, com probabilidades p(F) = 
1/3, p(E) = 1/3 e p(H) = 1/3 
• Cada classe é responsável por 4 dos 12 itens
CLASSIFICADOR NAÏVE BAYES 
• p(F) = 1/3, p(E) = 1/3 e p(H) = 1/3 
• Assuma que podemos derivar as probabilidades para o artigo x pertencer a 
cada uma dessas classes [p(x|F), p(x|E), p(x|H)] a partir dos dados da tabela 
• Sendo assim, as probabilidades posteriores das classes seriam proporcionais 
aos produtos (Teorema de Bayes): 
• p(F|x) = p(x|F)p(F) 
• p(E|x) = p(x|E)p(E) 
• p(H|x)=p(x|H)p(H)
CLASSIFICADOR NAÏVE BAYES 
• x pertence a classe com a maior probabilidade a posterior 
• p(F|x) = p(x|F)p(F) 
• p(E|x) = p(x|E)p(E) 
• p(H|x)=p(x|H)p(H) 
• Problema: Como derivar as probabilidades de x pertencer a 
cada uma das categorias [p(x|F), p(x|E), p(x|H)] a partir da tabela 
?
CLASSIFICADOR NAÏVE BAYES 
• Problema: Como derivar as probabilidades de x 
pertencer a cada uma das categorias [p(x|F), p(x|E), 
p(x|H)] a partir da tabela ? 
• Principio Naïve Bayes: assuma que as variáveis são 
independentes em cada classe F, E e H 
• Depois, calcular o produto das probabilidades f1, f2, 
…,f10 de cada palavra chave em cada classe
CLASSIFICADOR NAÏVE BAYES 
• Depois, calcular o produto das probabilidades f1, f2,…,f10 de cada 
palavra chave em cada classe 
• Dois problemas aqui: 
• produto de muitos números bem menores que zero tende a 0 
• se alguma das probabilidades for 0, o produto será 0 
• Solução: substituir o produto por uma soma de logaritmos!
ALGORITMO NAÏVE BAYES 
1. Calcule as probabilidades anteriores p(k), k=1, 2,…,K 
2. Calcule as probabilidades de cada uma das m palavras 
chaves em cada uma das k classes fk1, fk2,…, fkm 
3. Calcule o logarítimo de p(x|k), lp(x|k) = x1log(fk1) + 
x2log(fk2) + … + xmlog(fkm) 
4. Calcule as somas lp(k|x) = log(p(k)) + lp(x|k) e atribua x 
a classe k com lp(k|x) máximo
PROBABILIDADES DA 
PALAVRAS-CHAVE 
Artigo bebida igualdad 
e 
gasolina jogos popular preços crença talento imposto 
s 
mulher 
F1 1 2 0 1 2 0 0 0 0 2 
F2 0 0 0 1 0 1 0 2 0 2 
F3 0 2 0 0 0 0 0 1 0 2 
F4 2 1 0 0 0 2 0 2 0 1 
• Primeira questão: como tratar as palavras gasolina, crença 
e imposto ? 
• Segunda questão: que probabilidade atribuir a palavra 
mulher? Como considerar múltiplas ocorrência ?
PROBABILIDADES DA 
PALAVRAS-CHAVE 
Artigo bebida igualdad 
e 
gasolina jogos popular preços crença talento imposto 
s 
mulher 
F1 1 2 0 1 2 0 0 0 0 2 
F2 0 0 0 1 0 1 0 2 0 2 
F3 0 2 0 0 0 0 0 1 0 2 
F4 2 1 0 0 0 2 0 2 0 1 
• Modelo da sacola de palavras: por todas as palavras em um saco. 
• Somar as ocorrências de todas as palavras na classe 
(3+5+0+2+2+3+0+5+0+7 = 27) com o total de palavras (10) = 37 
• A probabilidade de uma palavra em uma é a sua quantidade de ocorrências 
+ 1 dividida pelo total de palavras da classe.
PROBABILIDADES DAS 
PALAVRAS-CHAVE 
Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher 
F 0.108 0.162 0.027 0.081 0.081 0.108 0.027 0.162 0.027 0.216 
E 0.095 0.071 0.095 0.167 0.167 0.071 0.095 0.143 0.048 0.048 
H 0.049 0.024 0.171 0.098 0.098 0.195 0.146 0.024 0.171 0.024 
• Por exemplo, fbebida,E=(3+1)/(32+10)=4/42 =0.095 
• Há 3 ocorrências da palavra bebida na classe E e 32 palavras em 
todos os artigos dessa classe, portanto, 42 é o tamanho da sacola 
de palavras para a classe E.
PROBABILIDADES DAS 
PALAVRAS-CHAVE 
Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher 
F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 
E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 
H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 
• Calculando o logaritmo natural das probabilidades 
(*100 para deixar tudo positivo)
PROBABILIDADES DAS 
PALAVRAS-CHAVE 
Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher 
F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 
E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 
H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 
X 1 1 2 1 1 0 0 1 0 0 
• Calcule o logaritmo da probabilidade de um documento pertencer a cada classe 
(C=log(100/3) = 3.5066 
• Considere o vetor x e calcule o produto interno dele com cada linha da tabela 
• Some C a cada resultado 
• X pertence a classe com o maior valor resultante
PROBABILIDADES DAS 
PALAVRAS-CHAVE 
Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher 
F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 
E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 
H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 
X 1 1 2 1 1 0 0 1 0 0 
• lp(F|x) =1*2.381+1*2.786+2*0.994+1*2.093+1*2.093+0*2.381+0*0.994+1*2.786+ 
0*0.994+0*3.074 + 3.5066 =17.633 
• lp(E|x)=1*2.254+1*1.966+2*2.254+1*2.813+1*2.813+0*1.966+0*2.254+1*2.659+ 
0*1.561+ 0*1.561 + 3.5066 = 20.520 
• lp(H|x)=1*1.585+1*0.892+2*2.838+1*2.278+1*2.278+0*2.971+0*2.683+1*0.892+ 
0*2.838+0*0.892 + 3.5066 = 17.105
ÁRVORE DE DECISÃO 
7 erros 6 erros
ÁRVORE DE DECISÃO 
• Árvore de classificação 
construída a partir de um 
conjunto de treinamento 
com particionamento alvo H 
• Objetivo: construir um 
particionamento G com 
similaridade máxima com H 
• Início: G composto por um 
único agrupamento, o 
conjunto de dados 
6 erros
ÁRVORE DE DECISÃO 
• Um particionamento é 
escolhido como o melhor 
dentre todos os 
particionamentos possíveis 
• Um função de score avalia a 
similaridade entre a partição 
alvo H e a partição G em 
construção 
6 erros
EXEMPLO DE CONSTRUÇÃO 
DE UMA ÁRVORE DE 
DECISÃO PARA A IRIS
AVALIANDO UM CLASSIFICADOR 
• Considere a seguinte tabela de resultados de um 
aparelho capaz de diagnosticar cancer de pulmão 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 94 7 101 
Não 1 98 99 
Total 95 105 200 
• Acurácia de 96%! 
• E daí?
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Existem dois tipos de erros: 7 falsos positivos e 1 
falso negativo. 
• Ambos são igualmente graves ?
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Podem haver diferenças entre os casos 
identificados corretamente quando a amostra é 
desbalanceada
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Acurácia de 98.5%! 
• Porém, 1/3 dos pacientes com câncer foram 
diagnosticados incorretamente com câncer e 1/2 
dos pacientes com câncer não foram diagnosticados!
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim TP FP TP + FP 
Não FN TN FP + TN 
Total TP + FN FN + TN Tudo 
• Acurácia = (TP + TN)/Tudo 
• Precisão = TP / (TP+FP) - Classificador 
• Recall = TP / (TP+FN) - Classificação
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Acurácia = (TP + TN)/Tudo = 98.5% 
• Precisão = TP / (TP+FP) = 2 / 4 = 50% 
• Recall = TP / (TP+FN) = 2 / 3 = 67% 
• Como combinar Precisão e Recall?
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Acurácia = (TP + TN)/Tudo = 98.5% 
• Precisão = TP / (TP+FP) = 2 / 4 = 50% 
• Recall = TP / (TP+FN) = 2 / 3 = 67% 
• F = 2 /((1/Precisão) + (1/Recall)) = 2 / ( ( 1/0.5) + (1/0.67)) = 0.57
AVALIANDO UM CLASSIFICADOR 
EXEMPLO: AVALIANDO 
NOSSO CLASSIFICADOR DE 
IRIS

More Related Content

What's hot

Estrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisEstrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisFabrício Lopes Sanchez
 
Introdução ao Linux Ubuntu
Introdução ao Linux UbuntuIntrodução ao Linux Ubuntu
Introdução ao Linux UbuntuFilipe Kulinski
 
Lógica de Programação - Entrada/saída de dados
Lógica de Programação - Entrada/saída de dadosLógica de Programação - Entrada/saída de dados
Lógica de Programação - Entrada/saída de dadosWesley R. Bezerra
 
Sistemas Operacionais - Aula 08 (Sincronização e Comunicação entre Processos)
Sistemas Operacionais - Aula 08 (Sincronização e Comunicação entre Processos)Sistemas Operacionais - Aula 08 (Sincronização e Comunicação entre Processos)
Sistemas Operacionais - Aula 08 (Sincronização e Comunicação entre Processos)Leinylson Fontinele
 
Informática Básica - Aula 02 - A evolução e caracterização dos computadores
Informática Básica - Aula 02 - A evolução e caracterização dos computadoresInformática Básica - Aula 02 - A evolução e caracterização dos computadores
Informática Básica - Aula 02 - A evolução e caracterização dos computadoresJoeldson Costa Damasceno
 
Resumo básico de introdução à informática
Resumo básico de introdução à informáticaResumo básico de introdução à informática
Resumo básico de introdução à informáticaDaiana de Ávila
 
300 Exercícios Resolvidos e Comentados em Python - Fernando Feltrin - Amostra...
300 Exercícios Resolvidos e Comentados em Python - Fernando Feltrin - Amostra...300 Exercícios Resolvidos e Comentados em Python - Fernando Feltrin - Amostra...
300 Exercícios Resolvidos e Comentados em Python - Fernando Feltrin - Amostra...Fernando Belome Feltrin
 
Tabela de distribuição de frequências para variáveis quantitativas contínuas....
Tabela de distribuição de frequências para variáveis quantitativas contínuas....Tabela de distribuição de frequências para variáveis quantitativas contínuas....
Tabela de distribuição de frequências para variáveis quantitativas contínuas....Alberto Tchivinda
 
Sistema Operativos
Sistema OperativosSistema Operativos
Sistema OperativosBugui94
 
Lógica de programação em ppt
Lógica de programação em pptLógica de programação em ppt
Lógica de programação em pptAndrei Bastos
 
Barramento do Sistema - Arquitetura e Organização de Computadores
Barramento do Sistema - Arquitetura e Organização de ComputadoresBarramento do Sistema - Arquitetura e Organização de Computadores
Barramento do Sistema - Arquitetura e Organização de ComputadoresWellington Oliveira
 

What's hot (20)

Aula 09 Medidas de Tendencia Central de Dados Agrupados
Aula 09   Medidas de Tendencia Central de Dados AgrupadosAula 09   Medidas de Tendencia Central de Dados Agrupados
Aula 09 Medidas de Tendencia Central de Dados Agrupados
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Estrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisEstrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentais
 
Introdução ao Linux Ubuntu
Introdução ao Linux UbuntuIntrodução ao Linux Ubuntu
Introdução ao Linux Ubuntu
 
Aula 04 layout e composição do site
Aula 04   layout e composição do siteAula 04   layout e composição do site
Aula 04 layout e composição do site
 
Lógica de Programação - Entrada/saída de dados
Lógica de Programação - Entrada/saída de dadosLógica de Programação - Entrada/saída de dados
Lógica de Programação - Entrada/saída de dados
 
Sistemas Operacionais - Aula 08 (Sincronização e Comunicação entre Processos)
Sistemas Operacionais - Aula 08 (Sincronização e Comunicação entre Processos)Sistemas Operacionais - Aula 08 (Sincronização e Comunicação entre Processos)
Sistemas Operacionais - Aula 08 (Sincronização e Comunicação entre Processos)
 
Estrutura de Dados - Grafos
Estrutura de Dados - GrafosEstrutura de Dados - Grafos
Estrutura de Dados - Grafos
 
Introdução à OpenGL
Introdução à OpenGLIntrodução à OpenGL
Introdução à OpenGL
 
Informática Básica - Aula 02 - A evolução e caracterização dos computadores
Informática Básica - Aula 02 - A evolução e caracterização dos computadoresInformática Básica - Aula 02 - A evolução e caracterização dos computadores
Informática Básica - Aula 02 - A evolução e caracterização dos computadores
 
Logica Digital
Logica DigitalLogica Digital
Logica Digital
 
Resumo básico de introdução à informática
Resumo básico de introdução à informáticaResumo básico de introdução à informática
Resumo básico de introdução à informática
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
300 Exercícios Resolvidos e Comentados em Python - Fernando Feltrin - Amostra...
300 Exercícios Resolvidos e Comentados em Python - Fernando Feltrin - Amostra...300 Exercícios Resolvidos e Comentados em Python - Fernando Feltrin - Amostra...
300 Exercícios Resolvidos e Comentados em Python - Fernando Feltrin - Amostra...
 
Aula I - Excel
Aula I - ExcelAula I - Excel
Aula I - Excel
 
Tabela de distribuição de frequências para variáveis quantitativas contínuas....
Tabela de distribuição de frequências para variáveis quantitativas contínuas....Tabela de distribuição de frequências para variáveis quantitativas contínuas....
Tabela de distribuição de frequências para variáveis quantitativas contínuas....
 
Sistema Operativos
Sistema OperativosSistema Operativos
Sistema Operativos
 
Lógica de programação em ppt
Lógica de programação em pptLógica de programação em ppt
Lógica de programação em ppt
 
Barramento do Sistema - Arquitetura e Organização de Computadores
Barramento do Sistema - Arquitetura e Organização de ComputadoresBarramento do Sistema - Arquitetura e Organização de Computadores
Barramento do Sistema - Arquitetura e Organização de Computadores
 
Linguagem SQL
Linguagem SQLLinguagem SQL
Linguagem SQL
 

Viewers also liked

Analise de agrupamentos uem
Analise de agrupamentos uemAnalise de agrupamentos uem
Analise de agrupamentos uemfalmeida856
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesCristiano Lemes da Silva
 
Introdução à Teoria dos Grafos
Introdução à Teoria dos GrafosIntrodução à Teoria dos Grafos
Introdução à Teoria dos GrafosBianca Dantas
 
Fundamentos do desenho técnico
Fundamentos do desenho técnicoFundamentos do desenho técnico
Fundamentos do desenho técnicoleobispo28
 

Viewers also liked (8)

Analise de agrupamentos uem
Analise de agrupamentos uemAnalise de agrupamentos uem
Analise de agrupamentos uem
 
Modelo de Componentes de IHC
Modelo de Componentes de IHCModelo de Componentes de IHC
Modelo de Componentes de IHC
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
 
Aula programa Genes
Aula programa GenesAula programa Genes
Aula programa Genes
 
Introdução à Teoria dos Grafos
Introdução à Teoria dos GrafosIntrodução à Teoria dos Grafos
Introdução à Teoria dos Grafos
 
Grafos e Árvores
Grafos e ÁrvoresGrafos e Árvores
Grafos e Árvores
 
Fundamentos do desenho técnico
Fundamentos do desenho técnicoFundamentos do desenho técnico
Fundamentos do desenho técnico
 
Coleta de dados
Coleta de dadosColeta de dados
Coleta de dados
 

Similar to Correlação e Classificação

Trabalho individual objetos de aprendizagem
Trabalho individual objetos de aprendizagemTrabalho individual objetos de aprendizagem
Trabalho individual objetos de aprendizagemEdson Júnio
 
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.Adrienne Oliveira
 
Métodos Iterativos - Gauss-Seidel - @professorenan
Métodos Iterativos - Gauss-Seidel - @professorenanMétodos Iterativos - Gauss-Seidel - @professorenan
Métodos Iterativos - Gauss-Seidel - @professorenanRenan Gustavo
 
Apostila 2 matematica basica
Apostila 2 matematica basicaApostila 2 matematica basica
Apostila 2 matematica basicatrigono_metrico
 
Exercicios Resolvidos Equacao 2 Grau 0
Exercicios Resolvidos Equacao 2 Grau 0Exercicios Resolvidos Equacao 2 Grau 0
Exercicios Resolvidos Equacao 2 Grau 0Adriana Bonato
 
Estatistica regular 9
Estatistica regular 9Estatistica regular 9
Estatistica regular 9J M
 
Poscomp-Cadernodequestes ano2010
Poscomp-Cadernodequestes ano2010Poscomp-Cadernodequestes ano2010
Poscomp-Cadernodequestes ano2010Maellson Marques
 
Aula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfClioLima5
 
Matemática básica radiciação equações
Matemática básica radiciação equaçõesMatemática básica radiciação equações
Matemática básica radiciação equaçõesAlessandro Lisboa
 
Interdisciplinaridade e matemática2
Interdisciplinaridade e matemática2Interdisciplinaridade e matemática2
Interdisciplinaridade e matemática2Jose Bueno
 
ÁLGEBRA: polinómios e sistemas de equações até três incógnitas
ÁLGEBRA: polinómios e sistemas de equações até três incógnitasÁLGEBRA: polinómios e sistemas de equações até três incógnitas
ÁLGEBRA: polinómios e sistemas de equações até três incógnitaswilkerfilipel
 
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclobellaluna288
 
Estatistica regular 4
Estatistica regular 4Estatistica regular 4
Estatistica regular 4J M
 

Similar to Correlação e Classificação (20)

Trabalho individual objetos de aprendizagem
Trabalho individual objetos de aprendizagemTrabalho individual objetos de aprendizagem
Trabalho individual objetos de aprendizagem
 
Exercicios resolvidos
Exercicios resolvidosExercicios resolvidos
Exercicios resolvidos
 
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
 
Métodos Iterativos - Gauss-Seidel - @professorenan
Métodos Iterativos - Gauss-Seidel - @professorenanMétodos Iterativos - Gauss-Seidel - @professorenan
Métodos Iterativos - Gauss-Seidel - @professorenan
 
Apostila 2 matematica basica
Apostila 2 matematica basicaApostila 2 matematica basica
Apostila 2 matematica basica
 
Cursocalc1ead
Cursocalc1eadCursocalc1ead
Cursocalc1ead
 
1 cm mat
1 cm mat1 cm mat
1 cm mat
 
Equacao_Diferencial_Ordinaria.pdf
Equacao_Diferencial_Ordinaria.pdfEquacao_Diferencial_Ordinaria.pdf
Equacao_Diferencial_Ordinaria.pdf
 
Log 2016
Log 2016Log 2016
Log 2016
 
Exercicios Resolvidos Equacao 2 Grau 0
Exercicios Resolvidos Equacao 2 Grau 0Exercicios Resolvidos Equacao 2 Grau 0
Exercicios Resolvidos Equacao 2 Grau 0
 
Estatistica regular 9
Estatistica regular 9Estatistica regular 9
Estatistica regular 9
 
Poscomp-Cadernodequestes ano2010
Poscomp-Cadernodequestes ano2010Poscomp-Cadernodequestes ano2010
Poscomp-Cadernodequestes ano2010
 
Aula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdf
 
Matemática básica radiciação equações
Matemática básica radiciação equaçõesMatemática básica radiciação equações
Matemática básica radiciação equações
 
Interdisciplinaridade e matemática2
Interdisciplinaridade e matemática2Interdisciplinaridade e matemática2
Interdisciplinaridade e matemática2
 
Resumo Matemática 3º Ciclo
Resumo Matemática 3º CicloResumo Matemática 3º Ciclo
Resumo Matemática 3º Ciclo
 
ÁLGEBRA: polinómios e sistemas de equações até três incógnitas
ÁLGEBRA: polinómios e sistemas de equações até três incógnitasÁLGEBRA: polinómios e sistemas de equações até três incógnitas
ÁLGEBRA: polinómios e sistemas de equações até três incógnitas
 
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
 
Potencias raizes
Potencias raizesPotencias raizes
Potencias raizes
 
Estatistica regular 4
Estatistica regular 4Estatistica regular 4
Estatistica regular 4
 

More from Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosAlexandre Duarte
 
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Alexandre Duarte
 

More from Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de Dados
 
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
 

Recently uploaded

Relatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteRelatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteDaniloMatos36
 
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfmaanuarruda
 
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfmaanuarruda
 
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...9z64mgz4kf
 
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfAULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfhistonfilho
 
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfmaanuarruda
 

Recently uploaded (6)

Relatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteRelatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste Nordeste
 
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
 
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
 
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
 
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfAULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
 
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
 

Correlação e Classificação

  • 1. CORRELAÇÃO E CLASSIFICAÇÃO Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  • 2. AGENDA • Estruturas de correlação • Classificador Naive Bayes • Árvores de Decisão • Avaliando um Classificador
  • 3. ESTRUTURAS DE CORRELAÇÃO • Tipicamente, dividimos as variáveis em duas partes para podermos analisar de diferentes formas os relacionamentos entre elas • Variável de entrada: X • Variável alvo: U • Procuramos encontrar uma regra F para estabelecer uma relação entre a variável de entrada e a variável alvo • U = F(X) • Isto nos permitiria prever U a partir de X.
  • 4. ESTRUTURAS DE CORRELAÇÃO • A regra U=F(X) pode ser utilizada para prever U a partir de X • Devido a sua grande importância prática, este problema tem recebido grande atenção de pesquisadores • O resultado são várias formas diferentes para encontrar estas regras
  • 5. MODELO OCULTO DE MARKOV • Considere dois amigos (Alice e Bob) que moram distantes um do outro e que se falam diariamente ao telefone sobre o que fizeram durante o dia • Bob só se interessa por três tipos de atividade: caminhadas, compras e limpeza do apartamento • A escolha sobre o que fazer é determinada exclusivamente pelo clima do dia • Alice não tem dados específicos sobre o clima da cidade onde Bob mora, mas tem uma noção sobre a tendência de chuva ou de sol. • Baseado no que Bob diz que fez, Alice ela tenta adivinhar como estava o clima na cidade de Bob
  • 7. MODELO OCULTO DE MARKOV • Usa estados observáveis para prever estados não-observáveis • As transições entre os estados não observáveis seguem um processo de Cadeia de Markov • Propriedade: Os estados anteriores são irrelevantes para a predição dos estados seguintes, desde que o estado atual seja conhecido
  • 8. REDES BAYESIANAS • Uma rede bayesiana é um modelo probabilístico que representa um conjunto de variáveis aleatórias e as dependências condicionais entre elas através de um grafo acíclico dirigido (DAG). • Os nós representam as variáveis aleatórias no sentido Bayesiano (quantidades observáveis, parâmetros desconhecidos ou hipóteses) • Os vértices representam dependências condicionais, nós não conectados representam variáveis condicionalmente independentes umas das outras • Por exemplo, uma rede bayesiana pode ser utilizada para representar os relacionamentos entre sintomas e doenças. • Dado um conjunto de sintomas, a rede poderia ser utilizada para calcular a probabilidade da presença de diferentes doenças
  • 9. REDES BAYESIANAS Irrigação Chuva Grama molhada
  • 10. REDES NEURAIS • Modelos computacionais inspirados pelo sistema nervoso central • Atualmente têm evoluído para uma abordagem mais prática, baseada em estatística e processamento de sinais • Utilizados para estimar ou aproximar funções que dependem de um grande número de entradas que são geralmente desconhecidas • Representadas por neurônios, capazes de computar valores a partir de entradas e conexões (sinapses) entre estes neurônios • Muito utilizadas para reconhecimento de padrões
  • 12. ÁRVORES DE DECISÃO • Uma árvore mostrando a chance de sobrevivência dos passageiros do Titanic • Folhas representam as probabilidades
  • 13. ESTRUTURAS DE CORRELAÇÃO • Entre as diferentes formas para as regras U = F(X), destacam-se • Modelo Oculto de Markov (Hidden Markov Model) • Redes Bayesianas • Redes Neurais • Árvores de Decisão
  • 14. CLASSIFICADOR NAÏVE BAYES Artigo bebida igualdad e gasolina jogos popular preços crença talento imposto s mulher F1 1 2 0 1 2 0 0 0 0 2 F2 0 0 0 1 0 1 0 2 0 2 F3 0 2 0 0 0 0 0 1 0 2 F4 2 1 0 0 0 2 0 2 0 1 E1 2 0 1 2 2 0 0 1 0 0 E2 0 1 0 3 2 1 2 0 0 0 E3 1 0 2 0 1 1 0 3 1 1 E4 0 1 0 1 1 0 1 1 0 0 H1 0 0 2 0 1 2 0 0 2 0 H2 1 0 2 2 0 2 2 0 0 0 H3 0 0 1 1 2 1 1 0 2 0 H4 0 0 1 0 0 2 2 0 2 0 X 1 1 2 1 1 0 0 1 0 0
  • 15. CLASSIFICADOR NAÏVE BAYES • Pensamento Bayesiano: considere a situação anterior, de acordo com os 12 artigos • Três classes F, E, e H, com probabilidades p(F) = 1/3, p(E) = 1/3 e p(H) = 1/3 • Cada classe é responsável por 4 dos 12 itens
  • 16. CLASSIFICADOR NAÏVE BAYES • p(F) = 1/3, p(E) = 1/3 e p(H) = 1/3 • Assuma que podemos derivar as probabilidades para o artigo x pertencer a cada uma dessas classes [p(x|F), p(x|E), p(x|H)] a partir dos dados da tabela • Sendo assim, as probabilidades posteriores das classes seriam proporcionais aos produtos (Teorema de Bayes): • p(F|x) = p(x|F)p(F) • p(E|x) = p(x|E)p(E) • p(H|x)=p(x|H)p(H)
  • 17. CLASSIFICADOR NAÏVE BAYES • x pertence a classe com a maior probabilidade a posterior • p(F|x) = p(x|F)p(F) • p(E|x) = p(x|E)p(E) • p(H|x)=p(x|H)p(H) • Problema: Como derivar as probabilidades de x pertencer a cada uma das categorias [p(x|F), p(x|E), p(x|H)] a partir da tabela ?
  • 18. CLASSIFICADOR NAÏVE BAYES • Problema: Como derivar as probabilidades de x pertencer a cada uma das categorias [p(x|F), p(x|E), p(x|H)] a partir da tabela ? • Principio Naïve Bayes: assuma que as variáveis são independentes em cada classe F, E e H • Depois, calcular o produto das probabilidades f1, f2, …,f10 de cada palavra chave em cada classe
  • 19. CLASSIFICADOR NAÏVE BAYES • Depois, calcular o produto das probabilidades f1, f2,…,f10 de cada palavra chave em cada classe • Dois problemas aqui: • produto de muitos números bem menores que zero tende a 0 • se alguma das probabilidades for 0, o produto será 0 • Solução: substituir o produto por uma soma de logaritmos!
  • 20. ALGORITMO NAÏVE BAYES 1. Calcule as probabilidades anteriores p(k), k=1, 2,…,K 2. Calcule as probabilidades de cada uma das m palavras chaves em cada uma das k classes fk1, fk2,…, fkm 3. Calcule o logarítimo de p(x|k), lp(x|k) = x1log(fk1) + x2log(fk2) + … + xmlog(fkm) 4. Calcule as somas lp(k|x) = log(p(k)) + lp(x|k) e atribua x a classe k com lp(k|x) máximo
  • 21. PROBABILIDADES DA PALAVRAS-CHAVE Artigo bebida igualdad e gasolina jogos popular preços crença talento imposto s mulher F1 1 2 0 1 2 0 0 0 0 2 F2 0 0 0 1 0 1 0 2 0 2 F3 0 2 0 0 0 0 0 1 0 2 F4 2 1 0 0 0 2 0 2 0 1 • Primeira questão: como tratar as palavras gasolina, crença e imposto ? • Segunda questão: que probabilidade atribuir a palavra mulher? Como considerar múltiplas ocorrência ?
  • 22. PROBABILIDADES DA PALAVRAS-CHAVE Artigo bebida igualdad e gasolina jogos popular preços crença talento imposto s mulher F1 1 2 0 1 2 0 0 0 0 2 F2 0 0 0 1 0 1 0 2 0 2 F3 0 2 0 0 0 0 0 1 0 2 F4 2 1 0 0 0 2 0 2 0 1 • Modelo da sacola de palavras: por todas as palavras em um saco. • Somar as ocorrências de todas as palavras na classe (3+5+0+2+2+3+0+5+0+7 = 27) com o total de palavras (10) = 37 • A probabilidade de uma palavra em uma é a sua quantidade de ocorrências + 1 dividida pelo total de palavras da classe.
  • 23. PROBABILIDADES DAS PALAVRAS-CHAVE Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher F 0.108 0.162 0.027 0.081 0.081 0.108 0.027 0.162 0.027 0.216 E 0.095 0.071 0.095 0.167 0.167 0.071 0.095 0.143 0.048 0.048 H 0.049 0.024 0.171 0.098 0.098 0.195 0.146 0.024 0.171 0.024 • Por exemplo, fbebida,E=(3+1)/(32+10)=4/42 =0.095 • Há 3 ocorrências da palavra bebida na classe E e 32 palavras em todos os artigos dessa classe, portanto, 42 é o tamanho da sacola de palavras para a classe E.
  • 24. PROBABILIDADES DAS PALAVRAS-CHAVE Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 • Calculando o logaritmo natural das probabilidades (*100 para deixar tudo positivo)
  • 25. PROBABILIDADES DAS PALAVRAS-CHAVE Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 X 1 1 2 1 1 0 0 1 0 0 • Calcule o logaritmo da probabilidade de um documento pertencer a cada classe (C=log(100/3) = 3.5066 • Considere o vetor x e calcule o produto interno dele com cada linha da tabela • Some C a cada resultado • X pertence a classe com o maior valor resultante
  • 26. PROBABILIDADES DAS PALAVRAS-CHAVE Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 X 1 1 2 1 1 0 0 1 0 0 • lp(F|x) =1*2.381+1*2.786+2*0.994+1*2.093+1*2.093+0*2.381+0*0.994+1*2.786+ 0*0.994+0*3.074 + 3.5066 =17.633 • lp(E|x)=1*2.254+1*1.966+2*2.254+1*2.813+1*2.813+0*1.966+0*2.254+1*2.659+ 0*1.561+ 0*1.561 + 3.5066 = 20.520 • lp(H|x)=1*1.585+1*0.892+2*2.838+1*2.278+1*2.278+0*2.971+0*2.683+1*0.892+ 0*2.838+0*0.892 + 3.5066 = 17.105
  • 27. ÁRVORE DE DECISÃO 7 erros 6 erros
  • 28. ÁRVORE DE DECISÃO • Árvore de classificação construída a partir de um conjunto de treinamento com particionamento alvo H • Objetivo: construir um particionamento G com similaridade máxima com H • Início: G composto por um único agrupamento, o conjunto de dados 6 erros
  • 29. ÁRVORE DE DECISÃO • Um particionamento é escolhido como o melhor dentre todos os particionamentos possíveis • Um função de score avalia a similaridade entre a partição alvo H e a partição G em construção 6 erros
  • 30. EXEMPLO DE CONSTRUÇÃO DE UMA ÁRVORE DE DECISÃO PARA A IRIS
  • 31. AVALIANDO UM CLASSIFICADOR • Considere a seguinte tabela de resultados de um aparelho capaz de diagnosticar cancer de pulmão Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 94 7 101 Não 1 98 99 Total 95 105 200 • Acurácia de 96%! • E daí?
  • 32. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Existem dois tipos de erros: 7 falsos positivos e 1 falso negativo. • Ambos são igualmente graves ?
  • 33. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Podem haver diferenças entre os casos identificados corretamente quando a amostra é desbalanceada
  • 34. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Acurácia de 98.5%! • Porém, 1/3 dos pacientes com câncer foram diagnosticados incorretamente com câncer e 1/2 dos pacientes com câncer não foram diagnosticados!
  • 35. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim TP FP TP + FP Não FN TN FP + TN Total TP + FN FN + TN Tudo • Acurácia = (TP + TN)/Tudo • Precisão = TP / (TP+FP) - Classificador • Recall = TP / (TP+FN) - Classificação
  • 36. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Acurácia = (TP + TN)/Tudo = 98.5% • Precisão = TP / (TP+FP) = 2 / 4 = 50% • Recall = TP / (TP+FN) = 2 / 3 = 67% • Como combinar Precisão e Recall?
  • 37. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Acurácia = (TP + TN)/Tudo = 98.5% • Precisão = TP / (TP+FP) = 2 / 4 = 50% • Recall = TP / (TP+FN) = 2 / 3 = 67% • F = 2 /((1/Precisão) + (1/Recall)) = 2 / ( ( 1/0.5) + (1/0.67)) = 0.57
  • 38. AVALIANDO UM CLASSIFICADOR EXEMPLO: AVALIANDO NOSSO CLASSIFICADOR DE IRIS