As três frases são:
1) O documento discute árvores de decisão, que representam conhecimento através de exemplos para classificar registros.
2) Os algoritmos ID3 e C4.5 constroem árvores de decisão selecionando atributos que melhor dividem os exemplos usando métricas como entropia e ganho de informação.
3) Um exemplo calcula esses valores para atributos em uma tabela sobre o clima e decide se deve ou não jogar, ilustrando a construção da árvore de decisão.
2. Agenda
• Introdução
• Construção da Árvore de Decisão
• Algoritmo ID3 – C4.5
• Exemplo
Malia Project – HP Labs & Institute of Informatics – UFRGS
2
Wednesday, March 06, 2013
3. Introdução
• Uma forma simples de representar o conhecimento
• Largamente utilizada para mineração de dados
• Possui a habilidade de “aprender” através de
exemplos com o objetivo de classificar registros
• Os conceitos/regras/ações/decisões de um
problema são descritos através de exemplos
• As instâncias (casos) são representados por pares
do tipo atributo-valor, formando uma tabela
• Possibilita identificar uma ação/categoria através
de exemplos anteriores
Malia Project – HP Labs & Institute of Informatics – UFRGS
3
Wednesday, March 06, 2013
4. Construção da Árvore de Decisão
• A construção de uma Árvore de Decisão é guiada
pela redução na dificuldade de previsão da variável
objetivo
• Visando tal redução são especificados nós
(atributos) que auxiliam na identificação do caso
• Para reduzir a dificuldade de previsão é
selecionado o atributo que mais “auxilie” na
classificação
Malia Project – HP Labs & Institute of Informatics – UFRGS
4
Wednesday, March 06, 2013
5. Construção da Árvore de Decisão
• Existem duas métricas que auxiliam para identificar
tal atributo que são a:
• Entropia - indica a homogeneidade dos exemplos
contidos em um conjunto de dados. É utilizada para
estimar a aleatoriedade da variável a ser prevista
• Ganho de Informação - indica a redução da entropia
causada pela divisão dos exemplos de acordo com os
valores dos atributos
Malia Project – HP Labs & Institute of Informatics – UFRGS
5
Wednesday, March 06, 2013
6. Algoritmo ID3 – C4.5
• O algoritmo ID3 (inductive decision tree) é o mais
utilizado. Um melhoramento deste foi nomeado de
C4.5. Tal algoritmo segue os seguintes passos:
1. Começar com todos os exemplos de treino
2. Escolher o teste (atributo) que melhor divide os exemplos, ou
seja, o atributo que melhor agrupa exemplos da mesma classe
ou exemplos semelhantes
3. Para o atributo escolhido, criar um nó filho para cada valor
possível do atributo
4. Transportar os exemplos para cada filho tendo em conta o valor
do filho
5. Repetir o procedimento para cada filho não "puro"
Malia Project – HP Labs & Institute of Informatics – UFRGS
6
Wednesday, March 06, 2013
7. Exemplo
Tabela de Decisão ou de Conhecimento
Previsão Temperatura (°F) Umidade Vento Jogar
Ensolarado 85 85 Não Não Jogar
Ensolarado 80 90 Sim Não Jogar
Encoberto 83 78 Não Jogar
Chovendo 70 96 Não Jogar
Chovendo 68 80 Não Jogar
Chovendo 65 70 Sim Não Jogar
Encoberto 64 65 Sim Jogar
Ensolarado 72 95 Não Não Jogar
Ensolarado 69 70 Não Jogar
Chovendo 75 80 Não Jogar
Ensolarado 75 70 Sim Jogar
Encoberto 72 90 Sim Jogar
Encoberto 81 75 Não Jogar
Chovendo 71 80 Sim Não Jogar
Malia Project – HP Labs & Institute of Informatics – UFRGS
7
Wednesday, March 06, 2013
8. Exemplo
Fórmulas da Entropia
• Entropia para alternativas binárias
• Entropia para N alternativas
Malia Project – HP Labs & Institute of Informatics – UFRGS
8
Wednesday, March 06, 2013
9. Exemplo
Fórmula do Ganho de Informação
• Entropia calculada
• Ganho de Informação
Malia Project – HP Labs & Institute of Informatics – UFRGS
9
Wednesday, March 06, 2013
10. Exemplo
Valores calculados
• Ganhos de Informação calculadas
Atributo Ganho de Informação
Previsão 0,2467
Temperatura (°F) 0,0251
Umidade 0,0453
Vento 0,0481
Malia Project – HP Labs & Institute of Informatics – UFRGS
10
Wednesday, March 06, 2013
11. Exemplo
Árvore de Decisão formada a partir da entropia e do ganho de informação
Previsão
Ensolarado Encoberto Chovendo
Atributo Ganho Atributo Ganho Atributo Ganho
Temperatura 0,4200 Temperatura 0,0000 Temperatura 0,0000
Umidade 0,9710 Umidade 0,0000 Umidade 0,9710
Vento 0,0200 Vento 0,0000 Vento 0,9710
Entropia 0,9710 Entropia 0,0000 Entropia 0,9710
Malia Project – HP Labs & Institute of Informatics – UFRGS
11
Wednesday, March 06, 2013
12. Exemplo
Árvore de Decisão formada a partir da entropia e do ganho de informação
Previsão
Ensolarado Encoberto Chovendo
Umidade Jogar Vento
<= 75 > 75 Sim Não
Jogar Não Jogar Não Jogar Jogar
Malia Project – HP Labs & Institute of Informatics – UFRGS
12
Wednesday, March 06, 2013
14. Características
• Possibilidade de três utilizações, mas com o foco
do “ganho de informação” em diferentes escopos:
• De uma maneira geral, calculando tal métrica para cada
pergunta, substituindo a contagem total de identificações
de cada CR
• Utilização do foco de “ganho de informação” dentro da
CR mais vezes identificadas
• Utilização juntamente com a contagem total de
identificações de cada CR (por exemplo, Ganho x
Identificação)
Malia Project – HP Labs & Institute of Informatics – UFRGS
14
Wednesday, March 06, 2013
15. Características
• Possibilita a identificação de perguntas que melhor
dividem as alternativas
• CRs novas possuem um “peso” maior na seleção
de perguntas
• Análise das perguntas óbvias mais “inteligente”,
considerando respostas das perguntas anteriores
• Se utilizada isolada, não garante que perguntas
mais vezes selecionadas serão realizadas primeiro
Malia Project – HP Labs & Institute of Informatics – UFRGS
15
Wednesday, March 06, 2013