SlideShare a Scribd company logo
1 of 15
Download to read offline
Árvores de Decisão
Ricardo Luis dos Santos




© 2009 Hewlett-Packard Development Company, L.P.
The information contained herein is subject to change without notice Labs & Institute of Informatics – UFRGS
                                                  Malia Project – HP
Agenda

•   Introdução
•   Construção da Árvore de Decisão
•   Algoritmo ID3 – C4.5
•   Exemplo




                 Malia Project – HP Labs & Institute of Informatics – UFRGS
2
                                Wednesday, March 06, 2013
Introdução

•   Uma forma simples de representar o conhecimento
•   Largamente utilizada para mineração de dados
•   Possui a habilidade de “aprender” através de
    exemplos com o objetivo de classificar registros
•   Os conceitos/regras/ações/decisões de um
    problema são descritos através de exemplos
•   As instâncias (casos) são representados por pares
    do tipo atributo-valor, formando uma tabela
•   Possibilita identificar uma ação/categoria através
    de exemplos anteriores
                  Malia Project – HP Labs & Institute of Informatics – UFRGS
3
                                 Wednesday, March 06, 2013
Construção da Árvore de Decisão

•   A construção de uma Árvore de Decisão é guiada
    pela redução na dificuldade de previsão da variável
    objetivo
•   Visando tal redução são especificados nós
    (atributos) que auxiliam na identificação do caso
•   Para reduzir a dificuldade de previsão é
    selecionado o atributo que mais “auxilie” na
    classificação



                  Malia Project – HP Labs & Institute of Informatics – UFRGS
4
                                 Wednesday, March 06, 2013
Construção da Árvore de Decisão

•   Existem duas métricas que auxiliam para identificar
    tal atributo que são a:
    • Entropia - indica a homogeneidade dos exemplos
      contidos em um conjunto de dados. É utilizada para
      estimar a aleatoriedade da variável a ser prevista
    • Ganho de Informação - indica a redução da entropia
      causada pela divisão dos exemplos de acordo com os
      valores dos atributos




                   Malia Project – HP Labs & Institute of Informatics – UFRGS
5
                                  Wednesday, March 06, 2013
Algoritmo ID3 – C4.5

•   O algoritmo ID3 (inductive decision tree) é o mais
    utilizado. Um melhoramento deste foi nomeado de
    C4.5. Tal algoritmo segue os seguintes passos:
      1. Começar com todos os exemplos de treino
      2. Escolher o teste (atributo) que melhor divide os exemplos, ou
         seja, o atributo que melhor agrupa exemplos da mesma classe
         ou exemplos semelhantes
      3. Para o atributo escolhido, criar um nó filho para cada valor
         possível do atributo
      4. Transportar os exemplos para cada filho tendo em conta o valor
         do filho
      5. Repetir o procedimento para cada filho não "puro"


                     Malia Project – HP Labs & Institute of Informatics – UFRGS
6
                                    Wednesday, March 06, 2013
Exemplo
Tabela de Decisão ou de Conhecimento


    Previsão     Temperatura (°F)              Umidade                            Vento      Jogar
    Ensolarado         85                            85                               Não   Não Jogar
    Ensolarado         80                            90                               Sim   Não Jogar
    Encoberto          83                            78                               Não    Jogar
    Chovendo           70                            96                               Não    Jogar
    Chovendo           68                            80                               Não    Jogar
    Chovendo           65                            70                               Sim   Não Jogar
    Encoberto          64                            65                               Sim    Jogar
    Ensolarado         72                            95                               Não   Não Jogar
    Ensolarado         69                            70                               Não    Jogar
    Chovendo           75                            80                               Não    Jogar
    Ensolarado         75                            70                               Sim    Jogar
    Encoberto          72                            90                               Sim    Jogar
    Encoberto          81                            75                               Não    Jogar
    Chovendo           71                            80                               Sim   Não Jogar

                         Malia Project – HP Labs & Institute of Informatics – UFRGS
7
                                        Wednesday, March 06, 2013
Exemplo
Fórmulas da Entropia



•   Entropia para alternativas binárias



•   Entropia para N alternativas




                       Malia Project – HP Labs & Institute of Informatics – UFRGS
8
                                      Wednesday, March 06, 2013
Exemplo
Fórmula do Ganho de Informação



•   Entropia calculada



•   Ganho de Informação




                      Malia Project – HP Labs & Institute of Informatics – UFRGS
9
                                     Wednesday, March 06, 2013
Exemplo
Valores calculados



•    Ganhos de Informação calculadas


         Atributo                                      Ganho de Informação
        Previsão                                                                        0,2467
        Temperatura (°F)                                                                0,0251
        Umidade                                                                         0,0453
        Vento                                                                           0,0481




                           Malia Project – HP Labs & Institute of Informatics – UFRGS
10
                                          Wednesday, March 06, 2013
Exemplo
Árvore de Decisão formada a partir da entropia e do ganho de informação




                                                   Previsão



                Ensolarado                                  Encoberto                      Chovendo


     Atributo      Ganho                Atributo                  Ganho                    Atributo     Ganho
 Temperatura       0,4200            Temperatura                  0,0000                  Temperatura   0,0000
     Umidade       0,9710              Umidade                    0,0000                   Umidade      0,9710
      Vento        0,0200                Vento                    0,0000                    Vento       0,9710
     Entropia      0,9710              Entropia                   0,0000                   Entropia     0,9710




                             Malia Project – HP Labs & Institute of Informatics – UFRGS
11
                                            Wednesday, March 06, 2013
Exemplo
Árvore de Decisão formada a partir da entropia e do ganho de informação




                                                 Previsão



              Ensolarado                                  Encoberto                     Chovendo



              Umidade                               Jogar                                 Vento



     <= 75                  > 75                                                Sim                 Não



      Jogar             Não Jogar                                          Não Jogar               Jogar



                           Malia Project – HP Labs & Institute of Informatics – UFRGS
12
                                          Wednesday, March 06, 2013
Obrigado pela Atenção!
     Perguntas?
Características

•    Possibilidade de três utilizações, mas com o foco
     do “ganho de informação” em diferentes escopos:
     • De uma maneira geral, calculando tal métrica para cada
       pergunta, substituindo a contagem total de identificações
       de cada CR
     • Utilização do foco de “ganho de informação” dentro da
       CR mais vezes identificadas
     • Utilização juntamente com a contagem total de
       identificações de cada CR (por exemplo, Ganho x
       Identificação)



                     Malia Project – HP Labs & Institute of Informatics – UFRGS
14
                                    Wednesday, March 06, 2013
Características

•    Possibilita a identificação de perguntas que melhor
     dividem as alternativas
•    CRs novas possuem um “peso” maior na seleção
     de perguntas
•    Análise das perguntas óbvias mais “inteligente”,
     considerando respostas das perguntas anteriores
•    Se utilizada isolada, não garante que perguntas
     mais vezes selecionadas serão realizadas primeiro



                   Malia Project – HP Labs & Institute of Informatics – UFRGS
15
                                  Wednesday, March 06, 2013

More Related Content

What's hot

Aprendizagem por reforço
Aprendizagem por reforçoAprendizagem por reforço
Aprendizagem por reforçoLuís Nunes
 
Java basico modulo_03
Java basico modulo_03Java basico modulo_03
Java basico modulo_03wammendes
 
Introdução à análise orientada a objetos parte 1
Introdução à análise orientada a objetos parte 1Introdução à análise orientada a objetos parte 1
Introdução à análise orientada a objetos parte 1ariovaldodias
 
Tipos de aprendizagem automática
Tipos de aprendizagem automáticaTipos de aprendizagem automática
Tipos de aprendizagem automáticaLuís Nunes
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaLuís Nunes
 
Aprendizagem Supervisionada II
Aprendizagem Supervisionada IIAprendizagem Supervisionada II
Aprendizagem Supervisionada IILuís Nunes
 

What's hot (8)

Artigo tecnico RNA Iris
Artigo tecnico RNA IrisArtigo tecnico RNA Iris
Artigo tecnico RNA Iris
 
Aprendizagem por reforço
Aprendizagem por reforçoAprendizagem por reforço
Aprendizagem por reforço
 
Java basico modulo_03
Java basico modulo_03Java basico modulo_03
Java basico modulo_03
 
Introdução à análise orientada a objetos parte 1
Introdução à análise orientada a objetos parte 1Introdução à análise orientada a objetos parte 1
Introdução à análise orientada a objetos parte 1
 
Tipos de aprendizagem automática
Tipos de aprendizagem automáticaTipos de aprendizagem automática
Tipos de aprendizagem automática
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-Supervisionada
 
Classificação de Documentos
Classificação de DocumentosClassificação de Documentos
Classificação de Documentos
 
Aprendizagem Supervisionada II
Aprendizagem Supervisionada IIAprendizagem Supervisionada II
Aprendizagem Supervisionada II
 

Viewers also liked

Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoAntonioEE256
 
Aula Inaugural
Aula InauguralAula Inaugural
Aula InauguralJeff Fraga
 
1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)Eric Novais SIlva
 
Loira Sequestradora
Loira SequestradoraLoira Sequestradora
Loira SequestradoraJNR
 
Estatistica liliane ennes pronto
Estatistica liliane ennes pronto Estatistica liliane ennes pronto
Estatistica liliane ennes pronto Liliane Ennes
 
Cap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da ProporçãoCap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da ProporçãoRegis Andrade
 
Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetriaEnio José Bolognini
 
Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 - Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 - ronaldo ramos
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cdUNIP - Universidade Paulista
 
Tomada de Decisão e Cenários - Módulo 5
Tomada de Decisão e Cenários - Módulo 5Tomada de Decisão e Cenários - Módulo 5
Tomada de Decisão e Cenários - Módulo 5Dafne Morais
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de SaídaSimulação
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatísticoJosimar Nunes
 
Estatistica aula 02
Estatistica aula 02Estatistica aula 02
Estatistica aula 02pso2510
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoAntonio Mankumbani Chora
 
Estatística aplicada
Estatística aplicadaEstatística aplicada
Estatística aplicadaTiago Tomas
 

Viewers also liked (20)

Árvores de Decisão
Árvores de Decisão Árvores de Decisão
Árvores de Decisão
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
Análise multivariada em marketing com gráfico 3D
Análise multivariada em marketing com gráfico 3DAnálise multivariada em marketing com gráfico 3D
Análise multivariada em marketing com gráfico 3D
 
Aula Inaugural
Aula InauguralAula Inaugural
Aula Inaugural
 
1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)
 
Loira Sequestradora
Loira SequestradoraLoira Sequestradora
Loira Sequestradora
 
Estatistica liliane ennes pronto
Estatistica liliane ennes pronto Estatistica liliane ennes pronto
Estatistica liliane ennes pronto
 
Árvores de Decisão
Árvores de DecisãoÁrvores de Decisão
Árvores de Decisão
 
Aula pb 12_resumo
Aula pb 12_resumoAula pb 12_resumo
Aula pb 12_resumo
 
Cap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da ProporçãoCap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da Proporção
 
Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetria
 
Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 - Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 -
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd
 
664 2639-1-pb
664 2639-1-pb664 2639-1-pb
664 2639-1-pb
 
Tomada de Decisão e Cenários - Módulo 5
Tomada de Decisão e Cenários - Módulo 5Tomada de Decisão e Cenários - Módulo 5
Tomada de Decisão e Cenários - Módulo 5
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de Saída
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatístico
 
Estatistica aula 02
Estatistica aula 02Estatistica aula 02
Estatistica aula 02
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
Estatística aplicada
Estatística aplicadaEstatística aplicada
Estatística aplicada
 

More from Ricardo Luis dos Santos

Identifying the Root Cause of Failures in IT Changes: Novel Strategies and Tr...
Identifying the Root Cause of Failures in IT Changes: Novel Strategies and Tr...Identifying the Root Cause of Failures in IT Changes: Novel Strategies and Tr...
Identifying the Root Cause of Failures in IT Changes: Novel Strategies and Tr...Ricardo Luis dos Santos
 
Uma Solução para Identificação da Causa Raiz de Problemas no Gerenciamento de...
Uma Solução para Identificação da Causa Raiz de Problemas no Gerenciamento de...Uma Solução para Identificação da Causa Raiz de Problemas no Gerenciamento de...
Uma Solução para Identificação da Causa Raiz de Problemas no Gerenciamento de...Ricardo Luis dos Santos
 
A Solution for Identifying the Root Cause of Problems in IT Change Management
A Solution for Identifying the Root Cause of Problems in IT Change ManagementA Solution for Identifying the Root Cause of Problems in IT Change Management
A Solution for Identifying the Root Cause of Problems in IT Change ManagementRicardo Luis dos Santos
 
Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudan...
Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudan...Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudan...
Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudan...Ricardo Luis dos Santos
 
Gerenciamento de problemas e de incidentes
Gerenciamento de problemas e de incidentesGerenciamento de problemas e de incidentes
Gerenciamento de problemas e de incidentesRicardo Luis dos Santos
 

More from Ricardo Luis dos Santos (8)

Identifying the Root Cause of Failures in IT Changes: Novel Strategies and Tr...
Identifying the Root Cause of Failures in IT Changes: Novel Strategies and Tr...Identifying the Root Cause of Failures in IT Changes: Novel Strategies and Tr...
Identifying the Root Cause of Failures in IT Changes: Novel Strategies and Tr...
 
Uma Solução para Identificação da Causa Raiz de Problemas no Gerenciamento de...
Uma Solução para Identificação da Causa Raiz de Problemas no Gerenciamento de...Uma Solução para Identificação da Causa Raiz de Problemas no Gerenciamento de...
Uma Solução para Identificação da Causa Raiz de Problemas no Gerenciamento de...
 
A Solution for Identifying the Root Cause of Problems in IT Change Management
A Solution for Identifying the Root Cause of Problems in IT Change ManagementA Solution for Identifying the Root Cause of Problems in IT Change Management
A Solution for Identifying the Root Cause of Problems in IT Change Management
 
Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudan...
Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudan...Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudan...
Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudan...
 
Gerenciamento de problemas e de incidentes
Gerenciamento de problemas e de incidentesGerenciamento de problemas e de incidentes
Gerenciamento de problemas e de incidentes
 
Mibs Disman
Mibs DismanMibs Disman
Mibs Disman
 
Statecharts
StatechartsStatecharts
Statecharts
 
Programabilidade em Redes Virtualizadas
Programabilidade em Redes VirtualizadasProgramabilidade em Redes Virtualizadas
Programabilidade em Redes Virtualizadas
 

Árvores de Decisão e Algoritmos ID3 e C4.5

  • 1. Árvores de Decisão Ricardo Luis dos Santos © 2009 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice Labs & Institute of Informatics – UFRGS Malia Project – HP
  • 2. Agenda • Introdução • Construção da Árvore de Decisão • Algoritmo ID3 – C4.5 • Exemplo Malia Project – HP Labs & Institute of Informatics – UFRGS 2 Wednesday, March 06, 2013
  • 3. Introdução • Uma forma simples de representar o conhecimento • Largamente utilizada para mineração de dados • Possui a habilidade de “aprender” através de exemplos com o objetivo de classificar registros • Os conceitos/regras/ações/decisões de um problema são descritos através de exemplos • As instâncias (casos) são representados por pares do tipo atributo-valor, formando uma tabela • Possibilita identificar uma ação/categoria através de exemplos anteriores Malia Project – HP Labs & Institute of Informatics – UFRGS 3 Wednesday, March 06, 2013
  • 4. Construção da Árvore de Decisão • A construção de uma Árvore de Decisão é guiada pela redução na dificuldade de previsão da variável objetivo • Visando tal redução são especificados nós (atributos) que auxiliam na identificação do caso • Para reduzir a dificuldade de previsão é selecionado o atributo que mais “auxilie” na classificação Malia Project – HP Labs & Institute of Informatics – UFRGS 4 Wednesday, March 06, 2013
  • 5. Construção da Árvore de Decisão • Existem duas métricas que auxiliam para identificar tal atributo que são a: • Entropia - indica a homogeneidade dos exemplos contidos em um conjunto de dados. É utilizada para estimar a aleatoriedade da variável a ser prevista • Ganho de Informação - indica a redução da entropia causada pela divisão dos exemplos de acordo com os valores dos atributos Malia Project – HP Labs & Institute of Informatics – UFRGS 5 Wednesday, March 06, 2013
  • 6. Algoritmo ID3 – C4.5 • O algoritmo ID3 (inductive decision tree) é o mais utilizado. Um melhoramento deste foi nomeado de C4.5. Tal algoritmo segue os seguintes passos: 1. Começar com todos os exemplos de treino 2. Escolher o teste (atributo) que melhor divide os exemplos, ou seja, o atributo que melhor agrupa exemplos da mesma classe ou exemplos semelhantes 3. Para o atributo escolhido, criar um nó filho para cada valor possível do atributo 4. Transportar os exemplos para cada filho tendo em conta o valor do filho 5. Repetir o procedimento para cada filho não "puro" Malia Project – HP Labs & Institute of Informatics – UFRGS 6 Wednesday, March 06, 2013
  • 7. Exemplo Tabela de Decisão ou de Conhecimento Previsão Temperatura (°F) Umidade Vento Jogar Ensolarado 85 85 Não Não Jogar Ensolarado 80 90 Sim Não Jogar Encoberto 83 78 Não Jogar Chovendo 70 96 Não Jogar Chovendo 68 80 Não Jogar Chovendo 65 70 Sim Não Jogar Encoberto 64 65 Sim Jogar Ensolarado 72 95 Não Não Jogar Ensolarado 69 70 Não Jogar Chovendo 75 80 Não Jogar Ensolarado 75 70 Sim Jogar Encoberto 72 90 Sim Jogar Encoberto 81 75 Não Jogar Chovendo 71 80 Sim Não Jogar Malia Project – HP Labs & Institute of Informatics – UFRGS 7 Wednesday, March 06, 2013
  • 8. Exemplo Fórmulas da Entropia • Entropia para alternativas binárias • Entropia para N alternativas Malia Project – HP Labs & Institute of Informatics – UFRGS 8 Wednesday, March 06, 2013
  • 9. Exemplo Fórmula do Ganho de Informação • Entropia calculada • Ganho de Informação Malia Project – HP Labs & Institute of Informatics – UFRGS 9 Wednesday, March 06, 2013
  • 10. Exemplo Valores calculados • Ganhos de Informação calculadas Atributo Ganho de Informação Previsão 0,2467 Temperatura (°F) 0,0251 Umidade 0,0453 Vento 0,0481 Malia Project – HP Labs & Institute of Informatics – UFRGS 10 Wednesday, March 06, 2013
  • 11. Exemplo Árvore de Decisão formada a partir da entropia e do ganho de informação Previsão Ensolarado Encoberto Chovendo Atributo Ganho Atributo Ganho Atributo Ganho Temperatura 0,4200 Temperatura 0,0000 Temperatura 0,0000 Umidade 0,9710 Umidade 0,0000 Umidade 0,9710 Vento 0,0200 Vento 0,0000 Vento 0,9710 Entropia 0,9710 Entropia 0,0000 Entropia 0,9710 Malia Project – HP Labs & Institute of Informatics – UFRGS 11 Wednesday, March 06, 2013
  • 12. Exemplo Árvore de Decisão formada a partir da entropia e do ganho de informação Previsão Ensolarado Encoberto Chovendo Umidade Jogar Vento <= 75 > 75 Sim Não Jogar Não Jogar Não Jogar Jogar Malia Project – HP Labs & Institute of Informatics – UFRGS 12 Wednesday, March 06, 2013
  • 14. Características • Possibilidade de três utilizações, mas com o foco do “ganho de informação” em diferentes escopos: • De uma maneira geral, calculando tal métrica para cada pergunta, substituindo a contagem total de identificações de cada CR • Utilização do foco de “ganho de informação” dentro da CR mais vezes identificadas • Utilização juntamente com a contagem total de identificações de cada CR (por exemplo, Ganho x Identificação) Malia Project – HP Labs & Institute of Informatics – UFRGS 14 Wednesday, March 06, 2013
  • 15. Características • Possibilita a identificação de perguntas que melhor dividem as alternativas • CRs novas possuem um “peso” maior na seleção de perguntas • Análise das perguntas óbvias mais “inteligente”, considerando respostas das perguntas anteriores • Se utilizada isolada, não garante que perguntas mais vezes selecionadas serão realizadas primeiro Malia Project – HP Labs & Institute of Informatics – UFRGS 15 Wednesday, March 06, 2013