Algoritmo ID3 e C.45 no Processo de Mineração de Dados Gilcimar Hoehstein
Data Mining <ul><li>Data Mining  é o processo de extrair informações desejadas em uma base de dados, que em primeiro momen...
Descoberta de Conhecimento <ul><li>O problema é que estes registros da base dados, muitas vezes, representam apenas dados ...
Aprendizado de Máquina <ul><li>Um sistema de Aprendizado de Máquina (AM) é um programa de computador que toma decisões bas...
Processo Indutivo <ul><li>A indução é a forma de inferência lógica que permite obter conclusões genéricas sobre um conjunt...
Inferência Indutiva <ul><li>A inferência indutiva é um dos principais métodos utilizados para derivar conhecimento novo e ...
Hierarquia do Aprendizado Indutivo <ul><li>No aprendizado supervisionado é fornecido ao algoritmo de aprendizado, ou indut...
Hierarquia do Aprendizado Indutivo <ul><li>Os Algoritmos ID3 e C.45 estão na categoria de Algoritmos de Classificação </li...
Classificação  <ul><li>Analisa um conjunto de dados de treinamento (um conjunto de objetos cuja classificação já é conheci...
Classificação e Regressão <ul><li>A regressão é conceitualmente similar à classificação. A principal diferença é que o atr...
Outros algoritmos de Classificação e Regressão <ul><li>J48; </li></ul><ul><li>Adtree;  </li></ul><ul><li>UserClassifier; <...
Árvore de Decisão <ul><li>Uma  árvore de decisão  é uma representação de uma tabela de decisão sob a forma de uma árvore. ...
Árvore de Decisão <ul><li>A árvore de decisão chega a sua decisão pela execução de uma seqüência de testes. Cada nó intern...
Atributo, valor do atributo e classes <ul><li>Uma árvore de decisão consiste em nós que representam os nomes do atributos,...
Exemplo <ul><li>Atributo: {Consumo mensal} </li></ul><ul><li>Valor do atributo: {7 KW/h, 20 KW/h, 60 KW/h } </li></ul><ul>...
Regras if-then <ul><li>A árvore de decisão é semelhantes as regras if-then. </li></ul><ul><li>If (consumo mensal > 50 KW/h...
Exemplo – árvore de decisão para regras de classificação 1.     Se    ( Escolaridade  =  “Graduação” )   -    Rico  =  “Nã...
Vantagem das árvores de decisão <ul><li>Uma grande vantagem das árvores de decisão é que elas podem ser aplicadas a grande...
Vantagem das árvores de decisão <ul><li>As árvores de decisão também permitem derivar regras, regras de produção, decisão ...
O algoritmo ID3 <ul><li>Foi inventando Ross Quinlan, na Universidade de Sydnei, Austrália em  1979. </li></ul><ul><li>O ID...
Portugol do ID3
Desvantagem do ID3 <ul><li>A Principal limitação do ID3 é que ele só lida com atributos discretos, não sendo possível apre...
Desvantagem do ID3 <ul><li>O algoritmo ID3 não apresenta nenhum método de pós poda, o que poderia amenizar a busca em árvo...
Transformando valores contínuos de atributos em valores discretos <ul><li>temperatura = [6 25 30 50 0 32 3 10 5 32] </li><...
Transformação de atributos contínuos em discretos <ul><li>De zero a 16,66 graus = frio </li></ul><ul><li>De 16,67 a 33,33 ...
O algoritmo ID3 <ul><li>O ID3 usa entropia para calcular a homogeneidade de uma amostra. Se a amostra é completamente homo...
Dois Tipos de entropia <ul><li>Para construir uma árvore de decisão, precisamos calcular dois tipos de entropia através de...
Exemplo Prático Precisa saber se é possível jogar tênis com Sol, frio, alta, forte. ????
Entropia dos dados da amostra Entropia dos Dados (S1) =-0,64* LOG(0,64;2)- 0,36*LOG(0,36;2) =  0,940 Obs: se a entropia es...
O conjunto de dados é dividido sobre os valores dos atributos A entropia de cada valor é calculado. Então, ele é adicionad...
Ganho de informação <ul><li>O Ganho da informação de um determinado atributo é calculado subtraindo a Entropia total, dos ...
<ul><li>Já foi calculado o Ganho do atributo aparência, agora é preciso calcular dos outros atributos (temperatura, umidad...
Ganho de informação do Atributo Temperatura Entropia de Temperatura =(4/14)*entropia de quente) + (6/14* entropia de agrad...
Ganho de informação do Atributo Umidade Entropia de Umidade =(7/14)*entropia de normal)  + (7/14* alta) = 0,788 Ganho (S, ...
Ganho de informação do Atributo Vento Entropia de Vento =(6/14)*entropia de forte) + (8/14* entropia de fraco)= 0,906 Ganh...
Escolha do atributo com maior Ganho de informação para ser o nó raiz Encoberto Aparência Sol ??? SIM Chuvoso ???
Selecionando apenas as linhas com o valor sol para aparência <ul><li>Repete a interação, porem agora com esta amostra meno...
Escolha do melhor atributo <ul><li>Ganho (S2, temperatura) =  0,371 </li></ul><ul><li>Ganho (S2, umidade) =  0,971 </li></...
Escolha do atributo com maior Ganho de informação para ser o nó filho de Sol Escolha do Atributo com Maior Ganho Aparência...
Calculando nó que descende chuvoso <ul><li>Agora temos que calcular o nó que descente chuvoso. Para isto, vamos pegar as l...
Calculo da Entropia dos Dados <ul><li>Probabilidade (S3) =  </li></ul><ul><li>P(sim,3 /5) = 0,6  </li></ul><ul><li>P(não, ...
Entropia dos atributos em relação ao atributo-classe <ul><li>Temperatura com Jogo </li></ul>
Entropia dos atributos em relação ao atributo-classe <ul><li>Umidade com Jogo </li></ul>
Entropia dos atributos em relação ao atributo-classe <ul><li>Vento com Jogo </li></ul>
Selecione o atributo com maior ganho de informação <ul><li>O vento é o atributo que maior contribui para a definição do nó...
Árvore de Decisão final <ul><li>A verificação ocorre de cima para baixo (top-down), ele verifica primeiro o nó raiz, qual ...
Conclusão do id3 <ul><li>A construção da árvore de decisão de id3, ele calcula o atributo que mais interfere na classifica...
Algoritmo C.45 <ul><li>Lida tanto com atributos discretos, como contínuos. </li></ul><ul><li>O algoritmo C.45 ignora valor...
Vantagem do C.45 <ul><li>Apresenta método de pós poda da árvore de decisão gerada, ou seja, realiza um busca de baixo para...
Razão de Ganho do C.45 <ul><li>Razão de ganho = ganho / entropia </li></ul><ul><li>Desta forma, o algoritmo C.45 na primei...
Razão de ganho <ul><li>Quinlan mostrou que a razão de ganho supera o ganho da informação em termos de precisão de complexi...
Métodos de Poda <ul><li>Existem dois tipos de Podas em uma árvore de decisão. A Pré-poda e a Pós-Poda </li></ul><ul><li>A ...
Pós-Poda <ul><li>A Pós-poda é utilizada após a construção da árvore de decisão, removendo ramos completos, onde tudo que e...
Poda baseada em Erro (Error based pruning) <ul><li>Utilizado pelo C.45 </li></ul><ul><li>Pós-Poda </li></ul><ul><li>Utiliz...
Exemplo – Poda baseada em Erro
Métodos de Poda <ul><li>Existem muitos outros métodos de poda, cost complexity pruning, reduced error pruning, critical va...
O Weka <ul><li>O Weka é uma ferramenta permite a importação de arquivos arff. Já disponibiliza o uso dos algoritmos id3 e ...
Arquivo arff
Demonstração no Weka <ul><li>Na tela inicial escolha o modo Explorer. </li></ul><ul><li>Abra o arquivo jogo.arff no web. N...
Resultado
Tela de resultados <ul><li>Pode-ser observar a construção da árvore de decisão destacado em vermelho </li></ul>
Escolhendo j48 <ul><li>Permite modo gráfico da árvore de decisão.Junto com a visualização da quantidade de amostras em cad...
Exercício <ul><li>Terminar a construção da árvore, do Nó que descende Chuvoso seguindo o algoritmo ID3 </li></ul><ul><li>M...
Trem Custo das Viagens Gênero Carro Trem Barato Caro padrão Ônibus Feminino Masculino Transporte 0 1 Ônibus
Upcoming SlideShare
Loading in …5
×

Algoritmo_ID3_e_C.45_Gilcimar

5,880
-1

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
5,880
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
213
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Algoritmo_ID3_e_C.45_Gilcimar

  1. 1. Algoritmo ID3 e C.45 no Processo de Mineração de Dados Gilcimar Hoehstein
  2. 2. Data Mining <ul><li>Data Mining  é o processo de extrair informações desejadas em uma base de dados, que em primeiro momento são desconhecidas. </li></ul><ul><li>Data Mining  permite explorar ou adicionar informações a partir dos dados, descobrindo relacionamentos ocultos no banco de dados. </li></ul>
  3. 3. Descoberta de Conhecimento <ul><li>O problema é que estes registros da base dados, muitas vezes, representam apenas dados e não conhecimento. Visando transformar estes dados em conhecimento, surge o processo chamado de Descoberta de Conhecimento em Bancos de Dados, conhecido com KDD (Knowledge Discovery in Databases) </li></ul><ul><li>A KDD é uma área de grande pesquisa na Inteligência Artificial. </li></ul>
  4. 4. Aprendizado de Máquina <ul><li>Um sistema de Aprendizado de Máquina (AM) é um programa de computador que toma decisões baseado em experiências acumuladas por meio de soluções bem-sucedidas de problemas anteriores. </li></ul><ul><li>O AM é uma poderosa ferramenta para aquisição automática de conhecimento. </li></ul>
  5. 5. Processo Indutivo <ul><li>A indução é a forma de inferência lógica que permite obter conclusões genéricas sobre um conjunto particular de exemplos. </li></ul><ul><li>Na indução, um conceito é aprendido efetuando inferência indutiva sobre os exemplos apresentados. Portanto, as hipóteses geradas através da inferência indutiva podem ou não, dizer a verdade. </li></ul>
  6. 6. Inferência Indutiva <ul><li>A inferência indutiva é um dos principais métodos utilizados para derivar conhecimento novo e predizer eventos futuros. </li></ul><ul><li>O aprendizado indutivo pode ser dividido em supervisionado e não-supervisionado. </li></ul>
  7. 7. Hierarquia do Aprendizado Indutivo <ul><li>No aprendizado supervisionado é fornecido ao algoritmo de aprendizado, ou indutor, um conjunto de exemplos de treinamento para os quais o rótulo da classe associada é conhecido. </li></ul><ul><li>No aprendizado não-supervisionado, o indutor analisa os exemplos e tenta determinar se alguns deles podem ser agrupados, formando clusters ou agrupamentos. </li></ul>
  8. 8. Hierarquia do Aprendizado Indutivo <ul><li>Os Algoritmos ID3 e C.45 estão na categoria de Algoritmos de Classificação </li></ul>
  9. 9. Classificação  <ul><li>Analisa um conjunto de dados de treinamento (um conjunto de objetos cuja classificação já é conhecida) e constrói um modelo para cada classe baseado nas características dos dados. Uma árvore de decisão ou um conjunto de regras de classificação é gerado por tal processo de classificação, que pode ser usado para entender melhor cada classe ou classificar futuros dados. Na classificação o atributo a ser predito é discreto, por exemplo, se o cliente é bom ou mau pagador. </li></ul>
  10. 10. Classificação e Regressão <ul><li>A regressão é conceitualmente similar à classificação. A principal diferença é que o atributo a ser predito é contínuo em vez de discreto, por exemplo, predizer o lucro ou o prejuízo em um empréstimo. </li></ul><ul><li>Classificação e regressão utilizam algoritmos de Indução de Regras e algoritmos que geram Árvores de Decisão . </li></ul>
  11. 11. Outros algoritmos de Classificação e Regressão <ul><li>J48; </li></ul><ul><li>Adtree; </li></ul><ul><li>UserClassifier; </li></ul><ul><li>PredictionNode; </li></ul><ul><li>Splitter; </li></ul><ul><li>ClassifierTree; </li></ul><ul><li>M5Prime. </li></ul>
  12. 12. Árvore de Decisão <ul><li>Uma árvore de decisão é uma representação de uma tabela de decisão sob a forma de uma árvore. </li></ul><ul><li>Tem a mesma utilidade da tabela de decisão. </li></ul><ul><li>Trata-se de uma maneira alternativa de expressar as mesmas regras que são obtidas quando se constrói a tabela. </li></ul>
  13. 13. Árvore de Decisão <ul><li>A árvore de decisão chega a sua decisão pela execução de uma seqüência de testes. Cada nó interno da arvore corresponde a um teste do valor de uma das propriedades, e os ramos deste nó são identificados com os possíveis valores de teste. Cada nó folha da árvore especifica o valor de retorno se a folha for atingida. </li></ul>
  14. 14. Atributo, valor do atributo e classes <ul><li>Uma árvore de decisão consiste em nós que representam os nomes do atributos, os arcos representam os valores dos atributos e as folhas, que correspondem as diferentes classes a que pertencem as entidades. </li></ul>
  15. 15. Exemplo <ul><li>Atributo: {Consumo mensal} </li></ul><ul><li>Valor do atributo: {7 KW/h, 20 KW/h, 60 KW/h } </li></ul><ul><li>Classe: {Gasta Pouco, Gasta Médio, Gasta Muito} </li></ul>
  16. 16. Regras if-then <ul><li>A árvore de decisão é semelhantes as regras if-then. </li></ul><ul><li>If (consumo mensal > 50 KW/h) </li></ul><ul><ul><li>then Gasta Muito </li></ul></ul>
  17. 17. Exemplo – árvore de decisão para regras de classificação 1.     Se    ( Escolaridade = “Graduação” )   - Rico = “Não” 2.     Se    ( Escolaridade = “Doutorado” )   - Rico = “Sim” 3.     Se    ( Escolaridade = “Mestrado” ) &   ( Idade = “>30” )  - Rico = “Sim” ) 4.     Se    ( Escolaridade = “Mestrado” ) &   ( Idade = “<=30” ) - Rico = “Não” )
  18. 18. Vantagem das árvores de decisão <ul><li>Uma grande vantagem das árvores de decisão é que elas podem ser aplicadas a grandes conjuntos de dados e possibilitam uma visão real da natureza do processo de decisão, desta forma, o resultado do algoritmo pode ser facilmente interpretado pelo usuário. </li></ul>
  19. 19. Vantagem das árvores de decisão <ul><li>As árvores de decisão também permitem derivar regras, regras de produção, decisão ou classificação, as quais são gerada percorrendo o trajeto do nó raiz até uma folha da árvore. Como as regras são equivalentes a árvore, a derivação de regras é interessante quando a árvore cresce muito. </li></ul>
  20. 20. O algoritmo ID3 <ul><li>Foi inventando Ross Quinlan, na Universidade de Sydnei, Austrália em 1979. </li></ul><ul><li>O ID3 usa entropia e ganho de informação para construir a árvore de decisão. </li></ul><ul><li>É o algoritmo pioneiro em indução de árvore de decisão. É um algoritmo recursivo, baseado em busca gulosa, onde procura um conjunto de atributos que melhor dividem os exemplos(amostras), gerando sub-árvores. </li></ul>
  21. 21. Portugol do ID3
  22. 22. Desvantagem do ID3 <ul><li>A Principal limitação do ID3 é que ele só lida com atributos discretos, não sendo possível apresentar a ele um conjuntos de dados com atributos contínuos. Neste caso os atributos contínuos devem ser “discretizados”. </li></ul><ul><li>O ID3 também não apresenta nenhuma forma de tratar valores desconhecidos, ou seja, todos os exemplos do conjunto de treinamento devem ter valores conhecidos para todos os seus atributos. </li></ul>
  23. 23. Desvantagem do ID3 <ul><li>O algoritmo ID3 não apresenta nenhum método de pós poda, o que poderia amenizar a busca em árvores mais complexas. </li></ul>
  24. 24. Transformando valores contínuos de atributos em valores discretos <ul><li>temperatura = [6 25 30 50 0 32 3 10 5 32] </li></ul><ul><li>Definir o valor maximo e minimo da amostra </li></ul><ul><li>Dividir a soma do valor Max e Min pelo quantidade de classes. Ex: Quente, normal e frio ou seja, (0 + 50) / 3 = 16,66 </li></ul>
  25. 25. Transformação de atributos contínuos em discretos <ul><li>De zero a 16,66 graus = frio </li></ul><ul><li>De 16,67 a 33,33 = normal </li></ul><ul><li>De 33,34 a 50 = quente </li></ul>Temperatura Frio Quente normal Se t < 16,66 Se t > 33,34 Se 16,67 < t < 33,34
  26. 26. O algoritmo ID3 <ul><li>O ID3 usa entropia para calcular a homogeneidade de uma amostra. Se a amostra é completamente homogênea a entropia é zero e se a amostra é dividido igualmente tem a entropia é um. </li></ul>
  27. 27. Dois Tipos de entropia <ul><li>Para construir uma árvore de decisão, precisamos calcular dois tipos de entropia através de tabelas de frequência da seguinte forma: </li></ul>Jogo Sim Não 9 5 Prob = 9/14 5/14 - (9/14)*log(9/14;2) + - (5/14)*log(5/14;2) Entropia dos dados (S1) = 0,0940
  28. 28. Exemplo Prático Precisa saber se é possível jogar tênis com Sol, frio, alta, forte. ????
  29. 29. Entropia dos dados da amostra Entropia dos Dados (S1) =-0,64* LOG(0,64;2)- 0,36*LOG(0,36;2) = 0,940 Obs: se a entropia estiver fora do intervalo [0,1], alguma coisa no calculo está errado
  30. 30. O conjunto de dados é dividido sobre os valores dos atributos A entropia de cada valor é calculado. Então, ele é adicionado proporcionalmente, para obter a entropia total do atributo. =(5/14)*entropia do sol) + (4/14* entropia do encoberto) + (5/14) * entropia da chuva) = 0,663
  31. 31. Ganho de informação <ul><li>O Ganho da informação de um determinado atributo é calculado subtraindo a Entropia total, dos dados da entropia de cada atributo. </li></ul><ul><li>Entropia dos dados (S)= 0,940 </li></ul><ul><li>Entropia de Aparência(S) = 0,663 </li></ul><ul><li>Ganho(S, Aparencia) = 0,940 – 0,663 = 0,278 </li></ul>
  32. 32. <ul><li>Já foi calculado o Ganho do atributo aparência, agora é preciso calcular dos outros atributos (temperatura, umidade e vento) </li></ul>
  33. 33. Ganho de informação do Atributo Temperatura Entropia de Temperatura =(4/14)*entropia de quente) + (6/14* entropia de agradável) + (4/14) * entropia de frio) = 0,768 Ganho (S, Temperatura) = 0,940 – 0,768 = 0,172
  34. 34. Ganho de informação do Atributo Umidade Entropia de Umidade =(7/14)*entropia de normal) + (7/14* alta) = 0,788 Ganho (S, Umidade) = 0,940 – 0,788 = 0,152
  35. 35. Ganho de informação do Atributo Vento Entropia de Vento =(6/14)*entropia de forte) + (8/14* entropia de fraco)= 0,906 Ganho (S1, Temperatura) = 0,940 – 0,906 = 0,035
  36. 36. Escolha do atributo com maior Ganho de informação para ser o nó raiz Encoberto Aparência Sol ??? SIM Chuvoso ???
  37. 37. Selecionando apenas as linhas com o valor sol para aparência <ul><li>Repete a interação, porem agora com esta amostra menor </li></ul><ul><li>Entropia(S2) = -(2/5)*log(2/5;2) – (3/5)*log(3/5;2) = 0,971 </li></ul>
  38. 38. Escolha do melhor atributo <ul><li>Ganho (S2, temperatura) = 0,371 </li></ul><ul><li>Ganho (S2, umidade) = 0,971 </li></ul><ul><li>Ganho (S2, vento) = 0,020 </li></ul><ul><li>Maior (ganhos(s2)) = 0,971 </li></ul>
  39. 39. Escolha do atributo com maior Ganho de informação para ser o nó filho de Sol Escolha do Atributo com Maior Ganho Aparência ??? SIM Chuvoso Umidade NÃO Alta Encoberto Sol SIM Normal
  40. 40. Calculando nó que descende chuvoso <ul><li>Agora temos que calcular o nó que descente chuvoso. Para isto, vamos pegar as linhas do banco de dados que a aparência apresenta chuvoso. </li></ul>
  41. 41. Calculo da Entropia dos Dados <ul><li>Probabilidade (S3) = </li></ul><ul><li>P(sim,3 /5) = 0,6 </li></ul><ul><li>P(não, 2/5) = 0,4 </li></ul><ul><li>Entropia(S3) = - 0,6 * log (0,6;2) – log (0,6;2) = 0,0971 </li></ul>
  42. 42. Entropia dos atributos em relação ao atributo-classe <ul><li>Temperatura com Jogo </li></ul>
  43. 43. Entropia dos atributos em relação ao atributo-classe <ul><li>Umidade com Jogo </li></ul>
  44. 44. Entropia dos atributos em relação ao atributo-classe <ul><li>Vento com Jogo </li></ul>
  45. 45. Selecione o atributo com maior ganho de informação <ul><li>O vento é o atributo que maior contribui para a definição do nó. Então será o nó que descenderá chuvoso. </li></ul><ul><li>Como Fraco leva somente a Sim, e Forte leva somente a Não, estes ramos serão nós folhas. </li></ul>
  46. 46. Árvore de Decisão final <ul><li>A verificação ocorre de cima para baixo (top-down), ele verifica primeiro o nó raiz, qual o valor do atributo aparência? Sol , agora ele verifica o nó umidade, qual o valor do atributo umidade? Alta . Respota. Não </li></ul>É possível jogar tênis com Sol, frio, alta, forte. ????
  47. 47. Conclusão do id3 <ul><li>A construção da árvore de decisão de id3, ele calcula o atributo que mais interfere na classificação do atributo. Por isto, no caso do exemplo do slide anterior, ele considera apenas os valores Sol e Alta, ou seja, valores dos atributos Aparência e Umidade. Assim, a classificação se torna muito mais rápida e menos complexa. </li></ul>
  48. 48. Algoritmo C.45 <ul><li>Lida tanto com atributos discretos, como contínuos. </li></ul><ul><li>O algoritmo C.45 ignora valores desconhecidos, ou seja, não utiliza a amostra para os cálculos e entropia e ganho. </li></ul><ul><li>Utiliza a medida de razão de ganho para selecionar o melhor atributo que divide os exemplo. Medida superior ao ganho de informação do id3, gerando árvores menos complexas. </li></ul>
  49. 49. Vantagem do C.45 <ul><li>Apresenta método de pós poda da árvore de decisão gerada, ou seja, realiza um busca de baixo para cima, e transforma em nós folhas aqueles nós que não representam nenhum ganho significativo. </li></ul>
  50. 50. Razão de Ganho do C.45 <ul><li>Razão de ganho = ganho / entropia </li></ul><ul><li>Desta forma, o algoritmo C.45 na primeira etapa calcula o ganho de informação para todos os atributos. Após isso, ele considera apenas os atributos que obtiveram o ganho de informação acima da média, e então escolhe o atributo com a melhor razão de ganho para ser a raiz da árvore. </li></ul>
  51. 51. Razão de ganho <ul><li>Quinlan mostrou que a razão de ganho supera o ganho da informação em termos de precisão de complexidade da árvore gerada. </li></ul>
  52. 52. Métodos de Poda <ul><li>Existem dois tipos de Podas em uma árvore de decisão. A Pré-poda e a Pós-Poda </li></ul><ul><li>A pré-poda é realizada durante o processo da construção da árvore, em que o processo pode parar de dividir o conjunto de elementos e transformar o nó corrente em um nó folha da árvore. </li></ul>
  53. 53. Pós-Poda <ul><li>A Pós-poda é utilizada após a construção da árvore de decisão, removendo ramos completos, onde tudo que está abaixo de um nó interno é excluído e este nó é transformado em folha, representando a classe mais freqüente do ramo. </li></ul>
  54. 54. Poda baseada em Erro (Error based pruning) <ul><li>Utilizado pelo C.45 </li></ul><ul><li>Pós-Poda </li></ul><ul><li>Utiliza média, desvio padrão, distribuição binomial,nível de confiança, estimativa de erro. </li></ul>
  55. 55. Exemplo – Poda baseada em Erro
  56. 56. Métodos de Poda <ul><li>Existem muitos outros métodos de poda, cost complexity pruning, reduced error pruning, critical value pruning, pessimistic prunning, entre outros. </li></ul><ul><li>Tratados de maneira separada no C.45 </li></ul>
  57. 57. O Weka <ul><li>O Weka é uma ferramenta permite a importação de arquivos arff. Já disponibiliza o uso dos algoritmos id3 e C.45, porem, um similar, chamdo j48. Nestes arquivos já devem estar definidos o atributo-classe @relation jogo; Os atributos, @attribute Aparencia {Sol, Encoberto, Chuvoso} como por exemplo; e os dados da amostra, colocados depois da linha @data. Veja o próximo slide para ver um exemplo de um arquivo arff. </li></ul>
  58. 58. Arquivo arff
  59. 59. Demonstração no Weka <ul><li>Na tela inicial escolha o modo Explorer. </li></ul><ul><li>Abra o arquivo jogo.arff no web. No botão open file, na aba Preprocess. </li></ul><ul><li>Aplicando o algoritmo id3, na aba classify, no botão choose. </li></ul><ul><li>Escolha a opção use test set para usar os dados do arquivo para treinamento. </li></ul><ul><li>E clique em Start </li></ul>
  60. 60. Resultado
  61. 61. Tela de resultados <ul><li>Pode-ser observar a construção da árvore de decisão destacado em vermelho </li></ul>
  62. 62. Escolhendo j48 <ul><li>Permite modo gráfico da árvore de decisão.Junto com a visualização da quantidade de amostras em cada classe. </li></ul>
  63. 63. Exercício <ul><li>Terminar a construção da árvore, do Nó que descende Chuvoso seguindo o algoritmo ID3 </li></ul><ul><li>Monte a Regras de classificação da árvore a seguir: </li></ul>
  64. 64. Trem Custo das Viagens Gênero Carro Trem Barato Caro padrão Ônibus Feminino Masculino Transporte 0 1 Ônibus
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×