Mineração de Dados na Base Soybean Large

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    Favorites, Groups & Events

    Mineração de Dados na Base Soybean Large - Presentation Transcript

    1. Mineração de DadosBase Soybean Large
      Alunos:
      Cassius Busemeyer
      Cristiane Luquetta
    2. IB1- Histórico
      As sete pontes de Königsberg:
      Teoria dos grafos;
      Vizinho mais próximos entre outros;
      K-NN (vizinho mais próximo);
      IB1.
    3. IB1 - Características
      Instance Based Learning;
      Pouco esforço computacional no treino;
      Compara-se ao J.48 (autores do algoritmo);
      Usa distância euclidiana para calcular similaridade.
    4. Como funciona
      Compara exemplos do treino com 1 (um) exemplo da base e classifica-o escolhendo a classe da instância com maior grau de similaridade;
      Hãã: Pega o exemplo mais parecido do conjunto de treino.
    5. IB1 - Algoritmo
      PARA CADA x pertencente aos dados de treino FAÇA
      1 PARA CADA y pertencente a base FAÇA
      Sim [y] = similaridade (x,y)
      2 ymax – alguns y pertencem a base com maximo sim[y]
      3 SE class(x) = class (ymax)
      ENTÃO classificação – correta
      SENÃO classificação – incorreta
      4 Classe – Classe U {x}
    6. Deriva da Teoria dos Jogos de John Von Neumann (1926);
      Albert Tucker cria o dilema do prisioneiro (1950);
      John Nash mostra que existe equilíbrio entre jogos não-cooperativos (1951).
      Minimax - Histórico
    7. Características
      • São explorados os lances possíveis para cada jogada até o fim do jogo ou profundidade da árvore (n jogadas). E escolhido o melhor lance possível para o jogador;
      Como funciona
      Hãã: cria todas as jogadas possíveis de um jogo até seu fim (ou até onde a máquina ou tempo permitir) e escolhe a melhor.
    8. MiniMax - Algoritmo
      1. VERIFIQUE as próximas jogadas diretamente atingíveis a partir do tabuleiro corrente
      SE a altura máxima de busca não tiver sido alcançada;
      SENÃO
      RETORNE a estimativa (heurística) do tabuleiro corrente;
      2. ENTÃO caso uma se trate de posição de vitória, dê a ela a mais alta estimativa possível e retorne este valor;
      3. SENÃO considere todos os movimentos que o oponente possa fazer em seguida.
      RETORNE a pior jogada /*do oponente*/ contra a máquina.
      ATIVE recursivamente a expansão de estados;
      4. ESCOLHA a jogada com a mais alta estimativa.
    9. Voting Feature Intervals
      HISTÓRICO
      É comparado com métodos estatísticos, principalmente NBC (Naive Bayes Classifier);
      CARACTERÍSTICAS
      Algoritmo funciona de modos diferentes para valores numéricos e nominais;
    10. Como funciona
      • Cria um vetor descrevendo valores de um atributo e dá notas para cada valor de acordo com a classe, discretiza os dados, a classe mais votada ganha o atributo;
      Hãã: cada valor de atributo de uma instância vota numa classe e é eleita a mais votada.
    11. Algoritmo
      LEIA a base de treino
      INÍCIO
      PARA CADA característica f
      PARA CADA classe c
      End_point = end_points[f] une-se com find_end_points (training Set, f,c); tipo (end_points[f]);
      SEf é linear
      Cada par de distintos pontos consecutivos em end_points[f] forma escala intervalar
      SENÃO /* é nominal */
      Cada ponto distinto em end_points forma um ponto de intervalo
       
      PARA CADA intervalo i na dimensão de atributos f
      PARA CADA Classe c
      Interval_class_count[f,i,c]= 0
      Count_instances(f,conjunto de treino);
      PARA CADA intervalo i nos atributos
      PARA CADA classe c
      Interval_class_vote[f,i,c]=interval_class_count[f,i,c]/class_count[c]
      Normalize interval_class_vote[f,i,c];
      /*tal que somatório de intervalo_class_vote[f,i,c]=1 */
      FIM.
       
      Contagem de instâncias (f,conjunto de treino);
      INÍCIO
      PARA CADA instância no conjunto de treino
      SEef é conhecido
      I = encontre intervalos (f,ef)
      Ec= classe da instância e
       
      SEi é um ponto de intervalo
      SEef= limite mais baixo de i
      Interval_class_count[f,i,ec]+=1
      SENÃO /* é um range interval*/
      SEef= limite mais baixo de i
      Interval_class_count[f,i-1,ec]+=0.5
      Interval_class_count[f,I,ec]+=0.5
      SENÃO /* e entra no i*/
      Interval_class_count[f,i,ec]+=1
      FIM
       
      Classificação do algoritmo
      INÍCIO
      PARA CADA classe c
      Vote[c]=0
       
      PARA CADA atributo f
      PARA CADA classe c
      Feature_vote[f,c] = 0
      SEef é um valor conhecido
      I= encontre intervalos (f,ef)
       
      SEI é um ponto de intervalo
      SEef= limite mais baixo de i
      PARA CADA classe c
      Feature_vote[f,c] = intervals_class_vote[f,I,c]
      SENÃO /*É uma escala intervalar*/
      PARA CADA classe c
      Feature_vote[f,c] = interval_class_vote[f,i-1,c] + interval_class_vote[f,I,c]/2
      SENÃO /*entra no intervalo i*/
      PARA CADA classe c
      Feature_vote[f,c] = interval_class_vote[f,I,c]
       
      PARA CADA classe c
      Vote[c] = vote[c] + feature_vote[f,c];
       
      RETORNE a classe c com maior vote[c]
      FIM
    12. Base Soybean
      Base sobre doenças da soja.
      Originada de um trabalho Michalski e Chilausky;
      Repositório disponibiliza duas versões:
      340 instâncias e 307 instâncias;
      Alguns autores dizem que Michalski e Chilausky não disponibilizaram os dados corretamente e não sabem como eles chegaram aos resultados divulgados;
      Outros autores dizem que a base disponibilizada não é a mesma do trabalho original.
    13. Base- Soybean Large
      Variação dos tipos de doenças da soja.
      Causador:
      Fungo (mais temidas);
      Vírus;
      Nematóides;
      Fitoplasma;
      Protozoários;
      Plantas parasitárias;
      Agentes variados (poluição, temperatura);
      Por região geográfica:
      Existem doenças particulares do Brasil, EUA.
      Etc...
    14. KDD – Limpeza e transformação dos dados
    15. KDD- Seleção dos algoritmos
      IB1;
      Comparado com J.48.
      MiniMax;
      V.F.I;
      Comparado c/ NaiveBayes.
    16. Resultados
      Todos os resultados passaram de 75% na fase inicial (dito como suficiente – Witten e Frank, 2005).
    17. Resultados
    18. Considerações Finais
      Dificuldades:
      Entendimento da base;
      Pouca literatura ou literatura com informações divergentes sobre os algoritmos;
      Pesquisadores não responderam/etapa de validação;
      Próximos trabalhos:
      Melhor avaliação e comparação de resultados.
    19. Obrigado!
    SlideShare Zeitgeist 2009

    + cassius_gbcassius_gb Nominate

    custom

    191 views, 0 favs, 0 embeds more stats

    Aplicação de técnicas de mineração de dados na more

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 191
      • 191 on SlideShare
      • 0 from embeds
    • Comments 0
    • Favorites 0
    • Downloads 0
    Most viewed embeds

    more

    All embeds

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories