Seleção de Features para Ranking
           Cristiano Nascimento <crist@dcc.ufmg.br>


                           15 de de...
Contexto


      Ranking em máquinas de busca
             Recuperar documentos relevantes para uma consulta
             ...
Aprendizagem de Máquina para Ranking

      Por quê?
             Disponibilidade de várias evidências
             Difíci...
O problema

  Aprendizagem de Máquina:
      utilização de um conjunto de treinamento
      geração do conjunto de evidênc...
Base de Dados: LETOR 3.0


      Benchmark para Learning to Rank:
            Possuí diversas coleções (em Gov e OHSUMED)
...
Algumas Features da LETOR 3.0




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Exemplo de entradas da LETOR 3.0




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Seleção de Features

       Métricas utilizadas em classicação:
             InfoGain
             Chi-Square
       Métri...
MAP x # de Features




     Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
NDCG x # de Features




     Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Comentários e Conclusões

   No presente trabalho:
       Exploramos a seleção de features para ranking
       Métricas de...
Obrigado! =)




Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Upcoming SlideShare
Loading in …5
×

Seleção de Features para Ranking

417 views

Published on

Published in: Business, Technology
  • Be the first to comment

  • Be the first to like this

Seleção de Features para Ranking

  1. 1. Seleção de Features para Ranking Cristiano Nascimento <crist@dcc.ufmg.br> 15 de dezembro de 2009 Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  2. 2. Contexto Ranking em máquinas de busca Recuperar documentos relevantes para uma consulta Colocar documentos relevantes no topo do ranking Abordagens Clássicas utilizam poucas evidências para fazer ranking Tendência atual de pesquisa Utilização de várias evidências Aprendizagem de máquina Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  3. 3. Aprendizagem de Máquina para Ranking Por quê? Disponibilidade de várias evidências Difícil construir funções manualmente ou por meios determinísticos Espaço de busca muito grande para métodos exaustivos Exemplo: conjunto de evidências (funções): f, g, h, l operações: +,-,/,* possíveis combinações: (f+g)*(h+l), (h*g*l)/f, ... Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  4. 4. O problema Aprendizagem de Máquina: utilização de um conjunto de treinamento geração do conjunto de evidências para cada documento Como reduzir o esforço e os custos computacionais? Neste trabalho abordaremos a redução do número de features utilizadas As métricas utilizadas em classicação de texto também podem ser aplicadas à tarefa de ranking? É possível utilizar métricas que considerem informações do problema de ranking? Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  5. 5. Base de Dados: LETOR 3.0 Benchmark para Learning to Rank: Possuí diversas coleções (em Gov e OHSUMED) Utilizada em diversos trabalhos Resultados de baselines disponíveis na Web Métricas de avaliação utilizadas amplamente Disponível em: http://research.microsoft.com/en- us/um/beijing/projects/letor Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  6. 6. Algumas Features da LETOR 3.0 Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  7. 7. Exemplo de entradas da LETOR 3.0 Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  8. 8. Seleção de Features Métricas utilizadas em classicação: InfoGain Chi-Square Métricas de avaliação de ranking: Mean Average Precision (MAP) NDCG Funcionamento: Faça um ranking de acordo com o valor da métrica Escolha as top-k features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  9. 9. MAP x # de Features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  10. 10. NDCG x # de Features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  11. 11. Comentários e Conclusões No presente trabalho: Exploramos a seleção de features para ranking Métricas de classicação = poucas evidências Métrica baseada em NDCG obteve a melhor ecácia É possível reduzir o esforço sem perder a qualidade Trabalhos Futuros: Implementar seleção aleatória de evidências Utilizar outras técnicas de seleção de evidências Utilizar outras bases de dados Utilizar outros algoritmos de L2R Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  12. 12. Obrigado! =) Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking

×