Seleção de Features para Ranking

  • 248 views
Uploaded on

 

More in: Business , Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
248
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Seleção de Features para Ranking Cristiano Nascimento <crist@dcc.ufmg.br> 15 de dezembro de 2009 Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 2. Contexto Ranking em máquinas de busca Recuperar documentos relevantes para uma consulta Colocar documentos relevantes no topo do ranking Abordagens Clássicas utilizam poucas evidências para fazer ranking Tendência atual de pesquisa Utilização de várias evidências Aprendizagem de máquina Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 3. Aprendizagem de Máquina para Ranking Por quê? Disponibilidade de várias evidências Difícil construir funções manualmente ou por meios determinísticos Espaço de busca muito grande para métodos exaustivos Exemplo: conjunto de evidências (funções): f, g, h, l operações: +,-,/,* possíveis combinações: (f+g)*(h+l), (h*g*l)/f, ... Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 4. O problema Aprendizagem de Máquina: utilização de um conjunto de treinamento geração do conjunto de evidências para cada documento Como reduzir o esforço e os custos computacionais? Neste trabalho abordaremos a redução do número de features utilizadas As métricas utilizadas em classicação de texto também podem ser aplicadas à tarefa de ranking? É possível utilizar métricas que considerem informações do problema de ranking? Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 5. Base de Dados: LETOR 3.0 Benchmark para Learning to Rank: Possuí diversas coleções (em Gov e OHSUMED) Utilizada em diversos trabalhos Resultados de baselines disponíveis na Web Métricas de avaliação utilizadas amplamente Disponível em: http://research.microsoft.com/en- us/um/beijing/projects/letor Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 6. Algumas Features da LETOR 3.0 Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 7. Exemplo de entradas da LETOR 3.0 Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 8. Seleção de Features Métricas utilizadas em classicação: InfoGain Chi-Square Métricas de avaliação de ranking: Mean Average Precision (MAP) NDCG Funcionamento: Faça um ranking de acordo com o valor da métrica Escolha as top-k features Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 9. MAP x # de Features Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 10. NDCG x # de Features Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 11. Comentários e Conclusões No presente trabalho: Exploramos a seleção de features para ranking Métricas de classicação = poucas evidências Métrica baseada em NDCG obteve a melhor ecácia É possível reduzir o esforço sem perder a qualidade Trabalhos Futuros: Implementar seleção aleatória de evidências Utilizar outras técnicas de seleção de evidências Utilizar outras bases de dados Utilizar outros algoritmos de L2R Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 12. Obrigado! =) Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking