SlideShare a Scribd company logo
1 of 35
Centro de Informática – Universidade Federal da Paraíba




              Ordenação e Recuperação de Dados
               Aula 6: Classificação e Ponderação




                Prof. Alexandre Duarte - http://alexandre.ci.ufpb.br
                                                                       1   1
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             2
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             3
Dicionário com uma string única




                                  4
Codificando as diferenças




                            5
Codificação de tamanho variável

  Dedicar 1 bit (mais significativo) para ser o bit de continuação
   c.
  Se o valor couber em 7 bits, codifique-o e set o bit c = 1.
  Senão: set c = 0, codifique os 7 bits mais significativos e use
   bytes adicionais para codificar o restante dos bits segundo o
   mesmo algoritmo.




                                                                 6
Compressão da Reuters
   Estrutura de dados                          Tamanho em MB
   dicionário, estrutura fixa                            11.2
   dictionário, ponteiroes para string                    7.6
   ∼, com blocos, k = 4                                   7.1
   ∼, com blocos & codificação de prefixo                 5.9
   coleção (texto, xml etc)                           3600.0
   coleção (texto)                                      960.0
   matriz de incidência T/D                          40,000.0
   postings, sem compressão (32-bits)                   400.0
   postings, sem compressão (20 bits)                   250.0
   postings, codificação de tamanho variável            116.0



                                                                7
Aula de hoje

  Classificando resultados de buscas: porque isto é importante
   (em constrate a simplesmente apresentar os resultados de
   forma não-ordenada como ocorre com a busca booleana)
  Frequência de Termos: Este é o ingrediente chave na
   classificação.
  Classificação Tf-idf: esquema de classificação mais conhecido




                                                               8
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             9
Recuperação classificada
   Até agora todas as nossas consultas foram Booleanas.
       O documento atende a consulta ou não
   Isso é bom para usuários especialistas com entendimento preciso de suas
    necessidades e do conteúdo da coleção de documentos.
   Também é bom para aplicações: Aplicações podem consumir facilmente
    1000s de resultados.
   Mas não é interessante para a maioria dos usuários
   A maioria dos usuários não é capaz de escrever consultas booleanas . . .
       . . . podem até ser, mas eles consideram ser algo muito trabalhoso.
   A maioria dos usuários não quer ter que processar 1000s de resultados
    manualmente.
   Isto é particularmente verdadeiro para pesquisas na web.

                                                                               10
Problemas da pesquisa Booleana: 8 ou 80

   Consultas booleanas geralmente resultam em um número
    muito pequeno de resultados (=0) ou em um número muito
    grande de resultados (1000s).
   Consulta 1 (conjunção booleana): [standard user dlink 650]
      → 200,000 hits
   Consulta 2 (conjunção booleana): [standard user dlink 650 no
    card found]
      → 0 hits
   Utilizar pesquisas booleanas requer habilidade para produzir
    consultas que recuperem um número gerenciavel de
    resultados.
                                                               11
8 ou 80: Isso não é problema para a consulta
com classificação


   Com classificação, um grande número de resultados não é um
    problema para o usuário.
   Basta mostrar apenas os 10 melhores resultados, por
    exemplo
   Não sobrecarregar o usuário
   Premissa: o algorítmo de classificação funciona: Resultados
    mais relevantes têm melhor classificação que resultados
    menos relevantes.


                                                             12
Scoring como base da recuperação com
classificação


  Queremos atribuir uma melhor classificação aos documentos
   que são mais em relação aos documentos que são menos
   relevantes.
  Como podemos fazer essa classificação dos documentos de
   uma coleção em relação a uma determinada consulta?
  Atribuir um score a cada par consulta-documento.
  Este score mede o quão bem um determinado documento
   atende uma determinada consulta.


                                                          13
Score de pares Consulta-documento

    Como calculamos o valor de um par consulta-documento?
    Comecemos com consultas de um único termo.
    Se o termo não aparece no documento: o score deve ser 0.
    Quanto mais frequente o termo no documento maior o score
    Veremos algumas alternativas para fazer essa contabilização.




                                                               14
Tentativa 1: Coeficiente de Jaccard
   Uma medida comum para a sobreposição de dois conjuntos
   Sejam A e B dois conjuntos
   O coeficiente de Jaccard para A e B vale:




   JACCARD (A, A) = 1
   JACCARD (A, B) = 0 if A ∩ B = 0
   A e B não precisam ter o mesmo tamanho.
   Sempre atribui um valor entre 0 e 1.

                                                             15
Coeficiente de Jaccard: Exemplo

   Qual é o score consulta-documento que o Coeficiente de
    Jaccard retorna para:
      Consulta: “ides of March”
      Documento “Caesar died in March”
      JACCARD(c, d) = 1/6




                                                             16
Problemas com o coeficiente de Jaccard

  Ele não considera a frequência do termo (quantas ocorrências
   o termo tem).
  Termos raros são mais informativos que termos frequentes.
   Jaccard não considera essa informação.
  Precisamos de mecanismos mais sofisticados!




                                                            17
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             18
Matriz de incidências Termo-Documento
            Anthony Julius         The     Hamlet       Othello       Macbeth
            and       Caesar       Tempest                            ...
            Cleopatra
ANTHONY            1           1         0          0             0         1
BRUTUS             1           1         0          1             0         0
CAESAR             1           1         0          1             1         1
CALPURNIA          0           1         0          0             0         0
CLEOPATRA          1           0         0          0             0         0
MERCY              1           0         1          1             1         1
WORSER             1           0         1          1             1         0
...

  Cada documento é representado por um vetor binário ∈ {0, 1}|V|.


                                                                           19
Matriz de incidências Termo-Documento
            Anthony Julius      The     Hamlet       Othello       Macbeth
            and       Caesar    Tempest                            ...
            Cleopatra
ANTHONY          157       73         0          0             0         1
BRUTUS             4      157         0          2             0         0
CAESAR           232      227         0          2             1         0
CALPURNIA          0       10         0          0             0         0
CLEOPATRA         57        0         0          0             0         0
MERCY              2        0         3          8             5         8
WORSER             2        0         1          1             1         5
...

Agora cada documento é representado por um vetor de contagem
∈ N|V|.

                                                                        20
Modelo da sacola de palavras

  Nós não consideramos a ordem das palavras em um
   documento.
  John is quicker than Mary e Mary is quicker than John são
   representadas da mesma forma.
  Isto é chamado de modelo da sacola de palavras.
  De certa forma estamos dando um passo para trás: índices
   posicionais são capazes de distinguir entre estes dois
   documentos.
  Veremos como recuperar a informação posicional ainda
   neste curso.
  Por enquanto: modelo da sacola de palavras
                                                               21
Frequência de termos tf
  A frequencia de um termo t em um documento d, tft,d é
   definida como o número de vezes que t ocorre em d.
  Queremos utilizar o tf no cálculo dos scores de pares
   consulta-documento.
  Como fazer isso?
  Não podemos utilizar indiscriminadamente o tf pois:
     Um documento com tf = 10 ocorrências de um
       determinado termo é mais relevante que um outro
       documento com tf = 1 ocorrências do mesmo termo.
     Mas não 10 vezes mais relevante.
     A relevância não cresce de forma proporcional a
       frequência de termos.
                                                           22
Ponderação de frequências por Log
   O peso da frequência de um termo t em um documento d é
    definido como



   tft,d → wt,d :
    0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.
   O score de um par consulta-documento pode então ser
    calculado pela soma dos pesos dos termos t que estão tanto
    na consulta quanto no documento
   tf-matching-score(q, d) = t∈q∩d (1 + log tft,d )
   O score será 0 se nenhum dos termos da consulta estiver
    presente no documento.
                                                             23
Exercícios

   Calcular o Coeficiente de Jaccard e o Score tf para os
    seguintes pares de consultas-documentos.
   c: [information on cars] d: “all you’ve ever wanted to know
    about cars”
   c: [information on cars] d: “information on trucks,
    information on planes, information on trains”
   c: [red cars and red trucks] d: “cops stop red cars more
    often”




                                                                  24
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             25
Frequêcia no documento vs. frequência na
coleção

  Além da frequência do termo em um documento. . .
  . . .queremos utilizar também a frequência do termo na
   coleção para ponderação e classificação.




                                                            26
Peso desejado para termos raros

  Termos raros são mais informativos que termos frequentes.
  Considere um termo na consulta que é raro na coleção
   (e.g., ARACHNOCENTRIC).
  Um documento que contém este termo tem uma
   probabilidade muito grande de ser relevante para a
   consulta.
  → Queremos atribuir pesos maiores para termos raros.




                                                               27
Peso desejado para termos raros
  Termos frequêntes são menos informativos que termos
   raros.
  Considere um termo na consulta que é frequente na
   coleção (e.g., GOOD, INCREASE, LINE).
  Um documento contendo estes termos tem mais chances
   de ser relevante que um documento que não os contém . . .
  . . . porém, palavras como GOOD, INCREASE e LINE não são
   bons indicadores de relevância.
  →Queremos pesos positivos para termos frequentes como
   GOOD, INCREASE e LINE, . . .
  . . . mas menores que os pesos de termos raros.
                                                               28
Frequência em documentos

  Queremos pesos maiores para termos raros como
   ARACHNOCENTRIC.
  Queremos pesos menores (positivos) para termos
   frequêntes como GOOD, INCREASE e LINE.
  Usaremos a frequência em documentos para considerar
   este aspecto no cálculo dos scores.
  A frequência em documentos é o número de documentos
   na coleção nos quais o termo ocorre.




                                                         29
Ponderação idf
  dft é a frequência em documentos, o número de documentos nos quais
   t ocorre.
  dft é uma medida inversa de quão informativo é o termo t.
  Definimos o peso idf de um termo t como segue:



   (N é o número de documentos na coleção.)
  idft é uma medida de quão informativo um determinado termo é.
  Utilizamos [log N/dft ] ao invés [N/dft ] para “suavizar” o efeito do idf
  Note que utilizamos uma transformação logarítmica tanto para a
   frequêcia do termo quanto para a frequência em documento.



                                                                               30
Exemplos para o idf
   Calcule o idft usando a formula

    termo                     dft     idft
    calpurnia                  1        6
    animal                   100        4
    sunday                 1000         3
    fly                   10,000        2
    under                100,000        1
    the                1,000,000        0




                                             31
Efeitos do idf na classificação

   O idf afeta a classificação de documentos para consultas
    com pelo menos dois termo.
   Por exemplo, para consultas com “arachnocentric line”, a
    ponderação do idf aumenta o peso relativo de
    ARACHNOCENTRIC e diminui o peso relativo de LINE.
   O idf tem pouco efeito na classificação de consultas com
    um único termo.




                                                               32
Frequência na coleção vs. Frequência em
documento
   palavra           Frequência na   Frequência em documento
                           coleção
   INSURANCE                10440                       3997
   TRY                      10422                       8760
   Frequência na coleção de t: número de termos t na coleção
   Frequência em documento de t: número de documentos
    onde t ocorre
   Qual palavra representa um melhor termo de busca (e,
    portanto, deve ter um maior peso)?
   Este exemplo sugere que df (e idf) é melhor para
    ponderação do cf (e “icf”).

                                                               33
Ponderação tf-idf
   O tf-idf de um termo é o produto do seus pesos tf e idf.



   Este é o esquema de ponderação mais conhecido na área
    de recuperação da informação
   Note: o “-” em tf-idf é um hífen e não um sinal de menos!
   Nomes alternativos: tf.idf, tf x idf




                                                                34
Sumário: tf-idf

   Atribua um peso tf-idf para cada termo t em cada
    documento d:

   O peso tf-idf . . .
       . . . aumenta com o número de ocorrências do termo em um
        documento. (frequência de termo)
       . . . aumenta com a raridade do termo na coleção. (inverso da
        frequência em documento)




                                                                    35

More Related Content

Similar to Classificação Tf-idf: Frequência de Termos e Ponderação para Recuperação de Informação

Modelo de Espaço Vetorial
Modelo de Espaço VetorialModelo de Espaço Vetorial
Modelo de Espaço VetorialAlexandre Duarte
 
1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)Eric Novais SIlva
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cdUNIP - Universidade Paulista
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
 
2008 helio2anoaula01
2008 helio2anoaula012008 helio2anoaula01
2008 helio2anoaula01Evandro Alves
 
Avaliação de Sistemas de Recuperação da Informação
Avaliação de Sistemas de Recuperação da InformaçãoAvaliação de Sistemas de Recuperação da Informação
Avaliação de Sistemas de Recuperação da InformaçãoAlexandre Duarte
 
Algoritmos_de_Ordenacao.ppt
Algoritmos_de_Ordenacao.pptAlgoritmos_de_Ordenacao.ppt
Algoritmos_de_Ordenacao.pptjoaquinaCouve
 
ferramentas_da_qualidade-apresentação1.ppt
ferramentas_da_qualidade-apresentação1.pptferramentas_da_qualidade-apresentação1.ppt
ferramentas_da_qualidade-apresentação1.pptMarcosFernandoVieira1
 
Cálculo Numérico
Cálculo NuméricoCálculo Numérico
Cálculo NuméricoSandro Lima
 
Banco de dados_-_volume_4_v10
Banco de dados_-_volume_4_v10Banco de dados_-_volume_4_v10
Banco de dados_-_volume_4_v10CLEAN LOURENÇO
 
Introdução à analise e complexidade de algoritmos
Introdução à analise e complexidade de algoritmosIntrodução à analise e complexidade de algoritmos
Introdução à analise e complexidade de algoritmosNécio de Lima Veras
 
PHP Conference 2017: Como melhorar seu código com Laravel Collections
PHP Conference 2017: Como melhorar seu código com Laravel CollectionsPHP Conference 2017: Como melhorar seu código com Laravel Collections
PHP Conference 2017: Como melhorar seu código com Laravel CollectionsAryel Tupinambá
 

Similar to Classificação Tf-idf: Frequência de Termos e Ponderação para Recuperação de Informação (19)

Modelo de Espaço Vetorial
Modelo de Espaço VetorialModelo de Espaço Vetorial
Modelo de Espaço Vetorial
 
Arq orgcom (1)
Arq orgcom (1)Arq orgcom (1)
Arq orgcom (1)
 
ArqOrgCom.ppt
ArqOrgCom.pptArqOrgCom.ppt
ArqOrgCom.ppt
 
Banco de Dados Relacional Estendido
Banco de Dados Relacional EstendidoBanco de Dados Relacional Estendido
Banco de Dados Relacional Estendido
 
1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd
 
Tabela de conversao
Tabela de conversaoTabela de conversao
Tabela de conversao
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
 
2008 helio2anoaula01
2008 helio2anoaula012008 helio2anoaula01
2008 helio2anoaula01
 
Aula 1
Aula 1Aula 1
Aula 1
 
Avaliação de Sistemas de Recuperação da Informação
Avaliação de Sistemas de Recuperação da InformaçãoAvaliação de Sistemas de Recuperação da Informação
Avaliação de Sistemas de Recuperação da Informação
 
Algoritmos_de_Ordenacao.ppt
Algoritmos_de_Ordenacao.pptAlgoritmos_de_Ordenacao.ppt
Algoritmos_de_Ordenacao.ppt
 
ferramentas_da_qualidade-apresentação1.ppt
ferramentas_da_qualidade-apresentação1.pptferramentas_da_qualidade-apresentação1.ppt
ferramentas_da_qualidade-apresentação1.ppt
 
44735d01
44735d0144735d01
44735d01
 
Cálculo Numérico
Cálculo NuméricoCálculo Numérico
Cálculo Numérico
 
Banco de dados_-_volume_4_v10
Banco de dados_-_volume_4_v10Banco de dados_-_volume_4_v10
Banco de dados_-_volume_4_v10
 
Notação científica
Notação científicaNotação científica
Notação científica
 
Introdução à analise e complexidade de algoritmos
Introdução à analise e complexidade de algoritmosIntrodução à analise e complexidade de algoritmos
Introdução à analise e complexidade de algoritmos
 
PHP Conference 2017: Como melhorar seu código com Laravel Collections
PHP Conference 2017: Como melhorar seu código com Laravel CollectionsPHP Conference 2017: Como melhorar seu código com Laravel Collections
PHP Conference 2017: Como melhorar seu código com Laravel Collections
 

More from Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e ClassificaçãoAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 

More from Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 

Recently uploaded

Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinhaMary Alvarenga
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesMary Alvarenga
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditaduraAdryan Luiz
 
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdfO Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdfPastor Robson Colaço
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfHenrique Pontes
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdfJorge Andrade
 
ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024Jeanoliveira597523
 
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptxApostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptxIsabelaRafael2
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresLilianPiola
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxLuizHenriquedeAlmeid6
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADOcarolinacespedes23
 
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxIsabellaGomes58
 
Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.keislayyovera123
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresaulasgege
 
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologiaAula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologiaaulasgege
 
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdfcartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdfIedaGoethe
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalJacqueline Cerqueira
 

Recently uploaded (20)

Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinha
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das Mães
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditadura
 
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdfO Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
 
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf
 
Em tempo de Quaresma .
Em tempo de Quaresma                            .Em tempo de Quaresma                            .
Em tempo de Quaresma .
 
ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024
 
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptxApostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
 
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
 
Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autores
 
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologiaAula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
 
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdfcartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem Organizacional
 

Classificação Tf-idf: Frequência de Termos e Ponderação para Recuperação de Informação

  • 1. Centro de Informática – Universidade Federal da Paraíba Ordenação e Recuperação de Dados Aula 6: Classificação e Ponderação Prof. Alexandre Duarte - http://alexandre.ci.ufpb.br 1 1
  • 2. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 2
  • 3. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 3
  • 4. Dicionário com uma string única 4
  • 6. Codificação de tamanho variável  Dedicar 1 bit (mais significativo) para ser o bit de continuação c.  Se o valor couber em 7 bits, codifique-o e set o bit c = 1.  Senão: set c = 0, codifique os 7 bits mais significativos e use bytes adicionais para codificar o restante dos bits segundo o mesmo algoritmo. 6
  • 7. Compressão da Reuters Estrutura de dados Tamanho em MB dicionário, estrutura fixa 11.2 dictionário, ponteiroes para string 7.6 ∼, com blocos, k = 4 7.1 ∼, com blocos & codificação de prefixo 5.9 coleção (texto, xml etc) 3600.0 coleção (texto) 960.0 matriz de incidência T/D 40,000.0 postings, sem compressão (32-bits) 400.0 postings, sem compressão (20 bits) 250.0 postings, codificação de tamanho variável 116.0 7
  • 8. Aula de hoje  Classificando resultados de buscas: porque isto é importante (em constrate a simplesmente apresentar os resultados de forma não-ordenada como ocorre com a busca booleana)  Frequência de Termos: Este é o ingrediente chave na classificação.  Classificação Tf-idf: esquema de classificação mais conhecido 8
  • 9. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 9
  • 10. Recuperação classificada  Até agora todas as nossas consultas foram Booleanas.  O documento atende a consulta ou não  Isso é bom para usuários especialistas com entendimento preciso de suas necessidades e do conteúdo da coleção de documentos.  Também é bom para aplicações: Aplicações podem consumir facilmente 1000s de resultados.  Mas não é interessante para a maioria dos usuários  A maioria dos usuários não é capaz de escrever consultas booleanas . . .  . . . podem até ser, mas eles consideram ser algo muito trabalhoso.  A maioria dos usuários não quer ter que processar 1000s de resultados manualmente.  Isto é particularmente verdadeiro para pesquisas na web. 10
  • 11. Problemas da pesquisa Booleana: 8 ou 80  Consultas booleanas geralmente resultam em um número muito pequeno de resultados (=0) ou em um número muito grande de resultados (1000s).  Consulta 1 (conjunção booleana): [standard user dlink 650]  → 200,000 hits  Consulta 2 (conjunção booleana): [standard user dlink 650 no card found]  → 0 hits  Utilizar pesquisas booleanas requer habilidade para produzir consultas que recuperem um número gerenciavel de resultados. 11
  • 12. 8 ou 80: Isso não é problema para a consulta com classificação  Com classificação, um grande número de resultados não é um problema para o usuário.  Basta mostrar apenas os 10 melhores resultados, por exemplo  Não sobrecarregar o usuário  Premissa: o algorítmo de classificação funciona: Resultados mais relevantes têm melhor classificação que resultados menos relevantes. 12
  • 13. Scoring como base da recuperação com classificação  Queremos atribuir uma melhor classificação aos documentos que são mais em relação aos documentos que são menos relevantes.  Como podemos fazer essa classificação dos documentos de uma coleção em relação a uma determinada consulta?  Atribuir um score a cada par consulta-documento.  Este score mede o quão bem um determinado documento atende uma determinada consulta. 13
  • 14. Score de pares Consulta-documento  Como calculamos o valor de um par consulta-documento?  Comecemos com consultas de um único termo.  Se o termo não aparece no documento: o score deve ser 0.  Quanto mais frequente o termo no documento maior o score  Veremos algumas alternativas para fazer essa contabilização. 14
  • 15. Tentativa 1: Coeficiente de Jaccard  Uma medida comum para a sobreposição de dois conjuntos  Sejam A e B dois conjuntos  O coeficiente de Jaccard para A e B vale:  JACCARD (A, A) = 1  JACCARD (A, B) = 0 if A ∩ B = 0  A e B não precisam ter o mesmo tamanho.  Sempre atribui um valor entre 0 e 1. 15
  • 16. Coeficiente de Jaccard: Exemplo  Qual é o score consulta-documento que o Coeficiente de Jaccard retorna para:  Consulta: “ides of March”  Documento “Caesar died in March”  JACCARD(c, d) = 1/6 16
  • 17. Problemas com o coeficiente de Jaccard  Ele não considera a frequência do termo (quantas ocorrências o termo tem).  Termos raros são mais informativos que termos frequentes. Jaccard não considera essa informação.  Precisamos de mecanismos mais sofisticados! 17
  • 18. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 18
  • 19. Matriz de incidências Termo-Documento Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... Cleopatra ANTHONY 1 1 0 0 0 1 BRUTUS 1 1 0 1 0 0 CAESAR 1 1 0 1 1 1 CALPURNIA 0 1 0 0 0 0 CLEOPATRA 1 0 0 0 0 0 MERCY 1 0 1 1 1 1 WORSER 1 0 1 1 1 0 ... Cada documento é representado por um vetor binário ∈ {0, 1}|V|. 19
  • 20. Matriz de incidências Termo-Documento Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... Cleopatra ANTHONY 157 73 0 0 0 1 BRUTUS 4 157 0 2 0 0 CAESAR 232 227 0 2 1 0 CALPURNIA 0 10 0 0 0 0 CLEOPATRA 57 0 0 0 0 0 MERCY 2 0 3 8 5 8 WORSER 2 0 1 1 1 5 ... Agora cada documento é representado por um vetor de contagem ∈ N|V|. 20
  • 21. Modelo da sacola de palavras  Nós não consideramos a ordem das palavras em um documento.  John is quicker than Mary e Mary is quicker than John são representadas da mesma forma.  Isto é chamado de modelo da sacola de palavras.  De certa forma estamos dando um passo para trás: índices posicionais são capazes de distinguir entre estes dois documentos.  Veremos como recuperar a informação posicional ainda neste curso.  Por enquanto: modelo da sacola de palavras 21
  • 22. Frequência de termos tf  A frequencia de um termo t em um documento d, tft,d é definida como o número de vezes que t ocorre em d.  Queremos utilizar o tf no cálculo dos scores de pares consulta-documento.  Como fazer isso?  Não podemos utilizar indiscriminadamente o tf pois:  Um documento com tf = 10 ocorrências de um determinado termo é mais relevante que um outro documento com tf = 1 ocorrências do mesmo termo.  Mas não 10 vezes mais relevante.  A relevância não cresce de forma proporcional a frequência de termos. 22
  • 23. Ponderação de frequências por Log  O peso da frequência de um termo t em um documento d é definido como  tft,d → wt,d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.  O score de um par consulta-documento pode então ser calculado pela soma dos pesos dos termos t que estão tanto na consulta quanto no documento  tf-matching-score(q, d) = t∈q∩d (1 + log tft,d )  O score será 0 se nenhum dos termos da consulta estiver presente no documento. 23
  • 24. Exercícios  Calcular o Coeficiente de Jaccard e o Score tf para os seguintes pares de consultas-documentos.  c: [information on cars] d: “all you’ve ever wanted to know about cars”  c: [information on cars] d: “information on trucks, information on planes, information on trains”  c: [red cars and red trucks] d: “cops stop red cars more often” 24
  • 25. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 25
  • 26. Frequêcia no documento vs. frequência na coleção  Além da frequência do termo em um documento. . .  . . .queremos utilizar também a frequência do termo na coleção para ponderação e classificação. 26
  • 27. Peso desejado para termos raros  Termos raros são mais informativos que termos frequentes.  Considere um termo na consulta que é raro na coleção (e.g., ARACHNOCENTRIC).  Um documento que contém este termo tem uma probabilidade muito grande de ser relevante para a consulta.  → Queremos atribuir pesos maiores para termos raros. 27
  • 28. Peso desejado para termos raros  Termos frequêntes são menos informativos que termos raros.  Considere um termo na consulta que é frequente na coleção (e.g., GOOD, INCREASE, LINE).  Um documento contendo estes termos tem mais chances de ser relevante que um documento que não os contém . . .  . . . porém, palavras como GOOD, INCREASE e LINE não são bons indicadores de relevância.  →Queremos pesos positivos para termos frequentes como GOOD, INCREASE e LINE, . . .  . . . mas menores que os pesos de termos raros. 28
  • 29. Frequência em documentos  Queremos pesos maiores para termos raros como ARACHNOCENTRIC.  Queremos pesos menores (positivos) para termos frequêntes como GOOD, INCREASE e LINE.  Usaremos a frequência em documentos para considerar este aspecto no cálculo dos scores.  A frequência em documentos é o número de documentos na coleção nos quais o termo ocorre. 29
  • 30. Ponderação idf  dft é a frequência em documentos, o número de documentos nos quais t ocorre.  dft é uma medida inversa de quão informativo é o termo t.  Definimos o peso idf de um termo t como segue: (N é o número de documentos na coleção.)  idft é uma medida de quão informativo um determinado termo é.  Utilizamos [log N/dft ] ao invés [N/dft ] para “suavizar” o efeito do idf  Note que utilizamos uma transformação logarítmica tanto para a frequêcia do termo quanto para a frequência em documento. 30
  • 31. Exemplos para o idf  Calcule o idft usando a formula termo dft idft calpurnia 1 6 animal 100 4 sunday 1000 3 fly 10,000 2 under 100,000 1 the 1,000,000 0 31
  • 32. Efeitos do idf na classificação  O idf afeta a classificação de documentos para consultas com pelo menos dois termo.  Por exemplo, para consultas com “arachnocentric line”, a ponderação do idf aumenta o peso relativo de ARACHNOCENTRIC e diminui o peso relativo de LINE.  O idf tem pouco efeito na classificação de consultas com um único termo. 32
  • 33. Frequência na coleção vs. Frequência em documento palavra Frequência na Frequência em documento coleção INSURANCE 10440 3997 TRY 10422 8760  Frequência na coleção de t: número de termos t na coleção  Frequência em documento de t: número de documentos onde t ocorre  Qual palavra representa um melhor termo de busca (e, portanto, deve ter um maior peso)?  Este exemplo sugere que df (e idf) é melhor para ponderação do cf (e “icf”). 33
  • 34. Ponderação tf-idf  O tf-idf de um termo é o produto do seus pesos tf e idf.  Este é o esquema de ponderação mais conhecido na área de recuperação da informação  Note: o “-” em tf-idf é um hífen e não um sinal de menos!  Nomes alternativos: tf.idf, tf x idf 34
  • 35. Sumário: tf-idf  Atribua um peso tf-idf para cada termo t em cada documento d:  O peso tf-idf . . .  . . . aumenta com o número de ocorrências do termo em um documento. (frequência de termo)  . . . aumenta com a raridade do termo na coleção. (inverso da frequência em documento) 35