Modelo de Espaço Vetorial
Upcoming SlideShare
Loading in...5
×
 

Modelo de Espaço Vetorial

on

  • 1,239 views

 

Statistics

Views

Total Views
1,239
Views on SlideShare
1,239
Embed Views
0

Actions

Likes
1
Downloads
35
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Modelo de Espaço Vetorial Modelo de Espaço Vetorial Presentation Transcript

  • Centro de Informática – Universidade Federal da Paraíba Ordenação e Recuperação de Dados Aula 7: Modelo de Espaço Vetorial Prof. Alexandre Duarte - http://alexandre.ci.ufpb.br 1 1
  • Matriz de incidências Termo-Documento Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... CleopatraANTHONY 1 1 0 0 0 1BRUTUS 1 1 0 1 0 0CAESAR 1 1 0 1 1 1CALPURNIA 0 1 0 0 0 0CLEOPATRA 1 0 0 0 0 0MERCY 1 0 1 1 1 1WORSER 1 0 1 1 1 0... Cada documento é representado por um vetor binário ∈ {0, 1}|V|. 2
  • Matriz de incidências Termo-Documento Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... CleopatraANTHONY 157 73 0 0 0 1BRUTUS 4 157 0 2 0 0CAESAR 232 227 0 2 1 0CALPURNIA 0 10 0 0 0 0CLEOPATRA 57 0 0 0 0 0MERCY 2 0 3 8 5 8WORSER 2 0 1 1 1 5...Agora cada documento é representado por um vetor de contagem∈ N|V|. 3
  • Peso da frequência de um termo em umdocumento 4
  • Peso idf  A frequência de termo em documentos dft é definida como o número de documentos em que o termo t ocorre.  Definimos o peso idf de um termo t como segue:  idf é uma medida de quão informativo é um determinado termo. 5
  • Peso tf-idf  O peso tf-idf de um termo é o produto de seus pesos tf e idf. 6
  • Binário → Contagem → Matriz de Pesos Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... CleopatraANTHONY 5.25 3.18 0.0 0.0 0.0 0.35BRUTUS 1.21 6.10 0.0 1.0 0.0 0.0CAESAR 8.59 2.54 0.0 1.51 0.25 0.0CALPURNIA 0.0 1.54 0.0 0.0 0.0 0.0CLEOPATRA 2.85 0.0 0.0 0.0 0.0 0.0MERCY 1.51 0.0 1.90 0.12 5.25 0.88WORSER 1.37 0.0 0.11 4.15 0.25 1.95...Cada documento é agora representado por um vetor de númerosreais com os pesos tf-idf dos seus termos 7
  • Documentos como vetores  Cada documento é agora representado por um vetor ∈R|V| de números reais com os pesos tf-idf de cada um de seus termos.  Temos então um espaço vetorial |V|-dimensional.  Os termos são os eixos desse espaço vetorial.  Os documentos são pontos ou vetores neste espaço.  Dimensões muito grandes: dezenas de milhões quando se aplica a pesquisa na Web  Cada vetor é muito esparso – a maioria das entradas é zero. 8
  • Consultas como vetores  Ideia chave 1: fazer o mesmo para as consultas: representá- las como vetores neste espaço multi-dimensional  Ideia chave 2: Classificar os documentos de acordo com sua proximidade com a consulta  proximidade = similaridade  Relembrando: Estamos fazendo isso porque queremos fugir das limitações do modelo booleano.  Ao invés disso: queremos classificar melhor documentos relevantes em relação a documentos não-relevantes 9
  • Como formalizamos similaridade em umespaço vetorial?  Primeiro corte: distância entre dois pontos  ( distância entre os pontos extremos dos dois vetores)  Distância Euclidiana?  Utilizar a Distância Euclideana é uma má ideia . . .  . . . Porque resulta em valores muito grandes para vetores de diferentes comprimentos. 10
  • Porque distância é uma má ideiaA Distância Euclidiana entre a consulta li e o documento é muitogrande apesar de ambos terem uma distribuição similar de termos 11
  • Usar o ângulo ao invés da distância  Classificar os documentos de acordo com o seu ângulo em relação à consulta  Experimento: escolha um documento d e duplique seu conteúdo. Chame esse documento de d′.  Apesar de d’ ter o dobro do tamanho de d, eles representam “semanticamente” o mesmo conteúdo.  O ângulo entre os dois documentos é 0, correspondendo a similaridade máxima . . .  . . . mas a distância Euclidiana entre os dois pode ser muito grande. 12
  • De ângulos para cossenos  As duas noções a seguir são equivalentes.  Classificar os documentos de acordo com o ângulo entre a consulta e o documento em ordem crescente  Classificar os documentos de acordo com o cosseno (consulta,documento) em ordem decrescente  O cosseno é uma função decrescente de um ângulo no intervalo [0◦, 180◦] 13
  • Cosseno 14
  • Similaridade do cosseno entre consulta edocumento  qi é o peso tf-idf do termo i da consulta.  di é o peso tf-idf de cada termo i do documento  | | e | | são os comprimentos dos vetores e  Esta é a similaridade do cosseno entre e 15
  • Cosseno de vetores normalizados  Para vetores normalizados, o cosseno é equivalente ao produto escalar.  (se e foram normalizados em relação ao seu comprimento). 16
  • Ilustração da similaridade de cosseno 17
  • Cosseno: Exemplo frequencia de termos (contagem) O quão similar são termo SaS PaP WH esses romances? AFFECTION 115 58 20 • SaS: Sense and JEALOUS 10 7 11 Sensibility GOSSIP 2 0 6 • PaP: Pride and WUTHERING 0 0 38 Prejudice • WH: Wuthering Heights 18
  • Cosseno: Exemplofrequencia de termos (contagem) ponderação das frequências por log termo SaS PaP WH termo SaS PaP WH AFFECTION 115 58 20 AFFECTION 3.06 2.76 2.30 JEALOUS 10 7 11 JEALOUS 2.0 1.85 2.04 GOSSIP 2 0 6 GOSSIP 1.30 0 1.78 WUTHERING 0 0 38 WUTHERING 0 0 2.58 (Para simplificar o exemplo, não estou calculando o peso idf) 19
  • Cosseno: Exemploponderação das frequências por log normalização de cosenotermo SaS PaP WH termo SaS PaP WHAFFECTION 3.06 2.76 2.30 AFFECTION 0.789 0.832 0.524JEALOUS 2.0 1.85 2.04 JEALOUS 0.515 0.555 0.465GOSSIP 1.30 0 1.78 GOSSIP 0.335 0.0 0.405WUTHERING 0 0 2.58 WUTHERING 0.0 0.0 0.588  cos(SaS,PaP) ≈ 0.789 ∗ 0.832 + 0.515 ∗ 0.555 + 0.335 ∗ 0.0 + 0.0 ∗ 0.0 ≈ 0.94.  cos(SaS,WH) ≈ 0.79  cos(PaP,WH) ≈ 0.69 20
  • Sumário: recuperação com classificaçãoutilizando o modelo do espaço vetorial  Representar a consulta como um vetor de pesos tf-idf  Representar cada documento como um vetor de pesos tf-idf  Calcular a similiradade do cosseno entre o vetor da consulta e os vetores de cada documento na coleção  Classifique os documentos de acordo com a consulta  Retorne os primeiros K (ex., K = 10) documentos para o usuário 21