Recuperação Inteligente de Informações
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Recuperação Inteligente de Informações

on

  • 2,036 views

 

Statistics

Views

Total Views
2,036
Views on SlideShare
2,024
Embed Views
12

Actions

Likes
0
Downloads
32
Comments
0

1 Embed 12

http://www.slideshare.net 12

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Recuperação Inteligente de Informações Presentation Transcript

  • 1. Recuperação Inteligente de Informações Prof. Dr. Celso A. A. Kaestner Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação em Informática Aplicada
  • 2. Modelos Formais em IR Parte I
  • 3. Representação de documentos
    • Os sistemas de IR tradicionais utilizam conjuntos de índices para representar os documentos;
    • A idéia é que a semântica dos documentos seja representada por seus índices;
    • Modelos mais utilizados:
      • booleano;
      • vetorial;
      • probabilista.
  • 4. Modelos usados em IR Retrieval: Adhoc Filtering Browsing U s e r T a s k Non-Overlapping Lists Proximal Nodes Structured Models Classic Models boolean vector probabilistic Set Theoretic Fuzzy Extended Boolean Probabilistic Inference Network Belief Network Algebraic Generalized Vector Lat. Semantic Index Neural Networks Browsing Flat Structure Guided Hypertext
  • 5. Aspectos distintos: modelo de IR, visão lógica dos docs., tarefa de recuperação.
  • 6. Definição formal de um sistema de IR
    • Quádrupla ( D,Q,F,R(qi,dj) ) com
      • D : conjunto das representações dos docs. na coleção;
      • Q : conjunto das representações das consultas;
      • F : framework (arcabouço) para a modelagem dos documentos, consultas e seu relacionamento;
      • R(qi,dj) : função de ordenamento que associa a cada qi  Q e a cada dj  D um número real que representa a similaridade entre o documento e a consulta.
  • 7. Modelos clássicos em IR
    • Nem todos os termos são úteis para representar o conteúdo dos docs.: termos menos freqüentes permitem identificar conjuntos mais restritos.
    • A importância de um índice é representada pelos pesos a ele associados;
    • Se ki é um índice , dj é um documento, wij é o peso associado a (ki,dj) , que quantifica a importância do índice na descrição do conteúdo do documento.
  • 8. Modelos clássicos em IR
      • Sejam:
      • ki : índice, dj : documento, N : número total de docs.
      • K = (k1, k2, …, kT) conjunto de índices; onde T : número total de termos na coleção;
      • wij >= 0 : peso associado a (ki,dj) ; wij = 0 : indica que o termo (índice) não pertence ao documento;
      • dj = (w1j, w2j, …, wTj) é o vetor formado pelos pesos associados ao documento dj ;
      • gi( dj ) = wij é a função que retorna o peso associado ao par (ki,dj).
  • 9. O modelo booleano
    • Modelo simples baseado na teoria dos conjuntos;
    • Consultas especificadas como expressões booleanas:
      • semântica precisa;
      • formalismo elegante, framework simples.
    • Termos presentes ou ausentes, ou seja wij  {0,1} ;
    • Considerando:
      • q = ka  (kb   kc)
      • q (na f.n.d. ) = (1,1,1)  (1,1,0)  (1,0,0)
      • cada componente de q (e.g. qcc=(1,1,0) ) é conjuntivo.
  • 10. O modelo booleano
    • q = ka  (kb   kc)
    • sim(q,dj) = 1 se  (qcc) | (qcc  q (f.n.d.))  (  ki, gi( dj ) = gi( qcc ))
    • 0 no outro caso.
    (1,1,1) (1,0,0) (1,1,0) Ka Kb Kc
  • 11. Deficiências do modelo booleano
    • A recuperação é baseada numa decisão binária sem noção de matching parcial;
    • Nenhuma ordenação de documentos é fornecida;
    • A passagem da necessidade de informação do usuário à expressão booleana é considerada complicada;
    • As consultas booleanas formuladas pelos usuários são freqüentemente simplistas;
    • Em conseqüência o modelo booleano retorna poucos ou muitos documentos em resposta às consultas.
  • 12. O modelo vetorial
    • O uso de pesos binários é limitante;
    • Pesos não binários podem considerar mais adequadamente matchings parciais;
    • Estes pesos são utilizados para calcular um grau de similaridade entre a consulta e o documento;
    • Um conjunto ordenado de documentos é retornado, fornecendo uma melhor resposta à consulta.
  • 13. O modelo vetorial
    • Define-se:
      • wij > 0 quando ki  dj ;
      • wiq >= 0 associado ao par (ki,q)
      • dj = (w1j, w2j, ..., wTj) , q = (w1q, w2q, ..., wTq) ;
      • a cada termo ki está associado um vetor unitário i ;
      • os vetores unitários i e j são considerados ortonormais (i.e., são considerados como de ocorrência independente nos documentos) e formam uma base ortonormal para o espaço T-dimensional;
    • Neste espaço, consultas e documentos são representados por vetores ponderados.
  • 14. O modelo vetorial
    • Documentos são representados como “ bags of words ”;
    • Representados como vetores quando usados computacionalmente:
      • Coordenadas: números em ponto flutuante;
      • Têm direção e magnitude;
      • Cada vetor reserva um lugar (dimensão) para cada termo na coleção;
      • Portanto, muitos vetores são esparsos.
  • 15. Exemplo em modelo vetorial a: System and human system engineering testing of EPS b: A survey of user opinion of computer system response time c: The EPS user interface management system d: Human machine interface for ABC computer applications e: Relation of user perceived response time to error measurement f: The generation of random, binary, ordered trees g: The intersection graph of paths in trees h: Graph minors IV: Widths of trees and well-quasi-ordering i: Graph minors: A survey
  • 16. nova galaxy heat h’wood film role diet fur 10 5 3 5 10 10 8 7 9 10 5 10 10 9 10 5 7 9 6 10 2 8 7 5 1 3 A B C D E F G H I Exemplo em modelo vetorial Document ids terms Frequency of terms on each document
  • 17. Plotagem dos vetores Star Diet Doc about astronomy Doc about movie stars Doc about mammal behavior
  • 18. Documentos no espaço 3D
  • 19.
    • A similaridade ou proximidade de um documento
    • d = (w 1 , …, w i , …, w T ) em relação a uma consulta
      • q = (q 1 , …, q i , …, q T ) é calculada pela função de similaridade.
    • Existem muitas funções de similaridade:
      • - Produto interno:
    • sim(q, d) = = q 1  w 1 + … + q T  w T
    • Exemplo: Se d = (0.2, 0, 0.3, 1) e
    • q = (0.75, 0.75, 0, 1), então
    • sim(q, d) = 0.15 + 0 + 0 + 1 = 1.15
    Exemplo em modelo vetorial
  • 20.
    • Observações:
    • Documento que têm mais termos em comum com a consulta tendem a ter maior similaridade;
    • Para termos que aparecem em q e d, aqueles com maiores pesos contribuem mais para sim(q, d) do que os que têm menores pesos;
    • Documentos maiores são favorecidos;
    • A similaridade calculada não tem um limite superior definido.
    Exemplo em modelo vetorial
  • 21. Métrica de similaridade normalizada
    • Sim(q,dj) = cos  = [dj  q] / |dj| * |q| = [  wij * wiq] / |dj| * |q|
    • Já que wij > 0 e wiq > 0, 0 <= sim(q,dj) <=1
    • Um documento é recuperado se realiza match parcial com os termos da consulta.
    i j dj q 
  • 22. Exemplo em modelo vetorial system interface user a c b
  • 23. Respondendo a uma consulta no modelo vetorial
    • Representa-se a consulta como vetor;
    • Calcula-se as distâncias a todos os docs.;
    • Ordenação pela distância;
    • Exemplo:
      • “ computer system”
  • 24. Modelo vetorial
    • Sim(q,dj) = [  wij * wiq] / |dj| * |q|
    • Como calcular os pesos wij e wiq ?
      • freqüências simples tendem a favorecer palavras comuns
        • E.g. Query: The Computer Tomography
    • Um peso adequado deve considerar 2 efeitos:
      • quantificação intra-documentos (similaridade)
        • fator tf (term frequency) no documento;
      • quantificação inter-documentos (dissimilaridade)
        • fator idf (inverse document frequency)
      • Usa-se o peso tf*idf : wij = tf(i,j) * idf(i).
  • 25.
    • Sejam:
      • N : número total de docs. na coleção;
      • ni : número de docs. contendo ki ;
      • freq(i,j) freqüência simples de ki em dj ;
    • O fator tf normalizado é f(i,j) = freq(i,j) / max(freq(l,j))
      • onde o máximo é calculado sobre os termos que ocorrem em dj;
    • O fator idf é calculado como idf(i) = log (N/ni)
      • onde log é usado para tornar os valores de tf e idf comparáveis, e pode ser interpretado como a quantidade de informação associada ao termo ki.
    Modelo vetorial
  • 26.
    • Os melhores esquemas de pesos são dados por
      • wij = f(i,j) * log(N/ni)
      • cuja estratégia é denominada tf-idf .
    • Para uma consulta ponderada, uma sugestão é usar
      • wiq = (0.5 + [0.5 * freq(i,q) / max(freq(l,q)]) * log(N/ni)
    • O modelo vetorial com pesos tf-idf é uma boa estratégia para coleções gerais;
    • Quanto aos resultados, o modelo vetorial é comparável às outras alternativas de ordenação, além de ser simples e rápido para calcular.
    Modelo vetorial
  • 27.
    • Vantagens:
      • o uso de ponderação parcial melhora a qualidade da resposta;
      • o matching parcial permite a recuperação de docs. Que aproximam os requisitos da consulta;
      • a fórmula de ordenação pelo cosseno ordenada os docs. de acordo com a similaridade com a consulta.
    • Desvantagens:
      • assume a independência dos termos índices (??); não fica claro se é má idéia.
    Modelo vetorial
  • 28. Modelo vetorial - exemplo I d1 d2 d3 d4 d5 d6 d7 k1 k2 k3
  • 29. Modelo vetorial - exemplo II d1 d2 d3 d4 d5 d6 d7 k1 k2 k3
  • 30. Modelo vetorial - exemplo III d1 d2 d3 d4 d5 d6 d7 k1 k2 k3
  • 31. Refinamentos
    • Resumo:
    • A ponderação (w ij ), é a combinação de 3 componentes:
    • 1) Componente freqüência do termo:
        • 1.0 ( b )
        • f ij ( t )
        • 0.5 + 0.5 (f ij /max i f ij )  [0.5,1] ( n ) ou K+ (1-K) (f ij /max i f ij ) com K  [0,1]
  • 32. Refinamentos
    • 2)Componente freqüência na coleção:
        • 1.0 ( x )
        • log (N / fd i ) ( f )
        • log ((N - fd i ) / fd i ) ( p )
    • 3) Componente de normalização do vetor:
        • nenhuma ( x )
        • p j / (||p j ||) ( c )
        • Obs.: ||p j || é a norma euclidiana do vetor p j
    • Possível combinação dos 3 elementos: bxx, bxc,...
  • 33. No tratamento da consulta
    • A melhor combinação depende da aplicação;
    • 1) Componente freqüência do termo:
    • - consulta curta, poucos termos => todos os
    • termos são importantes;
    • 0.5 + 0.5 (f ij /max i f ij )  [0.5,1] ( n )
    • - muitos termos, necessidade de maior
    • discriminação: f ij ( t )
  • 34. No tratamento da consulta
    • 2) Componente freqüência na coleção:
    • performance similar para f e p
    • - log (N / fd i ) ( f )
    • - log ((N - fd i ) / fd i ) ( p )
    • 3) Componente de normalização do vetor:
    • pouco importante:
    • - nenhuma ( x )
  • 35. No tratamento dos documentos
    • 1) Componente freqüência do termo:
    • - vocabulário técnico, termos significativos:
    • 0.5 + 0.5 (f ij /max i f ij )  [0.5,1] ( n )
    • - vocabulário variado:
    • f ij ( t )
    • - documentos curtos, vocabulário controlado:
    • 1.0 ( b )
  • 36. No tratamento dos documentos
    • 2) Componente freqüência na coleção:
    • performance similar para f e p
    • log (N / fd i ) ( f )
    • log ((N - fd i ) / fd i ) ( p )
    • coleções dinâmicas, necessidade de atualização:
    • 1.0 ( x )
  • 37. No tratamento dos documentos
    • 3) Componente normalização do vetor:
    • - se o comprimento for muito variável:
    • p j / (||p j ||) ( c )
    • senão: nenhuma ( x )
    • Melhores combinações (dependentes da aplicação)
        • documentos: tfc, nfc ou tpc,npc;
        • consultas: nfx, tfx, bfx ou (npx, tpx, bpx).
  • 38. Modelo Probabilista
    • Problemas com o modelo vetorial:
    • Sem base semântica:
      • Palavras-chave são plotadas como eixos;
        • São realmente independentes ?
        • São ortogonais ?
      • Sem suporte para consultas booleanas:
        • Como encontrar docs. que não contém uma certa palavra-chave ?
  • 39.
    • Objetivo: capturar o problema de IR usando um formalismo probabilista;
    • Dada a consulta do usuário, existe um conjunto resposta ideal
      • Consultas podem ser consideradas como especificações das propriedades deste conjunto ideal de respostas ( clustering );
    • Quais são estas propriedades ?
      • Adivinhação inicial do conjunto (i.e., tentativa inicial de encontrar o conjunto ideal);
      • Melhoria por iteração.
    Modelo Probabilista
  • 40. Modelo Probabilista
    • Um conjunto inicial de docs. é recuperado;
    • O usuário inspeciona os docs. e indica os relevantes (em geral somente os 10-20 iniciais são analisados);
    • O sistema de IR usa esta informação para refinar a descrição do usuário em busca do conjunto resposta ideal;
    • Repetindo o processo espera-se que a descrição do conjunto resposta ideal melhore;
    • O conjunto ideal é modelado em termos probabilistas.
  • 41. Modelo Probabilista
    • Dada uma consulta q e um documento dj :
      • Estima-se a probabilidade que o usuário considere o documento dj interessante (i.e., relevante).
        • O modelo assume que a probabilidade de relevância depende somente das representações de q e dos dj ;
        • O conjunto resposta ideal é denotado por R e deve maximizar a probabilidade de relevância, e conter os documentos previstos como relevantes.
    • Como computar as probabilidades ? Qual o espaço amostral ?
  • 42. Modelo Probabilista
    • O ordenamento probabilista é computado por:
      • sim(q,dj) = P(dj relevante-para q) /
      • P(dj não-relevante-para q)
        • Esta é a regra para um documento dj ser relevante;
        • Minimiza a probabilidade de um julgamento errôneo.
    • Definição:
      • wij  {0,1}
      • P(R | dj) : probabilidade que o doc seja relevante;
      • P(  R | dj) : probabilidade que o doc seja não relevante.
  • 43. Modelo Probabilista
    • sim(q, dj ) = P(R | dj ) / P(  R | dj ) = [P(dj | R) * P(R)] [P( dj |  R) * P(  R)] ~ P(dj | R) P( dj |  R)
      • P( dj | R) : probabilidade de selecionar randomicamente o documento dj do conjunto R de documentos relevantes.
    Regra de Bayes P(R ) e P(  R ) igual para todos os docs.
  • 44. Modelo Probabilista
    • sim(q, dj ) = [(  g(dj)=1 P(ki|R)) *
    • (  g(dj)=0 P(~ki|R))] /
    • [(  g(dj)=1 P(ki|~R)) *
    • (  g(dj)=0 P(~ki|~R))]
    • P(ki|R) : probabilidade do índice ki pertencer a um d  R ;
    • P(~ki|R) : probabilidade do índice ki não estar presente em d  R .
    • P(ki|~R), P(~ki|~R) : idem para d  R .
  • 45. Modelo Probabilista
    • Usando log e considerando P(ki|R)+P(~ki|R)=1 :
    • sim(q, dj ) ~=  i=1,T wiq * wij *
    • {log [P(ki|R)/(1-P(ki|R))] +
    • log [(1-P(ki|~R)) / P(ki|~R)]}
    • Inicialmente P(ki|R) = 0,5 e P(ki|~R)= ni / N
      • ni : número de docs. que contém ki ;
      • N : número total de docs.
  • 46. Modelo Probabilista
    • Se V é conjunto de documentos inicialmente recuperados e Vi é o subconjunto de V que contém ki :
      • P(ki|R) = Vi / V ; e
      • P(ki|~R)= (ni -Vi) / (N - V) .
    • O processo é repetido recursivamente.
  • 47. Modelo Probabilista
    • Correção para pequenos valores:
      • P(ki|R) = (Vi + 0,5) / (V + 1) ; e
      • P(ki|~R)= (ni -Vi + 0,5) / (N - V + 1) .
    • Ou então:
      • P(ki|R) = (Vi + (ni / N)) / (V + 1) ; e
      • P(ki|~R)= (ni -Vi + (ni / N)) / (N - V + 1) .
  • 48. Modelo Probabilista
    • Vantagens:
      • Docs. ordenados em ordem decrescente de probabilidade de relevância;
    • Desvantagens:
      • necessidade de “adivinhação” inicial para
      • P(ki | R) ;
      • o método não considera os fatores tf e idf .
  • 49. Comparação entre os modelos
    • Modelo booleano: simples, não fornece matchings parciais e é considerado mais fraco;
    • Experimentos de Salton e Buckley: o modelo vetorial tem em média desempenho superior ao modelo probabilista;
    • Atualmente este é o pensamento dominante entre os pesquisadores da área.
  • 50. Outros modelos
    • Modelos baseados em conjuntos difusos (fuzzy);
    • Extensões do modelo booleano: , adotando pesos contínuos normalizados entre 0 e 1;
    • Modelos baseados em análise semântica latente (LSA);
    • Modelos baseados em redes neurais;
    • Uso de redes bayesianas.
    • Modelos para documentos estruturados;
    • Modelos para browsing .