Anotação de Imagens

1,687 views

Published on

My presentation about image tagging at UFRGS

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,687
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
20
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Anotação de Imagens

  1. 1. Anotação de Imagens Vitor Pamplona vitor@vitorpamplona.com Yansong Feng and Mirella Lapata Automatic Image Annotation Using Auxiliary Text Information Proceedings of ACL-08: HLT, pages 272–280
  2. 2. Como criar palavras-chave? Copyright Vitor F. Pamplona 2
  3. 3. Formalmente ● Dado uma imagem I e suas características V I ={v 1, v 2, v 3, } ● E um conjunto de palavras-chave W I ={w 1, w 2, w 3, } ● Encontre o W p que melhor descreve I W p ⊂W I Copyright Vitor F. Pamplona 3
  4. 4. Processo Tradicional Copyright Vitor F. Pamplona 4
  5. 5. Passo 1: Treinamento Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz Copyright Vitor F. Pamplona 5
  6. 6. Passo 2: Segmentação Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz Copyright Vitor F. Pamplona 6
  7. 7. Passo 3: Extrai uma assinatura Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 7
  8. 8. Passo 4: Compara assinaturas Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 8
  9. 9. Passo 5: Palavras-chave comuns Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 9
  10. 10. Passo 6: Associa uma anotação Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... Tigre 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 10
  11. 11. Passo 7: Associa uma relevância Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... Tigre, 100% 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 11
  12. 12. Para anotar uma nova imagem Copyright Vitor F. Pamplona 12
  13. 13. Passo 1: Segmentar Copyright Vitor F. Pamplona 13
  14. 14. Passo 2: Computar assinatura 12, 45, 67, 35, 67, 78, ... Copyright Vitor F. Pamplona 14
  15. 15. Passo 3: Comparar com a base 12, 45, 67, 35, 67, 78, ... 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 15
  16. 16. Passo 3: Buscar anotação 12, 45, 67, 35, 67, 78, ... Tigre, 100% 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 16
  17. 17. Passo 4: Repetir o processo Copyright Vitor F. Pamplona 17
  18. 18. Passo 5: Organizar as palavras Tigre, 100% Água, 70% Grama, 30% Copyright Vitor F. Pamplona 18
  19. 19. Feng e Lapata 2008 ● Anotação de imagens ● Fusão de VC, RI e PLN ● Contribuições ● Textos de internet com imagens ● Sem anotações prévias para treinamento ● O sistema é treinado com o texto ● Muito ruído no texto ● Possibilita a anotação de novas palavras-chave Copyright Vitor F. Pamplona 19
  20. 20. Entrada do modelo Texto Legenda Copyright Vitor F. Pamplona 20
  21. 21. Assunções do modelo ● Legenda descreve a imagem: ● Denotativamente: descreve objetos Denotativamente ● Conotativamente: descreve ações/eventos Conotativamente ● Não é possível nomear todos os objetos ● Os principais objetos devem ser nomeados ● O documento está relacionado a imagem Copyright Vitor F. Pamplona 21
  22. 22. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Copyright Vitor F. Pamplona 22
  23. 23. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Características Visuais da Imagem Copyright Vitor F. Pamplona 23
  24. 24. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Palavras do Texto ou do Caption Características Visuais da Imagem Copyright Vitor F. Pamplona 24
  25. 25. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Tuplas (imagem-palavra) do treinamento Palavras do Texto ou do Caption Características Visuais da Imagem Copyright Vitor F. Pamplona 25
  26. 26. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Tuplas (imagem-palavra) do treinamento Probabilidade da tupla s Palavras do Texto ou do Caption Características Visuais da Imagem Copyright Vitor F. Pamplona 26
  27. 27. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Probabilidade da tupla s Copyright Vitor F. Pamplona 27
  28. 28. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s 1 P  s= ND ● Distribuição uniforme Copyright Vitor F. Pamplona 28
  29. 29. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Probabilidade dos V I ocorrerem quando s ocorre Copyright Vitor F. Pamplona 29
  30. 30. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s NV I P V I∣s=∏ P g v r∣s r=1 Copyright Vitor F. Pamplona 30
  31. 31. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s NV I P V I∣s=∏ P g v r∣s r=1 Probabilidade de cada um dos V I correrem quando s ocorre Copyright Vitor F. Pamplona 31
  32. 32. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s NV I P V I∣s=∏ P g v r∣s r=1 ns −1 P g v r∣s= 1 ∑ v expv r −v i  ∑ v r −v i  T ns v i =1  2  ∣∑ ∣ k k Distribuição gaussiana Copyright Vitor F. Pamplona 32
  33. 33. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Probabilidade dos W I ocorrerem quando s ocorre Copyright Vitor F. Pamplona 33
  34. 34. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W Distribuição de Bernoulli Copyright Vitor F. Pamplona 34
  35. 35. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W Copyright Vitor F. Pamplona 35
  36. 36. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Copyright Vitor F. Pamplona 36
  37. 37. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Anotações de s Texto de s Parâmetro que melhor se adapta ao treinamento Copyright Vitor F. Pamplona 37
  38. 38. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Copyright Vitor F. Pamplona 38
  39. 39. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd   bw , s  N w 1: se w está em sa P est w∣sa = a 0: caso contrário  N D Copyright Vitor F. Pamplona 39
  40. 40. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Copyright Vitor F. Pamplona 40
  41. 41. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Vezes que w ocorre em sd N w,s P est w∣sa = d Total de palavras do doc Nsd Copyright Vitor F. Pamplona 41
  42. 42. Validação ● 2881 notícias da BBC News ● PLN ● Part of Speech Tagger ● Remover tudo exceto verbos, subst., adjetivos ● Extrai o lema das palavras ● Vocabulário 8309 palavras Copyright Vitor F. Pamplona 42
  43. 43. Validação ● Processamento das imagens ● Segmentação a partir de um grid regular 6x5 ● Assinatura ● Média e desvio padrão RGB, LUV, LAB ● Saída de uma transformação DCT ● Saída de um filtro de Gabor ● Saída de um algoritmo de detecção de borda ● Divisão entre nro de pixels de borda e não borda Copyright Vitor F. Pamplona 43
  44. 44. Resultados: Precisão ● Anotações corretas / todas as anotações 16 14 12 10 Feng08 8 Lavenko03 6 DocTitle 4 2 0 Top10 Top15 Top20 Copyright Vitor F. Pamplona 44
  45. 45. Resultados: Recall ● Anotações corretas / anotações manuais 40 35 30 25 20 Feng08 Lavenko03 15 DocTitle 10 5 0 Top10 Top15 Top20 Copyright Vitor F. Pamplona 45
  46. 46. Resultados: F1 ● Média harmônica entre precisão e recall 25 20 15 Feng08 10 Lavenko03 DocTitle 5 0 Top10 Top15 Top20 Precisão∗Recall  PrecisãoRecall / 2 Copyright Vitor F. Pamplona 46
  47. 47. Análise Crítica ● Palavras-chave isoladas ● Sem contexto semântico ● Sem contexto temporal ● Sem estrutura hierárquica ● Segmentação e identificação de saliências ● Muito simples ● Método SIFT (D. G. Lowe 2004) ● Não utilizam a wordnet ● Poderiam extrair sinônimos e super classes Copyright Vitor F. Pamplona 47
  48. 48. Viagens... ● Palavras-chave multi-língua ● Vários documentos para a mesma imagem ● Contextos ● Utilizar informação semântica ● Frases que possuem as palavras-chave ● Relacionamento das palavras-chave ● Anotar frases ao invés de palavras-chave? ● Processar todas as imagens da web Copyright Vitor F. Pamplona 48
  49. 49. Perguntas? Vitor Pamplona vitor@vitorpamplona.com Yansong Feng and Mirella Lapata Automatic Image Annotation Using Auxiliary Text Information Proceedings of ACL-08: HLT
  50. 50. Créditos: ● http://www.flickr.com/photos/mkengstrom/77367321/ ● http://www.flickr.com/photos/66164549@N00/2919179438/ ● http://www.flickr.com/photos/digitalart/1906662004/ ● http://www.flickr.com/photos/mumbleyjoe/1520473493/ ● Yansong Feng and Mirella Lapata. Automatic Image Annotation Using Auxiliary Text Information. Proceedings of ACL-08:HLT, pages 272-280. 2008. Copyright Vitor F. Pamplona 50

×