CCMC – ICMC – USP    São Carlos, SP 5 de Junho de 2009   1
2
   Contexto   Problema   Posicionamento incremental   Regras de associação para identificar tópicos   Mineração visua...
Visualização de domínios de conhecimentoMineração de dados  Mineração de dados textuaisMineração visual de dados      ...
   Posicionamento por similaridade     Wise (1999); Börner (2003); Bederson (2001); ...   Identificação de tópicos em m...
 Necessidade de mapa cognitivo para  navegar espaços conceituais  (Chen,2004) Visualização de conjuntos dinâmicos  como ...
   Outras soluções     Refazer toda a visualização     Reutilizar solução inicial, refazer     periodicamente Ex. Wong ...
 Construir mapas de conjuntos  dinâmicos de documentos Manter representação adequada  à medida que elementos são  acresc...
 Técnica incremental de Multidimentional      Scaling - MDS     Utiliza medidas de similaridade entre      pares C    6,...
 Técnica incremental de Multidimentional      Scaling - MDS     Utiliza medidas de similaridade entre      pares        ...
11demo: cbr-ilp-ir-son
 Não refaz a visualização a cada  alteração Não mantem solução inicial fixa Baixo custo: pior caso: O(N2), caso  médio:...
178 documentos                    294 documentos                 675 documentos                                           ...
   Visualização de conjuntos dinâmicos de    documentos   Outros domínios     Navegação em sistema operacional     Tag...
   Análogo ao um tabuleiro de xadrez   Distância de Chebyschev:   Relação com o espaço original    (erro ponderado)+ de...
   Avaliação de alternativas:                                 16
   Elemento aprisionado:                            17
   Elemento aprisionado:                            18
   Elemento aprisionado:                            19
   Movimento em direção ao centro:                                      20
 Novo elemento adicionado na célula do  elemento mais similar Avaliação de alternativas:     Modo completo: utilização ...
   CBR-ILP-IR-SON:                      22
Conjunto inicial                   Conjunto intermediário  Conjunto final                      O(VxN):O(N)           23
24
 Mineração de textos com regras de associação  Documentos » Transações  Termos » ItensNashville, Tenessee -> Tornadoesc...
26
 Co-ocorrência de termos ≈ assunto Tópico: descrição de um conjunto de  documentos relacionados,  representada por uma l...
 Quantidade de regras  descobertas Redundância de regras Relevância dos termos (itens)‫‏‬ Medida de relevância para re...
Alto suporte   Espaço de regras                              29
Baixo suporte   Espaço de regras                               30
1. Sk: conjunto de documentos similares2. Identificar os termos mais relevantes31
“Thursday”         32
“Flu”        33
3. Conjunto Inicial de item sets: Tr x T      Termos relevantes x Todos os termos4. Aplicação do Apriori (qtd termos > 2)...
6. Item set de maior peso é selecionado7. Documentos cobertos eliminados de Sk8. Outros item sets são selecionados se há  ...
   Múltiplo início     Agrupamentos no      mapa – vários      níveis     Grade      ▪ Célula de tamanho        variáve...
LWR      37
   Vantagens     Resultados em múltiplos níveis.      ▪ Ex [bird, flu]; [bird,flu,swan];     Baixa sensibilidade para p...
39
40
41
1.   Construção do mapa2.   Extração de tópicos3.   Análise de tópicos centrada no     usuário     i. Remoção de tópicos i...
   Estratégia de atualização incremental de    agrupamentos     Existem soluções: ex. GenIc (Gupta e Grossman,      2004...
44
?    45
   Efeito do viés     Tendência a formar agrupamentos coesos no      mapa     Solução não ótima   Eventual degeneração...
 Perguntas  quando deve um tópico ser eliminado?  quando devem ser acrescentados  novos tópicos? Abordagem  Avaliação...
1. Extração inicial de tópicos2. A cada alteração nos agrupamentos, atualiza-se   a lista de termos semente3. Se um tópico...
   Objetivo: manter o tempo de    processamento compatível com o    cenário de uso                                     49
 Um novo algoritmo para a projeção  incremental de conjuntos dinâmicos  de dados multidimensionais Uma visualização para...
   Um algoritmo seletivo de indução de regras    de associação que explora grupos de    documentos similares   Um proces...
 aplicação do algoritmo incremental de  projeção em cenários específicos de uso e  validação melhoria de pontos específi...
53
   Além da discussão constante com as    orientadoras, este trabalho contou com     Contribuições do Prof. Dr. Alneu Lop...
   Bolsa CAPES Bolsa FAPESP Bolsa CAPES PDDE (doutorado    sanduíche)                                55
Roberto Pinhorobertopinho@yahoo.com.br   www.ascoisas.com   56
PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F.  Incremental board: A grid-based space for  visualizing dynamic data sets. In:  P...
   Photomesa by HCI Lab at the Univ. of Maryland                                                    58
   Critério de Desempate                            59
   Iris Data Set                    60
PINHO, R.; OLIVEIRA, M. C. F. HexBoard: Conveying Pairwise Similarity in an Incremental Visualization Space. In: IV ’09: 1...
PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. An  incremental space to visualize dynamic  data sets. Convidado para submissão p...
α – direçãoβ – ajuste de escalaδ – dissimilaridadeδ/∑δ – peso relativo                       63
LOPES, A. A., PINHO, R., PAULOVICH, F. V., AND MINGHIM, R. 2007. Visual text mining using association rules. Computer and ...
65
LWRTamanho, termos distintos, cobertura e suporte mínimo para conjuntos             de regras extraídos de corpus de notíc...
1.       Elementos são associados a um         agrupamento2.       Células assumem o agrupamento do         elemento que a...
 ferramentas e aplicações  desenvolvidas e com relação  direta com a tese contribuições cujo tema  tangencia os temas pr...
   APIs para os algoritmos desenvolvidos;   Ferramenta Voromap para avaliação de    visualização com base em partições d...
   Ferramentas desenvolvidas:     Topic Pex     incBoard;   Evolução do incBoard:     HexBoard     incScape (não pre...
Espaço de documentos                   71
Espaço de documentos                   72
73
74
75
 Ajuste  Sistema de coordenadas: x,y,z  Cálculo de distâncias                                   76
   Em destaque     conjuntos cujos itens são alterados     melhoria do processo de agrupamento      incremental     me...
   Uma necessidade de informação –    materializada como uma descrição, lista de    termos ou como uma consulta a ser    ...
   Tópico: a descrição dada a um conjunto de    documentos, usualmente relacionados entre    si, tipicamente representada...
 Rotina externa de extração em C Limite máximo de termos em regras Limite máximo de regras extraídas Filtro de termos ...
Upcoming SlideShare
Loading in...5
×

Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos

186
-1

Published on

Apresentação para a defesa de tese de doutorado.

http://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092009-123807/pt-br.php

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
186
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos

  1. 1. CCMC – ICMC – USP São Carlos, SP 5 de Junho de 2009 1
  2. 2. 2
  3. 3.  Contexto Problema Posicionamento incremental Regras de associação para identificar tópicos Mineração visual para conjuntos dinâmicos de documentos Contribuições Trabalhos futuros 3
  4. 4. Visualização de domínios de conhecimentoMineração de dados  Mineração de dados textuaisMineração visual de dados 4
  5. 5.  Posicionamento por similaridade  Wise (1999); Börner (2003); Bederson (2001); ... Identificação de tópicos em mapas  Wise(1999);Skupin (2002); Chen (2004) ... 5
  6. 6.  Necessidade de mapa cognitivo para navegar espaços conceituais (Chen,2004) Visualização de conjuntos dinâmicos como problema relevante Ao visualizar conjuntos dinâmicos, é importante preservar o contexto dos usuários (Hetzler, 2005) 6
  7. 7.  Outras soluções  Refazer toda a visualização  Reutilizar solução inicial, refazer periodicamente Ex. Wong et al (2003) 7
  8. 8.  Construir mapas de conjuntos dinâmicos de documentos Manter representação adequada à medida que elementos são acrescentados ou retirados Minimizar alterações 8
  9. 9.  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares C 6,5 5 2 4.75A 2 B A B C 9
  10. 10.  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares 5 5 A B C C 5 5 2,5 2,5A 5 B A B C ABC 10
  11. 11. 11demo: cbr-ilp-ir-son
  12. 12.  Não refaz a visualização a cada alteração Não mantem solução inicial fixa Baixo custo: pior caso: O(N2), caso médio: O(N √N) Disposição consistente de elementos 12
  13. 13. 178 documentos 294 documentos 675 documentos 13
  14. 14.  Visualização de conjuntos dinâmicos de documentos Outros domínios  Navegação em sistema operacional  Tag Clouds  Dados multidimensionais  Coleções de imagens (Rodden et al;1999, 2001) Não há oclusão 14
  15. 15.  Análogo ao um tabuleiro de xadrez Distância de Chebyschev: Relação com o espaço original (erro ponderado)+ desempate por qtd ponderada 15
  16. 16.  Avaliação de alternativas: 16
  17. 17.  Elemento aprisionado: 17
  18. 18.  Elemento aprisionado: 18
  19. 19.  Elemento aprisionado: 19
  20. 20.  Movimento em direção ao centro: 20
  21. 21.  Novo elemento adicionado na célula do elemento mais similar Avaliação de alternativas:  Modo completo: utilização do conjunto completo  Modo estocástico: Lista de elementos próximos e lista de elementos aleatórios (Chalmers, 1996) 21
  22. 22.  CBR-ILP-IR-SON: 22
  23. 23. Conjunto inicial Conjunto intermediário Conjunto final O(VxN):O(N) 23
  24. 24. 24
  25. 25.  Mineração de textos com regras de associação  Documentos » Transações  Termos » ItensNashville, Tenessee -> Tornadoescom suporte 5% econfiança 100% 25
  26. 26. 26
  27. 27.  Co-ocorrência de termos ≈ assunto Tópico: descrição de um conjunto de documentos relacionados, representada por uma lista de term0s. Um tópico cobre um conjunto de documentos nos quais os termos co- ocorrem. 27
  28. 28.  Quantidade de regras descobertas Redundância de regras Relevância dos termos (itens)‫‏‬ Medida de relevância para regras (filtragem)‫‏‬ 28
  29. 29. Alto suporte Espaço de regras 29
  30. 30. Baixo suporte Espaço de regras 30
  31. 31. 1. Sk: conjunto de documentos similares2. Identificar os termos mais relevantes31
  32. 32. “Thursday” 32
  33. 33. “Flu” 33
  34. 34. 3. Conjunto Inicial de item sets: Tr x T  Termos relevantes x Todos os termos4. Aplicação do Apriori (qtd termos > 2)5. Ordenados por peso:34
  35. 35. 6. Item set de maior peso é selecionado7. Documentos cobertos eliminados de Sk8. Outros item sets são selecionados se há suporte em Sk residual ( repete 6 & 7 )‫‏‬9 . Se todos os item sets são considerados |Sk residual| ≠ , repete todo o processo com Sk residual35
  36. 36.  Múltiplo início  Agrupamentos no mapa – vários níveis  Grade ▪ Célula de tamanho variável ▪ Deslocamento da grade 36
  37. 37. LWR 37
  38. 38.  Vantagens  Resultados em múltiplos níveis. ▪ Ex [bird, flu]; [bird,flu,swan];  Baixa sensibilidade para parâmetros Desvantagens  Resultados não satisfatórios para um pequeno número de subconjuntos ou seleções muito grandes (aprox. |Sk| > |C|/4) 38
  39. 39. 39
  40. 40. 40
  41. 41. 41
  42. 42. 1. Construção do mapa2. Extração de tópicos3. Análise de tópicos centrada no usuário i. Remoção de tópicos irrelevantes ii. Generalização de tópicos4. Reconstrução do mapa 42
  43. 43.  Estratégia de atualização incremental de agrupamentos  Existem soluções: ex. GenIc (Gupta e Grossman, 2004)  Viés adotado: contribuição do posicionamento de elementos no mapa Estratégia de atualização incremental de tópicos  Heurísticas: não repetir o processo a cada passo 43
  44. 44. 44
  45. 45. ? 45
  46. 46.  Efeito do viés  Tendência a formar agrupamentos coesos no mapa  Solução não ótima Eventual degeneração da solução  Solução atual: refazer o agrupamento  Espaço para melhoria 46
  47. 47.  Perguntas  quando deve um tópico ser eliminado?  quando devem ser acrescentados novos tópicos? Abordagem  Avaliação dos termos semente 47
  48. 48. 1. Extração inicial de tópicos2. A cada alteração nos agrupamentos, atualiza-se a lista de termos semente3. Se um tópico existente não possue nenhuma das atuais sementes, ele é excluído4. Se um novo termo semente aparece, extrair tópicos para aquele termo5. Novas relações para sementes: controle de alterações no suporte do termo. A cada passo, o termo de maior variação é reavaliado 48
  49. 49.  Objetivo: manter o tempo de processamento compatível com o cenário de uso 49
  50. 50.  Um novo algoritmo para a projeção incremental de conjuntos dinâmicos de dados multidimensionais Uma visualização para conjuntos dinâmicos de dados multidimensionais que não sofre problemas de oclusão 50
  51. 51.  Um algoritmo seletivo de indução de regras de associação que explora grupos de documentos similares Um processo iterativo e interativo de mineração visual de textos Um espaço incremental que: minimiza alterações, mantem uma representação consistente e reflete a dinâmica dos dados 51
  52. 52.  aplicação do algoritmo incremental de projeção em cenários específicos de uso e validação melhoria de pontos específicos do algoritmo  Ex. Identificação de elementos similares investigação de novas possibilidades de interação e visualização  Ex. melhoria do refino interativo de mapas/tópicos  Dissertação R. Rodrigues 52
  53. 53. 53
  54. 54.  Além da discussão constante com as orientadoras, este trabalho contou com  Contribuições do Prof. Dr. Alneu Lopes  Contribuições do Prof. Dr. Chaomei Chen  Desenvolvimento de software e contribuições de Renato Rodrigues  Plataforma PEx (Prof. Dr. Fernando Paulovich) para o teste e incorporação de soluções  Contribuições de colegas na USP e Drexel 54
  55. 55.  Bolsa CAPES Bolsa FAPESP Bolsa CAPES PDDE (doutorado sanduíche) 55
  56. 56. Roberto Pinhorobertopinho@yahoo.com.br www.ascoisas.com 56
  57. 57. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. Incremental board: A grid-based space for visualizing dynamic data sets. In: Proceedings of the 2009 Annual ACM Symposium on Applied Computing, New York, NY, USA:ACM, 2009, p. 1757–1764. (Best Paper Award in the Information System Theme - Prêmio de melhor trabalho na área Sistemas de Informação). 57
  58. 58.  Photomesa by HCI Lab at the Univ. of Maryland 58
  59. 59.  Critério de Desempate 59
  60. 60.  Iris Data Set 60
  61. 61. PINHO, R.; OLIVEIRA, M. C. F. HexBoard: Conveying Pairwise Similarity in an Incremental Visualization Space. In: IV ’09: 13th International Conference Information Visualisation (em publicação), 2009. 61
  62. 62. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. An incremental space to visualize dynamic data sets. Convidado para submissão para edição especial do Multimedia Tools and Applications Journal (MTAP) com os melhores trabalhos em Multimídia e Visualização (MMV track) do 2009 Annual ACM Symposium on Applied Computing ACM SAC 2009 62
  63. 63. α – direçãoβ – ajuste de escalaδ – dissimilaridadeδ/∑δ – peso relativo 63
  64. 64. LOPES, A. A., PINHO, R., PAULOVICH, F. V., AND MINGHIM, R. 2007. Visual text mining using association rules. Computer and Graphics. 31, 3 (Jun. 2007), 316-326. 64
  65. 65. 65
  66. 66. LWRTamanho, termos distintos, cobertura e suporte mínimo para conjuntos de regras extraídos de corpus de notícias 66
  67. 67. 1. Elementos são associados a um agrupamento2. Células assumem o agrupamento do elemento que a ocupa3. Ao ser movido, o agrupamento do elemento é reavaliado  Se igual à célula destino, permanece  Se diferente, seleciona-se a opção mais adequada (ex. distância ao centróide)  Atualiza a célula 67
  68. 68.  ferramentas e aplicações desenvolvidas e com relação direta com a tese contribuições cujo tema tangencia os temas principais 68
  69. 69.  APIs para os algoritmos desenvolvidos; Ferramenta Voromap para avaliação de visualização com base em partições do plano; Avaliação da ferramenta PEX-WEB; Aplicação de VTM para a realização de revisões sistemáticas; 69
  70. 70.  Ferramentas desenvolvidas:  Topic Pex  incBoard; Evolução do incBoard:  HexBoard  incScape (não presente na tese) 70
  71. 71. Espaço de documentos 71
  72. 72. Espaço de documentos 72
  73. 73. 73
  74. 74. 74
  75. 75. 75
  76. 76.  Ajuste  Sistema de coordenadas: x,y,z  Cálculo de distâncias 76
  77. 77.  Em destaque  conjuntos cujos itens são alterados  melhoria do processo de agrupamento incremental  melhoria do refino interativo de mapas/tópicos  R. Rodrigues  topical markers  manipulação direta 77
  78. 78.  Uma necessidade de informação – materializada como uma descrição, lista de termos ou como uma consulta a ser apresentada a uma ferramenta de recuperação de informação; Um conjunto de documentos relativos a um mesmo assunto ou que atendem a uma necessidade de informação; Lista de termos descritivos de um assunto ou conjunto de documentos. 78
  79. 79.  Tópico: a descrição dada a um conjunto de documentos, usualmente relacionados entre si, tipicamente representada por uma lista de termos e ao qual corresponde um conjunto de documentos por ele cobertos, i.e., que abordam o tema em questão, o que é, em geral, verificado pela presença da lista de termos nos documentos. 79
  80. 80.  Rotina externa de extração em C Limite máximo de termos em regras Limite máximo de regras extraídas Filtro de termos por peso local Objetivo: manter o tempo de processamento compatível com o cenário de uso 80
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×