Your SlideShare is downloading. ×
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos

144

Published on

Apresentação para a defesa de tese de doutorado. …

Apresentação para a defesa de tese de doutorado.

http://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092009-123807/pt-br.php

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
144
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. CCMC – ICMC – USP São Carlos, SP 5 de Junho de 2009 1
  • 2. 2
  • 3.  Contexto Problema Posicionamento incremental Regras de associação para identificar tópicos Mineração visual para conjuntos dinâmicos de documentos Contribuições Trabalhos futuros 3
  • 4. Visualização de domínios de conhecimentoMineração de dados  Mineração de dados textuaisMineração visual de dados 4
  • 5.  Posicionamento por similaridade  Wise (1999); Börner (2003); Bederson (2001); ... Identificação de tópicos em mapas  Wise(1999);Skupin (2002); Chen (2004) ... 5
  • 6.  Necessidade de mapa cognitivo para navegar espaços conceituais (Chen,2004) Visualização de conjuntos dinâmicos como problema relevante Ao visualizar conjuntos dinâmicos, é importante preservar o contexto dos usuários (Hetzler, 2005) 6
  • 7.  Outras soluções  Refazer toda a visualização  Reutilizar solução inicial, refazer periodicamente Ex. Wong et al (2003) 7
  • 8.  Construir mapas de conjuntos dinâmicos de documentos Manter representação adequada à medida que elementos são acrescentados ou retirados Minimizar alterações 8
  • 9.  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares C 6,5 5 2 4.75A 2 B A B C 9
  • 10.  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares 5 5 A B C C 5 5 2,5 2,5A 5 B A B C ABC 10
  • 11. 11demo: cbr-ilp-ir-son
  • 12.  Não refaz a visualização a cada alteração Não mantem solução inicial fixa Baixo custo: pior caso: O(N2), caso médio: O(N √N) Disposição consistente de elementos 12
  • 13. 178 documentos 294 documentos 675 documentos 13
  • 14.  Visualização de conjuntos dinâmicos de documentos Outros domínios  Navegação em sistema operacional  Tag Clouds  Dados multidimensionais  Coleções de imagens (Rodden et al;1999, 2001) Não há oclusão 14
  • 15.  Análogo ao um tabuleiro de xadrez Distância de Chebyschev: Relação com o espaço original (erro ponderado)+ desempate por qtd ponderada 15
  • 16.  Avaliação de alternativas: 16
  • 17.  Elemento aprisionado: 17
  • 18.  Elemento aprisionado: 18
  • 19.  Elemento aprisionado: 19
  • 20.  Movimento em direção ao centro: 20
  • 21.  Novo elemento adicionado na célula do elemento mais similar Avaliação de alternativas:  Modo completo: utilização do conjunto completo  Modo estocástico: Lista de elementos próximos e lista de elementos aleatórios (Chalmers, 1996) 21
  • 22.  CBR-ILP-IR-SON: 22
  • 23. Conjunto inicial Conjunto intermediário Conjunto final O(VxN):O(N) 23
  • 24. 24
  • 25.  Mineração de textos com regras de associação  Documentos » Transações  Termos » ItensNashville, Tenessee -> Tornadoescom suporte 5% econfiança 100% 25
  • 26. 26
  • 27.  Co-ocorrência de termos ≈ assunto Tópico: descrição de um conjunto de documentos relacionados, representada por uma lista de term0s. Um tópico cobre um conjunto de documentos nos quais os termos co- ocorrem. 27
  • 28.  Quantidade de regras descobertas Redundância de regras Relevância dos termos (itens)‫‏‬ Medida de relevância para regras (filtragem)‫‏‬ 28
  • 29. Alto suporte Espaço de regras 29
  • 30. Baixo suporte Espaço de regras 30
  • 31. 1. Sk: conjunto de documentos similares2. Identificar os termos mais relevantes31
  • 32. “Thursday” 32
  • 33. “Flu” 33
  • 34. 3. Conjunto Inicial de item sets: Tr x T  Termos relevantes x Todos os termos4. Aplicação do Apriori (qtd termos > 2)5. Ordenados por peso:34
  • 35. 6. Item set de maior peso é selecionado7. Documentos cobertos eliminados de Sk8. Outros item sets são selecionados se há suporte em Sk residual ( repete 6 & 7 )‫‏‬9 . Se todos os item sets são considerados |Sk residual| ≠ , repete todo o processo com Sk residual35
  • 36.  Múltiplo início  Agrupamentos no mapa – vários níveis  Grade ▪ Célula de tamanho variável ▪ Deslocamento da grade 36
  • 37. LWR 37
  • 38.  Vantagens  Resultados em múltiplos níveis. ▪ Ex [bird, flu]; [bird,flu,swan];  Baixa sensibilidade para parâmetros Desvantagens  Resultados não satisfatórios para um pequeno número de subconjuntos ou seleções muito grandes (aprox. |Sk| > |C|/4) 38
  • 39. 39
  • 40. 40
  • 41. 41
  • 42. 1. Construção do mapa2. Extração de tópicos3. Análise de tópicos centrada no usuário i. Remoção de tópicos irrelevantes ii. Generalização de tópicos4. Reconstrução do mapa 42
  • 43.  Estratégia de atualização incremental de agrupamentos  Existem soluções: ex. GenIc (Gupta e Grossman, 2004)  Viés adotado: contribuição do posicionamento de elementos no mapa Estratégia de atualização incremental de tópicos  Heurísticas: não repetir o processo a cada passo 43
  • 44. 44
  • 45. ? 45
  • 46.  Efeito do viés  Tendência a formar agrupamentos coesos no mapa  Solução não ótima Eventual degeneração da solução  Solução atual: refazer o agrupamento  Espaço para melhoria 46
  • 47.  Perguntas  quando deve um tópico ser eliminado?  quando devem ser acrescentados novos tópicos? Abordagem  Avaliação dos termos semente 47
  • 48. 1. Extração inicial de tópicos2. A cada alteração nos agrupamentos, atualiza-se a lista de termos semente3. Se um tópico existente não possue nenhuma das atuais sementes, ele é excluído4. Se um novo termo semente aparece, extrair tópicos para aquele termo5. Novas relações para sementes: controle de alterações no suporte do termo. A cada passo, o termo de maior variação é reavaliado 48
  • 49.  Objetivo: manter o tempo de processamento compatível com o cenário de uso 49
  • 50.  Um novo algoritmo para a projeção incremental de conjuntos dinâmicos de dados multidimensionais Uma visualização para conjuntos dinâmicos de dados multidimensionais que não sofre problemas de oclusão 50
  • 51.  Um algoritmo seletivo de indução de regras de associação que explora grupos de documentos similares Um processo iterativo e interativo de mineração visual de textos Um espaço incremental que: minimiza alterações, mantem uma representação consistente e reflete a dinâmica dos dados 51
  • 52.  aplicação do algoritmo incremental de projeção em cenários específicos de uso e validação melhoria de pontos específicos do algoritmo  Ex. Identificação de elementos similares investigação de novas possibilidades de interação e visualização  Ex. melhoria do refino interativo de mapas/tópicos  Dissertação R. Rodrigues 52
  • 53. 53
  • 54.  Além da discussão constante com as orientadoras, este trabalho contou com  Contribuições do Prof. Dr. Alneu Lopes  Contribuições do Prof. Dr. Chaomei Chen  Desenvolvimento de software e contribuições de Renato Rodrigues  Plataforma PEx (Prof. Dr. Fernando Paulovich) para o teste e incorporação de soluções  Contribuições de colegas na USP e Drexel 54
  • 55.  Bolsa CAPES Bolsa FAPESP Bolsa CAPES PDDE (doutorado sanduíche) 55
  • 56. Roberto Pinhorobertopinho@yahoo.com.br www.ascoisas.com 56
  • 57. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. Incremental board: A grid-based space for visualizing dynamic data sets. In: Proceedings of the 2009 Annual ACM Symposium on Applied Computing, New York, NY, USA:ACM, 2009, p. 1757–1764. (Best Paper Award in the Information System Theme - Prêmio de melhor trabalho na área Sistemas de Informação). 57
  • 58.  Photomesa by HCI Lab at the Univ. of Maryland 58
  • 59.  Critério de Desempate 59
  • 60.  Iris Data Set 60
  • 61. PINHO, R.; OLIVEIRA, M. C. F. HexBoard: Conveying Pairwise Similarity in an Incremental Visualization Space. In: IV ’09: 13th International Conference Information Visualisation (em publicação), 2009. 61
  • 62. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. An incremental space to visualize dynamic data sets. Convidado para submissão para edição especial do Multimedia Tools and Applications Journal (MTAP) com os melhores trabalhos em Multimídia e Visualização (MMV track) do 2009 Annual ACM Symposium on Applied Computing ACM SAC 2009 62
  • 63. α – direçãoβ – ajuste de escalaδ – dissimilaridadeδ/∑δ – peso relativo 63
  • 64. LOPES, A. A., PINHO, R., PAULOVICH, F. V., AND MINGHIM, R. 2007. Visual text mining using association rules. Computer and Graphics. 31, 3 (Jun. 2007), 316-326. 64
  • 65. 65
  • 66. LWRTamanho, termos distintos, cobertura e suporte mínimo para conjuntos de regras extraídos de corpus de notícias 66
  • 67. 1. Elementos são associados a um agrupamento2. Células assumem o agrupamento do elemento que a ocupa3. Ao ser movido, o agrupamento do elemento é reavaliado  Se igual à célula destino, permanece  Se diferente, seleciona-se a opção mais adequada (ex. distância ao centróide)  Atualiza a célula 67
  • 68.  ferramentas e aplicações desenvolvidas e com relação direta com a tese contribuições cujo tema tangencia os temas principais 68
  • 69.  APIs para os algoritmos desenvolvidos; Ferramenta Voromap para avaliação de visualização com base em partições do plano; Avaliação da ferramenta PEX-WEB; Aplicação de VTM para a realização de revisões sistemáticas; 69
  • 70.  Ferramentas desenvolvidas:  Topic Pex  incBoard; Evolução do incBoard:  HexBoard  incScape (não presente na tese) 70
  • 71. Espaço de documentos 71
  • 72. Espaço de documentos 72
  • 73. 73
  • 74. 74
  • 75. 75
  • 76.  Ajuste  Sistema de coordenadas: x,y,z  Cálculo de distâncias 76
  • 77.  Em destaque  conjuntos cujos itens são alterados  melhoria do processo de agrupamento incremental  melhoria do refino interativo de mapas/tópicos  R. Rodrigues  topical markers  manipulação direta 77
  • 78.  Uma necessidade de informação – materializada como uma descrição, lista de termos ou como uma consulta a ser apresentada a uma ferramenta de recuperação de informação; Um conjunto de documentos relativos a um mesmo assunto ou que atendem a uma necessidade de informação; Lista de termos descritivos de um assunto ou conjunto de documentos. 78
  • 79.  Tópico: a descrição dada a um conjunto de documentos, usualmente relacionados entre si, tipicamente representada por uma lista de termos e ao qual corresponde um conjunto de documentos por ele cobertos, i.e., que abordam o tema em questão, o que é, em geral, verificado pela presença da lista de termos nos documentos. 79
  • 80.  Rotina externa de extração em C Limite máximo de termos em regras Limite máximo de regras extraídas Filtro de termos por peso local Objetivo: manter o tempo de processamento compatível com o cenário de uso 80

×