• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos
 

Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos

on

  • 290 views

Apresentação para a defesa de tese de doutorado.

Apresentação para a defesa de tese de doutorado.

http://www.teses.usp.br/teses/disponiveis/55/55134/tde-14092009-123807/pt-br.php

Statistics

Views

Total Views
290
Views on SlideShare
290
Embed Views
0

Actions

Likes
0
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos Presentation Transcript

    • CCMC – ICMC – USP São Carlos, SP 5 de Junho de 2009 1
    • 2
    •  Contexto Problema Posicionamento incremental Regras de associação para identificar tópicos Mineração visual para conjuntos dinâmicos de documentos Contribuições Trabalhos futuros 3
    • Visualização de domínios de conhecimentoMineração de dados  Mineração de dados textuaisMineração visual de dados 4
    •  Posicionamento por similaridade  Wise (1999); Börner (2003); Bederson (2001); ... Identificação de tópicos em mapas  Wise(1999);Skupin (2002); Chen (2004) ... 5
    •  Necessidade de mapa cognitivo para navegar espaços conceituais (Chen,2004) Visualização de conjuntos dinâmicos como problema relevante Ao visualizar conjuntos dinâmicos, é importante preservar o contexto dos usuários (Hetzler, 2005) 6
    •  Outras soluções  Refazer toda a visualização  Reutilizar solução inicial, refazer periodicamente Ex. Wong et al (2003) 7
    •  Construir mapas de conjuntos dinâmicos de documentos Manter representação adequada à medida que elementos são acrescentados ou retirados Minimizar alterações 8
    •  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares C 6,5 5 2 4.75A 2 B A B C 9
    •  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares 5 5 A B C C 5 5 2,5 2,5A 5 B A B C ABC 10
    • 11demo: cbr-ilp-ir-son
    •  Não refaz a visualização a cada alteração Não mantem solução inicial fixa Baixo custo: pior caso: O(N2), caso médio: O(N √N) Disposição consistente de elementos 12
    • 178 documentos 294 documentos 675 documentos 13
    •  Visualização de conjuntos dinâmicos de documentos Outros domínios  Navegação em sistema operacional  Tag Clouds  Dados multidimensionais  Coleções de imagens (Rodden et al;1999, 2001) Não há oclusão 14
    •  Análogo ao um tabuleiro de xadrez Distância de Chebyschev: Relação com o espaço original (erro ponderado)+ desempate por qtd ponderada 15
    •  Avaliação de alternativas: 16
    •  Elemento aprisionado: 17
    •  Elemento aprisionado: 18
    •  Elemento aprisionado: 19
    •  Movimento em direção ao centro: 20
    •  Novo elemento adicionado na célula do elemento mais similar Avaliação de alternativas:  Modo completo: utilização do conjunto completo  Modo estocástico: Lista de elementos próximos e lista de elementos aleatórios (Chalmers, 1996) 21
    •  CBR-ILP-IR-SON: 22
    • Conjunto inicial Conjunto intermediário Conjunto final O(VxN):O(N) 23
    • 24
    •  Mineração de textos com regras de associação  Documentos » Transações  Termos » ItensNashville, Tenessee -> Tornadoescom suporte 5% econfiança 100% 25
    • 26
    •  Co-ocorrência de termos ≈ assunto Tópico: descrição de um conjunto de documentos relacionados, representada por uma lista de term0s. Um tópico cobre um conjunto de documentos nos quais os termos co- ocorrem. 27
    •  Quantidade de regras descobertas Redundância de regras Relevância dos termos (itens)‫‏‬ Medida de relevância para regras (filtragem)‫‏‬ 28
    • Alto suporte Espaço de regras 29
    • Baixo suporte Espaço de regras 30
    • 1. Sk: conjunto de documentos similares2. Identificar os termos mais relevantes31
    • “Thursday” 32
    • “Flu” 33
    • 3. Conjunto Inicial de item sets: Tr x T  Termos relevantes x Todos os termos4. Aplicação do Apriori (qtd termos > 2)5. Ordenados por peso:34
    • 6. Item set de maior peso é selecionado7. Documentos cobertos eliminados de Sk8. Outros item sets são selecionados se há suporte em Sk residual ( repete 6 & 7 )‫‏‬9 . Se todos os item sets são considerados |Sk residual| ≠ , repete todo o processo com Sk residual35
    •  Múltiplo início  Agrupamentos no mapa – vários níveis  Grade ▪ Célula de tamanho variável ▪ Deslocamento da grade 36
    • LWR 37
    •  Vantagens  Resultados em múltiplos níveis. ▪ Ex [bird, flu]; [bird,flu,swan];  Baixa sensibilidade para parâmetros Desvantagens  Resultados não satisfatórios para um pequeno número de subconjuntos ou seleções muito grandes (aprox. |Sk| > |C|/4) 38
    • 39
    • 40
    • 41
    • 1. Construção do mapa2. Extração de tópicos3. Análise de tópicos centrada no usuário i. Remoção de tópicos irrelevantes ii. Generalização de tópicos4. Reconstrução do mapa 42
    •  Estratégia de atualização incremental de agrupamentos  Existem soluções: ex. GenIc (Gupta e Grossman, 2004)  Viés adotado: contribuição do posicionamento de elementos no mapa Estratégia de atualização incremental de tópicos  Heurísticas: não repetir o processo a cada passo 43
    • 44
    • ? 45
    •  Efeito do viés  Tendência a formar agrupamentos coesos no mapa  Solução não ótima Eventual degeneração da solução  Solução atual: refazer o agrupamento  Espaço para melhoria 46
    •  Perguntas  quando deve um tópico ser eliminado?  quando devem ser acrescentados novos tópicos? Abordagem  Avaliação dos termos semente 47
    • 1. Extração inicial de tópicos2. A cada alteração nos agrupamentos, atualiza-se a lista de termos semente3. Se um tópico existente não possue nenhuma das atuais sementes, ele é excluído4. Se um novo termo semente aparece, extrair tópicos para aquele termo5. Novas relações para sementes: controle de alterações no suporte do termo. A cada passo, o termo de maior variação é reavaliado 48
    •  Objetivo: manter o tempo de processamento compatível com o cenário de uso 49
    •  Um novo algoritmo para a projeção incremental de conjuntos dinâmicos de dados multidimensionais Uma visualização para conjuntos dinâmicos de dados multidimensionais que não sofre problemas de oclusão 50
    •  Um algoritmo seletivo de indução de regras de associação que explora grupos de documentos similares Um processo iterativo e interativo de mineração visual de textos Um espaço incremental que: minimiza alterações, mantem uma representação consistente e reflete a dinâmica dos dados 51
    •  aplicação do algoritmo incremental de projeção em cenários específicos de uso e validação melhoria de pontos específicos do algoritmo  Ex. Identificação de elementos similares investigação de novas possibilidades de interação e visualização  Ex. melhoria do refino interativo de mapas/tópicos  Dissertação R. Rodrigues 52
    • 53
    •  Além da discussão constante com as orientadoras, este trabalho contou com  Contribuições do Prof. Dr. Alneu Lopes  Contribuições do Prof. Dr. Chaomei Chen  Desenvolvimento de software e contribuições de Renato Rodrigues  Plataforma PEx (Prof. Dr. Fernando Paulovich) para o teste e incorporação de soluções  Contribuições de colegas na USP e Drexel 54
    •  Bolsa CAPES Bolsa FAPESP Bolsa CAPES PDDE (doutorado sanduíche) 55
    • Roberto Pinhorobertopinho@yahoo.com.br www.ascoisas.com 56
    • PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. Incremental board: A grid-based space for visualizing dynamic data sets. In: Proceedings of the 2009 Annual ACM Symposium on Applied Computing, New York, NY, USA:ACM, 2009, p. 1757–1764. (Best Paper Award in the Information System Theme - Prêmio de melhor trabalho na área Sistemas de Informação). 57
    •  Photomesa by HCI Lab at the Univ. of Maryland 58
    •  Critério de Desempate 59
    •  Iris Data Set 60
    • PINHO, R.; OLIVEIRA, M. C. F. HexBoard: Conveying Pairwise Similarity in an Incremental Visualization Space. In: IV ’09: 13th International Conference Information Visualisation (em publicação), 2009. 61
    • PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. An incremental space to visualize dynamic data sets. Convidado para submissão para edição especial do Multimedia Tools and Applications Journal (MTAP) com os melhores trabalhos em Multimídia e Visualização (MMV track) do 2009 Annual ACM Symposium on Applied Computing ACM SAC 2009 62
    • α – direçãoβ – ajuste de escalaδ – dissimilaridadeδ/∑δ – peso relativo 63
    • LOPES, A. A., PINHO, R., PAULOVICH, F. V., AND MINGHIM, R. 2007. Visual text mining using association rules. Computer and Graphics. 31, 3 (Jun. 2007), 316-326. 64
    • 65
    • LWRTamanho, termos distintos, cobertura e suporte mínimo para conjuntos de regras extraídos de corpus de notícias 66
    • 1. Elementos são associados a um agrupamento2. Células assumem o agrupamento do elemento que a ocupa3. Ao ser movido, o agrupamento do elemento é reavaliado  Se igual à célula destino, permanece  Se diferente, seleciona-se a opção mais adequada (ex. distância ao centróide)  Atualiza a célula 67
    •  ferramentas e aplicações desenvolvidas e com relação direta com a tese contribuições cujo tema tangencia os temas principais 68
    •  APIs para os algoritmos desenvolvidos; Ferramenta Voromap para avaliação de visualização com base em partições do plano; Avaliação da ferramenta PEX-WEB; Aplicação de VTM para a realização de revisões sistemáticas; 69
    •  Ferramentas desenvolvidas:  Topic Pex  incBoard; Evolução do incBoard:  HexBoard  incScape (não presente na tese) 70
    • Espaço de documentos 71
    • Espaço de documentos 72
    • 73
    • 74
    • 75
    •  Ajuste  Sistema de coordenadas: x,y,z  Cálculo de distâncias 76
    •  Em destaque  conjuntos cujos itens são alterados  melhoria do processo de agrupamento incremental  melhoria do refino interativo de mapas/tópicos  R. Rodrigues  topical markers  manipulação direta 77
    •  Uma necessidade de informação – materializada como uma descrição, lista de termos ou como uma consulta a ser apresentada a uma ferramenta de recuperação de informação; Um conjunto de documentos relativos a um mesmo assunto ou que atendem a uma necessidade de informação; Lista de termos descritivos de um assunto ou conjunto de documentos. 78
    •  Tópico: a descrição dada a um conjunto de documentos, usualmente relacionados entre si, tipicamente representada por uma lista de termos e ao qual corresponde um conjunto de documentos por ele cobertos, i.e., que abordam o tema em questão, o que é, em geral, verificado pela presença da lista de termos nos documentos. 79
    •  Rotina externa de extração em C Limite máximo de termos em regras Limite máximo de regras extraídas Filtro de termos por peso local Objetivo: manter o tempo de processamento compatível com o cenário de uso 80