1. Kohonen para dados simbólicos
Anderson Berg
absd@cin.ufpe.br
12 de novembro deKohonen para dados simbólicos
Anderson Berg
2010 1 / 21
2. Introdução
Motivação
Diagramas para visualização de dados
Procurar por estruturas, clusters, tendências, dependências ou
anomalias
Anderson Berg Kohonen para dados simbólicos 2 / 21
5. Kohonen para dados simbólicos intervalares
Kohonen para visualização de dados simbólicos
• Vértices P1 , . . . , Pm de uma grade retangular L com ’b’ linhas e ’a’
colunas
• Cada vértice Pi representa Ci e zi
Anderson Berg Kohonen para dados simbólicos 5 / 21
6. Kohonen para dados simbólicos intervalares
SYKSOM
• Abordagem clássica de Kohonen: pontos xk = (xk 1 , . . . , xkp )
• SYKSOM: generalização para dados simbólicos do tipo intervalo
n vetores de intervalos x1 , . . . , xn :
[ak 1 , bk 1 ]
xk =
.
.
.
akp , bkp
Anderson Berg Kohonen para dados simbólicos 6 / 21
7. Kohonen para dados simbólicos intervalares
SYKSOM
kj Var.1 Var.2 Var. 3
1 [8.4, 10.0] [13.0, 15.2] [5.0, 8.2]
2 [6.3, 9.1] [14.1, 16.0] [6.3, 7.2]
3 [7.9, 11.8] [11.6, 13.5] [4.9, 6.5]
4 [9.0, 11.0] [10.9, 12.5] [7.1, 8.1]
Por exemplo:
[9.0, 11.0]
x4 = [10.9, 12.5]
[7.1, 8.1]
Anderson Berg Kohonen para dados simbólicos 7 / 21
8. Kohonen para dados simbólicos intervalares
SYKSOM
xk descreve o item k e é um hiper-cubo
p
Qk = [ak , bk ] ⊂
Onde:
ak 1 bk 1
ak = . bk = .
. .
. e .
akp bkp
Anderson Berg Kohonen para dados simbólicos 8 / 21
9. Kohonen para dados simbólicos intervalares
Abordagem simbólica de Kohonen (etapas)
1 Hiper-cubos agrupados em m "mini-clusters"C1 , . . . , Cm
(m = b · a)
2 Cada mini-cluster Ci é caracterizado por um hiper-cubo protótipo
zi
3 Cada mini-cluster e cada protótipo é atribuído a um vértice Pvi
4 Dois protótipos quaisquer zi , zj que são vizinhos são atribuídos a
dois vértices Pvi e Pvj também vizinhos na grade.
Produzindo: uma partição final (C1 , . . . , Cm ) de objetos e descreve
cada mini-cluster Ci por um hiper-cubo zi , chamado de protótipo.
Anderson Berg Kohonen para dados simbólicos 9 / 21
10. Kohonen para dados simbólicos intervalares
Etapas básicas do SYKSOM
• Série de etapas t = 0, 1, 2, . . .
• Inclusos os primeiros t hiper-cubos
(t) (t) (t) (t)
• Resultado preliminar: C1 , . . . , Cm e z1 , . . . , zm
• A etapa t+1 inclui o (t + 1)-ésimo retângulo xt+1 e são
atualizados os clusters e protótipos anteriores
Anderson Berg Kohonen para dados simbólicos 10 / 21
11. Kohonen para dados simbólicos intervalares
Inicialização
1 Em t = 0: conjunto inicial de m = b · a classes vazias
(0) (0) (0) (0)
C1 = ∅, . . . Cm = ∅ e m protótipos z1 , . . . , zm
(0)
2 A classe Ci é atribuída ao vértice Pi da grade.
Anderson Berg Kohonen para dados simbólicos 11 / 21
12. Kohonen para dados simbólicos intervalares
Etapa de iteração
Ao final da etapa t foram processados t hiper-cubos
x1 = [a1 , b1 ], . . . , xt = [at , bt ] e obtidos:
(t) (t)
• C (t) = (C1 , . . . , Cm )
(t) (t) (t) (t) (t)
• Z (t) = (z1 , . . . , zm ), zi = [ui , vi ]
Anderson Berg Kohonen para dados simbólicos 12 / 21
13. Kohonen para dados simbólicos intervalares
Distância mínima
(t) (t)
d(xt+1 , zi ∗ ) = minj=1,...,m d(xt+1 , zj )
(t+1) (t)
Ci ∗ := Ci ∗ ∪ t + 1
(t+1) (t)
Ci := Ci , para todo i, com i = i ∗
Anderson Berg Kohonen para dados simbólicos 13 / 21
14. Kohonen para dados simbólicos intervalares
Atualização dos protótipos
(t) (t)
• Todos os m protótipos z1 , . . . , zj são atualizados.
(t) (t) (t)
• Cada protótipo zj = [uj , vj ] é deslocado em direção a xt+1
• O tamanho do deslocamento depende da distância δ(Pj , Pi ∗ )
• Ordenação topológica
Anderson Berg Kohonen para dados simbólicos 14 / 21
15. Kohonen para dados simbólicos intervalares
Deslocamento dos retângulos
(t+1) (t) (t)
uj = uj + αt+1 · Ki ∗ j · (at+1 − uj ))
(t+1) (t) (t)
vj = vj + αt+1 · Ki ∗ j · (bt+1 − vj ))
• (α1 , α2 , . . . ) ⇒ sequência decrescente de fatores de
aprendizado αt > 0
• Ki ∗ j := K (δ(Pi ∗ , Pj )) = Kji ∗
• K (δ) é uma "ponderação"crescente ou função "kernel"
Anderson Berg Kohonen para dados simbólicos 15 / 21
16. Kohonen para dados simbólicos intervalares
Ciclos iterativos e parada
(n) (n)
• O primeiro ciclo (l = 1) resulta C (n) = (C1 , . . . Cm ) e
(n) (n)
Z (n) = (z1 , . . . zm )
• O algoritmo segue na série de ciclos (l = 2, 3, . . . )
• Os protótipos do l-ésimo ciclo são usados para inicializar o
(l + 1)-ésimo ciclo
• Os ciclos terminam após c ciclos pre-determinados, ou se os
protótipos atingirem um estado estacionário
Anderson Berg Kohonen para dados simbólicos 16 / 21
17. Kohonen para dados simbólicos intervalares
Regra de parada
O algoritmo é parado depois de t = l · n atualizações, onde l ≥ c ou:
m (l·n) (l−1)·n 2
i=1 zi − zi
∆l := (l·n)
<δ
m 2
i=1 zi
Senão um novo ciclo (l + 1) é realizado.
Anderson Berg Kohonen para dados simbólicos 17 / 21
18. Kohonen para dados simbólicos intervalares
Visualizando a saída do SYKSOM através do Kohonen
O SODAS disponibiliza três módulos:
• VMAP ⇒ exibe a grade L com ícones, zoom stars e diagramas
descrevendo as propriedades das classes em mapas (ordenados
topologicamente)
• VIEW ⇒ exibe os protótipos das classes, por exemplo, com
zoom stars
• VPLOT ⇒ exibe a projeção dos protótipos em um espaço
Euclidiano bidimensional composto por duas variáveis que podem
ser selecionadas pelo usuário.
Anderson Berg Kohonen para dados simbólicos 18 / 21
19. Kohonen para dados simbólicos intervalares
VMAP
1/p
p
(vij − uij )
j=1
Anderson Berg Kohonen para dados simbólicos 19 / 21
20. Kohonen para dados simbólicos intervalares
VIEW
Anderson Berg Kohonen para dados simbólicos 20 / 21
21. Kohonen para dados simbólicos intervalares
VPLOT
Anderson Berg Kohonen para dados simbólicos 21 / 21