Métodos de clustering para dados intervalares e do tipo histograma

Anderson Dantas
Anderson DantasMestre em Ciência da Computação at Universidade Federal de Pernambuco
Métodos de clustering para dados intervalares e
              do tipo histograma

                    Anderson Berg
                           absd@cin.ufpe.br




           Anderson Berg         Métodos de clustering para dados do tipo histograma   1 / 63
Introdução




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                               Anderson Berg   Métodos de clustering para dados do tipo histograma   2 / 63
Introdução




Introdução



  • Duas abordagens de clustering baseadas no algoritmo DCA -
    Dynamic Cluster Algorithm
  • Primeira abordagem:
        Protótipos descritos por vetores de intervalos
        Dissimilaridade baseada na distância de Hausdorff
  • Segunda abordagem:
        Protótipos e objetos descritos de maneiras diferentes
        Função matching




                          Anderson Berg   Métodos de clustering para dados do tipo histograma   3 / 63
Introdução




Notações




 • E = {1, ..., s, ..., n} conjunto de n objetos descritos por p variáveis
   intervalares Y1 , ..., Yj , ..., Yp
          1         p
 • xs = (xs , ..., xs ) vetor de intervalos que descrevem o objeto s
 • P = (C1 , ..., Ci , ..., Ck ) uma partição em k clusters de E
 • Gi = (gi1 , ..., gij , ..., gip ) um protótipo do cluster Ci
 • Λ uma representação do espaço do protótipo Gi




                           Anderson Berg   Métodos de clustering para dados do tipo histograma   4 / 63
Dynamic Cluster Algorithm




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                             Anderson Berg    Métodos de clustering para dados do tipo histograma   5 / 63
Dynamic Cluster Algorithm




Objetivo


Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:



                  ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }




                           Anderson Berg   Métodos de clustering para dados do tipo histograma   6 / 63
Dynamic Cluster Algorithm




Objetivo


Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters
não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem
o critério:



                  ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk }

                                            k
                               ∆(P, L) =              D(xs , Gi )
                                           i=1 s∈Ci




                           Anderson Berg    Métodos de clustering para dados do tipo histograma   6 / 63
Dynamic Cluster Algorithm




Algoritmo



 1   Inicialização: Inicia de uma partição aleatória
     P = (C1 , ..., Ci , ..., Ck ) ou de um vetor (G1 , ..., Gi , ..., Gk ) de k
     protótipos aleatórios escolhidos entre os elementos de E. Neste
     caso:
          Ci = ∅ para i = 1, ..., k
          Para s = 1 até n faça:
                 Atribua s ao cluster Cl , l = argmini=1,...,k D(xs , Gi )
                 Cl = Cl ∪ {s}




                           Anderson Berg     Métodos de clustering para dados do tipo histograma   7 / 63
Dynamic Cluster Algorithm




Algoritmo

 2   Etapa de representação: i = 1 até k , obter o protótipo Gi que
     minimiza o critério:

                                 fCi (G) =          D(xs , G), G ∈ Λ
                                             s∈Ci

 3   Etapa de alocação:
         test ← 0
         para s = 1 até n faça:
                Encontre o cluster Cm ao qual s pertence
                Encontre o índice l tal que: l = argmini=1,...,k D(xs , Gi )
                Se l = m:
                test ← 1
                Cl = Cl ∪ {s} e Cm = Cm − {s}
 4   Se test = 0 pare, senão vá para 2

                          Anderson Berg       Métodos de clustering para dados do tipo histograma   8 / 63
Dois novos métodos de clustering          O primeiro método O segundo método Interpretação




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering
      O primeiro método
      O segundo método
      Interpretação

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                               Anderson Berg   Métodos de clustering para dados do tipo histograma     9 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




O primeiro método

  • Compara dois vetores de intervalos x1 e x2
  • Comparação baseada na distância de Hausdorff
  • É usada a soma das distâncias de Hausdorff entre intervalos




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      10 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Definição da distância de Hausdorff

  • Frequentemente utilizada em processamento de imagem
  • Usada para comparar dois conjuntos de objetos A e B
                                                    j     j    j
  • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
     j     j    j
    x2 = [a2 , b2 ] :

                           j    j           j    j       j    j
                      dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      11 / 63
Dois novos métodos de clustering               O primeiro método O segundo método Interpretação




Definição da distância de Hausdorff

  • Frequentemente utilizada em processamento de imagem
  • Usada para comparar dois conjuntos de objetos A e B
                                                    j     j    j
  • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e
     j     j    j
    x2 = [a2 , b2 ] :

                           j    j           j    j       j    j
                      dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |)


A distância d1 entre dois vetores de intervalos x1 e x2 é a soma das p
variáveis das distâncias de Hausdorff entre os intervalos:
                                            p         j        j      j    j
                  d1 (x1 , x2 ) =           j=1 max(|a1     − a2 |, |b1 − b2 |)



                            Anderson Berg       Métodos de clustering para dados do tipo histograma      11 / 63
Dois novos métodos de clustering                   O primeiro método O segundo método Interpretação




O protótipo


O protótipo G = (g 1 , ..., g p ) de um cluster C é um vetor de p intervalos
que minimizam o critério de adequação:
                                                                         p
                                                                                  j
                   fC (G) =               d1 (xs , G) =                      dH (xs , g j )
                                  s∈C                        s∈C j=1

Ou:
                                                             f˜ (g j )
                                                              C
                                                p
                                                                 j
                                 fC (G) =                   dH (xs , g j )
                                               j=1 s∈C




                            Anderson Berg           Métodos de clustering para dados do tipo histograma      12 / 63
Dois novos métodos de clustering                 O primeiro método O segundo método Interpretação




O protótipo


o problema agora é encontrar o intervalo g j = [αj , β j ] para (j = 1, ..., p)
que minimiza:
                                     j                               j            j
           f˜ (g j ) =
            C                   dH (xs , g j ) =          max(|αj − as |, |β j − bs |)
                          s∈C                      s∈C




                             Anderson Berg         Métodos de clustering para dados do tipo histograma      13 / 63
Dois novos métodos de clustering                O primeiro método O segundo método Interpretação




O protótipo


Vamos resolver o problema da minimização transformando em dois
                                                      j
problemas de minimização bem conhecidos. Seja ms o ponto médio
                 j     j    j      j
de um intervalo xs = [as , bs ] e ls metade do seu tamanho:
                                       j    j                     j    j
                             j        as + bs             j      bs − as
                            ms =                   e     ls =
                                         2                          2
e seja µj e λj o ponto médio e a metade do tamanho do intervalo
g j = [αj , β j ], respectivamente.
De acordo com a seguinte propriedade definida para
x e y em                :

                            max(|x − y |, |x + y |) = |x| + |y |

                            Anderson Berg       Métodos de clustering para dados do tipo histograma       14 / 63
Dois novos métodos de clustering                O primeiro método O segundo método Interpretação




O protótipo



                                           j    j                     j    j
   f˜ (g j ) =
    C                  max(|(µj − λj ) − (ms − ls )|, |(µj + λj ) − (ms + ls )|)
                 s∈C

                                                 j                     j
                              =           |µj − ms | +          |λj − ls |
                                  s∈C                    s∈C




                            Anderson Berg        Métodos de clustering para dados do tipo histograma      15 / 63
Dois novos métodos de clustering            O primeiro método O segundo método Interpretação




O protótipo


Isto leva a dois problemas de minimização bem conhecidos: encontrar
µj ∈ e λj ∈ que minimizam, respectivamente:
                                            j                        j
                                     |µj − ms | e             |λj − ls |
                              s∈C                      s∈C


     ˆ                     j
  • µj : a mediana de {ms , s ∈ C}, que são os pontos médios dos
                j     j    j
    intervalos xs = [as , bs ], s ∈ C
     ˆ
  • λj : a mediana do conjunto {l j , s ∈ C} s
    ˆ      ˆ ˆ                     ˆ    ˆ ˆ       ˆ
  • g j = [αj , β j ] o intervalo [µj − λj , µj + λj ]
  • G = (g 1 , ..., g p ): o protótipo de C
           ˆ          ˆ


                             Anderson Berg    Métodos de clustering para dados do tipo histograma      16 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




O segundo método




                        j     j           j     j
 • Compara duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 )
                                   j    j
 • q1 e q2 são pesos associados a x1 e x2
                                              j    j
 • Uma etapa de pré-processamento discretiza x1 e x2 em intervalos
   elementares




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      17 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Pré-processamento
    j                                                    j         j
 • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
                                     j
   seus pesos correspondentes qs
                              j        j         j
 • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
                                               j      j      j
   conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
 • Ordena-se o conjunto de limites inferiores e superiores dos n
                j         j         j
   intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
                              j
 • Os intervalos elementares Ih devem obedecer as seguintes
   propriedades:




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      18 / 63
Dois novos métodos de clustering            O primeiro método O segundo método Interpretação




Pré-processamento
    j                                                    j         j
 • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e
                                     j
   seus pesos correspondentes qs
                              j        j         j
 • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro
                                               j      j      j
   conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado
 • Ordena-se o conjunto de limites inferiores e superiores dos n
                j         j         j
   intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares
                              j
 • Os intervalos elementares Ih devem obedecer as seguintes
   propriedades:
             Hj   j       j n
       i) h=1 Ih = s=1 xs
           j    j
      ii) Ih ∩ Ih = ∅ se h = h
                       j      j          j      j
     iii) ∀s ∈ E, ∀h Ih ⊆ xs ou Ih ∩ xs = ∅
                     j   j         j                j    j                  j    j j       j
     iv) ∀s ∈ E, ∃Ss ⊂ {I1 , ..., IHj } : I j ∈S j Ih = xs          e     ∀Ih ∈ Ss , Ih ⊆ xs
                                               h    s



                            Anderson Berg   Métodos de clustering para dados do tipo histograma       18 / 63
Dois novos métodos de clustering                 O primeiro método O segundo método Interpretação




Pré-processamento

 j     j    j    j
Ss = {Ih : Ih ⊆ xs } é um subconjunto de intervalos elementares
A Função peso qs é definida como:
                                                      j
                                                qs : Ss → [0, 1]
                                                                         j
                                     j    j        j                   |Ih |
                                    Ih ∈ Ss → qs (Ih ) =            j    j
                                                                   bs − as

  j                             j
|Ih | é o tamanho do intervalo Ih
    j       j      j
∀Ih ∈ Ss , qs (Ih ) ≥ 0
                 j
      j   j qs (I ) = 1
   h I ∈S
       s         h


                                Anderson Berg         Métodos de clustering para dados do tipo histograma      19 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Construção de intervalos elementares




                           Anderson Berg   Métodos de clustering para dados do tipo histograma      20 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Definição da dissimilaridade de "dois componentes"


             j     j           j     j
Duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) são comparadas por:
                             j    j           j    j
                       d2c (p1 , p2 ) = dci (x1 , x2 ) + dcd (q1 , q2 )




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      21 / 63
Dois novos métodos de clustering                 O primeiro método O segundo método Interpretação




O primeiro componente

                                           j     j    j      j     j    j
Dissimilaridade dci entre dois intervalos x1 = [a1 , b1 ] e x2 = [a2 , b2 ]:

                                j    j             ¯j ¯j         j    j
                                                 |(x1 ∩ x2 ) ∩ (x1 ⊕ x2 )|
                          dci (x1 , x2 )     =             j    j
                                                         |x1 ⊕ x2 |

onde:
  • |.| o tamanho de um intervalo
     j    j         j    j         j    j
  • x1 ⊕ x2 = [min(a1 , a2 ), max(b1 , b2 )]
    ¯j          j     j                                   j
  • xs =] − ∞, as [∪]bs , +∞[ o conjunto complementar de xs em




                             Anderson Berg         Métodos de clustering para dados do tipo histograma      22 / 63
Dois novos métodos de clustering                   O primeiro método O segundo método Interpretação




O primeiro componente




Alternativamente:
                                           j   j            j   j
                                    |min(b1 ,b2 )−max(a1 ,a2 )|             j    j
                                                                        se x1 ∩ x2 = ∅
                              
              j    j                      j   j        j   j
        dci (x1 , x2 )    =          max(b1 ,b2 )−min(a1 ,a2 )
                               0                                    senão




                            Anderson Berg           Métodos de clustering para dados do tipo histograma      23 / 63
Dois novos métodos de clustering                     O primeiro método O segundo método Interpretação




O segundo componente


Dissimilaridade dcd entre duas funções peso:

                             1                                 j                                     j
      dcd (q1 , q2 ) =         (                          q1 (Ih ) +                            q2 (Ih ))
                             2      j     j   j   j   j                    j   j   j   j    j
                                 {Ih :Ih ∈S1 ,Ih ∈S2 }
                                                 /                      {Ih :Ih ∈S2 ,Ih ∈S1 }
                                                                                        /

                             j    j               j    j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅




                            Anderson Berg             Métodos de clustering para dados do tipo histograma      24 / 63
Dois novos métodos de clustering                     O primeiro método O segundo método Interpretação




O segundo componente


Dissimilaridade dcd entre duas funções peso:

                             1                                 j                                     j
      dcd (q1 , q2 ) =         (                          q1 (Ih ) +                            q2 (Ih ))
                             2      j     j   j   j   j                    j   j   j   j    j
                                 {Ih :Ih ∈S1 ,Ih ∈S2 }
                                                 /                      {Ih :Ih ∈S2 ,Ih ∈S1 }
                                                                                        /

                             j    j               j    j
0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅

                             p                              p
                                       j    j                          j    j
      d2 (p1 , p2 ) =            d2c (p1 , p2 )       =         (dci (x1 , x2 ) + dcd (q1 , q2 ))
                           j=1                            j=1




                            Anderson Berg             Métodos de clustering para dados do tipo histograma      24 / 63
Dois novos métodos de clustering             O primeiro método O segundo método Interpretação




O protótipo

O protótipo G de um cluster C é agora um vetor de p duplas (Γj , q):
                  j              j
(a) Γj = [mins∈C as , maxs∈C bs ] é um intervalo que generaliza os
                j      j   j
    intervalos xs = [as , bs ] para s ∈ C;
          j
(b) Γj = xs : s ∈ C é um conjunto de intervalos
                                     1                                       j
                      q=          card(C)    {h,s:Ih ∈Ss
                                                        j
                                                            e s∈C} qs (Ih )
                                  0, senão




                            Anderson Berg     Métodos de clustering para dados do tipo histograma      25 / 63
Dois novos métodos de clustering             O primeiro método O segundo método Interpretação




O protótipo


Como a definição (b) de Γj não é um intervalo

              ∗    j                 ¯j
                                   |(xs ∩ (         ¯j       j
                                              s ∈C xs )) ∩ (xs ⊕         (    s ∈C
                                                                                       j
                                                                                      xs ))|
             dci (xs , Γj ) =                     j             j
                                                |xs ⊕ ( s ∈C xs          )|
 j                j           j            j         j            j
xs ⊕ (   s ∈C    xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]




                              Anderson Berg     Métodos de clustering para dados do tipo histograma      26 / 63
Dois novos métodos de clustering                   O primeiro método O segundo método Interpretação




O protótipo


Como a definição (b) de Γj não é um intervalo

              ∗    j                 ¯j
                                   |(xs ∩ (               ¯j       j
                                                    s ∈C xs )) ∩ (xs ⊕         (    s ∈C
                                                                                             j
                                                                                            xs ))|
             dci (xs , Γj ) =                           j             j
                                                      |xs ⊕ ( s ∈C xs          )|
 j                j           j            j         j            j
xs ⊕ (   s ∈C    xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )]

                                              p
                        ∗                             ∗    j
                       d2 (ps , G) =                (dci (xs , Γj ) + dcd (qs , q))
                                              j=1




                              Anderson Berg           Métodos de clustering para dados do tipo histograma      26 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




O algoritmo

a) Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck )
b) Etapa de alocação:
        test ← 0
        para s = 1 até n faça:
                Encontre o cluster Cm ao qual s pertence
                Se card(Cm ) = 1 para l = 1, ..., k e l = m
                calcula novos protótipos Gm de Cm − {s} e Gl de Cl ∪ {s}
                calcula o critério ∆l = k   i=1
                                                                                 ∗
                                                s ∈Ci D(ps ,Gi ) onde D = d2 ou d2
                Encontre o cluster Cl · tal que
                                             l ∗ = argminl=1,...,k ∆l
                Se l ∗ = m move s para Cl ·
                test ← 1
                Cl · = Cl · ∪{s} e Cm = Cm − {s}
c) se test = 0 então pare, senão vá para b)

                             Anderson Berg   Métodos de clustering para dados do tipo histograma      27 / 63
Dois novos métodos de clustering                    O primeiro método O segundo método Interpretação




Interpretação


             n                             k                                k
                    2                                  2
                 d (xs , G) =                        d (xs , Gi ) +             ni d 2 (Gi , G)
           s=1                            i=1 s∈Ci                        i=1

                   TSS                           WSS                                BSS


  • d a distância Euclidiana quadrada
  • G a média dos n pontos xs ∈ E
  • Gi a média dos pontos xs ∈ Ci
  • ni = card(Ci )




                            Anderson Berg            Métodos de clustering para dados do tipo histograma      28 / 63
Dois novos métodos de clustering               O primeiro método O segundo método Interpretação




Interpretação


A média G de um cluster C é o ponto g ∈                         p   que minimiza o critério:

                                    fC (g) =         d 2 (xs , g)
                                               s∈C


No primeiro método, a média G é generalizada para protótipo G, que
minimiza:
                       fC (g) =    D(xs , g)
                                               s∈C




                           Anderson Berg       Métodos de clustering para dados do tipo histograma      29 / 63
Dois novos métodos de clustering              O primeiro método O segundo método Interpretação




Interpretação




TSS e WSS podem ser generalizados usando o protótipo Gi de um
cluster Ci :
  • WSS = k    i=1            s∈Ci   D(xs , Gi ) =      k
                                                        i=1 fCi (Gi ),     que é igual ao
    critério ∆(P, L)
  • TSS = n D(xs , GE ), que é o critério fE (GE ), com GE o
              s=1
    protótipo de todo o conjunto E




                            Anderson Berg     Métodos de clustering para dados do tipo histograma       30 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Interpretação

Três critérios serão utilizados para interpretar uma partição e seus
clusters:

  • fCi (Gi ) que é a medida de homogeneidade do cluster Ci ;
  • ∆(P, L) que é a medida da homogeneidade intra-cluster
    (within-cluster) da partição P;
  • fE (GE ) que é a medida da homogeneidade total do conjunto E.




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      31 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Interpretação da partição


Qualidade de uma partição:

                                                   ∆(P, L)
                                     Q(P) = 1 −
                                                   fE (GE )

Qualidade da partição para cada variável Yj :
                                                    k ˜
                                                             ˆj
                                                    i=1 fCi (gi )
                                 Qj (P) = 1 −
                                                    ˜E (g j )
                                                     f ˆE




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      32 / 63
Dois novos métodos de clustering            O primeiro método O segundo método Interpretação




Interpretação dos clusters


A qualidade de um cluster Ci de E é definida por:

                                                     fCi (Gi )
                                     Q(Ci ) = 1 −
                                                    fCi (GE )

A contribuição de um cluster Ci à homogeneidade intra-cluster de P é
definida por:
                                    fC (Gi )
                          K (Ci ) = i
                                    ∆(P, L)
A soma de k contribuições é 1




                            Anderson Berg    Métodos de clustering para dados do tipo histograma      33 / 63
Dois novos métodos de clustering           O primeiro método O segundo método Interpretação




Interpretação dos clusters


Um critério final que é útil para interpretar um cluster de acordo com
uma variável Yj é:
                                         ˜C (g j )
                                         f ˆ
                          Qj (Ci ) = 1 − i ij
                                         ˜C (g
                                         f ˆ            i    E




                            Anderson Berg   Métodos de clustering para dados do tipo histograma      34 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models
      Introdução
      Pré-processamento
      Distâncias adaptativas
      Algoritmo
      Interpretação

5   Medida de Wasserstein




                               Anderson Berg     Métodos de clustering para dados do tipo histograma    35 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Partitioning dynamical cluster algorithm

  • Algoritmos iterativos de duas etapas
  • Construção de clusters e representações de protótipos
  • Critério de adequação
  • Clustering dinâmico adaptativo
  • Análise de dados simbólicos
  • Pré-processamento




                            Anderson Berg     Métodos de clustering para dados do tipo histograma    36 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Tipos de dados

Dada uma variável simbólica Xj , ela é:
  • set-valued se, dado um item i, Xj (i) = xij ⊆ Aj onde
           j         j
    Aj = {t1 , ..., tHj } é um conjunto de categorias
  • ordered list-valued se, dado um item i, Xj (i) = xij , onde xij é uma
                                                            j      j
    sub-lista de uma lista ordenada de categorias Aj = [t1 , ..., tHj ]
  • interval-valued se, dado um item i, Xj (i) = xij = [aij , bij ] ∈ [a, b],
    onde [a, b] ∈ e é o conjunto de intervalos fechados definidos
    em
  • histogram-valued se, dado um item i, Xj (i) = xij = (S j (i), qj (i))
                    j          j
    onde qj (i) = (qi1 , ..., qiHij ) é um vetor de pesos definido em S j (i),
    tal que um peso q(m) corresponde a cada categoria m ∈ S j (i)

                             Anderson Berg     Métodos de clustering para dados do tipo histograma    37 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Tabela de dados




         City       X1                X2                                            X3
         1          [70,100]          ((D,C,S,N),(0.4,0.3,0.2,0.1))                {F,I}
         2          [50,70]           ((D,C,S,N),(0.3,0.3,0.3,0.1))                {S,G}
         3          [20,40]           ((D,C,S,N),(0.2,0.2,0.2,0.4))                {GB,G}
         4          [60,100]          ((D,C,S,N),(0.1,0.3,0.4,0.2))                {B,GB}




                            Anderson Berg     Métodos de clustering para dados do tipo histograma    38 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Set-valued


                                       Xj (i) = xij = (Aj , qj (i))
                                       ˜        ˜
            j         j
onde Aj = {t1 , ..., tHj }

        j                                    j
O peso qh (i)(h = 1, ..., Hj ) da categoria th ∈ Aj é definido como:


                                j
                                                  1
                                                    j ,     se th ∈ xij ,
                                                                j
                               qh (i)   =       c(xi )
                                                0,         se th ∈ xij ,
                                                               j
                                                                 /

onde c(A) é a cardinalidade de um conjunto finito de categorias A.




                              Anderson Berg          Métodos de clustering para dados do tipo histograma    39 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Ordered list-valued


                                      Xj (i) = xij = (Aj , Qj (i))
                                      ˜        ˜
            j         j
onde Aj = [t1 , ..., tHj ]
                    j                                   j
O peso cumulativo Qh (i)(h = 1, ..., Hj ) da categoria th da lista
ordenada Aj é definido como:


                                                                se a categoria trj está na
                                                       1
                 h                                       j ,
                                                     l(xi )
   j
  Qh (i) =            qrj (i), onde qrj (i) =                  j
                                                  sub-lista xi ,
               r =1                              
                                                   0, senão

onde l(A) é o tamanho de uma lista ordenada de categorias A

                              Anderson Berg      Métodos de clustering para dados do tipo histograma    40 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Interval-valued


                                               ˜
                                      Xj (i) = xij = (Aj , Q j (i))
                                      ˜               ˜

     ˜      j         j
onde Aj = {I1 , ..., IHj }

                      j                                              j
Os pesos cumulativos Qh (i)(h = 1, ..., Hj ) do intervalo elementar Ih é
definido como:
                                     h
                      j                                                     l(Irj ∩ xij )
                     Qh (i) =             qrj (i),   onde qrj (i) =                         ,
                                   r =1                                         l(xij )
onde l(I) é o tamanho do intervalo fechado I



                              Anderson Berg          Métodos de clustering para dados do tipo histograma    41 / 63
Unsupervised pattern recognition models             Introdução Pré-processamento Distâncias adaptativas Algori




Intervalos elementares

Propriedades dos intervalos elementares:
         Hj   j
(1)      h=1 Ih = [a, b]
       j    j
(2)   Ih ∩ Ih = ∅ se               h=h
                                  j
(3) ∀h∃i ∈ Ω tal que             Ih   ∩ xij = ∅
(4) ∀i∃Sij ⊂ {1, ..., Hj } : ∪h∈S j Ih = xij
                                     j
                                                 i




                               Anderson Berg         Métodos de clustering para dados do tipo histograma    42 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Exemplo


                          Country            X1                X2
                          1                  [10,30]           {A,Co}
                          2                  [25,35]           {C,Co,E}
                          3                  [90,130]          {A,C,E}
                          4                  [125,140]         {A,C,Co,E}

 • X1 é o mínimo e o máximo do produto nacional bruto (em milhões)
 • X2 indica as principais indústrias a partir do conjunto
   A2 = {A = agricultura , C = chemistry, Co = commerce, E =
   engineering, En = energy, I = informatic}




                           Anderson Berg          Métodos de clustering para dados do tipo histograma    43 / 63
Unsupervised pattern recognition models                     Introdução Pré-processamento Distâncias adaptativas Algori




Intervalos elementares

                                          ˜       1 1 1 1 1 1 1
Conjunto de intervalos elementares: A1 = {I1 , I2 , I3 , I4 , I5 , I6 , I7 }, onde
 1              1              1              1              1
I1 = [10, 25[, I2 = [25, 30[, I3 = [30, 35[, I4 = [35, 90[, I5 =
            7 = [125, 130[ e I 1 = [130, 140[
[90, 125[, I6                   7

          Country     X1                                           X2

          1           (A1 , Q1 (1) = (0.75, 1, 1, 1, 1, 1, 1))
                       ˜                                           (A2 , q2 (1) = (0.5, 0, 0.5, 0, 0, 0))
                                                                    ˜

          2           (A1 , Q1 (2) = (0, 0.5, 0.5, 1, 1, 1, 1))
                       ˜                                           (A2 , q2 (2) = (0, 0.33, 0.33, 0.33, 0, 0))
                                                                    ˜

          3           (A1 , Q1 (3) = (0, 0, 0, 0, 0.88, 1, 1))
                       ˜                                           (A2 , q2 (3) = (0.33, 0.33, 0, 0.33, 0, 0))
                                                                    ˜

          4           (A1 , Q1 (4) = (0, 0, 0, 0, 0, 0.33, 1))
                       ˜                                           (A2 , q2 (4) = (0.25, 0.25, 0.25, 0.25, 0, 0))
                                                                    ˜




                               Anderson Berg              Métodos de clustering para dados do tipo histograma       44 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Representação dos dados

Depois do pré-processamento:

xi = (xi1 , . . . , xip ), xij = (Dj , u j (i))
˜     ˜             ˜ ˜
    j            j              j
  ˜
e u (i) = (u1 (i), . . . , uHj (i))

O protótipo do cluster Ck (k = 1, ..., K ) é representado por um vetor de
histogram-valued symbolic data:
                    p       j
gk = (gk , . . . , gk ), gk = (Dj , vj (k ))(j = 1, . . . , p)
          1
            j                 j
vj (k ) = (v1 (k ), . . . , vhj (k ))




                               Anderson Berg      Métodos de clustering para dados do tipo histograma    45 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Esquema geral

Encontrar a partição P ∗ = {C1 , . . . , CK } de Ω em K clusters, os K
                              ∗            ∗
                              ∗          ∗       ∗
protótipos correspondentes G = (g1 , . . . , gK ) representando os
clusters em P ∗ e K distâncias Euclidianas quadradas adaptativas

parametrizadas por K vetores de pesos D∗ = (λ∗ , . . . , λ∗ )
                                                     1      K

Critério de adequação:
                                                K
                          W (G, D, P) =                      ˜
                                                           d(xi , gk | λk )
                                               k =1 i∈Ck




                             Anderson Berg      Métodos de clustering para dados do tipo histograma    46 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Distâncias Euclidianas adaptativas

(a) Distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp )

                                                p           Hj
                                                                    j        j
                             ˜
                           d(xi , gk | λ) =           λj          (uh (i) − vh (k ))2
                                                j=1        h=1


(b) Distância por cluster: λk = (λ1 , . . . , λp )
                                  k            k

                                                 p           Hj
                           ˜
                         d(xi , gk | λk ) =           λjk           j        j
                                                                  (uh (i) − vh (k ))2
                                                j=1         h=1




                              Anderson Berg      Métodos de clustering para dados do tipo histograma    47 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Pré-processamento: homogenização dos dados

Para todos os objetos i = 1, . . . , n e todas as variáveis j = 1, . . . , p
calcular xij = (Dj , u j (i))
         ˜




                              Anderson Berg     Métodos de clustering para dados do tipo histograma    48 / 63
Unsupervised pattern recognition models               Introdução Pré-processamento Distâncias adaptativas Algori




Etapa de inicialização
                                                                                (0)             (0)
Escolher aleatoriamente uma partição P (0) = (C1 , . . . , CK ) de Ω ou
                                (0)             (0)
K objetos distintos g1 , . . . , gK pertencentes a Ω e atribua cada
                                   (0)
objeto i ao protótipo gk ∗ mais próximo, onde
                                      p         Hj     j                 j
k ∗ = argmink =1,...,K {              j=1       h=1 ((uh (i))
                                                             (0)     − (vh (k ))(0) )2 }. t = 1.




                              Anderson Berg           Métodos de clustering para dados do tipo histograma    49 / 63
Unsupervised pattern recognition models             Introdução Pré-processamento Distâncias adaptativas Algori




Passo 1: Definição dos protótipos

P = {C1 , . . . , CK } e D = (λ1 , . . . , λK ) fixos

                                                          1            p
O vetor de protótipos G = (g1 , . . . , gK ), onde gk = (gk , . . . , gk ) com
  j
gk = (Dj , v j (k )) que minimiza o critério W , onde o vetor
             j                j
v j (k ) = (v1 (k ), . . . , vHj (k )) é calculado por:

                                         j          1            j
                                        vh (k ) =               uh (i)
                                                    nk
                                                         i∈Ck

onde nk é a cardinalidade da classe Ck




                              Anderson Berg         Métodos de clustering para dados do tipo histograma    50 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Passo 2: Definição das distâncias

P = {C1 , . . . , CK } e G = (g1 , . . . , gk ) fixos
(a) Para distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ),
    λj > 0 e p λj = η
               j=1

                                                                            1
                            p       K             Hl    l        l      2
             j
                    {η      l=1 ( k =1 [ i∈Ck ( h=1 (uh (i) − vh (k )) )])}
                                                                            p
           λ =                                 Hj
                                 K                   j       j      2
                                 k =1 [ i∈Ck ( h=1 uh (i) − vh (k )) )]




                              Anderson Berg     Métodos de clustering para dados do tipo histograma    51 / 63
Unsupervised pattern recognition models          Introdução Pré-processamento Distâncias adaptativas Algori




Passo 2: Definição das distâncias

(b) Para distância por cluster: λk = (λ1 , . . . , λp )λjk > 0 e
                                       k            k
                                                                                              p    j
                                                                                              j=1 λk   =χ

                                                    Hj                                    1
                                  p                      l        l     2
                          {χ      l=1 (    i∈Ck ( h=1 (uh (i) − vh (k )) ))}
                                                                             p
                λjk   =                          Hj    j      j     2
                                        i∈Ck ( h=1 uh (i) − vh (k )) )




                             Anderson Berg      Métodos de clustering para dados do tipo histograma     52 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Passo 3: Definição da partição

G = (g1 , . . . , gk ) e D = (λ1 , . . . , λK ) fixos

                           ˜                  ˜
           Ck = {i ∈ Ω : d(xi , gk | λk ) < d(xi , gm | λm ) e quando
                              ˜                    ˜
                          dk (xi , gk | λk ) = dk (xi , gm | λm ) então
                       i ∈ Ck se k < m∀m = k (m = 1, . . . , K )}




                              Anderson Berg     Métodos de clustering para dados do tipo histograma    53 / 63
Unsupervised pattern recognition models              Introdução Pré-processamento Distâncias adaptativas Algori




Soma dos quadrados global


                               n                             K
                     T =             ˜
                                   d(xi , g | λk ) =                     ˜
                                                                       d(xi , g | λk )
                             i=1                           k =1 i∈Ck

onde g = (g 1 , . . . , g p ), g j = (Dj , vj )(j = 1, . . . , p) e o vetor de pesos
       j            j
vj = (v1 , . . . , vHj ) é calculado por:

                                                       n
                                             j     1          j
                                            vh =             uh (i)
                                                   n
                                                       i=1




                              Anderson Berg        Métodos de clustering para dados do tipo histograma      54 / 63
Unsupervised pattern recognition models             Introdução Pré-processamento Distâncias adaptativas Algori




Soma dos quadrados intra-classe: W


                                              K
                                 W =                    ˜
                                                      d(xi , gk | λk )
                                          k =1 i∈Ck




                            Anderson Berg         Métodos de clustering para dados do tipo histograma    55 / 63
Unsupervised pattern recognition models                 Introdução Pré-processamento Distâncias adaptativas Algori




Soma dos quadrados inter-classe: B


                                               K
                                    B=               nk d(gk , g | λk )
                                              k =1




                            Anderson Berg             Métodos de clustering para dados do tipo histograma    56 / 63
Unsupervised pattern recognition models         Introdução Pré-processamento Distâncias adaptativas Algori




Relações entre as somas

  • T =W +B
  • Tk = Wk + Bk (k = 1, . . . , K )
  • Tj = Wj + Bj (j = 1, . . . , p)
  • Tkj = Wkj + Bkj (k = 1, . . . , K ; j = 1, . . . , p)




                             Anderson Berg     Métodos de clustering para dados do tipo histograma    57 / 63
Medida de Wasserstein




Índice

1   Introdução

2   Dynamic Cluster Algorithm

3   Dois novos métodos de clustering

4   Unsupervised pattern recognition models

5   Medida de Wasserstein




                            Anderson Berg     Métodos de clustering para dados do tipo histograma   58 / 63
Medida de Wasserstein




Notação

 • Y é uma variável contínua definida em S = [y ; y ]
 • Y é particionada em intervalos contíguos: {I1 , . . . , Ih , . . . , IH } onde
   Ih = [yh ; yh ]
 • A cada intervalo semi-aberto Ih é associada uma variável
   aleatória:
                                                    N
                                         Ψ(Ih ) =         Ψyu (Ih )
                                                    u=1

   onde Ψyu (Ih ) = 1 se yu ∈ Ih , 0 se não
 • Distribuição empírica associada a Ih : πh = Ψ(Ih )/N




                         Anderson Berg        Métodos de clustering para dados do tipo histograma   59 / 63
Medida de Wasserstein




Distância quadrada

A distância quadrada entre duas descrições de histograma Y (i) e Y (j)
é:
                                         m        wl
             2
            dM (Y (i), Y (j))      :=                  (Ψ−1 (t) − Ψ−1 (t))2 dt
                                                         i         j
                                         l=1    wl−1

Cada dupla (wl−1 , wl ) permite identificar dois intervalos, um para i e
outro para j:

      Ili = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
              i            i                    e       Ilj = [Ψ−1 (wl−1 ); Ψ−1 (wl )]
                                                                j            j




                         Anderson Berg         Métodos de clustering para dados do tipo histograma   60 / 63
Medida de Wasserstein




Distância quadrada

Para cada intervalo é possível calcular os centros e os raios:

   cli = (Ψ−1 (wl ) + Ψ−1 (wl−1 ))/2
           i           i                              rli = (Ψ−1 (wl ) − Ψ−1 (wl−1 ))/2
                                                              i           i

O cálculo da distância pode ser reescrito:


                             p    mk
    2                                     (k )        (k )       (k ) 2        1 (k )  (k )            2
   dM (Y (i), Y (j)) :=                  πl        cli       − clj        +      r − rlj
                                                                               3 li
                            k =1 l=1




                         Anderson Berg           Métodos de clustering para dados do tipo histograma       61 / 63
Medida de Wasserstein




dM para dynamic clustering


            f (Y (b)|Y (1), . . . , Y (n)) = f (c1b , r1b , . . . , cmb , rmb ) =
           n                                       n     m
                                                                                   1
      =          d 2 (Y (i), Y (b)) =                            πj (cji − cjb )2 + (rji − rjb )2
                                                                                   3
          i=1                                     i=1 j=1
Esta função atinge um mínimo quando:
                                              n                                     n
                                       −1                                     −1
                          cjb = n                  cji       ;      rjb = n              rji
                                            i=1                                    i=1

O baricentro (protótipo) do histograma:

  Y (b) = {([c1b − r1b ; c1b + r1b ] , π1 ) ; . . . ;                     cjb − rjb ; cjb + rjb , πj ; . . . ;
                                                             ; . . . ; ([cmb − rmb ; cmb + rmb ] , πm )}

                              Anderson Berg              Métodos de clustering para dados do tipo histograma   62 / 63
Bibliografia


Marie Chavent, Francisco De A. T. Carvalho, Yves Lechevallier, and Rosanna
Verde.
New clustering methods for interval data.
Computational Statistics, 21:211–229, 2006.

Francisco De A.T. de Carvalho and Renata M.C.R. de Souza.
New clustering methods for interval data.
Computational Statistics, 2006.




                     Anderson Berg   Métodos de clustering para dados do tipo histograma   63 / 63
1 of 68

Recommended

Redes neurais com matlab by
Redes neurais com matlabRedes neurais com matlab
Redes neurais com matlabRenato Vicente
9K views75 slides
[Robson] 7. Programação Não Linear Irrestrita by
[Robson] 7. Programação Não Linear Irrestrita[Robson] 7. Programação Não Linear Irrestrita
[Robson] 7. Programação Não Linear Irrestritalapodcc
1.5K views109 slides
Redes Neurais: Processos Gaussianos by
Redes Neurais: Processos GaussianosRedes Neurais: Processos Gaussianos
Redes Neurais: Processos GaussianosRenato Vicente
1.2K views18 slides
Redes Neurais: Estimação de Densidades by
Redes Neurais: Estimação de DensidadesRedes Neurais: Estimação de Densidades
Redes Neurais: Estimação de DensidadesRenato Vicente
636 views20 slides
Redes Neurais: Técnicas Bayesianas by
Redes Neurais: Técnicas BayesianasRedes Neurais: Técnicas Bayesianas
Redes Neurais: Técnicas BayesianasRenato Vicente
1.3K views22 slides
[Robson] 3. Método Simplex by
[Robson] 3. Método Simplex[Robson] 3. Método Simplex
[Robson] 3. Método Simplexlapodcc
2.3K views60 slides

More Related Content

What's hot

Aula quatro jornadas12_handout by
Aula quatro jornadas12_handoutAula quatro jornadas12_handout
Aula quatro jornadas12_handoutRoberto Kraenkel
327 views35 slides
[Alexandre] 8. Não Linear Restrita by
[Alexandre] 8. Não Linear Restrita[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restritalapodcc
850 views97 slides
Exercicios resolv3 mat by
Exercicios resolv3 matExercicios resolv3 mat
Exercicios resolv3 mattrigono_metria
568 views12 slides
1º matemática by
1º matemática1º matemática
1º matemáticanewtonbonfim
232 views8 slides
V@R Não-Linear by
V@R Não-LinearV@R Não-Linear
V@R Não-LinearRenato Vicente
483 views30 slides
Redes Neurais: classificação e regressão by
Redes Neurais: classificação e regressãoRedes Neurais: classificação e regressão
Redes Neurais: classificação e regressãoRenato Vicente
2.1K views21 slides

What's hot(19)

[Alexandre] 8. Não Linear Restrita by lapodcc
[Alexandre] 8. Não Linear Restrita[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita
lapodcc850 views
Redes Neurais: classificação e regressão by Renato Vicente
Redes Neurais: classificação e regressãoRedes Neurais: classificação e regressão
Redes Neurais: classificação e regressão
Renato Vicente2.1K views
[Robson] 5. Análise de Sensibilidade by lapodcc
[Robson] 5. Análise de Sensibilidade[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade
lapodcc2.7K views
CfSd 2016 matematica - 2 v1 by profNICODEMOS
CfSd 2016   matematica - 2 v1CfSd 2016   matematica - 2 v1
CfSd 2016 matematica - 2 v1
profNICODEMOS2.7K views
Formulário de Análise Matemática by Pedro Dias
Formulário de Análise MatemáticaFormulário de Análise Matemática
Formulário de Análise Matemática
Pedro Dias3K views
[Robson] 4. Dualidade by lapodcc
[Robson] 4. Dualidade[Robson] 4. Dualidade
[Robson] 4. Dualidade
lapodcc1.4K views
Apost2 exresolvidos retas-planos by con_seguir
Apost2 exresolvidos retas-planosApost2 exresolvidos retas-planos
Apost2 exresolvidos retas-planos
con_seguir16.1K views
03 eac proj vest mat módulo 1 função exponencial by con_seguir
03 eac proj vest mat módulo 1 função exponencial03 eac proj vest mat módulo 1 função exponencial
03 eac proj vest mat módulo 1 função exponencial
con_seguir8.7K views
Exercícios resolvidos matematica 01 by resolvidos
Exercícios resolvidos matematica 01Exercícios resolvidos matematica 01
Exercícios resolvidos matematica 01
resolvidos573 views
Calculo vetorial by tooonks
Calculo vetorialCalculo vetorial
Calculo vetorial
tooonks37.3K views
Apostila 3 calculo i integrais by trigono_metrico
Apostila 3 calculo i integraisApostila 3 calculo i integrais
Apostila 3 calculo i integrais
trigono_metrico8.8K views

Viewers also liked

Emprego da Visão Computacional no contexto de AP - Cameras by
Emprego da Visão Computacional  no contexto de AP - CamerasEmprego da Visão Computacional  no contexto de AP - Cameras
Emprego da Visão Computacional no contexto de AP - Cameraspipesmythe
1.4K views19 slides
Demanda - MercadoLivre Developers Conference by
Demanda - MercadoLivre Developers ConferenceDemanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers ConferencePablo Moretti
3.1K views25 slides
Adoração by
AdoraçãoAdoração
AdoraçãoDiego Fortunatto
964 views6 slides
Demanda by
DemandaDemanda
Demandamelidevelopers
957 views25 slides
Introdução OCR by
Introdução OCRIntrodução OCR
Introdução OCRRui Sérgio Pinto
951 views24 slides
OCR: Uma Tecnologia a Serviço do Professor by
OCR: Uma Tecnologia a Serviço do ProfessorOCR: Uma Tecnologia a Serviço do Professor
OCR: Uma Tecnologia a Serviço do ProfessorDaniel Caixeta Queiroz Garcia
721 views10 slides

Viewers also liked(20)

Emprego da Visão Computacional no contexto de AP - Cameras by pipesmythe
Emprego da Visão Computacional  no contexto de AP - CamerasEmprego da Visão Computacional  no contexto de AP - Cameras
Emprego da Visão Computacional no contexto de AP - Cameras
pipesmythe1.4K views
Demanda - MercadoLivre Developers Conference by Pablo Moretti
Demanda - MercadoLivre Developers ConferenceDemanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers Conference
Pablo Moretti3.1K views
Salient effects of publicity in advertised brand recall and recognition by Gustavo Viegas
Salient effects of publicity in advertised brand recall and recognitionSalient effects of publicity in advertised brand recall and recognition
Salient effects of publicity in advertised brand recall and recognition
Gustavo Viegas805 views
Cameras smythe e raniel by pipesmythe
Cameras smythe e ranielCameras smythe e raniel
Cameras smythe e raniel
pipesmythe1.1K views
Ashtavakra Gita - Chapter 3 - Test of the Seeker by Vinod Kad
Ashtavakra Gita - Chapter 3 - Test of the SeekerAshtavakra Gita - Chapter 3 - Test of the Seeker
Ashtavakra Gita - Chapter 3 - Test of the Seeker
Vinod Kad1.2K views
Recherche d'emploi et réseaux sociaux by Webpatron
Recherche d'emploi et réseaux sociauxRecherche d'emploi et réseaux sociaux
Recherche d'emploi et réseaux sociaux
Webpatron2K views
Depoimentos de clientes da Seeker Tecnologia by Seeker Tecnologia
Depoimentos de clientes da Seeker TecnologiaDepoimentos de clientes da Seeker Tecnologia
Depoimentos de clientes da Seeker Tecnologia
Seeker Tecnologia940 views
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017 by YOODx
 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
YOODx890 views
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016 by Search Foresight
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Search Foresight6.1K views
Working out your Team Role by Neha Agrawal
Working out your Team RoleWorking out your Team Role
Working out your Team Role
Neha Agrawal2.4K views
Understanding Social Media for Business by Site-Seeker, Inc.
Understanding Social Media for BusinessUnderstanding Social Media for Business
Understanding Social Media for Business
Site-Seeker, Inc.1.4K views

Similar to Métodos de clustering para dados intervalares e do tipo histograma

Kmeans by
KmeansKmeans
KmeansWagner
5.8K views29 slides
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si... by
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Agnaldo Coelho
786 views32 slides
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si... by
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Agnaldo Coelho
1.3K views32 slides
Slides cn c05 by
Slides cn c05Slides cn c05
Slides cn c05Paulo Nascimento
704 views43 slides
Introdução à Amostragem Compressiva by
Introdução à Amostragem CompressivaIntrodução à Amostragem Compressiva
Introdução à Amostragem CompressivaEdmar Gurjão
823 views71 slides
03 raizes by
03 raizes03 raizes
03 raizesLoraydan Soares
1.3K views131 slides

Similar to Métodos de clustering para dados intervalares e do tipo histograma(20)

Kmeans by Wagner
KmeansKmeans
Kmeans
Wagner5.8K views
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si... by Agnaldo Coelho
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Agnaldo Coelho786 views
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si... by Agnaldo Coelho
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Agnaldo Coelho1.3K views
Introdução à Amostragem Compressiva by Edmar Gurjão
Introdução à Amostragem CompressivaIntrodução à Amostragem Compressiva
Introdução à Amostragem Compressiva
Edmar Gurjão823 views
Teoria elementar dos numeros by lealtran
Teoria elementar dos numerosTeoria elementar dos numeros
Teoria elementar dos numeros
lealtran11.4K views
Expoente 12 prova modelo de exame-enunciado by Susana Figueiredo
Expoente 12 prova modelo de exame-enunciadoExpoente 12 prova modelo de exame-enunciado
Expoente 12 prova modelo de exame-enunciado
Susana Figueiredo1.4K views
Mat em funcoes trigonometricas sol vol1 cap9 parte 1 by trigono_metrico
Mat em funcoes trigonometricas sol vol1 cap9 parte 1Mat em funcoes trigonometricas sol vol1 cap9 parte 1
Mat em funcoes trigonometricas sol vol1 cap9 parte 1
trigono_metrico277 views
Formula luderiana racional para extracao de raiz quadrada (completo) by ludenir
Formula luderiana racional para extracao de raiz quadrada (completo)Formula luderiana racional para extracao de raiz quadrada (completo)
Formula luderiana racional para extracao de raiz quadrada (completo)
ludenir1.4K views
Aritmética - Aula 5 - Algoritmo de Euclides by Luciana Martino
Aritmética - Aula 5 - Algoritmo de EuclidesAritmética - Aula 5 - Algoritmo de Euclides
Aritmética - Aula 5 - Algoritmo de Euclides
Luciana Martino843 views
Classificação de séries temporais via divergente entre densidades de probabil... by André Carvalho
Classificação de séries temporais via divergente entre densidades de probabil...Classificação de séries temporais via divergente entre densidades de probabil...
Classificação de séries temporais via divergente entre densidades de probabil...
André Carvalho236 views

Recently uploaded

Criando testes integrados de APIs com PHP by
Criando testes integrados de APIs com PHPCriando testes integrados de APIs com PHP
Criando testes integrados de APIs com PHPFlávio Lisboa
16 views33 slides
VIRTUS 1.6 MSI.pdf by
VIRTUS 1.6 MSI.pdfVIRTUS 1.6 MSI.pdf
VIRTUS 1.6 MSI.pdfFbioVieira85
5 views13 slides
A INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASIL by
A INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASILA INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASIL
A INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASILFaga1939
5 views6 slides
DevFest2023-Pragmatismo da Internet das Coisas by
DevFest2023-Pragmatismo da Internet das CoisasDevFest2023-Pragmatismo da Internet das Coisas
DevFest2023-Pragmatismo da Internet das CoisasWalter Coan
36 views40 slides
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023 by
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023AcademicaDlaUnicesum
6 views3 slides
Conheça agora o UiPath Autopilot™ para o Studio.pdf by
Conheça agora o UiPath Autopilot™ para o Studio.pdfConheça agora o UiPath Autopilot™ para o Studio.pdf
Conheça agora o UiPath Autopilot™ para o Studio.pdfBrunaCavalcanti29
14 views8 slides

Recently uploaded(11)

Criando testes integrados de APIs com PHP by Flávio Lisboa
Criando testes integrados de APIs com PHPCriando testes integrados de APIs com PHP
Criando testes integrados de APIs com PHP
Flávio Lisboa16 views
A INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASIL by Faga1939
A INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASILA INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASIL
A INDÚSTRIA 4.0 E O DESENVOLVIMENTO INDUSTRIAL DO BRASIL
Faga19395 views
DevFest2023-Pragmatismo da Internet das Coisas by Walter Coan
DevFest2023-Pragmatismo da Internet das CoisasDevFest2023-Pragmatismo da Internet das Coisas
DevFest2023-Pragmatismo da Internet das Coisas
Walter Coan36 views
Conheça agora o UiPath Autopilot™ para o Studio.pdf by BrunaCavalcanti29
Conheça agora o UiPath Autopilot™ para o Studio.pdfConheça agora o UiPath Autopilot™ para o Studio.pdf
Conheça agora o UiPath Autopilot™ para o Studio.pdf
TechConnection 2023 Floripa Azure Container Apps by Walter Coan
TechConnection 2023 Floripa Azure Container AppsTechConnection 2023 Floripa Azure Container Apps
TechConnection 2023 Floripa Azure Container Apps
Walter Coan6 views
Shift left DevOps Experience by Walter Coan
Shift left DevOps ExperienceShift left DevOps Experience
Shift left DevOps Experience
Walter Coan5 views

Métodos de clustering para dados intervalares e do tipo histograma

  • 1. Métodos de clustering para dados intervalares e do tipo histograma Anderson Berg absd@cin.ufpe.br Anderson Berg Métodos de clustering para dados do tipo histograma 1 / 63
  • 2. Introdução Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 2 / 63
  • 3. Introdução Introdução • Duas abordagens de clustering baseadas no algoritmo DCA - Dynamic Cluster Algorithm • Primeira abordagem: Protótipos descritos por vetores de intervalos Dissimilaridade baseada na distância de Hausdorff • Segunda abordagem: Protótipos e objetos descritos de maneiras diferentes Função matching Anderson Berg Métodos de clustering para dados do tipo histograma 3 / 63
  • 4. Introdução Notações • E = {1, ..., s, ..., n} conjunto de n objetos descritos por p variáveis intervalares Y1 , ..., Yj , ..., Yp 1 p • xs = (xs , ..., xs ) vetor de intervalos que descrevem o objeto s • P = (C1 , ..., Ci , ..., Ck ) uma partição em k clusters de E • Gi = (gi1 , ..., gij , ..., gip ) um protótipo do cluster Ci • Λ uma representação do espaço do protótipo Gi Anderson Berg Métodos de clustering para dados do tipo histograma 4 / 63
  • 5. Dynamic Cluster Algorithm Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 5 / 63
  • 6. Dynamic Cluster Algorithm Objetivo Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem o critério: ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk } Anderson Berg Métodos de clustering para dados do tipo histograma 6 / 63
  • 7. Dynamic Cluster Algorithm Objetivo Encontrar uma partição P ∗ = (C1 , ..., Ck ) de E em k clusters não-vazios e um vetor L∗ = (G1 , ..., Gi , ...Gk ) tal que P ∗ e L∗ otimizem o critério: ∆(P ∗ , L∗ ) = Min{∆(P, L)/P ∈ Pk , L ∈ Λk } k ∆(P, L) = D(xs , Gi ) i=1 s∈Ci Anderson Berg Métodos de clustering para dados do tipo histograma 6 / 63
  • 8. Dynamic Cluster Algorithm Algoritmo 1 Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck ) ou de um vetor (G1 , ..., Gi , ..., Gk ) de k protótipos aleatórios escolhidos entre os elementos de E. Neste caso: Ci = ∅ para i = 1, ..., k Para s = 1 até n faça: Atribua s ao cluster Cl , l = argmini=1,...,k D(xs , Gi ) Cl = Cl ∪ {s} Anderson Berg Métodos de clustering para dados do tipo histograma 7 / 63
  • 9. Dynamic Cluster Algorithm Algoritmo 2 Etapa de representação: i = 1 até k , obter o protótipo Gi que minimiza o critério: fCi (G) = D(xs , G), G ∈ Λ s∈Ci 3 Etapa de alocação: test ← 0 para s = 1 até n faça: Encontre o cluster Cm ao qual s pertence Encontre o índice l tal que: l = argmini=1,...,k D(xs , Gi ) Se l = m: test ← 1 Cl = Cl ∪ {s} e Cm = Cm − {s} 4 Se test = 0 pare, senão vá para 2 Anderson Berg Métodos de clustering para dados do tipo histograma 8 / 63
  • 10. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering O primeiro método O segundo método Interpretação 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 9 / 63
  • 11. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O primeiro método • Compara dois vetores de intervalos x1 e x2 • Comparação baseada na distância de Hausdorff • É usada a soma das distâncias de Hausdorff entre intervalos Anderson Berg Métodos de clustering para dados do tipo histograma 10 / 63
  • 12. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Definição da distância de Hausdorff • Frequentemente utilizada em processamento de imagem • Usada para comparar dois conjuntos de objetos A e B j j j • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e j j j x2 = [a2 , b2 ] : j j j j j j dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |) Anderson Berg Métodos de clustering para dados do tipo histograma 11 / 63
  • 13. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Definição da distância de Hausdorff • Frequentemente utilizada em processamento de imagem • Usada para comparar dois conjuntos de objetos A e B j j j • A distância de Hausdorff entre dois intervalos x1 = [a1 , b1 ] e j j j x2 = [a2 , b2 ] : j j j j j j dH (x1 , x2 ) = max(|a1 − a2 )|, |b1 − b2 |) A distância d1 entre dois vetores de intervalos x1 e x2 é a soma das p variáveis das distâncias de Hausdorff entre os intervalos: p j j j j d1 (x1 , x2 ) = j=1 max(|a1 − a2 |, |b1 − b2 |) Anderson Berg Métodos de clustering para dados do tipo histograma 11 / 63
  • 14. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo O protótipo G = (g 1 , ..., g p ) de um cluster C é um vetor de p intervalos que minimizam o critério de adequação: p j fC (G) = d1 (xs , G) = dH (xs , g j ) s∈C s∈C j=1 Ou: f˜ (g j ) C p j fC (G) = dH (xs , g j ) j=1 s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 12 / 63
  • 15. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo o problema agora é encontrar o intervalo g j = [αj , β j ] para (j = 1, ..., p) que minimiza: j j j f˜ (g j ) = C dH (xs , g j ) = max(|αj − as |, |β j − bs |) s∈C s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 13 / 63
  • 16. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo Vamos resolver o problema da minimização transformando em dois j problemas de minimização bem conhecidos. Seja ms o ponto médio j j j j de um intervalo xs = [as , bs ] e ls metade do seu tamanho: j j j j j as + bs j bs − as ms = e ls = 2 2 e seja µj e λj o ponto médio e a metade do tamanho do intervalo g j = [αj , β j ], respectivamente. De acordo com a seguinte propriedade definida para x e y em : max(|x − y |, |x + y |) = |x| + |y | Anderson Berg Métodos de clustering para dados do tipo histograma 14 / 63
  • 17. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo j j j j f˜ (g j ) = C max(|(µj − λj ) − (ms − ls )|, |(µj + λj ) − (ms + ls )|) s∈C j j = |µj − ms | + |λj − ls | s∈C s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 15 / 63
  • 18. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo Isto leva a dois problemas de minimização bem conhecidos: encontrar µj ∈ e λj ∈ que minimizam, respectivamente: j j |µj − ms | e |λj − ls | s∈C s∈C ˆ j • µj : a mediana de {ms , s ∈ C}, que são os pontos médios dos j j j intervalos xs = [as , bs ], s ∈ C ˆ • λj : a mediana do conjunto {l j , s ∈ C} s ˆ ˆ ˆ ˆ ˆ ˆ ˆ • g j = [αj , β j ] o intervalo [µj − λj , µj + λj ] • G = (g 1 , ..., g p ): o protótipo de C ˆ ˆ Anderson Berg Métodos de clustering para dados do tipo histograma 16 / 63
  • 19. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O segundo método j j j j • Compara duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) j j • q1 e q2 são pesos associados a x1 e x2 j j • Uma etapa de pré-processamento discretiza x1 e x2 em intervalos elementares Anderson Berg Métodos de clustering para dados do tipo histograma 17 / 63
  • 20. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Pré-processamento j j j • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e j seus pesos correspondentes qs j j j • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro j j j conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado • Ordena-se o conjunto de limites inferiores e superiores dos n j j j intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares j • Os intervalos elementares Ih devem obedecer as seguintes propriedades: Anderson Berg Métodos de clustering para dados do tipo histograma 18 / 63
  • 21. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Pré-processamento j j j • xs é discretizado para obter intervalos elementares {I1 , ..., IHj } e j seus pesos correspondentes qs j j j • A partir de um conjunto {x1 , ..., xs , ..., xn } de n intervalos outro j j j conjunto de Hj intervalos disjuntos {I1 , ..., Ih , ..., IHj } é formado • Ordena-se o conjunto de limites inferiores e superiores dos n j j j intervalos {x1 , ..., xs , ..., xn } para obter os intervalos elementares j • Os intervalos elementares Ih devem obedecer as seguintes propriedades: Hj j j n i) h=1 Ih = s=1 xs j j ii) Ih ∩ Ih = ∅ se h = h j j j j iii) ∀s ∈ E, ∀h Ih ⊆ xs ou Ih ∩ xs = ∅ j j j j j j j j j iv) ∀s ∈ E, ∃Ss ⊂ {I1 , ..., IHj } : I j ∈S j Ih = xs e ∀Ih ∈ Ss , Ih ⊆ xs h s Anderson Berg Métodos de clustering para dados do tipo histograma 18 / 63
  • 22. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Pré-processamento j j j j Ss = {Ih : Ih ⊆ xs } é um subconjunto de intervalos elementares A Função peso qs é definida como: j qs : Ss → [0, 1] j j j j |Ih | Ih ∈ Ss → qs (Ih ) = j j bs − as j j |Ih | é o tamanho do intervalo Ih j j j ∀Ih ∈ Ss , qs (Ih ) ≥ 0 j j j qs (I ) = 1 h I ∈S s h Anderson Berg Métodos de clustering para dados do tipo histograma 19 / 63
  • 23. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Construção de intervalos elementares Anderson Berg Métodos de clustering para dados do tipo histograma 20 / 63
  • 24. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Definição da dissimilaridade de "dois componentes" j j j j Duas duplas p1 = (x1 , q1 ) e p2 = (x2 , q2 ) são comparadas por: j j j j d2c (p1 , p2 ) = dci (x1 , x2 ) + dcd (q1 , q2 ) Anderson Berg Métodos de clustering para dados do tipo histograma 21 / 63
  • 25. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O primeiro componente j j j j j j Dissimilaridade dci entre dois intervalos x1 = [a1 , b1 ] e x2 = [a2 , b2 ]: j j ¯j ¯j j j |(x1 ∩ x2 ) ∩ (x1 ⊕ x2 )| dci (x1 , x2 ) = j j |x1 ⊕ x2 | onde: • |.| o tamanho de um intervalo j j j j j j • x1 ⊕ x2 = [min(a1 , a2 ), max(b1 , b2 )] ¯j j j j • xs =] − ∞, as [∪]bs , +∞[ o conjunto complementar de xs em Anderson Berg Métodos de clustering para dados do tipo histograma 22 / 63
  • 26. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O primeiro componente Alternativamente:  j j j j |min(b1 ,b2 )−max(a1 ,a2 )| j j se x1 ∩ x2 = ∅  j j j j j j dci (x1 , x2 ) = max(b1 ,b2 )−min(a1 ,a2 )  0 senão Anderson Berg Métodos de clustering para dados do tipo histograma 23 / 63
  • 27. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O segundo componente Dissimilaridade dcd entre duas funções peso: 1 j j dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih )) 2 j j j j j j j j j j {Ih :Ih ∈S1 ,Ih ∈S2 } / {Ih :Ih ∈S2 ,Ih ∈S1 } / j j j j 0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅ Anderson Berg Métodos de clustering para dados do tipo histograma 24 / 63
  • 28. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O segundo componente Dissimilaridade dcd entre duas funções peso: 1 j j dcd (q1 , q2 ) = ( q1 (Ih ) + q2 (Ih )) 2 j j j j j j j j j j {Ih :Ih ∈S1 ,Ih ∈S2 } / {Ih :Ih ∈S2 ,Ih ∈S1 } / j j j j 0 ≤ dcd ≤ 1, com dcd = 0 se x1 = x2 e dcd = 1 se x1 ∩ x2 = ∅ p p j j j j d2 (p1 , p2 ) = d2c (p1 , p2 ) = (dci (x1 , x2 ) + dcd (q1 , q2 )) j=1 j=1 Anderson Berg Métodos de clustering para dados do tipo histograma 24 / 63
  • 29. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo O protótipo G de um cluster C é agora um vetor de p duplas (Γj , q): j j (a) Γj = [mins∈C as , maxs∈C bs ] é um intervalo que generaliza os j j j intervalos xs = [as , bs ] para s ∈ C; j (b) Γj = xs : s ∈ C é um conjunto de intervalos 1 j q= card(C) {h,s:Ih ∈Ss j e s∈C} qs (Ih ) 0, senão Anderson Berg Métodos de clustering para dados do tipo histograma 25 / 63
  • 30. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo Como a definição (b) de Γj não é um intervalo ∗ j ¯j |(xs ∩ ( ¯j j s ∈C xs )) ∩ (xs ⊕ ( s ∈C j xs ))| dci (xs , Γj ) = j j |xs ⊕ ( s ∈C xs )| j j j j j j xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )] Anderson Berg Métodos de clustering para dados do tipo histograma 26 / 63
  • 31. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O protótipo Como a definição (b) de Γj não é um intervalo ∗ j ¯j |(xs ∩ ( ¯j j s ∈C xs )) ∩ (xs ⊕ ( s ∈C j xs ))| dci (xs , Γj ) = j j |xs ⊕ ( s ∈C xs )| j j j j j j xs ⊕ ( s ∈C xs ) = [min(as , mins ∈C as ), max(bs , maxs ∈C bs )] p ∗ ∗ j d2 (ps , G) = (dci (xs , Γj ) + dcd (qs , q)) j=1 Anderson Berg Métodos de clustering para dados do tipo histograma 26 / 63
  • 32. Dois novos métodos de clustering O primeiro método O segundo método Interpretação O algoritmo a) Inicialização: Inicia de uma partição aleatória P = (C1 , ..., Ci , ..., Ck ) b) Etapa de alocação: test ← 0 para s = 1 até n faça: Encontre o cluster Cm ao qual s pertence Se card(Cm ) = 1 para l = 1, ..., k e l = m calcula novos protótipos Gm de Cm − {s} e Gl de Cl ∪ {s} calcula o critério ∆l = k i=1 ∗ s ∈Ci D(ps ,Gi ) onde D = d2 ou d2 Encontre o cluster Cl · tal que l ∗ = argminl=1,...,k ∆l Se l ∗ = m move s para Cl · test ← 1 Cl · = Cl · ∪{s} e Cm = Cm − {s} c) se test = 0 então pare, senão vá para b) Anderson Berg Métodos de clustering para dados do tipo histograma 27 / 63
  • 33. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação n k k 2 2 d (xs , G) = d (xs , Gi ) + ni d 2 (Gi , G) s=1 i=1 s∈Ci i=1 TSS WSS BSS • d a distância Euclidiana quadrada • G a média dos n pontos xs ∈ E • Gi a média dos pontos xs ∈ Ci • ni = card(Ci ) Anderson Berg Métodos de clustering para dados do tipo histograma 28 / 63
  • 34. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação A média G de um cluster C é o ponto g ∈ p que minimiza o critério: fC (g) = d 2 (xs , g) s∈C No primeiro método, a média G é generalizada para protótipo G, que minimiza: fC (g) = D(xs , g) s∈C Anderson Berg Métodos de clustering para dados do tipo histograma 29 / 63
  • 35. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação TSS e WSS podem ser generalizados usando o protótipo Gi de um cluster Ci : • WSS = k i=1 s∈Ci D(xs , Gi ) = k i=1 fCi (Gi ), que é igual ao critério ∆(P, L) • TSS = n D(xs , GE ), que é o critério fE (GE ), com GE o s=1 protótipo de todo o conjunto E Anderson Berg Métodos de clustering para dados do tipo histograma 30 / 63
  • 36. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação Três critérios serão utilizados para interpretar uma partição e seus clusters: • fCi (Gi ) que é a medida de homogeneidade do cluster Ci ; • ∆(P, L) que é a medida da homogeneidade intra-cluster (within-cluster) da partição P; • fE (GE ) que é a medida da homogeneidade total do conjunto E. Anderson Berg Métodos de clustering para dados do tipo histograma 31 / 63
  • 37. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação da partição Qualidade de uma partição: ∆(P, L) Q(P) = 1 − fE (GE ) Qualidade da partição para cada variável Yj : k ˜ ˆj i=1 fCi (gi ) Qj (P) = 1 − ˜E (g j ) f ˆE Anderson Berg Métodos de clustering para dados do tipo histograma 32 / 63
  • 38. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação dos clusters A qualidade de um cluster Ci de E é definida por: fCi (Gi ) Q(Ci ) = 1 − fCi (GE ) A contribuição de um cluster Ci à homogeneidade intra-cluster de P é definida por: fC (Gi ) K (Ci ) = i ∆(P, L) A soma de k contribuições é 1 Anderson Berg Métodos de clustering para dados do tipo histograma 33 / 63
  • 39. Dois novos métodos de clustering O primeiro método O segundo método Interpretação Interpretação dos clusters Um critério final que é útil para interpretar um cluster de acordo com uma variável Yj é: ˜C (g j ) f ˆ Qj (Ci ) = 1 − i ij ˜C (g f ˆ i E Anderson Berg Métodos de clustering para dados do tipo histograma 34 / 63
  • 40. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algoritmo Interpretação 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 35 / 63
  • 41. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Partitioning dynamical cluster algorithm • Algoritmos iterativos de duas etapas • Construção de clusters e representações de protótipos • Critério de adequação • Clustering dinâmico adaptativo • Análise de dados simbólicos • Pré-processamento Anderson Berg Métodos de clustering para dados do tipo histograma 36 / 63
  • 42. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Tipos de dados Dada uma variável simbólica Xj , ela é: • set-valued se, dado um item i, Xj (i) = xij ⊆ Aj onde j j Aj = {t1 , ..., tHj } é um conjunto de categorias • ordered list-valued se, dado um item i, Xj (i) = xij , onde xij é uma j j sub-lista de uma lista ordenada de categorias Aj = [t1 , ..., tHj ] • interval-valued se, dado um item i, Xj (i) = xij = [aij , bij ] ∈ [a, b], onde [a, b] ∈ e é o conjunto de intervalos fechados definidos em • histogram-valued se, dado um item i, Xj (i) = xij = (S j (i), qj (i)) j j onde qj (i) = (qi1 , ..., qiHij ) é um vetor de pesos definido em S j (i), tal que um peso q(m) corresponde a cada categoria m ∈ S j (i) Anderson Berg Métodos de clustering para dados do tipo histograma 37 / 63
  • 43. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Tabela de dados City X1 X2 X3 1 [70,100] ((D,C,S,N),(0.4,0.3,0.2,0.1)) {F,I} 2 [50,70] ((D,C,S,N),(0.3,0.3,0.3,0.1)) {S,G} 3 [20,40] ((D,C,S,N),(0.2,0.2,0.2,0.4)) {GB,G} 4 [60,100] ((D,C,S,N),(0.1,0.3,0.4,0.2)) {B,GB} Anderson Berg Métodos de clustering para dados do tipo histograma 38 / 63
  • 44. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Set-valued Xj (i) = xij = (Aj , qj (i)) ˜ ˜ j j onde Aj = {t1 , ..., tHj } j j O peso qh (i)(h = 1, ..., Hj ) da categoria th ∈ Aj é definido como: j 1 j , se th ∈ xij , j qh (i) = c(xi ) 0, se th ∈ xij , j / onde c(A) é a cardinalidade de um conjunto finito de categorias A. Anderson Berg Métodos de clustering para dados do tipo histograma 39 / 63
  • 45. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Ordered list-valued Xj (i) = xij = (Aj , Qj (i)) ˜ ˜ j j onde Aj = [t1 , ..., tHj ] j j O peso cumulativo Qh (i)(h = 1, ..., Hj ) da categoria th da lista ordenada Aj é definido como: se a categoria trj está na  1 h  j ,  l(xi ) j Qh (i) = qrj (i), onde qrj (i) = j  sub-lista xi , r =1  0, senão onde l(A) é o tamanho de uma lista ordenada de categorias A Anderson Berg Métodos de clustering para dados do tipo histograma 40 / 63
  • 46. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Interval-valued ˜ Xj (i) = xij = (Aj , Q j (i)) ˜ ˜ ˜ j j onde Aj = {I1 , ..., IHj } j j Os pesos cumulativos Qh (i)(h = 1, ..., Hj ) do intervalo elementar Ih é definido como: h j l(Irj ∩ xij ) Qh (i) = qrj (i), onde qrj (i) = , r =1 l(xij ) onde l(I) é o tamanho do intervalo fechado I Anderson Berg Métodos de clustering para dados do tipo histograma 41 / 63
  • 47. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Intervalos elementares Propriedades dos intervalos elementares: Hj j (1) h=1 Ih = [a, b] j j (2) Ih ∩ Ih = ∅ se h=h j (3) ∀h∃i ∈ Ω tal que Ih ∩ xij = ∅ (4) ∀i∃Sij ⊂ {1, ..., Hj } : ∪h∈S j Ih = xij j i Anderson Berg Métodos de clustering para dados do tipo histograma 42 / 63
  • 48. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Exemplo Country X1 X2 1 [10,30] {A,Co} 2 [25,35] {C,Co,E} 3 [90,130] {A,C,E} 4 [125,140] {A,C,Co,E} • X1 é o mínimo e o máximo do produto nacional bruto (em milhões) • X2 indica as principais indústrias a partir do conjunto A2 = {A = agricultura , C = chemistry, Co = commerce, E = engineering, En = energy, I = informatic} Anderson Berg Métodos de clustering para dados do tipo histograma 43 / 63
  • 49. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Intervalos elementares ˜ 1 1 1 1 1 1 1 Conjunto de intervalos elementares: A1 = {I1 , I2 , I3 , I4 , I5 , I6 , I7 }, onde 1 1 1 1 1 I1 = [10, 25[, I2 = [25, 30[, I3 = [30, 35[, I4 = [35, 90[, I5 = 7 = [125, 130[ e I 1 = [130, 140[ [90, 125[, I6 7 Country X1 X2 1 (A1 , Q1 (1) = (0.75, 1, 1, 1, 1, 1, 1)) ˜ (A2 , q2 (1) = (0.5, 0, 0.5, 0, 0, 0)) ˜ 2 (A1 , Q1 (2) = (0, 0.5, 0.5, 1, 1, 1, 1)) ˜ (A2 , q2 (2) = (0, 0.33, 0.33, 0.33, 0, 0)) ˜ 3 (A1 , Q1 (3) = (0, 0, 0, 0, 0.88, 1, 1)) ˜ (A2 , q2 (3) = (0.33, 0.33, 0, 0.33, 0, 0)) ˜ 4 (A1 , Q1 (4) = (0, 0, 0, 0, 0, 0.33, 1)) ˜ (A2 , q2 (4) = (0.25, 0.25, 0.25, 0.25, 0, 0)) ˜ Anderson Berg Métodos de clustering para dados do tipo histograma 44 / 63
  • 50. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Representação dos dados Depois do pré-processamento: xi = (xi1 , . . . , xip ), xij = (Dj , u j (i)) ˜ ˜ ˜ ˜ j j j ˜ e u (i) = (u1 (i), . . . , uHj (i)) O protótipo do cluster Ck (k = 1, ..., K ) é representado por um vetor de histogram-valued symbolic data: p j gk = (gk , . . . , gk ), gk = (Dj , vj (k ))(j = 1, . . . , p) 1 j j vj (k ) = (v1 (k ), . . . , vhj (k )) Anderson Berg Métodos de clustering para dados do tipo histograma 45 / 63
  • 51. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Esquema geral Encontrar a partição P ∗ = {C1 , . . . , CK } de Ω em K clusters, os K ∗ ∗ ∗ ∗ ∗ protótipos correspondentes G = (g1 , . . . , gK ) representando os clusters em P ∗ e K distâncias Euclidianas quadradas adaptativas parametrizadas por K vetores de pesos D∗ = (λ∗ , . . . , λ∗ ) 1 K Critério de adequação: K W (G, D, P) = ˜ d(xi , gk | λk ) k =1 i∈Ck Anderson Berg Métodos de clustering para dados do tipo histograma 46 / 63
  • 52. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Distâncias Euclidianas adaptativas (a) Distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ) p Hj j j ˜ d(xi , gk | λ) = λj (uh (i) − vh (k ))2 j=1 h=1 (b) Distância por cluster: λk = (λ1 , . . . , λp ) k k p Hj ˜ d(xi , gk | λk ) = λjk j j (uh (i) − vh (k ))2 j=1 h=1 Anderson Berg Métodos de clustering para dados do tipo histograma 47 / 63
  • 53. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Pré-processamento: homogenização dos dados Para todos os objetos i = 1, . . . , n e todas as variáveis j = 1, . . . , p calcular xij = (Dj , u j (i)) ˜ Anderson Berg Métodos de clustering para dados do tipo histograma 48 / 63
  • 54. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Etapa de inicialização (0) (0) Escolher aleatoriamente uma partição P (0) = (C1 , . . . , CK ) de Ω ou (0) (0) K objetos distintos g1 , . . . , gK pertencentes a Ω e atribua cada (0) objeto i ao protótipo gk ∗ mais próximo, onde p Hj j j k ∗ = argmink =1,...,K { j=1 h=1 ((uh (i)) (0) − (vh (k ))(0) )2 }. t = 1. Anderson Berg Métodos de clustering para dados do tipo histograma 49 / 63
  • 55. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Passo 1: Definição dos protótipos P = {C1 , . . . , CK } e D = (λ1 , . . . , λK ) fixos 1 p O vetor de protótipos G = (g1 , . . . , gK ), onde gk = (gk , . . . , gk ) com j gk = (Dj , v j (k )) que minimiza o critério W , onde o vetor j j v j (k ) = (v1 (k ), . . . , vHj (k )) é calculado por: j 1 j vh (k ) = uh (i) nk i∈Ck onde nk é a cardinalidade da classe Ck Anderson Berg Métodos de clustering para dados do tipo histograma 50 / 63
  • 56. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Passo 2: Definição das distâncias P = {C1 , . . . , CK } e G = (g1 , . . . , gk ) fixos (a) Para distância única: λk = λ(k = 1, . . . , K ), onde λ = (λ1 , . . . , λp ), λj > 0 e p λj = η j=1 1 p K Hl l l 2 j {η l=1 ( k =1 [ i∈Ck ( h=1 (uh (i) − vh (k )) )])} p λ = Hj K j j 2 k =1 [ i∈Ck ( h=1 uh (i) − vh (k )) )] Anderson Berg Métodos de clustering para dados do tipo histograma 51 / 63
  • 57. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Passo 2: Definição das distâncias (b) Para distância por cluster: λk = (λ1 , . . . , λp )λjk > 0 e k k p j j=1 λk =χ Hj 1 p l l 2 {χ l=1 ( i∈Ck ( h=1 (uh (i) − vh (k )) ))} p λjk = Hj j j 2 i∈Ck ( h=1 uh (i) − vh (k )) ) Anderson Berg Métodos de clustering para dados do tipo histograma 52 / 63
  • 58. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Passo 3: Definição da partição G = (g1 , . . . , gk ) e D = (λ1 , . . . , λK ) fixos ˜ ˜ Ck = {i ∈ Ω : d(xi , gk | λk ) < d(xi , gm | λm ) e quando ˜ ˜ dk (xi , gk | λk ) = dk (xi , gm | λm ) então i ∈ Ck se k < m∀m = k (m = 1, . . . , K )} Anderson Berg Métodos de clustering para dados do tipo histograma 53 / 63
  • 59. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Soma dos quadrados global n K T = ˜ d(xi , g | λk ) = ˜ d(xi , g | λk ) i=1 k =1 i∈Ck onde g = (g 1 , . . . , g p ), g j = (Dj , vj )(j = 1, . . . , p) e o vetor de pesos j j vj = (v1 , . . . , vHj ) é calculado por: n j 1 j vh = uh (i) n i=1 Anderson Berg Métodos de clustering para dados do tipo histograma 54 / 63
  • 60. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Soma dos quadrados intra-classe: W K W = ˜ d(xi , gk | λk ) k =1 i∈Ck Anderson Berg Métodos de clustering para dados do tipo histograma 55 / 63
  • 61. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Soma dos quadrados inter-classe: B K B= nk d(gk , g | λk ) k =1 Anderson Berg Métodos de clustering para dados do tipo histograma 56 / 63
  • 62. Unsupervised pattern recognition models Introdução Pré-processamento Distâncias adaptativas Algori Relações entre as somas • T =W +B • Tk = Wk + Bk (k = 1, . . . , K ) • Tj = Wj + Bj (j = 1, . . . , p) • Tkj = Wkj + Bkj (k = 1, . . . , K ; j = 1, . . . , p) Anderson Berg Métodos de clustering para dados do tipo histograma 57 / 63
  • 63. Medida de Wasserstein Índice 1 Introdução 2 Dynamic Cluster Algorithm 3 Dois novos métodos de clustering 4 Unsupervised pattern recognition models 5 Medida de Wasserstein Anderson Berg Métodos de clustering para dados do tipo histograma 58 / 63
  • 64. Medida de Wasserstein Notação • Y é uma variável contínua definida em S = [y ; y ] • Y é particionada em intervalos contíguos: {I1 , . . . , Ih , . . . , IH } onde Ih = [yh ; yh ] • A cada intervalo semi-aberto Ih é associada uma variável aleatória: N Ψ(Ih ) = Ψyu (Ih ) u=1 onde Ψyu (Ih ) = 1 se yu ∈ Ih , 0 se não • Distribuição empírica associada a Ih : πh = Ψ(Ih )/N Anderson Berg Métodos de clustering para dados do tipo histograma 59 / 63
  • 65. Medida de Wasserstein Distância quadrada A distância quadrada entre duas descrições de histograma Y (i) e Y (j) é: m wl 2 dM (Y (i), Y (j)) := (Ψ−1 (t) − Ψ−1 (t))2 dt i j l=1 wl−1 Cada dupla (wl−1 , wl ) permite identificar dois intervalos, um para i e outro para j: Ili = [Ψ−1 (wl−1 ); Ψ−1 (wl )] i i e Ilj = [Ψ−1 (wl−1 ); Ψ−1 (wl )] j j Anderson Berg Métodos de clustering para dados do tipo histograma 60 / 63
  • 66. Medida de Wasserstein Distância quadrada Para cada intervalo é possível calcular os centros e os raios: cli = (Ψ−1 (wl ) + Ψ−1 (wl−1 ))/2 i i rli = (Ψ−1 (wl ) − Ψ−1 (wl−1 ))/2 i i O cálculo da distância pode ser reescrito: p mk 2 (k ) (k ) (k ) 2 1 (k ) (k ) 2 dM (Y (i), Y (j)) := πl cli − clj + r − rlj 3 li k =1 l=1 Anderson Berg Métodos de clustering para dados do tipo histograma 61 / 63
  • 67. Medida de Wasserstein dM para dynamic clustering f (Y (b)|Y (1), . . . , Y (n)) = f (c1b , r1b , . . . , cmb , rmb ) = n n m 1 = d 2 (Y (i), Y (b)) = πj (cji − cjb )2 + (rji − rjb )2 3 i=1 i=1 j=1 Esta função atinge um mínimo quando: n n −1 −1 cjb = n cji ; rjb = n rji i=1 i=1 O baricentro (protótipo) do histograma: Y (b) = {([c1b − r1b ; c1b + r1b ] , π1 ) ; . . . ; cjb − rjb ; cjb + rjb , πj ; . . . ; ; . . . ; ([cmb − rmb ; cmb + rmb ] , πm )} Anderson Berg Métodos de clustering para dados do tipo histograma 62 / 63
  • 68. Bibliografia Marie Chavent, Francisco De A. T. Carvalho, Yves Lechevallier, and Rosanna Verde. New clustering methods for interval data. Computational Statistics, 21:211–229, 2006. Francisco De A.T. de Carvalho and Renata M.C.R. de Souza. New clustering methods for interval data. Computational Statistics, 2006. Anderson Berg Métodos de clustering para dados do tipo histograma 63 / 63