PRML 9.1-9.2: K-means Clustering & Mixtures of Gaussians

PRML 9.1-9.2

K-means Clustering
&
Mixtures of Gaussians

July 16, 2014
by Shinichi TAMURA

K-means Clustering

Today's topics

1.  K-means Clustering

1.  Clustering Problem

2.  K-means Clustering

3.  Application for Image Compression

2.  Mixtures of Gaussians

1.  Introduction of latent variables

2.  Problem of ML estimates

3.  EM-algorithm for Mixture of Gaussians

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Clustering Problem
An unsupervised machine learning problem

Divide data in some group (=cluster) where

ü 

similar data

>

same group

ü 

dissimilar data

>

different group

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Clustering Problem


ü 

similar data

>

same group

ü 

dissimilar data

>

different group

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Clustering Problem


ü 

similar data

>

same group

ü 

dissimilar data

>

different group

Minimize
N
n=1
xn − µk(n)
2
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Clustering Problem


ü 

similar data

>

same group

ü 

dissimilar data

>

different group

Minimize
N
n=1
xn − µk(n)
2
Center of the cluster

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Clustering Problem
Given data set and # of cluster K

Let be cluster representative and be
assignment indicator ( ),

Here, J is called “distortion measure”.

X = {x1, . . . , xN }
µk rnk
rnk = 1 if x ∈ Ck
Minimize J =
N
n=1
K
k=1
rnk xn − µk
2
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
How to solve that?

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
How to solve that?

and are dependent each other

> No closed form solution

µk rnk
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
How to solve that?

and are dependent each other

> No closed form solution

Use iterative algorithm !

µk rnk
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Strategy

and can't be updated simultaneously

µk rnk
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Strategy

and can't be updated simultaneously

> Update them one by one

µk rnk
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Update of (assignment)

Since each can be determined independently,
J will be minimum if they are assigned to the
nearest .

rnk
xn
µk
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Update of (assignment)

Since each can be determined independently,
J will be minimum if they are assigned to the
nearest . Therefore,

rnk
xn
µk
rnk =
1 if k = arg minj xn − µj
2
,
0 otherwise.
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Update of (parameter estimation)

Optimal is obtained by setting derivative 0.

µk
µk
∂
∂µk
N
n=1
K
k =1
rnk xn − µk
2
= 0.
⇐⇒ 2
N
n=1
rnk(xn − µk) = 0.
∴ µk =
N
n=1 rnkxn
N
n=1 rnk
=
1
Nk
xn∈Ck
xn.
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering


µk
µk
∂
∂µk
N
n=1
K
k =1
rnk xn − µk
2
= 0.
⇐⇒ 2
N
n=1
∴ µk =
N
n=1 rnkxn
N
n=1 rnk
=
1
Nk
xn∈Ck
xn.
Mean of the cluster

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering


µk
µk
∂
∂µk
N
n=1
K
k =1
rnk xn − µk
2
= 0.
⇐⇒ 2
N
n=1
∴ µk =
N
n=1 rnkxn
N
n=1 rnk
=
1
Nk
xn∈Ck
xn.
Mean of the cluster

is the mean of the cluster

Cost function J corresponds to
the sum of inner-class variance!
µk
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
K-means algorithm

1. Initialize ,

2. Repeat following two steps until converge

i) Assign each to closest

ii) Update to the mean of the cluster

µk rnk
xn µk
µk
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
K-means algorithm

1. Initialize ,




µk rnk
xn µk
µk
E step

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
K-means algorithm

1. Initialize ,




µk rnk
xn µk
µk
M step
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Convergence property

Both steps never increase J, so we can obtain
better result in every iteration.

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Convergence property

Both steps never increase J, so we can obtain
better result in every iteration.

Since is ﬁnite, algorithm converge after
ﬁnite iterations.

rnk
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Demo of algorithm

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Demo of algorithm

E step

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Demo of algorithm

M step
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Calculation performance

E step

...

Comparison of every data point

and every cluster mean

> O(KN)

µk
xn
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering

E step

...



> O(KN)

µk
xn
Not good

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering

E step

...



> O(KN)

µk
xn
Not good
Improve with kd-tree,
triangle inequality...etc

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering

E step

...



> O(KN)

M step

...

Calculation of mean for every cluster

> O(N)

µk
xn
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
Here, two variation will be introduced:

1.  On-line version

2.  General dissimilarity

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
[Variation] 1. On-line version

The case where one datum is observed at once.

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering


> Apply Robbins-Monro algorithm

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering



µnew
k = µold
k + ηn(xn − µold
k ).
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering



µnew
k = µold
k ).
Learning rate

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering



µnew
k = µold
k ).
Learning rate
Decrease with iteration

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering
[Variation] 2. General dissimilarity

Euclidian distance is not

ü 

appropriate to categorical data, etc.

ü 

robust to outlier.

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering


ü 


ü 

robust to outlier.

> Use general dissimilarity measure

V(x, x )
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering


ü 


ü 

robust to outlier.


V(x, x )
E step ... No difference

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering


ü 


ü 

robust to outlier.


V(x, x )
M step ... Not assured J is easy to minimize
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering

To make M-step easy, restrict to the vector
chosen from

>

A solution can be obtained by ﬁnite

number of comparison

µk
{xn}
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

K-means Clustering

To make M-step easy, restrict to the vector
chosen from

>

A solution can be obtained by ﬁnite

number of comparison

µk
{xn}
µk = arg min
xn
xn ∈Ck
V(xn, xn )
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Application for Image Compression
K-means algorithm can be applied to

Image Compression and Segmentation

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering



Basic Idea

Treat similar pixel as same one

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering



Basic Idea


Original data

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering



Basic Idea


Cluster center
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering



Basic Idea


Cluster center
(pallet / code-book vector)

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering



Basic Idea


= so called “vector quantization”

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Demo

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Compression rate

Original image...24N bits

(N=# of pixels)

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Compression rate


(N=# of pixels)

Compressed image... 24K+N log2K bits

(K=# of pallet)

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Compression rate


(N=# of pixels)

Compressed image... 24K+N log2K bits

(K=# of pallet)

16.7% if N~1M, K=10
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Introduction of Latent Variable
In K-means, all assignments
are equal, “all or nothing”.

Treated same
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering


Is these “hard” assignment
appropriate?

Treated same
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering


Is these “hard” assignment
appropriate?

>

Want introduce "soft"

assignment

Treated same
Probabilistic
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Introduce random variable z,

having 1-of-K representation

> Control unobserved “states”

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering




Once state is determined,

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering





x is drawn from Gaussian of the state

p(x|zk = 1) = N(x|µk, Σk).
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering





x is drawn from Gaussian of the state

p(x|zk = 1) = N(x|µk, Σk).
x
z
Graphical representation
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Here the distribution over x is

p(x) =
z
p(z)p(x|z)
=
K
k=1
p(zk = 1)p(x|zk = 1)
=
K
k=1
πkN(x|µk, Σk).
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering


p(x) =
z
p(z)p(x|z)
=
K
k=1
p(zk = 1)p(x|zk = 1)
=
K
k=1
πkN(x|µk, Σk).
z is 1-of-K rep.
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering


p(x) =
z
p(z)p(x|z)
=
K
k=1
p(zk = 1)p(x|zk = 1)
=
K
k=1
πkN(x|µk, Σk).
Gaussian Mixtures !
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Example of Gaussian Mixtures

(a)
0 0.5 1
0
0.5
1
(b)
0 0.5 1
0
0.5
1
(c)
0 0.5 1
0
0.5
1
No state info

Coloured by
true state

Coloured by
responsibility

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Problems of ML estimates
ML estimates of mixtures of Gaussians have
two problems:

i.  Presence of Singularities

ii.  Identiﬁability

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

i) Presence of Singularities

What if a mean collides with a data point?

∃j, m µj = xm
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering



Likelihood can be however large by

∃j, m µj = xm
σj → 0
L ∝

 1
σj
+
k=j
pk,m


n=m

 1
σj
exp −
(xn − µj)2
2σ2
j
+
k=j
pk,n


→∞.
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering




∃j, m µj = xm
σj → 0
L ∝

 1
σj
+
k=j
pk,m


n=m

 1
σj
exp −
(xn − µj)2
2σ2
j
+
k=j
pk,n


→∞.→ ∞
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering




∃j, m µj = xm
σj → 0
L ∝

 1
σj
+
k=j
pk,m


n=m

 1
σj
exp −
(xn − µj)2
2σ2
j
+
k=j
pk,n


→∞. → ∞
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering




∃j, m µj = xm
σj → 0
L ∝

 1
σj
+
k=j
pk,m


n=m

 1
σj
exp −
(xn − µj)2
2σ2
j
+
k=j
pk,n


→∞. → ∞ → 0
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering




∃j, m µj = xm
σj → 0
L ∝

 1
σj
+
k=j
pk,m


n=m

 1
σj
exp −
(xn − µj)2
2σ2
j
+
k=j
pk,n


→∞. → ∞ > 0

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering


It doesn't occur in single Gaussian.

L ∝
1
σN
j n=m
exp −
(xn − µj)2
2σ2
j
→0.
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering



L ∝
1
σN
j n=m
exp −
(xn − µj)2
2σ2
j
→0.→ ∞
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering



L ∝
1
σN
j n=m
exp −
(xn − µj)2
2σ2
j
→0.→ ∞ → 0
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering



It doesn't occur in Bayesian approach either.

L ∝
1
σN
j n=m
exp −
(xn − µj)2
2σ2
j
→0.
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

ii) Identiﬁability

Optimal solutions are not unique:

If we have a solution, there are (K!-1) other
equivalent solution.

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

ii) Identiﬁability

Optimal solutions are not unique:

If we have a solution, there are (K!-1) other
equivalent solution.

Matters when interpret,

but does not matter when model only

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

EM-algorithm for Gaussian Mixtures
The conditions of ML are obtained by

where

∂
∂µk
L = 0,
∂
∂Σk
L = 0,
∂
∂πk
L + λ j πj − 1 = 0.
L(π, µ, Σ) =
N
n=1 ln
K
k=1 πkN(xn|µk, Σk)
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

The conditions of ML

where

µk =
1
Nk
N
n=1
γn(zk)xn,
Σk =
1
Nk
N
n=1
γn(zk)(xn − µj)(xn − µj)T
,
πk =
Nk
N
,
Nk =
N
n=1 γn(zk)
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

The conditions of ML

where

µk =
1
Nk
N
n=1
γn(zk)xn,
Σk =
1
Nk
N
n=1
γn(zk)(xn − µj)(xn − µj)T
,
πk =
Nk
N
,
Nk =
N
n=1 γn(zk)
γn(zk) appeared
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Recall that

γn(zk) =
πkN(xn|µk, Σk)
j πjN(xn|µj, Σj)
.
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Recall that

γn(zk) =
πkN(xn|µk, Σk)
j πjN(xn|µj, Σj)
.
Parameters appeared
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Recall that

γn(zk) =
πkN(xn|µk, Σk)
j πjN(xn|µj, Σj)
.
Parameters appeared
= No closed form solution
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Recall that

Again, use iterative algorithm!

γn(zk) =
πkN(xn|µk, Σk)
j πjN(xn|µj, Σj)
.
Parameters appeared
= No closed form solution
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

EM algorithm for Gaussian Mixtures

1. Initialize parameters


i) Calculate

ii) Update parameters

γn(zk) =
πkN(xn|µk, Σk)
j πjN(xn|µj, Σj)
.
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering




i) Calculate


γn(zk) =
πkN(xn|µk, Σk)
j πjN(xn|µj, Σj)
.
E step

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering




i) Calculate


γn(zk) =
πkN(xn|µk, Σk)
j πjN(xn|µj, Σj)
.
M step
July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Demo of algorithm

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

K-means Clustering

Comparison with K-means

EM for Gaussian Mixtures

K-means Clustering

July 16, 2014
PRML 9.1-9.2
Shinichi TAMURA

PRML 9.1-9.2: K-means Clustering & Mixtures of Gaussians

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Recently uploaded

Recently uploaded (20)

PRML 9.1-9.2: K-means Clustering & Mixtures of Gaussians