discrete-hmm

Speeding Up Bayesian HMM by the Four Russians
Method
Md Pavel Mahmud1 Alexander Schliep1;2
1Department of Computer Science, Rutgers University
2BioMAPS Institute, Rutgers University
December 22, 2013

Motivation
Problem: Classify an observation sequence O using Hidden
Markov Model (HMM)

Motivation
Markov Model (HMM)
Example: Identifying isochore classes from DNA sequence
Concentration of G+C content
0.6
0.55
0.5
0.45
0.4
G+C content
0.35
0.3
Kb
ACGT AAGTTCAT GCGTCCGGC ACGTACGTACGT

Motivation
Markov Model (HMM)
Example: Identifying isochore classes from DNA sequence
Concentration of G+C content
0.6
0.55
0.5
0.45
0.4
G+C content
0.35
0.3
Kb
|AC{GzT}
S1
|AAGT{Tz CAT}
S2
|GCGT{CzCGGC}
S3
|ACGTAC{GzTACGT}
S1

Hidden Markov Model
b1,* b2,*
A C G T a1,2
A C G T
a SSa1,1
1 2
2,2 a2,1
a1,3
a3,1
a3,2
a2,3
S3
b3,*
aA C G T 3,3

Hidden Markov Model
b1,* b2,*
A C G T a1,2
A C G T
a SSa2,2 1,1
1 2
a2,1
a1,3
a3,1
a3,2
a2,3
S3
aA C G T 3,3
N, number of states
Σ, finite alphabet
A={ai,j}, transition matrix
B={bi,j}, emission matrix
π, initial state distribution
b3,*

Hidden Markov Model
Given the observation sequence O = (o1; o2; : : : ; oT ) 2 T
Find the hidden state sequence Q = (q1; q2; : : : ; qT ) 2 ST
Dependency structure
qt-2 qt-1 qt qt+1
ot-2 ot-1 ot ot+1
How to learn the model parameters = (A;B; )

Learning
ML approach
ML = argmax

P(Oj)
QML = argmax
Q
P(QjML;O)
Fast computation
Local optimization only
Bayesian computations: integrate out model parameters
P(QjO) =
R
P(Qj;O)P(jO)d
Computationally expensive

Bayesian Analysis
Our goal is to compute the distribution P(QjO)
Prior distribution for Ai ;, Bi ;, and
Standard conjugate priors such as Dirichlet distribution
Gibbs sampling
Creates a Markov chain with stationary distribution P(QjO)
The states of the chain can be used as samples from the
stationary distribution
Forward-backward Gibbs sampling (FBG-sampling)
Excellent convergence characteristics
We speed up computation exploiting sequence repetition

Bayesian Analysis
Algorithm 1 FBG-Sampling(O)
1: Choose initial parameters 0 = (A0; B0; 0).
2: Perform the following steps for 0 m M.
Qm = StateSampler(O, m)
Sample HMM parameters,
m+1 PriorDistribution(hyperparameters;O;Qm; m)
3: return Q0;Q1; : : : ;QM1.

Bayesian Analysis
Algorithm 2 StateSampler(O, )
1: Forward Variables: t (j) = P(O1:::t ; qt = j j)
Compute 1(j) = jbj ;o1 for all j .
For 2 t T:
Compute t (j) =
NP
i=1
t1(i)ai ;jbj ;ot for all j .
2: Backward Sampling:
Sample qT s.t. P(qT = i) / T (i ).
For T t 1:
Sample qt s.t. P(qt = i) / t (i)ai ;qt+1.
3: return Q

Bayesian Analysis
α
1
α
2

Bayesian Analysis
α
1
α
2
α
3

Bayesian Analysis
α
1
α
2
α
3
α
T-1
α
T

Bayesian Analysis
α
1
α
2
α
3
α
T-1
α
T
qT

Bayesian Analysis
α
1
α
2
α
3
α
T-1
α
T
qT-1 qT

Bayesian Analysis
α
1
α
2
α
3
α
T-1
α
T
q1 q2 q3
qT-1 qT

Bayesian Analysis
α
1
α
2
α
3
α
T-1
α
T
q1 q2 q3
qT-1 qT
Running time
Forward variables, O(TN2)
Backward sampling, O(T log N)
Complexity, O(TN2)

Speeding up MCMC
Lets assume T is a multiple of k s.t. T = dk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk
qdk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk
q(d1)k
qdk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk
q(d1)k ! qdk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk
q3k q(d1)k ! qdk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk
q2k
q3k q(d1)k ! qdk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk
q2k ! q3k q(d1)k ! qdk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk
qk
q2k ! q3k q(d1)k ! qdk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk
qk ! q2k ! q3k q(d1)k ! qdk

Speeding up MCMC
Changes
k 2k 3k ! (d1)k dk
Tk
N forward variables instead of TN
Backward state sampling modi

ed to backward-forward
sampling

Compression and Forward Variables
k 2k 3k ! (d1)k dk

k 2k 3k ! (d1)k dk
Exploit sequence repetition in long sequences [Mozes'09]
Viterbi path (the most likely state sequence) computation
Baum-Welch algorithm

k 2k 3k ! (d1)k dk
Exploit sequence repetition in long sequences [Mozes'09]
Viterbi path (the most likely state sequence) computation
Baum-Welch algorithm
Lets de

ne
M(v) s.t. Mi ;j (v) = ai ;jbj ;v
M

Oi :::j

= M(oi ) M(oi+1) M(oj1) M(oj )

ne
M

Oi :::j

Pre-compute all possible matrices M(X), where jXj k
Known as the four Russians method

ne
M

Oi :::j

Rewrite forward variables t as a row vector
t = M(o1) M(o2) M(ot1) M(ot ) = t1 M(ot )

ne
M

Oi :::j

Rewrite forward variables t as a row vector
t = M(o1) M(o2) M(ot1) M(ot ) = t1 M(ot )
lk = (l1)k M(O(l1)k+1:::lk )

Backward-forward State Sequence

P(QjO; ) = P(Q1:::k1jQk:::T ;O; ) | {z }
Part A
P(Qk:::T jO; ) | {z }
Part B

P(QjO; ) = P(Q1:::k1jQk:::T ;O; ) | {z }
Part A
P(Qk:::T jO; ) | {z }
Part B
P(qT jO; ) | {z }
Part B1
Q
di2
s=(i1)k
e=ik

P(qs jQe:::T ;O; ) | {z }
Part B2
eQ1
j=s+1
P(qj jQs:::j1;Qe:::T ;O; ) | {z }
Part B3

P(QjO; ) = P(Q1:::k1jQk:::T ;O; ) | {z }
Part A
P(Qk:::T jO; ) | {z }
Part B
P(qT jO; ) | {z }
Part B1
Q
di2
s=(i1)k
e=ik

P(qs jQe:::T ;O; ) | {z }
Part B2
eQ1
j=s+1
P(qj jQs:::j1;Qe:::T ;O; ) | {z }
Part B3

Sampling from part B1
P(qT jO; ) / P(qT ;Oj) = T (qT )

P(qs jQe:::T ;O; ) / s (qs )Mqs ;qe (Os+1:::e )
B2 : sampling qs in group i-1
qe
oe
qe-1
oe-1
qs+1
os+1
qs
os
qs-1
os-1

P(qj jQs:::j1;Qe:::T ;O; ) / Mqj1;qj (oj )Mqj ;qe (Oj+1:::e )
B3 : sampling qj in group i
qj qj+1 qj-1
qe
oj-1 oj
oj+1 oe
group
(i-1)
group
(i+1)

Fast Sampling Algorithm
Algorithm 3 FastStateSampler(O, )
1: Precompute:
M(X) for all X 2
Sk
i=1 i
2: Forward Variables:
Compute k = M(O1:::k )
Compute ik = (i1)kM(O(i1)k+1:::ik ) for 1 i d
3: Backward-forward Sampling:
Sample qT . For d i 2:
Sample q(i1)k using part B2
Sample qj , for (i 1)k j ik, using part B3
Given qk , sample q1; q2; : : : ; qk1 using part A
4: return Q

Running Time
Tk
Pre-compute 2jjk matrices in O(2jjkN3)
Forward variables in O(N2)
State samples in O(T log N)

discrete-hmm

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (16)

Similar to discrete-hmm

Similar to discrete-hmm (20)

discrete-hmm