序列模式和时间序列模式

May 15, 2015
DMKD Sides By
MAO 1
第六章序列和序列模式掘时间挖
内容提要
 序列及其用时间应
 序列的常用方法时间预测
 基于 ARMA 模型的序列匹配方法
 基于离散傅立叶的序列相似性找变换时间查
 基于范的找方法规变换查
 序列掘及其基本方法挖
 AprioriAll 算法
 AprioriSome 算法
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 2
序列及其用时间应
 序列（时间 Time Series ）掘是数据掘中的一挖挖
个重要研究分支，有着广泛的用价。应值
 近年来，序列掘在宏的、市时间挖观经济预测场
、客流量分析、太黑子数、月降水量、河营销阳
流流量、股票价格等多域得到用。事变动众领应
上，社会、科学、、技等域中广泛存实经济术领
在着大量的序列数据有待一步的分析和时间进处
理。
 序列数据掘通研究信息的特性，深时间挖过时间
入洞悉事物化的机制，是得知的有效途径进获识
。

May 15, 2015
DMKD Sides By
MAO 3
序列有概念时间关
 从意上来，所序列就是将某一指在不同统计义讲谓时间标
上的不同数，按照先后序排列而成的数列。时间值时间顺
 序列掘通去史行的客分析，揭示时间挖过对过历为观记录
其内在律，而完成未来行等决策性工作。规进预测为
 言之，序列数据掘就是要从大量的序列数据简时间挖时间
中提取人事先不知道的、但又是潜在有用的与属性们时间
相的信息和知，并用于短期、中期或期，指关识长预测导
人的社会、、事和生活等行。们经济军为
 从数学意上来，如果我某一程中的某一量义讲们对过变进
行 X(t) 察量，在一系列刻观测时 t1 ， t2 ，…， tn （ t 自为
量，且变 t1<t2<… ， <tn ）得到的离散有序数集合
Xt1 ， Xt2 ，…， Xtn 称离散数字序列。为时间设 X(t) 是一个
随机程，过 Xti (i=1 ， 2 ，…， n) 称一次本，也为样实现
就是一个序列。时间

May 15, 2015
DMKD Sides By
MAO 4
序列有概念时间关
序列的研究必依据合适的理和技时间须论术进
行，序列的多性表明其研究必合序列特时间样须结
点来找到合适的建模方法。
 一元时间序列：如某种商品的销售量数列等，可以通过单变量随
即过程的观察获得规律性信息。
 多元时间序列。如包含气温、气压、雨量等在内的天气数据，通
过多个变量描述变化规律。时间序列挖掘需要揭示各变量间相互
依存关系的动态规律性。
 离散型时间序列：如果某一序列中的每一个序列值所对应的时间
参数为间断点，则该序列就是一个离散时间序列。
 连续型时间序列：如果某一序列中的每个序列值所对应的时间参
数为连续函数，则该序列就是一个连续时间序列。
 序列的分布规律：序列的统计特征可以表现平稳或者有规律的震
荡，这样的序列是分析的基础点。此外如果序列按某类规律（如
高斯型）的分布，那么序列的分析就有了理论根据。

May 15, 2015
DMKD Sides By
MAO 5
内容提要
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 6
序列的常用方法时间预测
序列分析的一个重要用是，即根据已知时间应预测
序列中数据的化特征和，未来属性。时间变趋势预测值
了序列方法有一个比全面的了解，我为对时间预测较们
首先序列的主要方法加以。对时间预测归纳
 确定性时间序列预测方法
 随机时间序列预测方法
 其他方法

May 15, 2015
DMKD Sides By
MAO 7
序列的常用方法时间预测 ( 续 )
 定性序列方法确时间预测
 于平化特征的序列来，假未来行与在的行有对稳变时间说设为现为
，利用属性在的将来的是可行的。例如，要下周某关现值预测值预测
商品的售，可以用最近一段的售量来建立模型种销额时间实际销预测
。
 一更科学的价序列的方法是将化在多上加以合种评时间变动变维综
考，把数据的看成是期、季和随机型共同作虑变动长趋势节变动变动
用的果。结

长期趋势：随时间变化的、按照某种规则稳步增长、下降或保
持在某一水平上的规律。

季节变动：在一定时间内（如一年）的周期性变化规律（如冬
季羽绒服销售增加）。

随机型变动：不可控的偶然因素等。
 设 Tt 表示期，长趋势 St 表示季，节变动趋势项 Ct 表示循环变动趋
，势项 Rt 表示随机干，扰项 yt 是目的。常的定观测标观测记录则见确
性序列模型有以下几类型：时间种
 加法模型： yt = Tt + St + Ct + Rt 。
 乘法模型： yt = Tt·St·Ct·Rt 。
 混合模型： yt = Tt·St + Rt 或 yt = St + Tt·Ct·Rt 。

May 15, 2015
DMKD Sides By
MAO 8
序列的常用方法时间预测 ( 续 )
 随机序列方法时间预测
 通过建立随机模型，对随机时间序列进行分析，可以
预测未来值。
 若时间序列是平稳的，可以用自回归 (Auto
Regressive ，简称 AR) 模型、移动回归模型 (Moving
Average ，简称 MA) 或自回归移动平均 (Auto
Regressive Moving Average ，简称 ARMA) 模型进行
分析预测。
 其他方法
 可用于时间序列预测的方法很多，其中比较成功的是
神经网络。由于大量的时间序列是非平稳的，因此特征
参数和数据分布随着时间的推移而变化。假如通过对某
段历史数据的训练，通过数学统计模型估计神经网络的
各层权重参数初值，就可能建立神经网络预测模型，用
于时间序列的预测。

May 15, 2015
DMKD Sides By
MAO 9
内容提要
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 10
基于 ARMA 模型的序列匹配方法
 ARMA 模型（特是其中的别 AR 模型）是序方法中最基时
本的、用最广的序模型。早在实际应时 1927 年， G. U.
Yule 就提出了 AR 模型，此后， AR 模型逐步展发为
ARMA 模型、多维 ARMA 模型。 ARMA 通常被广泛用于
。由于预测 ARMA 模型是一个信息的凝聚器，可将系的统
特性与系状的所有信息凝聚在其中，因而它也可以用统态
于序列的匹配。时间
 1 ． ARMA 模型
于平、正、零均的序，对稳态值时
若 X 在 t 刻的取不与其前时值仅 n 步的各个值
有，而且与前关还 m 步的各个干有扰关
（ n ， m=1 ， 2 ，…），按多元性回的思想，可则线归
得到最一般的 ARMA （ n ， m ）模型：
其中。
}1...210{ −== ntxX t ，，，，
nttt xxx −−− ...,,, 21
mttt −−− ααα ...,,, 21
tjtj
m
j
iti
n
i
t xx ααθϕ +−= −
=
−
=
∑∑ 11
),0(~ 2
at NID δα

May 15, 2015
DMKD Sides By
MAO 11
基于 ARMA 模型的序列匹配方法
( 续 )
2 ． AR 模型
AR （ n ）模型是 ARMA （ n ， m ）模型的一个特例。在
上面 ARMA （ n ， m ）模型表中，当，有达时
其中。由于此模型中没有滑平均部分，所时动
以称为 n 自回模型，阶归记为 AR （ n ）。
3 ． MA 模型
MA （ m ）模型是 ARMA （ n ， m ）模型的另一个特例。
在上面 ARMA （ n ， m ）模型表中，当，有达时
其中。由于模型中没有自回部分，所以称归为 m
滑平均（阶动 Moving Average ）模型，记为 MA （ m ）
。
0=jθ
titi
n
i
t xx αϕ += −
=
∑1
),0(~ 2
at NID δα
0=iϕ
jtj
m
j
ttx −
=
∑−= αθα
1
),0(~ 2
at NID δα

May 15, 2015
DMKD Sides By
MAO 12
建立 AR 模型
建立 AR 模型的最常用方法是最小二乘法。具体方法如下：
于对 AR （ n ）模型，有，其中，
即可以用以下性方程表示：线组
，
，
…… ，
。
或者写成如下矩形式：阵
，
其中
根据多元性回理，参数矩的最小二乘估：。线归论阵计为
tntnttt xxxx αϕϕϕ ++++= −−− ...2211 ),0(~ 2
at NID δα
111211 ... +−+ ++++= nnnnn xxxx αϕϕϕ
，
222112 ... +++ ++++= nnnnn xxxx αϕϕϕ
NnNnNNN xxxx αϕϕϕ ++++= −−− ...2211
。
αϕ += xy
T
Nn xxxy ]...[ 2n1 ++=
，
T
n ]...[ 21 ϕϕϕϕ =
，
T
nn ]...[ N21 αααα ++=
，












=
−−−
+
−
nNNN
nn
nn
xxx
xxx
xxx
x
...
......
...
...
21
21
11
yxxx TT 1
)( −
=ϕ

ϕ

May 15, 2015
DMKD Sides By
MAO 13
造判函数构别
根据上面的模型，我可以得待序列的参数们获测
模型，同我也可以得到序列数据中的其他序列样们库 Yi 的参数模型
。
和都是 n 向量，故均可维视为 n 空上的点，从而序列的相维间
似性就问题归结为 n 空维间 Rn
中的距离。因此，我下面介问题们简单绍
几基于距离的判函数。种别
1 ． Euclide
2 ．残差偏移距判离别
其中是待序列的方差矩，检协阵 N 表示待序列的度。检长
3 ． Mahalanobis 距判离别
其中是参考序列的方差矩。协阵
4 ． Mann 距判离别
其中，待序列的方差矩，待序的方差。为检协阵为测时
，
。
，
，
}1...,,2,1,0{ −== ntxX t
Xϕ iYϕ
Xϕ Yϕ
)()(),(2
YX
T
YXYXED ϕϕϕϕϕϕ −−=
)()(),(2
YXX
T
YXYX rND ϕϕϕϕϕϕα −−=
)()(),( 2
2
YXY
T
YX
Y
YXMh r
N
D ϕϕϕϕ
δ
ϕϕ −−=
)()(),( 2
2
XYX
T
XY
X
XYMn r
N
D ϕϕϕϕ
δ
ϕϕ −−=
Xr
Yr
Xr 2
Xδ

May 15, 2015
DMKD Sides By
MAO 14
内容提要
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 15
基于离散傅立叶的序列相似性找变换时间查
了方便，我首先出一些符号来表示序列及序列的为讨论们给
相似性：
 表示一个序列；
 Len （ X ）表示序列 X 的长度；
 First （ X ）表示序列 X 的第一个元素；
 Last （ X ）表示序列 X 的最后一个元素；
 表示 X 在 i 时刻的取值，；
 序列上元素之间的“ <” 关系，在序列 X 上，如果 i<j ，那
么 X[i]<X[j] ；
 本文用表示 X 的子序列，如果序列 X 有 k 个子序列，则
把这些子序列分别表示为。
 子序列间的 < 关系，为 X 的子序列，如果
，则称。
 子序列重叠（ Overlap ），假定 X S1 ， XS2 为 X 的两个
子序列，如果或
成立，则 XS1 与 XS2 重叠。
}1...,,2,1,0{ −== ntxX t
][iX ixiX =][
SX
SkSS XXX ,,..., 21
SjSi XX , )First(X)First(X SjSi <
SjSi XX <
)Last(X)First(X)First(X S1S2S1 ≤≤ )Last(X)First(X)First(X S2S1S2 ≤≤

May 15, 2015
DMKD Sides By
MAO 16
基于离散傅立叶的序列相似性找变换时间查
 一般地，相似性匹配可分类：为两
 完全匹配（ Whole Matching ）。定给 N 个序列
和一个序列查询 X ，些序列有相这
同的度，如果存在，那么我称长们
完全匹配。
 子序列匹配（ Subsequence Matching ）。定给
N 个具有任意度的序列和一个长查询
序列 X 以及参数。子序列匹配就是在
上找到某个子序列，使个子序列与这 X 之的距间
离小于等于。
nYYY ...,,, 21
ε≤),( iYXD iYX 与
nYYY ...,,, 21
)1( NiYi ≤≤

May 15, 2015
DMKD Sides By
MAO 17
完全匹配
所完全匹配必保被找的序列与出的序谓须证查给
列有相同的度。因此，与子序列匹配相比，工长
作就相一些。对简单
1 ．特征提取
 定一个序列，给时间对 X 行离进
散傅立叶，得到变换 ,
里，这 X 与 xt 代表域信息，而与代表域时频
信息，，傅立叶系数。为
2 ．首次筛选
 根据 Parseval 的理，域能量函数与域能论时谱频
量函数相同，得到谱
}1...,,2,1,0{ −== ntxX t
)/2exp(/1
1
0
nftixnX
n
t
tf π−= ∑
−
=
1,...,1,0 −= nf
X

fX
}1,...,2,1,0{ −== nfXX f

fX
22
YXYX

−≡−

May 15, 2015
DMKD Sides By
MAO 18
完全匹配 ( 续 )
按照 Parseval 的理，如下式子也成立：论应该
 大多数序列来，能量集中在傅立叶后的前几个系数对说变换
，也就是一个信号的高部分相来并不重要。因此我说频对说们
只取前面个系数，即
因此，
就掉一大批与定序列的距离大于这样滤给 的序列。
3 ．最终筛选
算每个首次被中的序列与定序列在域空的欧氏距离计选给时间
，如果个序列的欧氏距离小于或等于两 ，接受序列。则该
ε≤∑∑ −≤−
−
=
−
=
22
1
0
2
1
0
f
n
f
ff
f
f
f YXYX
c
ε
2
1
0
≤−∑
−
=
f
f
f
f YX
c
ε≤∑ −=−
−
=
22
1
0
2
f
n
f
f YXYX

cf

May 15, 2015
DMKD Sides By
MAO 19
内容提要
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 20
基于范的找方法规变换查
图 6-3 序列 X 与 Y 图 6-4 去掉 Gap 后的序列 X
与 Y
图 6-5 偏移变换后的序列 X 与 Y 图 6-6 幅度缩放后的序列
X 与 Y

May 15, 2015
DMKD Sides By
MAO 21
基本概念
定义 6-1 如果序列所包含的不相互重的子序列和叠
与 Y 所包含的不相互重的子序列足如下叠满 3 个条件，
可以认为
与是 -similar ：
（ 1 ）任意的都成立；对
（ 2 ）存在一些比例因子和一些偏移使得下式成立：
其中“”表示个子序列相似，表示子序列以两对  比例因子行为进缩
放，按照 行偏移。进变换
（ 3 ）定给 ，下式成立
个定意味着如果序列这义 X 与 Y 匹配的度之和与个序列的长这两长
度之和的比不小于值 ，序列则认为 X 与 Y 是 -similar 。事先这样
定的给阈值，就找到一个序列相似的价函数。评
当被比的序列较 X 与 Y 的度非常殊，我可以用如下函数来长悬们评
价相似度：
X SmSS XXX ，， ...21
X Y
Ym,ji1 SjSiSjSi YXX <<≤<≤ 与
SiSi
m
i YX ≈∀ = ))((1 λθ
ξ≥
+
+∑∑ ==
)()(
)()( 11
YLenXLen
YLenXLen
m
i Si
m
i Si
ξ≥
×
+∑∑ ==
))(),(min(2
)()( 11
YLenXLen
YLenXLen
m
i Si
m
i Si
SmS YY ，，...1

May 15, 2015
DMKD Sides By
MAO 22
基于范的找方法规变换查
Agrawal 把 X 与 Y 的相似性比分三个子：较问题为问题
原子序列匹配；窗口合；子序列排序。缝
1 ．原子序列匹配
 与基于离散傅立叶的序列找方法相同，原子序变换时间查
列匹配（ Atomic Matching ）也采用了滑窗口技。根动术
据用事先定的一个户给 （通常为 5~20 ），将序列映射
若干度为长为的窗口，然后些窗口行幅度放与对这进缩
偏移。变换
 我首先窗口中点的准化。通下面的，们讨论标问题过转换
可以将窗口内不范的点成准点：规转换标
其中表示窗口中第 i 个点的，、分表示窗口内值别
所有点的最大与最小。通上面的公式使得窗口内的值值过
每个点的落在（值 -1 ， +1 ）之。把准化后的窗间这种标
口称原子。为
2
2
][
][
~
minmax
maxmin
WW
WW
iW
iW
−
+
−
=
maxW minW][iW

May 15, 2015
DMKD Sides By
MAO 23
基于范的找方法规变换查 ( 续 )
2 ．窗口合缝
窗口合（缝 Window Stitching ）即子序列匹配，其主要任务
是将相似的原子接起来形成比的彼此相似的子序列。连较长
分别为 X 与 Y 上 m 个准化后的原子，标缝
合
使它形成一相似的子序列的条件如下们对
：
（ 1 ）于任意的对 i 都有相似；
（ 2 ）于任何对 j>i ，；
（ 3 ）任何对 i>1 ，如果不与重，且与之叠间
的 Gap 小于等于，同时 Y 也足个条件；如果与重满这
，重度叠叠长为 d ，与也重且重度也叠叠长为 d 。
（ 4 ） X 上的每个窗口行准化所用的比例因子大致进标时
相同， Y 上的每个窗口行准化所用的比例因子也大致进标时
相同。
mm YYXX
~
...
~~
...
~
11 ，，和，，
mm YYXX
~
...
~~
...
~
11 ，，和，，，
ii YX
~~
与
)()(),()( wjwiwjwi YFirstYFirstXFirstXFirst ≤≤
iX
~
1
~
−iX iX
~
1
~
−iX
iX
~
1
~
−iX
iY
~
1
~
−iY

May 15, 2015
DMKD Sides By
MAO 24
基于范的找方法规变换查 ( 续 )
3 ．子序列排序
通窗口合得到一些相似的子序列，再些子序列排过对缝对这
序（ Subsequence Ordering ），可以找到个彼此匹配则两
的序列。
子序列排序的主要任是从没有重的子序列匹配中找出匹务叠
配得最的那些序列。长
如果把所有的相似的原子看作中的点，个窗口的对图论顶两
合看作个点之的的，那么从起点到点有多条缝两顶间边话终
路，子序列排序就是找最路径。经寻长

May 15, 2015
DMKD Sides By
MAO 25
内容提要
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 26
序列掘挖
 序列掘或称序列模式掘，是指从序列数据中挖挖库发现蕴
涵的序列模式。序列分析和序列模式掘有多相似时间挖许
之，在用范畴、技方法等方面也有很大的重合度。处应术
但是，序列掘一般是指相或者其他序出的序挖对时间顺现
列的高率子序列的，典型的用是限于离散型的频发现应还
序列。
 序列模式掘最早是由挖 Agrawal 等人提出的，它的最初动
机是有交易属性的交易数据中繁目针对带时间库发现频项
序列以某一段内客的活律。发现时间户购买动规
 近年来序列模式掘已成数据掘的一个重要方面，挖经为挖
其用范也不局限于交易数据，在应围库 DNA 分析等尖端
科学研究域、领 Web 等新型用数据源等多方面访问应众
得到性研究。针对

May 15, 2015
DMKD Sides By
MAO 27
序列掘—基本概念挖
 定义 6-3 一个序列（ Sequence ）是集的有序表项 , 记为
α=α1→α2→ →⋯ αn ，其中每个 αi 是一个集项
（ Itemset ）。一个序列的度（长 Length ）是它所包含
的集。具有项 k 度的序列称长为 k- 序列。
 定义 6-4 序列设 α=α1→α2→ →⋯ αn ，序列
β=β1→β2→ →⋯ βm 。若存在整数 i1<i2<⋯<in ，使得
，
称序列则 α 是序列 β 的子序列，或序列 β 包含序列
α 。在一序列中组 , 如果某序列 α 不包含其他任何序列中
，称则 α 是中最序列该组长 (Maximal sequence) 。
 定义 6-5 定序列给 S ，序列数据库 DT, 序列 S 的支持度
（ Support ）是指 S 在 DT 中相于整个数据元而言对库组
所包含 S 的元出的百分比。支持度大于最小支持度组现
(min-sup) 的 k- 序列 , 称为 DT 上的繁频 k- 序列。
ninii βαβαβα <<< ...,,, 21 21

May 15, 2015
DMKD Sides By
MAO 28
序列掘—数据源的形式挖
表 6-1 带交易时间的交易数据源示例
客户号
（ Cust_id ）
交易时间
（ Tran_time ）
物品（ Item ）
1
1
June 25’99
June 30’99
30
90
2
2
2
June 10’99
June 15’99
June 20’99
10 ， 20
30
40 ， 60 ， 70
3 June 25’99 30 ， 50 ， 70
4
4
4
June 25’99
June 30’99
July 25’99
30
40 ， 70
90
5 June 12’99 90
表 6-2 顾客序列表示例
客户号
（ Cust_id ）
顾客序列（ Customer Sequence ）
1 < （ 30 ）（ 90 ） >
2 < （ 10 ， 20 ）（ 30 ）（ 40 ， 60 ， 70 ） >
3 < （ 30 ， 50 ， 70 ） >
4 < （ 30 ）（ 40 ， 70 ）（ (90) >
5 < （ 90 ） >
带交易时间的交易数据库的
典型形式是包含客户号
（ Customer-id ）、交易时间
（ Transaction-Time ）以及
在交易中购买的项（ Item ）
等的交易记录表。表 6-1 给出
了一个这样数据表的示例。
这样的数据源需要进行形式
化的整理，其中一个理想的
预处理方法就是转换成顾客
序列，即将一个顾客的交易
按交易时间排序成项目序列。
例如表 6-2 给出了表 6-1 对应
的所有顾客序列表。

May 15, 2015
DMKD Sides By
MAO 29
序列掘—数据源的形式挖 ( 续 )
操作系统及其系统进程调用是评价系统安全性的一个重要方面。通过对正常调用序列的学习可以预
测随后发生的系统调用序列、发现异常的调用。因此序列挖掘是从系统调用等操作系统审计数据中发
现有用模式的一个理想的技术。表 6-3 给出了一个系统调用数据表示意，它是利用数据挖掘技术进行
操作系统安全性审计的常用数据源。
表 6-3 系统进程调用数据示例
进程号
（ Pro_id ）
调用时间
（ Call_time ）
调用号（ Call_id ）
744
744
1069
9
1069
744
1069
9
-1
04 ： 01 ： 10 ： 30
04 ： 01 ： 10 ： 31
04 ： 01 ： 10 ： 32
04 ： 01 ： 10 ： 34
04 ： 01 ： 10 ： 35
04 ： 01 ： 10 ： 38
04 ： 01 ： 10 ： 39
04 ： 01 ： 10 ： 40
23
14
4
24
5
81
62
16
表 6-4 系统调用序列数据表示例
进程号（ Pro_id ）调用序列（ Call_sequence ）
744
1069
9
< （ 23 ， 14 ， 81 ） >
< （ 14 ， 24 ， 16 ） >
< （ 4 ， 5 ， 62 ） >

May 15, 2015
DMKD Sides By
MAO 30
序列模式掘的一般挖步骤
我分五个具体段来介基于上面概念序列模式的方法。些步们阶绍发现这骤
分是排序段、大集段、段、序列段以及最大段。别阶项阶转换阶阶选阶
1. 排序段阶
 数据行排序（对库进 Sort ），排序的果将原始的数据成序列数结库转换
据（比可能需要其他的理手段来助行）。例如，上面介库较实际预处辅进
的交易数据，如果以客号（绍库户 Cust_id ）和交易（时间 trans-time ）
行排序，那么在通同一客的事行合并就可以得到的序列进过对户务进对应
数据。库
2. 大集段项阶
 个段要找出所有繁的集（即大集）成的集合这阶频项项组 L 。上，也实际
同步得到所有大 1- 序列成的集合，即组 {<l> | l ∈L} 。
在上面表 6-2 出的客序列数据中，假支持数给顾库设为 2 ，大集分则项别
是（ 30 ），（ 40 ），（ 70 ），（ 40 ， 70 ）和（ 90 ）。操作中实际
，常将大集被映射成的整数。例如，上面得到的大集映射成表经项连续项
6-6 的整数。当然，的映射粹是了理的方便和高效。对应这样纯为处
Large Itemsets Mapped To
（ 30 ）
（ 40 ）
（ 70 ）
（ 40 ， 70 ）
（ 90 ）
1
2
3
4
5

May 15, 2015
DMKD Sides By
MAO 31
序列模式掘的一般挖步骤 ( 续 )
3. 段转换阶
 在找序列模式的程中，我要不断地行一个寻过们进检测给
定的大序列集合是否包含于一个客序列中。户
表 6-7 出了表给 6-2 数据后的数据。比如，库经过转换库
在对 ID 号为 2 的客序列行的候，交易（户进转换时 10 ，
20 ）被剔除了，因它并没有包含任何大集；交易为项
（ 40 ， 60 ， 70 ）被大集的集合则项 { （ 40 ），
（ 70 ），（ 40 ， 70 ） } 代替。
4. 序列段阶
 利用后的数据找繁的序列，即大序列（转换库寻频 Large
Sequence ）。
5. 最大段选阶
 在大序列集中找出最序列（长 Maximal Sequences ）。
Large Itemsets Mapped To
（ 30 ）
（ 40 ）
（ 70 ）
（ 40 ， 70 ）
（ 90 ）
1
2
3
4
5

May 15, 2015
DMKD Sides By
MAO 32
内容提要
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 33
AprioriAll 算法
 AprioriAll 算法源于繁集算法频 Apriori ，它把 Apriori
的基本思想展到序列掘中，也是一个多遍描数据扩挖扫
的算法。库
 在每一遍描中都利用前一遍的大序列来生候序列扫产选
，然后在完成遍整个数据后它的支持度。历库测试们
 在第一遍描中，利用大目集段的出来初始化大扫项阶输
1- 序列的集合。
 在每次遍中，从一个由大序列成的子集始，利历组种开
用个子集，可以生新的潜在的大序列。这种产
 在第一次遍前，所有在大集段得到的大历项阶 1- 序列组
成了子集。种

May 15, 2015
DMKD Sides By
MAO 34
AprioriAll 算法
1. AprioriAll 算法描述
算法 6-1 AprioriAll 算法
输入：大项集阶段转换后的序列数据库 DT
输出：所有最长序列
（ 1 ） L1={large 1-sequences} ； // 大项集阶段得到的结果
（ 2 ） FOR （ k=2 ； Lk-1 ≠ ∅ ； k++ ） DO BEGIN
（ 3 ） Ck=aprioriALL_generate(Lk-1) ； // Ck 是从 Lk-1 中产生的新的候选者
（ 4 ） FOR each customer-sequence c in DT DO
// 对于在数据库中的每一个顾客序列 c
（ 5 ） Sum the count of all candidates in Ck that are contained in c ；
// 被包含于 c 中 Ck 内的所有候选者计数
（ 6 ） Lk = Candidates in Ck with minimum support
// Lk ＝ Ck 中满足最小支持度的候选者
（ 7 ） END ；
（ 8 ） Answer = Maximal Sequences in ∪kLk ；
由于我们在关联规则一章对 Apriori 算法进行了详尽地介绍，因此上面给出的算
法流程很容易理解。它的关键仍然是侯选集的产生，具体候选者的产生如下：

May 15, 2015
DMKD Sides By
MAO 35
AprioriAll 算法例举
例子 6-1 对于如下所示的长度为 3 的序列集合。若将其作为函数
aprioriALL_generate 的输入参数，在连接之后将如图 6-10 (b) 所示。再修剪
掉子序列不在 L3 中的序列后，得到的序列如图 6-10 (c) 所示。在修剪的过程
中，对于 <1 ， 2 ， 4 ， 3> ，因为 <2 ， 4 ， 3> 不在 L3 大 3 序列中，所以
<1 ， 2 ， 4 ， 3> 将被修剪掉。同理其他序列的修剪也是如此。此外，需要说
明的是在产生候选 4 序列时不会产生长度大于 4 的序列，比如 <1 ， 2 ， 4>
和 <1 ， 3 ， 5> 连接时，程序在 WHERE 条件语句将终止此操作。
<1，2，3，4>
<1，2，4，3>
<1，3，4，5>
<1，3，5，4>
(b) 候选 4 序列（连接运算后）
3-Sequences Support
<1，2，3> 2
<1，2，4> 2
<1，3，4> 3
<1，3，5> 2
<2，3，4> 2
（a）大 3 序列
<1，2，3，4>
(c) 候选 4 序列（修剪后）

May 15, 2015
DMKD Sides By
MAO 36
例子 6-2 给出一个客户序列组成的数据库如图 6-11 （ a ）所示，在这里我们
没有给出源数据库的形式，即客户序列已经以转换的形式出现。假如最小支持
度为 40% （也就是至少两个客户序列）那么在大项集阶段可以得到大 1- 序列
，之后应用 AprioriAll 算法可以逐步演变成最终的大序列集。图 6-11 给出了整
个过程。
<（1，5）（2）（3）（4）>
<（1）（3）（4）（3，5）>
<（1）（2）（3）（4）>
<（1）（3）（5）>
<（4）（5）>
(a) 客户序列数据库
(b) L1
1-Sequences Support
<1> 4
<2> 2
<3> 4
<4> 4
<5> 4
算法（1）步
依 apriori_generate 算法
L1 与 L1 连接得
<1，2> <2，1> <3，1> <4，1> <5，1>
<1，3> <2，3> <3，2> <4，2> <5，2>
<1，4> <2，4> <3，4> <4，3> <5，3>
<1，5> <2，5> <3，5> <4，5> <5，4>
支持度检测
(c) C2

May 15, 2015
DMKD Sides By
MAO 37
(d) L2
L2 与 L2 连接得
<1，2，3> <1，3，2> <1，4，2> <1，5，2>
<2，3，4> <2，4，3> <3，4，5> <3，5，4>
<1，2，4> <1，3，4> <1，4，3> <1，5，3>
<1，2，5> <1，3，5> <1，4，5> <1，5，4>
(e) C3（未修剪）
C3 修剪支持度检测
(g) L3
3-Sequences Support
<1，2，3> 2
<1，2，4> 2
<1，3，4> 3
<1，3，5> 2
<2，3，4> 2
<1，2，3> <1，3，4>
<1，4，5> <2，3，4>
<3，4，5> <1，2，4> <1，3，5>
(f) C3

May 15, 2015
DMKD Sides By
MAO 38
至此， AprioriAll 算法找到了所有的大 -k 序列集，即 L1 、 L2 、 L3 、 L4 ，对于大 -k 序
列集进行 Maximal Sequences in ∪kLk 运算，最终得到最大的大序列。上例结果如下表
所示：
AprioriAll 利用了 Apriori 算法的思想，但是在候选产生和生成频繁序列方面需要考虑序
列元素有序的特点进行相应地处理。表 6-8 只给出了最终的频繁序列，实际上在候选产
生过程中有大量序列产生。例如图 6-11 中，在由 L2 产生 C3 过程中，诸如
〈 2 ， 3 ， 4 〉和〈 2 ， 4 ， 3 〉都作为候选被测试，只不过因为〈 2 ， 4 ， 3 〉不满
足支持度要求而在演化 L3 过程中被裁减掉。
L3 与 L3 连接得
(j) L4
4-Sequences Support
<1，2，3，4> 2
<1，2，3，4>
<1，2，4，3>
<1，3，4，5>
<1，3，5，4>
(h) C4 未修剪
修剪
<1，2，3，4>
(i) C4
支持度检测
Sequences Support
<1 ， 2 ， 3 ， 4> 2
<1 ， 3 ， 5> 2
<4 ， 5> 2

May 15, 2015
DMKD Sides By
MAO 39
内容提要
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 40
AprioriSome 算法
AprioriSome 算法可以看作是 AprioriAll 算法的改，具体程分进过为两
个段：阶
前推段：阶此段用于找出指定度的所有大序列。阶长
回溯段：阶此段用于找其他度的所有大序列。阶查长
算法 6-3 AprioriSome 算法
输入：大项集阶段转换后的序列数据库 DT
输出：所有最长序列
// Forward Phase — 前推阶段；
（ 1 ） L1 = {large 1-sequences} ； // 大项目集阶段的结果；
（ 2 ） C1 = L1 ；
（ 3 ） last = 1 ； // 最后计数的 Clast
（ 4 ） FOR （ k =2 ； Ck-1 ≠ ∅ and Llast ≠∅ ； k++ ） DO BEGIN
（ 5 ） IF （ Lk-1 know ） THEN Ck = New candidates generated from Lk-1 ；
//Ck ＝产生于 Lk-1 新的候选集
（ 6 ） ELSE Ck = New candidates generated from Ck-1 ； // Ck ＝产生于 Ck-1 新的候选集
（ 7 ） IF （ k =next （ last ）） THEN BEGIN
（ 9 ） FOR each customer-sequence c in the database DO // 对于在数据库中的每一个客户序
列 c
// 求包含在 c 中的 Ck 的候选者的数目之和
（ 11 ） Lk = Candidates in Ck with minimum support ； // Lk ＝在 Ck 中满足最小支持度的候选
者
（ 12 ） last = k ；
（ 13 ） END ；

May 15, 2015
DMKD Sides By
MAO 41
AprioriSome 算法 ( 续 )
// Backward Phase — 回溯阶段；
（ 15 ） FOR （ k - - ； k > = 1 ； k - - ） DO
（ 16 ） IF （ Lk not found in forward phase ） THEN BEGIN // Lk 在前推阶段没有确定的情况
（ 17 ） Delete all sequences in Ck contained in Some Li ， i > k ；
// 删除所有在 Ck 中包含在 Lk 中的序列， i>k
（ 18 ） FOR each customer-sequence c in DT DO // 对于在 DT 中的每一个客户序列 c
// 对在 Ck 中包含在 c 中的所有的候选这的计数
（ 20 ） Lk = Candidates in Ck with minimum support // Lk = 在 Ck 中满足最小支持度的候选者
（ 21 ） END ；
（ 22 ） ELSE Delete all sequences in Lk contained in Some Li ， i > k ； // Lk 已知
（ 23 ） Answer = ∪k Lk ； // 从 k 到 m 求 Lk 的并集
在前推阶段（ forward phase ）中，我们只对特定长度的序列进行计数。比如，前推阶段我们对长度
为 1 、 2 、 4 和 6 的序列计数（计算支持度），而长度为 3 和 5 的序列则在回溯阶段中计数。 next
函数以上次遍历的序列长度作为输入，返回下次遍历中需要计数的序列长度。
算法 6-4 next （ k: integer ）
IF （ hitk < 0.666 ） THEN return k + 1 ；
ELSEIF （ hit k < 0.75 ） THEN return k + 2 ；
ELSE THEN return k + 5 ；
hitk 被定义为大 k- 序列（ large k-sequence ）和候选 k- 序列（ candidate k-sequence ）
的比率，即 |Lk|/|Ck| 。这个函数的功能是确定对哪些序列进行计数，在对非最大序列计数
时间的浪费和计算扩展小候选序列之间作出权衡。

May 15, 2015
DMKD Sides By
MAO 42
AprioriSome 算法
例子 6-3 我们仍然采用 AprioriAll 算法用过的图 6-11 （ a ）数据库例子来说明 AprioriSome 算法。
在大项集阶段可以找出 L1 （和图 6-9 （ b ）的 L1 相同）。假设 next （ k ） =2k ，则通过计算 C2 可
以得到 L2 （和图 6-11 （ d ）中的 L2 相同）。第三次遍历后， apriori_generate 函数以 L2 作为输入
参数来产生 C3 。图 6-12 （ e ）给出了 C3 中的候选序列。我们不计算 C3 ，因此也不产生 L3 。下一
步 apriori_generate 函数以 C3 来产生 C4 ，在经过剪枝后，得到的结果和图 6-9 （ i ）所示的 C4 相同。
在以 C4 计算 L4 （图 6-12 （ i ））之后，我们试图产生 C5 ，这时的结果为空。前推阶段的具体运行
见下图 6-12 所示。<（1，5）（2）（3）（4）>
<（1）（3）（4）（3，5）>
<（1）（2）（3）（4）>
<（1）（3）（5）>
<（4）（5）>
(a) 原序列库 (b) L1，、C1
last=1
1-Sequences Support
<1> 4
<2> 2
<3> 4
<4> 4
<5> 4
算法（1）步
k=2, Lk-1 已知， C2 由
apriori_generate算法 L1与 L1 连接得
(d) L2
<1，2> <2，1> <3，1> <4，1> <5，1>
<1，3> <2，3> <3，2> <4，2> <5，2>
<1，4> <2，4> <3，4> <4，3> <5，3>
<1，5> <2，5> <3，5> <4，5> <5，4>
(c) C2
k＝2，k＝＝next(last)成立，
执行计数等操作，求出 Lk ，
last＝k＝2

May 15, 2015
DMKD Sides By
MAO 43
AprioriSome 算法
(e) C3
k=3 ,Lk-1=L2 是已知的，所以 Ck 由
Lk-1 即 C3 由 L2 产生，同样调用
apriori_generate 算法
<1，2，3> <2，3，4>
<1，2，4> <3，4，5>
<1，3，4>
<1，4，5>
<1，3，5>
k＝3， next(2)=4，
k＝＝next(last)成立
(f)
k＝4，Ck-1＝C3 不空，
Llast＝L2 不空，继续执
行
k=4,Lk-1=L3 是未知的，所以 Ck 由
Ck-1 即 C4 由 C3 产生，同样调用
apriori－generate 算法
<1，2，3，4>
<1，2，4，3>
<1，3，4，5>
<1，3，5，4>
修剪
<1，2，3，4>
(h) C4
(g)
(i) L4
4-Sequences Support
<1，2，3，4> 2
(j)
k＝4，k＝＝next(2)成立，执
行计数等操作，求出 Lk ，
last＝k＝4
k＝5，Ck-1＝C4 不空，Llast＝L4 不
空，继续执行，其后 C5 产生为空。
k＝5，next（4）＝8，此时不满足
条件，前半部分到此结束

May 15, 2015
DMKD Sides By
MAO 44
AprioriSome 算法
(a) L4
4-Sequences Support
<1，2，3，4> 2
k＝4，L4 在前半部分确定，删
除所有在 L4 中包含在某些 Li
中的序列，i>k
k=3, L3 在前半部分没有
确定，删除 C3 中某些
Li 中的序列，i>k
<1，3，5>
<1，4，5>
<3，4，5>
(b) 删除大 4 序列的子序列之
后的候选 C3 序列
(c) L3
3-Sequences Support
<1，3，5> 2
2-Sequences Support
<4，5> 2
(d) L2
对新的 C3 计数
求出 L3
k＝2，L2 在前半部分确定，
删除所有在 L2 中包含在某
些 Li 中的序列，i>k
(f) 最大的大序列
Sequences Support
<1，2，3，4> 2
<1，3，5> 2
<4，5> 2
(e)
k＝1，L1 在前半部分确定，
删除所有在 L1 中包含在某
些 Li 中的序列，i>k
C5 为空，至此后半部
分算法执行结束
Answer = ∪ k Lk
回溯阶段的具体运行见下图 6-13 所示。

May 15, 2015
DMKD Sides By
MAO 45
AprioriAll 和 AprioriSome 比较
AprioriAll 和 AprioriSome 比较
 AprioriAll 用 Lk-1 去算出所有的候选 Ck ，而
AprioriSome 会直接用 Ck-1 去算出所有的候选 Ck. ，因
为 Ck-1 包含 Lk-1 ，所以 AprioriSome 会生比多的候产较
。选
 虽然 AprioriSome 跳式算候，但因它所生的候跃计选为产
比多，可能在回溯段前就占内存。选较阶满
 如果内存了，满 AprioriSome 就会被强迫去算最后一计组
的候，（即使原本是要跳此）。，会影响并选过项这样减
少已算好的个候的跳距离，而使得两选间跃 AprioriSome
会的跟变 AprioriAll 一。样
 于低的支持度，有的大序列，也因此有多的对较较长较
非最大序列，所以 AprioriSome 比好。较

May 15, 2015
DMKD Sides By
MAO 46
内容提要
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 47
GSP 算法
GSP 算法主要包括三个步：骤
 ① 扫描序列数据库，得到长度为 1 的序列模式 L1 ，作为初始的种子集；
 ② 根据长度为 i 的种子集 Li 通过连接操作和剪切操作生成长度为 i+1 的
候选序列模式 Ci+1 ；然后扫描序列数据库，计算每个候选序列模式的支持
数，产生长度为 i+1 的序列模式 Li+1 ，并将 Li+1 作为新的种子集；
 ③ 重复第二步，直到没有新的序列模式或新的候选序列模式产生为止。
其中，生候序列模式主要分步：产选两
 连接阶段：如果去掉序列模式 S1 的第一个项目与去掉序列模式 S2 的最
后一个项目所得到的序列相同，则可以将 S1 于 S2 进行连接，即将 S2 的
最后一个项目添加到 S1 中。
 剪切阶段：若某候选序列模式的某个子序列不是序列模式，则此候选序
列模式不可能是序列模式，将它从候选序列模式中删除。
候序列模式的支持度算按照如下方法行：选计进
 对于给定的候选序列模式集合 C ，扫描序列数据库 DT ，对于其中的每一
条序列 d ，找出集合 C 中被 d 所包含的所有候选序列模式，并增加其支
持度计数。

May 15, 2015
DMKD Sides By
MAO 48
GSP 算法
算法 6-5 GSP 算法
输入：大项集阶段转换后的序列数据库 DT 。
输出：最大序列
（ 1 ） L1 = {large 1-sequences} ； // 大项集阶段得到的结果
（ 2 ） FOR （ k = 2 ； Lk-1 ≠ ∅ ； k++ ） DO BEGIN
（ 3 ） Ck = GSPgenerate(Lk-1) ；
（ 4 ） FOR each customer-sequence c in the database DT DO
（ 5 ） Increment the count of all candidates in Ck that are
contained in c ；
（ 6 ） Lk = Candidates in Ck with minimum support ；
（ 7 ） END ；
（ 8 ） Answer = Maximal Sequences in ∪kLk ；

May 15, 2015
DMKD Sides By
MAO 49
GSP 算法例举
例子 6-5 表 6-9 演示了从长度为 3 的序列模式产生长度为 4 的候选序列模式的过程。
在连接阶段，序列 < （ 1 ， 2 ）， 3> 可以与 <2 ，（ 3 ， 4 ） > 连接，因为
< （ * ， 2 ）， 3> 与 <2 ，（ 3 ， * ） > 是相同的，两序列连接后为 < （ 1 ， 2 ），
（ 3 ， 4 ） > ； < （ 1 ， 2 ）， 3> 与 <2 ， 3 ， 5> 连接，得到
< （ 1 ， 2 ）， 3 ， 5> 。剩下的序列是不能和任何长度为 3 的序列连接的，比如
< （ 1 ， 2 ）， 4> 不能与任何长度为 3 的序列连接，这是因为其他序列没有 < （ 2 ），
（ 4 ， * ） > 或者 < （ 2 ），（ 4 ）（ * ） > 的形式。
表 6-9 GSP 算法举例
在修剪阶段 < （ 1 ， 2 ）， 3 ， 5> 将被剪掉，这是因为 <1 ， 3 ， 5> 并不在 L3 中，而
< （ 1 ， 2 ），（ 3 ， 4 ） > 的长度为 3 的子序列都在 L3 因而被保留下来。
Sequential patterns
With Length 3
Candidate4-Sequences
After Join After Pruning
< （ 1 ， 2 ）， 3>
< （ 1 ， 2 ）， 4
>
<1 ，（ 3 ， 4 ）
>
< （ 1 ， 3 ）， 5
>
<2 ，（ 3 ， 4 ）
>
<2 ， 3 ， 5>
< （ 1 ， 2 ），
（ 3 ， 4 ） >
< （ 1 ， 2 ）， 3
， 5>
< （ 1 ， 2 ），
（ 3 ， 4 ） >

May 15, 2015
DMKD Sides By
MAO 50
内容提要
 GSP 算法

May 15, 2015
DMKD Sides By
MAO 51
Thank you !!!Thank you !!!

序列模式和时间序列模式

Recommended

Recommended

More Related Content

Featured

Featured (20)

序列模式和时间序列模式