管理学硕士学位论文
基于数据挖掘的客户流失预测实证研究
司学峰
北京工业大学
2009 年 5 月
分类号 C93 单位代码:10005
学 号:S200611087
密 级:公开
北京工业大学硕士学位论文
题 目 基于数据挖掘的客户流失预测实证研究
题 目 Demonstration Study of Customer Churn Pred...
独 创 性 声 明
本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所
知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究
成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使...
摘 要
-I-
摘 要
现实世界中,数据的分布往往是不平衡的,数据非平衡性问题已影响到多个
应用领域如:客户流失、欺诈侦测、风险管理等。当前,随着数据挖掘研究的深
入,非平衡数据挖掘正成为一个新的热点研究领域。
本文研究的客户流失数据集具有典型...
北京工业大学管理学硕士学位论文
-II-
Abstract
In the real world, data distribution is often class-imbalanced.The un-balanced
data problem ...
Abstract
- III -
problems on a certain reference.
To against the problem of customer churn data sets’ High -Dimensional
ch...
目 录
- 1 -
目 录
摘 要............................................................................................................
北京工业大学管理学硕士学位论文
-2-
3.5 预测建模.................................................................................................
第 1 章 绪论
- 1 -
第 1 章 绪论
1.1 研究背景及意义
1.1.1 研究背景
世界扁平化趋势、业务多样化、全球化,客户需求个性化、多样化、敏捷化
等特性使企业间的竞争急剧增加。国外知名企业、财团对国内市场的进一步加大
投资力度,...
北京工业大学管理学硕士学位论文
-2-
年相比,网络招聘上升了 5%,仅 2005 年一季度人才市场登记月需求 24518 万个
职位,登记求职 64118 万人。由中国互联网信息中心发布的《中国互联网络发展
状况统计报告》显示,截至 2008...
第 1 章 绪论
- 3 -
突出表现在:客户流失数据集属于典型的非平衡数据问题,由于以往文献较少考
虑非平衡数据挖掘导致虽然预测模型精度高,但模型预测性能差[3]
。另外针对客
户流失数据的高维特征进行有效约减需要进一步深入研究等。
现实世界...
北京工业大学管理学硕士学位论文
-4-
Reichheld 等 1990 年在哈弗商业评论发表文章《Zero defections:quality comes
to service》提出了“产品零缺陷”到“客户零缺陷”的概念,指出要关注客户流
...
第 1 章 绪论
- 5 -
响因素如图 1-1 所示
[12]
。
图 1-1 电信行业客户流失因素
Figrue1-1 customer churn factor in telecommunication industry
以上研究主要从客...
北京工业大学管理学硕士学位论文
-6-
(1)回归分析
Rosset 在引入客户价值的基础上,利用 Logistic 回归建立客户流失预测模型,
发现引入模型后,提升度(Lift)有显著改善[15]
。Kim 等利用调查得到的韩国 973
个移...
第 1 章 绪论
- 7 -
(5)粗糙集
史芳丽等应用粗糙集对训练样本中的 17 个属性进行重要性约简学习,形成
具有 12 个属性的训练样本,在此基础上,应用 C4.5 算法建模, 大大提高了学
习效率,实验结果表明,模型是健壮和稳定的[2...
北京工业大学管理学硕士学位论文
-8-
神经网络
能发现非线性模式
不必预先对样本数据的
分布作假设
结果难以用简单的规则表述
要求样本数据必须是数值型
预测结果与网络拓扑结构及权
系数相关
客户流失预测
客户信用评价
客户价值评估
贝叶斯
分...
第 1 章 绪论
- 9 -
论文创新点
1) 针对客户流失数据集的非平衡性与错分代价差异性问题,在传统 SVM 基
础上,引入代价敏感学习理论,提出了代价敏感 SVM 的客户流失预测建模方法,
通过实验验证了方法了有效性,对解决此类问题有一定...
北京工业大学管理学硕士学位论文
-10-
客户流失预测研究现状
非平衡数据问题
基于数据挖掘的客户流失预测研究
客户流失因素分析
高维属性问题
基于数据挖掘的客
户流失研究综述
网络招聘特征及市
场现状研究
数据挖掘功能及挖掘
流程分析
基于代...
第 1 章 绪论
- 11 -
图 1-2 研究结构框架图
Figure 1-2 the frame of research structure
1.5 本章小结
本章论述了本文研究背景及意义,分析了客户流失因素,对基于数据挖掘技
术的客户流失...
第 2 章 相关理论研究
- 13 -
第 2 章 相关理论研究
2.1 数据挖掘
2.1.1 数据挖掘概念
1995 年在美国计算机年会(Association for Computing Machinery, ACM)上首
次提出数据挖掘(...
北京工业大学管理学硕士学位论文
-14-
的预测值。例如,由顾客过去刷卡消费额预测其未来的刷卡消费额。使用的方法
有回归分析、时间序列分析及神经网络等。
关联分组(affinity grouping):从所有对象决定哪些相关对象应该放在一起。
...
第 2 章 相关理论研究
- 15 -
图 2-1 CRISP-DM 模型
Figure 2-1 CRISP-DM Model
外圈象征数据挖掘自身的循环本质即在一个解决方案发布之后一个数据挖
掘的过程才可以继续。在这个过程中得到的知识可以触发...
北京工业大学管理学硕士学位论文
-16-
使用的决定必须达成。
6) 部署(Deployment):通常,模型的创建不是项目的结束。模型的作用是从
数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需
求,这个阶段可以产生简单...
第 2 章 相关理论研究
- 17 -
对于概率密度估计问题,学习的目的是根据训练样本确定 x 的概率密度。
记估计的密度函数为 ( , )p x w ,其损失函数的定义形式为:
( , ( , )) ln ( , )L y f x w p x...
北京工业大学管理学硕士学位论文
-18-
核心概念有 VC 维和结构风险最小化。
(1) VC 维
VC 维的直观定义为:对于一个指示函数(即只有 0 和 1 两种取值的函数)集,
如果存在h 个样本能够被函数集中的函数按所有可能的2h
种形式...
第 2 章 相关理论研究
- 19 -
个子集按照 VC 维的大小进行排序;在每个子集中寻找最小经验风险,在子集间
折衷经验风险和置信范围,使得实际风险的最小。如图 2-2 所示,统计学习理论
还给出了合理的函数子集结果应满足的条件以及在 SR...
北京工业大学管理学硕士学位论文
-20-
支持向量机分类算法有两个基本出发点,即最大间隔原则和核技巧。最大间
隔原则最早可以追溯到优化专家 Mangasarian 20 世纪 60 年代的工作,之后 Vapnik
等人从统计学习理论的角度重新提...
第 2 章 相关理论研究
- 21 -
( , )K x x x x′ ′= ⋅ (2.12)
Gauss 径向基核
2 2
( , ) exp( / )K x x x x σ′ ′= − − (2.13)
其中,σ 为核函数参数,它隐式地定义...
北京工业大学管理学硕士学位论文
-22-
等式:
(( ) ) 1i iy w x b⋅ + ≥ , (2.17)
其中, 1, ,i l=
w
arg 2m in w=
( ) 1w x b⋅ + =
( ) 0w x b⋅ + =
( ) ...
第 2 章 相关理论研究
- 23 -
式(2.18)的最有解为 Lanrange 函数的鞍点:
1
1
( , , ) ( ) [ (( ) ) 1]
2
l
i i i
i
L w b a w w a y w x b
=
= ⋅ − ⋅ +...
北京工业大学管理学硕士学位论文
-24-
程度。此时,不但希望间隔
2
w
尽可能大,同时还要考虑错划程度
1
l
i
i
ξ
=
∑ 尽可能小。
为协调这两者关系,引入惩罚系数 0C > 作为调节这两个目标的权重,则式(2.18)
化为:
2...
第 2 章 相关理论研究
- 25 -
( ), , 1, ,i jK x x i j l⋅ =
满足 Mercer 条件,它就对应某一变换空间中的内积。通过引入输入空间 n
R
到一个高维 Hilbert 空间Η 的变换
( )
n
R X ...
北京工业大学管理学硕士学位论文
-26-
本信息,在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的泛化能
力;SVM 算法可转化为一个二次型寻优问题,从理论上,得到全局最优点,解决
了在神经网络方法中无法避免的局部极值问题;SVM 能以...
第 2 章 相关理论研究
- 27 -
夏国恩等采用支持向量机算法对客户流失问题进行了预测研究。把 SVM 与
人工神经网络、决策树、贝叶斯分类器等方法进行了对比试验,结果表明,SVM
在模型性能上明显优于其他算法[43]
。
应维云等建立了基...
北京工业大学管理学硕士学位论文
-28-
图 2-4 基于 BP 算法的神经网络模型
Figure 2-4 the model of BP arithmetic neural networks
1)输入层节点 ( 1,2, , )i i n= ...
第 2 章 相关理论研究
- 29 -
的目标输出结果; ply 为第 p 个样本的第l 个输出单元的网络运算结果。
图 2-5 神经网络模型训练过程
Figure 2-5 neural networks model training proc...
北京工业大学管理学硕士学位论文
-30-
如 K-means、K-medoids、BIRCH、CURE 等算法。
2) 基于密度的聚类算法:相对于基于距离的聚类算法,基于密度的聚类方
法主要是依据合适的密度函数等。
3) 基于互连性(Linka...
第 3 章 基于代价敏感 SVM 的客户流失预测实证研究
- 31 -
第 3 章 基于代价敏感 SVM 的客户流失预测实证研究
客户流失数据集具有典型的非平衡性,当采用传统支持向量机(SVM)进行分
类时,为了最大化超平面间隔的同时又能降低经...
北京工业大学管理学硕士学位论文
-32-
网站发布招聘信息,这样既达到了广告宣传的目的,又能使来访问的求职人员在
了解企业的实际状况后,有针对性地选择应聘岗位。
3) 在某些行业的网站发布招聘信息
由于行业网站往往能聚集某一领域的精英,在这样的...
第 3 章 基于代价敏感 SVM 的客户流失预测实证研究
- 33 -
SNS 类 通过社交类网站建立人脉关系,朋
友推荐方式获取工作信息
网络广告
线下活动
天际网
联络家
搜索类 依托于搜索引擎的求职招聘系统,
通过一站式来搜索企业个人求职...
北京工业大学管理学硕士学位论文
-34-
所示,响应者为通过电话营销对网络招聘表现出一些兴趣的潜在企业客户;免费
开户为响应者中的部分客户对该网络招聘网站表示认同或抱着对网络招聘试试
看的态度把企业客户营业执照等相关文件传给招聘网站,双方签订协...
第 3 章 基于代价敏感 SVM 的客户流失预测实证研究
- 35 -
3.2 代价敏感学习
现实世界中,数据的分布往往是非平衡的,“不正常”数据的数目往往比
“正常”数据的数目少很多。G .Weiss 对非平衡数据进行了准确、广泛的定义,
不...
北京工业大学管理学硕士学位论文
-36-
对于非平衡分类问题而言, ( , ) ( , )i j Cost i j Cost j i≠ ≠时, 。此时不再仅以 x 的
极大后验概率确定其类别。若给定把一个类别样本误分为另一类的代价,可以重
构代...
第 3 章 基于代价敏感 SVM 的客户流失预测实证研究
- 37 -
1 1 1
i=1
1
min: ( )
2
s.t. 0
0 , 1
0 , 1
n n n
i j i j i j i
i j i
n
i i
i i
i i
y y ...
北京工业大学管理学硕士学位论文
-38-
1 1 1
N
i=1
1
min: ( )
2
s.t. 0
0 cos 1
0 cos 1
n n n
i j i j i j i
i j i
i i
i i i
i i i
y y k x x a...
第 3 章 基于代价敏感 SVM 的客户流失预测实证研究
- 39 -
收到简历信息 收到简历总数,最近 2 周收到简历数,职位收到简历最
大数量,职位平均收到简历数等
3.5.2 数据预处理
数据的预处理涉及缺失值处理、属性编码和规范化等步骤...
北京工业大学管理学硕士学位论文
-40-
参数含义为:
FN(False Negative):分类模型将付费样本错误的预测为流失的数量;
TN(True Negative):分类模型将流失样本正确的预测为流失的数量;
FP(False Posi...
第 3 章 基于代价敏感 SVM 的客户流失预测实证研究
- 41 -
图 3-2 基于标准 SVM 建模的 ROC 曲线
Figure 3-2 ROC curve based on standard SVM modeling
图 3-3 基于...
北京工业大学管理学硕士学位论文
-42-
图 3-4 基于代价敏感 SVM 建模的 ROC 曲线
Figure 3-4 ROC curve based on Cost Sensitivity SVM modeling
3.7 本章小结
SVM ...
第 4 章 网络招耀
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
Upcoming SlideShare
Loading in …5
×

基于数据挖掘的客户流失预测实证研究

3,146 views
3,078 views

Published on

硕士期间大论文

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,146
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
40
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

基于数据挖掘的客户流失预测实证研究

  1. 1. 管理学硕士学位论文 基于数据挖掘的客户流失预测实证研究 司学峰 北京工业大学 2009 年 5 月
  2. 2. 分类号 C93 单位代码:10005 学 号:S200611087 密 级:公开 北京工业大学硕士学位论文 题 目 基于数据挖掘的客户流失预测实证研究 题 目 Demonstration Study of Customer Churn Prediction based on Data Mining 研究生姓名: 司 学 峰 专 业:管理科学与工程 研究方向:信息管理与信息系统 导师姓名: 蒋 国 瑞 职 称: 教 授 论文报告提交日期 学位授予日期 授予单位名称和地址
  3. 3. 独 创 性 声 明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究 成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名: 日期: 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的 复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩 印或其他复制手段保存论文。 (保密的论文在解密后应遵守此规定) 签名: 导师签名: 日期:
  4. 4. 摘 要 -I- 摘 要 现实世界中,数据的分布往往是不平衡的,数据非平衡性问题已影响到多个 应用领域如:客户流失、欺诈侦测、风险管理等。当前,随着数据挖掘研究的深 入,非平衡数据挖掘正成为一个新的热点研究领域。 本文研究的客户流失数据集具有典型的非平衡数据问题,客户流失对象为网 络招聘行业的企业客户。全球网络招聘方兴未艾,据统计全球每天约有 2000 万 条就业信息发布,3000 多万人在互联网上发出求职简历,2006 年全球招聘市场 规模为 172 亿美元。在中国,2007 年网络招聘市场规模为 9.7 亿元,2008 年 12.5 亿,预计 2009 年将达到 16.1 亿元。网络招聘巨大的市场规模,良好的利润前景 催生了新的专业化、行业性、地方性的招聘网站的诞生,同时也加剧了网络招聘 行业的激烈竞争。 针对客户流失问题,目前在电信行业、银行业、保险行业基于数据挖掘技术 进行客户流失预测建模,并取得了丰硕的研究成果。而针对网络招聘行业面向企 业客户流失问题的研究尚属起步阶段,本文分析了前人研究成果,对非平衡数据 进行了介绍;对客户流失预测理论、研究方法和发展脉络进行了回顾与综述;支 持向量机(Support Vector Machine,SVM)以其坚实的理论基础与良好的推广性能 成为近几年来应用研究的热点,是一种流行的数据挖掘技术,本文对支持向量机 进行了介绍;论述了我国网络招聘行业特征、市场规模及发展前景。最后通过国 内某知名招聘网站企业客户特征数据以及客户在线行为日志数据,利用数据挖掘 技术进行了客户流失预测建模及挽留策略的实证研究。 本文的研究成果主要有: 1) 针对客户流失数据集的非平衡性与错分代价差异性问题,在传统 SVM 基础 上,引入代价敏感学习理论,提出了代价敏感 SVM 的客户流失预测建模方 法,通过实验验证了方法的有效性,对解决此类问题有一定的借鉴意义。 2) 针对客户流失预测数据集的高维特征约减问题,提出了主成分分析与神经网 络的预测建模方法。通过实证研究,结果表明此组合方法降低了高维属性, 简化了神经网络拓扑结构,提高了模型的预测性能。 3) 针对网络招聘企业客户挽留问题,分析了客户流失影响因素,基于 K-means 聚类技术对客户在线行为进行客户细分,并结合每类客户特征探讨了客户关 系管理策略。 关键词:数据挖掘;客户流失预测;非平衡数据;代价敏感学习;支持向量机
  5. 5. 北京工业大学管理学硕士学位论文 -II- Abstract In the real world, data distribution is often class-imbalanced.The un-balanced data problem has already affected many applications for example: customer churn, fraud detection, risk management and so on. Now, with in-depth study of data mining, non-equilibrium data mining is becoming a hot new field of research. In the thesis, the customer churn data sets are typical of non-equilibrium data. And in the thesis the customer is enterprise customer of web recruit sits.The industry of global web recruitment is developing so rapidly. It was reported that about the world's 20 million daily employment information released and More than 3000 million people on the Internet issued their Resumes and in 2006 the global recruitment market reached 17.2 billion dollar. In China, the web recruitment market size reached 0.97 billion RMB in 2007, 1.25 billion RBM in 2008 and expected in 2009 will reach 1.61 billion RBM. For web recruitment huge market size, good prospects of highly profit, lots of new specialization, industry, local recruitment web sites was born and meanwhile increased the web recruitment of industry competition. For the problems of customer churn, in the telecommunications industry, banking, insurance, building customer churn prediction based on data mining technology is good choose and achieved fruitful research results. However, the study of churn problems for enterprise is the initial stage in web recruitment industry. In the thesis, we have a depth study and research on the non-equilibrium data mining problems. The customer churn theory, research methods and the development of context were reviewed and summarized. And to China’s web recruitment industry characteristics, market size and growth prospects were also analyzed and discussed. Support Vector Machine as a popular data mining techniques and becomes a research hotspot in recent years for its solid theoretical foundation and the promotion of good performance were introduced and systematic exposition.on the basis of to the problem of customer churn and retention strategy, we have a demonstration study based on data mining through collecting a well known domestic web recruitment site enterprise customers’ characteristics data and their online behavior log data. In the thesis, the results of research are: Customer churn data sets have typical non-equilibrium characteristic and differences in the cost of misclassification. In traditional SVM based on the Cost Sensitive Learning put forward a Cost Sensitive SVM customer churn prediction modeling, experimental verification of the validity of the modeling to solve such
  6. 6. Abstract - III - problems on a certain reference. To against the problem of customer churn data sets’ High -Dimensional characteristics , put forward a principal component analysis and neural network prediction modeling and through empirical research results show that the combination of ways to reduce high-dimensional attributes, simplifying the neural network topology and improving the performance of the model predictions. For the issue of retention enterprise customer, the thesis discusses the retention strategy. In addition, customer online behavior is analyzed by K-means clustering technology. Keywords: data mining; customer churn prediction; un-balanced data; cost sensitive learning; support vector machine
  7. 7. 目 录 - 1 - 目 录 摘 要............................................................................................................................................. I Abstract.......................................................................................................................................... II 第 1 章 绪论 .................................................................................................................................1 1.1 研究背景及意义 .........................................................................................................1 1.1.1 研究背景............................................................................................................1 1.1.2 研究意义............................................................................................................2 1.2 国内外研究现状 .........................................................................................................3 1.2.1 客户流失因素分析研究现状........................................................................3 1.2.2 基于数据挖掘的客户流失预测研究现状.................................................5 1.3 研究内容与创新点.....................................................................................................8 1.4 研究内容图析..............................................................................................................9 1.5 本章小结.....................................................................................................................11 第 2 章 相关理论研究 .............................................................................................................13 2.1 数据挖掘.....................................................................................................................13 2.1.1 数据挖掘概念.................................................................................................13 2.1.2 数据挖掘功能.................................................................................................13 2.1.3 数据挖掘流程.................................................................................................14 2.2 统计学习理论与支持向量机.................................................................................16 2.2.1 机器学习..........................................................................................................16 2.2.2 统计学习理论.................................................................................................17 2.2.3 支持向量机 .....................................................................................................19 2.2.4 支持向量机研究现状...................................................................................25 2.3 神经网络与聚类分析 ..............................................................................................27 2.3.1 神经网络..........................................................................................................27 2.3.2 K-means聚类原理...........................................................................................29 2.4 本章小结.....................................................................................................................30 第 3 章 基于代价敏感SVM的客户流失预测实证研究 .................................................31 3.1 研究背景.....................................................................................................................31 3.1.1 网络招聘..........................................................................................................31 3.1.2 行业现状..........................................................................................................32 3.1.3 案例背景..........................................................................................................33 3.2 代价敏感学习............................................................................................................35 3.3 不同惩罚系数SVM..................................................................................................36 3.4 代价敏感SVM ...........................................................................................................37
  8. 8. 北京工业大学管理学硕士学位论文 -2- 3.5 预测建模.....................................................................................................................38 3.5.1 数据选择..........................................................................................................38 3.5.2 数据预处理 .....................................................................................................39 3.5.3 数据建模..........................................................................................................39 3.6 结果分析.....................................................................................................................39 3.7 本章小结.....................................................................................................................42 第 4 章 基于PCA与神经网络的客户流失预测实证研究..............................................43 4.1 主成分分析原理 .......................................................................................................43 4.2 数据挖掘工具............................................................................................................44 4.3 流失预测建模............................................................................................................46 4.4 结果分析.....................................................................................................................48 4.5 本章小结.....................................................................................................................49 第 5 章 基于聚类技术的企业客户在线行为细分研究..................................................51 5.1 网络招聘企业客户流失因素分析........................................................................51 5.2 客户流失预测收益分析..........................................................................................52 5.3 基于k-means技术的客户细分...............................................................................53 5.4 结果分析.....................................................................................................................57 5.5 本章小结.....................................................................................................................58 结论与展望..................................................................................................................................59 参考文献 ......................................................................................................................................61 硕士研究生期间的研究成果..................................................................................................65 致 谢...........................................................................................................................................66
  9. 9. 第 1 章 绪论 - 1 - 第 1 章 绪论 1.1 研究背景及意义 1.1.1 研究背景 世界扁平化趋势、业务多样化、全球化,客户需求个性化、多样化、敏捷化 等特性使企业间的竞争急剧增加。国外知名企业、财团对国内市场的进一步加大 投资力度,种种现象都说明,市场竞争空前激烈。 然而整个市场的发展空间是有限的,特别是增量客户发展明显减缓,使得对 现有客户的维系与保持逐渐成为客户关系管理的核心问题之一,如何在积极拓展 新市场开发新客户的同时,对现有客户的深度开发及流失预警引起了各行业的广 泛关注。对企业而言,长期绝对忠诚的客户已经不存在。客户了解市场的渠道和 方式越来越便捷,他们作为个体希望得到被认可和理解,希望得到他们想要的符 合他们个性化的产品和服务,客户的选择权正以前所未有的势头快速发展,因此 客户会把他们的业务交给那些能及时满足他们需求,并且是最能理解他们并提供 高产品质量、贴心服务等最出色的公司。 全球网络招聘方兴未艾。全球网络招聘市场规模巨大且增长迅猛,网络招聘 目前已成为互联网上最成功的商业应用之一。据统计全球每天约有 2000 万条就 业值息发布,约有 3000 多万人在互联网上发出求职 简历。根据IDC数据显示, 2001 年全球网络招聘市场仅为 28 亿美元,到 2004 年达到 78.5 亿美元,2005 年 更是达到了 134 亿美元,2006 年达到 172 亿美元,增长势头强劲。在中国,2005 年网络招聘市场规模为 5.6 亿元,2007 年为 9.7 亿元,2008 年为 12.5 亿元,预 计 2009 年将达 16.1 亿元,2011 年将超过 26 亿元。 网络招聘的方式最早出现在美国,以其覆盖面广、信息及时、成本低等优势 成为美国多数企业进行招聘的主要方式。据 NET-Temps 数据显示,在美国采用 网络招聘的企业比例高达 77.6%,采用报纸/杂志招聘的占 12.3%,通过人才市场 进行人才招聘的企业占 7.1%,采用广播和电视进行招聘的企业分别占 2%和 1%。 特别是在北美地区,企业采用网络招聘最积极主动,分布在北美的全球 500 强企 业中有 96%的企业在其网站上有自己的招聘专栏。目前,通过网络招聘的方式已 经深入人心,成为大学毕业生及中层职员求职的首选,也备受高层管理人才的青 睐。 2006 年调查显示,网络招聘方式以 28%排名第一,亲友介绍排名第二(27%), 随后是招聘会(24%),报纸和杂志广告(13%),猎头公司和中介机构(7%),与 2005
  10. 10. 北京工业大学管理学硕士学位论文 -2- 年相比,网络招聘上升了 5%,仅 2005 年一季度人才市场登记月需求 24518 万个 职位,登记求职 64118 万人。由中国互联网信息中心发布的《中国互联网络发展 状况统计报告》显示,截至 2008 年底中国网民规模达到 2.98 亿人,网民规模超 过美国,成为世界第一,互联网普及率达到 22.6%。互联网普及的 10 多年来, 我国网络招聘获得了迅猛发展,网上人才市场以不容商量的强劲势头冲击着传统 的人才市场,人才网络迅速增加,服务方式类型多样丰富多彩,市场占有率不断 扩大。随着网上人才市场的兴起,网上招聘呈上升的趋势,网上招聘已成为企业 招聘的主渠道。 1.1.2 研究意义 2007 年全球著名的市场信息提供商 TNS 发布的首份中国银行调查报告显 示:面对外资银行的激烈竞争,国内银行客户流失率高达 30%。在电信行业,欧 洲电信业客户流失每年 25%,美国 37%,而在亚洲高达 48%,在美国由于客户流 失所造成的损失每年超过 40 亿美元。而在国内,中国联通 CDMA 的客户流失率 约为 17.9%,GSM 约为 32%,中国移动的客户流失率为 12.6%,中国电信小灵 通的月客户流失率高达 10%。在网络招聘行业,各大招聘网站也面临着严峻的客 户流失问题。 美国著名管理学者 Treacy 调查研究了 130 多家快速成长的公司后发现,客 户挽留是保持公司利润增长最有效的途径,其重要性超过公司规模、市场份额、 单位成本和其它许多通常人们认为的与竞争优势有关的因素[1] 。Reichheld 研究表 明,客户流失率减少 5%,在不同的行业,能给企业带来 30~85%的利润增长, 而相比客户挽留,发展新客户的成本是挽留客户的 5~7 倍,而挽留客户的成功 率却是发展新客户的 16 倍[2] 。 企业发展最宝贵的资产在于客户基础(Customer Base),并通过与客户保持长 期有效的关系来获取最大收益。客户生命周期各阶段的状态可以分为:潜在客户、 响应者、即得客户和流失客户。因此,针对客户流失的管理是客户关系管理的核 心问题之一。Reichheld 指出客户流失(Customer Churn)与客户挽留(Customer Retention)是同一个问题的两个方面,公司的目标是客户挽留率的最大化和客户 流失率的最小化。客户流失概念界定对于不同行业有一定差别,一般定义为客户 不在重复购买或终止服务,转而去选择另一家公司。客户流失意味着公司信誉和 计划的损失,意味着公司利润的损失。 针对客户流失管理问题采用商务智能技术即数据仓库、OLAP 分析、数据挖 掘技术等进行客户流失管理在国内外近 10 年的研究探索中取得了一定的成果, 解决了很多问题。但无论企业界的系统开发还是学术界的研究,都存在很多问题,
  11. 11. 第 1 章 绪论 - 3 - 突出表现在:客户流失数据集属于典型的非平衡数据问题,由于以往文献较少考 虑非平衡数据挖掘导致虽然预测模型精度高,但模型预测性能差[3] 。另外针对客 户流失数据的高维特征进行有效约减需要进一步深入研究等。 现实世界中,数据的分布往往是不平衡的,“不正常”数据的数目往往比“正 常”数据的数目少很多。数据非平衡性问题已影响到多个应用领域如:客户流失、 欺诈侦测、风险管理等。当前,随着数据挖掘研究的深入,非平衡数据挖掘正成 为一个新的热点研究领域[4] 。 因此,针对网络招聘领域的客户流失问题,必须考虑新的算法和模型处理流 失数据集的非平衡性问题与高维属性约减问题等。另外对于专业招聘网站针对企 业用户的在线行为分析与挖掘,防止客户流失,对客户价值、客户类别等进行 Web 挖掘与分析的相关研究尚处于起步阶段。可见基于新的数据挖掘技术的客 户流失预测研究对于我国企业及国民经济的持续快速发展都有重要的实际意义 和学术价值。 1.2 国内外研究现状 1.2.1 客户流失因素分析研究现状 客户关系管理旨在通过一个尽可能自动化和持续的过程,最大化的了解和利 用客户的各种信息,把合适的产品和服务,通过合适的渠道,在恰当的时机,提 供给适当的客户,从而有效地提高客户满意度,提升客户对公司的忠诚度,并同 客户保持长期的、高收益的业务关系。客户关系管理一般分为三种类型。 1) 操作型 CRM(Operational CRM):为了更好的服务客户,快捷的响应客户 需求,它要求实现所有业务流程的流线化和自动化,包括多渠道客户“接触点” 的有效整合,以及前台和后台运营系统之间平滑的相互连接和整合。 2) 协同型 CRM(Collaborative CRM):着重于通过技术手段实现高质量的客 户接触和高效率的客户信息收集,将多种与客户交流、交互的渠道紧密集成,同 时利用操作型 CRM 协调企业各部门,确保客户沟通渠道的便捷、一致。 3) 分析型 CRM(Analytical CRM):主要是从操作型 CRM 和协作型 CRM 中 获取的各种数据,为企业的经营、新市场的开发以及战略、战术的的制定提供可 靠的量化分析依据。这种分析需要用到多种先进的数据管理和数据分析工具,如 数据仓库、OLAP 分析和数据挖掘等。 分析型 CRM 涉及的主要问题主要有:客户群体分类分析和行为分析、客户 效益分析和预测、客户满意度分析、交叉营销和升级营销、产品及服务使用分析、 客户信用分析、客户流失分析、欺诈发现等。
  12. 12. 北京工业大学管理学硕士学位论文 -4- Reichheld 等 1990 年在哈弗商业评论发表文章《Zero defections:quality comes to service》提出了“产品零缺陷”到“客户零缺陷”的概念,指出要关注客户流 失,标志着客户流失管理纳入了人们研究视野。Tracy 等在 1995 年出版的著作 《The Discipline of Market Leaders》对客户流失管理进行了探讨,指出防止客户 流失、并进行有效的客户挽留,开发客户终身价值是企业保持利润增长的最重要 的战略,其重要性甚至超过人们通常认为的规模战略、人才战略等常规战略。 Madden 等利用澳大利亚 ISP 市场上不同的移动服务和人口统计特征,研究 了与客户流失相关的因素,结果表明客户流失与客户每月的消费正相关,与家庭 收入成负相关关系[5] 。Kim 等研究了韩国电信业客户流失因素,认为在可供选择 的电信运营商中,网络规模的选择与客户保持密切相关,原因在于网内呼叫折扣 和信号质量[6] 。Lee 等研究了法国移动通信市场,指出在竞争激烈的环境中,转 换成本在客户忠诚度和客户满意度之间扮演着重要角色,他们利用回归分析技术 探讨了满意度对客户忠诚度、转换成本对客户忠诚度的主要效果和影响,结果表 明:在相同的满意度条件下,转换成本与客户忠诚度为正相关关系[7] 。Kim(2004) 研究了电信行业中客户满意与转换壁垒在客户关系中的相互影响,结果表明:在 转换壁垒因子中,转换成本如连续成本、契约成本和人际关系,其中契约成本在 定义客户保持时是关键因子;连续成本和人际关系在客户满意和客户保持间起调 节作用[8] 。这一结果有助于公司理解和识别客户保持中的关键因子,有效阻止客 户的流失。 李竞明(2005)等从客户价值和客户满意的角度,分析了主动放弃、主动离 开、被挖家、被吸引和被迫离开等客户流失的主要原因,并提出了实施全面的质 量管理,重视客户抱怨、建立内部顾客体制、建立以客户为中心的组织机构和客 户评价体系等防范客户流失策略[9] 。徐颖(2005)通过对电信企业大客户满意度 的调查发现客户满意与客户忠诚度不完全呈线性关系,高的客户满意度并非表示 客户的忠诚度也高[10] 。李祖鹏(2006)等通过对中国移动“快照客户”流失情况 进行分析,发现占绝大多数的换号客户掩盖了只占少部分、真正传统意义上的流 失客户。因此,引入了客户流失率和客户异动率两个概念来重新定义传统意义上 的客户流失[11] 。 总之,根据客户流失类型可分为主动流失和被动流失。被动流失是指公司主 动放弃的客户,被动流失主要是由客户的欺诈行为、拖欠或滥用服务等因素所致。 主动流失是客户流失管理的重点,主动流失又可分为无意流失与蓄意流失。无意 流失是由客户地点变更、财务变化或生活巨变等因素引起的,比如因居住地变迁 而无法获得现有服务或客户无力支付现有的服务,无意流失往往只占主动流失的 一小部分。蓄意流失是流失预测建模要识别的目标对象,客户蓄意流失主要受企 业产品或服务的技术因素、经济因素等影响,电信客户流失类型、所占比例、影
  13. 13. 第 1 章 绪论 - 5 - 响因素如图 1-1 所示 [12] 。 图 1-1 电信行业客户流失因素 Figrue1-1 customer churn factor in telecommunication industry 以上研究主要从客户的转换意愿、转换成本、服务质量、满意度、客户基本 特征等几个方面分析了影响客户流失的因素,对于客户流失管理研究有一定的理 论意义和实践价值。但上述研究的数据来源主要是问卷、访谈等形式,主要采用 定性或线性方程定量的处理分析,这在很大程度上影响了流失因素分析和预测指 标的建立,因此,客户流失因素还需要深入研究。可以考虑从以下几个方面考虑: 数据的采集问题:从单一部门扩展多个部门,从单纯的离散数据到连续数据 的收集,从结构化数据到半结构化、非结构化乃至多媒体数据的采集等,从不同 渠道收集导致客户流失相关的数据,以期为客户流失预测模型指标的建立提供更 加完善,更加精确的支持和依据。 从数据的处理方法和技术上:从定性分析到定量分析的转变,从线性分析到 非线性多元分析的转变,从传统的统计学到以统计学为基础的 OLAP 分析等。 1.2.2 基于数据挖掘的客户流失预测研究现状 1999 年 Brij 等提出的基于数据挖掘的客户流失预测原型标志着客户流失研 究进入了一个新阶段[13] 。随着研究的深入,学者们探讨了应用各类数据挖掘方法 建立客户流失预测模型,来预测识别流失和非流失客户。2005 年 John Hadden 等 针对以往应用数据挖掘的研究情况,综述了本领域的研究[14] 。针对客户流失数据 集中的非平衡性问题,蒋国瑞等在改进支持向量机的基础上引入代价敏感学习进 行了相关研究。 主动流失 (75%) 被动流失 (25%) 蓄意流失 (65%) 无意流失 (10%) 死亡 居住地变迁 财务变化 欠费 欺诈 破产 价格 服务质量 网络覆盖 计费问题 设备老化 功能欠缺
  14. 14. 北京工业大学管理学硕士学位论文 -6- (1)回归分析 Rosset 在引入客户价值的基础上,利用 Logistic 回归建立客户流失预测模型, 发现引入模型后,提升度(Lift)有显著改善[15] 。Kim 等利用调查得到的韩国 973 个移动客户的调查数据,采用 Logistic 回归方法对其流失客户进行预测分析,研 究确定了客户流失与客户忠诚度之间的关系[16] 。 蒙肖莲等应用 Logistic 回归对商业银行客户流失进行了分析预测,并以真实 数据对模型进行了校验,结果表明模型具有良好的预测效果[17] 。Hwang 应用 Logistic 模型研究了客户生命周期价值及客户流失,结果表明相比决策树和神经 网络,Logistic 模型更适合对客户流失行为分析和预测,但同时作者也指出,预 测性能受诸多参数因素的影响,比如神经网络参数的设置及训练集的选择,只能 表明他们的训练样本更适合 Logistic 来建模[18] 。 (2)决策树 Wei 等假设数据类别是对称的,并收集了客户合同信息和客户通话行为信息 作为样本数据,利用 C4.5 决策树算法来预测客户流失,得到了较高的提升度[19] 。 Au 等采用决策树建立了客户流失预测模型,并利用 ROC 曲线方法来评估模型, 取得了较好的效果[20] 。Kitayama 通过基于决策树的方法对客户档案进行了分类, 首先把客户群体划分为首选客户(Preferred customers)和一般客户,首选客户指那 些对公司最有价值的客户,接着应用决策树根据客户特征分类,识别高价值客户, 以达到挽留高价值客户的目的[21] 。 朱世武等利用 CHAID 决策树算法,对移动电话号码和通话类型进行了分析, 发现客户性别、年龄、籍贯及职业四个人口统计变量在不同的流失类别上有显著 影响,这对于客户流失预测模型建立过程中,变量的选取具有一定的借鉴意义[22] 。 (3)神经网络 Mozer 将收益计算方法引入客户流失预测中,利用人工神经网络技术对美国 某电信公司的客户进行流失预测,并通过与决策树和 Logistic 回归相比,发现采 用人工神经网络来预测潜在的流失客户能获得更大的收益[23] 。 Rygielsk 等通过应用神经网络来识别价值客户、预测客户行为,他们的实验 结果表明,相比其他数据挖掘技术,神经网络用于识别价值客户提供了更有效的 预测模式[24] 。Shin 通过 SOM 技术对证券客户的潜在价值进行了细分[25] 。 (4)贝叶斯分类 客户流失预测技术的对比研究表明,朴素贝叶斯的预测效果可以与决策树和 神经网络相媲美[26] 。叶进等首先对引起电信客户流失的客户心理、服务质量等因 素进行分析,确定先验知识,根据先验知识选取特征和训练样本,通过贝叶斯网 络的结构学习和参数学习,建立客户流失模型,预测结果表明贝叶斯网络是分析 客户流失行为不确定性问题的有效工具[27] 。
  15. 15. 第 1 章 绪论 - 7 - (5)粗糙集 史芳丽等应用粗糙集对训练样本中的 17 个属性进行重要性约简学习,形成 具有 12 个属性的训练样本,在此基础上,应用 C4.5 算法建模, 大大提高了学 习效率,实验结果表明,模型是健壮和稳定的[28] 。此外,Xu 等提出了一种基于 粗糙集的 BP 神经网络客户流失预测模型,并通过实验验证了模型的有效性[29] 。 (6)支持向量机 Sun 等通过 SVM 方法研究了银行信用卡客户流失模型,通过与 BP 神经网 络对比研究表明 SVM 具有更高的预测准确率[30] 。应维云等建立了基于带有不同 类权重参数的支持向量机算法的 CW-SVM 预测模型,通过调整类权参数改变分 类面位置,提高了算法的分类准确性,通过实际的银行信贷客户数据测试表明, 模型具有较好的客户流失预测效果[31] ,相比传统预测算法,SVM 更适合解决大 数据集和不平衡数据。基于改进的 SVM 算法在客户流失预测中应用也是近年来 的研究热点问题[32,33] 。 (7)混合技术预测模型 由于数据挖掘技术的各类方法在处理不同数据集时表现出的预测性能有很 大差异,为了提高模型预测的精确度,应用混合技术建立预测模型是客户流失预 测的一个发展趋势。Hung 运用决策树与神经网络技术相结合的技术研究了移动 用户流失行为[34] 。Lee 等提出了一个称为 SePI 的混合模型,通过实际的客户流 失数据分析表明,这种方法比单独使用任何一种技术:回归分析、神经网络和决 策树取得的预测精确度更高[35] 。Horng 等提出的混合预测模型在传统预测模型的 基础上增加了客户挽留机制模块,模型不仅具有较高的客户流失预测精确度,还 可以对客户流失行为进行细分,在此基础上给出客户挽留机制及应对策略。即不 仅技术角度对客户的流失行为进行预测,还从管理角度针对客户流失行为的具体 情况进行了有益的探索[36] 。 总之,基于数据挖掘技术的方法在客户流失预测中有着广泛而深入的研究, 取得了丰硕的成果。而由于数据集本身的特点以及各算法适用条件的差异,针对 特定问题选择合适的预测算法才能得到良好的预测效果,如下表 2-1 所示分析总 结了主流方法的优缺点。 表 1-1 数据挖掘在分析型 CRM 中应用研究 Table 1-1 data mining application in analytical CRM 建模方法 优点 缺点 应用领域 回归分析 模型性能仅取决于自变 量和因变量的分布是否 符合模型 不能处理离散数据 数据分布未必符合预先假设 模型难以用直观形式表现 客户流失预测 客户购买行为预测 客户生命周期分析 决策树 分类准确率高 学习速度快 表现形式形象直观 分类类别多时,准确率明显下降 不易从多个特征的组合中发现 规则 客户细分 客户流失预测 客户价值评价
  16. 16. 北京工业大学管理学硕士学位论文 -8- 神经网络 能发现非线性模式 不必预先对样本数据的 分布作假设 结果难以用简单的规则表述 要求样本数据必须是数值型 预测结果与网络拓扑结构及权 系数相关 客户流失预测 客户信用评价 客户价值评估 贝叶斯 分类 较强的不确定性的知识 表达形式 处理噪声数据的能力 简单贝叶斯分类假设样本特征 是相互独立的 客户流失分析 客户满意度评价 粗糙集 良好的知识简约功能 算法简单、容易操作 基于集合论,难以处理连续型的 特征 产生的规则需要合并处理 客户流失预测 客户价值评价 支持向 量机 适合小样本的数据 有效处理非线性分类和 非线性回归 计算量与样本维数无关 难于处理多分类问题 核函数的选择和参数的确定比 较复杂 客户流失预测 客户分类及识别 混合策略 包括两者以上的方法 方法的具体选项需要多次测试 客户流失等 由于客户流失数据集是非平衡数据集,因此深入研究非平衡数据挖掘算法是 未来研究重要的方向。此外,现实问题涉及的客户数据往往是海量的,因此对海 量数据的并行处理与挖掘也是重要的发展方向。提高客户流失预测建模的精确度 是研究的一个重要分支;开发客户流失行为预测与挽留系统也是未来研究的重要 领域。 具体而言,客户流失的影响因素及建模的特征选择有待进一步研究;基于多 方法的数据挖掘技术建模是提高预测建模性能一个有效方法;开发混合策略的客 户流失管理系统即不仅能够精确预测出可能流失的客户,还能分析其流失的主要 因素,并采取相应的挽留举措是未来研究的重要方向。最后,由于客户的投诉数 据和抱怨数据往往是语音数据或半结构化、非结构化的文本数据,基于多媒体挖 掘和文本挖掘技术也是比较前沿的研究领域。针对网络招聘网站的企业客户数据 采用数据挖掘方法对企业客户进行在线行为 Web 挖掘的研究则方兴未艾。 总之,应用以数据挖掘为核心技术的客户流失管理研究对于我国企业及国家 经济的持续快速发展都有重要的实际意义和学术价值。 1.3 研究内容与创新点 本文旨在针对专业网络招聘网站中的企业客户在线行为进行分析,将数据挖 掘方法中待机敏感学习理论、支持向量机、神经网络、聚类分析等应用于客户行 为分析与预测,对 SVM 算法进行了改进以提高预测的精确度,同时尝试建立基 于数据挖掘技术的客户行为分析与预测系统。应用某招聘网站实际的客户数据进 行了实证分析,以求理论与实践相结合。
  17. 17. 第 1 章 绪论 - 9 - 论文创新点 1) 针对客户流失数据集的非平衡性与错分代价差异性问题,在传统 SVM 基 础上,引入代价敏感学习理论,提出了代价敏感 SVM 的客户流失预测建模方法, 通过实验验证了方法了有效性,对解决此类问题有一定的借鉴意义。 2) 针对客户流失预测数据集特征高维的特点,提出了主成分分析与神经网 络的预测建模方法,通过实证研究结果表明,此组合方法降低了高维属性,简化 了神经网络拓扑结构,提高了模型的预测性能。 3) 针对网络招聘行业内的企业客户挽留问题,分析了企业客户流失因素, 探讨了客户挽留预测收益模型,采用 K-means 聚类技术对客户在线行为进行了客 户细分,针对每类客户的特征,探讨了客户关系管理策略。 1.4 研究内容图析 第 1 章对非平衡数据问题进行了介绍,阐述了本文研究背景、内容和意义; 简要介绍了客户流失管理问题,并综述了基于数据挖掘技术的客户流失预测研 究。 第 2 章对数据挖掘概念、功能及流程进行了阐述;研究了统计学习理论与支 持向量机,并论述了支持向量机在客户流失预测中的研究现状;介绍了神经网络 与聚类算法原理。 第 3 章针对客户流失预测数据具有的非平衡性及错分代价差异问题,提出了 基于待机敏感 SVM 的客户流失预测方法,并通过实验对模型进行了验证。 第 4 章针对客户流失预测数据中高维属性的特点,采用 PCA 技术进行降维 处理,之后采用神经网络进行流失预测,结果表明这种组合方法能够有效提高模 型的预测性能。 第 5 章分析了网络招聘企业客户流失因素,并基于聚类技术进行了客户细 分,结合每类客户特征,探讨了差异化的客户关系管理策略。 论文研究结构如图 1-2 所示。
  18. 18. 北京工业大学管理学硕士学位论文 -10- 客户流失预测研究现状 非平衡数据问题 基于数据挖掘的客户流失预测研究 客户流失因素分析 高维属性问题 基于数据挖掘的客 户流失研究综述 网络招聘特征及市 场现状研究 数据挖掘功能及挖掘 流程分析 基于代价敏感 SVM 的客户流失实证研究 结构风险最小化理 论研究 支持向量机研究现 状分析 代价敏感学习 理论研究 代价敏感 SVM 算 法实证研究 基于主成分分析与神经网络的客户流失实证研究 解决客户流失预 测中的非平衡错 分代价问题 解决客户流失数 据的高维属性问 题 主成分分析原理 神经网络原理 基于组合方法的流 失预测研究 基于聚类技术的客户细分实证研究 解决客户挽留策 略选择问题 网络招聘企业客户 流失因素分析 聚类算法原理 基于 k-means 聚类 技术的客户细分研 差异化客户挽留 策略研究 案例背景介绍
  19. 19. 第 1 章 绪论 - 11 - 图 1-2 研究结构框架图 Figure 1-2 the frame of research structure 1.5 本章小结 本章论述了本文研究背景及意义,分析了客户流失因素,对基于数据挖掘技 术的客户流失预测研究进行了综述,给出了整体研究思路和架构。 本章部分研究成果发表于第三届中国智能计算大会学术年会(ICC2009)。
  20. 20. 第 2 章 相关理论研究 - 13 - 第 2 章 相关理论研究 2.1 数据挖掘 2.1.1 数据挖掘概念 1995 年在美国计算机年会(Association for Computing Machinery, ACM)上首 次提出数据挖掘(Data Mining)的概念,并迅速在世界范围内成为研究热点。数据 挖掘是源于数据库中一项以人工智能为基础的数据分析技术,其主要功能是在大 量数据中自动发现潜在有用的知识。在传统的决策支持系统中,知识库中的知识 和规则是由专家或程序人员建立的,是由外部输入的。而数据挖掘的任务是发现 大量数据中尚未被发现的知识,是从系统内部自动获取知识的过程。对于那些决 策者明确了解的信息,可以用查询、联机分析处理(OLAP)或其它工具直接获取。 数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随即的数据中,发 掘隐含的、不为人知的,但确实存在的规律或模式的过程。数据挖掘有时也称为 知识发现(Knowledge discovery in database,KDD)、数据模式分析(Data pattern analysis)或功能相依分析(Functional dependency analysis)。数据挖掘是一个交叉学 科,涉及机器学习、模式识别、统计学、数据可视化、高性能计算、并行处理等 多个领域。通过数据挖掘得到的知识可以应用于信息管理、过程控制、科学研究、 情报处理及商业决策支持等多个领域。 Web 挖掘广义的定义为从互联网中发现和分析有价值的信息,分为内容挖 掘、结构挖掘和使用挖掘。 2.1.2 数据挖掘功能 一般而言,数据挖掘包括下列五项功能。 分类(classification):按照分析个体的属性状态分别加以区分,并建立类组 (class)。例如,将信用申请者的风险等级分为高风险、中风险和低风险三类。 使用的方法有决策树(decision tree)、判别分析(discriminant analysis)、神经网 络(artificial neural network)等。 估计(estimation):根据已有的数值型变量和相关的分类变量,以获得某一 属性的估计值或预测值。例如,根据信用卡申请者的教育程度和从事职业来设定 其信用级别。使用的方法有相关分析、Logistic 回归及神经网络等。 预测(prediction):根据个体属性的已有观测值来估计该个体在某一属性上
  21. 21. 北京工业大学管理学硕士学位论文 -14- 的预测值。例如,由顾客过去刷卡消费额预测其未来的刷卡消费额。使用的方法 有回归分析、时间序列分析及神经网络等。 关联分组(affinity grouping):从所有对象决定哪些相关对象应该放在一起。 例如,超市中相关的洗漱用品(牙刷、牙膏、牙线)放在同一货架上。在客户营 销系统上,这类分析可以用来发现潜在的交叉销售(cross-selling)商品聚类,进 而设计出有价值的组合商品集合。 聚类分析(clustering):将异质总体分成为同质性的类别(clusters),即聚类。 其目的是识别出总体中所包含的混合类别的组间差异,并根据每个类别的特征对 所有个体进行归类。同质分组相当于营销术语中的细分(segmentation)。应该注 意的是:聚类分析根据数据自动产生各个类别,事先是不知道或无须知道总体中 潜在的类别信息。使用的方法有 k-means 等动态聚类法及 agglomeration 等层次 聚类法。 2.1.3 数据挖掘流程 数据挖掘是从杂乱无章的数据中寻找模式与规律的过程,是数据转化为价值 信息的过程。其对数据的处理过程大同小异。一般而言,数据挖掘项目包括的过 程有:业务理解、数据理解、数据采集及预处理、数据建模、模型评价、系统部 署等一系列过程。SPSS 从数据建模角度出发,提出了数据挖掘过程的 5A模型: Assess, Access, Analyze, Act, Automate; SAS 提出了 SEMMA 模型:Sample, Explore, Modify, Model, Assess; 业界比较通用则是数据挖掘兴趣小组提出的 CRISP-DM 模型。 数据挖掘的跨行业标准过程(Cross-Industry Standard Process for Data Mining, CRISP-DM)是由 DaimlerChrysler, SPSS, NCR 等在 1996 年发起建立的数据挖掘兴 趣组织在 1999 年提炼出的数据挖掘方法和过程的标准[37] 。CRISP-DM 把一个数 据挖掘项目的生命周期包含六个阶段,这六个阶段的顺序不是固定的,常常需要 前后调整这些阶段,这取决于每个阶段或是阶段中的特定任务的产出是否是下一 个阶段必须的输入,如图 2-1 所示。
  22. 22. 第 2 章 相关理论研究 - 15 - 图 2-1 CRISP-DM 模型 Figure 2-1 CRISP-DM Model 外圈象征数据挖掘自身的循环本质即在一个解决方案发布之后一个数据挖 掘的过程才可以继续。在这个过程中得到的知识可以触发新的,经常是更聚焦的 商业问题。后续的过程可以从前一个过程得到益处。 1) 业务理解(Business Understanding):最初的阶段集中在理解项目目标和从 业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的 初步计划。 2) 数据理解(Data Understanding):数据理解阶段从初始的数据收集开始, 通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的 内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。 3) 数据准备(Data Preparation):数据准备阶段包括从未处理数据中构造最终 数据集的所有活动,这些数据将是模型工具的输入值。这个阶段的任务有个能执 行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工 具转换和清洗数据。 4) 建模(Modeling):在这个阶段,可以选择和应用不同的模型技术,模型参 数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有 些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。 5) 评估(Evaluation):到项目的这个阶段,已经从数据分析的角度建立了一 个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型, 检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定 是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果
  23. 23. 北京工业大学管理学硕士学位论文 -16- 使用的决定必须达成。 6) 部署(Deployment):通常,模型的创建不是项目的结束。模型的作用是从 数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需 求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖 掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。 2.2 统计学习理论与支持向量机 2.2.1 机器学习 机器学习根据已训练样本输出类别是否已知分为有监督学习和无监督学习。 有监督学习的目的是根据训练样本,求出对某系统输入输出间的依赖关系,使它 能够对未知输入做出尽可能准确的预测和分类。 一般表示为:因变量 y 与自变量 x 存在未知的依赖关系,即遵循某一未知的 概率分布 ( , )F x y ,机器学习的目的就是根据给定的l 个独立同分布的观测样本 1 1{( , ), ,( , )}l lT x y x y= , 在一组函数{ ( , )}f x w 中寻求一个最优的函数 { ( , )}of x w 对依赖关系进行评 估,使期望风险 ( ) ( , ( , )) ( , )R w L y f x w dF x y= ∫ (2.1) 最小。其中 , {1, 1}, 1, ,n i ix X R y i l∈ = = − = ;{ ( , )}f x w 称为预测函数集,w 为 广义参数; ( , ( , ))L y f x w 为损失函数,不同类型的学习问题损失函数的形式不同。 机器学习的损失函数有三种类型:模式识别、函数逼近及概率密度估计。 对于模式识别问题,输入 y 是类别标签,就两分类问题而言 {1, 1}y = − ,其 预测函数也称指示函数,其损失函数的定义为: 0 ( , ) ( , ( , )) 1 ( , ) y f x w L y f x w y f x w =⎧ = ⎨ ≠⎩ (2.2) 对于函数逼近问题,y 是连续变量,采用最小平方误差准则,损失函数的定 义为: 2 ( , ( , )) ( ( , ))L y f x w y f x w= − (2.3)
  24. 24. 第 2 章 相关理论研究 - 17 - 对于概率密度估计问题,学习的目的是根据训练样本确定 x 的概率密度。 记估计的密度函数为 ( , )p x w ,其损失函数的定义形式为: ( , ( , )) ln ( , )L y f x w p x w= − (2.4) 上述问题中,机器学习的目标在于使期望风险最小化。但是由于可利用的信 息只有样本数据, 因此(2.1)式的期望风险无法计算。基于此,传统的学习方法是采用经验风险 最小化(ERM)准则,即用经验风险作为式(2.1)的估计。经验风险: 1 1 ( ) ( , ( , )) n emp i i i R w L y f x w n = = ∑ (2.5) 对损失函数(2.2),经验风险就是训练样本错误率;对损失函数(2.3),经验 风险就是平方训练误差;而采用(2.3),经验风险就是最大似然法。 从期望风险最小化到经验风险最小化没有经过严格的理论推理和依据,只是 直观上合理的想当然。存在以下问题: 1)期望风险和经验风险都是 w 的函数,概率论中的大数定理只是说明当样本 趋于无穷多时经验风险将在概率论意义上,趋近于期望风险,并未保证两个风险 的 w 是同一点,更不能保证经验风险能够趋近于期望风险。 2)即使有办法使这些条件在样本数据量无穷大时得当满足,也无法保证在这 些条件下得到的经验风险最小化方法在样本数量有限时仍能得到好的结果。 在有限样本条件下,经验风险最小化并不意味着期望风险最小化;学习机器 的复杂性不仅与所研究的系统有关,而且还应与有限的学习样本相适应;学习精 度与推广能力之间似乎是一对不可调和的矛盾,采用复杂的学习机器虽然容易使 得学习误差更小,但却带来了推广能力的下降;传统的解决办法如采用正则化、 模型选择等方法以控制学习机器的复杂度,但这些方法往往缺乏坚实的理论基 础。基于此,我们需要一种在有限样本特别是小样本情况下建立有效的学习和推 广方法的理论,即统计学习理论。 2.2.2 统计学习理论 统计学习理论(Statistical Learning Theory,SLT)是目前针对有限样本统计估计 和预测的高效理论,它从理论上较为系统地研究了经验风险最小化原则成立的条 件、有限样本下经验风险与期望风险的关系以及如何利用这些理论寻找新的学习 原则和方法等。 SLT 的核心内容有:基于经验风险最小化准则的统计学习一致性条件;统计 学习推广性的界;在推广界的基础上建立小样本归纳推理的准则等。与之相关的
  25. 25. 北京工业大学管理学硕士学位论文 -18- 核心概念有 VC 维和结构风险最小化。 (1) VC 维 VC 维的直观定义为:对于一个指示函数(即只有 0 和 1 两种取值的函数)集, 如果存在h 个样本能够被函数集中的函数按所有可能的2h 种形式分开,则称函数 集能够把h 个样本打散;函数集的 VC 维就是能够打散的最大样本数目。如果对 任意数目的样本,总有函数能把它们打散,则函数集的 VC 维是无穷大。 VC 维反映了函数集的学习能力,VC 维越大则学习机越复杂。学习机的 VC 维影响着它的泛化能力,作为 SLT 中一个核心的概念,目前尚无关于任意函数 集 VC 维计算的理论,只是对一些特殊的函数集知道其 VC 维。如在n 维实数空 间中线性分类器和线性实数的 VC 维是 1n + ,而函数 ( , ) sin( )f x a xa= 的 VC 维则是无穷大。 (2) 推广性的界 SLT 系统地研究了经验风险与实际风险之间的关系,即推广性的界。 根据 SLT 中关于函数集推广性界的理论,对于指示函数集中所有的函数, 经验风险 ( )empR w 和实际风险 ( )R w 之间至少以概率1 η− 满足如下关系: (ln(2 / ) 1) ln( / 4) ( ) ( )emp h n h R a R a n η+ − ≤ + (2.6) 其中,h 为函数集 VC 维,n 为样本数目。由(2.6)式可知,学习机器的实际 风险由两部分组成:训练样本的经验风险和置信区间。其中,置信区间同置信水 平1 η− 有关,而且同学习机器的 VC 维和训练样本有关,则可得: ( ) ( ) ( )emp n R R h α α≤ + Φ (2.7) 从(2.7)式易知,在训练样本有限的情况下,学习机器的 VC 维越高,则置信 范围就越大,导致实际风险与经验风险之间可能的差也就越大。 在设计分类器时,不但要使经验风险最小化,还要使 VC 维尽量小,从而 缩小置信范围,使期望风险最小。 (3) 结构风险最小化 传统机器学习方法中,普遍采用的经验风险最小化原则在样本数目有限时是 不合理的,因此,需要同时最小化经验风险和置信范围。 与经验风险不同,统计学理论提出了一种新的策略—结构风险最小化 (Structural Risk Minimization,SRM),即把函数集构造为一个函数子集序列,使各
  26. 26. 第 2 章 相关理论研究 - 19 - 个子集按照 VC 维的大小进行排序;在每个子集中寻找最小经验风险,在子集间 折衷经验风险和置信范围,使得实际风险的最小。如图 2-2 所示,统计学习理论 还给出了合理的函数子集结果应满足的条件以及在 SRM 准则下实际风险收敛的 性质。 过学习欠学习 经验风险 置信风险 真实风险 1 2 3:VC h h h ⊂ ⊂ ≤ ≤ 1 2 3函数集子集:S S S 维 图 2-2 结构风险最小化示意图 Figure 2-2 structural risk minimization SRM 准则提供了一种不同于传统经验风险最小化的科学的学习机器的设计 原则。实现 SRM 准则的两种思路有: 1) 在每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和 最小的子集。 2) 设计函数集的某种结构使每个子集中都能取得最小化的经验风险,然后只 需选择适当的子集使置信范围最小,则在这个子集中使经验风险最小的函数就是 最优函数。支持向量机算法实际就是这种思路的实现。 2.2.3 支持向量机 支持向量机是由 Vapnik 与其领导的贝尔实验室的研究小组一起开发出来的 一种新的机器学习技术,目前已成为机器学习领域研究和应用的热点问题。1963 年,Vapnik 在解决模式识别问题时提出了支持向量方法,这种方法从训练集中选 择一组特征子集,使得对特征子集的划分等价于整个数据集的划分,这组特征子 集就被称为支持向量(Support Vector)。1971 年,Kimeldorf 提出了使用线性不等 约束重现构造 SV 的核空间,解决了一部分线性不可分问题。1990 年,Grace,Boser 和 Vapnik 等人开始对 SVM 进行研究。1995 年,Vapnik 正式提出了统计学习理 论[38,39] 。
  27. 27. 北京工业大学管理学硕士学位论文 -20- 支持向量机分类算法有两个基本出发点,即最大间隔原则和核技巧。最大间 隔原则最早可以追溯到优化专家 Mangasarian 20 世纪 60 年代的工作,之后 Vapnik 等人从统计学习理论的角度重新提出,发展并严格论证了这一原则。核技巧把在 原输入空间需要用超曲面分划的分类问题,转化为 Hilbert 空间中用超平面划分 的问题。或者说,它把非线性问题转化为线性问题,从而大大降低了问题的难度。 (1) 核函数 核方法通过一个特征映射可以把输入空间中的线性不可分数据映射为高维 特征空间中可进行线性划分的数据。分类函数只涉及训练样本之间的内积运算 i jxx ⋅( ),因此,在高维空间中只需进行内积运算,这种内积运算可通过定义在原 空间中的函数来实现。 根据 Hibert-Schmidt 原理,只需一种运算满足 Mercer 条件,就可以作为内积 使用。 Mercer 条件:对于任意的对称函数 ' ( , )K x x ,它是某个特征空间中的内积运 算的充要条件是, 2 ' ' ' ( ) 0 ( ) , ) ( ) ( ) 0x x dx K x x x dxdxϕ ϕ ϕ ϕ≠ < ∞ >∫ ∫∫对于任意的 且 有 (x, (2.8) 而一般支持向量分类机的最终的决策函数值仅仅依赖于变换后的 Hibert 空 间中的内积,即 ( , ) ( )i j i jk x x x x= Φ( )⋅Φ( ) 和 ( , ) ( ), , 1, ,i ik x x x x i j l= Φ( )⋅Φ( ) = (2.9) 简言之,SVM 方法中得到的学习机器只是涉及到特征空间中的内积,而内 积可以通过某个核函数即所谓的 Mercer 核来表示,因此最终可以利用核函数来 表示学习机器。 定义 核函数 设 χ 是 n R 中的一个子集,称定义在 χ χ× 上的函数 ( , )K x x′ 是 核函数,如果存在着从 χ 到某一个 Hibert 空间Η 的映射 , x x χ → Η Φ : → Φ( ). (2.10) 使得 ( , ) ( ),K x x x x′ ′= Φ( )⋅Φ( ) (2.11) 其中( )⋅ Η表示 中的内积 。 常用的核函数: 线性核函数
  28. 28. 第 2 章 相关理论研究 - 21 - ( , )K x x x x′ ′= ⋅ (2.12) Gauss 径向基核 2 2 ( , ) exp( / )K x x x x σ′ ′= − − (2.13) 其中,σ 为核函数参数,它隐式地定义了从原始空间到高维特征空间中的非 线性映射,每个 Gauss 函数中心对应一个支持向量。 多项式核函数 对于任意给定的正整数 d ,函数 ( , ) (( ) )d K x x x x c′ ′= ⋅ + (2.14) 其中c >0 是正定核。当 c>0 时,称它为非线性齐次多项式核。特别地,当 c=0 时,得到 ( , ) ( )d K x x x x′ ′= ⋅ (2.15) Sigmoid 核函数 ( , ) tanh( ( , ) )K x x k x x v′ ′= + (2.16) 其中, 0, 0k v> < 。 核函数的选择决定了空间的结构,对于多项式核函数,当特征空间维数很高 时, d 值必然很大,使得计算量激增,甚至在某些情况下不能得到正确的结果。 对于 Sigmoid 核函数,由于核函数中的 ,k v 只对某些值满足 Mercer 条件,所以 Sigmoid 核函数有一定的局限性。Gauss 径向基核函数是一种普适核函数,通过 参数的选择它可以使用于任意分布的样本,是目前 SVM 中广泛应用的一种核函 数。 (2) 线性支持向量机 SVM 是从线性可分情况下的最优分类面发展而来的,基本思想如图 2-3 所 示的二维平面的情况说明。图 2-3 中,黑方块与圆点分别表示两类样本,中间的 粗实线为最优分类线,两条虚线上的点称为支持向量,虚线间的距离就是分类间 隔(margin)。所谓最优分类线就是不但要求分类线能将两类样本正确分开(即训练 错误率为 0),还要使分类间隔最大。SVM 就是要寻找一个满足分类要求的超平 面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两 侧的空白间隔最大。过两类样本中离分类面最近的点且平行于最优分类面的超平 面 1 2,H H 。 对于分类线( ) 0w x b⋅ + = 进行标准化处理,则线性可分的训练样本T 满足不
  29. 29. 北京工业大学管理学硕士学位论文 -22- 等式: (( ) ) 1i iy w x b⋅ + ≥ , (2.17) 其中, 1, ,i l= w arg 2m in w= ( ) 1w x b⋅ + = ( ) 0w x b⋅ + = ( ) 1w x b⋅ + = − 图 2-3 线性分类最优超平面 Figure 2-3 optimal hyperplane of the linear classification 此时,分类间隔 margin 为 2/ w ,最大间隔 margin 等价于 / 2w 最小。训练 样本被正确划分,且使 / 2w 最小的分类面即为最优分类面,而位于两虚线上的 训练样本点就称为支持向量。 根据以上分析,线性可分条件下的 SVM 算法为: 设 已 知 训 练 集 1 1{( , ), ,( , )} ( )l l lT x y x y X Y= ∈ × , 其 中 n ix X R∈ = , {1, 1}iy Y∈ = − , 1, ,i l= 构造并求解对变量 w b和 的最优化问题 2 , 1 min , 2 . . (( ) ) 1, 1, , w b i i w s t y w x b i l⋅ + ≥ = (2.18) 构造分划超平面 * * ( ) 0w x b⋅ + = ,由此求得决策函数 * * ( ) sgn(( ) )f x w x b= ⋅ + 。
  30. 30. 第 2 章 相关理论研究 - 23 - 式(2.18)的最有解为 Lanrange 函数的鞍点: 1 1 ( , , ) ( ) [ (( ) ) 1] 2 l i i i i L w b a w w a y w x b = = ⋅ − ⋅ + −∑ (2.19) 其中a 为 Largange 系数。 根据在鞍点求出的 w 和b 的梯度为 0,由: 1 0 l i i i i L w a y x w = ∂ = − = ∂ ∑ (2.20) 1 0 l i i i L a y w = ∂ = = ∂ ∑ (2.21) 得: 1 l i i i i w a y x = = ∑ (2.22) 1 0 l i i i a y = =∑ (2.23) 将(2.22)式与(2.23)式代入(2.19)中,则构造最优超平面的问题转化为一个简 单的对偶二次规划问题: 1 1 1 1 1 min ( ) 2 . . 0 0 l l l i j i j i j j a i j j l i i i i y y x x a s t y α α α α = = = = ⋅ − = ≥ ∑∑ ∑ ∑ (2.24) 其中 , 1,...,i j l= 。设 * * * 1( , , )T la a a= 为式(2.24)的最优解,若令: * * * * 1 1 , ( ) l l i i i i i i i j i i w y a x b y y a x x = = = = − ⋅∑ ∑ (2.25) 则 * * ( , )w b 即为问题(2.24)的最优解。 然而,实际情况中,当训练集不可分时,任何分划超平面都必有错划。所以, 不能要求所有的训练点均满足约束条件 (( ) ) 1i iy w x b⋅ + ≥ 。为此,对第i 个训练样 本 ( , )i ix y 引进松弛变量 0iξ ≥ ,把约束条件放宽为 (( ) ) 1i i iy w x b ξ⋅ + + ≥ 。向量 T 1=( , )lξ ξ ξ 反映了训练样本被错划的情形,可采用 1 l i i ξ = ∑ 描述训练样本被错划的
  31. 31. 北京工业大学管理学硕士学位论文 -24- 程度。此时,不但希望间隔 2 w 尽可能大,同时还要考虑错划程度 1 l i i ξ = ∑ 尽可能小。 为协调这两者关系,引入惩罚系数 0C > 作为调节这两个目标的权重,则式(2.18) 化为: 2 , 1 1 min , 2 . . (( ) ) 1, 0, l i w b i i i i i w C s t y w x b ξ ξ ξ = + ⋅ + + ≥ ≥ ∑ (2.26) 其中, 1,...,i l= ,C 越大惩罚越重。 构造式(2.26)的 Lagarange 函数 1 1 1 1 ( , , ) ( ) { (( ) ) 1} 2 l l l i i i i i i i i i i L w b a w w C a y w x bξ ξ β ξ = = = = ⋅ + − ⋅ + + − −∑ ∑ ∑ (2.27) 根据 KKT 条件,最优解满足: 0 ( (( ) ) 1 0 , , 0 i i i i i i i i i i i i L C a a y w x b i i a i β ξ ξ β ξ β ξ ∂⎧ = − − =⎪ ∂ ⎪⎪ ⋅ + + − ∀⎨ ⎪ ⋅ = ∀ ⎪ ≥ ∀⎪⎩ (2.28) 则构建最优超平面的问题转化为以下对偶二次规划问题: 1 1 1 1 1 min ( ) 2 . . 0 0 l l l i j i j i j j a i j j l i i i i y y x x a s t y C α α α α = = = = ⋅ − = ≤ ≤ ∑∑ ∑ ∑ (2.29) 其中, 1,...,i l= 。 (3) 非线性支持向量机 对于线性不可分问题,非线性 SVM 的基本思想为:通过非线性变换将输入 变量 x 转化到某个高维空间中,然后在变换空间中求最优分类面。由于这种变换 可能比较复杂,因而一般不易实现。但是由于转化为对偶问题后只涉及到训练样 本间的内积运算 ( )i jx x⋅ 1,...,i l= 即在高维空间中只需进行内积运算,而这种内积运算可以通过用原空间中的 函数实现,因此,我们只需一种核函数:
  32. 32. 第 2 章 相关理论研究 - 25 - ( ), , 1, ,i jK x x i j l⋅ = 满足 Mercer 条件,它就对应某一变换空间中的内积。通过引入输入空间 n R 到一个高维 Hilbert 空间Η 的变换 ( ) n R X H x x χ ⊂ → ⊂ Φ : → Χ = Φ (2.30) 如果定义 ( ) ( ) ( )i j i jK x x x x⋅ = φ ⋅φ ,则“最大间隔”非线性支持向量机的目标 函数变为: 1 1 1 1 ( ) ( ) 2 l l l j i j i j i j j i j W a a y y K x xα α = = = = − ⋅∑ ∑∑ (2.31) 相应的决策函数为: 1 ( ) sgn( ( ) ) sgn( ( ) ) l i i i i f x w x b y a K x x bφ = = ⋅ + = ⋅ +∑ (2.32) 同理,“软间隔”非线性可分的原始问题为: , , 1 1 min ( ) 2l l i w b b R i w w C ξ ξ ∈ ∈ ∈ = ⋅ + ∑ , (2.33) . . (( ) ) 1, 0 i i i i s t y w x b ξ ξ ⋅ + + ≥ ≥ , (2.34) 其中,C>0, 1, ,i l= . 相应的对偶问题为: 1 1 1 1 min ( ) 2 l l l i j i j i j j a i j j y y K x x aα α = = = ⋅ −∑∑ ∑ , (2.35) 1 . . 0 0 , 1, , l i i i i s t y a a C i l = = ≤ ≤ = ∑ (2.36) 2.2.4 支持向量机研究现状 作为一种基于统计学习理论的新型算法,支持向量机坚实的理论基础和良好 的模型推广性能,SVM 近年来受到了广泛的关注和研究,已经在语音识别、图 像识别、客户流失预测等诸多领域有了一定的研究和应用。SVM 根据有限的样
  33. 33. 北京工业大学管理学硕士学位论文 -26- 本信息,在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的泛化能 力;SVM 算法可转化为一个二次型寻优问题,从理论上,得到全局最优点,解决 了在神经网络方法中无法避免的局部极值问题;SVM 能以任意的精度逼近任意函 数。这些特点显示了 SVM 在解决非线性和不确定性系统建模与控制方面的巨大 潜力。目前,关于支持向量机算法本身的研究以及在各领域的应用都取得了显著 的成果[40][41] 。 (1) SVM 算法的研究 1995 年,Cortes 和 Vapnik 提出了 Chunking 算法,Chunking 算法的本质就是 删除矩阵中对应的 Lagrange 系数为零的行和列而不影响最终结果,将一个大型 二次规划(QP)问题分解为一系列较小的 QP 问题,然后找到所有非零 Lagrange 系数并删除所有为零的系数。 针对大训练样本问题,Platter 提出了序列最小优化(Sequential Minimal Optimization,SMO)算法。与以往分解整体为部分的改进 SVM 算法不同,SMO 算 法把问题分解到可能达到的最小规模,具体操作是每次只能处理两个样本的优化 问题,并用解析的方法进行处理。 Joachims 提出了 SVM-light 算法。该算法基本思想是,如果存在不满足 KKT 条件的样本,则以某种方式选择 q 个样本作为工作集,其它保持不变,在此工作 集上解决 QP 问题。重复这一过程,直到所有样本均满足 KKT 条件。此算法已 在工具包 SVM-light 中得到了实现。 1999 年 Suykens 等提出了一种基于标准 SVM 的改进算法:最小二乘支持向量 机(LS-SVM)。LS-SVM 最大的变化在于目标函数中增加了误差平方和项,以及 用等式约束取代不等式约束,求解过程变为一组等式方程组,避免了求解耗时的 受约束的二次规划(QP)问题,求解速度快。相对于常用的不敏感损失函数, LS-SVM 不再需要指定逼近精度,比较适用于大量训练样本的模式分类与系统辨 识等领域。算法已在工具包 LS-SVM 中得到了实现,LS-SVM 工具箱是研究应用 支持向量机的有效工具[42] 。 (2) SVM 模型选择 SVM 中另一个研究领域就是模型选择(Model Selection),即 SVM 模型中关 键参数:惩罚系数C 和核函数 p ,模型选择就是选择合适的模型参数。最常用的 模型选择方法有:最小化“留一法(leave-one-out,loo)”错误率,交叉验证法 (cross-validation)等。 (3) SVM 应用研究 SVM 在模式识别、数据挖掘、非线性系统控制、函数逼近等具有很好的应 用。国内 SVM 的应用研究起步于本世纪初,相比国外,时间虽然不长,但也取 得了不少成果。
  34. 34. 第 2 章 相关理论研究 - 27 - 夏国恩等采用支持向量机算法对客户流失问题进行了预测研究。把 SVM 与 人工神经网络、决策树、贝叶斯分类器等方法进行了对比试验,结果表明,SVM 在模型性能上明显优于其他算法[43] 。 应维云等建立了基于带有不同类权重参数的支持向量机算法的 CW-SVM 预 测模型,通过调整类权参数改变分类面位置,提高了算法的分类准确性,通过实 际的银行信贷客户数据测试表明,模型具有较好的客户流失预测效果。 针对两分类问题的错分代价差异问题,郑恩辉等在标准支持向量机的基础 上,基于贝叶斯决策论,给出了一个代价敏感 SVM 的实现框架[41] 。钱苏丽等考 虑代价敏感学习理论与支持向量机相结合的方法建模,对客户流失问题中的两个 错分类分别施加不同的惩罚系数,结果表明这种方法比标准 SVM 算法模型性能 有了提高[44] 。针对非平衡数据集中的客户流失的错分待机问题,蒋国瑞等在改进 SVM 的基础上,引入代价敏感学习理论进行了客户流失预测研究,取得了较好 的预测效果。 2.3 神经网络与聚类分析 2.3.1 神经网络 神经网络是一种高效的目标分类器,常用于分析解决复杂问题,由输入层、 隐藏层及输出层构成,各层间通过神经元进行连接,采用梯度下降算法调节连接 权值以最佳拟合输入-输出对训练样本,被广泛应用于模式分类、语音识别、预 测建模等多个领域。在 CRM 中,神经网络常用于客户分类、信用评级、响应模 型评分等。 训练神经网络就是把权重分配给每个连接的过程,所产生的神经网络应该能 够对训练样本中的目标变量做出较好的拟合或预测,典型的为向后传播(Back Propagation,BP)神经网络算法。为说明神经网络拓扑结构,以三层 BP 神经网 络模型为例进行介绍,三层 BP 神经网络由输入层,隐含层和输出层组成如图 2-4 所示,神经网络训练过程如图 2-5 所示。
  35. 35. 北京工业大学管理学硕士学位论文 -28- 图 2-4 基于 BP 算法的神经网络模型 Figure 2-4 the model of BP arithmetic neural networks 1)输入层节点 ( 1,2, , )i i n= ,其输出 iO 等于输入 ix ,将控制变量值传到第二 层。 2)隐含层节点 ( 1,2, , )j j p= , 其输入 jI , 输出 jO 分别为: ji n i jij OI θω += ∑=1 (2.37) )]exp(1/[1)( jjj IIfO −+== (2.38) 式中 jiω 为隐含层节点 j 与输入层节点 i 之间的连接权;θj 为隐含层节点 j 的 偏置 ; f 为 Sigmoid 函数; ( ) 1/[1 exp( )]f x x= + − 。 3)输出层节点 ( 1,2, , )k k m= ,其输入 kI ,输出 ky 分别为: kj p j kjk OI θω += ∑=1 ; )]exp(1/[1)( Kkk IIfy −+== (2.39) 式中 jkω 为输出层节点 k 与隐含层节点 j 之间的连接权;θk 为输出层节点 k 的偏置(或阈值) 。 对于给定的训练样本集 ),.....,( 21 pnpp xxx , p 为样本数( p = 1, 2, ⋯, P) , 网络 运算结果与训练样本目标输出之间的均方误差可表示为: ∑= = p p pE p E 1 1 (2.40) 式中 2 1 1 ( ) ; 2 L p pl pl l E t y = = −∑ p 为样本数; plt 为第 p 个样本的第l 个输出单元
  36. 36. 第 2 章 相关理论研究 - 29 - 的目标输出结果; ply 为第 p 个样本的第l 个输出单元的网络运算结果。 图 2-5 神经网络模型训练过程 Figure 2-5 neural networks model training process 2.3.2 K-means 聚类原理 聚类分析源于许多研究领域,包括数据挖掘、统计学、机器学习、模式识别 等。聚类分析作为一个独立的数据挖掘技术来获得数据分布的情况,并且概括出 每个簇的特点,或者集中注意力对特定的某些簇做进一步的分析。聚类分析的目 标就是形成的数据簇,并且满足下面两个条件:一个簇内的数据尽量相似(high intra-class similarity);不同簇的数据尽量不相似(low inter-class similarity)。 (1) 聚类在数据挖掘中的典型应用 1) 聚类分析可以作为其它算法的预处理步骤:利用聚类进行数据预处理, 可以获得数据的基本概况,在此基础上进行特征抽取或分类就可以提高精确度和 挖掘效率。也可将聚类结果用于进一步关联分析,以获得进一步的有用信息。 2) 可以作为一个独立的工具来获得数据的分布情况:聚类分析是获得数据 分布情况的有效方法。通过观察聚类得到的每个簇的特点,可以集中对特定的某 些簇作进一步分析。这在诸如市场细分、目标顾客定位、业绩估评、生物种群划 分等方面具有广阔的应用前景。 3) 聚类分析可以完成孤立点挖掘:许多数据挖掘算法试图使孤立点影响最 小化,或者排除它们。然而孤立点本身可能是非常有用的。如在欺诈探测中,孤 立点可能预示着欺诈行为的存在。 (2) 按照聚类的尺度,聚类方法可被分为以下三种 1) 基于距离的聚类算法:用各式各样的距离来衡量数据对象之间的相似度,
  37. 37. 北京工业大学管理学硕士学位论文 -30- 如 K-means、K-medoids、BIRCH、CURE 等算法。 2) 基于密度的聚类算法:相对于基于距离的聚类算法,基于密度的聚类方 法主要是依据合适的密度函数等。 3) 基于互连性(Linkage-Based)的聚类算法:通常基于图或超图模型。高度 连通的数据聚为一类。 (3) K-means 算法原理 k-means 算法,也被称为 k-平均或 k-均值,是一种得到最广泛使用的聚类算 法。相似度的计算根据一个簇中对象的平均值来进行。算法首先随机地选择 k 个 对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其 与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个 过程不断重复,直到准则函数收敛。准则函数试图使生成的结果簇尽可能地紧凑 和独立。算法如下: 输入:簇的数目 k 和包含 n 个对象的数据库。 输出:k 个簇,使平方误差准则最小。 ①. assign initial value for means; /*任意选择 k 个对象作为初始的簇中心;*/ ②. REPEAT ③. FOR j=1 to n DO assign each jx to the closest clusters; ④. FOR i=1 to k DO i i i x C x C x∈ = ∑ /* Ci 是一个聚类,x 是 Ci 内的一个数据点,更新簇平均值*/ ⑤. Compute 2 1 i k i ji x C E x x x= ∈ = −∑ ∑ /*计算准则函数 E*/ ⑥. UNTIL E 不再明显地发生变化。 2.4 本章小结 本章分析对数据挖掘概念、功能及流程进行了分析,对本文应用的数据挖 掘算法原理进行了介绍。重点介绍了机器学习基本理论,系统讨论了统计学习理 论,支持向量机。作为一种流行的机器学习算法,支持向量机在模式识别、语音 识别、文本分类、以数据挖掘和非线性系统控制均有很好的应用。目前,支持向 量机在客户分类、客户流失预测中的研究正受到了越来越多的关注和应用研究。
  38. 38. 第 3 章 基于代价敏感 SVM 的客户流失预测实证研究 - 31 - 第 3 章 基于代价敏感 SVM 的客户流失预测实证研究 客户流失数据集具有典型的非平衡性,当采用传统支持向量机(SVM)进行分 类时,为了最大化超平面间隔的同时又能降低经验风险水平,分类超平面向样本 数较少的一侧偏移,造成 SVM 过拟合样本点数较多的一类,而低估样本点数较 小的一类。Veropoulos[45] 通过对两类样本施加不同的惩罚系数的方法,改进了传 统 SVM,解决了数据集的非平衡性问题,提高了分类性能。而对于客户流失预 测,不仅要考虑数据集的非平衡性问题,还涉及到错分的代价问题。本文针对客 户流失预测分类错分代价差异问题,引入代价敏感学习理论,提出了代价敏感 SVM 预测模型,通过与标准 C-SVM 对比表明,采用基于 LS-SVM 实现的代价 敏感 SVM 预测模型性能更佳。 3.1 研究背景 3.1.1 网络招聘 网络招聘也称在线招聘或电子招聘(E-Recruiting),是集合网络媒体、传统媒体 以及先进的信息技术,以互联网为媒介进行招聘广告发布、简历的搜集筛选、电 子面试以及在线评测等功能的人力资源服务系统。它是网络技术在人力资源管理 中应用的突出表现。网络招聘分为高级和初级两种形式,高级网络招聘实质上是 公司或组织在网站上发布招聘信息,并通过电子邮件或简历库收集应聘信息,利 用软件测评考察应聘者;初级网络招聘是指公司或组织在网上发布招聘,但鼓励 应聘者仍然通过传统渠道应聘[46,47] ,网络招聘的形式主要由以下几种。 1) 注册成为人才网站的会员 公司在专业的人才招聘网站上发布信息、收集求职者的资料、查询合适的人 才信息,这是目前大多数企业在网上进行招聘的方式。一般而言,专业的人才招 聘网站对企业客户收取一定费用,而对个人求职者的注册是免费的。由于人才网 站上资料库的容量大、日访问量高,所以企业往往能较快招聘到合适的人才。现 在最主要的人才招聘网站多为综合性职业网站,这种网站的特点是资金背景雄 厚、实力强,面向全国,拥有自己的职位库和丰富的职业资源内容。其中最为著 名的有无忧工作网(www.51job.com)、中华英才网(www.chinahr.com)智联招 聘网(www.zhaopin.com.cn)等等。 2) 在自己公司的主页或网站上发布招聘信息,并建立相应的链接 国内外大企业或组织通过专业的人才招聘网站发布信息外,经常在其官方
  39. 39. 北京工业大学管理学硕士学位论文 -32- 网站发布招聘信息,这样既达到了广告宣传的目的,又能使来访问的求职人员在 了解企业的实际状况后,有针对性地选择应聘岗位。 3) 在某些行业的网站发布招聘信息 由于行业网站往往能聚集某一领域的精英,在这样的网站发布招聘信息, 对吸收某一特定专业的人才往往效果更好。这些针对特定目标市场的网站有 IT 人才网站、大学生人才网站等等。 4) 在一些浏览量很大的网站发布招聘广告 比 如 新 浪 网 ( www.sina.com.cn )、 搜 狐 网 (www.sohu.com) 、 中 华 网 (www.china.com)等等。在这些网站上发布招聘广告,不仅会有很大的信息反馈 量,而且也会对公司产生一定的广告效应。 5) 利用网站的搜索引擎搜索相关专业网站及网页 利用网站的搜索引擎搜索相关专业网站及网页可发现可用人才,也可自己 做猎头,这是一种更为经济的方式。 6) 通过网络猎头公司 专业的网络猎头公司利用互联网将其触角伸得更深更远,再高的职位他们都 会猎寻得到,但是费用相对较高,比较适合招聘高级管理人员。 3.1.2 行业现状 中国网络招聘网站中,以综合性网站为主导,同时广阔的发展空间也衍生了 众多新模式,具有行业性、地方性、搜索性等网络招聘网站不断产生和发展,据 估计目前中国具有各类招聘网站 200 多家[48] ,中国网络招聘网站分类如表 3-1 所 示: 表 3-1 中国网络招聘网站分类 Table 3-1 web recruiting tape in china 类别 特点 商业模式 代表企业 综合类 服务范围广、服务类型全、用户基 础庞大、成立时间早、资金丰厚, 市场竞争力强 猎头服务 网络广告 培训服务 报纸服务 校园招聘服务 中华英才网 前程无忧 智联招聘 中国人才热线 行业类 每一个行业是一个细分市场,通过 将主流的网络招聘商业模式应用在 细分行业中,整合业内资源,提供 更具针对性和专业化的服务 网络广告 招聘会 猎头服务 数字英才网 博思人才网 塑料制造人才网 华人螺丝网 地方性 专注于地方的招聘市场,主要提供 本省或本市的招聘服务,在当地具 有一定的市场竞争力 网络广告 人才市场 报纸招聘 上海招聘网 燕赵人才网 天府人才网
  40. 40. 第 3 章 基于代价敏感 SVM 的客户流失预测实证研究 - 33 - SNS 类 通过社交类网站建立人脉关系,朋 友推荐方式获取工作信息 网络广告 线下活动 天际网 联络家 搜索类 依托于搜索引擎的求职招聘系统, 通过一站式来搜索企业个人求职信 息。与传统的搜索引擎相比,求职 搜索结果更为精确 网络广告 竞价排名 搜职网 深度搜索 职友集 淘职网 数据来源:艾瑞咨询公司 然而,随着市场的开放和新技术的应用,外资的注入及中国网民规模的不断 攀升,招聘网站正在迎来其高速发展的黄金期,同时也面临收购与被收购,发展 与衰退的关键期,总之中国招聘网站正在经历前所未有的激烈竞争的白热化阶 段。目前,以前程无忧、中华英才和智联招聘为主的大型综合性人才网站仍然处 于优势地位,地方性和行业性招聘网站发展势头迅速,大有异军突起之势,以英 才网联为代表的专注于行业细分市场的人才网站以其细分类服务的特点脱颖而 出,地方性网站特别是具有政府背景的招聘公司发展势头也是不容忽视,而在互 联网 Web2.0 新技术、新理念的引领下,社区类、搜索类招聘网站发展也是一大 亮点。 中国网络招聘市场的第一阵营为具有全国性影响力较强的大型综合性人才 网站;第二阵营为具有区域或行业影响力的人才网站;其他人才网站可以列入第 三阵营,影响力较弱或仅限于某一城市如表 3-2 所示。 表 3-2 中国网络招聘市场格局 Table 3-2 web recruiting market share in china 阵营 划分标准 代表企业 第一阵营 年营业收入超过 1 亿元 前程无忧,中华英才网,智联招聘 第二阵营 年营业收入在 1000 万至 1 亿元间 中国人才热线,卓博人才网,精英招聘网, 数字英才网,南方人才网等 第三阵营 年收入在 1000 万以下 燕赵人才网,搜职网,职友网,数字英才 网,天际网等 数据来源:艾瑞咨询公司 3.1.3 案例背景 本案例为国内某知名综合类招聘网站,成立至今已有 10 余年的发展历程, 公司员工逾千人,总部在北京,并在上海、天津、广州等经济发达城市设有分公 司,称这些为其一线城市;另外,在郑州、南京、石家庄等内陆经济发达省会城 市设有办事处,称其为二线城市。该公司在加强一线、二线城市客户关系管理的 同时,更是积极开拓抢占三线城市即本案例中的目标市场。自 2007 年 7 月份开 始积极筹备三线城市的开拓,然而在三线城市的开拓过程中,主要是通过电话营 销形式向当地企业用户推销其招聘网站相关产品。案例中客户生命周期如图 3-1
  41. 41. 北京工业大学管理学硕士学位论文 -34- 所示,响应者为通过电话营销对网络招聘表现出一些兴趣的潜在企业客户;免费 开户为响应者中的部分客户对该网络招聘网站表示认同或抱着对网络招聘试试 看的态度把企业客户营业执照等相关文件传给招聘网站,双方签订协议,招聘网 站为其开通招聘网页;付费客户为在试用期内,免费客户通过支付费用获得更多 的招聘功能或更好的招聘效果,试用期满如果客户仍未付费则意味着客户流失; 客户付费后要对其进行后期管理,并进行客户细分,对不同群体的客户采取差异 化的管理策略。 为培育客户,首先给客户 6 个月的免费试用期,在免费期内不断跟进,以期 免费客户能够转化为付费客户。然而,由于不能与客户进行面对面的沟通与交流, 销售人员对客户信息知之不多,不能有效识别价值客户,对客户需求不能充分理 解,造成了一系列问题。主要有客户跟进不及时,客户激活后,没有对客户进行 有效跟进;没有对客户在线行为进行分析与行为细分,更无法识别兴趣客户,其 后果是免费期内转换为付费企业客户比例较低,而免费期结束后客户一般不再付 费,导致客户流失问题严重。 目标市场 响应者 免费客户 付费客户 高价值客户 高潜能客户 低价值客户 主动流失 被动流失 激活 关系管理 保持获取 期满流失 挽留 图 3-1 网络招聘客户生命周期管理 Figure 3-1 web recruitment customer lifecycle management 基于此,本文通过提取客户特征信息、客户活跃度数据、客户服务相关信息 以及客户的在线行为日志数据等信息对客户的行为进行了分析与挖掘。具体的 讲,涉及以下几个问题。 1) 针对免费客户中付费客户与流失客户数量差异大,预测模型效果差即非平 衡性问题引入代价敏感学习理论,采用支持向量机进行客户流失预测建模,解决 非平衡数据的错分代价差异问题。 2) 针对客户信息量大,涉及面广,数据高维的特点,采用主成分分析与神经 网络的方法建立客户流失预测模型或客户付费模型,识别出哪些客户是流失客户 或付费客户。 3) 分析客户流失因素,并基于 K-means 聚类技术对客户在线行为进行了客户 细分,探讨不同客户群体采取差异化的客户关系管理策略。
  42. 42. 第 3 章 基于代价敏感 SVM 的客户流失预测实证研究 - 35 - 3.2 代价敏感学习 现实世界中,数据的分布往往是非平衡的,“不正常”数据的数目往往比 “正常”数据的数目少很多。G .Weiss 对非平衡数据进行了准确、广泛的定义, 不仅考虑了类之间的不平衡性,还考虑了类里的不平衡性,他将现实中的各种类 似现象统称为稀有问题,并且将该问题分为两类:一是稀有类(rare classes),也 就是我们在此提到非平衡类问题。这类问题往往会和分类相关。另一个是稀有案 例(rare cases),稀有案例通常对应的是在数据集中意义重大,但数量较少或中等 的数据子集,其只依赖于数据分布,因此可以是标记数据也可以是未标记数据, 既可以进行有监督学习,也可以进行无监督学习。 传统的机器学习算法对于分类问题假定不同类型的样本是同等重要的,它们 的错分代价相等,只要提高算法的预测准确里则意味着分类性能的提高。随着研 究的深入发现,对于客户流失、欺诈识别、疾病诊断、信用评估等,这些问题中 不同类别样本的错分代价相差很大,这类问题由于流失者、欺诈者、不良信贷者 等样本比例低。而传统基于错误率的算法应用此类问题时,算法的准确率虽然很 高,但对于此类数据却往往无法识别。因此,对于此类问题,必须考虑错分代价 问题,即更需要提高小样本数据的识别率而非整体数据分类的准确率。 对于代价敏感学习(cost-sentitive learning)的研究最早可以追溯到 1984 年 Breiman 等人对分类回归树的研究[49] 。近年来,对该领域的研究引逐渐升温, Domingos 提出了基于 Bagging 的 MetaCost 算法,用于任何基于错误率的分类器, Gama 提出了一种朴素贝叶斯的迭代方法实现代价敏感学习[50] 。罗菲菲等研究了 基于代价敏感学习的范例推理方法,并将其应用于入侵检测[51] 。笔者针对不同分 类问题的错分待代价差异问题,采用代价敏感学习理论,在改进标准支持向量机 的基础上提出了待机敏感支持向量机的学习算法。 设任一样本 x 属于类 j 的概率为 ( | )P j x ,Bayes 决策论把样本分类为i 需要 最小化风险条件 ( | ) ( | ) ( , ) j R i x P j x Cost i j= ∑ 最小化后的条件风险成为 Bayes 风险。其中 1 2, { , , , },mi j c c c m∈ 为类别数 ; ( , )Cost i j 为把一个 j 类样本分类为i 的风险,i j= 表示正确分类,i j≠ 表示错误 分 类 。 对 于 基 于 精 度 度 的 “ 0-1 ” 损 失 分 类 器 , i j= 时 , ( , ) 0Cost i j = ; , ( , ) 1i j Cost i j≠ =时 。分类器的任务是寻找 x 的极大后验概率。
  43. 43. 北京工业大学管理学硕士学位论文 -36- 对于非平衡分类问题而言, ( , ) ( , )i j Cost i j Cost j i≠ ≠时, 。此时不再仅以 x 的 极大后验概率确定其类别。若给定把一个类别样本误分为另一类的代价,可以重 构代价矩阵 ( , )Cost i j ,使全局误分类代价最小 。说明可以在 Bayes 决策论基础 上引入代价敏感函数实现一个差异误分类器。其中 ( , )Cost i j 可以表示为财产损 失,时间消耗等,收益等于负的代价。 对于分类训练样本 x 而言,先估计后验概率 ( 1| ) ( 1| )P x P x+ −与 ,然后计算其 属于任一类i 的代价,从而重构 x 的类别标号为: ^ 1 if ( 1| ) ( 1| ) 1 P x P x y + + ≤ −⎧ = ⎨ −⎩ , , 否则 (3-1) 该类标号集成了样本的误分类代价信息,称为样本的“真”类标号。 3.3 不同惩罚系数 SVM 对于第 2 章中的(2-26)式标准 C-SVM 算法,对非平衡数据进行训练时,训 练集中的正类样本与负类样本的个数存在较大差异。如果对正类样本和负类样本 应用相同的惩罚系数 C,则意味着那一类点的个数多,则更看重那些点,这样样 本点多的那一类学习较好,而样本点的少的那一类则欠学习。对于客户流失问题, 更多的是关注流失客户,因此,一个有效的解决方法就是对正类样本和负类样本 本采用不同的惩罚系数,Veropoluos 提出了对两类样本数据施加不同惩罚系数的 方法,降低了两类样本数据量相差较大时对整体分类性能的影响。为此,在选择 适当的参数 C 后,令 , N N C C C C N N N N − + + − + − + − = = + + , L L C C + − + − 其中, 和 分别是正类样本和负类样本的个数, 是对正类样本点集的惩罚系数, 是对负类样本点的惩罚系数。 此时,C-SVM 原始优化问题形式变为: { | 1} { | 1} 1 min : 2 s.t. ( ) 1 0 i i N N T i i i y i y T i i i i w w C C y w x b ξ ξ ξ ξ + − =+ =− + + + ≥ − ≥ ∑ ∑ (3-2) 其对偶问题为:
  44. 44. 第 3 章 基于代价敏感 SVM 的客户流失预测实证研究 - 37 - 1 1 1 i=1 1 min: ( ) 2 s.t. 0 0 , 1 0 , 1 n n n i j i j i j i i j i n i i i i i i y y k x x a y C y C y α α α α α = = = + − − = ≤ ≤ = + ≤ ≤ = − ∑∑ ∑ ∑ i 如果 如果 (3-3) 3.4 代价敏感 SVM 针对客户流失数据自身的特点,不仅要考虑正负样本量的非平衡性问题,还 要考虑由错分代价带来的挽留成本问题。为此,本文采用代价敏感学习对(3-2) 式进行改进,提出了一种代价敏感 SVM。 设样本集为 ( , ,cos )i i ix y t , , { 1, 1},cos 0, 1,2,d i i ix R y t i N∈ ∈ − + ≥ = ,其中 cos it 为第i 个样本被错分的代价,与 iy 相关。则其分类问题可描述为: { | 1} { | 1} 1 min : cos cos 2 s.t. ( ) 1 0 i i N N T i i i i i y i y T i i i i w w C t C t y w x b ξ ξ ξ ξ + − = + = − + + + ≥ − ≥ ∑ ∑ (3-4) 构造 Lagrange 函数 { | 1} { | 1} 1 1 1 cos cos 2 ( ( ) 1 ) i i N N T i i i i i y i y N N T i i i i i i i i L w w C t C t y w x b ξ ξ α ξ β ξ + − =+ =− = = = + + − + − + − ∑ ∑ ∑ ∑ (3-5) 其中 0, 0i iα β≥ ≥ 为 Lagrange 系数。分别求得 由 1 1 0, 0, cos 0, n i i i i n i i i i i i i L w a y x w L a y b L t C a βξ = = ⎧ ∂ = − =⎪ ∂ ⎪ ⎪ ∂⎨ = − = ∂⎪ ⎪∂ = − − =⎪ ∂⎩ ∑ ∑ (3-6) 并满足 KKT 条件: 1 ( ( ) 1 ) 0 0 T i i i i N i i i y w x bα ξ α ξ = ⎧ + − + = ⎪ ⎨ =⎪ ⎩ ∑ (3-7) 解得此改进 SVM 得到其对偶表达式为:
  45. 45. 北京工业大学管理学硕士学位论文 -38- 1 1 1 N i=1 1 min: ( ) 2 s.t. 0 0 cos 1 0 cos 1 n n n i j i j i j i i j i i i i i i i i i y y k x x a y t C y t C y α α α α α = = = + − ⋅ − = ≤ ≤ = + ≤ ≤ = − ∑∑ ∑ ∑ 如果 如果 (3-8) 3.5 预测建模 3.5.1 数据选择 客户基本信息来源于某知名综合类招聘网站在前期推广过程中获取的客户 数据 10000 条,按 7:3 分为训练数据与测试数据,其中正样本(付费客户) 2446 条数据,负样本(流失客户) 7554 条数据。 数据指标的选取通过参考相关领域学术文献[10,17,22] 并与领域专家充分探讨 交流后确定,涉及客户基本信息、活跃信息、发布职位信息、职位浏览信息、收 到简历信息等五大类。具体为公司基本信息:包括公司名称,企业规模,企业性 质,注册资金,成立时间等;而其余四类信息则涉及客户在线行为日志数据,数 据的获取要从网络日志数据库中对客户在线行为数据进行抽取、转换、加载即 ETL 过程形成数据集市,构建与客户付费预测密切相关的 KPI 指标,包括客户 激活到现在的时间,客户平均登陆系统次数,发布职位总数,发布职位总次数, 登陆系统次数,收到简历数量,客户发布职位被浏览次数等 22 个指标,如表 3-3 所示。 表 3-3 客户流失预测数据 Table 3-3 customer churn prediction data 信息类别 数据属性 客户基本信息 企业性质,成立时间,注册资金,企业规模,客户类型(免 费客户、付费客户)等 客户活跃信息 客户激活距当前时间(天),最近登入时间,登陆系统次 数,登陆系统频率(天)等 发布职位信息 发布职位总数数,最近 2 周发布职位数,职位更新次数, 平均发布职位数/次等 职位浏览信息 职位总浏览量,最近 2 周职位浏览量,职位最大浏览量, 职位平均浏览量等
  46. 46. 第 3 章 基于代价敏感 SVM 的客户流失预测实证研究 - 39 - 收到简历信息 收到简历总数,最近 2 周收到简历数,职位收到简历最 大数量,职位平均收到简历数等 3.5.2 数据预处理 数据的预处理涉及缺失值处理、属性编码和规范化等步骤和过程。 1) 缺失值处理:首先对脏数据和大量缺失值进行处理,过滤掉此部分数据, 主要涉及为客户特征行为数据中属性字段空值较多以及客户在线行为日志数据 中缺失值较多的记录和属性进行了过滤。 2) 属性编码:对涉及到的客户特征数据进行重新编码,如客户状态分为流 失客户与付费客户,则把付费客户为 1,流失客户标识为-1,企业性质为民营企 业表示为 1,国有企业表示为 2,外资企业表示为 3 等。 3) 数据规范化:对原始数据进行规范化处理。规划化的目的在于属性数据 按比例进行缩放,使之落入特定的区间-1 到 1 之间,本文采用 Matlab 中数据预 处理函数 premnmx()对输入数据进行归一化处理。 3.5.3 数据建模 本文建模工具采用基于 Matlab 的 LS-SVM 工具箱进行实现。其中,支持向 量机核函数本文采用 RBF 核函数 2 2 ( , ) exp( / )K x x x x σ′ ′= − − 。对于惩罚系数 C 与核函数系数 2 σ 的选择,本文采用交叉验证方法得到 C = 0.0183, 2 σ = 15.2012。 对于错分代价的取值,参考相关文献并反复试验确定,如果把流失客户错分为付 费客户,错分代价cos 5it = ;如果把付费客户错分为流失客户,错分代cos 2it = 。 3.6 结果分析 ROC 是评价数据挖掘模型性能的有效方法,也是一种评价客户流失预测模 型广泛采用的技术。机器算法的性能评价最典型的分析方法:混合矩阵,评价标 准由表 3-4 得到。 表 3-4 二分类问题的混合矩阵 Table 3-4 A confusion matrix for a binary classification problem 预测为付费的样本数 预测为流失的样本数 实际的付费样本数 TP FN
  47. 47. 北京工业大学管理学硕士学位论文 -40- 参数含义为: FN(False Negative):分类模型将付费样本错误的预测为流失的数量; TN(True Negative):分类模型将流失样本正确的预测为流失的数量; FP(False Positive):分类模型将流失样本错误预测为付费的数量 TP(True Positive):分类模型付费样本正确的预测为付费的数量 除此之外,ROC 评价还涉及到以下两个参数:sensitivity 和 1-specificit。 sensitivity 也称 TPR(True Positive Rate),它指的是分类器正确预测的付费样 本比例。令总的付费样本为 P, 则: P=TP+FN TPR=TP/P specificity 指的是分类器正确预测的流失样本比例,令总的流失样本为 N, 则: N=TN+FP specificity=TN/N 1-specificit 也即(False Positive Rate)指的是分类器预测错误的流失样本在真 正的流失样本中所占的比例,公式为: 1-specifictiy = FRP=FP/N ROC 曲线所表示的就是 TPR 与 FPR 之间的权衡关系的图形方法,有两个坐 标轴 X 和 Y,其中 X 轴表示是 1-specifictiy,Y 轴表示为 specificity。ROC 上最理想 的点是(0,1),即所有的付费客户均被预测正确,没有流失客户被错误预测为付费 客户。 AUC(Area Under the ROC curve)也是一种很有用的策略方法,指的是 ROC 曲线下图形的面积。 1 0 0 1 NTP FP AUC d TPdFP P N P N = = ⋅∫ ∫ 一般地,曲线下面的面积越大,模型预测效果越好。预测性能越好的的 ROC 曲线越靠向坐标轴的左上方。从图 3-2,图 3-3,图 3-4 可以看到,标准 SVM, 改进 SVM 及代价敏感 SVM 方法建模的客户流失预测模型性能依次提高。 实际的流失样本数 FP TN
  48. 48. 第 3 章 基于代价敏感 SVM 的客户流失预测实证研究 - 41 - 图 3-2 基于标准 SVM 建模的 ROC 曲线 Figure 3-2 ROC curve based on standard SVM modeling 图 3-3 基于改进 SVM 建模的 ROC 曲线 Figure 3-3 ROC curve based on improved SVM modeling
  49. 49. 北京工业大学管理学硕士学位论文 -42- 图 3-4 基于代价敏感 SVM 建模的 ROC 曲线 Figure 3-4 ROC curve based on Cost Sensitivity SVM modeling 3.7 本章小结 SVM 是一种研究分类问题的高效算法,目前已有不少文献研究证明了 SVM 算法相比回归分析、神经网络、基因算法、决策树等有更好的预测效果和性能。 对于客户流失问题,流失客户与非流失客户样本差距非常大,对于这类问题,更 多的是对流失客户的关注与预测,因此两类样本的错分代价是不同的。 对于非平衡数据问题,Veropoulos 通过在标准支持向量机中对两类样本施加 不同惩罚系数的方法,改进了传统 SVM,提高了分类模型性能。本文在此基础 上,针对错分代价差异问题,引入代价敏感学习理论,提出了代价敏感 SVM 算 法,并通过实验验证了模型的有效性。 本章研究成果发表于《计算机应用研究》杂志。
  50. 50. 第 4 章 网络招耀

×