腾讯大讲堂59 数据蕴含商机，挖掘决胜千里

大堂腾讯讲
第五十九期
研管理部发
大堂主：讲页 http://km.oa.com/class
与互：讲师动 http://km.oa.com/group/class

数据含商机，掘决千里蕴挖胜
研究院数据分析研究室腾讯
SimonJiang / 江宇闻
2009-02-24

Agenda
数据掘是什么？挖1
模型 + 算法2
数据掘践分享挖实3
心得与总结4

从帷幄到决千里…运筹胜
舌群儒战草船借箭
巧借东风火赤壁烧
赤
壁
古
怀
苏
轼
……
羽
扇
巾
纶
笑
谈
间
灰
烟
樯
橹
飞
灭
......

日月之行，察天地之观变
风
雷
电
雨
云云多会下雨
刮会下雨风
下雨会闪电
会打雷闪电
……
成它？？？换呢

数据爆炸的代时
Data Mining, circa 1963
IBM 7090 600 cases
“Machine storage limitations
restricted the total number of
variables which could be
considered at one time to 25.”
“Machine storage limitations
restricted the total number of
variables which could be
considered at one time to 25.”

数据掘是……挖
Data
Information
Knowledge
Wisdom
 To find / discover / extract / dredge / harvest 、、、
 Interesting / novel / useful / implicit / actable / meaningful 、、、
 Information / knowledge / patterns / trends / rules / anomalies 、、、
 In massive data / large data set / large database / data warehouse 、、、
Data + context
Information + rules
Knowledge + experience

多学科的融合
Databases
Statistics
Pattern
Recognition
KDD
Machine
Learning AI
Neurocomputing
Data Mining

几个基本概念
 模型（ Model ） vs 模式（ Pattern ）
 数据掘的根本目的就是把本数据中含的泛化挖样隐结构（ Generalize ）
到体总（ Population ）上去
 模型：数据集的一全局性的整体特征的描述或概括，适用于数据空对种
中的所有点，例如聚类分析间
 模式：数据集的一局部性的有限特征的描述或概括，适用于数据空对种
的一个子集，例如分析间关联
 算法（ Algorithm ）：一个定完（义备 well-defined ）的程，它过
以数据作入并生模型或模式形式的出为输产输
 描述型掘（挖 Descriptive ） vs 型掘（预测挖 Predictive ）
 描述型掘：数据行概括，以方便的形式呈数据的重要特征挖对进现
 型掘：根据察到的象特征来它的其他特征预测挖观对值预测值
 描述型掘可以是目的，也可以是手段挖

数据掘是一个程挖过
- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)

数据掘方法挖论
• CRISP_DM （ Cross Industry
Standard Process for DM ）
– 1998 年，由
NCR 、 Clementine 、 OHRA
和 Daimler-Benz 的合目联项
提出组
• SEMMA
– SAS 公司提出的方法
– Sample, Explore, Modify,
Model, Assess
• 在略上使用战 Crisp_DM 方法
，在上用论战术应 SEMMA 方
法论

工欲善其事必先利其器
 数据清洗
 填充缺失值 , 修均噪声数据 , 或除孤立点识别删 , 并解决数据不一致问
题
 主要分析方法：分箱（ Binning ）、聚类、回归
 数据集成
 多个数据、数据方或文件的集成库
 数据变换
 范化与规汇总
 数据化简
 少数据量的同减时 , 可以得到相同或相近的分析果还结
 主要分析方法：抽、主成分分析样
 数据离散化
 数据化的一部分简 , 但非常重要 ( 尤其于数型数据来对值说 )

先来玩玩数据（ EDA ）
 探索性数据分析（ Exploratory Data Analysis, EDA ）
 探索性地看数据，概括数据集的和系查结构关
 数据集没有各格假定对种严
 主要任务
 数据可化（视 a picture is worth a thousand words ）
 残差分析（数据＝合拟 + 残差）
 数据的重新表（什么的尺度－数抑或平方根－会化分析）达样对简
 方法的耐抗性（数据局部不良的不敏感性，如中位数耐抗甚于均对
）值
 常方法见
 量，如均、方差、根方差、方差、峰度、偏度、相系数等统计值协关
 ，如、直方、散点、箱尾等统计图饼图图图图
 模型，如聚类

数据掘挖 = 模型 + 算法
分类预测分类预测
关联规则关联规则
孤立点探测孤立点探测
聚类聚类
Logistic RegressionLogistic Regression
决策树决策树
神网经络神网经络
K-MeansK-Means
K-ModeK-Mode
SOMSOM （自）组织图（自）组织图
AprioriApriori
FP-GrowthFP-Growth
基于统计基于统计
基于距离基于距离
基于偏差基于偏差

你使用信用卡？过吗
 卡？应该发给谁
 些持卡人会欠？哪拖
 些欠的客会款？哪拖户还
影响
合资产组
（ Portfolio ）
1 、根据史，将来历预测
2 、目是一个分类量标变
3 、果是一个意下的概率预测结统计义
1 、些人可以卡，度是多少。哪发额
2 、持卡人欠的概率是多少拖
3 、催收该对谁

分类程过
NAME RANK YEARS TENURED
Mike Assistant Prof 3 no
Mary Assistant Prof 7 yes
Bill Professor 2 yes
Jim Associate Prof 7 yes
Dave Assistant Prof 6 no
Anne Associate Prof 3 no
训练集分类学习
训练集
Jef Professor 4 ?
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
Jef is YES!
分类器
Tom Assistant Prof 2 no
Merlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes

物以类聚，人以群分
人地取分度为选细维
– 客价户值
– 地域
– 活程度跃
– ……
度的生维灾难发
– 度增维长
– 分数目指数增细长
– 人能理有限脑仅处
的度维市场

聚类示意
 基于欧氏距离的三空中的聚类维间
 基于心的聚类算法质
(K-Means)
)|||||(|),( 222
j
z
i
z
j
y
i
y
j
x
i
xjid −+−+−=
A1
A2
B1
x
y
z

商品的发现间关联规则
buy(x,”diapers”) ⇒ buy(x,”beers”)

的量度关联规则
 支持度： Support(A=>B)=#AB/#N ，表示 A 和 B 同时出现的概
率
 期望可信度： Support(A)=#A/#N ，表示 A 出现的概率
 置信度： Confidence(A=>B)=Support(A=>B)/Support(B)
 改善度： Lift(A=>B)=Confidence(A=>B)/Support(B)
名称描述公式
支持度 X 、 Y 同出的率时现频 P(X∩Y)
期望可信度 Y 出的率现频 P(Y)
置信度 X 出的前提下，现 Y 出的现频
率
P(Y|X)
改善度置信度期望可信度的比对值 P(Y|X)/P(Y)

的度量关联规则
 具有最小置信度和支持度的全发现
部规则 X ^ Y ⇒ Z
 支持度 (support), s, 事中包含务
{X & Y & Z} 的概率
 置信度 (confidence), c, 事中包务
含 {X & Y} 的条件下 , 包含 Z 的条
件概率
Transaction ID Items Bought
2000 A,B,C
1000 A,C
4000 A,D
5000 B,E,F
 令最小支持度为 50%, 最小置信度为
50%, 有则
 A ⇒ C (50%, 66.6%)
 C ⇒ A (50%, 100%)
顾客购买尿布
顾客购买两者
顾客购买啤酒

数据掘厂商挖
掘和分析平台挖统计
–SAS EM
–SPSS
Clementine
–S+Miner
–Statistic Data
Miner
与数据集成掘平台库挖
–IBM IM
–Oracle
–NCR Teradata
Miner
–SQL 2005 DM
行用及解决方案业运
–Unica
–KXEN
–HNC

看看 QQ 的流失数据
流失率 2007 年 3
月
2007 年 4
月
2007 年 5
月
2007 年 6
月
当月活数跃总帐户 253,668,411 255,749,736 264,006,894 269,060,000
当月流失老数帐户 6,572,087 6,006,582 5,466,807 8,217,569
当月老流失率帐户 2.59% 2.35% 2.07% 3.05%
个月每 500~1000 万的老用流失户
，一年老用流失接近户 1 亿 , 实际
自然人流失状况然没有虽这么严
重，但是仍然是一个人的数据。惊
客流失是户每
个行天都业每
在面的对问题1 、建立流失模型，回答预测
客是否要流失，何流失的户时
问题
2 、通模型建立客流过预测户
失管理机制，更有效地管理为
流失，而不是去防止流失

一切从目出标发
目量标变：即需要根据需求定模型业务确
需要的象，在预测对 QQ 客流失模型中户
即是在上 “流失”的定。业务对义
默客数在沉户 4
月后区域定稳
模型选择连续
沉默 2 个月作
为流失的定义
目量的定：标变义
Good ：在表窗口个月有登的客现连续两陆户
Bad: 在表窗口个月都没有登的客现连续两陆户
Intermediate: 在表窗口其中一个月有登的客现陆户

打用的窗口开观测户
本训练样本测试样
察窗口观 : 2007 年 1 月— 2007 年 3 月
表窗口现 : 2007 年 5 月— 2007 年 6 月
Time Lag: 2007 年 4 月
交叉校本验样
察窗口观 : 2007 年 2 月— 2007 年 4 月
表窗口现 : 2007 年 6 月— 2007 年 7 月
Time Lag: 2007 年 5 月
观察窗口表现窗口Time Lag
MM-1M-2M-3M-4M-5 M+1 M+2 M+3
1察窗口：观形成自量的段。变时间
表窗口现：形成因量的段。变时间2
3Time Lag ：留部行相操作的段。预给业务门进应时间
1 23

化幅度特征量描述用使用量上的化幅度变变户变
勾勒出用行的特征户为
基本属性量描述用的基本属性变户
品使用行特征描述用使用品的情况产为户产
消息使用行特征描述用使用消息的情况业务为户业务
音使用行特征描述用使用音的情况频业务为户频业务
使用行特征描述用使用的情况视频业务为户视频业务
客在的行特征从在，登次数，登率等角度研究用的使用行户线为线时长陆陆频户为
属地化的行特征描述用在某一周期内登所在地的化情况归变为户时间陆变
中量间变
比例特征量描述用使用占比变户业务
基量础变量描述变
行特征量描述用的使用行化为趋势变户为变趋势
量描述变

黄沙吹尽始到金
基量和中量数目础变间变约为 224 个
量后的量数目经过变变换变约为 1700 个
量变筛选
使用 Logistic 回归的 Stepwise 方法进行下一步拟合
方量卡统计
Chi Square
信息价值
Information Value
信息益增
Gain Index
量回单变归
偏相分析关
Partial Correlation

Lift 曲线
训练样本Li f t 图
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8 9
十分位
Lift值
Li f t
十分位本数量样 Lift
0 226,729 5.17
1 226,729 2.27
2 226,728 1.03
3 226,730 0.55
4 226,729 0.35
5 226,729 0.25
6 226,730 0.15
7 226,729 0.11
8 226,729 0.07
9 226,730 0.05
Total 2,267,293 1

ROC 曲线
训练样本的ROC曲线
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
十分位
实际流失占比
>50%
>75%

建立的流程闭环业务
流失客分析户
数据掘挖
数据分析
数据采集 /ETL
有流程估现评
和挽留行计划设计动
行挽留行执动
估挽留果评结
整用流程调应

几点心得
施数据掘是一个略性措实挖战举
Business First, Technique Second
数据掘不是万能的，没有它也不是万万不能挖
数据掘是一个循探索的程挖环过

网源络资
 www.dwway.com
 www.dmresearch.net
 www.dmreview.com
 www.datawarehouse.com
 www.kdnuggets.com

Tecent Research
Question &
Answer ?

系我联们
RTX ： simonjiang TEL ：
7999
RTX ： florayi TEL ：
8889
RTX ： jeavinqiu TEL ：
5909
RTX ： neilliao TEL ：
Thank you !!

腾讯大讲堂59 数据蕴含商机，挖掘决胜千里

Recommended

Recommended

More Related Content

Similar to 腾讯大讲堂59 数据蕴含商机，挖掘决胜千里

Similar to 腾讯大讲堂59 数据蕴含商机，挖掘决胜千里 (20)

More from George Ang

More from George Ang (20)

腾讯大讲堂59 数据蕴含商机，挖掘决胜千里

Editor's Notes