More Related Content Similar to 腾讯大讲堂59 数据蕴含商机,挖掘决胜千里 Similar to 腾讯大讲堂59 数据蕴含商机,挖掘决胜千里 (20) More from George Ang (20) 腾讯大讲堂59 数据蕴含商机,挖掘决胜千里1. 大 堂腾 讯 讲
第五十九期
研 管理部发
大 堂主 :讲 页 http://km.oa.com/class
与 互 :讲师 动 http://km.oa.com/group/class
2. 数据 含商机, 掘决 千里蕴 挖 胜
研究院 数据分析研究室腾讯
SimonJiang / 江宇闻
2009-02-24
4. 从 帷幄到决 千里…运筹 胜
舌 群儒战 草船借箭
巧借东风 火 赤壁烧
赤
壁
古
怀
苏
轼
……
羽
扇
巾
纶
笑
谈
间
灰
烟
樯
橹
飞
灭
......
6. 数据爆炸的 代时
Data Mining, circa 1963
IBM 7090 600 cases
“Machine storage limitations
restricted the total number of
variables which could be
considered at one time to 25.”
“Machine storage limitations
restricted the total number of
variables which could be
considered at one time to 25.”
7. 数据 掘是……挖
Data
Information
Knowledge
Wisdom
To find / discover / extract / dredge / harvest 、、、
Interesting / novel / useful / implicit / actable / meaningful 、、、
Information / knowledge / patterns / trends / rules / anomalies 、、、
In massive data / large data set / large database / data warehouse 、、、
Data + context
Information + rules
Knowledge + experience
10. 几个基本概念
模型( Model ) vs 模式( Pattern )
数据 掘的根本目的就是把 本数据中 含的 泛化挖 样 隐 结构 ( Generalize )
到 体总 ( Population )上去
模型: 数据集的一 全局性的整体特征的描述或概括,适用于数据空对 种
中的所有点,例如聚类分析间
模式: 数据集的一 局部性的有限特征的描述或概括,适用于数据空对 种
的一个子集,例如 分析间 关联
算法( Algorithm ):一个定 完 (义 备 well-defined )的 程,它过
以数据作 入并 生模型或模式形式的 出为输 产 输
描述型 掘(挖 Descriptive ) vs 型 掘(预测 挖 Predictive )
描述型 掘: 数据 行概括,以方便的形式呈 数据的重要特征挖 对 进 现
型 掘:根据 察到的 象特征 来 它的其他特征预测 挖 观 对 值 预测 值
描述型 掘可以是目的,也可以是手段挖
11. 数据 掘是一个 程挖 过
- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)
12. 数据 掘方法挖 论
• CRISP_DM ( Cross Industry
Standard Process for DM )
– 1998 年,由
NCR 、 Clementine 、 OHRA
和 Daimler-Benz 的 合 目联 项
提出组
• SEMMA
– SAS 公司提出的方法
– Sample, Explore, Modify,
Model, Assess
• 在 略上使用战 Crisp_DM 方法
,在 上 用论 战术 应 SEMMA 方
法论
13. 工欲善其事必先利其器
数据清洗
填充缺失值 , 修均噪声数据 , 或 除孤立点识别 删 , 并解决数据不一致问
题
主要分析方法:分箱( Binning )、聚类、回归
数据集成
多个数据 、数据方或文件的集成库
数据变换
范化与规 汇总
数据 化简
少数据量的同减 时 , 可以得到相同或相近的分析 果还 结
主要分析方法:抽 、主成分分析样
数据离散化
数据 化的一部分简 , 但非常重要 ( 尤其 于数 型数据来对 值 说 )
14. 先来玩玩数据( EDA )
探索性数据分析( Exploratory Data Analysis, EDA )
探索性地 看数据,概括数据集的 和 系查 结构 关
数据集没有各 格假定对 种严
主要任务
数据可 化(视 a picture is worth a thousand words )
残差分析(数据= 合拟 + 残差)
数据的重新表 (什么 的尺度- 数抑或平方根-会 化分析)达 样 对 简
方法的耐抗性( 数据局部不良的不敏感性,如中位数耐抗甚于均对
)值
常 方法见
量,如均 、方差、根方差、 方差、峰度、偏度、相 系数等统计 值 协 关
,如 、直方 、散点 、箱尾 等统计图 饼图 图 图 图
模型,如聚类
15. 数据 掘挖 = 模型 + 算法
分类预测分类预测
关联规则关联规则
孤立点探测孤立点探测
聚类聚类
Logistic RegressionLogistic Regression
决策树决策树
神 网经 络神 网经 络
K-MeansK-Means
K-ModeK-Mode
SOMSOM (自 )组织图(自 )组织图
AprioriApriori
FP-GrowthFP-Growth
基于统计基于统计
基于距离基于距离
基于偏差基于偏差
16. 你使用 信用卡 ?过 吗
卡 ?应该发给谁
些持卡人会 欠?哪 拖
些 欠的客 会 款?哪 拖 户 还
影响
合资产组
( Portfolio )
1 、根据 史, 将来历 预测
2 、目 是一个分类 量标 变
3 、 果是一个 意 下的概率预测结 统计 义
1 、 些人可以 卡, 度是多少。哪 发 额
2 、持卡人 欠的概率是多少拖
3 、 催收该对谁
17. 分类 程过
NAME RANK YEARS TENURED
Mike Assistant Prof 3 no
Mary Assistant Prof 7 yes
Bill Professor 2 yes
Jim Associate Prof 7 yes
Dave Assistant Prof 6 no
Anne Associate Prof 3 no
训练集 分类学习
训练集
NAME RANK YEARS TENURED
Jef Professor 4 ?
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
Jef is YES!
分类器
NAME RANK YEARS TENURED
Tom Assistant Prof 2 no
Merlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes
18. 物以类聚,人以群分
人 地 取 分 度为 选 细 维
– 客 价户 值
– 地域
– 活 程度跃
– ……
度 的 生维 灾难 发
– 度增维 长
– 分数目指数增细 长
– 人 能 理有限脑仅 处
的 度维市场
19. 聚类示意
基于欧氏距离的三 空 中的聚类维 间
基于 心的聚类算法质
(K-Means)
)|||||(|),( 222
j
z
i
z
j
y
i
y
j
x
i
xjid −+−+−=
A1
A2
B1
x
y
z
20. 商品 的发现 间 关联规则
buy(x,”diapers”) ⇒ buy(x,”beers”)
21. 的量度关联规则
支持度: Support(A=>B)=#AB/#N ,表示 A 和 B 同时出现的概
率
期望可信度: Support(A)=#A/#N ,表示 A 出现的概率
置信度: Confidence(A=>B)=Support(A=>B)/Support(B)
改善度: Lift(A=>B)=Confidence(A=>B)/Support(B)
名称 描述 公式
支持度 X 、 Y 同 出 的 率时 现 频 P(X∩Y)
期望可信度 Y 出 的 率现 频 P(Y)
置信度 X 出 的前提下,现 Y 出 的现 频
率
P(Y|X)
改善度 置信度 期望可信度的比对 值 P(Y|X)/P(Y)
22. 的度量关联规则
具有最小置信度和支持度的全发现
部规则 X ^ Y ⇒ Z
支持度 (support), s, 事 中包含务
{X & Y & Z} 的概率
置信度 (confidence), c, 事 中包务
含 {X & Y} 的条件下 , 包含 Z 的条
件概率
Transaction ID Items Bought
2000 A,B,C
1000 A,C
4000 A,D
5000 B,E,F
令最小支持度为 50%, 最小置信度为
50%, 有则
A ⇒ C (50%, 66.6%)
C ⇒ A (50%, 100%)
顾客购买尿布
顾客购买两者
顾客购买啤酒
24. 数据 掘厂商挖
掘和 分析平台挖 统计
–SAS EM
–SPSS
Clementine
–S+Miner
–Statistic Data
Miner
与数据 集成 掘平台库 挖
–IBM IM
–Oracle
–NCR Teradata
Miner
–SQL 2005 DM
行 用及解决方案业运
–Unica
–KXEN
–HNC
26. 看看 QQ 的流失数据
流失率 2007 年 3
月
2007 年 4
月
2007 年 5
月
2007 年 6
月
当月活 数跃总帐户 253,668,411 255,749,736 264,006,894 269,060,000
当月流失老 数帐户 6,572,087 6,006,582 5,466,807 8,217,569
当月老 流失率帐户 2.59% 2.35% 2.07% 3.05%
个月每 500~1000 万的老用 流失户
,一年老用 流失接近户 1 亿 , 实际
自然人流失状况 然没有虽 这么严
重,但是仍然是一个 人的数据。惊
客 流失是户 每
个行 天都业每
在面 的对 问题1 、建立流失 模型,回答预测
客 是否要流失,何 流失的户 时
问题
2 、通 模型建立客 流过预测 户
失管理机制,更 有效地管理为
流失,而不是去防止流失
27. 一切从目 出标 发
目 量标变 :即需要根据 需求 定模型业务 确
需要 的 象,在预测 对 QQ 客 流失模型中户
即是在 上 “流失”的定 。业务 对 义
默客 数在沉 户 4
月后区域 定稳
模型选择连续
沉默 2 个月作
为流失的定义
目 量的定 :标变 义
Good :在表 窗口 个月有登 的客现 连续两 陆 户
Bad: 在表 窗口 个月都没有登 的客现 连续两 陆 户
Intermediate: 在表 窗口其中一个月有登 的客现 陆 户
28. 打 用 的窗口开观测 户
本训练样 本测试样
察窗口观 : 2007 年 1 月— 2007 年 3 月
表 窗口现 : 2007 年 5 月— 2007 年 6 月
Time Lag: 2007 年 4 月
交叉校 本验样
察窗口观 : 2007 年 2 月— 2007 年 4 月
表 窗口现 : 2007 年 6 月— 2007 年 7 月
Time Lag: 2007 年 5 月
观察窗口 表现窗口Time Lag
MM-1M-2M-3M-4M-5 M+1 M+2 M+3
1察窗口:观 形成自 量的 段。变 时间
表 窗口现 :形成因 量的 段。变 时间2
3Time Lag : 留 部 行相 操作的 段。预 给业务 门进 应 时间
1 23
29. 化幅度特征 量 描述用 使用量上的 化幅度变 变 户 变
勾勒出用 行 的特征户 为
基本属性 量 描述用 的基本属性变 户
品使用行 特征 描述用 使用 品的情况产 为 户 产
消息 使用行 特征 描述用 使用消息 的情况业务 为 户 业务
音 使用行 特征 描述用 使用音 的情况频业务 为 户 频业务
使用行 特征 描述用 使用 的情况视频业务 为 户 视频业务
客 在 的行 特征 从在 ,登 次数,登 率等角度研究用 的使用行户 线 为 线时长 陆 陆频 户 为
属地 化的行 特征 描述用 在某一 周期内登 所在地的 化情况归 变 为 户 时间 陆 变
中 量间变
比例特征 量 描述用 使用占比变 户业务
基 量础变 量描述变
行 特征 量 描述用 的使用行 化为趋势 变 户 为变 趋势
量描述变
30. 黄沙吹尽始到金
基 量和中 量数目础变 间变 约为 224 个
量 后的 量数目经过变 变换 变 约为 1700 个
量变 筛选
使用 Logistic 回归的 Stepwise 方法进行下一步拟合
方 量卡 统计
Chi Square
信息价值
Information Value
信息 益增
Gain Index
量回单变 归
偏相 分析关
Partial Correlation
31. Lift 曲线
训练样本Li f t 图
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8 9
十分位
Lift值
Li f t
十分位 本数量样 Lift
0 226,729 5.17
1 226,729 2.27
2 226,728 1.03
3 226,730 0.55
4 226,729 0.35
5 226,729 0.25
6 226,730 0.15
7 226,729 0.11
8 226,729 0.07
9 226,730 0.05
Total 2,267,293 1
33. 建立 的 流程闭环 业务
流失客 分析户
数据 掘挖
数据分析
数据采集 /ETL
有流程 估现 评
和 挽留行计划 设计 动
行挽留行执 动
估挽留 果评 结
整 用流程调 应
35. 几点心得
施数据 掘是一个 略性 措实 挖 战 举
Business First, Technique Second
数据 掘不是万能的,没有它也不是万万不能挖
数据 掘是一个循 探索的 程挖 环 过
39. 系我联 们
RTX : simonjiang TEL :
7999
RTX : florayi TEL :
8889
RTX : jeavinqiu TEL :
5909
RTX : neilliao TEL :
Thank you !!