SlideShare a Scribd company logo
1 of 39
大 堂腾 讯 讲
第五十九期
研 管理部发
大 堂主 :讲 页 http://km.oa.com/class
与 互 :讲师 动 http://km.oa.com/group/class
数据 含商机, 掘决 千里蕴 挖 胜
研究院 数据分析研究室腾讯
SimonJiang / 江宇闻
2009-02-24
Agenda
数据 掘是什么?挖1
模型 + 算法2
数据 掘 践分享挖 实3
心得与总结4
从 帷幄到决 千里…运筹 胜
舌 群儒战 草船借箭
巧借东风 火 赤壁烧
赤
壁
古
怀
苏
轼
……
羽
扇
巾
纶
笑
谈
间
灰
烟
樯
橹
飞
灭
......
日月之行,察天地之观 变
风
雷
电
雨
云 云多会下雨
刮 会下雨风
下雨会闪电
会打雷闪电
……
成它 ???换 呢
数据爆炸的 代时
Data Mining, circa 1963
IBM 7090 600 cases
“Machine storage limitations
restricted the total number of
variables which could be
considered at one time to 25.”
“Machine storage limitations
restricted the total number of
variables which could be
considered at one time to 25.”
数据 掘是……挖
Data
Information
Knowledge
Wisdom
 To find / discover / extract / dredge / harvest 、、、
 Interesting / novel / useful / implicit / actable / meaningful 、、、
 Information / knowledge / patterns / trends / rules / anomalies 、、、
 In massive data / large data set / large database / data warehouse 、、、
Data + context
Information + rules
Knowledge + experience
多学科的融合
Databases
Statistics
Pattern
Recognition
KDD
Machine
Learning AI
Neurocomputing
Data Mining
Agenda
数据 掘是什么?挖1
模型 + 算法2
数据 掘 践分享挖 实3
心得与总结4
几个基本概念
 模型( Model ) vs 模式( Pattern )
 数据 掘的根本目的就是把 本数据中 含的 泛化挖 样 隐 结构 ( Generalize )
到 体总 ( Population )上去
 模型: 数据集的一 全局性的整体特征的描述或概括,适用于数据空对 种
中的所有点,例如聚类分析间
 模式: 数据集的一 局部性的有限特征的描述或概括,适用于数据空对 种
的一个子集,例如 分析间 关联
 算法( Algorithm ):一个定 完 (义 备 well-defined )的 程,它过
以数据作 入并 生模型或模式形式的 出为输 产 输
 描述型 掘(挖 Descriptive ) vs 型 掘(预测 挖 Predictive )
 描述型 掘: 数据 行概括,以方便的形式呈 数据的重要特征挖 对 进 现
 型 掘:根据 察到的 象特征 来 它的其他特征预测 挖 观 对 值 预测 值
 描述型 掘可以是目的,也可以是手段挖
数据 掘是一个 程挖 过
- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)
数据 掘方法挖 论
• CRISP_DM ( Cross Industry
Standard Process for DM )
– 1998 年,由
NCR 、 Clementine 、 OHRA
和 Daimler-Benz 的 合 目联 项
提出组
• SEMMA
– SAS 公司提出的方法
– Sample, Explore, Modify,
Model, Assess
• 在 略上使用战 Crisp_DM 方法
,在 上 用论 战术 应 SEMMA 方
法论
工欲善其事必先利其器
 数据清洗
 填充缺失值 , 修均噪声数据 , 或 除孤立点识别 删 , 并解决数据不一致问
题
 主要分析方法:分箱( Binning )、聚类、回归
 数据集成
 多个数据 、数据方或文件的集成库
 数据变换
 范化与规 汇总
 数据 化简
 少数据量的同减 时 , 可以得到相同或相近的分析 果还 结
 主要分析方法:抽 、主成分分析样
 数据离散化
 数据 化的一部分简 , 但非常重要 ( 尤其 于数 型数据来对 值 说 )
先来玩玩数据( EDA )
 探索性数据分析( Exploratory Data Analysis, EDA )
 探索性地 看数据,概括数据集的 和 系查 结构 关
 数据集没有各 格假定对 种严
 主要任务
 数据可 化(视 a picture is worth a thousand words )
 残差分析(数据= 合拟 + 残差)
 数据的重新表 (什么 的尺度- 数抑或平方根-会 化分析)达 样 对 简
 方法的耐抗性( 数据局部不良的不敏感性,如中位数耐抗甚于均对
)值
 常 方法见
 量,如均 、方差、根方差、 方差、峰度、偏度、相 系数等统计 值 协 关
 ,如 、直方 、散点 、箱尾 等统计图 饼图 图 图 图
 模型,如聚类
数据 掘挖 = 模型 + 算法
分类预测分类预测
关联规则关联规则
孤立点探测孤立点探测
聚类聚类
Logistic RegressionLogistic Regression
决策树决策树
神 网经 络神 网经 络
K-MeansK-Means
K-ModeK-Mode
SOMSOM (自 )组织图(自 )组织图
AprioriApriori
FP-GrowthFP-Growth
基于统计基于统计
基于距离基于距离
基于偏差基于偏差
你使用 信用卡 ?过 吗
 卡 ?应该发给谁
 些持卡人会 欠?哪 拖
 些 欠的客 会 款?哪 拖 户 还
影响
合资产组
( Portfolio )
1 、根据 史, 将来历 预测
2 、目 是一个分类 量标 变
3 、 果是一个 意 下的概率预测结 统计 义
1 、 些人可以 卡, 度是多少。哪 发 额
2 、持卡人 欠的概率是多少拖
3 、 催收该对谁
分类 程过
NAME RANK YEARS TENURED
Mike Assistant Prof 3 no
Mary Assistant Prof 7 yes
Bill Professor 2 yes
Jim Associate Prof 7 yes
Dave Assistant Prof 6 no
Anne Associate Prof 3 no
训练集 分类学习
训练集
NAME RANK YEARS TENURED
Jef Professor 4 ?
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
Jef is YES!
分类器
NAME RANK YEARS TENURED
Tom Assistant Prof 2 no
Merlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes
物以类聚,人以群分
人 地 取 分 度为 选 细 维
– 客 价户 值
– 地域
– 活 程度跃
– ……
度 的 生维 灾难 发
– 度增维 长
– 分数目指数增细 长
– 人 能 理有限脑仅 处
的 度维市场
聚类示意
 基于欧氏距离的三 空 中的聚类维 间
 基于 心的聚类算法质
(K-Means)
)|||||(|),( 222
j
z
i
z
j
y
i
y
j
x
i
xjid −+−+−=
A1
A2
B1
x
y
z
商品 的发现 间 关联规则
buy(x,”diapers”) ⇒ buy(x,”beers”)
的量度关联规则
 支持度: Support(A=>B)=#AB/#N ,表示 A 和 B 同时出现的概
率
 期望可信度: Support(A)=#A/#N ,表示 A 出现的概率
 置信度: Confidence(A=>B)=Support(A=>B)/Support(B)
 改善度: Lift(A=>B)=Confidence(A=>B)/Support(B)
名称 描述 公式
支持度 X 、 Y 同 出 的 率时 现 频 P(X∩Y)
期望可信度 Y 出 的 率现 频 P(Y)
置信度 X 出 的前提下,现 Y 出 的现 频
率
P(Y|X)
改善度 置信度 期望可信度的比对 值 P(Y|X)/P(Y)
的度量关联规则
 具有最小置信度和支持度的全发现
部规则 X ^ Y ⇒ Z
 支持度 (support), s, 事 中包含务
{X & Y & Z} 的概率
 置信度 (confidence), c, 事 中包务
含 {X & Y} 的条件下 , 包含 Z 的条
件概率
Transaction ID Items Bought
2000 A,B,C
1000 A,C
4000 A,D
5000 B,E,F
 令最小支持度为 50%, 最小置信度为
50%, 有则
 A ⇒ C (50%, 66.6%)
 C ⇒ A (50%, 100%)
顾客购买尿布
顾客购买两者
顾客购买啤酒
从算法到 用应
数据 掘厂商挖
掘和 分析平台挖 统计
–SAS EM
–SPSS
Clementine
–S+Miner
–Statistic Data
Miner
与数据 集成 掘平台库 挖
–IBM IM
–Oracle
–NCR Teradata
Miner
–SQL 2005 DM
行 用及解决方案业运
–Unica
–KXEN
–HNC
Agenda
数据 掘是什么?挖1
模型 + 算法2
数据 掘 践分享挖 实3
心得与总结4
看看 QQ 的流失数据
流失率 2007 年 3
月
2007 年 4
月
2007 年 5
月
2007 年 6
月
当月活 数跃总帐户 253,668,411 255,749,736 264,006,894 269,060,000
当月流失老 数帐户 6,572,087 6,006,582 5,466,807 8,217,569
当月老 流失率帐户 2.59% 2.35% 2.07% 3.05%
个月每 500~1000 万的老用 流失户
,一年老用 流失接近户 1 亿 , 实际
自然人流失状况 然没有虽 这么严
重,但是仍然是一个 人的数据。惊
客 流失是户 每
个行 天都业每
在面 的对 问题1 、建立流失 模型,回答预测
客 是否要流失,何 流失的户 时
问题
2 、通 模型建立客 流过预测 户
失管理机制,更 有效地管理为
流失,而不是去防止流失
一切从目 出标 发
目 量标变 :即需要根据 需求 定模型业务 确
需要 的 象,在预测 对 QQ 客 流失模型中户
即是在 上 “流失”的定 。业务 对 义
默客 数在沉 户 4
月后区域 定稳
模型选择连续
沉默 2 个月作
为流失的定义
目 量的定 :标变 义
Good :在表 窗口 个月有登 的客现 连续两 陆 户
Bad: 在表 窗口 个月都没有登 的客现 连续两 陆 户
Intermediate: 在表 窗口其中一个月有登 的客现 陆 户
打 用 的窗口开观测 户
本训练样  本测试样
察窗口观 : 2007 年 1 月— 2007 年 3 月
表 窗口现 : 2007 年 5 月— 2007 年 6 月
Time Lag: 2007 年 4 月
交叉校 本验样
察窗口观 : 2007 年 2 月— 2007 年 4 月
表 窗口现 : 2007 年 6 月— 2007 年 7 月
Time Lag: 2007 年 5 月
观察窗口 表现窗口Time Lag
MM-1M-2M-3M-4M-5 M+1 M+2 M+3
1察窗口:观 形成自 量的 段。变 时间
表 窗口现 :形成因 量的 段。变 时间2
3Time Lag : 留 部 行相 操作的 段。预 给业务 门进 应 时间
1 23
化幅度特征 量 描述用 使用量上的 化幅度变 变 户 变
勾勒出用 行 的特征户 为
基本属性 量 描述用 的基本属性变 户
品使用行 特征 描述用 使用 品的情况产 为 户 产
消息 使用行 特征 描述用 使用消息 的情况业务 为 户 业务
音 使用行 特征 描述用 使用音 的情况频业务 为 户 频业务
使用行 特征 描述用 使用 的情况视频业务 为 户 视频业务
客 在 的行 特征 从在 ,登 次数,登 率等角度研究用 的使用行户 线 为 线时长 陆 陆频 户 为
属地 化的行 特征 描述用 在某一 周期内登 所在地的 化情况归 变 为 户 时间 陆 变
中 量间变
比例特征 量 描述用 使用占比变 户业务
基 量础变 量描述变
行 特征 量 描述用 的使用行 化为趋势 变 户 为变 趋势
量描述变
黄沙吹尽始到金
基 量和中 量数目础变 间变 约为 224 个
量 后的 量数目经过变 变换 变 约为 1700 个
量变 筛选
使用 Logistic 回归的 Stepwise 方法进行下一步拟合
方 量卡 统计
Chi Square
信息价值
Information Value
信息 益增
Gain Index
量回单变 归
偏相 分析关
Partial Correlation
Lift 曲线
训练样本Li f t 图
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8 9
十分位
Lift值
Li f t
十分位 本数量样 Lift
0 226,729 5.17
1 226,729 2.27
2 226,728 1.03
3 226,730 0.55
4 226,729 0.35
5 226,729 0.25
6 226,730 0.15
7 226,729 0.11
8 226,729 0.07
9 226,730 0.05
Total 2,267,293 1
ROC 曲线
训练样本的ROC曲线
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
十分位
实际流失占比
>50%
>75%
建立 的 流程闭环 业务
流失客 分析户
数据 掘挖
数据分析
数据采集 /ETL
有流程 估现 评
和 挽留行计划 设计 动
行挽留行执 动
估挽留 果评 结
整 用流程调 应
Agenda
数据 掘是什么?挖1
模型 + 算法2
数据 掘 践分享挖 实3
心得与总结4
几点心得
施数据 掘是一个 略性 措实 挖 战 举
Business First, Technique Second
数据 掘不是万能的,没有它也不是万万不能挖
数据 掘是一个循 探索的 程挖 环 过
参考文献
网 源络资
 www.dwway.com
 www.dmresearch.net
 www.dmreview.com
 www.datawarehouse.com
 www.kdnuggets.com
Tecent Research
Question &
Answer ?
系我联 们
RTX : simonjiang TEL :
7999
RTX : florayi TEL :
8889
RTX : jeavinqiu TEL :
5909
RTX : neilliao TEL :
Thank you !!

More Related Content

Similar to 腾讯大讲堂59 数据蕴含商机,挖掘决胜千里

教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521Beckett Hsieh
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘mysqlops
 
人工智慧05_k個最近鄰居(醫療旅遊)
人工智慧05_k個最近鄰居(醫療旅遊)人工智慧05_k個最近鄰居(醫療旅遊)
人工智慧05_k個最近鄰居(醫療旅遊)Fuzhou University
 
《2018台灣成長駭客年會》林思吾:從人工智慧出發的電商行銷自動化
《2018台灣成長駭客年會》林思吾:從人工智慧出發的電商行銷自動化《2018台灣成長駭客年會》林思吾:從人工智慧出發的電商行銷自動化
《2018台灣成長駭客年會》林思吾:從人工智慧出發的電商行銷自動化awoo Bros. Internet, Inc.
 
Fast flux domain detection
Fast flux domain detectionFast flux domain detection
Fast flux domain detectionNi Zhiqiang
 
Sybase IQ 15
Sybase IQ 15Sybase IQ 15
Sybase IQ 15focusbi
 
欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案hpeter2002
 
电信行业精确营销分析体系
电信行业精确营销分析体系电信行业精确营销分析体系
电信行业精确营销分析体系happyscry
 
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰台灣資料科學年會
 
資料分析的前奏曲 談資料收集的挑戰
資料分析的前奏曲   談資料收集的挑戰資料分析的前奏曲   談資料收集的挑戰
資料分析的前奏曲 談資料收集的挑戰Shih-En Chou
 
事件媒合平台企劃書
事件媒合平台企劃書事件媒合平台企劃書
事件媒合平台企劃書Norika
 
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林Shaoning Pan
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田)
Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田) Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田)
Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田) WooKong
 
PPT设计形象化
PPT设计形象化PPT设计形象化
PPT设计形象化CaoQingpeng
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 

Similar to 腾讯大讲堂59 数据蕴含商机,挖掘决胜千里 (20)

Data Mining
Data MiningData Mining
Data Mining
 
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘
 
人工智慧05_k個最近鄰居(醫療旅遊)
人工智慧05_k個最近鄰居(醫療旅遊)人工智慧05_k個最近鄰居(醫療旅遊)
人工智慧05_k個最近鄰居(醫療旅遊)
 
《2018台灣成長駭客年會》林思吾:從人工智慧出發的電商行銷自動化
《2018台灣成長駭客年會》林思吾:從人工智慧出發的電商行銷自動化《2018台灣成長駭客年會》林思吾:從人工智慧出發的電商行銷自動化
《2018台灣成長駭客年會》林思吾:從人工智慧出發的電商行銷自動化
 
Fast flux domain detection
Fast flux domain detectionFast flux domain detection
Fast flux domain detection
 
Sybase IQ 15
Sybase IQ 15Sybase IQ 15
Sybase IQ 15
 
欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案
 
电信行业精确营销分析体系
电信行业精确营销分析体系电信行业精确营销分析体系
电信行业精确营销分析体系
 
Zhong An Insurance
Zhong An Insurance Zhong An Insurance
Zhong An Insurance
 
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰周世恩/資料分析前的奏曲 : 談資料收集的挑戰
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
 
資料分析的前奏曲 談資料收集的挑戰
資料分析的前奏曲   談資料收集的挑戰資料分析的前奏曲   談資料收集的挑戰
資料分析的前奏曲 談資料收集的挑戰
 
事件媒合平台企劃書
事件媒合平台企劃書事件媒合平台企劃書
事件媒合平台企劃書
 
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田)
Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田) Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田)
Don’T Make Me Think—Ppt设计中的形象化表达 田士庆(小田)
 
PPT设计形象化
PPT设计形象化PPT设计形象化
PPT设计形象化
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
About grow up
About grow upAbout grow up
About grow up
 

More from George Ang

Wrapper induction construct wrappers automatically to extract information f...
Wrapper induction   construct wrappers automatically to extract information f...Wrapper induction   construct wrappers automatically to extract information f...
Wrapper induction construct wrappers automatically to extract information f...George Ang
 
Opinion mining and summarization
Opinion mining and summarizationOpinion mining and summarization
Opinion mining and summarizationGeorge Ang
 
Huffman coding
Huffman codingHuffman coding
Huffman codingGeorge Ang
 
Do not crawl in the dust 
different ur ls similar text
Do not crawl in the dust 
different ur ls similar textDo not crawl in the dust 
different ur ls similar text
Do not crawl in the dust 
different ur ls similar textGeorge Ang
 
大规模数据处理的那些事儿
大规模数据处理的那些事儿大规模数据处理的那些事儿
大规模数据处理的那些事儿George Ang
 
腾讯大讲堂02 休闲游戏发展的文化趋势
腾讯大讲堂02 休闲游戏发展的文化趋势腾讯大讲堂02 休闲游戏发展的文化趋势
腾讯大讲堂02 休闲游戏发展的文化趋势George Ang
 
腾讯大讲堂03 qq邮箱成长历程
腾讯大讲堂03 qq邮箱成长历程腾讯大讲堂03 qq邮箱成长历程
腾讯大讲堂03 qq邮箱成长历程George Ang
 
腾讯大讲堂04 im qq
腾讯大讲堂04 im qq腾讯大讲堂04 im qq
腾讯大讲堂04 im qqGeorge Ang
 
腾讯大讲堂05 面向对象应对之道
腾讯大讲堂05 面向对象应对之道腾讯大讲堂05 面向对象应对之道
腾讯大讲堂05 面向对象应对之道George Ang
 
腾讯大讲堂06 qq邮箱性能优化
腾讯大讲堂06 qq邮箱性能优化腾讯大讲堂06 qq邮箱性能优化
腾讯大讲堂06 qq邮箱性能优化George Ang
 
腾讯大讲堂07 qq空间
腾讯大讲堂07 qq空间腾讯大讲堂07 qq空间
腾讯大讲堂07 qq空间George Ang
 
腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨George Ang
 
腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站George Ang
 
腾讯大讲堂01 移动qq产品发展历程
腾讯大讲堂01 移动qq产品发展历程腾讯大讲堂01 移动qq产品发展历程
腾讯大讲堂01 移动qq产品发展历程George Ang
 
腾讯大讲堂10 customer engagement
腾讯大讲堂10 customer engagement腾讯大讲堂10 customer engagement
腾讯大讲堂10 customer engagementGeorge Ang
 
腾讯大讲堂11 拍拍ce工作经验分享
腾讯大讲堂11 拍拍ce工作经验分享腾讯大讲堂11 拍拍ce工作经验分享
腾讯大讲堂11 拍拍ce工作经验分享George Ang
 
腾讯大讲堂14 qq直播(qq live) 介绍
腾讯大讲堂14 qq直播(qq live) 介绍腾讯大讲堂14 qq直播(qq live) 介绍
腾讯大讲堂14 qq直播(qq live) 介绍George Ang
 
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍George Ang
 
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍George Ang
 
腾讯大讲堂16 产品经理工作心得分享
腾讯大讲堂16 产品经理工作心得分享腾讯大讲堂16 产品经理工作心得分享
腾讯大讲堂16 产品经理工作心得分享George Ang
 

More from George Ang (20)

Wrapper induction construct wrappers automatically to extract information f...
Wrapper induction   construct wrappers automatically to extract information f...Wrapper induction   construct wrappers automatically to extract information f...
Wrapper induction construct wrappers automatically to extract information f...
 
Opinion mining and summarization
Opinion mining and summarizationOpinion mining and summarization
Opinion mining and summarization
 
Huffman coding
Huffman codingHuffman coding
Huffman coding
 
Do not crawl in the dust 
different ur ls similar text
Do not crawl in the dust 
different ur ls similar textDo not crawl in the dust 
different ur ls similar text
Do not crawl in the dust 
different ur ls similar text
 
大规模数据处理的那些事儿
大规模数据处理的那些事儿大规模数据处理的那些事儿
大规模数据处理的那些事儿
 
腾讯大讲堂02 休闲游戏发展的文化趋势
腾讯大讲堂02 休闲游戏发展的文化趋势腾讯大讲堂02 休闲游戏发展的文化趋势
腾讯大讲堂02 休闲游戏发展的文化趋势
 
腾讯大讲堂03 qq邮箱成长历程
腾讯大讲堂03 qq邮箱成长历程腾讯大讲堂03 qq邮箱成长历程
腾讯大讲堂03 qq邮箱成长历程
 
腾讯大讲堂04 im qq
腾讯大讲堂04 im qq腾讯大讲堂04 im qq
腾讯大讲堂04 im qq
 
腾讯大讲堂05 面向对象应对之道
腾讯大讲堂05 面向对象应对之道腾讯大讲堂05 面向对象应对之道
腾讯大讲堂05 面向对象应对之道
 
腾讯大讲堂06 qq邮箱性能优化
腾讯大讲堂06 qq邮箱性能优化腾讯大讲堂06 qq邮箱性能优化
腾讯大讲堂06 qq邮箱性能优化
 
腾讯大讲堂07 qq空间
腾讯大讲堂07 qq空间腾讯大讲堂07 qq空间
腾讯大讲堂07 qq空间
 
腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨
 
腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站
 
腾讯大讲堂01 移动qq产品发展历程
腾讯大讲堂01 移动qq产品发展历程腾讯大讲堂01 移动qq产品发展历程
腾讯大讲堂01 移动qq产品发展历程
 
腾讯大讲堂10 customer engagement
腾讯大讲堂10 customer engagement腾讯大讲堂10 customer engagement
腾讯大讲堂10 customer engagement
 
腾讯大讲堂11 拍拍ce工作经验分享
腾讯大讲堂11 拍拍ce工作经验分享腾讯大讲堂11 拍拍ce工作经验分享
腾讯大讲堂11 拍拍ce工作经验分享
 
腾讯大讲堂14 qq直播(qq live) 介绍
腾讯大讲堂14 qq直播(qq live) 介绍腾讯大讲堂14 qq直播(qq live) 介绍
腾讯大讲堂14 qq直播(qq live) 介绍
 
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
 
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
腾讯大讲堂15 市场研究及数据分析理念及方法概要介绍
 
腾讯大讲堂16 产品经理工作心得分享
腾讯大讲堂16 产品经理工作心得分享腾讯大讲堂16 产品经理工作心得分享
腾讯大讲堂16 产品经理工作心得分享
 

腾讯大讲堂59 数据蕴含商机,挖掘决胜千里

  • 1. 大 堂腾 讯 讲 第五十九期 研 管理部发 大 堂主 :讲 页 http://km.oa.com/class 与 互 :讲师 动 http://km.oa.com/group/class
  • 2. 数据 含商机, 掘决 千里蕴 挖 胜 研究院 数据分析研究室腾讯 SimonJiang / 江宇闻 2009-02-24
  • 3. Agenda 数据 掘是什么?挖1 模型 + 算法2 数据 掘 践分享挖 实3 心得与总结4
  • 4. 从 帷幄到决 千里…运筹 胜 舌 群儒战 草船借箭 巧借东风 火 赤壁烧 赤 壁 古 怀 苏 轼 …… 羽 扇 巾 纶 笑 谈 间 灰 烟 樯 橹 飞 灭 ......
  • 5. 日月之行,察天地之观 变 风 雷 电 雨 云 云多会下雨 刮 会下雨风 下雨会闪电 会打雷闪电 …… 成它 ???换 呢
  • 6. 数据爆炸的 代时 Data Mining, circa 1963 IBM 7090 600 cases “Machine storage limitations restricted the total number of variables which could be considered at one time to 25.” “Machine storage limitations restricted the total number of variables which could be considered at one time to 25.”
  • 7. 数据 掘是……挖 Data Information Knowledge Wisdom  To find / discover / extract / dredge / harvest 、、、  Interesting / novel / useful / implicit / actable / meaningful 、、、  Information / knowledge / patterns / trends / rules / anomalies 、、、  In massive data / large data set / large database / data warehouse 、、、 Data + context Information + rules Knowledge + experience
  • 9. Agenda 数据 掘是什么?挖1 模型 + 算法2 数据 掘 践分享挖 实3 心得与总结4
  • 10. 几个基本概念  模型( Model ) vs 模式( Pattern )  数据 掘的根本目的就是把 本数据中 含的 泛化挖 样 隐 结构 ( Generalize ) 到 体总 ( Population )上去  模型: 数据集的一 全局性的整体特征的描述或概括,适用于数据空对 种 中的所有点,例如聚类分析间  模式: 数据集的一 局部性的有限特征的描述或概括,适用于数据空对 种 的一个子集,例如 分析间 关联  算法( Algorithm ):一个定 完 (义 备 well-defined )的 程,它过 以数据作 入并 生模型或模式形式的 出为输 产 输  描述型 掘(挖 Descriptive ) vs 型 掘(预测 挖 Predictive )  描述型 掘: 数据 行概括,以方便的形式呈 数据的重要特征挖 对 进 现  型 掘:根据 察到的 象特征 来 它的其他特征预测 挖 观 对 值 预测 值  描述型 掘可以是目的,也可以是手段挖
  • 11. 数据 掘是一个 程挖 过 - “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)
  • 12. 数据 掘方法挖 论 • CRISP_DM ( Cross Industry Standard Process for DM ) – 1998 年,由 NCR 、 Clementine 、 OHRA 和 Daimler-Benz 的 合 目联 项 提出组 • SEMMA – SAS 公司提出的方法 – Sample, Explore, Modify, Model, Assess • 在 略上使用战 Crisp_DM 方法 ,在 上 用论 战术 应 SEMMA 方 法论
  • 13. 工欲善其事必先利其器  数据清洗  填充缺失值 , 修均噪声数据 , 或 除孤立点识别 删 , 并解决数据不一致问 题  主要分析方法:分箱( Binning )、聚类、回归  数据集成  多个数据 、数据方或文件的集成库  数据变换  范化与规 汇总  数据 化简  少数据量的同减 时 , 可以得到相同或相近的分析 果还 结  主要分析方法:抽 、主成分分析样  数据离散化  数据 化的一部分简 , 但非常重要 ( 尤其 于数 型数据来对 值 说 )
  • 14. 先来玩玩数据( EDA )  探索性数据分析( Exploratory Data Analysis, EDA )  探索性地 看数据,概括数据集的 和 系查 结构 关  数据集没有各 格假定对 种严  主要任务  数据可 化(视 a picture is worth a thousand words )  残差分析(数据= 合拟 + 残差)  数据的重新表 (什么 的尺度- 数抑或平方根-会 化分析)达 样 对 简  方法的耐抗性( 数据局部不良的不敏感性,如中位数耐抗甚于均对 )值  常 方法见  量,如均 、方差、根方差、 方差、峰度、偏度、相 系数等统计 值 协 关  ,如 、直方 、散点 、箱尾 等统计图 饼图 图 图 图  模型,如聚类
  • 15. 数据 掘挖 = 模型 + 算法 分类预测分类预测 关联规则关联规则 孤立点探测孤立点探测 聚类聚类 Logistic RegressionLogistic Regression 决策树决策树 神 网经 络神 网经 络 K-MeansK-Means K-ModeK-Mode SOMSOM (自 )组织图(自 )组织图 AprioriApriori FP-GrowthFP-Growth 基于统计基于统计 基于距离基于距离 基于偏差基于偏差
  • 16. 你使用 信用卡 ?过 吗  卡 ?应该发给谁  些持卡人会 欠?哪 拖  些 欠的客 会 款?哪 拖 户 还 影响 合资产组 ( Portfolio ) 1 、根据 史, 将来历 预测 2 、目 是一个分类 量标 变 3 、 果是一个 意 下的概率预测结 统计 义 1 、 些人可以 卡, 度是多少。哪 发 额 2 、持卡人 欠的概率是多少拖 3 、 催收该对谁
  • 17. 分类 程过 NAME RANK YEARS TENURED Mike Assistant Prof 3 no Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 no Anne Associate Prof 3 no 训练集 分类学习 训练集 NAME RANK YEARS TENURED Jef Professor 4 ? IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ Jef is YES! 分类器 NAME RANK YEARS TENURED Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes
  • 18. 物以类聚,人以群分 人 地 取 分 度为 选 细 维 – 客 价户 值 – 地域 – 活 程度跃 – …… 度 的 生维 灾难 发 – 度增维 长 – 分数目指数增细 长 – 人 能 理有限脑仅 处 的 度维市场
  • 19. 聚类示意  基于欧氏距离的三 空 中的聚类维 间  基于 心的聚类算法质 (K-Means) )|||||(|),( 222 j z i z j y i y j x i xjid −+−+−= A1 A2 B1 x y z
  • 20. 商品 的发现 间 关联规则 buy(x,”diapers”) ⇒ buy(x,”beers”)
  • 21. 的量度关联规则  支持度: Support(A=>B)=#AB/#N ,表示 A 和 B 同时出现的概 率  期望可信度: Support(A)=#A/#N ,表示 A 出现的概率  置信度: Confidence(A=>B)=Support(A=>B)/Support(B)  改善度: Lift(A=>B)=Confidence(A=>B)/Support(B) 名称 描述 公式 支持度 X 、 Y 同 出 的 率时 现 频 P(X∩Y) 期望可信度 Y 出 的 率现 频 P(Y) 置信度 X 出 的前提下,现 Y 出 的现 频 率 P(Y|X) 改善度 置信度 期望可信度的比对 值 P(Y|X)/P(Y)
  • 22. 的度量关联规则  具有最小置信度和支持度的全发现 部规则 X ^ Y ⇒ Z  支持度 (support), s, 事 中包含务 {X & Y & Z} 的概率  置信度 (confidence), c, 事 中包务 含 {X & Y} 的条件下 , 包含 Z 的条 件概率 Transaction ID Items Bought 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F  令最小支持度为 50%, 最小置信度为 50%, 有则  A ⇒ C (50%, 66.6%)  C ⇒ A (50%, 100%) 顾客购买尿布 顾客购买两者 顾客购买啤酒
  • 24. 数据 掘厂商挖 掘和 分析平台挖 统计 –SAS EM –SPSS Clementine –S+Miner –Statistic Data Miner 与数据 集成 掘平台库 挖 –IBM IM –Oracle –NCR Teradata Miner –SQL 2005 DM 行 用及解决方案业运 –Unica –KXEN –HNC
  • 25. Agenda 数据 掘是什么?挖1 模型 + 算法2 数据 掘 践分享挖 实3 心得与总结4
  • 26. 看看 QQ 的流失数据 流失率 2007 年 3 月 2007 年 4 月 2007 年 5 月 2007 年 6 月 当月活 数跃总帐户 253,668,411 255,749,736 264,006,894 269,060,000 当月流失老 数帐户 6,572,087 6,006,582 5,466,807 8,217,569 当月老 流失率帐户 2.59% 2.35% 2.07% 3.05% 个月每 500~1000 万的老用 流失户 ,一年老用 流失接近户 1 亿 , 实际 自然人流失状况 然没有虽 这么严 重,但是仍然是一个 人的数据。惊 客 流失是户 每 个行 天都业每 在面 的对 问题1 、建立流失 模型,回答预测 客 是否要流失,何 流失的户 时 问题 2 、通 模型建立客 流过预测 户 失管理机制,更 有效地管理为 流失,而不是去防止流失
  • 27. 一切从目 出标 发 目 量标变 :即需要根据 需求 定模型业务 确 需要 的 象,在预测 对 QQ 客 流失模型中户 即是在 上 “流失”的定 。业务 对 义 默客 数在沉 户 4 月后区域 定稳 模型选择连续 沉默 2 个月作 为流失的定义 目 量的定 :标变 义 Good :在表 窗口 个月有登 的客现 连续两 陆 户 Bad: 在表 窗口 个月都没有登 的客现 连续两 陆 户 Intermediate: 在表 窗口其中一个月有登 的客现 陆 户
  • 28. 打 用 的窗口开观测 户 本训练样 本测试样 察窗口观 : 2007 年 1 月— 2007 年 3 月 表 窗口现 : 2007 年 5 月— 2007 年 6 月 Time Lag: 2007 年 4 月 交叉校 本验样 察窗口观 : 2007 年 2 月— 2007 年 4 月 表 窗口现 : 2007 年 6 月— 2007 年 7 月 Time Lag: 2007 年 5 月 观察窗口 表现窗口Time Lag MM-1M-2M-3M-4M-5 M+1 M+2 M+3 1察窗口:观 形成自 量的 段。变 时间 表 窗口现 :形成因 量的 段。变 时间2 3Time Lag : 留 部 行相 操作的 段。预 给业务 门进 应 时间 1 23
  • 29. 化幅度特征 量 描述用 使用量上的 化幅度变 变 户 变 勾勒出用 行 的特征户 为 基本属性 量 描述用 的基本属性变 户 品使用行 特征 描述用 使用 品的情况产 为 户 产 消息 使用行 特征 描述用 使用消息 的情况业务 为 户 业务 音 使用行 特征 描述用 使用音 的情况频业务 为 户 频业务 使用行 特征 描述用 使用 的情况视频业务 为 户 视频业务 客 在 的行 特征 从在 ,登 次数,登 率等角度研究用 的使用行户 线 为 线时长 陆 陆频 户 为 属地 化的行 特征 描述用 在某一 周期内登 所在地的 化情况归 变 为 户 时间 陆 变 中 量间变 比例特征 量 描述用 使用占比变 户业务 基 量础变 量描述变 行 特征 量 描述用 的使用行 化为趋势 变 户 为变 趋势 量描述变
  • 30. 黄沙吹尽始到金 基 量和中 量数目础变 间变 约为 224 个 量 后的 量数目经过变 变换 变 约为 1700 个 量变 筛选 使用 Logistic 回归的 Stepwise 方法进行下一步拟合 方 量卡 统计 Chi Square 信息价值 Information Value 信息 益增 Gain Index 量回单变 归 偏相 分析关 Partial Correlation
  • 31. Lift 曲线 训练样本Li f t 图 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 十分位 Lift值 Li f t 十分位 本数量样 Lift 0 226,729 5.17 1 226,729 2.27 2 226,728 1.03 3 226,730 0.55 4 226,729 0.35 5 226,729 0.25 6 226,730 0.15 7 226,729 0.11 8 226,729 0.07 9 226,730 0.05 Total 2,267,293 1
  • 32. ROC 曲线 训练样本的ROC曲线 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 十分位 实际流失占比 >50% >75%
  • 33. 建立 的 流程闭环 业务 流失客 分析户 数据 掘挖 数据分析 数据采集 /ETL 有流程 估现 评 和 挽留行计划 设计 动 行挽留行执 动 估挽留 果评 结 整 用流程调 应
  • 34. Agenda 数据 掘是什么?挖1 模型 + 算法2 数据 掘 践分享挖 实3 心得与总结4
  • 35. 几点心得 施数据 掘是一个 略性 措实 挖 战 举 Business First, Technique Second 数据 掘不是万能的,没有它也不是万万不能挖 数据 掘是一个循 探索的 程挖 环 过
  • 37. 网 源络资  www.dwway.com  www.dmresearch.net  www.dmreview.com  www.datawarehouse.com  www.kdnuggets.com
  • 39. 系我联 们 RTX : simonjiang TEL : 7999 RTX : florayi TEL : 8889 RTX : jeavinqiu TEL : 5909 RTX : neilliao TEL : Thank you !!

Editor's Notes

  1. 商场如战场