SlideShare a Scribd company logo
1 of 37
資料結構與演算法
期末專案
黃郁清 賴雲柔 張永霖 賴宇安 劉子瑄 唐耕 林敬傑
04151317 04170145 03152138 04121256 04170241 06811019 02155134
Outline
 比賽介紹
 程式碼解析
 結果討論
 比賽成績
 延伸與檢討
1. 比賽介紹
WSDM
KKBox's Churn Prediction Challenge
The criteria of "churn" is no new valid service subscription
within 30 days after the current membership expires
會員到期後,30日之內是否續訂 ?
2. 程式碼解析
Import library
Dataset
◈ train_v2.csv
◈ sample_submission_v2.csv
◈ member_v3.csv
◈ transaction_v2.csv
◈ user_logs_v2.csv
Explore data set
◈ overview of the data sets
Explore data set
◈ overview of the data sets
Merge data set
◈ 合併 members, transactions, user_log
Data feature
Data analysis
Observe missing values
Unique value
3. 結果討論
Individual feature
visualizations
Target variable – is_churn
churn
renewal
The vast majority of users didn’t churn
actual_amount_paid
◈ print(train['actual_amount_paid'].describe())
◈ count 970960.000000
◈ mean -20.645493
◈ std 94.903421
◈ min -127.000000
◈ 25% -107.000000
◈ 50% -76.000000
◈ 75% 99.000000
◈ max 127.000000
◈ Name: actual_amount_paid, dtype: float64
◈ fig,ax = plt.subplots(1,2,figsize=(16,8))
◈ ax1,ax2=ax.flatten()
◈ sns.set_style('ticks')
◈ sns.distplot(train['actual_amount_paid'].fillna(train['actual
_amount_paid'].mode()[0]),bins=100,color='r',ax=ax1)
◈ plt.title('Distribution of actual amount paid')
◈ plt.show()
actual_amount_paid
actual_amount_paid
actual_amount_paid
Gender
◈ print(pd.crosstab(train['is_churn'],train['gender'
]))
gender
is_churn
female male
0 (renewal) 23227 860403
1 (churn) 2765 84565
registration_init_time
registration_init_time
Day
Year
Month
10號 9月
2015年
registration_init_time
兩兩屬性相關性分析
◈ cor = train.corr()
◈ plt.figure(figsize=(16,12))
◈ sns.heatmap(cor,cmap='Set1',annot=False)
◈ plt.xticks(rotation=45);plt.show()
Is_churn
Simple logistic regression
◈ 傳統迴歸分析:連續變數
◈ 實際上:資料不一定是連續變數(無相關性),稱為間斷變數
(discrete variable)
◈ 變數很多,但結果只有兩種情況,「是」或是「否」
◈ 這次比賽需要分析:「是否續訂」
X 傳統的線性迴歸
○ 邏輯性迴歸 (logistic regression)
Simple logistic regression
◈ 傳統迴歸係數(regression coefficient)為
「當自變數增加一個單位,依變數則會增加多少單位」
◈ Logistic regression的迴歸係數為
「當自變數增加一個單位,依變數1相對依變數0的機率會增加
幾倍」
也就是說「自變項增加一個單位,依變數有發生不續訂狀況相對
於發生續訂狀況的比值」
Simple logistic regression
◈ 在迴歸分析中如果只考慮一個自變數,稱為簡單迴歸 (Simple
Regression)
◈ 這邊使用簡單邏輯性回歸,也是只考慮一個自變數 (gender、
bd、city、registration等等)變動對於依變數is_churn 的影響。
city bd
city bd gender
gender
4. 比賽成績
大約 490th
5.檢討與討論
◈ 變數僅使用bd、gender,應使用更多元的變數
◈ 在尋找可用變數時,應採用不同種分析方法,加強
所使用變數的代表性
◈ 採用邏輯性迴歸分析的缺點
1. 無法處理大量多類的變數
2. 不能處理多種結果的問題
檢討與討論
Thanks!

More Related Content

Similar to WSDM - KK box's churn prediction challenge

腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍
George Ang
 
20131028 《網站使用者中心策略》第2部第3章導讀
20131028 《網站使用者中心策略》第2部第3章導讀20131028 《網站使用者中心策略》第2部第3章導讀
20131028 《網站使用者中心策略》第2部第3章導讀
Conrad Peng
 
1MFG.COM telonline seminar lean implementation_2011-12-29
1MFG.COM telonline seminar lean implementation_2011-12-291MFG.COM telonline seminar lean implementation_2011-12-29
1MFG.COM telonline seminar lean implementation_2011-12-29
1MFG
 
软件工程 第二章
软件工程 第二章软件工程 第二章
软件工程 第二章
浒 刘
 
Gpm light professional綠色供應鏈管理系統介紹
Gpm light professional綠色供應鏈管理系統介紹Gpm light professional綠色供應鏈管理系統介紹
Gpm light professional綠色供應鏈管理系統介紹
Manson Liou
 
软件工程 第三章
软件工程 第三章软件工程 第三章
软件工程 第三章
浒 刘
 
QM-039-何謂SPC
QM-039-何謂SPCQM-039-何謂SPC
QM-039-何謂SPC
handbook
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器
Leyi (Kamus) Zhang
 
流程优化管理培训资料
流程优化管理培训资料流程优化管理培训资料
流程优化管理培训资料
jingb
 

Similar to WSDM - KK box's churn prediction challenge (20)

腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍
 
20131028 《網站使用者中心策略》第2部第3章導讀
20131028 《網站使用者中心策略》第2部第3章導讀20131028 《網站使用者中心策略》第2部第3章導讀
20131028 《網站使用者中心策略》第2部第3章導讀
 
计算机系论文答辩
计算机系论文答辩计算机系论文答辩
计算机系论文答辩
 
20181003_能源模型如何合理地協助政策形成?以英國碳預算為例
20181003_能源模型如何合理地協助政策形成?以英國碳預算為例20181003_能源模型如何合理地協助政策形成?以英國碳預算為例
20181003_能源模型如何合理地協助政策形成?以英國碳預算為例
 
1 Dmaic D
1 Dmaic D1 Dmaic D
1 Dmaic D
 
1MFG.COM telonline seminar lean implementation_2011-12-29
1MFG.COM telonline seminar lean implementation_2011-12-291MFG.COM telonline seminar lean implementation_2011-12-29
1MFG.COM telonline seminar lean implementation_2011-12-29
 
組織效益效率量表 第三版
組織效益效率量表  第三版組織效益效率量表  第三版
組織效益效率量表 第三版
 
软件工程 第二章
软件工程 第二章软件工程 第二章
软件工程 第二章
 
電子商務資料分析 上課投影片
電子商務資料分析 上課投影片電子商務資料分析 上課投影片
電子商務資料分析 上課投影片
 
Gpm light professional綠色供應鏈管理系統介紹
Gpm light professional綠色供應鏈管理系統介紹Gpm light professional綠色供應鏈管理系統介紹
Gpm light professional綠色供應鏈管理系統介紹
 
01_智慧英文評分系統 Evaluate Student Summaries
01_智慧英文評分系統 Evaluate Student Summaries01_智慧英文評分系統 Evaluate Student Summaries
01_智慧英文評分系統 Evaluate Student Summaries
 
软件工程 第三章
软件工程 第三章软件工程 第三章
软件工程 第三章
 
網路規劃與設計
網路規劃與設計網路規劃與設計
網路規劃與設計
 
QM-039-何謂SPC
QM-039-何謂SPCQM-039-何謂SPC
QM-039-何謂SPC
 
腾讯大讲堂40 web类服务用户体验优化综述
腾讯大讲堂40 web类服务用户体验优化综述腾讯大讲堂40 web类服务用户体验优化综述
腾讯大讲堂40 web类服务用户体验优化综述
 
Cmdb intro
Cmdb intro Cmdb intro
Cmdb intro
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器
 
2014營運計劃書
2014營運計劃書2014營運計劃書
2014營運計劃書
 
流程优化管理培训资料
流程优化管理培训资料流程优化管理培训资料
流程优化管理培训资料
 
决策管理
决策管理决策管理
决策管理
 

More from YunRouLai

More from YunRouLai (7)

Chunghwa Post Big Data Competition .
Chunghwa Post Big Data Competition .Chunghwa Post Big Data Competition .
Chunghwa Post Big Data Competition .
 
Final written report of internship in Shanghai Stock Exchange.
Final written report of internship in Shanghai Stock Exchange.Final written report of internship in Shanghai Stock Exchange.
Final written report of internship in Shanghai Stock Exchange.
 
New York City Taxi Fare Prediction
New York City Taxi Fare PredictionNew York City Taxi Fare Prediction
New York City Taxi Fare Prediction
 
Quantity forecast of bus and minibus on national road no. 5
Quantity forecast of bus and minibus on national road no. 5Quantity forecast of bus and minibus on national road no. 5
Quantity forecast of bus and minibus on national road no. 5
 
Data analysis of marketing in banking industry.
Data analysis of marketing in banking industry.Data analysis of marketing in banking industry.
Data analysis of marketing in banking industry.
 
Strategy of MACD.
Strategy of MACD.Strategy of MACD.
Strategy of MACD.
 
Analysis of how family background have an effect on self confidence of children.
Analysis of how family background have an effect on self confidence of children.Analysis of how family background have an effect on self confidence of children.
Analysis of how family background have an effect on self confidence of children.
 

WSDM - KK box's churn prediction challenge