SlideShare a Scribd company logo
1 of 35
SQL Server 2008 資料採礦:
資料採礦 An Overview of Key Data Mining
Capabilities
貝建德  max@asiaminer.com.tw
AsiaMiner Senior Consultant
Agenda
• SSAS Data Mining 2008 新功能介紹
• 建置『決策樹』及『貝氏機率分類』資料採礦
模型
• 檢視採礦精確度圖表
SSAS Data Mining 2008 新功能介
紹
SSAS Data Mining 2008 全新功能
• 演算法
新增 ARIMA 時間序列演算法
• 採礦結構
定義訓練組與測試組
設定區隔模型
• 模型驗證
交叉驗證 (Cross-validation)
• Office 2007 資料採礦增益集
完整與強大的演算法
時序群集時序群集
決策樹決策樹 群集群集 時間序列時間序列
關聯規則關聯規則 貝氏機率分類貝氏機率分類
類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸 線性迴歸線性迴歸
時間序列時間序列
時序群集時序群集
類神經網路類神經網路
貝氏機率分貝氏機率分
類類
羅吉斯迴歸羅吉斯迴歸
線性迴歸線性迴歸
決策樹決策樹
群集群集
關聯規則關聯規則
分
類分
類 推估推估
區隔區隔 關聯關聯
預
測預
測
完整與強大的演算法
時間序列演算法
• SQL Server 2005 : ARTXP
擅長短期數 變動預測值
• SQL Server 2008 : ARIMA
擅長長期趨勢預測
提供 ARTXP+ARIMA 混合模式 (PREDICTION_SMOOTHING)
模型穩定性挑戰
模型預測的結果
Over-fitting
使用測試資料集
TrainingTraining
TestingTesting
使用訓練資料集建立預測模型
使用測試資料集來避免模型對於訓練資
料集產生記憶效應
如何 生測試集產
• SSAS 2005 :利用 SSIS 的「百分比取樣」以及「資
料列取樣」節點自行抽樣
• SSAS 2008 :採礦結構中利用測試資料百分比參數
進行取樣
區隔模型建模策略
• 使用單一模型不一定可以獲取最大之建模成效
• 區隔模型可以專注於特定樣本,以找出更精細的
規則內容
如何設定區隔模型
• SSAS 2008 :採礦結構中利用設定模型篩選器建立
出區隔模型的資料集
模型驗證
• 驗證模式
效度
• 增益圖 與 收益圖
• 散 圖佈
• 分類矩陣
信度
• 交叉驗證 (Cross-validation) (SQL 2008
Enterprise Edition)
交叉驗證
• 設定樣本折疊數 (fold)
• 各樣本折疊產生相近評估數字,表示模型信度高
• 5-fold cross-validation
1,2,3,4 建模, 5 驗證
2,3,4,5 建模, 1 驗證
1,3,4,5 建模, 2 驗證
1,2,4,5 建模, 3 驗證
1,2,3,5 建模, 4 驗證
Office 2007 Data Mining Add-ins
• 將 Office 作為資料採礦使用者端工具
• Office 2007 Data Mining Add-ins
Office Excel 2007 資料表分析工具
Office Excel 2007 資料採礦用戶端
Visio 2007 資料採礦流程範本
Office Excel 2007 資料表分析工具
• 分析關鍵影響因數 (Analyze Key
Influencers)
• 偵測類別目錄 (Detect Category)
• 根據範例填滿 (Fill from Example)
• 預測 (Forecast)
• 反白顯示例外狀況 (Highlight Exceptions)
• 狀況分析 (Scenario Analysis)
Office Excel 2007 資料表分析工具
• SQL Server 2008 中新增
購物籃分析 (Basket Analysis )
預測計算器 (Predict Calculator)
建置『決策樹』及『貝氏機率分
類』資料採礦模型
分類
• 輸出變數為類別變數
• 可 出分類結果及可能機率產
• 流失客 預測、購買回應預測、信用評等都是典型的分類問戶
題
決策樹 (Decision Tree)
• 透過樹狀規則呈現分類
準則
• 找出最佳分岔點,使得
資料的亂度最低
• 根據每個分岔的分布來
決定預測機率
貝氏機率分類 (Naïve Bayes)
• 計算最容易的演算法 ( 條件機率 )
• 只能輸入類別變數
• 假設變數間為獨立互不影響,因此使用時須
謹慎分析變數間的相依性
離散化動作
• 將連續變數切割為類別變數
Automatic
EqualAreas
Clusters
• 可指定 DiscretizationBucketCount
以選擇切割數量
微軟決策樹演算法參數
• COMPLEXITY_PENALTY
• MINIMUM_SUPPORT
• SCORE_METHOD
• SPLIT_METHOD
二元分岔 (1), 多元分岔 (2), or 演算法自行判斷
(3).
微軟貝氏機率分類演算法參數
• MAXIMUM_STATES
• MINIMUM_DEPANDENCY_PROBABILITY
:介於 0~1 ,數 越大,模型使用變數會越值
減少
示範 驟步
• 建立資料來源
• 建立資料來源檢視
• 新增採礦結構
• 選擇演算法
• 選擇案例 , 巢狀資料表
• 選擇輸入輸出變數
• 修改資料型別
• 分割訓練組與測試組資料集
• 命名
• 部署與處理
• 檢視模型
檢視採礦精確度圖表
如何評估資料採礦模型
• 增益圖
• 分類矩陣
• 交叉驗證
益圖增 (Lift Chart)
• 根據機率將名單由
高購買可能至低排
序
• 軸為名單百分橫
比
• 縱軸為累積購買人
數占全體購買人數
之百分比
• 45 度斜直線代表
隨機 態狀
根據前 40% 名單進行銷售
就有總體 80% 之銷售效果
Lift Chart
• 能 透過比較多個模型的夠 Lift Chart 來找
出最佳模型
• 在預算有限時, Lift Chart 能 告訴我們夠
名單執行的效果
 
Classification Matrix
3R (Response Rate, Recall, Range Reduce)
• 回應率 (Response Rate) ↑
-- 稀有事件出現的比率
• 反查 (Recall) ↑
-- 預測稀有事件時,遺漏稀有事件的狀況
• 名單縮減 (Range Reduce) ↓
-- 將稀有事件範圍縮小的程度
從分類矩陣看起…
• 軸為預測結果,縱軸為實際結果橫
• 原始購買回應率為 (6961+2171)/
(6961+2497+2171+6855)=49.4%
• 經過資料採礦模型 :
回應率 =6961/(6961+2497)=73.6%
反查 = 6961/(6961+2171)=76.22%
名單縮減 = (6961+2497)/ (6961+2497+2171+6855)=51.2%
交叉驗證 (Cross-validation)
• 設定樣本折疊數 (fold)
• 各樣本折疊產生相近評估數字,表示模型信度高
Q&A

More Related Content

Similar to 20081119 sql server_2008_an_overview_of_key_data_mining_capabilities_webcast

面試AI技術大進化,加速招聘軟體工程師的全套攻略!
面試AI技術大進化,加速招聘軟體工程師的全套攻略!面試AI技術大進化,加速招聘軟體工程師的全套攻略!
面試AI技術大進化,加速招聘軟體工程師的全套攻略!Caesar Chi
 
SQL 語法入門 - SARG
SQL 語法入門 - SARGSQL 語法入門 - SARG
SQL 語法入門 - SARGStudy4TW
 
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪Beckett Hsieh
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘mysqlops
 
MySQL数据库设计、优化
MySQL数据库设计、优化MySQL数据库设计、优化
MySQL数据库设计、优化Jinrong Ye
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践medcl
 
Mysql数据库开发的三十六条军规 石展_完整
Mysql数据库开发的三十六条军规 石展_完整Mysql数据库开发的三十六条军规 石展_完整
Mysql数据库开发的三十六条军规 石展_完整Yousri Yan
 
My sql数据库开发的三十六条军规
My sql数据库开发的三十六条军规My sql数据库开发的三十六条军规
My sql数据库开发的三十六条军规isnull
 
MySQL数据库开发的三十六条军规
MySQL数据库开发的三十六条军规MySQL数据库开发的三十六条军规
MySQL数据库开发的三十六条军规mysqlops
 
新浪微博Feed服务架构
新浪微博Feed服务架构新浪微博Feed服务架构
新浪微博Feed服务架构XiaoJun Hong
 
Top100summit ibm-董国兴-系统架构优化与技术规划
Top100summit ibm-董国兴-系统架构优化与技术规划 Top100summit ibm-董国兴-系统架构优化与技术规划
Top100summit ibm-董国兴-系统架构优化与技术规划 drewz lin
 
Mysql调优
Mysql调优Mysql调优
Mysql调优ken shin
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析George Ang
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
111030 gztechparty-小路-云时代的mysql
111030 gztechparty-小路-云时代的mysql111030 gztechparty-小路-云时代的mysql
111030 gztechparty-小路-云时代的mysqlZoom Quiet
 
构建高性能MySQL系统
构建高性能MySQL系统构建高性能MySQL系统
构建高性能MySQL系统jackbillow
 
系統重構實例分享
系統重構實例分享系統重構實例分享
系統重構實例分享YC Liang
 
結構方程式SEM模型配適度的迷思與傳聞-三星統計張偉豪-201307
結構方程式SEM模型配適度的迷思與傳聞-三星統計張偉豪-201307結構方程式SEM模型配適度的迷思與傳聞-三星統計張偉豪-201307
結構方程式SEM模型配適度的迷思與傳聞-三星統計張偉豪-201307Beckett Hsieh
 

Similar to 20081119 sql server_2008_an_overview_of_key_data_mining_capabilities_webcast (20)

面試AI技術大進化,加速招聘軟體工程師的全套攻略!
面試AI技術大進化,加速招聘軟體工程師的全套攻略!面試AI技術大進化,加速招聘軟體工程師的全套攻略!
面試AI技術大進化,加速招聘軟體工程師的全套攻略!
 
SQL 語法入門 - SARG
SQL 語法入門 - SARGSQL 語法入門 - SARG
SQL 語法入門 - SARG
 
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
SmartPLS3.0偏最小平方法教材2015版-三星統計張偉豪
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘
 
MySQL数据库设计、优化
MySQL数据库设计、优化MySQL数据库设计、优化
MySQL数据库设计、优化
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践
 
Mysql数据库开发的三十六条军规 石展_完整
Mysql数据库开发的三十六条军规 石展_完整Mysql数据库开发的三十六条军规 石展_完整
Mysql数据库开发的三十六条军规 石展_完整
 
My sql数据库开发的三十六条军规
My sql数据库开发的三十六条军规My sql数据库开发的三十六条军规
My sql数据库开发的三十六条军规
 
MySQL数据库开发的三十六条军规
MySQL数据库开发的三十六条军规MySQL数据库开发的三十六条军规
MySQL数据库开发的三十六条军规
 
No sql
No sqlNo sql
No sql
 
新浪微博Feed服务架构
新浪微博Feed服务架构新浪微博Feed服务架构
新浪微博Feed服务架构
 
Top100summit ibm-董国兴-系统架构优化与技术规划
Top100summit ibm-董国兴-系统架构优化与技术规划 Top100summit ibm-董国兴-系统架构优化与技术规划
Top100summit ibm-董国兴-系统架构优化与技术规划
 
Mysql调优
Mysql调优Mysql调优
Mysql调优
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析
 
軟體架構模式
軟體架構模式軟體架構模式
軟體架構模式
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
111030 gztechparty-小路-云时代的mysql
111030 gztechparty-小路-云时代的mysql111030 gztechparty-小路-云时代的mysql
111030 gztechparty-小路-云时代的mysql
 
构建高性能MySQL系统
构建高性能MySQL系统构建高性能MySQL系统
构建高性能MySQL系统
 
系統重構實例分享
系統重構實例分享系統重構實例分享
系統重構實例分享
 
結構方程式SEM模型配適度的迷思與傳聞-三星統計張偉豪-201307
結構方程式SEM模型配適度的迷思與傳聞-三星統計張偉豪-201307結構方程式SEM模型配適度的迷思與傳聞-三星統計張偉豪-201307
結構方程式SEM模型配適度的迷思與傳聞-三星統計張偉豪-201307
 

20081119 sql server_2008_an_overview_of_key_data_mining_capabilities_webcast

Editor's Notes

  1. SQL 2005 畫面