More Related Content
Similar to 20081119 sql server_2008_an_overview_of_key_data_mining_capabilities_webcast
Similar to 20081119 sql server_2008_an_overview_of_key_data_mining_capabilities_webcast (20)
20081119 sql server_2008_an_overview_of_key_data_mining_capabilities_webcast
- 1. SQL Server 2008 資料採礦:
資料採礦 An Overview of Key Data Mining
Capabilities
貝建德 max@asiaminer.com.tw
AsiaMiner Senior Consultant
- 4. SSAS Data Mining 2008 全新功能
• 演算法
新增 ARIMA 時間序列演算法
• 採礦結構
定義訓練組與測試組
設定區隔模型
• 模型驗證
交叉驗證 (Cross-validation)
• Office 2007 資料採礦增益集
- 7. 時間序列演算法
• SQL Server 2005 : ARTXP
擅長短期數 變動預測值
• SQL Server 2008 : ARIMA
擅長長期趨勢預測
提供 ARTXP+ARIMA 混合模式 (PREDICTION_SMOOTHING)
- 12. 如何 生測試集產
• SSAS 2005 :利用 SSIS 的「百分比取樣」以及「資
料列取樣」節點自行抽樣
• SSAS 2008 :採礦結構中利用測試資料百分比參數
進行取樣
- 15. 模型驗證
• 驗證模式
效度
• 增益圖 與 收益圖
• 散 圖佈
• 分類矩陣
信度
• 交叉驗證 (Cross-validation) (SQL 2008
Enterprise Edition)
- 16. 交叉驗證
• 設定樣本折疊數 (fold)
• 各樣本折疊產生相近評估數字,表示模型信度高
• 5-fold cross-validation
1,2,3,4 建模, 5 驗證
2,3,4,5 建模, 1 驗證
1,3,4,5 建模, 2 驗證
1,2,4,5 建模, 3 驗證
1,2,3,5 建模, 4 驗證
- 17. Office 2007 Data Mining Add-ins
• 將 Office 作為資料採礦使用者端工具
• Office 2007 Data Mining Add-ins
Office Excel 2007 資料表分析工具
Office Excel 2007 資料採礦用戶端
Visio 2007 資料採礦流程範本
- 18. Office Excel 2007 資料表分析工具
• 分析關鍵影響因數 (Analyze Key
Influencers)
• 偵測類別目錄 (Detect Category)
• 根據範例填滿 (Fill from Example)
• 預測 (Forecast)
• 反白顯示例外狀況 (Highlight Exceptions)
• 狀況分析 (Scenario Analysis)
- 19. Office Excel 2007 資料表分析工具
• SQL Server 2008 中新增
購物籃分析 (Basket Analysis )
預測計算器 (Predict Calculator)
- 27. 示範 驟步
• 建立資料來源
• 建立資料來源檢視
• 新增採礦結構
• 選擇演算法
• 選擇案例 , 巢狀資料表
• 選擇輸入輸出變數
• 修改資料型別
• 分割訓練組與測試組資料集
• 命名
• 部署與處理
• 檢視模型
- 30. 益圖增 (Lift Chart)
• 根據機率將名單由
高購買可能至低排
序
• 軸為名單百分橫
比
• 縱軸為累積購買人
數占全體購買人數
之百分比
• 45 度斜直線代表
隨機 態狀
根據前 40% 名單進行銷售
就有總體 80% 之銷售效果
- 31. Lift Chart
• 能 透過比較多個模型的夠 Lift Chart 來找
出最佳模型
• 在預算有限時, Lift Chart 能 告訴我們夠
名單執行的效果
- 32. Classification Matrix
3R (Response Rate, Recall, Range Reduce)
• 回應率 (Response Rate) ↑
-- 稀有事件出現的比率
• 反查 (Recall) ↑
-- 預測稀有事件時,遺漏稀有事件的狀況
• 名單縮減 (Range Reduce) ↓
-- 將稀有事件範圍縮小的程度
- 33. 從分類矩陣看起…
• 軸為預測結果,縱軸為實際結果橫
• 原始購買回應率為 (6961+2171)/
(6961+2497+2171+6855)=49.4%
• 經過資料採礦模型 :
回應率 =6961/(6961+2497)=73.6%
反查 = 6961/(6961+2171)=76.22%
名單縮減 = (6961+2497)/ (6961+2497+2171+6855)=51.2%
Editor's Notes
- SQL 2005 畫面