Your SlideShare is downloading. ×
0
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
数据挖掘理论与实践
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

数据挖掘理论与实践

2,654

Published on

去年的一个slide

去年的一个slide

Published in: Technology
1 Comment
1 Like
Statistics
Notes
  • 正在学习中!
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total Views
2,654
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
1
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 数据挖掘理论与实践
  • 2. 大纲• 什么是数据挖掘?• 数据挖掘有什么用?• 数据挖掘的相关理论• 数据挖掘的相关技术• 数据挖掘的实际应用
  • 3. 什么是数据挖掘?• 从一大堆数据集里面提取隐含的,以前未 知的,有潜在应用价值信息的非平凡过程。• 多学科领域融合。
  • 4. 背景• 数据挖掘 - - data mining• 背景 – 数据 • 随着业务增长,急剧膨胀, – GB、TB、PB、EB、ZB … … • 数据足够,但无法利用,或利用率很低 • 数据孤岛、数据死角 • 数据复杂度、维度很高 • 需要使数据可见 • 数据 -》知识 -》决策 – 从每天海量的销售数据中发现商机!
  • 5. 典型案例• 电信• 移动 – BASS(业务经营分析系统)• 沃尔玛(since1980) 欺诈检测 客户关系管理 科学探索 信用等级 决策支持 趋势分析 联网审计 工程设计 市场预测 Spam检测 关联销售
  • 6. 数据挖掘的目标• 预测:从历史发现未来• 描叙:了解数据中潜在规律• 分类:划分数据• 聚类:自动聚合同类数据• 关联规则挖掘• 序列模式挖掘• 优化:最优化有限资源的使用,如空间、时间、 金钱、物质• 异常检测• 。。。
  • 7. 数据仓库没有通用的解决方案数据挖掘-数据仓库
  • 8. Knowledge Discovery & Data Mining… More theoryFocused on More Presenting , based , extraction heuristic, assist to focused on patterns exploring, analysis or testing from data learning decision hypotheses Data Machine Visualization Statistics Mining Learning Knowledge Discovery
  • 9. 数据仓库• Subject Oriented、Integrate、Non-Volatile、 Time Variant• 存储大量的、决策分析所必需的、历史的、分 散的各种数据,经过处理将这些资料和数据转 换成集中统一、随时可用的信息• 为Data Mining及BI做准备 – 统计分析、人工智能、预测、多维报表等
  • 10. 数据仓库常见架构
  • 11. OLAP• 多维数据模型: – 维度 • 维度属性 • 层级维度 • 时间维度 • …… – 度量 • 度量值 • 度量值组 – 星形、雪花型• OLAP的基本操作:• 钻取(Drill-down、Roll-up、Drill-across、Drill-through)、• 切片(Slice)• 切块(Dice)以及旋转(Pivot)
  • 12. 何谓ETL? Extraction Transformation Load平面文件、xml、关系型数据库、excel、access,etc.无法处理非结构化数据:文本、音频、视频等
  • 13. 数据仓库与传统数据库的比较• 大小 – 数据库-》数据集市-》数据仓库 • 数据仓库的大小会远远大于数据库的大小 – 历史数据 – 综合数据 – 计算数据• 结构 – 数据库:二维平面 – 数据仓库:多维立体
  • 14. 一些概念• OLTP(On-line Transaction Processing)• OLAP(On-line Analytical Processing)• ETL(Extraction-Transformation-Load)• DSS(Decision Support System)• MDM(Master Data Management)KDD (Knowledge-Discovery in Databases)
  • 15. 决策分析• 决策主题 – 决策分析模型 • 维度指标 • 事实数据
  • 16. 如何构建一个数据仓库?
  • 17. Design• 业务分析调研• 界定系统边界• 确定主题域• 概念模型设计• 模型评估• etc
  • 18. Data Collection & Availability• 数据收集• 数据整理• ETL(抽取,转换,装载)• 数据从哪来? – 数据库 – 财务报表 – Web站点 这数据也太多了,怎么办? – 销售记录 围绕一个业务主题! – 库存记录 – 账单 – ……
  • 19. Modeling• 模型的构建是一个不断优化的过程• Business、Business• Data、Data• Business & Data• Sample & Test
  • 20. Presentation& Visualization• 查询• 报表• 多维分析• 直方图、柱形图等各种可视化手段• 平均,最大,最小,方差等各种统计方法
  • 21. Analystic & Discovery• 分析• 对挖掘结果进行解释• 评估挖掘结果• 应用发现的知识
  • 22. 数据挖掘常用技术
  • 23. 统计分析• 序列统计• 概率论• 回归分析• 类别数据分析• 模糊计算理论• 基因算法
  • 24. 常用分析方法• 分类 (Classification)• 聚集(Clustering)• 关联(Association) – 简单关联、时序关联、因果关联• 估值(Estimation)• 预测(Prediction)
  • 25. • 决策树(Decision Trees)• 神经网络(Neural Network)• 规则归纳法(Rules Induction)• Logistic回归(Logistic Regression)• ……
  • 26. Business Intelligence• 连接数据与决策者• 一种运用了数据仓库、在线分析和数据挖掘等技术来处 理和分析数据的崭新技术,目的是为企业决策者提供决 策支持• 查询• 报表• OLAP• 一般还包括• 元数据管理、主数据管理• 数据治理、数据整合• 数据质量管理• 生命周期管理
  • 27. Business Intelligence Querying Reporting Data Mining OLAP Data Warehouse Data Mart Data
  • 28. BOBI方案Business Objects 商务智能解决方案 数据整合* 信息展现* 财务信息 数据仓库 Extract –Transform - Load 绩效管理(EPM) 决策者 销售信息 随机查询(ad*hoc) 管理者 “ETL” 分析门户 分析员 多维分析(OLAP) … 业务员 Oracle 其他信息 SQL Server 固定报表 DB2 BOBJ TeraData Data Integrator … BOE 商务智能平台Slide 37 Confidential and proprietary. Copyright © 2005 Business Objects S.A. All rights reserved.
  • 29. 行业相关厂商VENDORS
  • 30. Data Warehouse• IBM DB2• Oracle• Sybase IQ• NCR Teradata
  • 31. ETL• DTS、SSIS• OWB(Oracle Warehouse Builder)• ODI(Oracle Data Integrator)• Informatic PowerCenter• AICloudETL• DataStage• Repository Explorer• Beeload• Kettle,Pentaho• DataSpider
  • 32. BI• IBM Cognos• Business Objects• MicroStrategy• Hyperion• Business Objects (07年被SAP收购)• SQL Server Analysis Server、Reporting Services• 润乾报表
  • 33. Data Mining• SAS(Statistical Analysis System)• IBM QUEST• SGI MineSet• SPSS Clementine• DBMiner• Oracle Darwin
  • 34. 相关领域• Web mining• Text mining• Spatial data mining(空间数据挖掘)• Social data mining
  • 35. 开源的数据挖掘工具• RapidMiner,http://rapid-i.com/• Kettle,ETL工具,http://kettle.pentaho.com/• Orange,http://www.ailab.si/orange• R,统计分析,http://www.r-project.org• Tanagra ,• Weka,机器学习,http://eric.univ-lyon2.fr/wricco/tanagra• KNIME,http://knime.org/• Ggobi,可视化,http://www.ggobi.org/• Gephi,可视化,http://gephi.org/• Mahout, http://mahout.apache.org/• Jhepwork,http://jwork.org/jhepwork/• ……
  • 36. • http://baike.baidu.com/view/7893.htm• http://www.slideshare.net/pierluca.lanzi/ma chine-learning-and-data-mining-01-data- mining

×