• Save
数据挖掘理论与实践
Upcoming SlideShare
Loading in...5
×
 

数据挖掘理论与实践

on

  • 2,432 views

去年的一个slide

去年的一个slide

Statistics

Views

Total Views
2,432
Views on SlideShare
2,432
Embed Views
0

Actions

Likes
1
Downloads
0
Comments
1

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • 正在学习中!
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

数据挖掘理论与实践 数据挖掘理论与实践 Presentation Transcript

  • 数据挖掘理论与实践
  • 大纲• 什么是数据挖掘?• 数据挖掘有什么用?• 数据挖掘的相关理论• 数据挖掘的相关技术• 数据挖掘的实际应用
  • 什么是数据挖掘?• 从一大堆数据集里面提取隐含的,以前未 知的,有潜在应用价值信息的非平凡过程。• 多学科领域融合。
  • 背景• 数据挖掘 - - data mining• 背景 – 数据 • 随着业务增长,急剧膨胀, – GB、TB、PB、EB、ZB … … • 数据足够,但无法利用,或利用率很低 • 数据孤岛、数据死角 • 数据复杂度、维度很高 • 需要使数据可见 • 数据 -》知识 -》决策 – 从每天海量的销售数据中发现商机!
  • 典型案例• 电信• 移动 – BASS(业务经营分析系统)• 沃尔玛(since1980) 欺诈检测 客户关系管理 科学探索 信用等级 决策支持 趋势分析 联网审计 工程设计 市场预测 Spam检测 关联销售
  • 数据挖掘的目标• 预测:从历史发现未来• 描叙:了解数据中潜在规律• 分类:划分数据• 聚类:自动聚合同类数据• 关联规则挖掘• 序列模式挖掘• 优化:最优化有限资源的使用,如空间、时间、 金钱、物质• 异常检测• 。。。
  • 数据仓库没有通用的解决方案数据挖掘-数据仓库
  • Knowledge Discovery & Data Mining… More theoryFocused on More Presenting , based , extraction heuristic, assist to focused on patterns exploring, analysis or testing from data learning decision hypotheses Data Machine Visualization Statistics Mining Learning Knowledge Discovery
  • 数据仓库• Subject Oriented、Integrate、Non-Volatile、 Time Variant• 存储大量的、决策分析所必需的、历史的、分 散的各种数据,经过处理将这些资料和数据转 换成集中统一、随时可用的信息• 为Data Mining及BI做准备 – 统计分析、人工智能、预测、多维报表等
  • 数据仓库常见架构
  • OLAP• 多维数据模型: – 维度 • 维度属性 • 层级维度 • 时间维度 • …… – 度量 • 度量值 • 度量值组 – 星形、雪花型• OLAP的基本操作:• 钻取(Drill-down、Roll-up、Drill-across、Drill-through)、• 切片(Slice)• 切块(Dice)以及旋转(Pivot)
  • 何谓ETL? Extraction Transformation Load平面文件、xml、关系型数据库、excel、access,etc.无法处理非结构化数据:文本、音频、视频等
  • 数据仓库与传统数据库的比较• 大小 – 数据库-》数据集市-》数据仓库 • 数据仓库的大小会远远大于数据库的大小 – 历史数据 – 综合数据 – 计算数据• 结构 – 数据库:二维平面 – 数据仓库:多维立体
  • 一些概念• OLTP(On-line Transaction Processing)• OLAP(On-line Analytical Processing)• ETL(Extraction-Transformation-Load)• DSS(Decision Support System)• MDM(Master Data Management)KDD (Knowledge-Discovery in Databases)
  • 决策分析• 决策主题 – 决策分析模型 • 维度指标 • 事实数据
  • 如何构建一个数据仓库?
  • Design• 业务分析调研• 界定系统边界• 确定主题域• 概念模型设计• 模型评估• etc
  • Data Collection & Availability• 数据收集• 数据整理• ETL(抽取,转换,装载)• 数据从哪来? – 数据库 – 财务报表 – Web站点 这数据也太多了,怎么办? – 销售记录 围绕一个业务主题! – 库存记录 – 账单 – ……
  • Modeling• 模型的构建是一个不断优化的过程• Business、Business• Data、Data• Business & Data• Sample & Test
  • Presentation& Visualization• 查询• 报表• 多维分析• 直方图、柱形图等各种可视化手段• 平均,最大,最小,方差等各种统计方法
  • Analystic & Discovery• 分析• 对挖掘结果进行解释• 评估挖掘结果• 应用发现的知识
  • 数据挖掘常用技术
  • 统计分析• 序列统计• 概率论• 回归分析• 类别数据分析• 模糊计算理论• 基因算法
  • 常用分析方法• 分类 (Classification)• 聚集(Clustering)• 关联(Association) – 简单关联、时序关联、因果关联• 估值(Estimation)• 预测(Prediction)
  • • 决策树(Decision Trees)• 神经网络(Neural Network)• 规则归纳法(Rules Induction)• Logistic回归(Logistic Regression)• ……
  • Business Intelligence• 连接数据与决策者• 一种运用了数据仓库、在线分析和数据挖掘等技术来处 理和分析数据的崭新技术,目的是为企业决策者提供决 策支持• 查询• 报表• OLAP• 一般还包括• 元数据管理、主数据管理• 数据治理、数据整合• 数据质量管理• 生命周期管理
  • Business Intelligence Querying Reporting Data Mining OLAP Data Warehouse Data Mart Data
  • BOBI方案Business Objects 商务智能解决方案 数据整合* 信息展现* 财务信息 数据仓库 Extract –Transform - Load 绩效管理(EPM) 决策者 销售信息 随机查询(ad*hoc) 管理者 “ETL” 分析门户 分析员 多维分析(OLAP) … 业务员 Oracle 其他信息 SQL Server 固定报表 DB2 BOBJ TeraData Data Integrator … BOE 商务智能平台Slide 37 Confidential and proprietary. Copyright © 2005 Business Objects S.A. All rights reserved.
  • 行业相关厂商VENDORS
  • Data Warehouse• IBM DB2• Oracle• Sybase IQ• NCR Teradata
  • ETL• DTS、SSIS• OWB(Oracle Warehouse Builder)• ODI(Oracle Data Integrator)• Informatic PowerCenter• AICloudETL• DataStage• Repository Explorer• Beeload• Kettle,Pentaho• DataSpider
  • BI• IBM Cognos• Business Objects• MicroStrategy• Hyperion• Business Objects (07年被SAP收购)• SQL Server Analysis Server、Reporting Services• 润乾报表
  • Data Mining• SAS(Statistical Analysis System)• IBM QUEST• SGI MineSet• SPSS Clementine• DBMiner• Oracle Darwin
  • 相关领域• Web mining• Text mining• Spatial data mining(空间数据挖掘)• Social data mining
  • 开源的数据挖掘工具• RapidMiner,http://rapid-i.com/• Kettle,ETL工具,http://kettle.pentaho.com/• Orange,http://www.ailab.si/orange• R,统计分析,http://www.r-project.org• Tanagra ,• Weka,机器学习,http://eric.univ-lyon2.fr/wricco/tanagra• KNIME,http://knime.org/• Ggobi,可视化,http://www.ggobi.org/• Gephi,可视化,http://gephi.org/• Mahout, http://mahout.apache.org/• Jhepwork,http://jwork.org/jhepwork/• ……
  • • http://baike.baidu.com/view/7893.htm• http://www.slideshare.net/pierluca.lanzi/ma chine-learning-and-data-mining-01-data- mining