数据挖掘
理论与实践
大纲

•   什么是数据挖掘?
•   数据挖掘有什么用?
•   数据挖掘的相关理论
•   数据挖掘的相关技术
•   数据挖掘的实际应用
什么是数据挖掘?
• 从一大堆数据集里面提取隐含的,以前未
  知的,有潜在应用价值信息的非平凡过程。
• 多学科领域融合。
背景
• 数据挖掘 - - data mining
• 背景
  – 数据
    • 随着业务增长,急剧膨胀,
        – GB、TB、PB、EB、ZB … …
    •   数据足够,但无法利用,或利用率很低
    •   数据孤岛、数据死角
    •   数据复杂度、维度很高
    •   需要使数据可见
    •   数据 -》知识 -》决策

  – 从每天海量的销售数据中发现商机!
典型案例
• 电信
• 移动
 – BASS(业务经营分析系统)
• 沃尔玛(since1980)

         欺诈检测   客户关系管理          科学探索
  信用等级                   决策支持
                趋势分析
         联网审计               工程设计
  市场预测             Spam检测
           关联销售
数据挖掘的目标
• 预测:从历史发现未来
• 描叙:了解数据中潜在规律
• 分类:划分数据
• 聚类:自动聚合同类数据
• 关联规则挖掘
• 序列模式挖掘
• 优化:最优化有限资源的使用,如空间、时间、
  金钱、物质
• 异常检测
• 。。。
数据仓库没有通用的解决方案

数据挖掘-数据仓库
Knowledge Discovery
                & Data Mining…
                                                    More theory
Focused on          More           Presenting ,
                                                      based ,
 extraction      heuristic,         assist to
                                                    focused on
  patterns       exploring,        analysis or
                                                      testing
 from data        learning           decision
                                                    hypotheses


   Data          Machine
                                   Visualization   Statistics
  Mining         Learning




                       Knowledge Discovery
数据仓库
• Subject Oriented、Integrate、Non-Volatile、
  Time Variant

• 存储大量的、决策分析所必需的、历史的、分
  散的各种数据,经过处理将这些资料和数据转
  换成集中统一、随时可用的信息

• 为Data Mining及BI做准备
  – 统计分析、人工智能、预测、多维报表等
数据仓库常见架构
OLAP
• 多维数据模型:
    – 维度
        •   维度属性
        •   层级维度
        •   时间维度
        •   ……
    – 度量
        • 度量值
        • 度量值组

    – 星形、雪花型

•   OLAP的基本操作:
•   钻取(Drill-down、Roll-up、Drill-across、Drill-through)、
•   切片(Slice)
•   切块(Dice)以及旋转(Pivot)
何谓ETL?



                      Extraction    Transformation




                                                     Load
平面文件、xml、关系型数据库、excel、access,etc.
无法处理非结构化数据:文本、音频、视频等
数据仓库与传统数据库的比较
• 大小
 – 数据库-》数据集市-》数据仓库
   • 数据仓库的大小会远远大于数据库的大小
       – 历史数据
       – 综合数据
       – 计算数据


• 结构
 – 数据库:二维平面
 – 数据仓库:多维立体
一些概念
•   OLTP(On-line Transaction Processing)
•   OLAP(On-line Analytical Processing)
•   ETL(Extraction-Transformation-Load)
•   DSS(Decision Support System)
•   MDM(Master Data Management)KDD
    (Knowledge-Discovery in Databases)
决策分析
• 决策主题
 – 决策分析模型
  • 维度指标
  • 事实数据
如何构建一个数据仓库?
Design
•   业务分析调研
•   界定系统边界
•   确定主题域
•   概念模型设计
•   模型评估
•   etc
Data Collection & Availability
•   数据收集
•   数据整理
•   ETL(抽取,转换,装载)
•   数据从哪来?
    –   数据库
    –   财务报表
    –   Web站点       这数据也太多了,怎么办?
    –   销售记录
                    围绕一个业务主题!
    –   库存记录
    –   账单
    –   ……
Modeling
• 模型的构建是一个不断优化的过程

•   Business、Business
•   Data、Data
•   Business & Data
•   Sample & Test
Presentation& Visualization
•   查询
•   报表
•   多维分析
•   直方图、柱形图等各种可视化手段
•   平均,最大,最小,方差等各种统计方法
Analystic & Discovery

•   分析
•   对挖掘结果进行解释
•   评估挖掘结果
•   应用发现的知识
数据挖掘常用技术
统计分析
•   序列统计
•   概率论
•   回归分析
•   类别数据分析
•   模糊计算理论
•   基因算法
常用分析方法
• 分类 (Classification)
• 聚集(Clustering)
• 关联(Association)
  – 简单关联、时序关联、因果关联
• 估值(Estimation)
• 预测(Prediction)
•   决策树(Decision Trees)
•   神经网络(Neural Network)
•   规则归纳法(Rules Induction)
•   Logistic回归(Logistic Regression)
•   ……
Business Intelligence
• 连接数据与决策者
• 一种运用了数据仓库、在线分析和数据挖掘等技术来处
  理和分析数据的崭新技术,目的是为企业决策者提供决
  策支持
• 查询
• 报表
• OLAP
• 一般还包括
• 元数据管理、主数据管理
• 数据治理、数据整合
• 数据质量管理
• 生命周期管理
Business Intelligence



     Querying           Reporting


    Data Mining           OLAP


  Data Warehouse


     Data Mart

        Data
BOBI方案

Business Objects 商务智能解决方案


                            数据整合*                                                                       信息展现*
     财务信息

                                                                  数据仓库
                                      Extract –Transform - Load                                         绩效管理(EPM)
                                                                                                                             决策者


    销售信息                                                                                                 随机查询(ad*hoc)        管理者
                                                “ETL”




                                                                                                                        分析门户 分析员
                                                                                                        多维分析(OLAP)

       …                                                                                                                     业务员
                                                                  Oracle
     其他信息                                                         SQL Server                             固定报表
                                                                  DB2
                               BOBJ                               TeraData
                         Data Integrator                          …                                          BOE
                                                                                                           商务智能平台


Slide 37    Confidential and proprietary. Copyright © 2005 Business Objects S.A. All rights reserved.
行业相关厂商

VENDORS
Data Warehouse
•   IBM DB2
•   Oracle
•   Sybase IQ
•   NCR Teradata
ETL
•   DTS、SSIS
•   OWB(Oracle Warehouse Builder)
•   ODI(Oracle Data Integrator)
•   Informatic PowerCenter
•   AICloudETL
•   DataStage
•   Repository Explorer
•   Beeload
•   Kettle,Pentaho
•   DataSpider
BI
• IBM Cognos
• Business Objects
• MicroStrategy
• Hyperion
• Business Objects (07年被SAP收购)
• SQL Server Analysis Server、Reporting
  Services
• 润乾报表
Data Mining
•   SAS(Statistical Analysis System)
•   IBM QUEST
•   SGI MineSet
•   SPSS Clementine
•   DBMiner
•   Oracle Darwin
相关领域
•   Web mining
•   Text mining
•   Spatial data mining(空间数据挖掘)
•   Social data mining
开源的数据挖掘工具
•   RapidMiner,http://rapid-i.com/
•   Kettle,ETL工具,http://kettle.pentaho.com/
•   Orange,http://www.ailab.si/orange
•   R,统计分析,http://www.r-project.org
•   Tanagra ,
•   Weka,机器学习,http://eric.univ-lyon2.fr/wricco/tanagra
•   KNIME,http://knime.org/
•   Ggobi,可视化,http://www.ggobi.org/
•   Gephi,可视化,http://gephi.org/
•   Mahout, http://mahout.apache.org/
•   Jhepwork,http://jwork.org/jhepwork/
•   ……
• http://baike.baidu.com/view/7893.htm
• http://www.slideshare.net/pierluca.lanzi/ma
  chine-learning-and-data-mining-01-data-
  mining

数据挖掘理论与实践

  • 1.
  • 2.
    大纲 • 什么是数据挖掘? • 数据挖掘有什么用? • 数据挖掘的相关理论 • 数据挖掘的相关技术 • 数据挖掘的实际应用
  • 3.
    什么是数据挖掘? • 从一大堆数据集里面提取隐含的,以前未 知的,有潜在应用价值信息的非平凡过程。 • 多学科领域融合。
  • 4.
    背景 • 数据挖掘 -- data mining • 背景 – 数据 • 随着业务增长,急剧膨胀, – GB、TB、PB、EB、ZB … … • 数据足够,但无法利用,或利用率很低 • 数据孤岛、数据死角 • 数据复杂度、维度很高 • 需要使数据可见 • 数据 -》知识 -》决策 – 从每天海量的销售数据中发现商机!
  • 5.
    典型案例 • 电信 • 移动 – BASS(业务经营分析系统) • 沃尔玛(since1980) 欺诈检测 客户关系管理 科学探索 信用等级 决策支持 趋势分析 联网审计 工程设计 市场预测 Spam检测 关联销售
  • 6.
    数据挖掘的目标 • 预测:从历史发现未来 • 描叙:了解数据中潜在规律 •分类:划分数据 • 聚类:自动聚合同类数据 • 关联规则挖掘 • 序列模式挖掘 • 优化:最优化有限资源的使用,如空间、时间、 金钱、物质 • 异常检测 • 。。。
  • 7.
  • 8.
    Knowledge Discovery & Data Mining… More theory Focused on More Presenting , based , extraction heuristic, assist to focused on patterns exploring, analysis or testing from data learning decision hypotheses Data Machine Visualization Statistics Mining Learning Knowledge Discovery
  • 9.
    数据仓库 • Subject Oriented、Integrate、Non-Volatile、 Time Variant • 存储大量的、决策分析所必需的、历史的、分 散的各种数据,经过处理将这些资料和数据转 换成集中统一、随时可用的信息 • 为Data Mining及BI做准备 – 统计分析、人工智能、预测、多维报表等
  • 10.
  • 11.
    OLAP • 多维数据模型: – 维度 • 维度属性 • 层级维度 • 时间维度 • …… – 度量 • 度量值 • 度量值组 – 星形、雪花型 • OLAP的基本操作: • 钻取(Drill-down、Roll-up、Drill-across、Drill-through)、 • 切片(Slice) • 切块(Dice)以及旋转(Pivot)
  • 12.
    何谓ETL? Extraction Transformation Load 平面文件、xml、关系型数据库、excel、access,etc. 无法处理非结构化数据:文本、音频、视频等
  • 13.
    数据仓库与传统数据库的比较 • 大小 –数据库-》数据集市-》数据仓库 • 数据仓库的大小会远远大于数据库的大小 – 历史数据 – 综合数据 – 计算数据 • 结构 – 数据库:二维平面 – 数据仓库:多维立体
  • 14.
    一些概念 • OLTP(On-line Transaction Processing) • OLAP(On-line Analytical Processing) • ETL(Extraction-Transformation-Load) • DSS(Decision Support System) • MDM(Master Data Management)KDD (Knowledge-Discovery in Databases)
  • 15.
    决策分析 • 决策主题 –决策分析模型 • 维度指标 • 事实数据
  • 16.
  • 17.
    Design • 业务分析调研 • 界定系统边界 • 确定主题域 • 概念模型设计 • 模型评估 • etc
  • 18.
    Data Collection &Availability • 数据收集 • 数据整理 • ETL(抽取,转换,装载) • 数据从哪来? – 数据库 – 财务报表 – Web站点 这数据也太多了,怎么办? – 销售记录 围绕一个业务主题! – 库存记录 – 账单 – ……
  • 19.
    Modeling • 模型的构建是一个不断优化的过程 • Business、Business • Data、Data • Business & Data • Sample & Test
  • 20.
    Presentation& Visualization • 查询 • 报表 • 多维分析 • 直方图、柱形图等各种可视化手段 • 平均,最大,最小,方差等各种统计方法
  • 21.
    Analystic & Discovery • 分析 • 对挖掘结果进行解释 • 评估挖掘结果 • 应用发现的知识
  • 22.
  • 23.
    统计分析 • 序列统计 • 概率论 • 回归分析 • 类别数据分析 • 模糊计算理论 • 基因算法
  • 24.
    常用分析方法 • 分类 (Classification) •聚集(Clustering) • 关联(Association) – 简单关联、时序关联、因果关联 • 估值(Estimation) • 预测(Prediction)
  • 25.
    决策树(Decision Trees) • 神经网络(Neural Network) • 规则归纳法(Rules Induction) • Logistic回归(Logistic Regression) • ……
  • 26.
    Business Intelligence • 连接数据与决策者 •一种运用了数据仓库、在线分析和数据挖掘等技术来处 理和分析数据的崭新技术,目的是为企业决策者提供决 策支持 • 查询 • 报表 • OLAP • 一般还包括 • 元数据管理、主数据管理 • 数据治理、数据整合 • 数据质量管理 • 生命周期管理
  • 27.
    Business Intelligence Querying Reporting Data Mining OLAP Data Warehouse Data Mart Data
  • 28.
    BOBI方案 Business Objects 商务智能解决方案 数据整合* 信息展现* 财务信息 数据仓库 Extract –Transform - Load 绩效管理(EPM) 决策者 销售信息 随机查询(ad*hoc) 管理者 “ETL” 分析门户 分析员 多维分析(OLAP) … 业务员 Oracle 其他信息 SQL Server 固定报表 DB2 BOBJ TeraData Data Integrator … BOE 商务智能平台 Slide 37 Confidential and proprietary. Copyright © 2005 Business Objects S.A. All rights reserved.
  • 29.
  • 30.
    Data Warehouse • IBM DB2 • Oracle • Sybase IQ • NCR Teradata
  • 31.
    ETL • DTS、SSIS • OWB(Oracle Warehouse Builder) • ODI(Oracle Data Integrator) • Informatic PowerCenter • AICloudETL • DataStage • Repository Explorer • Beeload • Kettle,Pentaho • DataSpider
  • 32.
    BI • IBM Cognos •Business Objects • MicroStrategy • Hyperion • Business Objects (07年被SAP收购) • SQL Server Analysis Server、Reporting Services • 润乾报表
  • 33.
    Data Mining • SAS(Statistical Analysis System) • IBM QUEST • SGI MineSet • SPSS Clementine • DBMiner • Oracle Darwin
  • 34.
    相关领域 • Web mining • Text mining • Spatial data mining(空间数据挖掘) • Social data mining
  • 35.
    开源的数据挖掘工具 • RapidMiner,http://rapid-i.com/ • Kettle,ETL工具,http://kettle.pentaho.com/ • Orange,http://www.ailab.si/orange • R,统计分析,http://www.r-project.org • Tanagra , • Weka,机器学习,http://eric.univ-lyon2.fr/wricco/tanagra • KNIME,http://knime.org/ • Ggobi,可视化,http://www.ggobi.org/ • Gephi,可视化,http://gephi.org/ • Mahout, http://mahout.apache.org/ • Jhepwork,http://jwork.org/jhepwork/ • ……
  • 36.