SlideShare a Scribd company logo
1 of 36
数据挖掘
理论与实践
大纲

•   什么是数据挖掘?
•   数据挖掘有什么用?
•   数据挖掘的相关理论
•   数据挖掘的相关技术
•   数据挖掘的实际应用
什么是数据挖掘?
• 从一大堆数据集里面提取隐含的,以前未
  知的,有潜在应用价值信息的非平凡过程。
• 多学科领域融合。
背景
• 数据挖掘 - - data mining
• 背景
  – 数据
    • 随着业务增长,急剧膨胀,
        – GB、TB、PB、EB、ZB … …
    •   数据足够,但无法利用,或利用率很低
    •   数据孤岛、数据死角
    •   数据复杂度、维度很高
    •   需要使数据可见
    •   数据 -》知识 -》决策

  – 从每天海量的销售数据中发现商机!
典型案例
• 电信
• 移动
 – BASS(业务经营分析系统)
• 沃尔玛(since1980)

         欺诈检测   客户关系管理          科学探索
  信用等级                   决策支持
                趋势分析
         联网审计               工程设计
  市场预测             Spam检测
           关联销售
数据挖掘的目标
• 预测:从历史发现未来
• 描叙:了解数据中潜在规律
• 分类:划分数据
• 聚类:自动聚合同类数据
• 关联规则挖掘
• 序列模式挖掘
• 优化:最优化有限资源的使用,如空间、时间、
  金钱、物质
• 异常检测
• 。。。
数据仓库没有通用的解决方案

数据挖掘-数据仓库
Knowledge Discovery
                & Data Mining…
                                                    More theory
Focused on          More           Presenting ,
                                                      based ,
 extraction      heuristic,         assist to
                                                    focused on
  patterns       exploring,        analysis or
                                                      testing
 from data        learning           decision
                                                    hypotheses


   Data          Machine
                                   Visualization   Statistics
  Mining         Learning




                       Knowledge Discovery
数据仓库
• Subject Oriented、Integrate、Non-Volatile、
  Time Variant

• 存储大量的、决策分析所必需的、历史的、分
  散的各种数据,经过处理将这些资料和数据转
  换成集中统一、随时可用的信息

• 为Data Mining及BI做准备
  – 统计分析、人工智能、预测、多维报表等
数据仓库常见架构
OLAP
• 多维数据模型:
    – 维度
        •   维度属性
        •   层级维度
        •   时间维度
        •   ……
    – 度量
        • 度量值
        • 度量值组

    – 星形、雪花型

•   OLAP的基本操作:
•   钻取(Drill-down、Roll-up、Drill-across、Drill-through)、
•   切片(Slice)
•   切块(Dice)以及旋转(Pivot)
何谓ETL?



                      Extraction    Transformation




                                                     Load
平面文件、xml、关系型数据库、excel、access,etc.
无法处理非结构化数据:文本、音频、视频等
数据仓库与传统数据库的比较
• 大小
 – 数据库-》数据集市-》数据仓库
   • 数据仓库的大小会远远大于数据库的大小
       – 历史数据
       – 综合数据
       – 计算数据


• 结构
 – 数据库:二维平面
 – 数据仓库:多维立体
一些概念
•   OLTP(On-line Transaction Processing)
•   OLAP(On-line Analytical Processing)
•   ETL(Extraction-Transformation-Load)
•   DSS(Decision Support System)
•   MDM(Master Data Management)KDD
    (Knowledge-Discovery in Databases)
决策分析
• 决策主题
 – 决策分析模型
  • 维度指标
  • 事实数据
如何构建一个数据仓库?
Design
•   业务分析调研
•   界定系统边界
•   确定主题域
•   概念模型设计
•   模型评估
•   etc
Data Collection & Availability
•   数据收集
•   数据整理
•   ETL(抽取,转换,装载)
•   数据从哪来?
    –   数据库
    –   财务报表
    –   Web站点       这数据也太多了,怎么办?
    –   销售记录
                    围绕一个业务主题!
    –   库存记录
    –   账单
    –   ……
Modeling
• 模型的构建是一个不断优化的过程

•   Business、Business
•   Data、Data
•   Business & Data
•   Sample & Test
Presentation& Visualization
•   查询
•   报表
•   多维分析
•   直方图、柱形图等各种可视化手段
•   平均,最大,最小,方差等各种统计方法
Analystic & Discovery

•   分析
•   对挖掘结果进行解释
•   评估挖掘结果
•   应用发现的知识
数据挖掘常用技术
统计分析
•   序列统计
•   概率论
•   回归分析
•   类别数据分析
•   模糊计算理论
•   基因算法
常用分析方法
• 分类 (Classification)
• 聚集(Clustering)
• 关联(Association)
  – 简单关联、时序关联、因果关联
• 估值(Estimation)
• 预测(Prediction)
•   决策树(Decision Trees)
•   神经网络(Neural Network)
•   规则归纳法(Rules Induction)
•   Logistic回归(Logistic Regression)
•   ……
Business Intelligence
• 连接数据与决策者
• 一种运用了数据仓库、在线分析和数据挖掘等技术来处
  理和分析数据的崭新技术,目的是为企业决策者提供决
  策支持
• 查询
• 报表
• OLAP
• 一般还包括
• 元数据管理、主数据管理
• 数据治理、数据整合
• 数据质量管理
• 生命周期管理
Business Intelligence



     Querying           Reporting


    Data Mining           OLAP


  Data Warehouse


     Data Mart

        Data
BOBI方案

Business Objects 商务智能解决方案


                            数据整合*                                                                       信息展现*
     财务信息

                                                                  数据仓库
                                      Extract –Transform - Load                                         绩效管理(EPM)
                                                                                                                             决策者


    销售信息                                                                                                 随机查询(ad*hoc)        管理者
                                                “ETL”




                                                                                                                        分析门户 分析员
                                                                                                        多维分析(OLAP)

       …                                                                                                                     业务员
                                                                  Oracle
     其他信息                                                         SQL Server                             固定报表
                                                                  DB2
                               BOBJ                               TeraData
                         Data Integrator                          …                                          BOE
                                                                                                           商务智能平台


Slide 37    Confidential and proprietary. Copyright © 2005 Business Objects S.A. All rights reserved.
行业相关厂商

VENDORS
Data Warehouse
•   IBM DB2
•   Oracle
•   Sybase IQ
•   NCR Teradata
ETL
•   DTS、SSIS
•   OWB(Oracle Warehouse Builder)
•   ODI(Oracle Data Integrator)
•   Informatic PowerCenter
•   AICloudETL
•   DataStage
•   Repository Explorer
•   Beeload
•   Kettle,Pentaho
•   DataSpider
BI
• IBM Cognos
• Business Objects
• MicroStrategy
• Hyperion
• Business Objects (07年被SAP收购)
• SQL Server Analysis Server、Reporting
  Services
• 润乾报表
Data Mining
•   SAS(Statistical Analysis System)
•   IBM QUEST
•   SGI MineSet
•   SPSS Clementine
•   DBMiner
•   Oracle Darwin
相关领域
•   Web mining
•   Text mining
•   Spatial data mining(空间数据挖掘)
•   Social data mining
开源的数据挖掘工具
•   RapidMiner,http://rapid-i.com/
•   Kettle,ETL工具,http://kettle.pentaho.com/
•   Orange,http://www.ailab.si/orange
•   R,统计分析,http://www.r-project.org
•   Tanagra ,
•   Weka,机器学习,http://eric.univ-lyon2.fr/wricco/tanagra
•   KNIME,http://knime.org/
•   Ggobi,可视化,http://www.ggobi.org/
•   Gephi,可视化,http://gephi.org/
•   Mahout, http://mahout.apache.org/
•   Jhepwork,http://jwork.org/jhepwork/
•   ……
• http://baike.baidu.com/view/7893.htm
• http://www.slideshare.net/pierluca.lanzi/ma
  chine-learning-and-data-mining-01-data-
  mining

More Related Content

What's hot

Advanced Analytics and Machine Learning with Data Virtualization (Chinese)
Advanced Analytics and Machine Learning with Data Virtualization (Chinese)Advanced Analytics and Machine Learning with Data Virtualization (Chinese)
Advanced Analytics and Machine Learning with Data Virtualization (Chinese)Denodo
 
数据服务和现代数据生态系统
数据服务和现代数据生态系统数据服务和现代数据生态系统
数据服务和现代数据生态系统Denodo
 
Centralizing Data Security with Data Virtualization (Chinese)
Centralizing Data Security with Data Virtualization (Chinese)Centralizing Data Security with Data Virtualization (Chinese)
Centralizing Data Security with Data Virtualization (Chinese)Denodo
 
对My sql dba的一些思考
对My sql dba的一些思考对My sql dba的一些思考
对My sql dba的一些思考thinkinlamp
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Etu Solution
 
现代数据集成解决方案及应用案例介绍(下)
现代数据集成解决方案及应用案例介绍(下)现代数据集成解决方案及应用案例介绍(下)
现代数据集成解决方案及应用案例介绍(下)Denodo
 
现代数据集成解决方案及应用案例介绍(上)
现代数据集成解决方案及应用案例介绍(上)现代数据集成解决方案及应用案例介绍(上)
现代数据集成解决方案及应用案例介绍(上)Denodo
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu Solution
 
Data & AI Driven Digital Transformation
Data & AI Driven Digital TransformationData & AI Driven Digital Transformation
Data & AI Driven Digital TransformationSky shi
 
如何集中数据治理,摆脱安全性和合规性困扰
如何集中数据治理,摆脱安全性和合规性困扰如何集中数据治理,摆脱安全性和合规性困扰
如何集中数据治理,摆脱安全性和合规性困扰Denodo
 
Accelerate Migration to the Cloud using Data Virtualization (Chinese)
Accelerate Migration to the Cloud using Data Virtualization (Chinese)Accelerate Migration to the Cloud using Data Virtualization (Chinese)
Accelerate Migration to the Cloud using Data Virtualization (Chinese)Denodo
 
Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybiTech2IPO
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_saccwangzhonnew
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2Hans Shih
 
数据虚拟化助力高级分析和机器学习
数据虚拟化助力高级分析和机器学习数据虚拟化助力高级分析和机器学习
数据虚拟化助力高级分析和机器学习Denodo
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
数据的价值和灵魂
数据的价值和灵魂数据的价值和灵魂
数据的价值和灵魂学峰 司
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Etu Solution
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]KennyZ
 

What's hot (20)

Advanced Analytics and Machine Learning with Data Virtualization (Chinese)
Advanced Analytics and Machine Learning with Data Virtualization (Chinese)Advanced Analytics and Machine Learning with Data Virtualization (Chinese)
Advanced Analytics and Machine Learning with Data Virtualization (Chinese)
 
数据服务和现代数据生态系统
数据服务和现代数据生态系统数据服务和现代数据生态系统
数据服务和现代数据生态系统
 
Centralizing Data Security with Data Virtualization (Chinese)
Centralizing Data Security with Data Virtualization (Chinese)Centralizing Data Security with Data Virtualization (Chinese)
Centralizing Data Security with Data Virtualization (Chinese)
 
对My sql dba的一些思考
对My sql dba的一些思考对My sql dba的一些思考
对My sql dba的一些思考
 
数据仓库
数据仓库数据仓库
数据仓库
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
现代数据集成解决方案及应用案例介绍(下)
现代数据集成解决方案及应用案例介绍(下)现代数据集成解决方案及应用案例介绍(下)
现代数据集成解决方案及应用案例介绍(下)
 
现代数据集成解决方案及应用案例介绍(上)
现代数据集成解决方案及应用案例介绍(上)现代数据集成解决方案及应用案例介绍(上)
现代数据集成解决方案及应用案例介绍(上)
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
Data & AI Driven Digital Transformation
Data & AI Driven Digital TransformationData & AI Driven Digital Transformation
Data & AI Driven Digital Transformation
 
如何集中数据治理,摆脱安全性和合规性困扰
如何集中数据治理,摆脱安全性和合规性困扰如何集中数据治理,摆脱安全性和合规性困扰
如何集中数据治理,摆脱安全性和合规性困扰
 
Accelerate Migration to the Cloud using Data Virtualization (Chinese)
Accelerate Migration to the Cloud using Data Virtualization (Chinese)Accelerate Migration to the Cloud using Data Virtualization (Chinese)
Accelerate Migration to the Cloud using Data Virtualization (Chinese)
 
Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybi
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_sacc
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2
 
数据虚拟化助力高级分析和机器学习
数据虚拟化助力高级分析和机器学习数据虚拟化助力高级分析和机器学习
数据虚拟化助力高级分析和机器学习
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
数据的价值和灵魂
数据的价值和灵魂数据的价值和灵魂
数据的价值和灵魂
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
 

Viewers also liked

HIPAA compliance for Business Associates- The value of compliance, how to acq...
HIPAA compliance for Business Associates- The value of compliance, how to acq...HIPAA compliance for Business Associates- The value of compliance, how to acq...
HIPAA compliance for Business Associates- The value of compliance, how to acq...Compliancy Group
 
吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践jins0618
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance
 
PDF FF catalog 2016 New TEST1_print
PDF FF catalog 2016 New TEST1_printPDF FF catalog 2016 New TEST1_print
PDF FF catalog 2016 New TEST1_printSergii Pivnov
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance
 
2016 고려대학교 신입생 프로그래밍 경시대회 해법
2016 고려대학교 신입생 프로그래밍 경시대회 해법2016 고려대학교 신입생 프로그래밍 경시대회 해법
2016 고려대학교 신입생 프로그래밍 경시대회 해법Hongjun Jang
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance
 
How to remove disable and cancel shipment functionality in enter purchase or...
How to remove  disable and cancel shipment functionality in enter purchase or...How to remove  disable and cancel shipment functionality in enter purchase or...
How to remove disable and cancel shipment functionality in enter purchase or...Ahmed Elshayeb
 
Genetic Recording in Yeast Using CRISPR-Cas9
Genetic Recording in Yeast Using CRISPR-Cas9Genetic Recording in Yeast Using CRISPR-Cas9
Genetic Recording in Yeast Using CRISPR-Cas9Robert Beem
 
Genome Editing CRISPR-Cas9
Genome Editing CRISPR-Cas9 Genome Editing CRISPR-Cas9
Genome Editing CRISPR-Cas9 Ek Han Tan
 

Viewers also liked (12)

biodosimetry
biodosimetrybiodosimetry
biodosimetry
 
HIPAA compliance for Business Associates- The value of compliance, how to acq...
HIPAA compliance for Business Associates- The value of compliance, how to acq...HIPAA compliance for Business Associates- The value of compliance, how to acq...
HIPAA compliance for Business Associates- The value of compliance, how to acq...
 
吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践吕潇 星环科技大数据技术探索与应用实践
吕潇 星环科技大数据技术探索与应用实践
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016
 
PDF FF catalog 2016 New TEST1_print
PDF FF catalog 2016 New TEST1_printPDF FF catalog 2016 New TEST1_print
PDF FF catalog 2016 New TEST1_print
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016
 
Walking on the Water
Walking on the WaterWalking on the Water
Walking on the Water
 
2016 고려대학교 신입생 프로그래밍 경시대회 해법
2016 고려대학교 신입생 프로그래밍 경시대회 해법2016 고려대학교 신입생 프로그래밍 경시대회 해법
2016 고려대학교 신입생 프로그래밍 경시대회 해법
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016
 
How to remove disable and cancel shipment functionality in enter purchase or...
How to remove  disable and cancel shipment functionality in enter purchase or...How to remove  disable and cancel shipment functionality in enter purchase or...
How to remove disable and cancel shipment functionality in enter purchase or...
 
Genetic Recording in Yeast Using CRISPR-Cas9
Genetic Recording in Yeast Using CRISPR-Cas9Genetic Recording in Yeast Using CRISPR-Cas9
Genetic Recording in Yeast Using CRISPR-Cas9
 
Genome Editing CRISPR-Cas9
Genome Editing CRISPR-Cas9 Genome Editing CRISPR-Cas9
Genome Editing CRISPR-Cas9
 

Similar to 数据挖掘理论与实践

Business intelligent 概論 棅易
Business intelligent 概論 棅易Business intelligent 概論 棅易
Business intelligent 概論 棅易Lawrence Huang
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘mysqlops
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Fred Chiang
 
适应业务需求的甲骨文存储解决方案及产品演示
适应业务需求的甲骨文存储解决方案及产品演示适应业务需求的甲骨文存储解决方案及产品演示
适应业务需求的甲骨文存储解决方案及产品演示ITband
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Fred Chiang
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdfmarkmind
 
企业信息系统性能优化实战
企业信息系统性能优化实战企业信息系统性能优化实战
企业信息系统性能优化实战mysqlops
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnyp_fangdong
 
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理Leo Zhou
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)Yu Zhang
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产Denodo
 
Actuate presentation 2011
Actuate presentation   2011Actuate presentation   2011
Actuate presentation 2011Luke Han
 
民间秘方
民间秘方民间秘方
民间秘方dynasty
 
「大數據之路:阿里巴巴大數據實戰」 讀書心得
「大數據之路:阿里巴巴大數據實戰」 讀書心得「大數據之路:阿里巴巴大數據實戰」 讀書心得
「大數據之路:阿里巴巴大數據實戰」 讀書心得Chang Tai-Wei
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计PMCamp
 

Similar to 数据挖掘理论与实践 (20)

Business intelligent 概論 棅易
Business intelligent 概論 棅易Business intelligent 概論 棅易
Business intelligent 概論 棅易
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘
 
商業智慧
商業智慧商業智慧
商業智慧
 
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
 
适应业务需求的甲骨文存储解决方案及产品演示
适应业务需求的甲骨文存储解决方案及产品演示适应业务需求的甲骨文存储解决方案及产品演示
适应业务需求的甲骨文存储解决方案及产品演示
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
 
传媒梦工场分享
传媒梦工场分享传媒梦工场分享
传媒梦工场分享
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
企业信息系统性能优化实战
企业信息系统性能优化实战企业信息系统性能优化实战
企业信息系统性能优化实战
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
 
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产
 
Actuate presentation 2011
Actuate presentation   2011Actuate presentation   2011
Actuate presentation 2011
 
民间秘方
民间秘方民间秘方
民间秘方
 
「大數據之路:阿里巴巴大數據實戰」 讀書心得
「大數據之路:阿里巴巴大數據實戰」 讀書心得「大數據之路:阿里巴巴大數據實戰」 讀書心得
「大數據之路:阿里巴巴大數據實戰」 讀書心得
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
 

More from medcl

Using SaltStack To AutoDeploy ElasticSearch
Using SaltStack To AutoDeploy ElasticSearchUsing SaltStack To AutoDeploy ElasticSearch
Using SaltStack To AutoDeploy ElasticSearchmedcl
 
Elastic Search Training#1 (brief tutorial)-ESCC#1
Elastic Search Training#1 (brief tutorial)-ESCC#1Elastic Search Training#1 (brief tutorial)-ESCC#1
Elastic Search Training#1 (brief tutorial)-ESCC#1medcl
 
ElasticSearch Training#2 (advanced concepts)-ESCC#1
ElasticSearch Training#2 (advanced concepts)-ESCC#1ElasticSearch Training#2 (advanced concepts)-ESCC#1
ElasticSearch Training#2 (advanced concepts)-ESCC#1medcl
 
Git 使用介绍
Git 使用介绍Git 使用介绍
Git 使用介绍medcl
 
Elastic search intro-@lamper
Elastic search intro-@lamperElastic search intro-@lamper
Elastic search intro-@lampermedcl
 
quick intro to elastic search
quick intro to elastic search quick intro to elastic search
quick intro to elastic search medcl
 
Restful
RestfulRestful
Restfulmedcl
 

More from medcl (7)

Using SaltStack To AutoDeploy ElasticSearch
Using SaltStack To AutoDeploy ElasticSearchUsing SaltStack To AutoDeploy ElasticSearch
Using SaltStack To AutoDeploy ElasticSearch
 
Elastic Search Training#1 (brief tutorial)-ESCC#1
Elastic Search Training#1 (brief tutorial)-ESCC#1Elastic Search Training#1 (brief tutorial)-ESCC#1
Elastic Search Training#1 (brief tutorial)-ESCC#1
 
ElasticSearch Training#2 (advanced concepts)-ESCC#1
ElasticSearch Training#2 (advanced concepts)-ESCC#1ElasticSearch Training#2 (advanced concepts)-ESCC#1
ElasticSearch Training#2 (advanced concepts)-ESCC#1
 
Git 使用介绍
Git 使用介绍Git 使用介绍
Git 使用介绍
 
Elastic search intro-@lamper
Elastic search intro-@lamperElastic search intro-@lamper
Elastic search intro-@lamper
 
quick intro to elastic search
quick intro to elastic search quick intro to elastic search
quick intro to elastic search
 
Restful
RestfulRestful
Restful
 

数据挖掘理论与实践

  • 2. 大纲 • 什么是数据挖掘? • 数据挖掘有什么用? • 数据挖掘的相关理论 • 数据挖掘的相关技术 • 数据挖掘的实际应用
  • 3. 什么是数据挖掘? • 从一大堆数据集里面提取隐含的,以前未 知的,有潜在应用价值信息的非平凡过程。 • 多学科领域融合。
  • 4. 背景 • 数据挖掘 - - data mining • 背景 – 数据 • 随着业务增长,急剧膨胀, – GB、TB、PB、EB、ZB … … • 数据足够,但无法利用,或利用率很低 • 数据孤岛、数据死角 • 数据复杂度、维度很高 • 需要使数据可见 • 数据 -》知识 -》决策 – 从每天海量的销售数据中发现商机!
  • 5. 典型案例 • 电信 • 移动 – BASS(业务经营分析系统) • 沃尔玛(since1980) 欺诈检测 客户关系管理 科学探索 信用等级 决策支持 趋势分析 联网审计 工程设计 市场预测 Spam检测 关联销售
  • 6. 数据挖掘的目标 • 预测:从历史发现未来 • 描叙:了解数据中潜在规律 • 分类:划分数据 • 聚类:自动聚合同类数据 • 关联规则挖掘 • 序列模式挖掘 • 优化:最优化有限资源的使用,如空间、时间、 金钱、物质 • 异常检测 • 。。。
  • 8. Knowledge Discovery & Data Mining… More theory Focused on More Presenting , based , extraction heuristic, assist to focused on patterns exploring, analysis or testing from data learning decision hypotheses Data Machine Visualization Statistics Mining Learning Knowledge Discovery
  • 9. 数据仓库 • Subject Oriented、Integrate、Non-Volatile、 Time Variant • 存储大量的、决策分析所必需的、历史的、分 散的各种数据,经过处理将这些资料和数据转 换成集中统一、随时可用的信息 • 为Data Mining及BI做准备 – 统计分析、人工智能、预测、多维报表等
  • 11. OLAP • 多维数据模型: – 维度 • 维度属性 • 层级维度 • 时间维度 • …… – 度量 • 度量值 • 度量值组 – 星形、雪花型 • OLAP的基本操作: • 钻取(Drill-down、Roll-up、Drill-across、Drill-through)、 • 切片(Slice) • 切块(Dice)以及旋转(Pivot)
  • 12. 何谓ETL? Extraction Transformation Load 平面文件、xml、关系型数据库、excel、access,etc. 无法处理非结构化数据:文本、音频、视频等
  • 13. 数据仓库与传统数据库的比较 • 大小 – 数据库-》数据集市-》数据仓库 • 数据仓库的大小会远远大于数据库的大小 – 历史数据 – 综合数据 – 计算数据 • 结构 – 数据库:二维平面 – 数据仓库:多维立体
  • 14. 一些概念 • OLTP(On-line Transaction Processing) • OLAP(On-line Analytical Processing) • ETL(Extraction-Transformation-Load) • DSS(Decision Support System) • MDM(Master Data Management)KDD (Knowledge-Discovery in Databases)
  • 15. 决策分析 • 决策主题 – 决策分析模型 • 维度指标 • 事实数据
  • 17. Design • 业务分析调研 • 界定系统边界 • 确定主题域 • 概念模型设计 • 模型评估 • etc
  • 18. Data Collection & Availability • 数据收集 • 数据整理 • ETL(抽取,转换,装载) • 数据从哪来? – 数据库 – 财务报表 – Web站点 这数据也太多了,怎么办? – 销售记录 围绕一个业务主题! – 库存记录 – 账单 – ……
  • 19. Modeling • 模型的构建是一个不断优化的过程 • Business、Business • Data、Data • Business & Data • Sample & Test
  • 20. Presentation& Visualization • 查询 • 报表 • 多维分析 • 直方图、柱形图等各种可视化手段 • 平均,最大,最小,方差等各种统计方法
  • 21. Analystic & Discovery • 分析 • 对挖掘结果进行解释 • 评估挖掘结果 • 应用发现的知识
  • 23. 统计分析 • 序列统计 • 概率论 • 回归分析 • 类别数据分析 • 模糊计算理论 • 基因算法
  • 24. 常用分析方法 • 分类 (Classification) • 聚集(Clustering) • 关联(Association) – 简单关联、时序关联、因果关联 • 估值(Estimation) • 预测(Prediction)
  • 25. 决策树(Decision Trees) • 神经网络(Neural Network) • 规则归纳法(Rules Induction) • Logistic回归(Logistic Regression) • ……
  • 26. Business Intelligence • 连接数据与决策者 • 一种运用了数据仓库、在线分析和数据挖掘等技术来处 理和分析数据的崭新技术,目的是为企业决策者提供决 策支持 • 查询 • 报表 • OLAP • 一般还包括 • 元数据管理、主数据管理 • 数据治理、数据整合 • 数据质量管理 • 生命周期管理
  • 27. Business Intelligence Querying Reporting Data Mining OLAP Data Warehouse Data Mart Data
  • 28. BOBI方案 Business Objects 商务智能解决方案 数据整合* 信息展现* 财务信息 数据仓库 Extract –Transform - Load 绩效管理(EPM) 决策者 销售信息 随机查询(ad*hoc) 管理者 “ETL” 分析门户 分析员 多维分析(OLAP) … 业务员 Oracle 其他信息 SQL Server 固定报表 DB2 BOBJ TeraData Data Integrator … BOE 商务智能平台 Slide 37 Confidential and proprietary. Copyright © 2005 Business Objects S.A. All rights reserved.
  • 30. Data Warehouse • IBM DB2 • Oracle • Sybase IQ • NCR Teradata
  • 31. ETL • DTS、SSIS • OWB(Oracle Warehouse Builder) • ODI(Oracle Data Integrator) • Informatic PowerCenter • AICloudETL • DataStage • Repository Explorer • Beeload • Kettle,Pentaho • DataSpider
  • 32. BI • IBM Cognos • Business Objects • MicroStrategy • Hyperion • Business Objects (07年被SAP收购) • SQL Server Analysis Server、Reporting Services • 润乾报表
  • 33. Data Mining • SAS(Statistical Analysis System) • IBM QUEST • SGI MineSet • SPSS Clementine • DBMiner • Oracle Darwin
  • 34. 相关领域 • Web mining • Text mining • Spatial data mining(空间数据挖掘) • Social data mining
  • 35. 开源的数据挖掘工具 • RapidMiner,http://rapid-i.com/ • Kettle,ETL工具,http://kettle.pentaho.com/ • Orange,http://www.ailab.si/orange • R,统计分析,http://www.r-project.org • Tanagra , • Weka,机器学习,http://eric.univ-lyon2.fr/wricco/tanagra • KNIME,http://knime.org/ • Ggobi,可视化,http://www.ggobi.org/ • Gephi,可视化,http://gephi.org/ • Mahout, http://mahout.apache.org/ • Jhepwork,http://jwork.org/jhepwork/ • ……