SlideShare a Scribd company logo
1 of 72
数据挖掘技术概述及前景展望 Data Mining and Prospect 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘由来 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘的原由 可怕的数据 有价值的知识 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办 数据存储成本越来越低,数据库越来越大……    数据挖掘
数据挖掘技术的由来 ,[object Object],“ 要学会抛弃信息 ”   “ 如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率? ” “ 需要是发明之母”-数据挖掘:海量数据的自动分析技术 数据开采和知识发现( DMKD )技术应运而生 Gartner Group 的一次高级技术调查将数据挖掘和人工智能列为 “ 未来三到五年内将对工业产生深远影响的五大关键技术 ” 之首   商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘技术的由来 ,[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办 进化阶段  商业问题  支持技术  产品厂家  产品特点  数据搜集 (60 年代 )  “ 过去五年中我的总收入是多少? ” 计算机 , 磁带和磁盘  IBM,CDC 提供历史性的、静态的数据信息 数据访问 (80 年代 ) “ 在新英格兰的分部去年三月的销售额是多少? ” 关系数据库( RDBMS ) , 结构化查询语言 SQL ) ,ODBC, Oracle,Sybase,Informix,IBM,Microsoft Oracle,Sybase,Informix,IBM,Microsoft 在记录级提供历史性的、动态数据信息 数据仓库;决策支持 (90 年代 ) “ 在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论? ” 联机分析处理( OLAP ) , 多维数据库 , 数据仓库 Pilot,Comshare,Arbor,Cognos,Microstrategy 在各种层次上提供回溯的、动态的数据信息 数据挖掘(正在流行) “ 下个月波士顿的销售会怎么样?为什么? ” 高级算法 , 多处理器计算机 , 海量数据库 Pilot,Lockheed,IBM,SGI, 其他初创公司 提供预测性的信息
数据挖掘概念的提出 ,[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘概念的提出 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘的定义 ,[object Object],数据挖掘( Data Mining )就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。   商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘的定义 ,[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘的定义 ,[object Object],数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。   商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
知识是什么 …… Data Information Knowledge Wisdom ,[object Object],Data + context Information +  rules Knowledge + experience 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
知识发现( KDD )的过程 数据清理筛选 数据 目标数据 Knowledge 预处理及变换 变换后的数据 数据挖掘 解释 / 评估 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘是一个交叉学科领域 商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办 数据挖掘 数据库技术 统计学 其他学科 信息科学 机器学习 可视化
数据挖掘与数据仓库 通用数据仓库技术架构 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办 计费系统 客服系统 源数据 其他业务系统 外部数据 数据挖掘 信用评分 离网预警 客户细分 交叉销售 OLAP 多维分析 数据访问 数据分析 报表 查询 中间 层 中间 层 中间件 中间件 多维数据库 数据抽取、 转换、装载 数据仓库 管理工具 ,[object Object],[object Object],[object Object],数据清洗工具 数据建模工具 中心 元数据 数据集市 中心数据仓库 数据 集市 数据 集市 中心 数据 仓库 局部  元数据 局部  元数据 局部  元数据 元数据 交换 关系数据库 关系数据库
数据仓库与数据挖掘的关系 ,[object Object],[object Object],[object Object],[object Object],数据存储、组织、管理 分析、探索模型 Data  Warehouse Data  Mining $0.5-5M $30-200K 商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘与 OLAP ,[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
[object Object],数据挖掘系统结构 数据仓库 数据清理  数据集成 过滤 数据库 数据库或数据仓库服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
分析问题 数据 数据 数据 数据仓库 多维数据集 创建和训练模型 校验数据 数据挖掘 模型维护 数据挖掘 数据清洗和转换 查询数据 客户端数据查询 OLAP 数 据 挖 掘 过 程 数据挖掘 结果解释 查询数据 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
挖掘项目工作流程 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘过程 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
从系统设计看数据挖掘过程模型 ,[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
Fayyad 过程模型   商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
CRISP -DM  ( Cross-Industry Standard Process for Data Mining ) 过程模型   商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘方法论 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘技术分类 数据挖掘 验证驱动挖掘 发现驱动挖掘 SQL SQL 生成器 查询工具 OLAP 描述 预测 可视化 聚类 关联规则 顺序关联 汇总描述 分类 统计回归 时间序列 决策树 神经网路 商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘的任务和方法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
预测模型 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
关联分析 ,[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
分类分析 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
聚类分析 ,[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
序列分析 ,[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
偏差检测 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
模式相似性挖掘 ,[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
Web 数据挖掘 ,[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],常用的数据挖掘方法 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
神经网络 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘常用的 10 大算法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
4. 经典的 Apriori 算法 算法思想: Aprior 算法思想基于如下定理: 若 c[k] ∈ 频繁集, m<k , 则  频繁集 故可以用短的频繁集中元素构造长的频繁集 元素 算法目的:提高频繁集发现效率 商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘工具简介 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
三大工具总体评分 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办 功能 总分     软件   IBM  SAS      Intelligent Enterprise SPSS 权值 Miner Miner Clementine 数据存取 10% 75 90 80 数据处理 20% 93 100 98 模型算法 30% 91 96 91 自动建模 10% 92 100 86 可视化 15% 88 95 91 其它 15% 78 92 56 总分 100% 88  96  86
数据挖掘工具介绍 — Intelligent Miner ,[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘工具介绍 — SAS Enterprise Miner ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
SAS Enterprise Miner:   scatter plots 商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘工具介绍 — IBM   Intelligent Miner ,[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘工具介绍 —   Spss 的  Clementine ,[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘工具介绍 —   Spss 的  Clementine ,[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘工具介绍 —   Spss 的  Clementine ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
Clementine  操作界面 商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
筛选潜在诈欺案例的两种方法   -  “ 异常检测 ” 和基于 “ 神经网络 ” 的建模方法。   商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
数据挖掘技术应用广泛 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
市场营销的应用 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
财务的应用 ,[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
制造业的应用 ,[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
银行业务的应用 ,[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
医疗保健的应用 ,[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
刑事案件中的应用 ,[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
数据挖掘的前景 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办
几点体会总结 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办 实施数据挖掘是一个战略性举措 数据挖掘是年轻充满希望的研究领域 数据挖掘不是万能的解决方案 数据挖掘是一个循环探索的过程
参考文献 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
网络资源 ,[object Object],[object Object],[object Object],[object Object],[object Object],商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
Thank You ! 商业智能研讨沙龙 - 上海站  ITPUB ChinaUnix IXPUB 主办

More Related Content

Viewers also liked

Indexing and Query Optimizer
Indexing and Query OptimizerIndexing and Query Optimizer
Indexing and Query OptimizerMongoDB
 
Schema design short
Schema design shortSchema design short
Schema design shortMongoDB
 
Keeping data-safe-webinar-2010-11-01
Keeping data-safe-webinar-2010-11-01Keeping data-safe-webinar-2010-11-01
Keeping data-safe-webinar-2010-11-01MongoDB
 
Modeling for Performance
Modeling for PerformanceModeling for Performance
Modeling for PerformanceMongoDB
 
Mongo Berlin - Mastering the Shell
Mongo Berlin - Mastering the ShellMongo Berlin - Mastering the Shell
Mongo Berlin - Mastering the ShellMongoDB
 
Morning with MongoDB Paris 2012 - Making Big Data Small
Morning with MongoDB Paris 2012 - Making Big Data SmallMorning with MongoDB Paris 2012 - Making Big Data Small
Morning with MongoDB Paris 2012 - Making Big Data SmallMongoDB
 
Indexing and Query Optimizer (Richard Kreuter)
Indexing and Query Optimizer (Richard Kreuter)Indexing and Query Optimizer (Richard Kreuter)
Indexing and Query Optimizer (Richard Kreuter)MongoDB
 
Indexing with MongoDB
Indexing with MongoDBIndexing with MongoDB
Indexing with MongoDBMongoDB
 

Viewers also liked (8)

Indexing and Query Optimizer
Indexing and Query OptimizerIndexing and Query Optimizer
Indexing and Query Optimizer
 
Schema design short
Schema design shortSchema design short
Schema design short
 
Keeping data-safe-webinar-2010-11-01
Keeping data-safe-webinar-2010-11-01Keeping data-safe-webinar-2010-11-01
Keeping data-safe-webinar-2010-11-01
 
Modeling for Performance
Modeling for PerformanceModeling for Performance
Modeling for Performance
 
Mongo Berlin - Mastering the Shell
Mongo Berlin - Mastering the ShellMongo Berlin - Mastering the Shell
Mongo Berlin - Mastering the Shell
 
Morning with MongoDB Paris 2012 - Making Big Data Small
Morning with MongoDB Paris 2012 - Making Big Data SmallMorning with MongoDB Paris 2012 - Making Big Data Small
Morning with MongoDB Paris 2012 - Making Big Data Small
 
Indexing and Query Optimizer (Richard Kreuter)
Indexing and Query Optimizer (Richard Kreuter)Indexing and Query Optimizer (Richard Kreuter)
Indexing and Query Optimizer (Richard Kreuter)
 
Indexing with MongoDB
Indexing with MongoDBIndexing with MongoDB
Indexing with MongoDB
 

Similar to 数据挖掘技术概述及前景展望

数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘mysqlops
 
Skymind - Udacity China presentation
Skymind - Udacity China presentationSkymind - Udacity China presentation
Skymind - Udacity China presentationAdam Gibson
 
從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統Gene Hong
 
搜索 VS 查询
搜索 VS 查询搜索 VS 查询
搜索 VS 查询liluming
 
Web信息架构
Web信息架构Web信息架构
Web信息架构rex song
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘Riquelme624
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产Denodo
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehousejasonfuoo
 
六合彩
六合彩六合彩
六合彩dizhen
 
香港六合彩
香港六合彩香港六合彩
香港六合彩cxljdqd
 
社交网络在知识管理的应用 Share (gss-bj)
社交网络在知识管理的应用 Share (gss-bj)社交网络在知识管理的应用 Share (gss-bj)
社交网络在知识管理的应用 Share (gss-bj)Yeong-Long Chen
 
廖若雪 搜索新时代之深层网络检索
廖若雪   搜索新时代之深层网络检索廖若雪   搜索新时代之深层网络检索
廖若雪 搜索新时代之深层网络检索drewz lin
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdfmarkmind
 

Similar to 数据挖掘技术概述及前景展望 (20)

Dmresearch
DmresearchDmresearch
Dmresearch
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘
 
Data Mining
Data MiningData Mining
Data Mining
 
Skymind - Udacity China presentation
Skymind - Udacity China presentationSkymind - Udacity China presentation
Skymind - Udacity China presentation
 
功能導向再造圖書館新風貌
功能導向再造圖書館新風貌功能導向再造圖書館新風貌
功能導向再造圖書館新風貌
 
從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統
 
搜索 VS 查询
搜索 VS 查询搜索 VS 查询
搜索 VS 查询
 
Web信息架构
Web信息架构Web信息架构
Web信息架构
 
Dltrendsatzjpolytech
DltrendsatzjpolytechDltrendsatzjpolytech
Dltrendsatzjpolytech
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
預測性分析
預測性分析預測性分析
預測性分析
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehouse
 
六合彩
六合彩六合彩
六合彩
 
香港六合彩
香港六合彩香港六合彩
香港六合彩
 
社交网络在知识管理的应用 Share (gss-bj)
社交网络在知识管理的应用 Share (gss-bj)社交网络在知识管理的应用 Share (gss-bj)
社交网络在知识管理的应用 Share (gss-bj)
 
廖若雪 搜索新时代之深层网络检索
廖若雪   搜索新时代之深层网络检索廖若雪   搜索新时代之深层网络检索
廖若雪 搜索新时代之深层网络检索
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf
 

More from mysqlops

The simplethebeautiful
The simplethebeautifulThe simplethebeautiful
The simplethebeautifulmysqlops
 
Oracle数据库分析函数详解
Oracle数据库分析函数详解Oracle数据库分析函数详解
Oracle数据库分析函数详解mysqlops
 
Percona Live 2012PPT:mysql-security-privileges-and-user-management
Percona Live 2012PPT:mysql-security-privileges-and-user-managementPercona Live 2012PPT:mysql-security-privileges-and-user-management
Percona Live 2012PPT:mysql-security-privileges-and-user-managementmysqlops
 
Percona Live 2012PPT: introduction-to-mysql-replication
Percona Live 2012PPT: introduction-to-mysql-replicationPercona Live 2012PPT: introduction-to-mysql-replication
Percona Live 2012PPT: introduction-to-mysql-replicationmysqlops
 
Percona Live 2012PPT: MySQL Cluster And NDB Cluster
Percona Live 2012PPT: MySQL Cluster And NDB ClusterPercona Live 2012PPT: MySQL Cluster And NDB Cluster
Percona Live 2012PPT: MySQL Cluster And NDB Clustermysqlops
 
Percona Live 2012PPT: MySQL Query optimization
Percona Live 2012PPT: MySQL Query optimizationPercona Live 2012PPT: MySQL Query optimization
Percona Live 2012PPT: MySQL Query optimizationmysqlops
 
Pldc2012 innodb architecture and internals
Pldc2012 innodb architecture and internalsPldc2012 innodb architecture and internals
Pldc2012 innodb architecture and internalsmysqlops
 
DBA新人的述职报告
DBA新人的述职报告DBA新人的述职报告
DBA新人的述职报告mysqlops
 
分布式爬虫
分布式爬虫分布式爬虫
分布式爬虫mysqlops
 
MySQL应用优化实践
MySQL应用优化实践MySQL应用优化实践
MySQL应用优化实践mysqlops
 
eBay EDW元数据管理及应用
eBay EDW元数据管理及应用eBay EDW元数据管理及应用
eBay EDW元数据管理及应用mysqlops
 
基于协程的网络开发框架的设计与实现
基于协程的网络开发框架的设计与实现基于协程的网络开发框架的设计与实现
基于协程的网络开发框架的设计与实现mysqlops
 
eBay基于Hadoop平台的用户邮件数据分析
eBay基于Hadoop平台的用户邮件数据分析eBay基于Hadoop平台的用户邮件数据分析
eBay基于Hadoop平台的用户邮件数据分析mysqlops
 
对MySQL DBA的一些思考
对MySQL DBA的一些思考对MySQL DBA的一些思考
对MySQL DBA的一些思考mysqlops
 
QQ聊天系统后台架构的演化与启示
QQ聊天系统后台架构的演化与启示QQ聊天系统后台架构的演化与启示
QQ聊天系统后台架构的演化与启示mysqlops
 
腾讯即时聊天IM1.4亿在线背后的故事
腾讯即时聊天IM1.4亿在线背后的故事腾讯即时聊天IM1.4亿在线背后的故事
腾讯即时聊天IM1.4亿在线背后的故事mysqlops
 
分布式存储与TDDL
分布式存储与TDDL分布式存储与TDDL
分布式存储与TDDLmysqlops
 
MySQL数据库生产环境维护
MySQL数据库生产环境维护MySQL数据库生产环境维护
MySQL数据库生产环境维护mysqlops
 

More from mysqlops (20)

The simplethebeautiful
The simplethebeautifulThe simplethebeautiful
The simplethebeautiful
 
Oracle数据库分析函数详解
Oracle数据库分析函数详解Oracle数据库分析函数详解
Oracle数据库分析函数详解
 
Percona Live 2012PPT:mysql-security-privileges-and-user-management
Percona Live 2012PPT:mysql-security-privileges-and-user-managementPercona Live 2012PPT:mysql-security-privileges-and-user-management
Percona Live 2012PPT:mysql-security-privileges-and-user-management
 
Percona Live 2012PPT: introduction-to-mysql-replication
Percona Live 2012PPT: introduction-to-mysql-replicationPercona Live 2012PPT: introduction-to-mysql-replication
Percona Live 2012PPT: introduction-to-mysql-replication
 
Percona Live 2012PPT: MySQL Cluster And NDB Cluster
Percona Live 2012PPT: MySQL Cluster And NDB ClusterPercona Live 2012PPT: MySQL Cluster And NDB Cluster
Percona Live 2012PPT: MySQL Cluster And NDB Cluster
 
Percona Live 2012PPT: MySQL Query optimization
Percona Live 2012PPT: MySQL Query optimizationPercona Live 2012PPT: MySQL Query optimization
Percona Live 2012PPT: MySQL Query optimization
 
Pldc2012 innodb architecture and internals
Pldc2012 innodb architecture and internalsPldc2012 innodb architecture and internals
Pldc2012 innodb architecture and internals
 
DBA新人的述职报告
DBA新人的述职报告DBA新人的述职报告
DBA新人的述职报告
 
分布式爬虫
分布式爬虫分布式爬虫
分布式爬虫
 
MySQL应用优化实践
MySQL应用优化实践MySQL应用优化实践
MySQL应用优化实践
 
eBay EDW元数据管理及应用
eBay EDW元数据管理及应用eBay EDW元数据管理及应用
eBay EDW元数据管理及应用
 
基于协程的网络开发框架的设计与实现
基于协程的网络开发框架的设计与实现基于协程的网络开发框架的设计与实现
基于协程的网络开发框架的设计与实现
 
eBay基于Hadoop平台的用户邮件数据分析
eBay基于Hadoop平台的用户邮件数据分析eBay基于Hadoop平台的用户邮件数据分析
eBay基于Hadoop平台的用户邮件数据分析
 
对MySQL DBA的一些思考
对MySQL DBA的一些思考对MySQL DBA的一些思考
对MySQL DBA的一些思考
 
QQ聊天系统后台架构的演化与启示
QQ聊天系统后台架构的演化与启示QQ聊天系统后台架构的演化与启示
QQ聊天系统后台架构的演化与启示
 
腾讯即时聊天IM1.4亿在线背后的故事
腾讯即时聊天IM1.4亿在线背后的故事腾讯即时聊天IM1.4亿在线背后的故事
腾讯即时聊天IM1.4亿在线背后的故事
 
分布式存储与TDDL
分布式存储与TDDL分布式存储与TDDL
分布式存储与TDDL
 
MySQL数据库生产环境维护
MySQL数据库生产环境维护MySQL数据库生产环境维护
MySQL数据库生产环境维护
 
Memcached
MemcachedMemcached
Memcached
 
DevOPS
DevOPSDevOPS
DevOPS
 

数据挖掘技术概述及前景展望

  • 1. 数据挖掘技术概述及前景展望 Data Mining and Prospect 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB 主办
  • 2.
  • 3. 数据挖掘的原由 可怕的数据 有价值的知识 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办 数据存储成本越来越低,数据库越来越大……    数据挖掘
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12. 知识发现( KDD )的过程 数据清理筛选 数据 目标数据 Knowledge 预处理及变换 变换后的数据 数据挖掘 解释 / 评估 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 13. 数据挖掘是一个交叉学科领域 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办 数据挖掘 数据库技术 统计学 其他学科 信息科学 机器学习 可视化
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20. 分析问题 数据 数据 数据 数据仓库 多维数据集 创建和训练模型 校验数据 数据挖掘 模型维护 数据挖掘 数据清洗和转换 查询数据 客户端数据查询 OLAP 数 据 挖 掘 过 程 数据挖掘 结果解释 查询数据 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 21.
  • 22.
  • 23.
  • 24. Fayyad 过程模型 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 25. CRISP -DM ( Cross-Industry Standard Process for Data Mining ) 过程模型 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 26.
  • 27. 数据挖掘技术分类 数据挖掘 验证驱动挖掘 发现驱动挖掘 SQL SQL 生成器 查询工具 OLAP 描述 预测 可视化 聚类 关联规则 顺序关联 汇总描述 分类 统计回归 时间序列 决策树 神经网路 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41. 神经网络 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 42.
  • 43.
  • 44.
  • 45. 4. 经典的 Apriori 算法 算法思想: Aprior 算法思想基于如下定理: 若 c[k] ∈ 频繁集, m<k , 则 频繁集 故可以用短的频繁集中元素构造长的频繁集 元素 算法目的:提高频繁集发现效率 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 46.
  • 47.
  • 48.
  • 49.
  • 50. 三大工具总体评分 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办 功能 总分     软件   IBM SAS     Intelligent Enterprise SPSS 权值 Miner Miner Clementine 数据存取 10% 75 90 80 数据处理 20% 93 100 98 模型算法 30% 91 96 91 自动建模 10% 92 100 86 可视化 15% 88 95 91 其它 15% 78 92 56 总分 100% 88 96 86
  • 51.
  • 52.
  • 53. SAS Enterprise Miner: scatter plots 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 54.
  • 55.
  • 56.
  • 57.
  • 58. Clementine 操作界面 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 59. 筛选潜在诈欺案例的两种方法 - “ 异常检测 ” 和基于 “ 神经网络 ” 的建模方法。 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 60.
  • 61.
  • 62.
  • 63.
  • 64.
  • 65.
  • 66.
  • 67.
  • 68.
  • 69. 几点体会总结 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办 实施数据挖掘是一个战略性举措 数据挖掘是年轻充满希望的研究领域 数据挖掘不是万能的解决方案 数据挖掘是一个循环探索的过程
  • 70. 参考文献 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办
  • 71.
  • 72. Thank You ! 商业智能研讨沙龙 - 上海站 ITPUB ChinaUnix IXPUB 主办

Editor's Notes

  1. SGI 公司:在计算机界, SGI 的名字虽不如 IBM , HP , Sun 那样有名,但其产品和技术在图形和高性能计算领域有着其它产品所无法替代的地位。 SGI 公司早期便致力于图形卡的研究和制造,后来便生产自已的图形工作站产品。 OpenGL 标准便是由 SGI 提出来的。有了图形工作站的稳固基础, SGI 又在计算领域打开了局面。这得意于 SGI 对超级计算机厂商 Cary 的收购。 SGI 独特的 ccNUMA 体系结构使其多 CPU 的服务器充分发挥处理器的性能,而且 I/O 的吞吐量也得到了成倍的增加。 所有的 SGI Unix 计算机都是采用 MIPS CPU 。目前最新的产品为 MIPS 16000,800Mhz 主频, 8Mhz Cache 的 64 位的处理器。 2006 年有段时间举步维艰,差点破产,但之后重获新生。 SAS 公司: SAS 是全球领先的商业智能和分析软件供应商,自 1976 年成立以来始终奉行 “ 家庭式 ” 企业文化。因为只有满意的员工才能带来满意的客户。我们相信,选择东方经贸城能真正体现 SAS “ 快乐工作,创意人生 ” 的宗旨,为我们的员工提供满意的工作环境