SlideShare a Scribd company logo
1 of 13
大数据 vs 数据挖掘
大数据是什么
大数据(big data,mega data),或称
巨量资料,指的是需要新处理模
式才能具有更强的决策力、洞察
力和流程优化能力的海量、高增
长率和多样化的信息资产。
大数据与云计算的关系就像一枚
硬币的正反面一样密不可分。
HACE定理:大数据是巨大,无中
心循环自生的,关系复杂且变化
的。
1998:
Big Data
and the
Next Wave
of …
2005:
Web 2.0
2006:
Google
Analytic
2012:
Facebook
IPO
大数据的纬度
数据 技术
创意
数据挖掘是什么
数据挖掘(英语:Data mining),
又译为资料探勘、数据采矿。它
是数据库知识发现(KDD)中的一
个步骤。数据挖掘一般是指从大
量的数据中通过算法搜索隐藏于
其中信息的过程。数据挖掘通常
与计算机科学有关,并通过统计、
在线分析处理、情报检索、机器
学习、专家系统和模式识别等诸
多方法来实现上述目标。
各种来
源数据
数据库
或者数
据仓库
数据
挖掘
引擎
模式
评估
用户
界面
知识库
数据挖掘能挖掘什么
概念性描述:用户画像;
频繁模式,关联:推荐系统;
分类;
聚类:寻找新的分类;
离群点分析:
演变分析,时间序列:预测未来。
易于理解,有效,有用,新的。
数据库
技术
统计学
信息科
学
可视化
机器学
习数据
挖掘
DMQL:
与任务相关的数据;
要挖掘的知识类型;
用于挖掘过程的背景知识;
评估模式的兴趣度度量和
阈值;
可视化发现模式的期望表
示
CRISP-DM
大数据和数据挖掘区别
趋势分析
Data
mining
Web 2.0 Big data Mobile
internet
图表来自Google Trends,虚线为预测部分
整体 vs 个体
关注个体间的关系,集体表现特性。
关注关联关系,注重实际应用,不
追究因果关系。
个体间通常有很多的联系,交互。
关注个体的细节,数据由什么构成。
关注因果关系,注重理论知识。
根据实验理论,个体间彼此是分离
的。
多样 vs 抽样
关注一切可能获取的数据,考虑数
据全部。
数据可以多次被使用,陈旧数据不
会删除。
非结构化,无层次。
采用分布式部署。
数据一般人工收集而来,按照一定的
规则进行抽样。
陈旧数据一般不使用,为节约空间一
般会以别的形式存放。
数据是规范的,有层次。
一般是单机。
简单算法 vs 专家参与
对先验知识的依赖性低,基本不需要
人工参与。
对大量数据实施简单算法。
能自动调整适应。
严重依赖于先验知识和数据挖掘者的
经验。
算法复杂:概率算法,神经网络等。
会出现滚雪球的灾难。
容错 vs 精确
大数据下,错误会抵消。
允许一些数据项为空。
错误的数据也是有价值的。
使用统计方法,去掉错误数据。
对空的数据,进行填补或者抛弃。
抛弃错误数据,不处理。
快速 vs 固定
数据高速,实时增加。
要么现在开始,要不就不要开始。
这一秒有效,下一秒就无效。
针对一个固定的数据集。
可以有长时间的准备和挖掘过程。
知识长期可用。
谢谢大家看我装逼

More Related Content

What's hot

数据的价值和灵魂
数据的价值和灵魂数据的价值和灵魂
数据的价值和灵魂学峰 司
 
浅谈数据科学
浅谈数据科学浅谈数据科学
浅谈数据科学学峰 司
 
对My sql dba的一些思考
对My sql dba的一些思考对My sql dba的一些思考
对My sql dba的一些思考thinkinlamp
 
揭开数据虚拟化的神秘面纱
揭开数据虚拟化的神秘面纱揭开数据虚拟化的神秘面纱
揭开数据虚拟化的神秘面纱Denodo
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Etu Solution
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2Hans Shih
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusDenodo
 
Distributed Real-time Data Collection for Enterprises 1.0 v03
Distributed Real-time Data Collection for Enterprises 1.0 v03Distributed Real-time Data Collection for Enterprises 1.0 v03
Distributed Real-time Data Collection for Enterprises 1.0 v03Andrew Chen
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构Denodo
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践medcl
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Etu Solution
 
Spark Introduction
Spark IntroductionSpark Introduction
Spark IntroductionKevin Zhang
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)Yu Zhang
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Etu Solution
 
DSP 資料科學計畫簡介
DSP 資料科學計畫簡介DSP 資料科學計畫簡介
DSP 資料科學計畫簡介codefortomorrow
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Ching-Lin Tao
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Denodo
 
Postmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingPostmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingGandalf Huang
 

What's hot (20)

数据的价值和灵魂
数据的价值和灵魂数据的价值和灵魂
数据的价值和灵魂
 
浅谈数据科学
浅谈数据科学浅谈数据科学
浅谈数据科学
 
对My sql dba的一些思考
对My sql dba的一些思考对My sql dba的一些思考
对My sql dba的一些思考
 
揭开数据虚拟化的神秘面纱
揭开数据虚拟化的神秘面纱揭开数据虚拟化的神秘面纱
揭开数据虚拟化的神秘面纱
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
 
Distributed Real-time Data Collection for Enterprises 1.0 v03
Distributed Real-time Data Collection for Enterprises 1.0 v03Distributed Real-time Data Collection for Enterprises 1.0 v03
Distributed Real-time Data Collection for Enterprises 1.0 v03
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
Spark Introduction
Spark IntroductionSpark Introduction
Spark Introduction
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)
 
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動Data Leaders in Action - 資料價值領袖風範與關鍵行動
Data Leaders in Action - 資料價值領袖風範與關鍵行動
 
Silf2012lw3
Silf2012lw3Silf2012lw3
Silf2012lw3
 
DSP 資料科學計畫簡介
DSP 資料科學計畫簡介DSP 資料科學計畫簡介
DSP 資料科學計畫簡介
 
Dmresearch
DmresearchDmresearch
Dmresearch
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
 
Postmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingPostmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharing
 

Viewers also liked (19)

Gerak
GerakGerak
Gerak
 
Soal ukk ipa k7s2
Soal ukk ipa k7s2Soal ukk ipa k7s2
Soal ukk ipa k7s2
 
Nice ads profile pdf
Nice ads profile pdfNice ads profile pdf
Nice ads profile pdf
 
Nice Ads Profile Pdf
Nice Ads Profile PdfNice Ads Profile Pdf
Nice Ads Profile Pdf
 
Hbase拾荒者
Hbase拾荒者Hbase拾荒者
Hbase拾荒者
 
Wordnet affect-071116
Wordnet affect-071116Wordnet affect-071116
Wordnet affect-071116
 
抱着马云大腿谈谈管理
抱着马云大腿谈谈管理抱着马云大腿谈谈管理
抱着马云大腿谈谈管理
 
Fotosintesis presentasi
Fotosintesis presentasiFotosintesis presentasi
Fotosintesis presentasi
 
我们需要你是这样的
我们需要你是这样的我们需要你是这样的
我们需要你是这样的
 
Sistem gerak bali media
Sistem gerak bali mediaSistem gerak bali media
Sistem gerak bali media
 
Soal gaya
Soal gayaSoal gaya
Soal gaya
 
大数据保险 副本
大数据保险   副本大数据保险   副本
大数据保险 副本
 
谈谈小米的营销
谈谈小米的营销谈谈小米的营销
谈谈小米的营销
 
Soal prediksiku 2
Soal prediksiku 2Soal prediksiku 2
Soal prediksiku 2
 
Paket o
Paket oPaket o
Paket o
 
Pelatihan rawa bunga 2014
Pelatihan rawa bunga 2014Pelatihan rawa bunga 2014
Pelatihan rawa bunga 2014
 
Materi biologi plantae
Materi biologi plantaeMateri biologi plantae
Materi biologi plantae
 
Flume
FlumeFlume
Flume
 
排队排队--kafka
排队排队--kafka排队排队--kafka
排队排队--kafka
 

Similar to 大数据 数据挖掘

大數據時代的必備工具-Google Analytics
大數據時代的必備工具-Google Analytics大數據時代的必備工具-Google Analytics
大數據時代的必備工具-Google Analytics新頁 陳
 
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合Gene Hong
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnyp_fangdong
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizopporAccenture
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践hdhappy001
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题hdhappy001
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望mysqlops
 
Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Lawrence Huang
 
Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data – 意圖,讓我們聚在這裡
Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data  – 意圖,讓我們聚在這裡Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data  – 意圖,讓我們聚在這裡
Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data – 意圖,讓我們聚在這裡Etu Solution
 
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全Jerry Wen
 
医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略Denodo
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
构建现代数据架构的基础
构建现代数据架构的基础构建现代数据架构的基础
构建现代数据架构的基础Denodo
 
Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Fred Chiang
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統Gene Hong
 
AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805
AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805
AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805張大明 Ta-Ming Chang
 

Similar to 大数据 数据挖掘 (20)

大數據時代的必備工具-Google Analytics
大數據時代的必備工具-Google Analytics大數據時代的必備工具-Google Analytics
大數據時代的必備工具-Google Analytics
 
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizoppor
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
 
魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题魏凯:大数据商业利用的政策管制问题
魏凯:大数据商业利用的政策管制问题
 
What is big data
What is big dataWhat is big data
What is big data
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望
 
Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620Way to big date 資策會李進寶所長 20120620
Way to big date 資策會李進寶所長 20120620
 
Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data – 意圖,讓我們聚在這裡
Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data  – 意圖,讓我們聚在這裡Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data  – 意圖,讓我們聚在這裡
Big Data Taiwan 2014 Keynote 1: Why and How We Monetize Data – 意圖,讓我們聚在這裡
 
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
 
医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略医药企业的数字化转型 - 逻辑数据结构策略
医药企业的数字化转型 - 逻辑数据结构策略
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
构建现代数据架构的基础
构建现代数据架构的基础构建现代数据架构的基础
构建现代数据架构的基础
 
Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
Hadoop
HadoopHadoop
Hadoop
 
從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統從專家到社群 即時資訊採集分析系統
從專家到社群 即時資訊採集分析系統
 
AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805
AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805
AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805
 

大数据 数据挖掘