SlideShare a Scribd company logo
1 of 24
大数据技术简介
1.大数据简介及历史
2.Hadoop & Spark简介
3.Spark详解
4.Spark Demo
大数据:
一种规模大到在获取、存储、管理、分析
方面大大超出了传统数据库软件工具能力范围的
数据集合,具有海量的数据规模、快速的数据流
转、多样的数据类型和价值密度低四大特征。
机器学习算法
是一类从数据中自动分析获得规律,并利用
规律对未知数据进行预测的算法。
MapReduce: Simplified Data Processing on Large Clusters
=》Hadoop MapReduce
Bigtable: A Distributed Storage System for Structured Data
=》Hadoop Hbase
The Google File System
=》Hadoop HDFS
2004年,Google的MapReduce论文揭开了大数据处理的时代,
Hadoop的MapReduce在过去接近10年的时间成了大数据处理的
代名词。
2012年Matei Zaharia关于RDD的一篇论文“Resilient Distributed
Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster
Computing”则揭示了大数据处理技术一个新时代的到来。
1.大数据简介及历史
2.Hadoop & Spark简介
3.Spark详解
4.Spark Demo
Apache Hadoop
Apache MapReduce
Apache HDFS
Berkeley数据分析栈
Apache Spark
Apache Tachyon
Hadoop vs Spark
Hadoop vs Spark
Spark Based Structure
1.大数据简介及历史
2.Hadoop & Spark简介
3.Spark详解
4.Spark Demo
• Client:客户端进程,负责提交作业到Master。
• Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,
并命令Worker启动Driver和Executor。
• Worker:Standalone模式中slave节点上 的 守护进程 ,负责管理本节点的资源,
定期向 Master汇报心跳,接收Master的命令,启动Driver和Executor。
• Driver: 一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责
作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,
TaskScheduler。
• Executor:即真正执行作业的地方,一个集群一般包含多个Executor,每个
Executor接收Driver的命令Launch Task,一个Executor可以执行一到多个Task。
• Stage:一个Spark作业一般包含一到多个Stage。
• Task:一个Stage包含一到多个Task,通过多个Task实现并行运行的功能。
• DAGScheduler: 实现将Spark作业分解成一到多个Stage,每个Stage根据RDD的
Partition个数决定Task的个数,然后生成相应的Task set放到TaskScheduler中。
• TaskScheduler:实现Task分配到Executor上执行。
1.大数据简介及历史
2.Hadoop & Spark简介
3.Spark详解
4.Spark Demo
Spark Introduction

More Related Content

What's hot

高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DBEtu Solution
 
Yisou intro
Yisou introYisou intro
Yisou introSong Hou
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Ching-Lin Tao
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹Herman Wu
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Wei-Yu Chen
 
Hdfs introduction
Hdfs introductionHdfs introduction
Hdfs introductionbaggioss
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2Hans Shih
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Etu Solution
 
管理資訊系統
管理資訊系統管理資訊系統
管理資訊系統brian401777
 
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 HadooperFred Chiang
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big dataYuHsuan Chen
 
大数据 数据挖掘
大数据 数据挖掘大数据 数据挖掘
大数据 数据挖掘chernbb
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Jazz Yao-Tsung Wang
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务hdhappy001
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
Introduction to Hadoop
Introduction to HadoopIntroduction to Hadoop
Introduction to HadoopTechParty@UIC
 

What's hot (20)

高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
 
Yisou intro
Yisou introYisou intro
Yisou intro
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
 
資料倉儲
資料倉儲資料倉儲
資料倉儲
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
 
商業智慧
商業智慧商業智慧
商業智慧
 
Hdfs introduction
Hdfs introductionHdfs introduction
Hdfs introduction
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
 
管理資訊系統
管理資訊系統管理資訊系統
管理資訊系統
 
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data
 
大数据 数据挖掘
大数据 数据挖掘大数据 数据挖掘
大数据 数据挖掘
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Hadoop
HadoopHadoop
Hadoop
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
Introduction to Hadoop
Introduction to HadoopIntroduction to Hadoop
Introduction to Hadoop
 

Viewers also liked

Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance
 
Moreno zamudio johann camilo aporte individual
Moreno zamudio johann camilo aporte individualMoreno zamudio johann camilo aporte individual
Moreno zamudio johann camilo aporte individualJohann Moreno
 
Aflac Now Offering Telemedicine With Ally Health/MDLive
Aflac Now Offering Telemedicine With Ally Health/MDLiveAflac Now Offering Telemedicine With Ally Health/MDLive
Aflac Now Offering Telemedicine With Ally Health/MDLiveSonia Gabriel
 
What can your library do for you?
What can your library do for you?What can your library do for you?
What can your library do for you?Rajarshi Guha
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance
 
Circle Program Final Report (1)
Circle Program Final Report (1)Circle Program Final Report (1)
Circle Program Final Report (1)Derek Gower
 
Situaciones clínicas en anestesia: bradicardia y taquicardia en sop
Situaciones clínicas en anestesia: bradicardia y taquicardia en sopSituaciones clínicas en anestesia: bradicardia y taquicardia en sop
Situaciones clínicas en anestesia: bradicardia y taquicardia en sopmacrofago93
 
final imspire report
final imspire reportfinal imspire report
final imspire reportShobin John
 
OOW16 - Oracle E-Business Suite 12 Upgrade Experience for a 14 TB Oracle E-Bu...
OOW16 - Oracle E-Business Suite 12 Upgrade Experience for a 14 TB Oracle E-Bu...OOW16 - Oracle E-Business Suite 12 Upgrade Experience for a 14 TB Oracle E-Bu...
OOW16 - Oracle E-Business Suite 12 Upgrade Experience for a 14 TB Oracle E-Bu...vasuballa
 
OOW16 - Running your E-Business Suite on Oracle Cloud (IaaS + PaaS) - Why, Wh...
OOW16 - Running your E-Business Suite on Oracle Cloud (IaaS + PaaS) - Why, Wh...OOW16 - Running your E-Business Suite on Oracle Cloud (IaaS + PaaS) - Why, Wh...
OOW16 - Running your E-Business Suite on Oracle Cloud (IaaS + PaaS) - Why, Wh...vasuballa
 

Viewers also liked (13)

Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016
 
Curriculum vitae gladys
Curriculum vitae gladysCurriculum vitae gladys
Curriculum vitae gladys
 
Moreno zamudio johann camilo aporte individual
Moreno zamudio johann camilo aporte individualMoreno zamudio johann camilo aporte individual
Moreno zamudio johann camilo aporte individual
 
Aflac Now Offering Telemedicine With Ally Health/MDLive
Aflac Now Offering Telemedicine With Ally Health/MDLiveAflac Now Offering Telemedicine With Ally Health/MDLive
Aflac Now Offering Telemedicine With Ally Health/MDLive
 
What can your library do for you?
What can your library do for you?What can your library do for you?
What can your library do for you?
 
Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016Pistoia Alliance USA Conference 2016
Pistoia Alliance USA Conference 2016
 
Circle Program Final Report (1)
Circle Program Final Report (1)Circle Program Final Report (1)
Circle Program Final Report (1)
 
4 l30e r
4 l30e r4 l30e r
4 l30e r
 
Caja manual
Caja manualCaja manual
Caja manual
 
Situaciones clínicas en anestesia: bradicardia y taquicardia en sop
Situaciones clínicas en anestesia: bradicardia y taquicardia en sopSituaciones clínicas en anestesia: bradicardia y taquicardia en sop
Situaciones clínicas en anestesia: bradicardia y taquicardia en sop
 
final imspire report
final imspire reportfinal imspire report
final imspire report
 
OOW16 - Oracle E-Business Suite 12 Upgrade Experience for a 14 TB Oracle E-Bu...
OOW16 - Oracle E-Business Suite 12 Upgrade Experience for a 14 TB Oracle E-Bu...OOW16 - Oracle E-Business Suite 12 Upgrade Experience for a 14 TB Oracle E-Bu...
OOW16 - Oracle E-Business Suite 12 Upgrade Experience for a 14 TB Oracle E-Bu...
 
OOW16 - Running your E-Business Suite on Oracle Cloud (IaaS + PaaS) - Why, Wh...
OOW16 - Running your E-Business Suite on Oracle Cloud (IaaS + PaaS) - Why, Wh...OOW16 - Running your E-Business Suite on Oracle Cloud (IaaS + PaaS) - Why, Wh...
OOW16 - Running your E-Business Suite on Oracle Cloud (IaaS + PaaS) - Why, Wh...
 

Similar to Spark Introduction

What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us Simon Hsu
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Awei Hsu
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践Min Zhou
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
Hadoop与数据分析
Hadoop与数据分析Hadoop与数据分析
Hadoop与数据分析George Ang
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
Hadoop系统及其关键技术
Hadoop系统及其关键技术Hadoop系统及其关键技术
Hadoop系统及其关键技术冬 陈
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
Introduction of Spark by Wang Haihua
Introduction of Spark by Wang HaihuaIntroduction of Spark by Wang Haihua
Introduction of Spark by Wang HaihuaWang Haihua
 
阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践dragoncaol
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu Solution
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteXu Wang
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理Kay Yan
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理airsex
 
The Evolution of Data Systems
The Evolution of Data SystemsThe Evolution of Data Systems
The Evolution of Data Systems宇 傅
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Hanborq Inc.
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Anna Yen
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 

Similar to Spark Introduction (20)

What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
Hadoop与数据分析
Hadoop与数据分析Hadoop与数据分析
Hadoop与数据分析
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
Hadoop系统及其关键技术
Hadoop系统及其关键技术Hadoop系统及其关键技术
Hadoop系统及其关键技术
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
Introduction of Spark by Wang Haihua
Introduction of Spark by Wang HaihuaIntroduction of Spark by Wang Haihua
Introduction of Spark by Wang Haihua
 
阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
The Evolution of Data Systems
The Evolution of Data SystemsThe Evolution of Data Systems
The Evolution of Data Systems
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 

Spark Introduction