Submit Search
Upload
用Python实现hadoop任务调度管理
•
0 likes
•
267 views
L
Leo Zhou
Follow
Pycon China 2015
Read less
Read more
Technology
Report
Share
Report
Share
1 of 44
Download now
Download to read offline
Recommended
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Min Zhou
X program-within-a-month
X program-within-a-month
Chao Zhu
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Chao Zhu
Distributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
Min Zhou
Hadoop大数据实践经验
Hadoop大数据实践经验
Schubert Zhang
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
hdhappy001
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
hdhappy001
Recommended
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Min Zhou
X program-within-a-month
X program-within-a-month
Chao Zhu
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
Chao Zhu
Distributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
Min Zhou
Hadoop大数据实践经验
Hadoop大数据实践经验
Schubert Zhang
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
hdhappy001
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
hdhappy001
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
Jack Gao
数据架构方面的一些探讨
数据架构方面的一些探讨
Chao Zhu
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIG
Jazz Yao-Tsung Wang
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
StreamNative
SMACK Dev Experience
SMACK Dev Experience
Chih-Hsuan Hsu
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Etu Solution
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
漫画背后的故事
漫画背后的故事
长洪 余
No sql@vip new
No sql@vip new
Chao Zhu
iServDB雲端資料庫解決方案
iServDB雲端資料庫解決方案
iServDB & iServCloud
自助工具助Dba提升效率
自助工具助Dba提升效率
Chao Zhu
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
drewz lin
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点
Chao Zhu
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTURE
Jazz Yao-Tsung Wang
09 赵昆
09 赵昆
锐 张
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
hdhappy001
iServDB - iServCloud DBaaS Solution
iServDB - iServCloud DBaaS Solution
iServDB & iServCloud
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
2016-12-15 NewSQL資料庫在IoT的應用 - iServDB
2016-12-15 NewSQL資料庫在IoT的應用 - iServDB
José Lin
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台
Jianwei Li
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
babel_qi
More Related Content
What's hot
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
Jack Gao
数据架构方面的一些探讨
数据架构方面的一些探讨
Chao Zhu
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIG
Jazz Yao-Tsung Wang
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
StreamNative
SMACK Dev Experience
SMACK Dev Experience
Chih-Hsuan Hsu
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Etu Solution
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
漫画背后的故事
漫画背后的故事
长洪 余
No sql@vip new
No sql@vip new
Chao Zhu
iServDB雲端資料庫解決方案
iServDB雲端資料庫解決方案
iServDB & iServCloud
自助工具助Dba提升效率
自助工具助Dba提升效率
Chao Zhu
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
drewz lin
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点
Chao Zhu
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTURE
Jazz Yao-Tsung Wang
09 赵昆
09 赵昆
锐 张
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
hdhappy001
iServDB - iServCloud DBaaS Solution
iServDB - iServCloud DBaaS Solution
iServDB & iServCloud
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
2016-12-15 NewSQL資料庫在IoT的應用 - iServDB
2016-12-15 NewSQL資料庫在IoT的應用 - iServDB
José Lin
What's hot
(20)
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
数据架构方面的一些探讨
数据架构方面的一些探讨
Introduction to K8S Big Data SIG
Introduction to K8S Big Data SIG
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
SMACK Dev Experience
SMACK Dev Experience
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
漫画背后的故事
漫画背后的故事
No sql@vip new
No sql@vip new
iServDB雲端資料庫解決方案
iServDB雲端資料庫解決方案
自助工具助Dba提升效率
自助工具助Dba提升效率
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
大型电商的数据服务的要点和难点
大型电商的数据服务的要点和难点
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTURE
09 赵昆
09 赵昆
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
iServDB - iServCloud DBaaS Solution
iServDB - iServCloud DBaaS Solution
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
2016-12-15 NewSQL資料庫在IoT的應用 - iServDB
2016-12-15 NewSQL資料庫在IoT的應用 - iServDB
Similar to 用Python实现hadoop任务调度管理
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台
Jianwei Li
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
babel_qi
淘宝双11双12案例分享
淘宝双11双12案例分享
vanadies10
Greenplum技术
Greenplum技术
锐 张
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
acelyc1112009
線上埋碼資料收集實作
線上埋碼資料收集實作
FEG
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
James Chen
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
James Chen
豆瓣网技术架构变迁
豆瓣网技术架构变迁
reinhardx
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
Yiwei Ma
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
markmind
数据挖掘理论与实践
数据挖掘理论与实践
medcl
美团技术沙龙04 美团下一代分布式存储系统
美团技术沙龙04 美团下一代分布式存储系统
美团点评技术团队
Hadoop大数据实践经验
Hadoop大数据实践经验
Hanborq Inc.
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
James Chen
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化
confluent
2014 Hpocon 姚仁捷 唯品会 - data driven ops
2014 Hpocon 姚仁捷 唯品会 - data driven ops
Michael Zhang
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
ElasticSearch Training#2 (advanced concepts)-ESCC#1
ElasticSearch Training#2 (advanced concepts)-ESCC#1
medcl
Similar to 用Python实现hadoop任务调度管理
(20)
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
淘宝双11双12案例分享
淘宝双11双12案例分享
Greenplum技术
Greenplum技术
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
線上埋碼資料收集實作
線上埋碼資料收集實作
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
豆瓣网技术架构变迁
豆瓣网技术架构变迁
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
数据挖掘理论与实践
数据挖掘理论与实践
美团技术沙龙04 美团下一代分布式存储系统
美团技术沙龙04 美团下一代分布式存储系统
Hadoop大数据实践经验
Hadoop大数据实践经验
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化
2014 Hpocon 姚仁捷 唯品会 - data driven ops
2014 Hpocon 姚仁捷 唯品会 - data driven ops
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
ElasticSearch Training#2 (advanced concepts)-ESCC#1
ElasticSearch Training#2 (advanced concepts)-ESCC#1
More from Leo Zhou
第三名 3rd zhyict
第三名 3rd zhyict
Leo Zhou
异常检测在苏宁的实践
异常检测在苏宁的实践
Leo Zhou
第二名 2nd 火眼金睛
第二名 2nd 火眼金睛
Leo Zhou
第四名 4th H3C AI Institute
第四名 4th H3C AI Institute
Leo Zhou
第一名 1st Bocoiops
第一名 1st Bocoiops
Leo Zhou
第六名 6th Aurora
第六名 6th Aurora
Leo Zhou
AI使能网络自动驾驶 AI Building Autonomous Driving Network
AI使能网络自动驾驶 AI Building Autonomous Driving Network
Leo Zhou
2.2 go在阿里云cdn系统的应用
2.2 go在阿里云cdn系统的应用
Leo Zhou
1.6 米嘉 gobuildweb
1.6 米嘉 gobuildweb
Leo Zhou
1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑
Leo Zhou
1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用
Leo Zhou
Protocol libraries the right way
Protocol libraries the right way
Leo Zhou
美团数据库运维平台介绍
美团数据库运维平台介绍
Leo Zhou
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践
Leo Zhou
我的互联网运维理论与实践
我的互联网运维理论与实践
Leo Zhou
如何选择 Docker 监控方案
如何选择 Docker 监控方案
Leo Zhou
美团数据库运维平台介绍
美团数据库运维平台介绍
Leo Zhou
The net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James Bennett
Leo Zhou
Hypothesis randomised testing for django
Hypothesis randomised testing for django
Leo Zhou
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
Leo Zhou
More from Leo Zhou
(20)
第三名 3rd zhyict
第三名 3rd zhyict
异常检测在苏宁的实践
异常检测在苏宁的实践
第二名 2nd 火眼金睛
第二名 2nd 火眼金睛
第四名 4th H3C AI Institute
第四名 4th H3C AI Institute
第一名 1st Bocoiops
第一名 1st Bocoiops
第六名 6th Aurora
第六名 6th Aurora
AI使能网络自动驾驶 AI Building Autonomous Driving Network
AI使能网络自动驾驶 AI Building Autonomous Driving Network
2.2 go在阿里云cdn系统的应用
2.2 go在阿里云cdn系统的应用
1.6 米嘉 gobuildweb
1.6 米嘉 gobuildweb
1.4 go在数据存储上面的应用—毛剑
1.4 go在数据存储上面的应用—毛剑
1.2 刘奇 go在分布式数据库中的应用
1.2 刘奇 go在分布式数据库中的应用
Protocol libraries the right way
Protocol libraries the right way
美团数据库运维平台介绍
美团数据库运维平台介绍
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践
我的互联网运维理论与实践
我的互联网运维理论与实践
如何选择 Docker 监控方案
如何选择 Docker 监控方案
美团数据库运维平台介绍
美团数据库运维平台介绍
The net is dark and full of terrors - James Bennett
The net is dark and full of terrors - James Bennett
Hypothesis randomised testing for django
Hypothesis randomised testing for django
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
NoSQL@VIP — 唯品会NoSQL平台⾃动化发展及运维经验分享
用Python实现hadoop任务调度管理
1.
python在⼤大数据任务调度管 理中的应用 猎聘⽹网 2015-‐09-‐19
2.
Outline • 背景 •
⼤大数据任务 • 调度 – Azkaban – Luigi • 总结
3.
背景 • 2200万用户数据 •
每日四千万日志数据 • 我们用数据来做什么? – 简历推荐 – ⼈人脉挖掘 – 商业分析
4.
背景 • Hadoop/Hive – 存储数据
– 清洗、过滤和统计数据 • MySQL/MonetDB – 数据集市
5.
背景 • flume/KaFa – 数据收集
• Storm – 实时计算
6.
⼤大数据任务 • ETL – 业务数据同步
• FACT – 数据仓库建模 • 推荐系统?
7.
⼤大数据任务 • 特点 – 每日/周/月定时执⾏行
– 依赖 – 执⾏行时间长
8.
调度 • 使用crontab? – 能实现定时执⾏行
– ⽆无法解决依赖 – ⽆无重试机制 – ⽆无监控
9.
调度 • Azkaban – Linkedin
– Java • Luigi – Spotify – Python
10.
Azkaban • https://github.com/azkaban/azkaban
11.
Azkaban • 定时调度(日/周/月) •
通过创建Workflow解决依赖 • 可设置retry次数
12.
Azkaban • 控制后台 – 上传任务
– 编辑任务 – 执⾏行任务 – 查看执⾏行结果及日志
13.
Azkaban • 任务创建过程 – 编辑.job⽂文件
– 打成zip包在控制后台上传
14.
Azkaban
15.
Azkaban
16.
Azkaban
17.
Azkaban • 创建Fact任务 –
编写SQL – 编写执⾏行SQL脚本 • 参数替换 • hive –f sql_file – 设置定时执⾏行 – 设置导⼊入
18.
Azkaban • 问题 – 任务主要由数据分析师提出
– 分析师做不了任务提交 – 每天七⼋八个分析师盯着程序员给他们提交任务
19.
Azkaban • 沟通成本 •
等待成本
20.
Korin • Azkaban提供AJAX API
• Python写的API Client :AzkabanCLI – https://github.com/mtth/azkaban
21.
Korin
22.
Korin • 基于AzkabanCLI开发了korin系统 – Tornado
– docopt – requests
23.
Korin • 简化Fact任务提交操作 – 编辑SQL
– 设置执⾏行参数 – 提交 • 让只会写SQL的分析师也能提交任务
24.
Korin
25.
复杂点的任务 • SEM统计分析 – 调用接⼝口取得外部数据(baidu,360,sogou)
– 自有数据获取 – Join
26.
复杂点的任务 • SEM统计分析 – Aggregate
– Format – 导⼊入到Hive – 导⼊入到monetdb – 邮件发送到相关⼈人员
27.
复杂点的任务
28.
复杂点的任务 • 出错时不会出现不完整数据⽂文件 •
重复执⾏行时成功任务不再执⾏行 • 日期参数 • 历史数据⽣生成
29.
复杂点的任务
30.
复杂点的任务
31.
Luigi
32.
Luigi https://github.com/spotify/luigi
33.
Luigi
34.
Luigi • 启动任务 – python
sem_tasks.py FormatBaidu – python sem_tasks.py FormatBaidu –date 2015-‐09-‐02 – python sem_tasks.py FormatBaidu –workers 4
35.
Luigi • 技术架构 – Tornado
– SQLAlchemy – numpy、pandas – pycurl、request、suds
36.
Luigi
37.
Luigi • 类似于GNU make的⽅方式解决依赖
• DateParameter、DateIntervalParameter • Atomic files – 先写到临时⽂文件,执⾏行close时再copy⾄至target – close未执⾏行则删除临时⽂文件 • Process synchronization
38.
Luigi • 命令⾏行⼯工具 –
RangeDaily、RangeHourly – luigi -‐-‐module sem_tasks RangeDaily -‐-‐ of FormatBaidu -‐-‐start 2015-‐01-‐01 • Luigi package – ssh、ftp、Mysql、Hadoop、Pig、Spark支持 • Task Visualization
39.
总结 • Azkaban – 控制后台强⼤大
• Luigi – 可简化任务处理代码 – ⽆无Trigger,需要配合crontab或是Azkaban使用 – 控制后台功能较弱
40.
总结 • 仍存在的问题 – 执⾏行SQL的依赖需要⼈人来判断
– ⽆无法设置任务执⾏行的优先级
41.
总结 • 理想的任务调度引擎 – 依赖
– 优先级 – 重试机制 – 监控预警 – 控制后台
42.
总结 • 目标:Python rules
Hadoop • 急需⼤大量Pythonista来搞⼤大数据
43.
猎聘网DIG团队概况 大数据平台 数据仓库 BI工程 客 户 分 析 市 场 分 析 产 品 分 析 招 聘 推 荐 用 户 模 型 社 交 模 型 首席数据官
We Are Hiring!! dig@liepin.com
44.
Q&A
Download now