How to build an elastic and efficient platform to support various Big Data and Machine Learning tasks is a challenge for a lot of corporations. In this presentation, Zhongbo Tian will give an overview of the Mesos-based core infrastructure of Douban, and demonstrate how to integrate the platform with state-of-art Big Data/ML technologies.
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Etu Solution
講者:SYSTEX 數據加值應用發展部產品經理 | 陶靖霖
議題簡介:認清現實吧! Big Data 是個熱門詞彙、熱門議題,但是問題的核心仍然圍繞在資料處理的流程、架構與技術,要踏入 Big Data 的領域,使用者會遭遇哪些挑戰? Splunk 被譽為「全球最佳的 Big Data Company」,究竟在資料處理的流程中擁有什麼獨特的技術優勢,能夠幫助使用者克服這些挑戰?又有哪些成功幫助使用者從資料中萃取出價值的應用案例?歡迎來認識 Splunk 以及全球 Big Data 成功案例。
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Etu Solution
講者:SYSTEX 數據加值應用發展部產品經理 | 陶靖霖
議題簡介:認清現實吧! Big Data 是個熱門詞彙、熱門議題,但是問題的核心仍然圍繞在資料處理的流程、架構與技術,要踏入 Big Data 的領域,使用者會遭遇哪些挑戰? Splunk 被譽為「全球最佳的 Big Data Company」,究竟在資料處理的流程中擁有什麼獨特的技術優勢,能夠幫助使用者克服這些挑戰?又有哪些成功幫助使用者從資料中萃取出價值的應用案例?歡迎來認識 Splunk 以及全球 Big Data 成功案例。
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
Mobile Internet, Social Media 以及 Smart Device 的發展促成資訊的大爆炸,伴隨產生大量的非結構化及半結構化的資料,不但資料的格式多樣,產生的速度極快,對企業的資訊架構帶來了前所未有的挑戰,面對多樣的資料結構及多樣的分析工具,我們應該採用什麼樣的架構互相整合,才能有效的管理資料生命週期,提取資料價值,Hadoop 生態系統,無疑的在這個大架構裡,將扮演最基礎的資料平台的角色,實現企業的 Data Lake。
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
Mobile Internet, Social Media 以及 Smart Device 的發展促成資訊的大爆炸,伴隨產生大量的非結構化及半結構化的資料,不但資料的格式多樣,產生的速度極快,對企業的資訊架構帶來了前所未有的挑戰,面對多樣的資料結構及多樣的分析工具,我們應該採用什麼樣的架構互相整合,才能有效的管理資料生命週期,提取資料價值,Hadoop 生態系統,無疑的在這個大架構裡,將扮演最基礎的資料平台的角色,實現企業的 Data Lake。
A talk I gave on OpenSourceChina conference in Dec 2015. The talk is about how netflix builds its data pipeline platform to handle hundreds of billions of events a day. How everybody should leverage the same streaming architecture to build their apps.
24. Paracel
• https://github.com/douban/paracel
• Jeffrey Dean, et al.
"Large scale distributed deep
networks."
• 参数服务器思想
• 分布式机器学习框架
• 使用 MPI 框架通信
• Stale Synchronous Parallel
Parameter Server 𝜔′ = 𝜔 − 𝜂Δ𝜔
𝜔 Δ𝜔
Model
Replicas
Data
Shards
25. DMLC on Mesos
• Distributed (Deep) Machine Learning Community
• 机器学习工具箱
• MXNet
• XGBoost
• Mesos Support for dmlc-core
• dmlc/dmlc-core#241 by Douban
• Powered by PyMesos
• Fallback to mesos-execute
• XGBoost on Mesos
• 获得近似线性加速能力
27. TFMesos
• https://github.com/douban/tfmesos
• Distributed Tensorflow on Mesos
• 支持 GPU
• 支持 Docker
• tfrun 工具适配 Between-Graph 模式
import tensorflow as tf
from tfmesos import cluster
jobs_def = [
{"name": "ps", "num": 2},
{"name": "worker", "num": 2},
]
with cluster(jobs_def) as c:
with tf.device('/job:ps/task:0'):
a = tf.Variable(10)
with tf.device('/job:ps/task:1'):
b = tf.Variable(32)
with tf.device("/job:worker/task:1"):
op = a + b
grpc_url = c.targets['/job:worker/task:0']
with tf.Session(grpc_url) as sess:
sess.run(tf.global_variables_initializer())
print sess.run(op)
add
a b
/job:ps/task:0
/job:ps/task:1
/job:worker/task:1