Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Tachyon 2015 08 China

656 views

Published on

大数据存储系统Tachyon, 2015年8月

Published in: Technology
  • Be the first to comment

Tachyon 2015 08 China

  1. 1. 内存为中心的大数据 分布式存储系统 范斌, 软件工程师 Tachyon Nexus 2015/08/30 @ 南京
  2. 2. • Tachyon项目的创始人及核心开发人员 • A轮融资: Andreessen Horowitz,750万美元 • 致力于Tachyon开源项目 2 www.tachyonnexus.com
  3. 3. 3
  4. 4. 4
  5. 5. 大纲 • Tachyon系统 – 背景 – 系统架构 – 使用 • Tachyon开源项目 – 近况 – 产品用例 • 路线图 5
  6. 6. 大纲 • Tachyon系统 – 背景 – 系统架构 – 使用 • Tachyon开源项目 – 近况 – 产品用例 • 路线图 6
  7. 7. Tachyon 7 • 一种假想的超光速粒子 • 发音: ['tækiːˌɒn]
  8. 8. Tachyon从UC Berkeley AMPLab诞生 8 服务器集群管理 并发计算平台 可靠, 分布式,以内存为中心的存储系统
  9. 9. 9 我们为什么需要Tachyon?
  10. 10. DRAM正越来越快 10 Memory-locality:达到交互级别响应的关键
  11. 11. DRAM正越来越便宜 source: jcmit.com 11
  12. 12. 涌现出的In-Memory平台 12
  13. 13. 13 问题已经解决了么?
  14. 14. 14 缺少存储层面的解决方 案
  15. 15. 一个例子: - • In-memory大数据处理框架 • 在JVM中存储one in-memory copy • 记录并使用 lineage 来重建遗失数据 map filter map join reduce Lineage Tracking 15
  16. 16. 问题一 16 数据共享可能成为瓶颈: Slow writes to disk Spark Job1 Spark Job2 block 1 HDFS / Amazon S3 block 1 block 1
  17. 17. 问题一 17 数据共享可能成为瓶颈: Slow writes to disk Spark Job1 Hadoop MR Job block 1 HDFS / Amazon S3 block 1 block 1
  18. 18. 问题二 18 Spark Task Spark memory block manager block 1 block 3 HDFS / Amazon S3 block 1 block 3 block 2 block 4 execution engine & storage engine same process 进程崩溃会导致缓存的数据丢失
  19. 19. 19 crash Spark memory block manager block 1 block 3 HDFS / Amazon S3 block 1 block 3 block 2 block 4 execution engine & storage engine same process 问题二 进程崩溃会导致缓存的数据丢失
  20. 20. HDFS / Amazon S3 20 block 1 block 3 block 2 block 4 execution engine & storage engine same process crash 问题二 进程崩溃会导致缓存的数据丢失
  21. 21. HDFS / Amazon S3 问题三 21 In-memory数据重复 & JVM GC Spark Task1 Spark mem block manager block 1 block 3 Spark Task2 Spark mem block manager block 3 block 1 block 1 block 3 block 2 block 4 execution engine & storage engine same process (duplication & GC)
  22. 22. Tachyon Reliable data sharing at memory-speed within and across cluster frameworks/jobs 22
  23. 23. 概述 基本想法 • 围绕DRAM为中心的存储架构 • 在存储层实现lineage • 管理tiered storage 实践 • 保持一份数据在DRAM • 通过Re-computation保证容错 23
  24. 24. Tachyon 生态系统 24
  25. 25. Tachyon 系统架构 25
  26. 26. Tachyon 系统架构 26
  27. 27. 解决问题一 28 以内存读写速度共享数据: 跨Job/Framework Spark Job1 HDFS / Amazon S3 Tachyon in-memory block 1 Hadoop MR Job
  28. 28. HDFS / Amazon S3 block 1 block 3 block 2 block 4 Tachyon in-memory block 1 block 3 block 4 解决问题二 29 Spark Task Spark memory block manager execution engine & storage engine same process 保护 in-memory数据安全, 即使遭遇JVM进程崩溃. .
  29. 29. 解决问题二 30 HDFS disk block 1 block 3 block 2 block 4 execution engine & storage engine same process Tachyon in-memory block 1 block 3 block 4 crash HDFS / Amazon S3 block 1 block 3 block 2 block 4 保护 in-memory数据安全, 即使遭遇JVM进程崩溃.
  30. 30. 解决问题三 31 避免in-memory数据重复, 减少 GC Spark Task Spark mem Spark Task Spark mem HDFS / Amazon S3 block 1 block 3 block 2 block 4 execution engine & storage engine same process (no duplication & GC) HDFS disk block 1 block 3 block 2 block 4 Tachyon in-memory block 1 block 3 block 4
  31. 31. 性能比较 32
  32. 32. 使用Tachyon容易么? 33
  33. 33. Spark/MapReduce/Shark without Tachyon • Spark scala> val file = sc.textFile(“hdfs://ip:port/path”) • Hadoop MapReduce $ hadoop jar hadoop-examples-1.0.4.jar wordcount hdfs://localhost:19998/input hdfs://localhost:19998/output • Shark CREATE TABLE orders_cached AS SELECT * FROM orders; 34
  34. 34. Spark/MapReduce/Shark with Tachyon • Spark scala> val file = sc.textFile(“tachyon://ip:port/path”) • Hadoop MapReduce $ hadoop jar hadoop-examples-1.0.4.jar wordcount tachyon://localhost:19998/input tachyon://localhost:19998/output • Shark CREATE TABLE orders_tachyon AS SELECT * FROM orders; 35
  35. 35. 大纲 • Tachyon系统 – 背景 – 系统架构 – 使用 • Tachyon开源项目 – 近况 – 产品用例 • 路线图 36
  36. 36. 开源项目概述 • 2012年夏天于UC Berkeley AMPLab开始 • Apache License 2.0, Version 0.7 (2015年7月) • 在超过50家公司部署 (2014年7月数据) • 有超过30家公司参与贡献代码 37
  37. 37. 项目Contributor飞速增长 38 v0.4 Feb ‘14 v0.3 Oct ‘13 v0.2 Apr ‘13 v0.1 Dec ‘12 v0.6 Mar ‘15 v0.5 Jul ‘14 v0.7 Jul ‘15 1 3 15 30 46 70 111
  38. 38. 代码量飞速增长 v0.4 Feb ‘14 v0.3 Oct ‘13 v0.2 Apr ‘13 39 v0.6 Mar ‘15 v0.5 Jul ‘14 v0.7 Jul ‘15 465 commits 696 commits 1080 commits 1610 commits 2884 commits 4969 commits
  39. 39. 感谢我们的Contributors! 40
  40. 40. 南京大学PASA大数据实验室 • 顾荣博士 – Tachyon开源不到4个月便加入社区 – Tachyon项目核心开发者, Meetup组织者 • 5+ contributor • 200+ commits • Performance Benchmark, Tiered Storage 41
  41. 41. • 合作2年以上 • 10+ contributor • 500+ commits • Tiered Storage, System Stability, Security 42
  42. 42. 见诸报道的Tachyon 43
  43. 43. Under Filesystem: 丰富的选择 (Big Data, Cloud, HPC, Enterprise) 44
  44. 44. • Framework: SparkSQL • Tachyon Storage: MEM + HDD • Under Storage: Baidu’s File System • 部署规模: 100+ 节点 • 管理存储容量: 1PB+ • 提升性能: 30x More Details: www.meetup.com/Tachyon 用例一: Baidu 45
  45. 45. 用例二: SAAS公司 • Framework: Impala • Tachyon Storage: MEM + SSD • Under Storage: S3 • 提升性能: 15x 46
  46. 46. 用例三: 石油公司 • Framework: Spark • Tachyon Storage: MEM • Under Storage: GlusterFS • 分析传统存储系统中的数据 47
  47. 47. 用例四: SAAS公司 • Framework: Spark • Tachyon Storage: SSD • Under Storage: S3 • Elastic Tachyon deployment 48
  48. 48. 大纲 • Tachyon系统 – 背景 – 系统架构 – 使用 • Tachyon开源项目 – 近况 – 产品用例 • 路线图 49
  49. 49. 新功能 • Lineage in Storage (alpha) • Tiered Storage (beta) 50
  50. 50. 新功能 • Lineage in Storage (alpha) • Tiered Storage (beta) • Data Serving • Support for New Hardware • … • Your New Feature! 51
  51. 51. 52 Tachyon的目标?
  52. 52. 更方便更有效的使用其他系统 欢迎合作! 53JIRA New Contributor Tasks
  53. 53. • Website: http://tachyon-project.org • Github: https://github.com/amplab/tachyon • Meetup: http://www.meetup.com/Tachyon • New Contributor Tasks: http://goo.gl/zmt2PS • News Letter Subscription: http://goo.gl/mwB2sX • Email: binfan@tachyonnexus.com 54
  54. 54. 55

×