Using Alluxio to Accelerate Compute Frameworks in JD

用Alluxio(Tachyon)作为
京东计算框架的容错可插拔
优化组件
2018-1-20

CONTENTS
目录
01
02
03
04
京东介绍
公司简单介绍
京东大数据平台
介绍大数据平台架构和业务
Alluxio介绍
介绍Alluxio的是什么以及应用场景
Alluxio in JD
Alluxio 在京东的应用

京东介绍
4
京东是实体经济和数字经济深度融合的新型企业
公司介绍
北京市亦庄经济开发区
公司位置
客户为先、诚信、团队、创新、激情
价值观

6
服务器规模30000台+，离线集
群总规模18000+ , 用户6000+
集群规模计算能力
离线数据日处理40PB+，日运
行Job数100万+
存储能力
总数据量400PB+，日增数据
量500TB+
业务能力
业务主题40+，数据模型450+

数据存储服务实时数据服务离线数据服务

Alluxio介绍
Alluxio社区的优势
活跃开源社区
创始人为华人
CI完备
开源是大势所趋。800多Contributor，1723次fork。6000多次PR。社区
Maintainer活跃度高，提出的PR很快就有回复
Alluxio社区的以下优势使得Alluxio越来越多的被很多知名企业所应用，也吸引越来
越多的贡献者。
华人contributor特别多，中文文档资料特别多。加入门槛底，还有新手教
程，对于新contributor非常友好。
alluxio-bot(PR title)、 AmplabJenkins作为PR builder(License
headerCheckstylefindbugstest)
• Alluxio（之前的Tachyon）。是世界上第一个以内存速度
统一不同存储系统的系统。在大数据生态中，Alluxio位
于计算框架和各种存储系统之间。此外，Alluxio存储为
中心的架构，使数据访问速度的数量级比现有解决方案
快得多。

Alluxio in JD
12
JDPresto提升10倍。
JDPresto
Kylin KV on Alluxio
Kylin
HDFS on Alluxio
HDFS
Alluxio
KV
Cache

JDPresto on Alluxio
JDPresto on Alluxio的优势
可插拔
容错
10倍性能
Alluxio可以随时上线或更新，业务感知仅仅是变慢了
JDPresto在使用Alluxio时，自身做了一些改造，使得在使用上增加了一些非常好的
特性。
当Alluxio服务不可用时，JDPresto可以直接访问HDFS
同样的SQL在有Alluxio和无Alluxio的情况下速度相差10倍
• Alluxio作为可插拔的容错组件应用于京东体系内诸多计
算框架。
• 利用Alluxio优秀的缓存能力提供对ADHOC，实时流计算
天生的支撑，降低集群对于网络消耗的依赖。
• JDPresto on Alluxio已经带来了10倍平均性能提升。
Alluxio作为可插拔的优化组件，当Alluxio服务不可用时，
JDPresto可以直接访问HDFS。我们的工作是扩展Alluxio，
增强Alluxio和HDFS的一致性。
• Alluxio已经在我们的生产环境运行1年多了。

JDPresto on Alluxio
14
Presto HDFS
Alluxio
Access Alluxio exception
Access HDFS directlly
Read HDFS
Data Cache to Alluxio
Read Alluxio

JDPresto on Alluxio
15
Locality
≈ç
Isolation
一次加载
多次使用

JDPresto on Alluxio
20
hadoop cluster: X
DataSource: 广告集群全天SQL
Worker
jdpresto on alluxio 22
jdpresto 40

HDFS on Alluxio
23
01
业务无感知
使用者的路径仍然是HDFS路径，修
改DistributedFileSystem,指定路径
从Alluxio读写。
02
缓解热DataNode和热盘
缓存的Alluxio节点都可以作为数据
源。本地读的几率增大减少磁盘IO
和网络带宽消耗
03
缓解NameNode压力
定期Cache部分长时间不变数据到
Alluxio对外提供读服务

JD Contribution
24
PMC 1
Contributor 4
PR 50
Merged PR 47
Merged Commit 218
Additions/Deletions +4150/-2251

JD Contribution
25
JD
Contribution
ui-grid based
sort/pagnation/filter
add an input field
New WebUI
high watermark start evict
low watermark stop evict
Watermark evict strategy
check startup
check every time
Consistency
monitor jvm pause Periodically
log message and metrics
Jvm Pause Monitor
cp/ls/load/rm/
format
Shell Command
DeadLock
thrift add timeout time
…
Bug fix
Shell
RESTfulApi
Change Log Level
SyncQuery
AlluxioTools
…
Test

未来工作
30
01 03 05 07
完善压测工具
02 04 06
稳定性提升扩展其他框架使用
追踪Alluxio社区PATCH
向Alluxio提交代码
完善监控和预警可调试支持 fix bug

Thank You!
加入京东大数据
maobaolong@jd.com
maobaolong@139.com

如果想对我们有进一步了解，欢迎关
注公众号。
join us
maobaolong@jd.com

Using Alluxio to Accelerate Compute Frameworks in JD

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to Using Alluxio to Accelerate Compute Frameworks in JD

Similar to Using Alluxio to Accelerate Compute Frameworks in JD (20)

More from Alluxio, Inc.

More from Alluxio, Inc. (20)

Using Alluxio to Accelerate Compute Frameworks in JD