Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

Share

AVA: The deep learning platform based on Alluxio in Qiniu AI Lab

Download to read offline

10.2018

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

AVA: The deep learning platform based on Alluxio in Qiniu AI Lab

  1. 1. Alluxio 在七⽜牛云深度学习训练平台 AVA 上的应⽤用 Atlab 谢博⽂文
  2. 2. 以数据智能和视觉智能为核⼼心的企业级云计算服务商 视觉智能 Vision Intelligence 数据智能 Data Intelligence 海海量量存储 内容审核 ⼈人脸识别 视频云 弹性计算 云主机 容器器云 智能⽹网络 API 加速融合 CDN 智能多媒体处理理 实时⾳音视频互动 深度学习平台AVA 视频分析 数据分析决策 理理解机器器语⾔言和情绪 洞洞察未知数据多媒体API深度学习 边缘计算
  3. 3. 深度学习存储场景 • ⼀一次写⼊入 • 重复读取 • 操作简单 • 尺⼨寸极端 • ⾼高并发 • ⽬目录不不平衡 • 海海量量数据
  4. 4. 深度学习样本分布-图⽚片 Imagenet • 数量量 127w + • ⼤大⼩小 20KB~500KB 实际任务 • 数量量 1亿+ • ⼤大⼩小 2KB~2MB 极端状况 • ⽂文件夹组织(Pascal VOC) • ⼈人脸特征 20B~2KB
  5. 5. 深度学习样本分布-视频 Kenetics • 数量量 60w + • ⼤大⼩小 500KB~20MB 实际任务 • 时⻓长 10w+ hours • ⼤大⼩小 500KB~10GB 极端状况 • 截帧 • 提光流
  6. 6. 深度学习平台 AVA 标注 数据集 训练任务 模型 深度学习平台 AVA Alluxio 分布式调度系统 七⽜牛KODO Ceph RBD GPU 迭代训练 容器器化技术 基础设施
  7. 7. 深度学习平台 AVA 存储服务演进历程 ⽯石器器时代 资源 • 物理理机 • 本地存储 特征 • ⽆无法共享 • 容量量上限 ⿊黑铁时代 资源 • kubernetes • NFS 特征 • 读写性能低 • 冷热数据 ⻘青铜时代 资源 • kubernetes • ceph RBD 特征 • ⽆无法共享 • 容量量上限 ⽩白银时代 资源 • kubernetes • cephfs+Alluxio 特征 • ⽅方便便共享 • 海海量量容量量
  8. 8. ALLUXIO使⽤用范式 worker worker worker RAM worker worker worker RAM Kubernetes Flex Volume Application bucket bucket bucket FUSE /a1 /b1 /c1 Application bucket bucket bucket FUSE /a1 /b1 /c1 Application bucket bucket bucket FUSE /a1 /b1 /c1
  9. 9. ALLUXIO 数据冷热处理理 • ⼤大量量数据只在近期训练 使⽤用 • 云存储天然的冷热差别 多客户端共享 • Flex Volume 多挂载 • 可读可写 数据读取性能 • 1GB/s 的读取带宽 • 读写性能⽔水平扩容
  10. 10. ALLUXIO-读写分离 read worker • 多 SSD,释放SSD随机读性能 • 单副本,减少数据冗余 • 万兆卡bond,提⾼高出⼝口带宽 write worker • ceph RBD • 多副本,保证写⼊入数据的安全 • 直接落盘,⾮非易易失性写⼊入
  11. 11. ALLUXIO-优化篇 ⼤大⽂文件 persist 优化 worker 1 block a1 block b1 worker 2 block a2 block a3 worker N block am block x1 … worker 1 block b1block a1 … block am tempfile worker 1 block a1 block b1 worker 2 block a2 block a3 worker N block am block x1 … worker 2 block a2block a1 … block am stream
  12. 12. ALLUXIO-优化篇 元数据管理理 • 限流 回收⽂文件元数据 • 降级 拒绝超级⽂文件夹 master inode tree client listdir (too much subfolders and files) refuse to respones check capacity
  13. 13. ALLUXIO-统⼀一任务调度 avio • 数据预取/批量量Persist • 状态查询 • 负载均衡 client create job Alluxio master P master S … worker worker… avio apiserver walker walker… message queue worker … worker
  14. 14. ALLUXIO-可⽤用性保障 • JVM 优化 G1GC • master 内存容量量 • zookeeper 链接 • journal dependency • 元数据管理理 TTL • 服务分区
  15. 15. ALLUXIO-七⽜牛对象存储 Kodo • ⽂文件/⽂文件夹重名 • 特殊符号,如(?空格等) • bucket 重名 • 源站加速
  16. 16. ALLUXIO-ceph 对⽐比 Alluxio • 对接云存储 • ⽆无容量量限制 • 内存级加速 • 元数据存储引擎瓶颈 • posix 接⼝口⽀支持不不完整 • 只⽀支持覆盖写 ceph • ⽀支持对象存储、⽂文件系统、块存储 • quota • kubernetes 原⽣生⽀支持 • kernel 客户端 • 容量量上线 • cephfs ⼤大规模⽂文件性能问题 • 数据清理理困难 • 多副本,数据冗余 • 扩容艰难
  17. 17. ALLUXIO-展望 • shared-nothing architecture • JAVA 11 • multi-active master
  18. 18. Thank you
  • linfengzhu1

    Feb. 23, 2021
  • xiangjian

    Apr. 28, 2019

10.2018

Views

Total views

1,088

On Slideshare

0

From embeds

0

Number of embeds

123

Actions

Downloads

19

Shares

0

Comments

0

Likes

2

×