Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

AVA: The deep learning platform based on Alluxio in Qiniu AI Lab

398 views

Published on

10.2018

Published in: Software
  • Be the first to comment

AVA: The deep learning platform based on Alluxio in Qiniu AI Lab

  1. 1. Alluxio 在七⽜牛云深度学习训练平台 AVA 上的应⽤用 Atlab 谢博⽂文
  2. 2. 以数据智能和视觉智能为核⼼心的企业级云计算服务商 视觉智能 Vision Intelligence 数据智能 Data Intelligence 海海量量存储 内容审核 ⼈人脸识别 视频云 弹性计算 云主机 容器器云 智能⽹网络 API 加速融合 CDN 智能多媒体处理理 实时⾳音视频互动 深度学习平台AVA 视频分析 数据分析决策 理理解机器器语⾔言和情绪 洞洞察未知数据多媒体API深度学习 边缘计算
  3. 3. 深度学习存储场景 • ⼀一次写⼊入 • 重复读取 • 操作简单 • 尺⼨寸极端 • ⾼高并发 • ⽬目录不不平衡 • 海海量量数据
  4. 4. 深度学习样本分布-图⽚片 Imagenet • 数量量 127w + • ⼤大⼩小 20KB~500KB 实际任务 • 数量量 1亿+ • ⼤大⼩小 2KB~2MB 极端状况 • ⽂文件夹组织(Pascal VOC) • ⼈人脸特征 20B~2KB
  5. 5. 深度学习样本分布-视频 Kenetics • 数量量 60w + • ⼤大⼩小 500KB~20MB 实际任务 • 时⻓长 10w+ hours • ⼤大⼩小 500KB~10GB 极端状况 • 截帧 • 提光流
  6. 6. 深度学习平台 AVA 标注 数据集 训练任务 模型 深度学习平台 AVA Alluxio 分布式调度系统 七⽜牛KODO Ceph RBD GPU 迭代训练 容器器化技术 基础设施
  7. 7. 深度学习平台 AVA 存储服务演进历程 ⽯石器器时代 资源 • 物理理机 • 本地存储 特征 • ⽆无法共享 • 容量量上限 ⿊黑铁时代 资源 • kubernetes • NFS 特征 • 读写性能低 • 冷热数据 ⻘青铜时代 资源 • kubernetes • ceph RBD 特征 • ⽆无法共享 • 容量量上限 ⽩白银时代 资源 • kubernetes • cephfs+Alluxio 特征 • ⽅方便便共享 • 海海量量容量量
  8. 8. ALLUXIO使⽤用范式 worker worker worker RAM worker worker worker RAM Kubernetes Flex Volume Application bucket bucket bucket FUSE /a1 /b1 /c1 Application bucket bucket bucket FUSE /a1 /b1 /c1 Application bucket bucket bucket FUSE /a1 /b1 /c1
  9. 9. ALLUXIO 数据冷热处理理 • ⼤大量量数据只在近期训练 使⽤用 • 云存储天然的冷热差别 多客户端共享 • Flex Volume 多挂载 • 可读可写 数据读取性能 • 1GB/s 的读取带宽 • 读写性能⽔水平扩容
  10. 10. ALLUXIO-读写分离 read worker • 多 SSD,释放SSD随机读性能 • 单副本,减少数据冗余 • 万兆卡bond,提⾼高出⼝口带宽 write worker • ceph RBD • 多副本,保证写⼊入数据的安全 • 直接落盘,⾮非易易失性写⼊入
  11. 11. ALLUXIO-优化篇 ⼤大⽂文件 persist 优化 worker 1 block a1 block b1 worker 2 block a2 block a3 worker N block am block x1 … worker 1 block b1block a1 … block am tempfile worker 1 block a1 block b1 worker 2 block a2 block a3 worker N block am block x1 … worker 2 block a2block a1 … block am stream
  12. 12. ALLUXIO-优化篇 元数据管理理 • 限流 回收⽂文件元数据 • 降级 拒绝超级⽂文件夹 master inode tree client listdir (too much subfolders and files) refuse to respones check capacity
  13. 13. ALLUXIO-统⼀一任务调度 avio • 数据预取/批量量Persist • 状态查询 • 负载均衡 client create job Alluxio master P master S … worker worker… avio apiserver walker walker… message queue worker … worker
  14. 14. ALLUXIO-可⽤用性保障 • JVM 优化 G1GC • master 内存容量量 • zookeeper 链接 • journal dependency • 元数据管理理 TTL • 服务分区
  15. 15. ALLUXIO-七⽜牛对象存储 Kodo • ⽂文件/⽂文件夹重名 • 特殊符号,如(?空格等) • bucket 重名 • 源站加速
  16. 16. ALLUXIO-ceph 对⽐比 Alluxio • 对接云存储 • ⽆无容量量限制 • 内存级加速 • 元数据存储引擎瓶颈 • posix 接⼝口⽀支持不不完整 • 只⽀支持覆盖写 ceph • ⽀支持对象存储、⽂文件系统、块存储 • quota • kubernetes 原⽣生⽀支持 • kernel 客户端 • 容量量上线 • cephfs ⼤大规模⽂文件性能问题 • 数据清理理困难 • 多副本,数据冗余 • 扩容艰难
  17. 17. ALLUXIO-展望 • shared-nothing architecture • JAVA 11 • multi-active master
  18. 18. Thank you

×