Lablup Conf 1st (Keynote/Core)
"The good, the bad, the weird: Future of Backend.AI" - 신정규
발표내용
- Road to Backend.AI. Current and the future.
영상보러가기
- https://youtu.be/5askMmSumP4
11. The good, the bad, the weird
https://filmdaze.net/the-good-the-bad-the-weird-the-fantastic-land-of-manchuria/
12.
13. HPC & AI 기술의 발전 방향
수치 기반
시뮬레이션
통계·회귀 분석
초연결 사회:
인간 활동 대부분이 온라인으로 기록
머신 러닝
딥 러닝
클라우드 컴퓨팅
빅데이터 컴퓨팅
인터넷 사용자 규모 34억명 (2016년)
가속 컴퓨팅
AI-enabled, AI-oriented
HPC 컴퓨팅
하드웨어 + 소프트웨어 발전이
동시에 상호 영향을 끼치며 진행 중
GPU, FPGA,
ASIC
무어의 법칙
오픈소스 SW
가상화 기술
14. 딥러닝 모델 복잡도의 급격한 증가
Reference: NVIDIA 2017 “A NET COMPUTING ERA”
2015 Microsoft
ResNet
2015
2016 Baidu Deep
Speech 2
2016
Google NMT
2017
Google BERT/
Facebook
LoBERTa
2018
Google XLNet
Google T5
2019
연간 2-3배씩
증가
연간 수십 배
증가
계산량 산정: GOPS * bandwidth
18. 딥 러닝: 확장 / 워크로드 파편화
§ MLOps / AIOps: 연산 자원 요구의 변화로 인한 유연한 스케일링 요구
– 데이터 처리, 학습, 모델 서빙에 따라 상이한 워크로드 특성
– 연산 가속기의 일반화 및 연산 요구량의 지수적 상승
19. 딥 러닝: 확장 / 워크로드 파편화
Workload characteristics
that are radically
varied
throughout pipelines
Traditional Resources+
Rise of Deep Learning
Accelerators
High-performance
computing cost rise
as processing increases
머신러닝 파이프라인 워크로드
- 데이터 전처리: Data I/O
- 분석: CPU
- 훈련: GPU/ASIC
- 서빙: CPU/GPU
복잡한 소프트웨어 스택
HPC: F77/F90 to Julia
DL: TensorFlow 1.X, 2.X,
PyTorch 1.X, JAX, Haiku…
뛰어난 전력대 성능비
딥러닝용 GPU 시장
NVIDIA, AMD, Intel
딥러닝 전용 ASIC 시장
ARM Mali
GraphCore IPU
Habana Goya
Google TPU / Coral
NVIDIA Jetson
Network / DPU
NVIDIA/Mellanox
Intel
단위시간당 자원 비용 증가[1]
CPU: $0.006
GPU (A100): $0.93
모델 훈련 비용의 급격한 증가
GPT-3 (2020): 45억원~
T5 (2019): 30억원~
BERT (2018): 1억원~
완전히 성격이 다른
파이프라인 내 워크로드 특성
전통적 연산 자원+
딥러닝 연산 가속기의 대두
연산 요구량으로 인한
고성능 컴퓨팅 비용 증가
20. Backend.AI
AI 프레임워크들을 위한 엔터프라이즈 클러스터 백엔드
§ 초기에는 “Sorna”로 알려졌어요 (2015. 8)
§ 오픈소스 베타 버전 (2016. 11) / 이후 13번의 메이저 버전
§ 900k+ 누적 Backend.AI 환경 이미지 다운로드
§ 440.8 PFLOPS: 운영중인 가장 큰 클러스터 계산 능력
§ 2k+ 등록된 Backend.AI 매니지드 클라우드 사용자
22. Lesson from Apollo Project
§ What Hard Landing Left Behind
§ Four more years
It became the most reliable method of determining
"what is required"
for hyperscale computation platform
25. Backend.AI: GPU부터 클러스터까지
Split cluster into
sub-clusters
as you want
Scale within GPUs
& Scale across GPUs
Plug-in-play
any accelerator
& Customize scheduler
GPU 분할 가상화
GPU-최우선
독자 스케줄러 / 오케스트레이터
자원 그룹 기반 관리
26. Backend.AI: 클러스터부터 사용자까지
Storage Proxy
to reduce network I/O
Pipeline Storage
for Distributed
computing
App Proxy
for secure container
access
분산처리, 재사용성 및
이식성에 특화한
파이프라인 설계
다양한 앱을 분산 환경 및
보안 환경에서 실행하는
프록시 서버
데이터 입출력 부담을
분산하기 위한
스토리지 프록시
28. Backend.AI: 큰 조직과 큰 모델
Reservoir
To provide full-
featured Air-gapped
environment
Cluster Session
to accelerate model
training
Domain
to run multiple
Backend.AIs
with same cluster
여러 노드를 이용해
딥 러닝 모델을 분산훈련하는
클러스터 세션
여러 Backend.AI 서비스를
단일 클러스터에서 운영하는
도메인 기능
완전 폐쇄망에서
패키지 서비스를 지원하는
자체 패키지 저장소
30. Lablup: (좀 이상한) 회사 정책
§ 언제나 2~3년 미래를 계획하고 개발하면서
§ 죽도록 고생한 다음
§ 시장이 예측을 따라왔을 때 준비된 상태에서 맞이한다
31. Backend.AI: Future Walker
ARM64 HPC/AI
Hybrid cluster
Kubernetes Cluster
as Backend.AI Agent
ARM64 CPU 아키텍처 지원 및
멀티 아키텍처로 구성된
하이브리드 클러스터 운영
Kubernetes Pod를
Backend.AI의
연산 자원으로 통합
ASIC abstraction
For future
accelerators
다양한 전용 가속기의
빠른 이식 및 통합을 지원하는
가속기 추상화 레이어
32. The good, the bad, the weird:
Assemble the technological puzzle of the future
33. Backend.AI: 곧 만나요!
§ MEG/IoT 파이프라인을 위한 micro Backend.AI + ARM64
§ 엄청나게 간단한 스케일업을 지원하는 Model inference v2
§ Apache NNI/MLFlow 심화 통합
§ 즉석 노트북을 띄워주는 Cloud API (EDU mode)
§ Backend.AI Reservoir 2.0
34. 감사합니다!
Jeongkyu Shin
Lablup / CEO
Lablup Inc.
Backend.AI
Backend.AI GitHub
Backend.AI Cloud
https://www.lablup.com
https://www.backend.ai
https://github.com/lablup/backend.ai
https://cloud.backend.ai