Lablupconf keynote

The good, the bad, the weird:
Future of AI and its Backend
신정규 (Lablup/CEO)

Lablup Inc.
Make AI Accessible
현대 과학 연구와 응용 분야의 발전 속도차에 의한 간극 문제를
클라우드 컴퓨팅과 AI 기술을 바탕으로
계산 기반 연구의 새 패러다임 제시를 통해 해결합니다
Mission

$
$ lab | up > /conf
_ _ _ _ _ _ _ _ _
_ / / / / _ /_ / / / _ /
/__ / / / / /__ / / / _ / / /_ /
/ /_ _ / / / / / / / /_ _ __ /_ / / / _ / / _/ / // /
/ / //_/ / / / / / / / / //_/ ___ / / // / / _ / //_/ / / / ___/ // / /
/ / / / / / / / / _ / / / __ / / / // / /_/ / / / / / / / / /____// / / _
/ / / / / /___/ / / / / ___ / / / / / / / / // / /__/ / / / / / / / / / // / / /_/
/ / / ____ / / /_____/ / / / / __/ / / / ____ / / / / / // / /_____/ / / / / / / / / // / /
/ /_/_/ ___/ / /_________/ / / /_____ / /_/_/ ___/ / / /___/ / // / / ___/ / /__ / / / / / // / /________ _
/_______/__// / /_ __ _/ / /__________/_______/__// / /____/ // / / /__/_/___/ / / / / // / /_________/_
_______/ ____ /____/_//_____________/_______/ /_________/ /_/ /_________//_/ /_/ /____________//_/
_ _ _ _ _ _ _ _ _
/ / _ / _ / / /_/_ _ / /_
/ / / / / / /__ / / / / / / //_ / / / /
/ / / / / // / / /_ _ / / / / / / / / // / / / /_
/ / /_ / / // / / _ / / //_/ / / / / / / / ______/ // / / _/ /___/
/ /_//_// / // /_/_ /_/ / / / / / / _ / / / _ / //________// /_/_ /_/____
/ _______// // /____/ / / / / / / /_/ / / / / / // / //_// / // /____/ / / /
/ / ____ // /____/ / / / ____ / / / / / / / / // / / / / // /____/ / / /
/_/ / / // / /______ / /_/_/ ___/ / / /________ / / /___/ / // / / / / // / /______ _/_/
_//_/ /_/ // / /_______/_______/__// / /_________/ / /____/ / /_/ / / // / /_______ /_
_/_/ /__________/_______/ /____________//_________/ /_/ /__________/ /_/

래블업
랩을업
:Make AI Accessible

무엇이 일어났고, 무엇이 일어날까요?

The good, the bad, the weird
https://filmdaze.net/the-good-the-bad-the-weird-the-fantastic-land-of-manchuria/

HPC & AI 기술의 발전 방향
수치 기반
시뮬레이션
통계·회귀 분석
초연결 사회:
인간 활동 대부분이 온라인으로 기록
머신 러닝
딥 러닝
클라우드 컴퓨팅
빅데이터 컴퓨팅
인터넷 사용자 규모 34억명 (2016년)
가속 컴퓨팅
AI-enabled, AI-oriented
HPC 컴퓨팅
하드웨어 + 소프트웨어 발전이
동시에 상호 영향을 끼치며 진행 중
GPU, FPGA,
ASIC
무어의 법칙
오픈소스 SW
가상화 기술

딥러닝 모델 복잡도의 급격한 증가
Reference: NVIDIA 2017 “A NET COMPUTING ERA”
2015 Microsoft
ResNet
2015
2016 Baidu Deep
Speech 2
2016
Google NMT
2017
Google BERT/
Facebook
LoBERTa
2018
Google XLNet
Google T5
2019
연간 2-3배씩
증가
연간 수십 배
증가
계산량 산정: GOPS * bandwidth

실제 세상에서는…
http://www.sandraandwoo.com/2012/11/19/0430-software-engineering-now-with-cats/
https://elicitinsights.com/blog/i-know-exactly-what-you-mean-i-think/

딥 러닝: 확장 / 워크로드 파편화
§ MLOps / AIOps: 연산 자원 요구의 변화로 인한 유연한 스케일링 요구
– 데이터 처리, 학습, 모델 서빙에 따라 상이한 워크로드 특성
– 연산 가속기의 일반화 및 연산 요구량의 지수적 상승

딥 러닝: 확장 / 워크로드 파편화
Workload characteristics
that are radically
varied
throughout pipelines
Traditional Resources+
Rise of Deep Learning
Accelerators
High-performance
computing cost rise
as processing increases
머신러닝 파이프라인 워크로드
- 데이터 전처리: Data I/O
- 분석: CPU
- 훈련: GPU/ASIC
- 서빙: CPU/GPU
복잡한 소프트웨어 스택
HPC: F77/F90 to Julia
DL: TensorFlow 1.X, 2.X,
PyTorch 1.X, JAX, Haiku…
뛰어난 전력대 성능비
딥러닝용 GPU 시장
NVIDIA, AMD, Intel
딥러닝 전용 ASIC 시장
ARM Mali
GraphCore IPU
Habana Goya
Google TPU / Coral
NVIDIA Jetson
Network / DPU
NVIDIA/Mellanox
Intel
단위시간당 자원 비용 증가[1]
CPU: $0.006
GPU (A100): $0.93
모델 훈련 비용의 급격한 증가
GPT-3 (2020): 45억원~
T5 (2019): 30억원~
BERT (2018): 1억원~
완전히 성격이 다른
파이프라인 내 워크로드 특성
전통적 연산 자원+
딥러닝 연산 가속기의 대두
연산 요구량으로 인한
고성능 컴퓨팅 비용 증가

Backend.AI
AI 프레임워크들을 위한 엔터프라이즈 클러스터 백엔드
§ 초기에는 “Sorna”로 알려졌어요 (2015. 8)
§ 오픈소스 베타 버전 (2016. 11) / 이후 13번의 메이저 버전
§ 900k+ 누적 Backend.AI 환경 이미지 다운로드
§ 440.8 PFLOPS: 운영중인 가장 큰 클러스터 계산 능력
§ 2k+ 등록된 Backend.AI 매니지드 클라우드 사용자

Moonshot but crashed
§ No trampoline,
§ No landing site.

Lesson from Apollo Project
§ What Hard Landing Left Behind
§ Four more years
It became the most reliable method of determining
"what is required"
for hyperscale computation platform

Backend.AI: The good
§ 작게 시작해서 필요에 따라 확장하기
§ 다양한 자원들을 마치 하나의 PC처럼 단순하게 다루기

Backend.AI: GPU부터 클러스터까지
Split cluster into
sub-clusters
as you want
Scale within GPUs
& Scale across GPUs
Plug-in-play
any accelerator
& Customize scheduler
GPU 분할 가상화
GPU-최우선
독자 스케줄러 / 오케스트레이터
자원 그룹 기반 관리

Backend.AI: 클러스터부터 사용자까지
Storage Proxy
to reduce network I/O
Pipeline Storage
for Distributed
computing
App Proxy
for secure container
access
분산처리, 재사용성 및
이식성에 특화한
파이프라인 설계
다양한 앱을 분산 환경 및
보안 환경에서 실행하는
프록시 서버
데이터 입출력 부담을
분산하기 위한
스토리지 프록시

Backend.AI: The bad
§ 사용자들이 연구하고 개발하는 자유를 보장하기
§ 제약이 굉장히 심한 환경에서도!

Backend.AI: 큰 조직과 큰 모델
Reservoir
To provide full-
featured Air-gapped
environment
Cluster Session
to accelerate model
training
Domain
to run multiple
Backend.AIs
with same cluster
여러 노드를 이용해
딥 러닝 모델을 분산훈련하는
클러스터 세션
여러 Backend.AI 서비스를
단일 클러스터에서 운영하는
도메인 기능
완전 폐쇄망에서
패키지 서비스를 지원하는
자체 패키지 저장소

Backend.AI: The weird
§ 아직 오지 않은 미래에 대비하기

Lablup: (좀 이상한) 회사 정책
§ 언제나 2~3년 미래를 계획하고 개발하면서
§ 죽도록 고생한 다음
§ 시장이 예측을 따라왔을 때 준비된 상태에서 맞이한다

Backend.AI: Future Walker
ARM64 HPC/AI
Hybrid cluster
Kubernetes Cluster
as Backend.AI Agent
ARM64 CPU 아키텍처 지원 및
멀티 아키텍처로 구성된
하이브리드 클러스터 운영
Kubernetes Pod를
Backend.AI의
연산 자원으로 통합
ASIC abstraction
For future
accelerators
다양한 전용 가속기의
빠른 이식 및 통합을 지원하는
가속기 추상화 레이어

The good, the bad, the weird:
Assemble the technological puzzle of the future

Backend.AI: 곧 만나요!
§ MEG/IoT 파이프라인을 위한 micro Backend.AI + ARM64
§ 엄청나게 간단한 스케일업을 지원하는 Model inference v2
§ Apache NNI/MLFlow 심화 통합
§ 즉석 노트북을 띄워주는 Cloud API (EDU mode)
§ Backend.AI Reservoir 2.0

감사합니다!
Jeongkyu Shin
Lablup / CEO
Lablup Inc.
Backend.AI
Backend.AI GitHub
Backend.AI Cloud
https://www.lablup.com
https://www.backend.ai
https://github.com/lablup/backend.ai
https://cloud.backend.ai

Lablupconf keynote

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Lablupconf keynote

Similar to Lablupconf keynote (20)

More from Lablup Inc.

More from Lablup Inc. (16)

Lablupconf keynote