Lablupconf session8 "Paving the road to AI-powered world"

Paving the road to AI-powered World
with Backend.AI's technical roadmap
김준기 (Lablup, CTO)

이야기할 내용
§ Backend.AI의 주요 기술 혁신
§ Backend.AI 기술 로드맵
§ 래블업의 개발 문화
– 인턴/신입 프로그램
– 오픈소스

Cortesy of
https://bluecoders.com/
래블업의 고객들
래블업이 하는 일

Cortesy of
https://bluecoders.com/
현실의 MLOps

Backend.AI의 기술 혁신
§ 컨테이너 기반 GPU 가상화 기술
– 2021년 11월 현재 미국·일본·한국 특허 등록
– 하나의 물리적 GPU 장치를 여러 개의 컨테이너가 각자 독립된 영역으로 나누어 쓸 수
있게 해주는 기술
– CUDA 8.0 이후 버전 및 GPU 모델과 상관 없이 사용 가능
– 런타임에 할당량을 조절할 수 있어 유연한 자원 스케줄링 가능
§ 컨테이너 환경 조합 기술
– 2021년 11월 현재 미국·한국 특허 등록
– 컨테이너 생성 시 호스트의 아키텍처 유형 및 컨테이너 이미지의 배포판 유형, C
라이브러리 유형(glibc/musl) 등에 따라 동적으로 컨테이너 내부 환경을 미리
만들어진 라이브러리 이미지로부터 조합하여 생성
– 임의의 Docker Image로 만들어진 개발환경을 손쉽게 Backend.AI로 import할 수
있도록 해주는 역할
– 이를 통해 NGC 이미지 등을 신규 버전이 나오는대로 거의 즉시 지원

Backend.AI의 기술 혁신
§ 스토리지 기반 Universal Abstraction
– 데이터 양이 증가·누적될수록 처음에는 GPU에 주목하였던 고객들이 Storage에 관심을
가질 수밖에 없음
– 컨테이너의 볼륨 개념을 보다 친숙한 '클라우드 폴더' 형태로 재정의
– Storage proxy를 통한 파일시스템 가속 추상화로 파트너·벤더 사들이 가진 강점 활용
§ Programmable Sandboxing
– 라이브러리 및 시스템콜 수준에서의 보안 정책 설정
– 컨테이너 생태계 초기부터 안정적인 자원 분할 지원 (CPU 코어 개수 인식 보정 등)
§ Reservoir
– Backend.AI와 통합된 오픈소스 패키지 미러링 서비스
– 망분리 환경 및 고도 보안 환경에서 유연한 개발 흐름 지원

기술 혁신을 통한 고객 가치
§ 클라우드를 내 품에
– 상용 클라우드들이 제공하는 API 및 자동화, 자원
관리의 편리함을 on-premise에서 구현
§ 워크로드 규모 및 특성에 따른 유연한 자원 할당 지원
– 하나의 GPU를 여러 개로 쪼개서 사용하거나
– 여러 개의 GPU를 묶어서 분산·병렬 처리에 활용하거나
– Resource group을 통한 권한 및 제한 관리
§ GPU의 전 수명주기에 따른 활용 지원
– 선택적으로 GPU 가상화를 활용하여 추론 워크로드 및
학습 워크로드를 분리
– 모델 개발자들은 가능한 최신 세대의 GPU를 활용하되,
추론 서비스는 이전 세대의 GPU 활용
– GPU 수명이 다할 때까지 최대한의 가동률 유지

Backend.AI 개발 로드맵
Alpha Beta Production-ready
2015.8
프로젝트 공개
(PyCon KR)
2016.11
v0.9 릴리즈
GitHub을 통한
오픈소스 공개
LGPLv3/MIT
라이선스 적용
2017.10
v1.0 릴리즈
REPL 기능 안정화
개발 매뉴얼 제공
가상폴더 기능 추가
PyPI 공개
(pip install)
2018.1~3
v1.1 ~ v1.3 릴리즈
코드 안정화
설치프로그램 추가
플러그인 구조
브랜치 관리 규칙 적용
2018.9
v1.4 릴리즈
GPU 부분공유 기능 첫 구현
cloud.backend.ai
비공개 베타 시작
2018.12
v18.12 릴리즈
버전 번호 부여 정책 변경 (연.월)
공개 및 사설 Docker registry 연동
Google TPU 지원 추가
2019.9
v19.09 (Enterprise R1) 릴리즈
GPU 부분 공유 및 가상화 고도화
연산 자원 리소스 그룹 기능
이메일 기반의 사용자 관리 기능
도메인별 관리 기능 및 SSO 지원
엔터프라이즈용 control panel 기능
고가용성(HA) 지원
Harbor Docker Registry v1 연동

Backend.AI 개발 로드맵 (2020-2021)
Enterprise R2 (20.03/09) Enterprise R3 (21.03/09)
2020.6
v20.03 릴리즈
Python 3.8 기반
Callosum 보안 터널 연결 도입
표준화된 파이프라인 모듈 인터페이스
LustreFS, GlusterFS 지원
리눅스 데스크탑 GUI 터널링 지원
Harbor Docker Registry v2 연동
DGX-A100 지원
k8s pod 연동 지원 (베타)
Google TPU 지원 (베타)
AMD ROCm 지원 (베타)
cloud.backend.ai 공개 베타 시작
2020.11
v20.09 릴리즈
멀티컨테이너 세션 지원
데이터 파이프라인
XFS 파일시스템 지원
PureStorage 통합
DGX 통합 지원 (정식)
AMD ROCm 지원 (정식)
2021.3
v21.03 릴리즈
Python 3.9 기반
SQLAlchemy v1.4 /
aioredis v2 도입
대규모 클러스터 지원 안정화
스케줄러 HoL 회피기법 적용
Watcher framework (베타)

Backend.AI 개발 로드맵 (2021-2022)
Enterprise R3 (21.03/09) Enterprise R4 (22.03/09)
2021.11
v21.09 릴리즈
ARM64 (Apple Silicon, AWS Graviton,
NVIDIA Jetson Nano) 지원
RDMA 가속 지원
NetApp 스토리지 통합
추론 워크로드를 위한 앱 스트리밍 최적화
실시간 통계 대시보드
파이프라인 스케줄러 통합 (베타)
템플릿 기반 세션 생성 (정식)
Watcher framework (정식)
2022.3
v22.03 릴리즈
Python 3.10 기반
Storage proxy 파일브라우저 통합
동적 세션 자원 재할당(resizing/rescaling)
컨테이너 이미지 빌더 컴포넌트
Dell 스토리지 통합
파이프라인 스케줄러 통합 (정식)
k8s pod 연동 지원 (정식)
…
2022~
그 이후
cloud.backend.ai 정식 공개 서비스
추론 워크로드를 위한 대규모 자동 스케일링 지원
ARM64/x86 hybrid 환경 지원
IoT/Edge 장치 환경 지원
Federated Learning & Inference 통합
World Console

§ Code of Conduct
– 포괄적 차별금지 원칙과 자율성 존중 원칙
– 잡일을 줄이고 더 중요한 것에 집중하기
– 명시적인 것이 암묵적인 것보다 낫다
– 기록과 공유 원칙
– 휴가는 자유롭게, 다만 긴 휴가일수록 미리 알려주기
§ 개발 관련
– 어떤 삽질이 하루보다 길어지면 팀원들과 현재 상황과 막혀있는 부분을 '떠들기'
✓ 삽질에 대해서 스스로 부끄러워하지 않기 & 비난하지 않기
✓ 실수가 있다면 반복하지 않는 방법을 찾고 실행하자
– 상대방이 알기보다는 모를 것이라고 가정하고 말하기
✓ 리뷰어도 맥락 전환이 바로 안 될 수 있음
– 좋은 코드 리뷰 문화를 위한 노력
래블업의 개발 문화

§ Backend Bootcamp
– 대부분의 경우 비동기 프로그래밍 경험이 거의 없음
– Toy project: asyncio 기반의 비동기 채팅 애플리케이션 개발
– Backend.AI 기술 스택을 공부할 수 있는 주제들 제시
§ Backend.AI Onboarding
– "good first issue" 할당 및 해결
– 코드 리뷰 프로세스 경험해보기
– Codebase Seminar
§ OKR
– 인턴 기간 혹은 향후 1~2개월 간 집중해서 하고 싶은 이슈 고르기
– 주간 미팅을 통해 이슈 진행상황 공유
– PR 작성 및 코드 리뷰는 수시로 진행
§ FACT: 현재까지 래블업의 모든 신입 개발자는 인턴 프로그램을 거쳐옴
래블업의 인턴/신입 프로그램

오픈소스 생태계와의 협업
§ 협업 사례
– Python asyncio & aio-libs
✓ async-timeout 4.0.1 버그 패치 사례
✓ aiodocker: 2017년부터 커미터로 참여
– PyCon
✓ PyCon KR에 7년 연속 관련 주제 발표
✓ PyCon APAC/HK 참여
– TensorFlow
✓ ML GDE 활동
✓ TF Dev Summit, Google I/O 참여
– 오픈프론티어, 컨트리뷰션 아카데미
✓ 회사 차원에서 장려 https://writejuo.tistory.com/159

오픈소스 장단점?
§ 오픈소스 하는 회사
– 회사일을 했는데 나의 깃헙 프로필이 풍부해진다!
– 우리끼리만 볼 거니까 대충 때우고 넘어가는 경우를
심리적으로 피하게 됨
– 나 자신과 회사의 기술력을 외부에서 인정받기 좋다
– 회사 내에서 해결이 안 되는 경우 외부의 도움을
받을 수 있다
– 가끔 취미로 하는 오픈소스가 회사일의 연장처럼
느껴지거나 실제로 그럴 때…
§ 오픈소스 의존
– 밑바닥까지 동작 원리를 파악할 수 있다
– 내가 직접 뜯어보고 고칠 수 있음
– upstream 이슈 발생 시 해결 시간 예상이 어려움
– 내가 직접 뜯어고치고 싶은 유혹을 참아야 할 때…
우리 오픈소스할거야 좋은 거지?
오픈소스도 쓸거야 좋은 거 맞지?
Cortesy of Star Wars

래블업으로 오세요!
EDS TV Commercial (circa 2000)
2021년 10월부터 전문연구요원 전직 가능!
(신규편입 TO는 2022년부터)

Lablup Inc. https://www.lablup.com
Backend.AI https://www.backend.ai
Backend.AI GitHub https://github.com/lablup/backend.ai
Backend.AI Cloud https://cloud.backend.ai
Thank you!
Joongi Kim
CTO

Lablupconf session8 "Paving the road to AI-powered world"

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Lablupconf session8 "Paving the road to AI-powered world"

Similar to Lablupconf session8 "Paving the road to AI-powered world" (20)

More from Lablup Inc.

More from Lablup Inc. (14)

Lablupconf session8 "Paving the road to AI-powered world"