SlideShare a Scribd company logo
1 of 17
Download to read offline
People don’t know what they wany
until LABLUP show it to them:
Practical guide to building GPU clusters for AI
김정묵 (Lablup, COO)
§ 기존 IT 인프라 / 클러스터와는 다른,
§ AI 클러스터 구축 과정에서 고려해야 할 사항들과 키워드를 살펴봅시다!
ㅠㅠ
AI 개발과 GPU
DRAM
Cache
Control
ALU
ALU ALU
ALU
CPU GPU
DRAM
DRAM
[실화] GPU(만) 많은 AI 클러스터
§ CPU / RAM 부족해서 데이터 처리 기다리며 GPU는 항상 놀고 있음
§ 데이터 / 컨테이너 이미지 불러오느라 CPU / GPU 다 놀고 있음
§ GPU 간 통신이 지원되지 않아 GPU 는 많아도 모델 사이즈 제한
§ 어느 데이터가 어디에 있는지 몰라 중복 / 보안 이슈로 클러스터링 불가
§ Rack 당 3kW? 단일 노드 10kW, 공사비 폭탄
§ 높은 복잡도와 관리 부담에 관리자 퇴사
AI 클러스터 설계
§ 연산 서버
§ 스토리지 서버
§ 네트워킹
§ 전력 (+ 평면 설계)
§ 관리 서버
§ 소프트웨어
§ + 그리고 AI 클러스터의 용도
AI 클러스터의 용도
§ 하이퍼파라미터 서치 (Hyperparameter search)
– 좋은 모델 찾기
§ 분산 훈련 (Distributed training)
– 빠른 모델 훈련
§ 추론 서비스 (Inference serving)
– 만든 모델 서비스
§ + AI 교육 및 실습
연산 서버 (1)
§ CPU
– 데이터 처리를 위해 충분한 CPU 성능 필요
– 상황에 따라 데이터 처리 전용 CPU 서버도 고려
§ RAM
– 클수록 좋음
– 언어 모델 등을 개발할 때에는 GPU 메모리 대비 2배 이상의 시스템 메모리 권장
§ 스토리지 (스크래치 저장소)
– 별도의 스토리지가 있더라도 캐시로 필요
– SSD 권장
– 컨테이너 이미지 등 대형화로 일정 수준 이상 권장
연산 서버 (2)
§ GPU
– 용도별 선택
✓ 하이퍼파라미터 서치
• (데이터센터용) NVIDIA Tesla A100 / V100
• (워크스테이션용) NVIDIA RTX A6000 / Quadro RTX 8000
✓ 분산 훈련
• NVIDIA Tesla A100
✓ 추론 서비스
• NVIDIA Tesla T4 / A2 / A30
✓ AI 교육 및 실습
• 코스웍에 따라 차이가 있으나, 비용 상의 제약으로 교육기관에서 큰 어려움이 있음
– 노드 내 구성
✓ 대형 모델 훈련 지원과 네트워크 장비 비용을 고려 시 노드 당 4~8 EA이 다수
✓ 대형 모델 훈련 지원을 위해서는 다음과 같은 노드 내 연결을 반드시 고려해야 함
• NUMA
• NVLink
• NVSwitch
연산 서버 (3)
§ Backend.AI 멀티노드 워크로드 지원
– 클러스터 세션 기반으로 분산 훈련을 최적 지원
§ Backend.AI 분할 GPU 가상화
– 독자 기술인 컨테이너 기반 GPU 가상화로 모든 CUDA GPU를 탄력적으로 가상화 가능
– 훈련 용도로 도입한 GPU를 하이퍼파라미터 서치 / 추론 서비스 / AI 교육 및 실습
용도로도 항상 최적으로 운용할 수 있는 옵션 제공
스토리지 서버
§ 데이터와 모델 저장 및 서비스용
§ 연산 서버 수가 많다면 별도 스토리지 서버 필수
– 데이터 파편화: 클러스터링을 통한 고가 연산 자원 활용에 가장 큰 장애 요소
– 구축 단계부터 데이터 관리 일원화 필요
§ 비용 차이가 크게 나며 용도 및 데이터 특성에 따른 선택 필요
– Hot 스토리지: 빠른 접근 / 잦은 접근 / 비쌈 (SSD)
– Cold 스토리지: 느린 접근 / 드문 접근 / 비교적 저렴 (HDD)
§ Backend.AI 스토리지 프록시
– 고가의 연산 자원을 최적으로 활용하기 위해 데이터 입출력 분산 최적 지원
– 다양한 파일시스템 및 스토리지 솔루션을 직접 연동하여 최적으로 활용 가능하도록 제공
✓ 퓨어스토리지 FlashBlade, 넷앱 OnTap, CephFS, LustreFS, XFS 등
✓ 지원 플랫폼 및 기술 파트너십 지속 확장 중
네트워킹
§ 안정적인 운영을 위한 관리(서비스) 네트워크와 데이터 네트워크의 분리 필요
§ 관리 네트워크
– AI 클러스터에서 흔히 발생할 수 있는 대용량 전송 상황에서도 안정적인 운영 필요
– 별도의 네트워크 필요
– (시스템에 따라 다르나) 1Gb 수준으로도 가능
§ 데이터 네트워크
– 고성능 스위치와 케이블의 비용이 높음
– 특히 분산 훈련 시에 GPU 서버 간 넓은 대역폭이 크게 요구되며, 별도의 GPU 노드
패브릭이 필요함
전력 및 평면 설계
§ 고성능 GPU 서버 당 3~10kW TDP
§ 데이터센터 랙 당 기존 3kW 에서 대략 30~40kW로 TDP 폭증
§ 기존 IT 인프라 설비 활용 시에도 전력 공급 및 온도 관리를 위한 설비 확충 공사 필수
§ 기존과는 다른 전력 공급, 온도 관리 뿐만 아니라 네트워킹 장비의 비용과 규격까지 고려
필요
관리 서버
§ 다수 사용자가 다양한 사용 환경에서도 안정적인 서비스
– 일정 수준의 별도 관리 서버가 필요
– 연산 서버 구성 / 사용자 수 / 용도 / 소프트웨어에 따라 차이
§ 추론 서비스
– 다수의 사용자와 요청을 안정적으로 처리해야 함
– 고가용성 구성 필수
소프트웨어 (1)
§ 관리 도구
– 잡 스케줄러, 오케스트레이터
– 로그 관리 및 대쉬보드
– 연산 자원 그룹화 및 접근 제한 관리
– 사용자 및 사용자 그룹 관리 기능
– 개발 환경 저장소
– 저장소 관리
§ 하드웨어 드라이버 / OS
– CUDA
– OS
§ 개발자 / 사용자 지원
– ML/DL 프레임워크, 라이브러리, 패키지
– Experiment 관리
– 추론 서비스 지원
§ + 더더더 많은 기술이 새로 나오고 있음
소프트웨어 (2)
§ End-to-End MLOps 플랫폼 : Backend.AI
– AI 프레임워크용 엔터프라이즈 클러스터 백엔드
– NVIDIA DGX-Ready Software
✓ 아시아 태평양 지역 최초, 유일
✓ https://www.nvidia.com/en-us/data-center/dgx-ready-software/
데이터 과학자 / 모델링부터 서빙까지 캐리 가능
추천 템 : Backend.AI
AI 클러스터 용도별 참고 사항 요약
하이퍼파라미터
서치
분산 훈련 추론 서비스 AI 교육 및
실습
관리 서버
고가용성 구성
선택 선택 필수 학습자 수에
따름
노드 내 연결성 중요 매우 중요
노드 간 연결성 넓은 대역폭
필요
구축 비용 높음 매우 높음 매우매우
높아야 함
규모에 따름
소프트웨어 Backend.AI 를 통해 클러스터를 다양한 용도에 맞게 상시 최적
운영 가능
Lablup Inc. https://www.lablup.com
Backend.AI https://www.backend.ai
Backend.AI GitHub https://github.com/lablup/backend.ai
Backend.AI Cloud https://cloud.backend.ai
Thank you!
Jeongmook Kim
Chief Operating Officer

More Related Content

What's hot

네이버 클라우드 플랫폼의 컨테이너 기술 로드맵 (NBP 박기은 CTO) - NAVER CLOUD PLATFORM in [2018 All A...
네이버 클라우드 플랫폼의 컨테이너 기술 로드맵 (NBP 박기은 CTO) - NAVER CLOUD PLATFORM in [2018 All A...네이버 클라우드 플랫폼의 컨테이너 기술 로드맵 (NBP 박기은 CTO) - NAVER CLOUD PLATFORM in [2018 All A...
네이버 클라우드 플랫폼의 컨테이너 기술 로드맵 (NBP 박기은 CTO) - NAVER CLOUD PLATFORM in [2018 All A...NAVER CLOUD PLATFORMㅣ네이버 클라우드 플랫폼
 
[OpenInfra Days Korea 2018] (Track 1) Kubernetes 환경에서의 Volume 배포와 데이터 관리의 유연성...
[OpenInfra Days Korea 2018] (Track 1) Kubernetes 환경에서의 Volume 배포와 데이터 관리의 유연성...[OpenInfra Days Korea 2018] (Track 1) Kubernetes 환경에서의 Volume 배포와 데이터 관리의 유연성...
[OpenInfra Days Korea 2018] (Track 1) Kubernetes 환경에서의 Volume 배포와 데이터 관리의 유연성...OpenStack Korea Community
 
[OpenInfra Days Korea 2018] (오픈소스컨설팅) 키노트 - 최지웅 이사님
[OpenInfra Days Korea 2018] (오픈소스컨설팅) 키노트 - 최지웅 이사님[OpenInfra Days Korea 2018] (오픈소스컨설팅) 키노트 - 최지웅 이사님
[OpenInfra Days Korea 2018] (오픈소스컨설팅) 키노트 - 최지웅 이사님OpenStack Korea Community
 
[OpenInfra Days Korea 2018] (Track 1) IaaS에서 PaaS로의 고도화 여정
[OpenInfra Days Korea 2018] (Track 1) IaaS에서 PaaS로의 고도화 여정[OpenInfra Days Korea 2018] (Track 1) IaaS에서 PaaS로의 고도화 여정
[OpenInfra Days Korea 2018] (Track 1) IaaS에서 PaaS로의 고도화 여정OpenStack Korea Community
 
Machine Learning Model Serving with Backend.AI
Machine Learning Model Serving with Backend.AIMachine Learning Model Serving with Backend.AI
Machine Learning Model Serving with Backend.AIJeongkyu Shin
 
쿠버네티스 ( Kubernetes ) 소개 자료
쿠버네티스 ( Kubernetes ) 소개 자료쿠버네티스 ( Kubernetes ) 소개 자료
쿠버네티스 ( Kubernetes ) 소개 자료Opennaru, inc.
 
대용량 로그분석 Bigquery로 간단히 사용하기 20160930
대용량 로그분석 Bigquery로 간단히 사용하기 20160930대용량 로그분석 Bigquery로 간단히 사용하기 20160930
대용량 로그분석 Bigquery로 간단히 사용하기 20160930Jaikwang Lee
 
04.지는 VM vs. 뜨는 Kubernetes
04.지는 VM vs. 뜨는 Kubernetes 04.지는 VM vs. 뜨는 Kubernetes
04.지는 VM vs. 뜨는 Kubernetes Opennaru, inc.
 
DB Migration to Azure Database for PostgreSQL
DB Migration to Azure Database for PostgreSQLDB Migration to Azure Database for PostgreSQL
DB Migration to Azure Database for PostgreSQLrockplace
 
Unionweb프로젝트
Unionweb프로젝트Unionweb프로젝트
Unionweb프로젝트Dong-Jin Park
 
5. 솔루션 카달로그
5. 솔루션 카달로그5. 솔루션 카달로그
5. 솔루션 카달로그Terry Cho
 
GCP Gaming Korea 9M Interactive
GCP Gaming Korea 9M InteractiveGCP Gaming Korea 9M Interactive
GCP Gaming Korea 9M InteractiveChris Jang
 
가상화 기술과 컨테이너 기술의 차이점과 기대 효과
가상화 기술과 컨테이너 기술의 차이점과 기대 효과가상화 기술과 컨테이너 기술의 차이점과 기대 효과
가상화 기술과 컨테이너 기술의 차이점과 기대 효과Opennaru, inc.
 
NetApp AI Control Plane
NetApp AI Control PlaneNetApp AI Control Plane
NetApp AI Control PlaneSeungYong Baek
 
03. 이것만은 알자. 컨테이너 기술 기초부터 최신 트렌드 까지
03. 이것만은 알자. 컨테이너 기술 기초부터 최신 트렌드 까지03. 이것만은 알자. 컨테이너 기술 기초부터 최신 트렌드 까지
03. 이것만은 알자. 컨테이너 기술 기초부터 최신 트렌드 까지Opennaru, inc.
 
[OpenInfra Days Korea 2018] (Track 2) Microservice Architecture, DevOps 그리고 5...
[OpenInfra Days Korea 2018] (Track 2) Microservice Architecture, DevOps 그리고 5...[OpenInfra Days Korea 2018] (Track 2) Microservice Architecture, DevOps 그리고 5...
[OpenInfra Days Korea 2018] (Track 2) Microservice Architecture, DevOps 그리고 5...OpenStack Korea Community
 
[OpenInfra Days Korea 2018] (Track 4) Provisioning Dedicated Game Server on K...
[OpenInfra Days Korea 2018] (Track 4) Provisioning Dedicated Game Server on K...[OpenInfra Days Korea 2018] (Track 4) Provisioning Dedicated Game Server on K...
[OpenInfra Days Korea 2018] (Track 4) Provisioning Dedicated Game Server on K...OpenStack Korea Community
 

What's hot (20)

네이버 클라우드 플랫폼의 컨테이너 기술 로드맵 (NBP 박기은 CTO) - NAVER CLOUD PLATFORM in [2018 All A...
네이버 클라우드 플랫폼의 컨테이너 기술 로드맵 (NBP 박기은 CTO) - NAVER CLOUD PLATFORM in [2018 All A...네이버 클라우드 플랫폼의 컨테이너 기술 로드맵 (NBP 박기은 CTO) - NAVER CLOUD PLATFORM in [2018 All A...
네이버 클라우드 플랫폼의 컨테이너 기술 로드맵 (NBP 박기은 CTO) - NAVER CLOUD PLATFORM in [2018 All A...
 
[OpenInfra Days Korea 2018] (Track 1) Kubernetes 환경에서의 Volume 배포와 데이터 관리의 유연성...
[OpenInfra Days Korea 2018] (Track 1) Kubernetes 환경에서의 Volume 배포와 데이터 관리의 유연성...[OpenInfra Days Korea 2018] (Track 1) Kubernetes 환경에서의 Volume 배포와 데이터 관리의 유연성...
[OpenInfra Days Korea 2018] (Track 1) Kubernetes 환경에서의 Volume 배포와 데이터 관리의 유연성...
 
Ai based on gpu
Ai based on gpuAi based on gpu
Ai based on gpu
 
[OpenInfra Days Korea 2018] (오픈소스컨설팅) 키노트 - 최지웅 이사님
[OpenInfra Days Korea 2018] (오픈소스컨설팅) 키노트 - 최지웅 이사님[OpenInfra Days Korea 2018] (오픈소스컨설팅) 키노트 - 최지웅 이사님
[OpenInfra Days Korea 2018] (오픈소스컨설팅) 키노트 - 최지웅 이사님
 
[OpenInfra Days Korea 2018] (Track 1) IaaS에서 PaaS로의 고도화 여정
[OpenInfra Days Korea 2018] (Track 1) IaaS에서 PaaS로의 고도화 여정[OpenInfra Days Korea 2018] (Track 1) IaaS에서 PaaS로의 고도화 여정
[OpenInfra Days Korea 2018] (Track 1) IaaS에서 PaaS로의 고도화 여정
 
Machine Learning Model Serving with Backend.AI
Machine Learning Model Serving with Backend.AIMachine Learning Model Serving with Backend.AI
Machine Learning Model Serving with Backend.AI
 
쿠버네티스 ( Kubernetes ) 소개 자료
쿠버네티스 ( Kubernetes ) 소개 자료쿠버네티스 ( Kubernetes ) 소개 자료
쿠버네티스 ( Kubernetes ) 소개 자료
 
대용량 로그분석 Bigquery로 간단히 사용하기 20160930
대용량 로그분석 Bigquery로 간단히 사용하기 20160930대용량 로그분석 Bigquery로 간단히 사용하기 20160930
대용량 로그분석 Bigquery로 간단히 사용하기 20160930
 
04.지는 VM vs. 뜨는 Kubernetes
04.지는 VM vs. 뜨는 Kubernetes 04.지는 VM vs. 뜨는 Kubernetes
04.지는 VM vs. 뜨는 Kubernetes
 
[9월 런치 세미나] 도커와 쿠버네티스 기술에 스며들다
[9월 런치 세미나] 도커와 쿠버네티스 기술에 스며들다[9월 런치 세미나] 도커와 쿠버네티스 기술에 스며들다
[9월 런치 세미나] 도커와 쿠버네티스 기술에 스며들다
 
DB Migration to Azure Database for PostgreSQL
DB Migration to Azure Database for PostgreSQLDB Migration to Azure Database for PostgreSQL
DB Migration to Azure Database for PostgreSQL
 
Unionweb프로젝트
Unionweb프로젝트Unionweb프로젝트
Unionweb프로젝트
 
Open infra and cloud native
Open infra and cloud nativeOpen infra and cloud native
Open infra and cloud native
 
5. 솔루션 카달로그
5. 솔루션 카달로그5. 솔루션 카달로그
5. 솔루션 카달로그
 
GCP Gaming Korea 9M Interactive
GCP Gaming Korea 9M InteractiveGCP Gaming Korea 9M Interactive
GCP Gaming Korea 9M Interactive
 
가상화 기술과 컨테이너 기술의 차이점과 기대 효과
가상화 기술과 컨테이너 기술의 차이점과 기대 효과가상화 기술과 컨테이너 기술의 차이점과 기대 효과
가상화 기술과 컨테이너 기술의 차이점과 기대 효과
 
NetApp AI Control Plane
NetApp AI Control PlaneNetApp AI Control Plane
NetApp AI Control Plane
 
03. 이것만은 알자. 컨테이너 기술 기초부터 최신 트렌드 까지
03. 이것만은 알자. 컨테이너 기술 기초부터 최신 트렌드 까지03. 이것만은 알자. 컨테이너 기술 기초부터 최신 트렌드 까지
03. 이것만은 알자. 컨테이너 기술 기초부터 최신 트렌드 까지
 
[OpenInfra Days Korea 2018] (Track 2) Microservice Architecture, DevOps 그리고 5...
[OpenInfra Days Korea 2018] (Track 2) Microservice Architecture, DevOps 그리고 5...[OpenInfra Days Korea 2018] (Track 2) Microservice Architecture, DevOps 그리고 5...
[OpenInfra Days Korea 2018] (Track 2) Microservice Architecture, DevOps 그리고 5...
 
[OpenInfra Days Korea 2018] (Track 4) Provisioning Dedicated Game Server on K...
[OpenInfra Days Korea 2018] (Track 4) Provisioning Dedicated Game Server on K...[OpenInfra Days Korea 2018] (Track 4) Provisioning Dedicated Game Server on K...
[OpenInfra Days Korea 2018] (Track 4) Provisioning Dedicated Game Server on K...
 

Similar to Lablupconf session7 People don't know what they want until LABLUP show it to them. : Practical guide to building GPU clusters for AI"

Theano 와 Caffe 실습
Theano 와 Caffe 실습 Theano 와 Caffe 실습
Theano 와 Caffe 실습 정주 김
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK TelecomGruter
 
data platform on kubernetes
data platform on kubernetesdata platform on kubernetes
data platform on kubernetes창언 정
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGruter
 
Glusterfs 소개 v1.0_난공불락세미나
Glusterfs 소개 v1.0_난공불락세미나Glusterfs 소개 v1.0_난공불락세미나
Glusterfs 소개 v1.0_난공불락세미나sprdd
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018Amazon Web Services Korea
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Gruter
 
게임 서비스를 위한 AWS상의 고성능 SQL 데이터베이스 구성 (이정훈 솔루션즈 아키텍트, AWS) :: Gaming on AWS 2018
게임 서비스를 위한 AWS상의 고성능 SQL 데이터베이스 구성 (이정훈 솔루션즈 아키텍트, AWS) :: Gaming on AWS 2018게임 서비스를 위한 AWS상의 고성능 SQL 데이터베이스 구성 (이정훈 솔루션즈 아키텍트, AWS) :: Gaming on AWS 2018
게임 서비스를 위한 AWS상의 고성능 SQL 데이터베이스 구성 (이정훈 솔루션즈 아키텍트, AWS) :: Gaming on AWS 2018Amazon Web Services Korea
 
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례(Joe), Sanghun Kim
 
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)BoanLabDKU
 
1711 azure-live
1711 azure-live1711 azure-live
1711 azure-live세준 김
 
클라우드 컴퓨팅 기본 사항 (Fundamentals)
클라우드 컴퓨팅 기본 사항 (Fundamentals)클라우드 컴퓨팅 기본 사항 (Fundamentals)
클라우드 컴퓨팅 기본 사항 (Fundamentals)Ian Choi
 
이승재, 실버바인 서버엔진 2 설계 리뷰, NDC2018
이승재, 실버바인 서버엔진 2 설계 리뷰, NDC2018이승재, 실버바인 서버엔진 2 설계 리뷰, NDC2018
이승재, 실버바인 서버엔진 2 설계 리뷰, NDC2018devCAT Studio, NEXON
 
AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기Nak Joo Kwon
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache TajoGruter
 
The nosql echossytem
The nosql echossytemThe nosql echossytem
The nosql echossytem종석 박
 
가상화와 컨테이너의 이해_20230117.pptx
가상화와 컨테이너의 이해_20230117.pptx가상화와 컨테이너의 이해_20230117.pptx
가상화와 컨테이너의 이해_20230117.pptxByungho Lee
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Gruter
 

Similar to Lablupconf session7 People don't know what they want until LABLUP show it to them. : Practical guide to building GPU clusters for AI" (20)

Theano 와 Caffe 실습
Theano 와 Caffe 실습 Theano 와 Caffe 실습
Theano 와 Caffe 실습
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
 
data platform on kubernetes
data platform on kubernetesdata platform on kubernetes
data platform on kubernetes
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
 
Glusterfs 소개 v1.0_난공불락세미나
Glusterfs 소개 v1.0_난공불락세미나Glusterfs 소개 v1.0_난공불락세미나
Glusterfs 소개 v1.0_난공불락세미나
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014
 
게임 서비스를 위한 AWS상의 고성능 SQL 데이터베이스 구성 (이정훈 솔루션즈 아키텍트, AWS) :: Gaming on AWS 2018
게임 서비스를 위한 AWS상의 고성능 SQL 데이터베이스 구성 (이정훈 솔루션즈 아키텍트, AWS) :: Gaming on AWS 2018게임 서비스를 위한 AWS상의 고성능 SQL 데이터베이스 구성 (이정훈 솔루션즈 아키텍트, AWS) :: Gaming on AWS 2018
게임 서비스를 위한 AWS상의 고성능 SQL 데이터베이스 구성 (이정훈 솔루션즈 아키텍트, AWS) :: Gaming on AWS 2018
 
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
 
Cuda intro
Cuda introCuda intro
Cuda intro
 
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
 
1711 azure-live
1711 azure-live1711 azure-live
1711 azure-live
 
클라우드 컴퓨팅 기본 사항 (Fundamentals)
클라우드 컴퓨팅 기본 사항 (Fundamentals)클라우드 컴퓨팅 기본 사항 (Fundamentals)
클라우드 컴퓨팅 기본 사항 (Fundamentals)
 
이승재, 실버바인 서버엔진 2 설계 리뷰, NDC2018
이승재, 실버바인 서버엔진 2 설계 리뷰, NDC2018이승재, 실버바인 서버엔진 2 설계 리뷰, NDC2018
이승재, 실버바인 서버엔진 2 설계 리뷰, NDC2018
 
AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
 
The nosql echossytem
The nosql echossytemThe nosql echossytem
The nosql echossytem
 
가상화와 컨테이너의 이해_20230117.pptx
가상화와 컨테이너의 이해_20230117.pptx가상화와 컨테이너의 이해_20230117.pptx
가상화와 컨테이너의 이해_20230117.pptx
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
 

More from Lablup Inc.

Lablupconf session1-2 "거대한 백엔드에 벽돌 끼워넣기"
Lablupconf session1-2 "거대한 백엔드에 벽돌 끼워넣기"Lablupconf session1-2 "거대한 백엔드에 벽돌 끼워넣기"
Lablupconf session1-2 "거대한 백엔드에 벽돌 끼워넣기"Lablup Inc.
 
Lablupconf session3 "Application of DL in fight against COVID-19(EN)"
Lablupconf session3 "Application of DL in fight against COVID-19(EN)"Lablupconf session3 "Application of DL in fight against COVID-19(EN)"
Lablupconf session3 "Application of DL in fight against COVID-19(EN)"Lablup Inc.
 
Lablupconf session5 "Application of machine learning to classify normal and d...
Lablupconf session5 "Application of machine learning to classify normal and d...Lablupconf session5 "Application of machine learning to classify normal and d...
Lablupconf session5 "Application of machine learning to classify normal and d...Lablup Inc.
 
Lablupconf session2 "MLOps를 활용한 AI빅데이터 교육 사례"
Lablupconf session2 "MLOps를 활용한 AI빅데이터 교육 사례"Lablupconf session2 "MLOps를 활용한 AI빅데이터 교육 사례"
Lablupconf session2 "MLOps를 활용한 AI빅데이터 교육 사례"Lablup Inc.
 
Lablupconf session1-1 "Lablup과 함께하는 컨트리뷰션 아카데미" - 김수진
Lablupconf session1-1 "Lablup과 함께하는 컨트리뷰션 아카데미" - 김수진Lablupconf session1-1 "Lablup과 함께하는 컨트리뷰션 아카데미" - 김수진
Lablupconf session1-1 "Lablup과 함께하는 컨트리뷰션 아카데미" - 김수진Lablup Inc.
 
초심자를 위한 무작정 시작하는 Backend.AI-04
초심자를 위한 무작정 시작하는 Backend.AI-04초심자를 위한 무작정 시작하는 Backend.AI-04
초심자를 위한 무작정 시작하는 Backend.AI-04Lablup Inc.
 
초심자를 위한 무작정 시작하는 Backend.AI-03
초심자를 위한 무작정 시작하는 Backend.AI-03초심자를 위한 무작정 시작하는 Backend.AI-03
초심자를 위한 무작정 시작하는 Backend.AI-03Lablup Inc.
 
Backend.ai tutorial-2ndweek
Backend.ai tutorial-2ndweekBackend.ai tutorial-2ndweek
Backend.ai tutorial-2ndweekLablup Inc.
 
Backend.ai tutorial-01
Backend.ai tutorial-01Backend.ai tutorial-01
Backend.ai tutorial-01Lablup Inc.
 
Backend.AI: Brochure (2019 Autumn / 19.09)
Backend.AI: Brochure (2019 Autumn / 19.09)Backend.AI: Brochure (2019 Autumn / 19.09)
Backend.AI: Brochure (2019 Autumn / 19.09)Lablup Inc.
 
Backend.AI Technical Introduction (19.09 / 2019 Autumn)
Backend.AI Technical Introduction (19.09 / 2019 Autumn)Backend.AI Technical Introduction (19.09 / 2019 Autumn)
Backend.AI Technical Introduction (19.09 / 2019 Autumn)Lablup Inc.
 
JMI Techtalk: 한재근 - How to use GPU for developing AI
JMI Techtalk: 한재근 - How to use GPU for developing AIJMI Techtalk: 한재근 - How to use GPU for developing AI
JMI Techtalk: 한재근 - How to use GPU for developing AILablup Inc.
 
JMI Techtalk: 강재욱 - Toward tf.keras from tf.estimator - From TensorFlow 2.0 p...
JMI Techtalk: 강재욱 - Toward tf.keras from tf.estimator - From TensorFlow 2.0 p...JMI Techtalk: 강재욱 - Toward tf.keras from tf.estimator - From TensorFlow 2.0 p...
JMI Techtalk: 강재욱 - Toward tf.keras from tf.estimator - From TensorFlow 2.0 p...Lablup Inc.
 
Backend.AI: 왜 우리는 우리 핵심 제품을 오픈소스화 했는가
Backend.AI: 왜 우리는 우리 핵심 제품을 오픈소스화 했는가Backend.AI: 왜 우리는 우리 핵심 제품을 오픈소스화 했는가
Backend.AI: 왜 우리는 우리 핵심 제품을 오픈소스화 했는가Lablup Inc.
 

More from Lablup Inc. (14)

Lablupconf session1-2 "거대한 백엔드에 벽돌 끼워넣기"
Lablupconf session1-2 "거대한 백엔드에 벽돌 끼워넣기"Lablupconf session1-2 "거대한 백엔드에 벽돌 끼워넣기"
Lablupconf session1-2 "거대한 백엔드에 벽돌 끼워넣기"
 
Lablupconf session3 "Application of DL in fight against COVID-19(EN)"
Lablupconf session3 "Application of DL in fight against COVID-19(EN)"Lablupconf session3 "Application of DL in fight against COVID-19(EN)"
Lablupconf session3 "Application of DL in fight against COVID-19(EN)"
 
Lablupconf session5 "Application of machine learning to classify normal and d...
Lablupconf session5 "Application of machine learning to classify normal and d...Lablupconf session5 "Application of machine learning to classify normal and d...
Lablupconf session5 "Application of machine learning to classify normal and d...
 
Lablupconf session2 "MLOps를 활용한 AI빅데이터 교육 사례"
Lablupconf session2 "MLOps를 활용한 AI빅데이터 교육 사례"Lablupconf session2 "MLOps를 활용한 AI빅데이터 교육 사례"
Lablupconf session2 "MLOps를 활용한 AI빅데이터 교육 사례"
 
Lablupconf session1-1 "Lablup과 함께하는 컨트리뷰션 아카데미" - 김수진
Lablupconf session1-1 "Lablup과 함께하는 컨트리뷰션 아카데미" - 김수진Lablupconf session1-1 "Lablup과 함께하는 컨트리뷰션 아카데미" - 김수진
Lablupconf session1-1 "Lablup과 함께하는 컨트리뷰션 아카데미" - 김수진
 
초심자를 위한 무작정 시작하는 Backend.AI-04
초심자를 위한 무작정 시작하는 Backend.AI-04초심자를 위한 무작정 시작하는 Backend.AI-04
초심자를 위한 무작정 시작하는 Backend.AI-04
 
초심자를 위한 무작정 시작하는 Backend.AI-03
초심자를 위한 무작정 시작하는 Backend.AI-03초심자를 위한 무작정 시작하는 Backend.AI-03
초심자를 위한 무작정 시작하는 Backend.AI-03
 
Backend.ai tutorial-2ndweek
Backend.ai tutorial-2ndweekBackend.ai tutorial-2ndweek
Backend.ai tutorial-2ndweek
 
Backend.ai tutorial-01
Backend.ai tutorial-01Backend.ai tutorial-01
Backend.ai tutorial-01
 
Backend.AI: Brochure (2019 Autumn / 19.09)
Backend.AI: Brochure (2019 Autumn / 19.09)Backend.AI: Brochure (2019 Autumn / 19.09)
Backend.AI: Brochure (2019 Autumn / 19.09)
 
Backend.AI Technical Introduction (19.09 / 2019 Autumn)
Backend.AI Technical Introduction (19.09 / 2019 Autumn)Backend.AI Technical Introduction (19.09 / 2019 Autumn)
Backend.AI Technical Introduction (19.09 / 2019 Autumn)
 
JMI Techtalk: 한재근 - How to use GPU for developing AI
JMI Techtalk: 한재근 - How to use GPU for developing AIJMI Techtalk: 한재근 - How to use GPU for developing AI
JMI Techtalk: 한재근 - How to use GPU for developing AI
 
JMI Techtalk: 강재욱 - Toward tf.keras from tf.estimator - From TensorFlow 2.0 p...
JMI Techtalk: 강재욱 - Toward tf.keras from tf.estimator - From TensorFlow 2.0 p...JMI Techtalk: 강재욱 - Toward tf.keras from tf.estimator - From TensorFlow 2.0 p...
JMI Techtalk: 강재욱 - Toward tf.keras from tf.estimator - From TensorFlow 2.0 p...
 
Backend.AI: 왜 우리는 우리 핵심 제품을 오픈소스화 했는가
Backend.AI: 왜 우리는 우리 핵심 제품을 오픈소스화 했는가Backend.AI: 왜 우리는 우리 핵심 제품을 오픈소스화 했는가
Backend.AI: 왜 우리는 우리 핵심 제품을 오픈소스화 했는가
 

Lablupconf session7 People don't know what they want until LABLUP show it to them. : Practical guide to building GPU clusters for AI"

  • 1. People don’t know what they wany until LABLUP show it to them: Practical guide to building GPU clusters for AI 김정묵 (Lablup, COO)
  • 2. § 기존 IT 인프라 / 클러스터와는 다른, § AI 클러스터 구축 과정에서 고려해야 할 사항들과 키워드를 살펴봅시다! ㅠㅠ
  • 4. [실화] GPU(만) 많은 AI 클러스터 § CPU / RAM 부족해서 데이터 처리 기다리며 GPU는 항상 놀고 있음 § 데이터 / 컨테이너 이미지 불러오느라 CPU / GPU 다 놀고 있음 § GPU 간 통신이 지원되지 않아 GPU 는 많아도 모델 사이즈 제한 § 어느 데이터가 어디에 있는지 몰라 중복 / 보안 이슈로 클러스터링 불가 § Rack 당 3kW? 단일 노드 10kW, 공사비 폭탄 § 높은 복잡도와 관리 부담에 관리자 퇴사
  • 5. AI 클러스터 설계 § 연산 서버 § 스토리지 서버 § 네트워킹 § 전력 (+ 평면 설계) § 관리 서버 § 소프트웨어 § + 그리고 AI 클러스터의 용도
  • 6. AI 클러스터의 용도 § 하이퍼파라미터 서치 (Hyperparameter search) – 좋은 모델 찾기 § 분산 훈련 (Distributed training) – 빠른 모델 훈련 § 추론 서비스 (Inference serving) – 만든 모델 서비스 § + AI 교육 및 실습
  • 7. 연산 서버 (1) § CPU – 데이터 처리를 위해 충분한 CPU 성능 필요 – 상황에 따라 데이터 처리 전용 CPU 서버도 고려 § RAM – 클수록 좋음 – 언어 모델 등을 개발할 때에는 GPU 메모리 대비 2배 이상의 시스템 메모리 권장 § 스토리지 (스크래치 저장소) – 별도의 스토리지가 있더라도 캐시로 필요 – SSD 권장 – 컨테이너 이미지 등 대형화로 일정 수준 이상 권장
  • 8. 연산 서버 (2) § GPU – 용도별 선택 ✓ 하이퍼파라미터 서치 • (데이터센터용) NVIDIA Tesla A100 / V100 • (워크스테이션용) NVIDIA RTX A6000 / Quadro RTX 8000 ✓ 분산 훈련 • NVIDIA Tesla A100 ✓ 추론 서비스 • NVIDIA Tesla T4 / A2 / A30 ✓ AI 교육 및 실습 • 코스웍에 따라 차이가 있으나, 비용 상의 제약으로 교육기관에서 큰 어려움이 있음 – 노드 내 구성 ✓ 대형 모델 훈련 지원과 네트워크 장비 비용을 고려 시 노드 당 4~8 EA이 다수 ✓ 대형 모델 훈련 지원을 위해서는 다음과 같은 노드 내 연결을 반드시 고려해야 함 • NUMA • NVLink • NVSwitch
  • 9. 연산 서버 (3) § Backend.AI 멀티노드 워크로드 지원 – 클러스터 세션 기반으로 분산 훈련을 최적 지원 § Backend.AI 분할 GPU 가상화 – 독자 기술인 컨테이너 기반 GPU 가상화로 모든 CUDA GPU를 탄력적으로 가상화 가능 – 훈련 용도로 도입한 GPU를 하이퍼파라미터 서치 / 추론 서비스 / AI 교육 및 실습 용도로도 항상 최적으로 운용할 수 있는 옵션 제공
  • 10. 스토리지 서버 § 데이터와 모델 저장 및 서비스용 § 연산 서버 수가 많다면 별도 스토리지 서버 필수 – 데이터 파편화: 클러스터링을 통한 고가 연산 자원 활용에 가장 큰 장애 요소 – 구축 단계부터 데이터 관리 일원화 필요 § 비용 차이가 크게 나며 용도 및 데이터 특성에 따른 선택 필요 – Hot 스토리지: 빠른 접근 / 잦은 접근 / 비쌈 (SSD) – Cold 스토리지: 느린 접근 / 드문 접근 / 비교적 저렴 (HDD) § Backend.AI 스토리지 프록시 – 고가의 연산 자원을 최적으로 활용하기 위해 데이터 입출력 분산 최적 지원 – 다양한 파일시스템 및 스토리지 솔루션을 직접 연동하여 최적으로 활용 가능하도록 제공 ✓ 퓨어스토리지 FlashBlade, 넷앱 OnTap, CephFS, LustreFS, XFS 등 ✓ 지원 플랫폼 및 기술 파트너십 지속 확장 중
  • 11. 네트워킹 § 안정적인 운영을 위한 관리(서비스) 네트워크와 데이터 네트워크의 분리 필요 § 관리 네트워크 – AI 클러스터에서 흔히 발생할 수 있는 대용량 전송 상황에서도 안정적인 운영 필요 – 별도의 네트워크 필요 – (시스템에 따라 다르나) 1Gb 수준으로도 가능 § 데이터 네트워크 – 고성능 스위치와 케이블의 비용이 높음 – 특히 분산 훈련 시에 GPU 서버 간 넓은 대역폭이 크게 요구되며, 별도의 GPU 노드 패브릭이 필요함
  • 12. 전력 및 평면 설계 § 고성능 GPU 서버 당 3~10kW TDP § 데이터센터 랙 당 기존 3kW 에서 대략 30~40kW로 TDP 폭증 § 기존 IT 인프라 설비 활용 시에도 전력 공급 및 온도 관리를 위한 설비 확충 공사 필수 § 기존과는 다른 전력 공급, 온도 관리 뿐만 아니라 네트워킹 장비의 비용과 규격까지 고려 필요
  • 13. 관리 서버 § 다수 사용자가 다양한 사용 환경에서도 안정적인 서비스 – 일정 수준의 별도 관리 서버가 필요 – 연산 서버 구성 / 사용자 수 / 용도 / 소프트웨어에 따라 차이 § 추론 서비스 – 다수의 사용자와 요청을 안정적으로 처리해야 함 – 고가용성 구성 필수
  • 14. 소프트웨어 (1) § 관리 도구 – 잡 스케줄러, 오케스트레이터 – 로그 관리 및 대쉬보드 – 연산 자원 그룹화 및 접근 제한 관리 – 사용자 및 사용자 그룹 관리 기능 – 개발 환경 저장소 – 저장소 관리 § 하드웨어 드라이버 / OS – CUDA – OS § 개발자 / 사용자 지원 – ML/DL 프레임워크, 라이브러리, 패키지 – Experiment 관리 – 추론 서비스 지원 § + 더더더 많은 기술이 새로 나오고 있음
  • 15. 소프트웨어 (2) § End-to-End MLOps 플랫폼 : Backend.AI – AI 프레임워크용 엔터프라이즈 클러스터 백엔드 – NVIDIA DGX-Ready Software ✓ 아시아 태평양 지역 최초, 유일 ✓ https://www.nvidia.com/en-us/data-center/dgx-ready-software/ 데이터 과학자 / 모델링부터 서빙까지 캐리 가능 추천 템 : Backend.AI
  • 16. AI 클러스터 용도별 참고 사항 요약 하이퍼파라미터 서치 분산 훈련 추론 서비스 AI 교육 및 실습 관리 서버 고가용성 구성 선택 선택 필수 학습자 수에 따름 노드 내 연결성 중요 매우 중요 노드 간 연결성 넓은 대역폭 필요 구축 비용 높음 매우 높음 매우매우 높아야 함 규모에 따름 소프트웨어 Backend.AI 를 통해 클러스터를 다양한 용도에 맞게 상시 최적 운영 가능
  • 17. Lablup Inc. https://www.lablup.com Backend.AI https://www.backend.ai Backend.AI GitHub https://github.com/lablup/backend.ai Backend.AI Cloud https://cloud.backend.ai Thank you! Jeongmook Kim Chief Operating Officer