[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례

AI 최적화 플랫폼
IBM Power Systems AC922 “Newell”
IBM Deep Learning 솔루션 소개와 활용 사례
IBM

인공지능 활용 분야
© Copyright IBM Corporation 2018
2
의료 분야 보안 분야 서비스 분야
금융 분야 컨텐츠 분야 리테일 분야

Deep Learning 을 위한 과정
3
✓ 다양한 분야에 최적의 솔루션을 제공하기 위해서는 training 영역 에 가장 많은 기술력과 시간이 필요합니다.

text
4
인공지능 인프라 도입 시 확인 사항
1. 최신의 GPU 모델 탑재
NVIDA Tesla V100 SXM2 타입 장착
2. 최고의 성능을 위한 NVLink 2.0 기술 적용
최대 300GB/s bandwidth 를 제공함으로 data copy 속도 증가
3. 최대 시스템 자원 활용을 위한 LMS, Cache Coherence 기술
GPU 메모리 용량의 한계를 극복
4. 쉽고 빠르게 사용 할 수 있는 Deep Learning Framework 제공
Caffe, Tensorflow, Theano, Torch 등 주요 framework PPA repository 로 제공
5. Data-Centric 을 위한 스토리지 및 워크로드 관리를 위한 스케줄러 제공
IBM Elastic Storage Server /w Spectrum Scale, Spectrum Computing(LSF)

IBM AC922 “Newell” 세부 사양
5

IBM AC922 “Newell” 세부 사양
6
IBM 차세대 GPU 서버 AC922 “Newell”
▪IBM POWER9 CPU와 NVIDIA V100 GPU의 조합
 최신 Volta 아키텍처의 V100 4장 장착
 양방향 75+75GB/sec의 대역폭을 가지는 NVLink 2.0을 통해 GPU-GPU는 물론,
CPU-GPU도 연결
 물리적 core 1개당 4개의 HW thread (SMT-4)를 가지는 POWER9 프로레서
 2U 공간 안에 강력한 GPU 컴퓨팅 파워를 압축하여 성능 대비 상면적 및 전력
소비량에서 월등한 이점
항 목 사 양
POWER9 processor
(2.6GHz 16-core or 2.0GHz 20-core)
2
Disk bay (SSD or HDD) 2
Max memory 최대 1024 GB
PCIe slots (Gen4) 4
OS Redhat 7.4
(Ubuntu는 2Q’18부터 지원 예정)
GPU (V100 w/ NVLink 2.0) 4 (SXM2)
Total Power Supply AC input (W) 2200 W * 2
Form Factor 2U
Physical dimension
444.5 mm * 88.9 mm
* 850.9 mm
Weight 최대 30kg
✓ POWER9과 Volta를 NVLink 2.0을 통해 150GB/s로 연결, PCIe Gen4 탑재

최신의 GPU 모델 탑재
7
Tesla Products
Tesla P100
NVLink 1.0
Tesla V100 PCIe
Tesla V100
NVLink 2.0
Form Factor SXM2 PCIe SXM2
NVIDIA
Tensor Cores
- 640
NVIDIA
CUDA Cores
3584 5120
Double-Precision
TFLOPS
5.3 7 7.8
Single-Precision
TFLOPS
10.6 14 15.7
Tensor
TFLOPS
- 112 125
GPU memory 16 GB HBM2
Memory
Bandwidth
732 GB/s 900 GB/s
Interconnect
Bandwidth
160 GB/s 32 GB/s 300 GB/s
TDP 300 W 250 W 300 W
Transistors 15.3 billion 15.3 billion 15.3 billion
NVIDIA Tesla V100 GPU SXM2 type
PCIe V100 대비
TFLOPS는 12% 더 우수
연결 속도는 9.4배 더 우수

최고의 성능을 위한 NVLink 2.0 기술 적용
8
✓ IBM POWER9 + Volta GPU(V100)은 기존 80GB/s NVLink보다 향상된 150GB/s의 CPU-GPU, GPU-GPU 간
통신 대역폭을 제공하여, Training의 수행 시간을 단축시킬 수 있습니다.
POWER9
GPUGPU NVLink 2.0
75+75 GB/s
차세대 POWER9 + Volta GPU 서버
NVLink 2.0
NVLink 1.0
• NVLink 2.0 링크 당 25GB/s
• 최대 6개 링크 연결 (150GB/s, 공랭식 기준)
• Cache Coherence 지원

최고의 성능을 위한 NVLink 2.0 기술 적용
9
✓ NVLink는 PCIe 타입 대비 4.6배의 대용량 대역폭을 통해 Peer-to-Peer 통신을 최적화합니다.
POWER9 POWER9
GPUGPU NVLink GPUGPU NVLink
150 GB/s 150 GB/s
• CPU와 GPU간은 PCIe로 연결 (32GB/sec)
• 4개 GPU끼리 NVLink * 1 link (50GB/sec), 또는 2 link로 2개씩 연결
(100GB/sec)
• 다른 socket의 GPU 4개와의 연결은 2-hop 구조
4GPU 구성에서,
• CPU와 GPU간을 NVLink * 2 link로 연결 (150GB/sec)
• 2개 GPU끼리 NVLink * 2 link로 연결 (150GB/sec)
6GPU 구성 시, CPU-GPU, GPU-GPU 구간 별 100GB/sec
IBM AC922 (Newell)
http://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
32 GB/s 32 GB/s
50 GB/s
100 GB/s
Nvidia DGX-1V

NVLink 2.0 성능
10
✓ 기존 x86 기반 P100 GPU보다 2.6배, POWER8 기반 P100 GPU보다 1.9배의 성능이 향상 되었습니다.
• 분자역학 code인 CPMD는 TB
단위의 data가 CPU와 GPU 사이를
이동
• 이로 인해 CPU-GPU 병목이
걸리는 대표적인 업무
• PCIe에서는 3.3TB 이동에 300초
이상
• NVLink 2.0에서는 70초
• P100과 V100의 이론상 성능
차이는 1.5배
• 실제 성능 차이는 2.6배
2.6 x
faster

최대 시스템 자원 활용을 위한 LMS, Cache Coherence 기술
11
✓ GPU 메모리 용량의 한계를 극복하는 Large Memory Support (LMS)
✓ GPU 메모리 용량은 16GB 이지만, LMS로 최대 1TB의 시스템 메모리(서버 당)를 사용합니다.
Xeon
CPU
RAM
V100
GPU
GPU mem
POWER8
CPU
RAM
Images
models
Images
작은 대역폭
PCIe 32GB/s
Images
Images
Images
PCIe를 통해 모델과 이미지를
먼저 GPU mem으로 복사한
후에야 GPU가 GPU mem에
접근 (PCIe 병목)
넓은 대역폭
NVLink 150GB/s
(4GPU)
▪ 작은 모델, 작은 이미지, 작은 Batch size
▪ 성능 저하, Training이 불가능한 상황 발생
NVLink를 통해 GPU가 서버 RAM의
모델과 이미지에 직접 접근
(GPU mem은 cache 역할)
▪ 큰 모델, 큰 이미지, *24배 더 큰 Batch size
▪ CPU-GPU간 연결이 NVLink이기 때문에 가능
(*최대 1TB 서버 RAM 메모리 사용)
1
2
IBM AC922 (Newell)Nvidia DGX-1V
Images
Images
V100
GPU
GPU mem
Cache

최대 시스템 자원 활용을 위한 LMS, Cache Coherence 기술
12
✓ 별도의 프로그래밍 없이도 CPU-GPU 메모리에 상호 접근 가능한 Cache Coherence
✓ NVLink 2.0의 대역폭을 이용하여 GPU는 대용량의 CPU 메모리를 직접 접근하여 사용합니다.
Features
Pascal
(P100)
Volta
(V100)
Comments
on-demand migration for GPU O O
oversubscription O O large memory than GPU mem size
access counter X O hot pages only migration
ATS (address translation service) X O allows GPU to access CPU’s page tables directly
cache coherence X O
direct CPU access/cache to GPU memory,
native CPU-GPU atomics

Large Memory Support (LMS) 성능
13
✓ 큰 이미지 훈련 시, LMS를 사용한 Caffe는 더 큰 배치사이즈를 이용하여 3.8배 빠르게 학습 종료가 가능합니다.
• Results are based IBM Internal Measurements running 1000 iterations of Enlarged GoogleNet model (mini-batch size=5) on Enlarged Imagenet Dataset (2240x2240) .
• Hardware: Power AC922; 40 cores (2 x 20c chips), POWER9 with NVLink 2.0; 2.25 GHz, 1024 GB memory, 4xTesla V100 GPU Pegas 1.0. Competitive stack: 2x Xeon
E5-2640 v4; 20 cores (2 x 10c chips) / 40 threads; Intel Xeon E5-2640 v4; 2.4 GHz; 1024 GB memory, 4xTesla V100 GPU, Ubuntu 16.04.
• Software: IBM Caffe with LMS Source code: https://github.ibm.com/TUNG/trlcaffe/tree/1.0-ibm-blc-bm-fix-hang+-p9collateral based on the branch "1.0-ibm-blc-bm-fix-
hang+" (base for PowerAI R4) and a PR#5972 from BVLC/Caffe (for supporting cudnn7).
3.8 x
faster

쉽고 빠르게 사용 할 수 있는 Deep Learning Framework 제공
14
✓ PowerAI toolkit 으로 쉽고 빠르게 개발/Training용 Software 환경 준비
✓ 다양한 딥러닝, 머신러닝용 Framework, 소프트웨어 라이브러리를 GPU 전용 시스템에 최적화된 버전으로 제공합니다.
OpenCV, hdf5, bazel, protobuf, lmdb 등등의 수많은 기반 open
source SW를 일일이 build한 뒤 Caffe, Tensorflow 등을 설치
기반 오픈소스 SW는 물론 Caffe, Tensorflow 등 주요
최신 framework 을 최적화 빌드된 무료 패키지로
제공
1 ~
2일 5~10분

Data-Centric 을 위한 스토리지 및 워크로드 관리를 위한 스케줄러 제공
15
✓ Deep Learning 환경 구축을 위한 솔루션 및 인프라 전체 제공 할 수 있습니다
[AC922]
[ESS]
[LSF]

text
16
IBM GPU 서버
적용 사례

슈퍼컴 프로젝트 CORAL(Collaboration of Oak Ridge, Argonne, and Livermore)

ML / DL 사례 – 1. K사
고압 철탑 시설점검을 위한 시스템 구축
-. 사람이 일일이 송전탑을 육안 확인 하고 점검
-. 드론으로 이미지/영상 촬영
-. 이미지를 딥러닝 기법을 사용하여 분석
-. 송전탑 점검의 자동화

ML / DL 사례 – 2. S 의료
초음파 의료기기 개발
-. 다양한 부위의 초음파 사진 사람이 직접 분석
-. 이미지를 딥러닝 기법을 사용하여 빠르게 분석
-. 제한된 자원의 활용을 극대화하기 위해 docker
및 스펙트럼 LSF 솔루션 적용
-. 분석 결과를 의료기기에 적용 및 개발
2017년 하반기 도입 예정
IBM Spectrum Scale + V5030 Storage
Usable 300TB

ML / DL 사례 – 3. B 자율주행
자율주행 모델 개발
-. 회사가 자체 수집한 블랙박스 영상 및 이미지를
통해 모델 트레이닝
-. 대형 모델 트레이닝을 위한 모델 병렬화 구현
-. 분산 병렬처리 성능 극대화를 위한 NVlink
및 스펙트럼 스케일에 장점 활용

[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례

Recommended

Recommended

More Related Content

What's hot

What's hot (17)

Similar to [IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례

Similar to [IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례 (20)

More from (Joe), Sanghun Kim

More from (Joe), Sanghun Kim (8)

[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례