SlideShare a Scribd company logo
AI 최적화 플랫폼
IBM Power Systems AC922 “Newell”
IBM Deep Learning 솔루션 소개와 활용 사례
IBM
인공지능 활용 분야
© Copyright IBM Corporation 2018
2
의료 분야 보안 분야 서비스 분야
금융 분야 컨텐츠 분야 리테일 분야
Deep Learning 을 위한 과정
3
© Copyright IBM Corporation 2018
✓ 다양한 분야에 최적의 솔루션을 제공하기 위해서는 training 영역 에 가장 많은 기술력과 시간이 필요합니다.
text
© Copyright IBM Corporation 2018
4
인공지능 인프라 도입 시 확인 사항
1. 최신의 GPU 모델 탑재
NVIDA Tesla V100 SXM2 타입 장착
2. 최고의 성능을 위한 NVLink 2.0 기술 적용
최대 300GB/s bandwidth 를 제공함으로 data copy 속도 증가
3. 최대 시스템 자원 활용을 위한 LMS, Cache Coherence 기술
GPU 메모리 용량의 한계를 극복
4. 쉽고 빠르게 사용 할 수 있는 Deep Learning Framework 제공
Caffe, Tensorflow, Theano, Torch 등 주요 framework PPA repository 로 제공
5. Data-Centric 을 위한 스토리지 및 워크로드 관리를 위한 스케줄러 제공
IBM Elastic Storage Server /w Spectrum Scale, Spectrum Computing(LSF)
IBM AC922 “Newell” 세부 사양
5
© Copyright IBM Corporation 2018
IBM AC922 “Newell” 세부 사양
6
© Copyright IBM Corporation 2018
IBM 차세대 GPU 서버 AC922 “Newell”
▪IBM POWER9 CPU와 NVIDIA V100 GPU의 조합
 최신 Volta 아키텍처의 V100 4장 장착
 양방향 75+75GB/sec의 대역폭을 가지는 NVLink 2.0을 통해 GPU-GPU는 물론,
CPU-GPU도 연결
 물리적 core 1개당 4개의 HW thread (SMT-4)를 가지는 POWER9 프로레서
 2U 공간 안에 강력한 GPU 컴퓨팅 파워를 압축하여 성능 대비 상면적 및 전력
소비량에서 월등한 이점
항 목 사 양
POWER9 processor
(2.6GHz 16-core or 2.0GHz 20-core)
2
Disk bay (SSD or HDD) 2
Max memory 최대 1024 GB
PCIe slots (Gen4) 4
OS Redhat 7.4
(Ubuntu는 2Q’18부터 지원 예정)
GPU (V100 w/ NVLink 2.0) 4 (SXM2)
Total Power Supply AC input (W) 2200 W * 2
Form Factor 2U
Physical dimension
444.5 mm * 88.9 mm
* 850.9 mm
Weight 최대 30kg
✓ POWER9과 Volta를 NVLink 2.0을 통해 150GB/s로 연결, PCIe Gen4 탑재
최신의 GPU 모델 탑재
7
© Copyright IBM Corporation 2018
Tesla Products
Tesla P100
NVLink 1.0
Tesla V100 PCIe
Tesla V100
NVLink 2.0
Form Factor SXM2 PCIe SXM2
NVIDIA
Tensor Cores
- 640
NVIDIA
CUDA Cores
3584 5120
Double-Precision
TFLOPS
5.3 7 7.8
Single-Precision
TFLOPS
10.6 14 15.7
Tensor
TFLOPS
- 112 125
GPU memory 16 GB HBM2
Memory
Bandwidth
732 GB/s 900 GB/s
Interconnect
Bandwidth
160 GB/s 32 GB/s 300 GB/s
TDP 300 W 250 W 300 W
Transistors 15.3 billion 15.3 billion 15.3 billion
NVIDIA Tesla V100 GPU SXM2 type
PCIe V100 대비
TFLOPS는 12% 더 우수
연결 속도는 9.4배 더 우수
최고의 성능을 위한 NVLink 2.0 기술 적용
8
© Copyright IBM Corporation 2018
✓ IBM POWER9 + Volta GPU(V100)은 기존 80GB/s NVLink보다 향상된 150GB/s의 CPU-GPU, GPU-GPU 간
통신 대역폭을 제공하여, Training의 수행 시간을 단축시킬 수 있습니다.
POWER9
GPUGPU NVLink 2.0
75+75 GB/s
차세대 POWER9 + Volta GPU 서버
NVLink 2.0
NVLink 1.0
• NVLink 2.0 링크 당 25GB/s
• 최대 6개 링크 연결 (150GB/s, 공랭식 기준)
• Cache Coherence 지원
최고의 성능을 위한 NVLink 2.0 기술 적용
9
© Copyright IBM Corporation 2018
✓ NVLink는 PCIe 타입 대비 4.6배의 대용량 대역폭을 통해 Peer-to-Peer 통신을 최적화합니다.
POWER9 POWER9
GPUGPU NVLink GPUGPU NVLink
150 GB/s 150 GB/s
• CPU와 GPU간은 PCIe로 연결 (32GB/sec)
• 4개 GPU끼리 NVLink * 1 link (50GB/sec), 또는 2 link로 2개씩 연결
(100GB/sec)
• 다른 socket의 GPU 4개와의 연결은 2-hop 구조
4GPU 구성에서,
• CPU와 GPU간을 NVLink * 2 link로 연결 (150GB/sec)
• 2개 GPU끼리 NVLink * 2 link로 연결 (150GB/sec)
6GPU 구성 시, CPU-GPU, GPU-GPU 구간 별 100GB/sec
IBM AC922 (Newell)
http://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
32 GB/s 32 GB/s
50 GB/s
100 GB/s
Nvidia DGX-1V
NVLink 2.0 성능
10
© Copyright IBM Corporation 2018
✓ 기존 x86 기반 P100 GPU보다 2.6배, POWER8 기반 P100 GPU보다 1.9배의 성능이 향상 되었습니다.
• 분자역학 code인 CPMD는 TB
단위의 data가 CPU와 GPU 사이를
이동
• 이로 인해 CPU-GPU 병목이
걸리는 대표적인 업무
• PCIe에서는 3.3TB 이동에 300초
이상
• NVLink 2.0에서는 70초
• P100과 V100의 이론상 성능
차이는 1.5배
• 실제 성능 차이는 2.6배
2.6 x
faster
최대 시스템 자원 활용을 위한 LMS, Cache Coherence 기술
11
© Copyright IBM Corporation 2018
✓ GPU 메모리 용량의 한계를 극복하는 Large Memory Support (LMS)
✓ GPU 메모리 용량은 16GB 이지만, LMS로 최대 1TB의 시스템 메모리(서버 당)를 사용합니다.
Xeon
CPU
RAM
V100
GPU
GPU mem
POWER8
CPU
RAM
Images
models
Images
작은 대역폭
PCIe 32GB/s
Images
Images
Images
PCIe를 통해 모델과 이미지를
먼저 GPU mem으로 복사한
후에야 GPU가 GPU mem에
접근 (PCIe 병목)
넓은 대역폭
NVLink 150GB/s
(4GPU)
▪ 작은 모델, 작은 이미지, 작은 Batch size
▪ 성능 저하, Training이 불가능한 상황 발생
NVLink를 통해 GPU가 서버 RAM의
모델과 이미지에 직접 접근
(GPU mem은 cache 역할)
▪ 큰 모델, 큰 이미지, *24배 더 큰 Batch size
▪ CPU-GPU간 연결이 NVLink이기 때문에 가능
(*최대 1TB 서버 RAM 메모리 사용)
1
2
IBM AC922 (Newell)Nvidia DGX-1V
Images
Images
V100
GPU
GPU mem
Cache
최대 시스템 자원 활용을 위한 LMS, Cache Coherence 기술
12
© Copyright IBM Corporation 2018
✓ 별도의 프로그래밍 없이도 CPU-GPU 메모리에 상호 접근 가능한 Cache Coherence
✓ NVLink 2.0의 대역폭을 이용하여 GPU는 대용량의 CPU 메모리를 직접 접근하여 사용합니다.
Features
Pascal
(P100)
Volta
(V100)
Comments
on-demand migration for GPU O O
oversubscription O O large memory than GPU mem size
access counter X O hot pages only migration
ATS (address translation service) X O allows GPU to access CPU’s page tables directly
cache coherence X O
direct CPU access/cache to GPU memory,
native CPU-GPU atomics
Large Memory Support (LMS) 성능
13
© Copyright IBM Corporation 2018
✓ 큰 이미지 훈련 시, LMS를 사용한 Caffe는 더 큰 배치사이즈를 이용하여 3.8배 빠르게 학습 종료가 가능합니다.
• Results are based IBM Internal Measurements running 1000 iterations of Enlarged GoogleNet model (mini-batch size=5) on Enlarged Imagenet Dataset (2240x2240) .
• Hardware: Power AC922; 40 cores (2 x 20c chips), POWER9 with NVLink 2.0; 2.25 GHz, 1024 GB memory, 4xTesla V100 GPU Pegas 1.0. Competitive stack: 2x Xeon
E5-2640 v4; 20 cores (2 x 10c chips) / 40 threads; Intel Xeon E5-2640 v4; 2.4 GHz; 1024 GB memory, 4xTesla V100 GPU, Ubuntu 16.04.
• Software: IBM Caffe with LMS Source code: https://github.ibm.com/TUNG/trlcaffe/tree/1.0-ibm-blc-bm-fix-hang+-p9collateral based on the branch "1.0-ibm-blc-bm-fix-
hang+" (base for PowerAI R4) and a PR#5972 from BVLC/Caffe (for supporting cudnn7).
3.8 x
faster
쉽고 빠르게 사용 할 수 있는 Deep Learning Framework 제공
14
© Copyright IBM Corporation 2018
✓ PowerAI toolkit 으로 쉽고 빠르게 개발/Training용 Software 환경 준비
✓ 다양한 딥러닝, 머신러닝용 Framework, 소프트웨어 라이브러리를 GPU 전용 시스템에 최적화된 버전으로 제공합니다.
OpenCV, hdf5, bazel, protobuf, lmdb 등등의 수많은 기반 open
source SW를 일일이 build한 뒤 Caffe, Tensorflow 등을 설치
기반 오픈소스 SW는 물론 Caffe, Tensorflow 등 주요
최신 framework 을 최적화 빌드된 무료 패키지로
제공
1 ~
2일 5~10분
Data-Centric 을 위한 스토리지 및 워크로드 관리를 위한 스케줄러 제공
15
© Copyright IBM Corporation 2018
✓ Deep Learning 환경 구축을 위한 솔루션 및 인프라 전체 제공 할 수 있습니다
[AC922]
[ESS]
[LSF]
text
© Copyright IBM Corporation 2018
16
IBM GPU 서버
적용 사례
슈퍼컴 프로젝트 CORAL(Collaboration of Oak Ridge, Argonne, and Livermore)
ML / DL 사례 – 1. K사
고압 철탑 시설점검을 위한 시스템 구축
-. 사람이 일일이 송전탑을 육안 확인 하고 점검
-. 드론으로 이미지/영상 촬영
-. 이미지를 딥러닝 기법을 사용하여 분석
-. 송전탑 점검의 자동화
ML / DL 사례 – 2. S 의료
초음파 의료기기 개발
-. 다양한 부위의 초음파 사진 사람이 직접 분석
-. 이미지를 딥러닝 기법을 사용하여 빠르게 분석
-. 제한된 자원의 활용을 극대화하기 위해 docker
및 스펙트럼 LSF 솔루션 적용
-. 분석 결과를 의료기기에 적용 및 개발
2017년 하반기 도입 예정
IBM Spectrum Scale + V5030 Storage
Usable 300TB
ML / DL 사례 – 3. B 자율주행
자율주행 모델 개발
-. 회사가 자체 수집한 블랙박스 영상 및 이미지를
통해 모델 트레이닝
-. 대형 모델 트레이닝을 위한 모델 병렬화 구현
-. 분산 병렬처리 성능 극대화를 위한 NVlink
및 스펙트럼 스케일에 장점 활용
21

More Related Content

What's hot

Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0sprdd
 
오픈소스컨설팅 클러스터제안 V1.0
오픈소스컨설팅 클러스터제안 V1.0오픈소스컨설팅 클러스터제안 V1.0
오픈소스컨설팅 클러스터제안 V1.0sprdd
 
Glusterfs 소개 v1.0_난공불락세미나
Glusterfs 소개 v1.0_난공불락세미나Glusterfs 소개 v1.0_난공불락세미나
Glusterfs 소개 v1.0_난공불락세미나sprdd
 
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415sprdd
 
Talk IT_ Oracle_최재규_110823
Talk IT_ Oracle_최재규_110823Talk IT_ Oracle_최재규_110823
Talk IT_ Oracle_최재규_110823Cana Ko
 
2node cluster
2node cluster2node cluster
2node clustersprdd
 
Pivot3 overview
Pivot3 overviewPivot3 overview
Pivot3 overview
CDIT-HCI
 
Pivot3 tech overview_201704
Pivot3 tech overview_201704Pivot3 tech overview_201704
Pivot3 tech overview_201704
CDIT-HCI
 
NexGen overview_201705
NexGen overview_201705NexGen overview_201705
NexGen overview_201705
CDIT-HCI
 
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
OpenStack Korea Community
 
SteelEye 표준 제안서
SteelEye 표준 제안서SteelEye 표준 제안서
SteelEye 표준 제안서Yong-uk Choe
 
Glusterfs 구성제안서 v1.0
Glusterfs 구성제안서 v1.0Glusterfs 구성제안서 v1.0
Glusterfs 구성제안서 v1.0sprdd
 
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
Ji-Woong Choi
 
How to deploy oVirt using Nested KVM environment?
How to deploy oVirt using Nested KVM environment?How to deploy oVirt using Nested KVM environment?
How to deploy oVirt using Nested KVM environment?
Rogan Kyuseok Lee
 
[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...
[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...
[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...
OpenStack Korea Community
 
경쟁사비교:기능
경쟁사비교:기능경쟁사비교:기능
경쟁사비교:기능
itian-f5
 
제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix
제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix
제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix
Tommy Lee
 

What's hot (17)

Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0
 
오픈소스컨설팅 클러스터제안 V1.0
오픈소스컨설팅 클러스터제안 V1.0오픈소스컨설팅 클러스터제안 V1.0
오픈소스컨설팅 클러스터제안 V1.0
 
Glusterfs 소개 v1.0_난공불락세미나
Glusterfs 소개 v1.0_난공불락세미나Glusterfs 소개 v1.0_난공불락세미나
Glusterfs 소개 v1.0_난공불락세미나
 
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
Zinst 패키지 기반의-리눅스_중앙관리시스템_20140415
 
Talk IT_ Oracle_최재규_110823
Talk IT_ Oracle_최재규_110823Talk IT_ Oracle_최재규_110823
Talk IT_ Oracle_최재규_110823
 
2node cluster
2node cluster2node cluster
2node cluster
 
Pivot3 overview
Pivot3 overviewPivot3 overview
Pivot3 overview
 
Pivot3 tech overview_201704
Pivot3 tech overview_201704Pivot3 tech overview_201704
Pivot3 tech overview_201704
 
NexGen overview_201705
NexGen overview_201705NexGen overview_201705
NexGen overview_201705
 
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
 
SteelEye 표준 제안서
SteelEye 표준 제안서SteelEye 표준 제안서
SteelEye 표준 제안서
 
Glusterfs 구성제안서 v1.0
Glusterfs 구성제안서 v1.0Glusterfs 구성제안서 v1.0
Glusterfs 구성제안서 v1.0
 
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
 
How to deploy oVirt using Nested KVM environment?
How to deploy oVirt using Nested KVM environment?How to deploy oVirt using Nested KVM environment?
How to deploy oVirt using Nested KVM environment?
 
[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...
[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...
[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...
 
경쟁사비교:기능
경쟁사비교:기능경쟁사비교:기능
경쟁사비교:기능
 
제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix
제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix
제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix
 

Similar to [IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례

Ibm과 nvidia가 제안하는 딥러닝 플랫폼
Ibm과 nvidia가 제안하는 딥러닝 플랫폼Ibm과 nvidia가 제안하는 딥러닝 플랫폼
Ibm과 nvidia가 제안하는 딥러닝 플랫폼
ibmrep
 
Ic922 ac922 e dm_202008
Ic922 ac922 e dm_202008Ic922 ac922 e dm_202008
Ic922 ac922 e dm_202008
jiyoungkim158
 
IBM 딥러닝 전용 서버 솔루션 AC922 & PowerAI Vision
IBM 딥러닝 전용 서버 솔루션 AC922 & PowerAI VisionIBM 딥러닝 전용 서버 솔루션 AC922 & PowerAI Vision
IBM 딥러닝 전용 서버 솔루션 AC922 & PowerAI Vision
Seoro Kim
 
OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316기한 김
 
[조진현]Kgc2012 c++amp
[조진현]Kgc2012 c++amp[조진현]Kgc2012 c++amp
[조진현]Kgc2012 c++amp진현 조
 
Cloud based NGS framework
Cloud based NGS frameworkCloud based NGS framework
Cloud based NGS frameworkHyungyong Kim
 
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
Amazon Web Services Korea
 
cdit hci zerto '소통하는 세미나' 소개자료(201705)
cdit hci zerto '소통하는 세미나' 소개자료(201705)cdit hci zerto '소통하는 세미나' 소개자료(201705)
cdit hci zerto '소통하는 세미나' 소개자료(201705)
CDIT-HCI
 
Power_780+(9179-MHD)표준제안서
Power_780+(9179-MHD)표준제안서Power_780+(9179-MHD)표준제안서
Power_780+(9179-MHD)표준제안서기한 김
 
NetApp AI Control Plane
NetApp AI Control PlaneNetApp AI Control Plane
NetApp AI Control Plane
SeungYong Baek
 
[GS네오텍] Google Compute Engine
[GS네오텍]  Google Compute Engine[GS네오텍]  Google Compute Engine
[GS네오텍] Google Compute Engine
GS Neotek
 
091106kofpublic 091108170852-phpapp02 (번역본)
091106kofpublic 091108170852-phpapp02 (번역본)091106kofpublic 091108170852-phpapp02 (번역본)
091106kofpublic 091108170852-phpapp02 (번역본)
Taegil Heo
 
MySQL Deep dive with FusionIO
MySQL Deep dive with FusionIOMySQL Deep dive with FusionIO
MySQL Deep dive with FusionIO
I Goo Lee
 
HPC on IBM Cloud
HPC on IBM CloudHPC on IBM Cloud
HPC on IBM Cloud
HyunHwa Myoung
 
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
BoanLabDKU
 
PowerEdge Blade 표준제안서.pptx
PowerEdge Blade 표준제안서.pptxPowerEdge Blade 표준제안서.pptx
PowerEdge Blade 표준제안서.pptx
AlexanderPischulin1
 
컴퓨팅 분야 신규 서비스 - 조상만, AWS 솔루션즈 아키텍트 :: AWS re:Invent re:Cap 2021
컴퓨팅 분야 신규 서비스 - 조상만, AWS 솔루션즈 아키텍트 :: AWS re:Invent re:Cap 2021컴퓨팅 분야 신규 서비스 - 조상만, AWS 솔루션즈 아키텍트 :: AWS re:Invent re:Cap 2021
컴퓨팅 분야 신규 서비스 - 조상만, AWS 솔루션즈 아키텍트 :: AWS re:Invent re:Cap 2021
Amazon Web Services Korea
 
Alluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-CloudAlluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-Cloud
Jinwook Chung
 
Azure databases for PostgreSQL, MySQL and MariaDB
Azure databases for PostgreSQL, MySQL and MariaDB Azure databases for PostgreSQL, MySQL and MariaDB
Azure databases for PostgreSQL, MySQL and MariaDB
rockplace
 
Linux 서버 통합 : IBM LinuxONE
Linux 서버 통합 : IBM LinuxONELinux 서버 통합 : IBM LinuxONE
Linux 서버 통합 : IBM LinuxONE
오윤 권
 

Similar to [IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례 (20)

Ibm과 nvidia가 제안하는 딥러닝 플랫폼
Ibm과 nvidia가 제안하는 딥러닝 플랫폼Ibm과 nvidia가 제안하는 딥러닝 플랫폼
Ibm과 nvidia가 제안하는 딥러닝 플랫폼
 
Ic922 ac922 e dm_202008
Ic922 ac922 e dm_202008Ic922 ac922 e dm_202008
Ic922 ac922 e dm_202008
 
IBM 딥러닝 전용 서버 솔루션 AC922 & PowerAI Vision
IBM 딥러닝 전용 서버 솔루션 AC922 & PowerAI VisionIBM 딥러닝 전용 서버 솔루션 AC922 & PowerAI Vision
IBM 딥러닝 전용 서버 솔루션 AC922 & PowerAI Vision
 
OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316
 
[조진현]Kgc2012 c++amp
[조진현]Kgc2012 c++amp[조진현]Kgc2012 c++amp
[조진현]Kgc2012 c++amp
 
Cloud based NGS framework
Cloud based NGS frameworkCloud based NGS framework
Cloud based NGS framework
 
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
 
cdit hci zerto '소통하는 세미나' 소개자료(201705)
cdit hci zerto '소통하는 세미나' 소개자료(201705)cdit hci zerto '소통하는 세미나' 소개자료(201705)
cdit hci zerto '소통하는 세미나' 소개자료(201705)
 
Power_780+(9179-MHD)표준제안서
Power_780+(9179-MHD)표준제안서Power_780+(9179-MHD)표준제안서
Power_780+(9179-MHD)표준제안서
 
NetApp AI Control Plane
NetApp AI Control PlaneNetApp AI Control Plane
NetApp AI Control Plane
 
[GS네오텍] Google Compute Engine
[GS네오텍]  Google Compute Engine[GS네오텍]  Google Compute Engine
[GS네오텍] Google Compute Engine
 
091106kofpublic 091108170852-phpapp02 (번역본)
091106kofpublic 091108170852-phpapp02 (번역본)091106kofpublic 091108170852-phpapp02 (번역본)
091106kofpublic 091108170852-phpapp02 (번역본)
 
MySQL Deep dive with FusionIO
MySQL Deep dive with FusionIOMySQL Deep dive with FusionIO
MySQL Deep dive with FusionIO
 
HPC on IBM Cloud
HPC on IBM CloudHPC on IBM Cloud
HPC on IBM Cloud
 
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
테슬라 도조 프로젝트 (What is Tesla's Dojo Supercomputer?)
 
PowerEdge Blade 표준제안서.pptx
PowerEdge Blade 표준제안서.pptxPowerEdge Blade 표준제안서.pptx
PowerEdge Blade 표준제안서.pptx
 
컴퓨팅 분야 신규 서비스 - 조상만, AWS 솔루션즈 아키텍트 :: AWS re:Invent re:Cap 2021
컴퓨팅 분야 신규 서비스 - 조상만, AWS 솔루션즈 아키텍트 :: AWS re:Invent re:Cap 2021컴퓨팅 분야 신규 서비스 - 조상만, AWS 솔루션즈 아키텍트 :: AWS re:Invent re:Cap 2021
컴퓨팅 분야 신규 서비스 - 조상만, AWS 솔루션즈 아키텍트 :: AWS re:Invent re:Cap 2021
 
Alluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-CloudAlluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-Cloud
 
Azure databases for PostgreSQL, MySQL and MariaDB
Azure databases for PostgreSQL, MySQL and MariaDB Azure databases for PostgreSQL, MySQL and MariaDB
Azure databases for PostgreSQL, MySQL and MariaDB
 
Linux 서버 통합 : IBM LinuxONE
Linux 서버 통합 : IBM LinuxONELinux 서버 통합 : IBM LinuxONE
Linux 서버 통합 : IBM LinuxONE
 

More from (Joe), Sanghun Kim

[IBM 서버] 노후서버는 왜 교체해야 하는가
[IBM 서버] 노후서버는 왜 교체해야 하는가[IBM 서버] 노후서버는 왜 교체해야 하는가
[IBM 서버] 노후서버는 왜 교체해야 하는가
(Joe), Sanghun Kim
 
[IBM 김상훈] 오브젝트스토리지 | 늘어만 가는 데이터 저장문제로 골 아프신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
[IBM 김상훈] 오브젝트스토리지 | 늘어만 가는 데이터 저장문제로 골 아프신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)[IBM 김상훈] 오브젝트스토리지 | 늘어만 가는 데이터 저장문제로 골 아프신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
[IBM 김상훈] 오브젝트스토리지 | 늘어만 가는 데이터 저장문제로 골 아프신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
(Joe), Sanghun Kim
 
[IBM 김상훈] 폭증하는 데이터 저장 문제로 고민이신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
[IBM 김상훈] 폭증하는 데이터 저장 문제로 고민이신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)[IBM 김상훈] 폭증하는 데이터 저장 문제로 고민이신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
[IBM 김상훈] 폭증하는 데이터 저장 문제로 고민이신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
(Joe), Sanghun Kim
 
[IBM Korea 김상훈] Cleversafe 소개자료
[IBM Korea 김상훈] Cleversafe 소개자료[IBM Korea 김상훈] Cleversafe 소개자료
[IBM Korea 김상훈] Cleversafe 소개자료
(Joe), Sanghun Kim
 
[IBM Korea 김상훈] 통합유지보수 서비스 소개
[IBM Korea 김상훈] 통합유지보수 서비스 소개[IBM Korea 김상훈] 통합유지보수 서비스 소개
[IBM Korea 김상훈] 통합유지보수 서비스 소개
(Joe), Sanghun Kim
 
[IBM Korea 김상훈] 2015년 한국 스타트업 투자동향 리포트
[IBM Korea 김상훈] 2015년 한국 스타트업 투자동향 리포트[IBM Korea 김상훈] 2015년 한국 스타트업 투자동향 리포트
[IBM Korea 김상훈] 2015년 한국 스타트업 투자동향 리포트
(Joe), Sanghun Kim
 
[IBM Korea 김상훈] 파라다이스 시티 구축 사례 소개 (인프라운영)
[IBM Korea 김상훈] 파라다이스 시티 구축 사례 소개 (인프라운영)[IBM Korea 김상훈] 파라다이스 시티 구축 사례 소개 (인프라운영)
[IBM Korea 김상훈] 파라다이스 시티 구축 사례 소개 (인프라운영)
(Joe), Sanghun Kim
 
[IBM Korea 김상훈] Watson Explorer
[IBM Korea 김상훈] Watson Explorer[IBM Korea 김상훈] Watson Explorer
[IBM Korea 김상훈] Watson Explorer
(Joe), Sanghun Kim
 

More from (Joe), Sanghun Kim (8)

[IBM 서버] 노후서버는 왜 교체해야 하는가
[IBM 서버] 노후서버는 왜 교체해야 하는가[IBM 서버] 노후서버는 왜 교체해야 하는가
[IBM 서버] 노후서버는 왜 교체해야 하는가
 
[IBM 김상훈] 오브젝트스토리지 | 늘어만 가는 데이터 저장문제로 골 아프신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
[IBM 김상훈] 오브젝트스토리지 | 늘어만 가는 데이터 저장문제로 골 아프신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)[IBM 김상훈] 오브젝트스토리지 | 늘어만 가는 데이터 저장문제로 골 아프신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
[IBM 김상훈] 오브젝트스토리지 | 늘어만 가는 데이터 저장문제로 골 아프신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
 
[IBM 김상훈] 폭증하는 데이터 저장 문제로 고민이신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
[IBM 김상훈] 폭증하는 데이터 저장 문제로 고민이신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)[IBM 김상훈] 폭증하는 데이터 저장 문제로 고민이신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
[IBM 김상훈] 폭증하는 데이터 저장 문제로 고민이신가요? (자료를 다운로드하시면 고화질로 보실 수 있습니다.)
 
[IBM Korea 김상훈] Cleversafe 소개자료
[IBM Korea 김상훈] Cleversafe 소개자료[IBM Korea 김상훈] Cleversafe 소개자료
[IBM Korea 김상훈] Cleversafe 소개자료
 
[IBM Korea 김상훈] 통합유지보수 서비스 소개
[IBM Korea 김상훈] 통합유지보수 서비스 소개[IBM Korea 김상훈] 통합유지보수 서비스 소개
[IBM Korea 김상훈] 통합유지보수 서비스 소개
 
[IBM Korea 김상훈] 2015년 한국 스타트업 투자동향 리포트
[IBM Korea 김상훈] 2015년 한국 스타트업 투자동향 리포트[IBM Korea 김상훈] 2015년 한국 스타트업 투자동향 리포트
[IBM Korea 김상훈] 2015년 한국 스타트업 투자동향 리포트
 
[IBM Korea 김상훈] 파라다이스 시티 구축 사례 소개 (인프라운영)
[IBM Korea 김상훈] 파라다이스 시티 구축 사례 소개 (인프라운영)[IBM Korea 김상훈] 파라다이스 시티 구축 사례 소개 (인프라운영)
[IBM Korea 김상훈] 파라다이스 시티 구축 사례 소개 (인프라운영)
 
[IBM Korea 김상훈] Watson Explorer
[IBM Korea 김상훈] Watson Explorer[IBM Korea 김상훈] Watson Explorer
[IBM Korea 김상훈] Watson Explorer
 

[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례

  • 1. AI 최적화 플랫폼 IBM Power Systems AC922 “Newell” IBM Deep Learning 솔루션 소개와 활용 사례 IBM
  • 2. 인공지능 활용 분야 © Copyright IBM Corporation 2018 2 의료 분야 보안 분야 서비스 분야 금융 분야 컨텐츠 분야 리테일 분야
  • 3. Deep Learning 을 위한 과정 3 © Copyright IBM Corporation 2018 ✓ 다양한 분야에 최적의 솔루션을 제공하기 위해서는 training 영역 에 가장 많은 기술력과 시간이 필요합니다.
  • 4. text © Copyright IBM Corporation 2018 4 인공지능 인프라 도입 시 확인 사항 1. 최신의 GPU 모델 탑재 NVIDA Tesla V100 SXM2 타입 장착 2. 최고의 성능을 위한 NVLink 2.0 기술 적용 최대 300GB/s bandwidth 를 제공함으로 data copy 속도 증가 3. 최대 시스템 자원 활용을 위한 LMS, Cache Coherence 기술 GPU 메모리 용량의 한계를 극복 4. 쉽고 빠르게 사용 할 수 있는 Deep Learning Framework 제공 Caffe, Tensorflow, Theano, Torch 등 주요 framework PPA repository 로 제공 5. Data-Centric 을 위한 스토리지 및 워크로드 관리를 위한 스케줄러 제공 IBM Elastic Storage Server /w Spectrum Scale, Spectrum Computing(LSF)
  • 5. IBM AC922 “Newell” 세부 사양 5 © Copyright IBM Corporation 2018
  • 6. IBM AC922 “Newell” 세부 사양 6 © Copyright IBM Corporation 2018 IBM 차세대 GPU 서버 AC922 “Newell” ▪IBM POWER9 CPU와 NVIDIA V100 GPU의 조합  최신 Volta 아키텍처의 V100 4장 장착  양방향 75+75GB/sec의 대역폭을 가지는 NVLink 2.0을 통해 GPU-GPU는 물론, CPU-GPU도 연결  물리적 core 1개당 4개의 HW thread (SMT-4)를 가지는 POWER9 프로레서  2U 공간 안에 강력한 GPU 컴퓨팅 파워를 압축하여 성능 대비 상면적 및 전력 소비량에서 월등한 이점 항 목 사 양 POWER9 processor (2.6GHz 16-core or 2.0GHz 20-core) 2 Disk bay (SSD or HDD) 2 Max memory 최대 1024 GB PCIe slots (Gen4) 4 OS Redhat 7.4 (Ubuntu는 2Q’18부터 지원 예정) GPU (V100 w/ NVLink 2.0) 4 (SXM2) Total Power Supply AC input (W) 2200 W * 2 Form Factor 2U Physical dimension 444.5 mm * 88.9 mm * 850.9 mm Weight 최대 30kg ✓ POWER9과 Volta를 NVLink 2.0을 통해 150GB/s로 연결, PCIe Gen4 탑재
  • 7. 최신의 GPU 모델 탑재 7 © Copyright IBM Corporation 2018 Tesla Products Tesla P100 NVLink 1.0 Tesla V100 PCIe Tesla V100 NVLink 2.0 Form Factor SXM2 PCIe SXM2 NVIDIA Tensor Cores - 640 NVIDIA CUDA Cores 3584 5120 Double-Precision TFLOPS 5.3 7 7.8 Single-Precision TFLOPS 10.6 14 15.7 Tensor TFLOPS - 112 125 GPU memory 16 GB HBM2 Memory Bandwidth 732 GB/s 900 GB/s Interconnect Bandwidth 160 GB/s 32 GB/s 300 GB/s TDP 300 W 250 W 300 W Transistors 15.3 billion 15.3 billion 15.3 billion NVIDIA Tesla V100 GPU SXM2 type PCIe V100 대비 TFLOPS는 12% 더 우수 연결 속도는 9.4배 더 우수
  • 8. 최고의 성능을 위한 NVLink 2.0 기술 적용 8 © Copyright IBM Corporation 2018 ✓ IBM POWER9 + Volta GPU(V100)은 기존 80GB/s NVLink보다 향상된 150GB/s의 CPU-GPU, GPU-GPU 간 통신 대역폭을 제공하여, Training의 수행 시간을 단축시킬 수 있습니다. POWER9 GPUGPU NVLink 2.0 75+75 GB/s 차세대 POWER9 + Volta GPU 서버 NVLink 2.0 NVLink 1.0 • NVLink 2.0 링크 당 25GB/s • 최대 6개 링크 연결 (150GB/s, 공랭식 기준) • Cache Coherence 지원
  • 9. 최고의 성능을 위한 NVLink 2.0 기술 적용 9 © Copyright IBM Corporation 2018 ✓ NVLink는 PCIe 타입 대비 4.6배의 대용량 대역폭을 통해 Peer-to-Peer 통신을 최적화합니다. POWER9 POWER9 GPUGPU NVLink GPUGPU NVLink 150 GB/s 150 GB/s • CPU와 GPU간은 PCIe로 연결 (32GB/sec) • 4개 GPU끼리 NVLink * 1 link (50GB/sec), 또는 2 link로 2개씩 연결 (100GB/sec) • 다른 socket의 GPU 4개와의 연결은 2-hop 구조 4GPU 구성에서, • CPU와 GPU간을 NVLink * 2 link로 연결 (150GB/sec) • 2개 GPU끼리 NVLink * 2 link로 연결 (150GB/sec) 6GPU 구성 시, CPU-GPU, GPU-GPU 구간 별 100GB/sec IBM AC922 (Newell) http://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf 32 GB/s 32 GB/s 50 GB/s 100 GB/s Nvidia DGX-1V
  • 10. NVLink 2.0 성능 10 © Copyright IBM Corporation 2018 ✓ 기존 x86 기반 P100 GPU보다 2.6배, POWER8 기반 P100 GPU보다 1.9배의 성능이 향상 되었습니다. • 분자역학 code인 CPMD는 TB 단위의 data가 CPU와 GPU 사이를 이동 • 이로 인해 CPU-GPU 병목이 걸리는 대표적인 업무 • PCIe에서는 3.3TB 이동에 300초 이상 • NVLink 2.0에서는 70초 • P100과 V100의 이론상 성능 차이는 1.5배 • 실제 성능 차이는 2.6배 2.6 x faster
  • 11. 최대 시스템 자원 활용을 위한 LMS, Cache Coherence 기술 11 © Copyright IBM Corporation 2018 ✓ GPU 메모리 용량의 한계를 극복하는 Large Memory Support (LMS) ✓ GPU 메모리 용량은 16GB 이지만, LMS로 최대 1TB의 시스템 메모리(서버 당)를 사용합니다. Xeon CPU RAM V100 GPU GPU mem POWER8 CPU RAM Images models Images 작은 대역폭 PCIe 32GB/s Images Images Images PCIe를 통해 모델과 이미지를 먼저 GPU mem으로 복사한 후에야 GPU가 GPU mem에 접근 (PCIe 병목) 넓은 대역폭 NVLink 150GB/s (4GPU) ▪ 작은 모델, 작은 이미지, 작은 Batch size ▪ 성능 저하, Training이 불가능한 상황 발생 NVLink를 통해 GPU가 서버 RAM의 모델과 이미지에 직접 접근 (GPU mem은 cache 역할) ▪ 큰 모델, 큰 이미지, *24배 더 큰 Batch size ▪ CPU-GPU간 연결이 NVLink이기 때문에 가능 (*최대 1TB 서버 RAM 메모리 사용) 1 2 IBM AC922 (Newell)Nvidia DGX-1V Images Images V100 GPU GPU mem Cache
  • 12. 최대 시스템 자원 활용을 위한 LMS, Cache Coherence 기술 12 © Copyright IBM Corporation 2018 ✓ 별도의 프로그래밍 없이도 CPU-GPU 메모리에 상호 접근 가능한 Cache Coherence ✓ NVLink 2.0의 대역폭을 이용하여 GPU는 대용량의 CPU 메모리를 직접 접근하여 사용합니다. Features Pascal (P100) Volta (V100) Comments on-demand migration for GPU O O oversubscription O O large memory than GPU mem size access counter X O hot pages only migration ATS (address translation service) X O allows GPU to access CPU’s page tables directly cache coherence X O direct CPU access/cache to GPU memory, native CPU-GPU atomics
  • 13. Large Memory Support (LMS) 성능 13 © Copyright IBM Corporation 2018 ✓ 큰 이미지 훈련 시, LMS를 사용한 Caffe는 더 큰 배치사이즈를 이용하여 3.8배 빠르게 학습 종료가 가능합니다. • Results are based IBM Internal Measurements running 1000 iterations of Enlarged GoogleNet model (mini-batch size=5) on Enlarged Imagenet Dataset (2240x2240) . • Hardware: Power AC922; 40 cores (2 x 20c chips), POWER9 with NVLink 2.0; 2.25 GHz, 1024 GB memory, 4xTesla V100 GPU Pegas 1.0. Competitive stack: 2x Xeon E5-2640 v4; 20 cores (2 x 10c chips) / 40 threads; Intel Xeon E5-2640 v4; 2.4 GHz; 1024 GB memory, 4xTesla V100 GPU, Ubuntu 16.04. • Software: IBM Caffe with LMS Source code: https://github.ibm.com/TUNG/trlcaffe/tree/1.0-ibm-blc-bm-fix-hang+-p9collateral based on the branch "1.0-ibm-blc-bm-fix- hang+" (base for PowerAI R4) and a PR#5972 from BVLC/Caffe (for supporting cudnn7). 3.8 x faster
  • 14. 쉽고 빠르게 사용 할 수 있는 Deep Learning Framework 제공 14 © Copyright IBM Corporation 2018 ✓ PowerAI toolkit 으로 쉽고 빠르게 개발/Training용 Software 환경 준비 ✓ 다양한 딥러닝, 머신러닝용 Framework, 소프트웨어 라이브러리를 GPU 전용 시스템에 최적화된 버전으로 제공합니다. OpenCV, hdf5, bazel, protobuf, lmdb 등등의 수많은 기반 open source SW를 일일이 build한 뒤 Caffe, Tensorflow 등을 설치 기반 오픈소스 SW는 물론 Caffe, Tensorflow 등 주요 최신 framework 을 최적화 빌드된 무료 패키지로 제공 1 ~ 2일 5~10분
  • 15. Data-Centric 을 위한 스토리지 및 워크로드 관리를 위한 스케줄러 제공 15 © Copyright IBM Corporation 2018 ✓ Deep Learning 환경 구축을 위한 솔루션 및 인프라 전체 제공 할 수 있습니다 [AC922] [ESS] [LSF]
  • 16. text © Copyright IBM Corporation 2018 16 IBM GPU 서버 적용 사례
  • 17. 슈퍼컴 프로젝트 CORAL(Collaboration of Oak Ridge, Argonne, and Livermore)
  • 18. ML / DL 사례 – 1. K사 고압 철탑 시설점검을 위한 시스템 구축 -. 사람이 일일이 송전탑을 육안 확인 하고 점검 -. 드론으로 이미지/영상 촬영 -. 이미지를 딥러닝 기법을 사용하여 분석 -. 송전탑 점검의 자동화
  • 19. ML / DL 사례 – 2. S 의료 초음파 의료기기 개발 -. 다양한 부위의 초음파 사진 사람이 직접 분석 -. 이미지를 딥러닝 기법을 사용하여 빠르게 분석 -. 제한된 자원의 활용을 극대화하기 위해 docker 및 스펙트럼 LSF 솔루션 적용 -. 분석 결과를 의료기기에 적용 및 개발 2017년 하반기 도입 예정 IBM Spectrum Scale + V5030 Storage Usable 300TB
  • 20. ML / DL 사례 – 3. B 자율주행 자율주행 모델 개발 -. 회사가 자체 수집한 블랙박스 영상 및 이미지를 통해 모델 트레이닝 -. 대형 모델 트레이닝을 위한 모델 병렬화 구현 -. 분산 병렬처리 성능 극대화를 위한 NVlink 및 스펙트럼 스케일에 장점 활용
  • 21. 21