KVM High Availability Regardless of Storage - Gabriel Brascher, VP of Apache ...ShapeBlue
Having High Availability enabled for KVM Hosts can improve greatly the QoS by handling (fence/recover) a problematic Host as well as re-starting its stopped VMs on healthy hosts. However, there is a limitation on CloudStack HA for KVM; it relies mainly on NFS heartbeat script checks. This Talk illustrates how CloudStack HA works for KVM hosts and it presents a way of improving its implementation in a way that KVM HA works with any storage system pluggable on KVM, not just NFS.
About Gabriel Brasher - https://blogs.apache.org/cloudstack/
------------------------------------------
CloudStack European User Group Virtual happened on May 27th. The first CSEUG Virtual proved to be a huge success. It collected people from 23 countries – Germany, the United Kingdom, Switzerland, India, Bulgaria, Greece, Poland, Serbia, Brazil, Chile, Russia, USA, Canada, Japan, France, Uruguay, Korea …
We also had a record number of registrations and attendees for a CloudStack User Group Event. The physical distance was not a stopper for our speakers, who joined the event from 6 different countries.
------------------------------------------
About CloudStack: https://cloudstack.apache.org/
Interconnecting Neutron and Network Operators' BGP VPNsThomas Morin
joint presentation given at OpenStack summit Barcelona (Oct. 2016) with Paul Carver and Tim Irnich
talk video: https://www.youtube.com/watch?v=LCDeR7MwTzE
demo: https://www.youtube.com/watch?v=5iRoZcmQyuU
In this session, Kevin will dive into the unique challenges of keeping your Kubernetes workloads highly available while keeping costs low. You will learn about how to leverage cloud-native autoscaling, pod requirement right-sizing, resource buffer definition, cost allocation and more.
[오픈테크넷서밋2022] 국내 PaaS(Kubernetes) Best Practice 및 DevOps 환경 구축 사례.pdfOpen Source Consulting
최근 금융권이나 공공기관에서는 차세대 프로젝트에 PaaS 기반 시스템을 구축하고 그 위에 마이크로서비스아키텍처(MSA)를 구현하기 위해 많은 투자를 하고 있는데요, 많은 기업들이 오픈소스 기반의 인프라를 고려할 때 기술지원이나 버전 업그레이드 등에 대한 애로사항을 겪게 됩니다. 이런 문제에 대한 해결 방안 중 하나가 바로 커뮤니티 기반의 오픈소스 재단을 활용하는 것인데요!
본 자료에서 커뮤니티 오픈소스 기반 인프라 구축의 장점과 실제 사례에 대해 확인해 보실 수 있습니다.
Linux のネットワーク設定情報を取得し、描画するツール "plotnetcfg" のインストール方法や描画サンプル。
"How to" for installing / using "plotnetcfg" which scans networking config of Linux machine and plots a diagram of the configuration hierarchy.
OpenStack 운영을 통해 얻은 교훈을 공유합니다.
목차
1. TOAST 클라우드 지금의 모습
2. OpenStack 선택의 이유
3. 구성의 어려움과 극복 사례
4. 활용 사례
5. 풀어야 할 문제들
대상
- TOAST 클라우드를 사용하고 싶은 분
- WMI를 처음 들어보시는 분
KVM High Availability Regardless of Storage - Gabriel Brascher, VP of Apache ...ShapeBlue
Having High Availability enabled for KVM Hosts can improve greatly the QoS by handling (fence/recover) a problematic Host as well as re-starting its stopped VMs on healthy hosts. However, there is a limitation on CloudStack HA for KVM; it relies mainly on NFS heartbeat script checks. This Talk illustrates how CloudStack HA works for KVM hosts and it presents a way of improving its implementation in a way that KVM HA works with any storage system pluggable on KVM, not just NFS.
About Gabriel Brasher - https://blogs.apache.org/cloudstack/
------------------------------------------
CloudStack European User Group Virtual happened on May 27th. The first CSEUG Virtual proved to be a huge success. It collected people from 23 countries – Germany, the United Kingdom, Switzerland, India, Bulgaria, Greece, Poland, Serbia, Brazil, Chile, Russia, USA, Canada, Japan, France, Uruguay, Korea …
We also had a record number of registrations and attendees for a CloudStack User Group Event. The physical distance was not a stopper for our speakers, who joined the event from 6 different countries.
------------------------------------------
About CloudStack: https://cloudstack.apache.org/
Interconnecting Neutron and Network Operators' BGP VPNsThomas Morin
joint presentation given at OpenStack summit Barcelona (Oct. 2016) with Paul Carver and Tim Irnich
talk video: https://www.youtube.com/watch?v=LCDeR7MwTzE
demo: https://www.youtube.com/watch?v=5iRoZcmQyuU
In this session, Kevin will dive into the unique challenges of keeping your Kubernetes workloads highly available while keeping costs low. You will learn about how to leverage cloud-native autoscaling, pod requirement right-sizing, resource buffer definition, cost allocation and more.
[오픈테크넷서밋2022] 국내 PaaS(Kubernetes) Best Practice 및 DevOps 환경 구축 사례.pdfOpen Source Consulting
최근 금융권이나 공공기관에서는 차세대 프로젝트에 PaaS 기반 시스템을 구축하고 그 위에 마이크로서비스아키텍처(MSA)를 구현하기 위해 많은 투자를 하고 있는데요, 많은 기업들이 오픈소스 기반의 인프라를 고려할 때 기술지원이나 버전 업그레이드 등에 대한 애로사항을 겪게 됩니다. 이런 문제에 대한 해결 방안 중 하나가 바로 커뮤니티 기반의 오픈소스 재단을 활용하는 것인데요!
본 자료에서 커뮤니티 오픈소스 기반 인프라 구축의 장점과 실제 사례에 대해 확인해 보실 수 있습니다.
Linux のネットワーク設定情報を取得し、描画するツール "plotnetcfg" のインストール方法や描画サンプル。
"How to" for installing / using "plotnetcfg" which scans networking config of Linux machine and plots a diagram of the configuration hierarchy.
OpenStack 운영을 통해 얻은 교훈을 공유합니다.
목차
1. TOAST 클라우드 지금의 모습
2. OpenStack 선택의 이유
3. 구성의 어려움과 극복 사례
4. 활용 사례
5. 풀어야 할 문제들
대상
- TOAST 클라우드를 사용하고 싶은 분
- WMI를 처음 들어보시는 분
Lablupconf session8 "Paving the road to AI-powered world"Lablup Inc.
Lablup Conf 1st (Session4/Core)
"Paving the road to AI-powered world" - 김준기
- 발표내용
* Recap of Backend.AI history
* Future roadmap of Backend.AI for next 2 years
- 영상보러가기 : https://youtu.be/kAGSl99U0Bo
Machine Learning Model Serving with Backend.AIJeongkyu Shin
머신러닝 모델을 서비스 단에서 서빙하는 것은 손이 많이 갑니다.
서비스 과정을 편리하게 하기 위하여 TensorFlow serving 등 서빙 과정을 돕는 다양한 도구들이 공개되고 개발되고 있습니다만, 여전히 서빙 과정은 귀찮고 불편합니다. 이 세션에서는 Backend.AI 와 TensorFlow serving을 이용하여 간단하게 TensorFlow 모델을 서빙하는 법에 대해 다루어 봅니다.
Backend.AI 서빙 모드를 소개하고, 여러 TF serving 모델 등을 Backend.AI 로 서비스하는 과정을 통해 실제로 사용하는 법을 알아봅니다.
Serving the machine learning model at the service level is a lot of work. A variety of tools are being developed and released to facilitate the process of serving. TensorFlow serving is the greatest one for serving now, but the docker image baking-based serving process is not easy, not flexible and controllable enough. In this session, I will discuss how to simplify the serving process of TensorFlow models by using Backend.AI and TensorFlow serving.
I will introduce the Backend.AI serving mode (on the trunk but will be official since 1.6). After that, I will demonstrate how to use the Backend.AI serving mode that conveniently provides various TensorFlow models with TensorFlow serving on the fly.
Windows Kubernetes Bootstrapping and OperationsJung Hyun Nam
이 슬라이드는 Kubernetes Korea User Group 밋업 프레젠테이션 (2019년 7월 30일)에 발표한 내용입니다.
This slide was released in the Kubernetes Korea User Group MAKEUP PRESENTATION (July 30, 2019).
NetApp AI Control Plane for Kubernetes and Kubeflow
NetApp AI Data Control Plane for Kubernetes and Kubeflow
NetApp Trident and Python REST API for Kubernetes and Kubeflow
Just Model It 이벤트에서 사용할 Backend.AI 에 관한 소개입니다. Backend.AI의 개괄, 주요 기능 및 사용예들을 다룹니다. 또한 Backend.AI 를 이용한 End-to-end ML model 개발 시나리오도 소개합니다.
An Introduction to Backend.AI to use in Just Model It event. It covers the overview of Backend.AI, its main features and examples. It also introduces the scenario of developing end-to-end ML model using Backend.AI.
Backend.AI (https://backend.ai)는 클라우드 및 온-프레미스 환경에서 여러 사용자가 안전하고 효율적으로 컴퓨팅 자원을 공유할 수 있는 머신러닝에 특화된 인프라 관리 프레임워크입니다. 현재 널리 사용되고 있는 오픈소스 기술인 OpenStack, Kubernetes 등과 비교하여 어떤 특징과 차이점이 있는지 소개하고, 프레임워크의 구조와 기반 기술 및 응용 사례를 데모와 함께 소개합니다.
BRK3713 - Microsoft Azure에서 Windows와 Linux를 동시에 사용하는 하이브리드 Kubernetes 클러스터 구축Jung Hyun Nam
이 세션에서는 Windows Kubernetes 클러스터를 구축하는 방법에 대해 자세히 설명하고 Windows 노드와 Linux 노드를 동시에 구성 할 수있는 하이브리드 Kubernetes 클러스터와 함께 Polyglot DevOps 환경을 활용하는 예제를 제공합니다.
Windows 기반 노드를 Linux 기반 노드로 구성된 기존 Kubernetes 클러스터에 통합하여 복잡한 응용 프로그램을 호스팅하는 방법을 배울 수 있습니다.
Similar to [OpenInfra Days Korea 2018] Day 2 - E5: GPU on Kubernetes (20)
2018년 10월 19일 금요일, 오픈스택 한국 커뮤니티 정기 세미나에서 발표주셨던 자료입니다.
- 행사 정보: http://festa.io/events/118
- 발표자: 김용기 부장님
> Sr. Solution Architect, Red Hat
> Administrator, Ansible Facebook Usergroup
10. NVidia Container Runtime
• docker / cri-o / LXD / Singularity 와 같은 다양한 Container
에서 GPU 기능 사용 가능
• OCI Runtime Interface 사용
Container Runtime
출처 : The path to GPU as a Service in Kubernetes
, Renaud Gaubert, 2018
11. kubernetes roadmap for GPU
출처 : The path to GPU as a Service in Kubernetes
, Renaud Gaubert, 2018
12. AI 기반으로 Kubernetes 적용
Data Analytics & AI Platform
• Container Orchestration 제공 기능이 많아,
기존 Appliance 기반 구성보다 공수절감 예상
• kubernetes는 시장 점유율이 높고, 적용 사례도 많음
- Cloudera Data Science Workbench
• Cloud Big 3에 모두 서비스가 존재하여,
향후 멀티클라우드로 전환도 용이
• Cloud상에서 Data 수집, 저장, 처리 및
분석 환경을 제공
• 기존 빅데이터 플랫폼에 AI를 추가하려는 요구 발생
LG CNS에서 kubernetes GPU
Data Analytics & AI Platform
GPU 사용 검증 필요
• GPU 기능은 당시 alpha stage
13. 목적
기간
• alpha stage인 GPU 기능이 서비스에 문제가 없는지 검증
• NGC를 통해 로컬에서 수행하는 AI어플리케이션과 동일한 수준의 성능을 보장하는지 검증
• 1차 테스트 (3/12~3/30) : 기본 구성 및 기능위주 테스트
• 2차 테스트 (4/16~4/27) : 장비 추가 및 비기능 위주 테스트
kubernetes GPU PoC
테스트 케이스
• 기능 : unit test 케이스 중 GPU관련 필요검증항목 추출 (46/901)
https://github.com/kubernetes/kubernetes/blob/release-1.9/test/test_owners.csv
• 안정성 : GPU 주요 컴포넌트의 장애 테스트
• 어플리케이션 : 공개되어있는 benchmark 프로그램을 이용 (Tensorflow / Caffee…)
15. kubernetes GPU 설치 – v1.9
device plugins 설정
• kubelet : --feature-gates="DevicePlugins=true“
container-runtime 설치
• nvidia driver 설치 (>= v.361.93)
• nvidia-docker 2.0 설치 (docker 버전에 맞춤)
• daemon.json : default runtime 변경
device plugin 설치
• device plugin 설치 (DaemonSet)
• node labeling (accelerator=[value])
출처 : https://kubernetes.io/docs/tasks/manage-gpus/scheduling-gpus/
https://github.com/NVIDIA/k8s-device-plugin
16. docker image sample
FROM nvcr.io/nvidia/tensorflow:18.02-py3
RUN mkdir -p /data/cifar10_estimator
ADD cifar10_estimator/* /data/cifar10_estimator/
WORKDIR /data/cifar10_estimator/
RUN python generate_cifar10_tfrecords.py --data-dir=${PWD}/cifar-10-data
CMD exec /bin/bash -c "trap : TERM INT; sleep infinity & wait"
Dockerfile NVidia Container Registry
• NVidia에 의해 최적화된 검증된 Deep Learning
Framework 이미지 제공
• NVidia GPU가 적용된 시스템이면 사용 가능
18. docker options
NOTE: The SHMEM allocation limit is set to the default of 64MB. This may be
insufficient for TensorFlow. NVIDIA recommends the use of the following flags:
nvidia-docker run --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 ...
--shm-size
• container 내부 IPC 통신시 사용할 Share Memory 크기
• 기본값 : 64mb
--ulimit memlock
• 메모리 주소공간 최대크기
• 기본값 : 64kb
• -1이면 swap을 사용하지 않음
--ulimit stack
• 스택 크기
• 기본값 : 8192kb
21. 기능검증
구분 Test Case 설명 GPU 할당 점검 결과
주기능
container 생성/배포
AI어플리케이션 이미지(tensorflow, caffe)를 GPU노드에 배포
- 명령어 : kubectl create -f “yaml_file”.yaml
Single 정상
Multi 정상
container 로그 확인
container 로그를 출력하여 이상 유무 확인
- 명령어 : kubectl logs “pod_name”
Single 정상
Multi 정상
container 접속
container 접속 후 정상 배포 여부 확인
- 명령어 : kubectl exec –it “pod_name”
Single 정상
Multi 정상
container 삭제
container 삭제
- 명령어 : kubectl delete –f “yaml_file”.yaml
Single 정상
Multi 정상
가용성
Master 노드 장애
Master 노드 셧다운 시
작업 수행중인 GPU container의 영향도 확인
정상
kubelet 서비스 장애
GPU 노드의 kubelet 서비스 장애시
작업 수행중인 GPU container의 영향도 확인
정상
device plugin 장애
GPU 노드의 device plugin 프로세스 장애시
작업 수행중인 GPU container의 영향도 확인
정상
CPU/GPU
혼용
CPU container 배포
GPU container가 배포된 동일 노드에
CPU container 배포 및 서비스 점검구동
- 서비스 : 데모 어플리케이션의 웹페이지 정상 접속 확인
정상
24. DeepBench
• Deep Learning 운영하는데 어떤 하드웨어가 좋은 성능을 제공하는지 답변을 위해 작성
• Tensorflow와 같은 top level 프레임워크가 아닌 low level library를 이용하여 검증
• Baidu Research에서 자체 수행한 결과 데이터를 공유
Baidu DeepBench
출처 : https://github.com/baidu-research/DeepBench
25. DeepBench benchmark
Program Spec
• Program: GEMM
• Model: Dense Matrix Multiplication
• NVidia P100로 비교
baidu
M N K Time(usec)
7680 48000 2560 206884
6144 48000 2048 135716
4608 48000 1536 74962
8448 48000 2816 250482
3072 48000 1024 33614
kubernetes
M N K Time(usec)
7680 48000 2560 207228
6144 48000 2048 132857
4608 48000 1536 75045
8448 48000 2816 250733
3072 48000 1024 33758
26. 백서
• TFLOPS: 초당 부동소수점 연산 횟수
• TFLOPS 기준 V100은 P100 대비
약 1.5배 향상된 연산성능 보유
NVidia Tesla V100