SlideShare a Scribd company logo
기업의 AI 기반 혁신을 지원하는
데이터 기술 소개
(The data tech for ai based innovation)
2020.11
freepsw
1
기업의 AI 기반 혁신?
Problems
Biz
Value
AI
Innovation
다양한 Idea를 빠르게 검증하고 적시에 비즈니스에 반영하여 기업의 경쟁력 확보
AI 활용하여 다양한 Idea 검증 2
혁신적인 Idea를 비즈니스 가치로 전환 하려면?
수많은 혁신적인 실험을 시도하며, 최적화를 통해 기업의 가치를 혁신적으로 향상
더 많은 혁신 아이디어가
기업의 비즈니스에 적용
검증된 아이디어를
비즈니스에 빠르게 반영
• Value Pipeline은 AI Model을 통해서 비즈니스 가치를 생성하는 영역
• Innovation Pipeline은 새로운 아이디어를 다양한 ml model로 설계/개발/테스트하는 영역
3
더 많은 아이디어를 빠르게 검증한다는 것은?
좋은 제품은 수 많은 실험적 아이디어 중에서 도출되며,
이러한 반복적인 실험을 효율적으로 빠르게 할 수 있는 환경이 중요
2019 AI Conference (Facebook)
4
누구나 AI 기반 혁신을 원하지만…
기업의 AI 도입의 현실적인 고민들은 너무나 많다. (여기서는 기술에 초점)
고 품질의 데이터 제공
(적시에 필요한 데이터 제공이 어려움)
학습 속도 제약
(더 많은 아이디어 검증 어려움)
모델 공유/협업 문제
(수많은 모델의 중복투자 및 재사용 어려움)
모델을 운영 환경에 배포
(배포 성능 및 안정성, 설명력)
AI 기반 혁신을 위해서는 기업의 문화, 조직, 프로세스, 기술 등의 전반적인 변화가 필요 5
AI Pipeline을 기준으로 각 단계를 보면
고품질의 신뢰할 수 있는 데이터가 적시에 확보 되어야, AI 기반의 비즈니스 혁신이 가능함
Prepare
Data
Train
AI
Model
Monitor
AI
Model
Deploy
AI
Model
Manage
AI
Model
Collect
Data
분석에 필요한 고품질의 데이터를
적시에 제공하기 위한 기술 필요
(Data Engineer/Data Analyst)
대량의 데이터를 빠르게 학습
가능한 인프라/알고리즘 필요
(Data Scientist)
실제 비즈니스에 적시에
배포 및 안정적 운영 필요
(AI/ML Engineer)
6
Data 준비 단계의 주요 기술 및 핵심 요건
데이터의 품질이 보장되지 않거나, 너무 늦게 제공된다면 비즈니스에 미치는 영향도 감소
2020 SK AI 플랫폼 웨비나
데이터의 품질을 유지하면서,
적시에 필요한 데이터를 제공하는 것
7
데이터를 적시에 고품질로 제공하려면?
데이터의 수집에서 활용까지 단계별 품질 지표/버전 관리와 전체 파이프라인의 자동화가 중요
통합 데이터 관리
• 조직/부서별 목적에 따라 Data
Silo 발생
• 데이터 통합 관리로 원하는
데이터를 쉽게 찾도록 구성
(Data Catalog 등)
데이터 오류 관리 자동화된 Data Pipeline
• 모든 데이터는 잠재적 오류 포함
(Null, 값 중복, 값 오류)
• 이는 AI 알고리즘에 오류를 유발
가능 (추적도 어려움)
• 단계별 오류 보정(ML 활용) 및
추적관리
• 하나의 데이터를 생성하기 위해
수 많은 작업들이 연결 (수 많은
담당자들의 수작업)
• 다양한 데이터 수요를 적시에
제공하기 위한 자동화된 Data
Pipeline 구성 필요
8
고품질의 데이터 제공을 위한 핵심 기술들 (1/2)
데이터 수집
• 수집 Interface 다양성
• Availability, Fault tolerance
• Cloud Infra Platform을 고려한 구성 테스트
기술분야 핵심 기능 관련 기술
데이터 처리
( Batch )
• 지원 API의 다양성 ( Python, Java, Scala)
• 데이터 처리 성능
• Cloud Infra Platform 을 고려한 구성 테스트
데이터 처리
( Real-time )
• 지원 API 다양성 ( Python, Java, Scala)
• Batch 및 Sliding Window 지원
• 실시간 Query 지원
• Cloud Infra Platform을 고려한 구성 테스트
Object Storage
• 데이터 읽기 및 저장 속도
• 데이터 관리 편이성
• Cloud Infra Platform을 고려한 구성 테스트
9
고품질의 데이터 제공을 위한 핵심 기술들 (2/2)
ACID Platform
• Inset, Update, Delete 성능
• 스키마로 고품질의 데이터 제공 가능
기술분야 핵심 기능 관련 기술
Data Orchestration
(Zero-Copy)
• 분산된 데이터에 대하여 하나의 논리적인 파일 접근 제공
• 메모리 기반 분산 파일 시스템 지원
Data Pipeline
• 다양한 Data Pipeline 구성
• 다양한 실행 Job 및 스케줄 관리
10
학습에 필요한 데이터를 빠르게 처리하는 기술 (RAPIDS)
데이터 처리 시 CPU를 활용하는 영역에 GPU를 적용하여 데이터 처리 성능 향상
GPU 가속 Data Pipeline 구성 ETL 처리 속도/비용 향상
https://nvidia.github.io/spark-rapids/
Feature 처리 영역에 성능 개선 11
분산된 데이터를 통합하여 빠르게 조회하는 기술 (Alluxio)
다양한 데이터 소스를 하나의 논리적인 스토리지로 연결을 제공하는 메모리 기반 분산 파일시스템
다양한 데이터 소스와 데이터 처리 기술을 연결
• 데이터 소스가 많아질 수록 데이터 연결로 인한 복잡성을 단순화
• 메모리 기반 분산 파일 시스템을 통해 데이터 처리 성능 향상
처리 성능 개선
• AWS EMR의 Presto에서 Alluxio를 적용한 경우
최대 4배의 성능 향상 (메모리 캐시 활용)
https://www.slideshare.net/Alluxio/presto-on-alluxio-hnadson-lab
12
AI Model 학습 단계의 주요 기술 및 핵심 요건
다양한 Biz 아이디어를 빠르게 검증하여, 더 좋은 AI Model로 발전하기 위한 환경 필요
2020 SK AI 플랫폼 웨비나
다양한 분석 환경을 빠르게 제공하고,
학습 성능 개선에 필요한 기술 지원하는 것.
즉, 더 많은 실험이 반복 될 수 있는 환경
13
AI Model 학습 성능을 제약하는 요소들
모델 학습 시간에 영향을 미치는 요소들을 파악하고, 이를 해결하기 위한 기술 도입
모델의 복잡성 증가 하드웨어 성능의 한계
• 학습할 파라미터 수가 엄청나게 증가함.
• Layer가 깊어질 수록 학습 시간도 증가
• 이미지/영상 데이터 학습 시 Disk I/O 부하
• 학습을 위한 데이터 송/수신으로 Network 부하
• 빠른 연산을 위하 GPU 장비 부족 (비싼 장비 도입 이슈) 14
AI Model 학습 성능을 향상하려면?
학습할 데이터 처리 시간을 단축하고, 데이터를 분산 및 병렬로 학습하여 성능을 향상한다.
학습 데이터 조회 성능 개선
• 대량의 AI 데이터 학습에
최적화된 파일 시스템 적용 (기존
HDFS는 작은 사이즈 조회에
비효율적)
• 분석 Framework에 최적화된
데이터 포맷 활용 (Tensorflow
등의 자료구조 지원)
Feature Store 재활용 분산 학습 아키텍처 도입
• 분석가는 자신의 AI Model에
필요한 Feature를 수작업으로
생성 (Computing, Storage
자원 부하 유발)
• 학습을 위해 생성된 Feature를
다른 AI Mode에서 재사용
가능하도록 제공
• 모델의 학습시간 단축
• 모델이 복잡해지고, 학습
파라미터가 급증.
• AI Model 학습을 분산하여 학습
성능 및 속도 향상
• 데이터 분산 학습과 모델 분산
학습 방법 제공
15
AI Model 학습의 효율성을 높여주는 기술들
다양한 시도의 AI Model을 효율적으로 실행/공유하고, 자동화 모델
Train at Scale
• 분산 학습 환경 제공
• Training 리소스 활용 효율 / 관리 용이성
Auto ML
horovod
Tensorflow
Pipeline
• ML Lifecycle 지원
• 모델 학습의 전 과정을 자동화된 Pipeline 제공
Kubeflow Pipeline
Tensorflow
Extended
Model / Data
Management Arrikto ROK / ROK Registry
Kubeflow
Metadata
• Model의 관리/공유 기능의 범위
• Platform / ML lifecycle 연계성
기술분야 핵심 기능 대상 기술
Feature Store
• Feature 엔지니어링과의 연계 기능 검증
• On/offline feature 적재 방식 / 지원
protocol
Argo
HPO + Model Selection
HPO
Auto Gloun
Auto Sklearn
Auto-Keras
• 최적의 하이퍼파라미터 제공.
• 데이터에 최적화된 Model Selection
Feast
Hopsworks
16
분산학습에 최적화된 파일 스토리지 기술 (HopsFS)
Metadata layer에서 small file 저장을 위해 NVMe 스토리지 활용
작은 파일 처리 성능 극대화 Multi Availability Zone 지원
• 읽기 성능 4.5 배 향상 • 다중 zone을 지원하여 데이터 복제 가능
• Changed data capture를 활용하여 데이터 복제
17
ML 학습에 필요한 데이터를 빠르게 조회하는 기술 (petastorm)
분석 프레임워크에 따라 별도의 변환없이 빠르게 학습 데이터 접근 및 조회가 가능
분석 환경에 맞게 데이터 변환 필요 Parquet 포맷으로 직접 조회 가능
불필요한 변환 과정 제거
별도 ETL 과정 추가
• Tensorflow, Pytorch에서 활용 가능한
자료구조로 변환해야 모델 학습이 가능함
• 자료 변환에 따른 성능저하 유발
• Tensorflow, Pytorch에서 직접 접근 가능
• 별도 변환없이 빠르게(Columnlar Type)
데이터 조회
18
생성된 Feature 데이터를 재사용하는 기술 (Feature Store)
생성된 Feature를 재사용하여, 별도의 데이터 처리 없이 학습 가능 (학습 시간 단축)
분석가/모델 별로 중복된 Feature 생성 및 저장 필요할 때 Feature 검색 및 재사용
• Feature 처리에 필요한 인프라 비용 절약 (스토리지, 메모리 등)
• 재사용으로 인한 학습시간 단축
• Feature 생성을 위한 자원 및 처리 시간 증가
• 중복된 데이터 저장에 필요한 저장 공간 증가
19
Uber에서는 Feature Store를 어떻게 사용할까?
Uber Eats 배달 시간 예측 시 Feature Store 사용 예시 글로벌 기업의 Feature Store 활용 방식
주문 시
배달 시간 예측 배달 단계별
도착시간 예측
1. 주문접수
2. 요리준비
3. 배달준비
4. 배달출발
예측 단계 Feature Store 활용
• 주문시각, 주문장소
• 준비시간(1주일, 1일, 6시간)
• 요리 유형별 특징
• 담당자 평균 준비시간(1주, 1일,
6시간)
• 담당자 숙련도
• 도로 교통(1주, 1일, 6시간)
• 배달 경로, 주차장 정보
“각 단계별로 배달시간을 예측하여, 고객에게 정확한 도착정보 제공”
Feature Store
Online Feature
최근 10분 평균 준비시간
(요리별, 담당자별)
Offline Feature
지난 3개월 평균 배달 시간
(지역별, 날씨별 등)
실시간 데이터 처리
(Kafka, Spark 등)
대용량 배치 처리
(HDFS, Hive 등)
“고품질의 Feature를 재활용하여 예측모델 성능 향상 및 생산성 향상”
Uber Taxy Uber 추천 Uber Transfortation
Data Scientist
Data Engineer
Feature Store는 다양한 기업 적용 및 오픈소스로 빠르게 진화 중
사전에 처리된 Feature
활용으로
예측 성능 향상
20
다른 Uber 예측모델에서 Feature 재활용
AI 모델을 분산하여 빠르게 학습하는 기술 (Distributed DL)
데이터를 분산해서 처리하는 방법과 모델을 분산해서 처리하는 방식
데이터 분산 vs 모델 분산 방식
학습 데이터를 분산하여 여러 대의 서버에서 처리하고, 결과를 취합
데이터 분산 학습 방식
데이터를 분산하여 각 서버로 전달하고, 학습을 통해 계산된 값들을
교환하여 업데이트 한다.
https://www.bnl.gov/nysds18/files/talks/session3/malik-nysds18.pdf
21
운영환경에 적용되기 위해서는?
운영 환경에 적용할 AI Product는 다양한 요건을 만족해야 한다.
AI Products
Data Processing
Business Logic
Deployment
AI Resource
AI Development based on
Machine Learning
AI Applied at
Manufacturing Operations
Optimization, Availability, Flexibility Optimization, Availability, Flexibility
Latest, Diversity, Performance
Latest, Diversity, Performance 22
AI Product 운영 단계의 주요 기술 및 핵심 요건
AI Model + Biz Logic이 실제 기업의 운영환경에서 가용성/확장성/성능을 유지하며 서비스
2020 SK AI 플랫폼 웨비나
아이디어(AI Model)를 적시에 비즈니스 가치로 전환하고,
이를 운영환경에서 안정적으로 운영하는 것
23
학습된 AI Model을 비즈니스에 빠르게 반영하려면?
데이터의 수집에서 활용까지 단계별 품질 지표/버전 관리와 전체 파이프라인의 자동화가 중요
통합된 모델 배포 환경
• AI Model을 배포/서비스 하기
위해서는 다양한 역량 필요.
• 모델별/조직별로 서로 다른 배
포 시스템을 구성하면, 서비스
운영/관리의 복잡성이 증가
• 기업 전체 관점에서 통합된 모
델 운영 관리가 필요
쉬운 모델 배포 환경 안정적인 AI 서비스 환경
• 분석가 별로 서로 다른 프레임
워크(tensorflow, pytorch
등) 사용으로 배포 구성 어려움
• Biz Logic과 모델을 함께 배포
가능한 구조 필요
• 신규 모델의 점진적 업데이트
지원
• 중지 없는 AI 서비스 제공 및
요청에 따른 자동 확장 필요
• 사용량에 따라 자원을 회수하
여 자원의 효율적 사용
• 비싼 GPU 장비 공유를 통한
모델의 성능 향상
24
AI Model을 서비스에 최적화된 서빙 플랫폼 필요
모델별로 배포 및 운영을 하게 되면서, 시스템의 복잡성 및 운영 관리의 어려움
Platfor
m
I
H
G
F
E
D
C
B
A
…
I
H
G
F
E
D
C
B
A
…
AI
Products
Data Processing
Business Logic
Inference
AI Resource
AI Platform Characteristics
I
H
G
F
E
D
C
B
A
AI Serving Platform
25
검증된 AI 모델을 적시에 비즈니스에 적용하기 위한 기술
Deploy / Serving
• Serving 인스턴스 리소스 관리 방식 및 효율성
• Serving 관련 기능 범위(관리/로깅 등)
Kubeflow Fairing KFServing
Tensorflow
Serving
Pytorch
Serving
Clipper
Model Exchange
• Platform 연계성 검증
• 다양한 분석 Framework의 모델간 호환성
기술분야 핵심 기능 관련 기술
모델 경량화
• 모델 Inference graph 최적화
• 학습된 모델의 데이터 타입 최적화 (float 16, int 등)
26
학습된 모델의 추론 성능 최적화 기술 (TensorRT)
운영단계에서는 모델의 추론 성능과 자원의 효율적인 활용이 더욱 중요하다
모델 최적화를 통한 추론 성능 향상 추론 성능 비교
• 약 40배의 성능 향상 효과
• 모델 학습단계에서 필요한 layer들 중에서 정확도(성능)에 영향이 낮은
layer들을 제거하여 모델 graph를 최적화
27
GPU 공유를 통한 자원 활용 최적화 기술
다수의 모델이 GPU를 공유할 수 있도록 하여 GPU 활용 증가 및 투자비용 감소
모델 별 GPU가 종속
• 각 모델별로 GPU가 할당되어, GPU의 활용도 저하
• 사용하지 않는 모델의 GPU 활용 불가
다수의 모델이 GPU를 공유하는 방식
• 모든 모델이 필요할 때 GPU를 최대한 많이 활용 가능
28
모든 모델이 GPU를 공유하게 되면?
특정 모델의 GPU만 활용
(나머지는 활용 낮음)
GPU 부하가 균등하게 배분
(처리량 3배 이상 증가)
29
2020 Data & AI Landscape
AI를 지원하는 기술들이 진화하면서, 2019년부터 기술 영역이 세분화 되기 시작함
AI OPS 기술 영역은 빠른 속도로
확장 될 것으로 예상됨
2018
2020
30
질의 응답
31

More Related Content

Similar to The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)

Backend.AI: 오픈소스 머신러닝 인프라 프레임워크
Backend.AI: 오픈소스 머신러닝 인프라 프레임워크Backend.AI: 오픈소스 머신러닝 인프라 프레임워크
Backend.AI: 오픈소스 머신러닝 인프라 프레임워크
Jeongkyu Shin
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
Gruter
 
Aws migration case_study_v1.0.1
Aws migration case_study_v1.0.1Aws migration case_study_v1.0.1
Aws migration case_study_v1.0.1
NDSCorporation
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Amazon Web Services Korea
 
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018 제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018 Amazon Web Services Korea
 
Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기
Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기
Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기
Gyuwon Yi
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
ABRC_DATA
 
Open standard open cloud engine (3)
Open standard open cloud engine (3)Open standard open cloud engine (3)
Open standard open cloud engine (3)uEngine Solutions
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
Sang Don Kim
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
hoondong kim
 
[오픈소스컨설팅]이기종 WAS 클러스터링 솔루션- Athena Dolly
[오픈소스컨설팅]이기종 WAS 클러스터링 솔루션- Athena Dolly[오픈소스컨설팅]이기종 WAS 클러스터링 솔루션- Athena Dolly
[오픈소스컨설팅]이기종 WAS 클러스터링 솔루션- Athena Dolly
Ji-Woong Choi
 
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
Amazon Web Services Korea
 
Private PaaS with Docker, spring cloud and mesos
Private PaaS with Docker, spring cloud and mesos Private PaaS with Docker, spring cloud and mesos
Private PaaS with Docker, spring cloud and mesos
uEngine Solutions
 
OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oceuEngine Solutions
 
Open standard open cloud engine for digital business process
Open standard open cloud engine for digital business process Open standard open cloud engine for digital business process
Open standard open cloud engine for digital business process uEngine Solutions
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
Amazon Web Services Korea
 
AWS와 함께 하는 클라우드 비즈니스 (임성은 매니저, AWS) :: AWS TechShift 2018
AWS와 함께 하는 클라우드 비즈니스 (임성은 매니저, AWS) :: AWS TechShift 2018AWS와 함께 하는 클라우드 비즈니스 (임성은 매니저, AWS) :: AWS TechShift 2018
AWS와 함께 하는 클라우드 비즈니스 (임성은 매니저, AWS) :: AWS TechShift 2018
Amazon Web Services Korea
 
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
문기 박
 
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
Amazon Web Services Korea
 
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
Terry Cho
 

Similar to The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술) (20)

Backend.AI: 오픈소스 머신러닝 인프라 프레임워크
Backend.AI: 오픈소스 머신러닝 인프라 프레임워크Backend.AI: 오픈소스 머신러닝 인프라 프레임워크
Backend.AI: 오픈소스 머신러닝 인프라 프레임워크
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
Aws migration case_study_v1.0.1
Aws migration case_study_v1.0.1Aws migration case_study_v1.0.1
Aws migration case_study_v1.0.1
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018 제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
 
Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기
Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기
Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
 
Open standard open cloud engine (3)
Open standard open cloud engine (3)Open standard open cloud engine (3)
Open standard open cloud engine (3)
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
[오픈소스컨설팅]이기종 WAS 클러스터링 솔루션- Athena Dolly
[오픈소스컨설팅]이기종 WAS 클러스터링 솔루션- Athena Dolly[오픈소스컨설팅]이기종 WAS 클러스터링 솔루션- Athena Dolly
[오픈소스컨설팅]이기종 WAS 클러스터링 솔루션- Athena Dolly
 
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
 
Private PaaS with Docker, spring cloud and mesos
Private PaaS with Docker, spring cloud and mesos Private PaaS with Docker, spring cloud and mesos
Private PaaS with Docker, spring cloud and mesos
 
OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oce
 
Open standard open cloud engine for digital business process
Open standard open cloud engine for digital business process Open standard open cloud engine for digital business process
Open standard open cloud engine for digital business process
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
 
AWS와 함께 하는 클라우드 비즈니스 (임성은 매니저, AWS) :: AWS TechShift 2018
AWS와 함께 하는 클라우드 비즈니스 (임성은 매니저, AWS) :: AWS TechShift 2018AWS와 함께 하는 클라우드 비즈니스 (임성은 매니저, AWS) :: AWS TechShift 2018
AWS와 함께 하는 클라우드 비즈니스 (임성은 매니저, AWS) :: AWS TechShift 2018
 
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
 
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
클라우드 마이그레이션을 통한 비지니스 성공 사례- AWS Summit Seoul 2017
 
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
 

More from SANG WON PARK

Cloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflakeCloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflake
SANG WON PARK
 
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
SANG WON PARK
 
AWS EMR Cost optimization
AWS EMR Cost optimizationAWS EMR Cost optimization
AWS EMR Cost optimization
SANG WON PARK
 
Understanding of Apache kafka metrics for monitoring
Understanding of Apache kafka metrics for monitoring Understanding of Apache kafka metrics for monitoring
Understanding of Apache kafka metrics for monitoring
SANG WON PARK
 
Apache kafka performance(latency)_benchmark_v0.3
Apache kafka performance(latency)_benchmark_v0.3Apache kafka performance(latency)_benchmark_v0.3
Apache kafka performance(latency)_benchmark_v0.3
SANG WON PARK
 
Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트
SANG WON PARK
 
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
SANG WON PARK
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
SANG WON PARK
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리
SANG WON PARK
 
Apache kafka performance(throughput) - without data loss and guaranteeing dat...
Apache kafka performance(throughput) - without data loss and guaranteeing dat...Apache kafka performance(throughput) - without data loss and guaranteeing dat...
Apache kafka performance(throughput) - without data loss and guaranteeing dat...
SANG WON PARK
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리
SANG WON PARK
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)
SANG WON PARK
 
코드로 이해하는 Back_propagation(cs231n)
코드로 이해하는 Back_propagation(cs231n)코드로 이해하는 Back_propagation(cs231n)
코드로 이해하는 Back_propagation(cs231n)
SANG WON PARK
 
Rancher Simple User Guide
Rancher Simple User GuideRancher Simple User Guide
Rancher Simple User Guide
SANG WON PARK
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
SANG WON PARK
 
Reinforcement learning v0.5
Reinforcement learning v0.5Reinforcement learning v0.5
Reinforcement learning v0.5
SANG WON PARK
 
Code로 이해하는 RNN
Code로 이해하는 RNNCode로 이해하는 RNN
Code로 이해하는 RNN
SANG WON PARK
 
Hadoop eco story 이해
Hadoop eco story 이해Hadoop eco story 이해
Hadoop eco story 이해
SANG WON PARK
 

More from SANG WON PARK (18)

Cloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflakeCloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflake
 
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
 
AWS EMR Cost optimization
AWS EMR Cost optimizationAWS EMR Cost optimization
AWS EMR Cost optimization
 
Understanding of Apache kafka metrics for monitoring
Understanding of Apache kafka metrics for monitoring Understanding of Apache kafka metrics for monitoring
Understanding of Apache kafka metrics for monitoring
 
Apache kafka performance(latency)_benchmark_v0.3
Apache kafka performance(latency)_benchmark_v0.3Apache kafka performance(latency)_benchmark_v0.3
Apache kafka performance(latency)_benchmark_v0.3
 
Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트
 
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리
 
Apache kafka performance(throughput) - without data loss and guaranteeing dat...
Apache kafka performance(throughput) - without data loss and guaranteeing dat...Apache kafka performance(throughput) - without data loss and guaranteeing dat...
Apache kafka performance(throughput) - without data loss and guaranteeing dat...
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)
 
코드로 이해하는 Back_propagation(cs231n)
코드로 이해하는 Back_propagation(cs231n)코드로 이해하는 Back_propagation(cs231n)
코드로 이해하는 Back_propagation(cs231n)
 
Rancher Simple User Guide
Rancher Simple User GuideRancher Simple User Guide
Rancher Simple User Guide
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
Reinforcement learning v0.5
Reinforcement learning v0.5Reinforcement learning v0.5
Reinforcement learning v0.5
 
Code로 이해하는 RNN
Code로 이해하는 RNNCode로 이해하는 RNN
Code로 이해하는 RNN
 
Hadoop eco story 이해
Hadoop eco story 이해Hadoop eco story 이해
Hadoop eco story 이해
 

The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)

  • 1. 기업의 AI 기반 혁신을 지원하는 데이터 기술 소개 (The data tech for ai based innovation) 2020.11 freepsw 1
  • 2. 기업의 AI 기반 혁신? Problems Biz Value AI Innovation 다양한 Idea를 빠르게 검증하고 적시에 비즈니스에 반영하여 기업의 경쟁력 확보 AI 활용하여 다양한 Idea 검증 2
  • 3. 혁신적인 Idea를 비즈니스 가치로 전환 하려면? 수많은 혁신적인 실험을 시도하며, 최적화를 통해 기업의 가치를 혁신적으로 향상 더 많은 혁신 아이디어가 기업의 비즈니스에 적용 검증된 아이디어를 비즈니스에 빠르게 반영 • Value Pipeline은 AI Model을 통해서 비즈니스 가치를 생성하는 영역 • Innovation Pipeline은 새로운 아이디어를 다양한 ml model로 설계/개발/테스트하는 영역 3
  • 4. 더 많은 아이디어를 빠르게 검증한다는 것은? 좋은 제품은 수 많은 실험적 아이디어 중에서 도출되며, 이러한 반복적인 실험을 효율적으로 빠르게 할 수 있는 환경이 중요 2019 AI Conference (Facebook) 4
  • 5. 누구나 AI 기반 혁신을 원하지만… 기업의 AI 도입의 현실적인 고민들은 너무나 많다. (여기서는 기술에 초점) 고 품질의 데이터 제공 (적시에 필요한 데이터 제공이 어려움) 학습 속도 제약 (더 많은 아이디어 검증 어려움) 모델 공유/협업 문제 (수많은 모델의 중복투자 및 재사용 어려움) 모델을 운영 환경에 배포 (배포 성능 및 안정성, 설명력) AI 기반 혁신을 위해서는 기업의 문화, 조직, 프로세스, 기술 등의 전반적인 변화가 필요 5
  • 6. AI Pipeline을 기준으로 각 단계를 보면 고품질의 신뢰할 수 있는 데이터가 적시에 확보 되어야, AI 기반의 비즈니스 혁신이 가능함 Prepare Data Train AI Model Monitor AI Model Deploy AI Model Manage AI Model Collect Data 분석에 필요한 고품질의 데이터를 적시에 제공하기 위한 기술 필요 (Data Engineer/Data Analyst) 대량의 데이터를 빠르게 학습 가능한 인프라/알고리즘 필요 (Data Scientist) 실제 비즈니스에 적시에 배포 및 안정적 운영 필요 (AI/ML Engineer) 6
  • 7. Data 준비 단계의 주요 기술 및 핵심 요건 데이터의 품질이 보장되지 않거나, 너무 늦게 제공된다면 비즈니스에 미치는 영향도 감소 2020 SK AI 플랫폼 웨비나 데이터의 품질을 유지하면서, 적시에 필요한 데이터를 제공하는 것 7
  • 8. 데이터를 적시에 고품질로 제공하려면? 데이터의 수집에서 활용까지 단계별 품질 지표/버전 관리와 전체 파이프라인의 자동화가 중요 통합 데이터 관리 • 조직/부서별 목적에 따라 Data Silo 발생 • 데이터 통합 관리로 원하는 데이터를 쉽게 찾도록 구성 (Data Catalog 등) 데이터 오류 관리 자동화된 Data Pipeline • 모든 데이터는 잠재적 오류 포함 (Null, 값 중복, 값 오류) • 이는 AI 알고리즘에 오류를 유발 가능 (추적도 어려움) • 단계별 오류 보정(ML 활용) 및 추적관리 • 하나의 데이터를 생성하기 위해 수 많은 작업들이 연결 (수 많은 담당자들의 수작업) • 다양한 데이터 수요를 적시에 제공하기 위한 자동화된 Data Pipeline 구성 필요 8
  • 9. 고품질의 데이터 제공을 위한 핵심 기술들 (1/2) 데이터 수집 • 수집 Interface 다양성 • Availability, Fault tolerance • Cloud Infra Platform을 고려한 구성 테스트 기술분야 핵심 기능 관련 기술 데이터 처리 ( Batch ) • 지원 API의 다양성 ( Python, Java, Scala) • 데이터 처리 성능 • Cloud Infra Platform 을 고려한 구성 테스트 데이터 처리 ( Real-time ) • 지원 API 다양성 ( Python, Java, Scala) • Batch 및 Sliding Window 지원 • 실시간 Query 지원 • Cloud Infra Platform을 고려한 구성 테스트 Object Storage • 데이터 읽기 및 저장 속도 • 데이터 관리 편이성 • Cloud Infra Platform을 고려한 구성 테스트 9
  • 10. 고품질의 데이터 제공을 위한 핵심 기술들 (2/2) ACID Platform • Inset, Update, Delete 성능 • 스키마로 고품질의 데이터 제공 가능 기술분야 핵심 기능 관련 기술 Data Orchestration (Zero-Copy) • 분산된 데이터에 대하여 하나의 논리적인 파일 접근 제공 • 메모리 기반 분산 파일 시스템 지원 Data Pipeline • 다양한 Data Pipeline 구성 • 다양한 실행 Job 및 스케줄 관리 10
  • 11. 학습에 필요한 데이터를 빠르게 처리하는 기술 (RAPIDS) 데이터 처리 시 CPU를 활용하는 영역에 GPU를 적용하여 데이터 처리 성능 향상 GPU 가속 Data Pipeline 구성 ETL 처리 속도/비용 향상 https://nvidia.github.io/spark-rapids/ Feature 처리 영역에 성능 개선 11
  • 12. 분산된 데이터를 통합하여 빠르게 조회하는 기술 (Alluxio) 다양한 데이터 소스를 하나의 논리적인 스토리지로 연결을 제공하는 메모리 기반 분산 파일시스템 다양한 데이터 소스와 데이터 처리 기술을 연결 • 데이터 소스가 많아질 수록 데이터 연결로 인한 복잡성을 단순화 • 메모리 기반 분산 파일 시스템을 통해 데이터 처리 성능 향상 처리 성능 개선 • AWS EMR의 Presto에서 Alluxio를 적용한 경우 최대 4배의 성능 향상 (메모리 캐시 활용) https://www.slideshare.net/Alluxio/presto-on-alluxio-hnadson-lab 12
  • 13. AI Model 학습 단계의 주요 기술 및 핵심 요건 다양한 Biz 아이디어를 빠르게 검증하여, 더 좋은 AI Model로 발전하기 위한 환경 필요 2020 SK AI 플랫폼 웨비나 다양한 분석 환경을 빠르게 제공하고, 학습 성능 개선에 필요한 기술 지원하는 것. 즉, 더 많은 실험이 반복 될 수 있는 환경 13
  • 14. AI Model 학습 성능을 제약하는 요소들 모델 학습 시간에 영향을 미치는 요소들을 파악하고, 이를 해결하기 위한 기술 도입 모델의 복잡성 증가 하드웨어 성능의 한계 • 학습할 파라미터 수가 엄청나게 증가함. • Layer가 깊어질 수록 학습 시간도 증가 • 이미지/영상 데이터 학습 시 Disk I/O 부하 • 학습을 위한 데이터 송/수신으로 Network 부하 • 빠른 연산을 위하 GPU 장비 부족 (비싼 장비 도입 이슈) 14
  • 15. AI Model 학습 성능을 향상하려면? 학습할 데이터 처리 시간을 단축하고, 데이터를 분산 및 병렬로 학습하여 성능을 향상한다. 학습 데이터 조회 성능 개선 • 대량의 AI 데이터 학습에 최적화된 파일 시스템 적용 (기존 HDFS는 작은 사이즈 조회에 비효율적) • 분석 Framework에 최적화된 데이터 포맷 활용 (Tensorflow 등의 자료구조 지원) Feature Store 재활용 분산 학습 아키텍처 도입 • 분석가는 자신의 AI Model에 필요한 Feature를 수작업으로 생성 (Computing, Storage 자원 부하 유발) • 학습을 위해 생성된 Feature를 다른 AI Mode에서 재사용 가능하도록 제공 • 모델의 학습시간 단축 • 모델이 복잡해지고, 학습 파라미터가 급증. • AI Model 학습을 분산하여 학습 성능 및 속도 향상 • 데이터 분산 학습과 모델 분산 학습 방법 제공 15
  • 16. AI Model 학습의 효율성을 높여주는 기술들 다양한 시도의 AI Model을 효율적으로 실행/공유하고, 자동화 모델 Train at Scale • 분산 학습 환경 제공 • Training 리소스 활용 효율 / 관리 용이성 Auto ML horovod Tensorflow Pipeline • ML Lifecycle 지원 • 모델 학습의 전 과정을 자동화된 Pipeline 제공 Kubeflow Pipeline Tensorflow Extended Model / Data Management Arrikto ROK / ROK Registry Kubeflow Metadata • Model의 관리/공유 기능의 범위 • Platform / ML lifecycle 연계성 기술분야 핵심 기능 대상 기술 Feature Store • Feature 엔지니어링과의 연계 기능 검증 • On/offline feature 적재 방식 / 지원 protocol Argo HPO + Model Selection HPO Auto Gloun Auto Sklearn Auto-Keras • 최적의 하이퍼파라미터 제공. • 데이터에 최적화된 Model Selection Feast Hopsworks 16
  • 17. 분산학습에 최적화된 파일 스토리지 기술 (HopsFS) Metadata layer에서 small file 저장을 위해 NVMe 스토리지 활용 작은 파일 처리 성능 극대화 Multi Availability Zone 지원 • 읽기 성능 4.5 배 향상 • 다중 zone을 지원하여 데이터 복제 가능 • Changed data capture를 활용하여 데이터 복제 17
  • 18. ML 학습에 필요한 데이터를 빠르게 조회하는 기술 (petastorm) 분석 프레임워크에 따라 별도의 변환없이 빠르게 학습 데이터 접근 및 조회가 가능 분석 환경에 맞게 데이터 변환 필요 Parquet 포맷으로 직접 조회 가능 불필요한 변환 과정 제거 별도 ETL 과정 추가 • Tensorflow, Pytorch에서 활용 가능한 자료구조로 변환해야 모델 학습이 가능함 • 자료 변환에 따른 성능저하 유발 • Tensorflow, Pytorch에서 직접 접근 가능 • 별도 변환없이 빠르게(Columnlar Type) 데이터 조회 18
  • 19. 생성된 Feature 데이터를 재사용하는 기술 (Feature Store) 생성된 Feature를 재사용하여, 별도의 데이터 처리 없이 학습 가능 (학습 시간 단축) 분석가/모델 별로 중복된 Feature 생성 및 저장 필요할 때 Feature 검색 및 재사용 • Feature 처리에 필요한 인프라 비용 절약 (스토리지, 메모리 등) • 재사용으로 인한 학습시간 단축 • Feature 생성을 위한 자원 및 처리 시간 증가 • 중복된 데이터 저장에 필요한 저장 공간 증가 19
  • 20. Uber에서는 Feature Store를 어떻게 사용할까? Uber Eats 배달 시간 예측 시 Feature Store 사용 예시 글로벌 기업의 Feature Store 활용 방식 주문 시 배달 시간 예측 배달 단계별 도착시간 예측 1. 주문접수 2. 요리준비 3. 배달준비 4. 배달출발 예측 단계 Feature Store 활용 • 주문시각, 주문장소 • 준비시간(1주일, 1일, 6시간) • 요리 유형별 특징 • 담당자 평균 준비시간(1주, 1일, 6시간) • 담당자 숙련도 • 도로 교통(1주, 1일, 6시간) • 배달 경로, 주차장 정보 “각 단계별로 배달시간을 예측하여, 고객에게 정확한 도착정보 제공” Feature Store Online Feature 최근 10분 평균 준비시간 (요리별, 담당자별) Offline Feature 지난 3개월 평균 배달 시간 (지역별, 날씨별 등) 실시간 데이터 처리 (Kafka, Spark 등) 대용량 배치 처리 (HDFS, Hive 등) “고품질의 Feature를 재활용하여 예측모델 성능 향상 및 생산성 향상” Uber Taxy Uber 추천 Uber Transfortation Data Scientist Data Engineer Feature Store는 다양한 기업 적용 및 오픈소스로 빠르게 진화 중 사전에 처리된 Feature 활용으로 예측 성능 향상 20 다른 Uber 예측모델에서 Feature 재활용
  • 21. AI 모델을 분산하여 빠르게 학습하는 기술 (Distributed DL) 데이터를 분산해서 처리하는 방법과 모델을 분산해서 처리하는 방식 데이터 분산 vs 모델 분산 방식 학습 데이터를 분산하여 여러 대의 서버에서 처리하고, 결과를 취합 데이터 분산 학습 방식 데이터를 분산하여 각 서버로 전달하고, 학습을 통해 계산된 값들을 교환하여 업데이트 한다. https://www.bnl.gov/nysds18/files/talks/session3/malik-nysds18.pdf 21
  • 22. 운영환경에 적용되기 위해서는? 운영 환경에 적용할 AI Product는 다양한 요건을 만족해야 한다. AI Products Data Processing Business Logic Deployment AI Resource AI Development based on Machine Learning AI Applied at Manufacturing Operations Optimization, Availability, Flexibility Optimization, Availability, Flexibility Latest, Diversity, Performance Latest, Diversity, Performance 22
  • 23. AI Product 운영 단계의 주요 기술 및 핵심 요건 AI Model + Biz Logic이 실제 기업의 운영환경에서 가용성/확장성/성능을 유지하며 서비스 2020 SK AI 플랫폼 웨비나 아이디어(AI Model)를 적시에 비즈니스 가치로 전환하고, 이를 운영환경에서 안정적으로 운영하는 것 23
  • 24. 학습된 AI Model을 비즈니스에 빠르게 반영하려면? 데이터의 수집에서 활용까지 단계별 품질 지표/버전 관리와 전체 파이프라인의 자동화가 중요 통합된 모델 배포 환경 • AI Model을 배포/서비스 하기 위해서는 다양한 역량 필요. • 모델별/조직별로 서로 다른 배 포 시스템을 구성하면, 서비스 운영/관리의 복잡성이 증가 • 기업 전체 관점에서 통합된 모 델 운영 관리가 필요 쉬운 모델 배포 환경 안정적인 AI 서비스 환경 • 분석가 별로 서로 다른 프레임 워크(tensorflow, pytorch 등) 사용으로 배포 구성 어려움 • Biz Logic과 모델을 함께 배포 가능한 구조 필요 • 신규 모델의 점진적 업데이트 지원 • 중지 없는 AI 서비스 제공 및 요청에 따른 자동 확장 필요 • 사용량에 따라 자원을 회수하 여 자원의 효율적 사용 • 비싼 GPU 장비 공유를 통한 모델의 성능 향상 24
  • 25. AI Model을 서비스에 최적화된 서빙 플랫폼 필요 모델별로 배포 및 운영을 하게 되면서, 시스템의 복잡성 및 운영 관리의 어려움 Platfor m I H G F E D C B A … I H G F E D C B A … AI Products Data Processing Business Logic Inference AI Resource AI Platform Characteristics I H G F E D C B A AI Serving Platform 25
  • 26. 검증된 AI 모델을 적시에 비즈니스에 적용하기 위한 기술 Deploy / Serving • Serving 인스턴스 리소스 관리 방식 및 효율성 • Serving 관련 기능 범위(관리/로깅 등) Kubeflow Fairing KFServing Tensorflow Serving Pytorch Serving Clipper Model Exchange • Platform 연계성 검증 • 다양한 분석 Framework의 모델간 호환성 기술분야 핵심 기능 관련 기술 모델 경량화 • 모델 Inference graph 최적화 • 학습된 모델의 데이터 타입 최적화 (float 16, int 등) 26
  • 27. 학습된 모델의 추론 성능 최적화 기술 (TensorRT) 운영단계에서는 모델의 추론 성능과 자원의 효율적인 활용이 더욱 중요하다 모델 최적화를 통한 추론 성능 향상 추론 성능 비교 • 약 40배의 성능 향상 효과 • 모델 학습단계에서 필요한 layer들 중에서 정확도(성능)에 영향이 낮은 layer들을 제거하여 모델 graph를 최적화 27
  • 28. GPU 공유를 통한 자원 활용 최적화 기술 다수의 모델이 GPU를 공유할 수 있도록 하여 GPU 활용 증가 및 투자비용 감소 모델 별 GPU가 종속 • 각 모델별로 GPU가 할당되어, GPU의 활용도 저하 • 사용하지 않는 모델의 GPU 활용 불가 다수의 모델이 GPU를 공유하는 방식 • 모든 모델이 필요할 때 GPU를 최대한 많이 활용 가능 28
  • 29. 모든 모델이 GPU를 공유하게 되면? 특정 모델의 GPU만 활용 (나머지는 활용 낮음) GPU 부하가 균등하게 배분 (처리량 3배 이상 증가) 29
  • 30. 2020 Data & AI Landscape AI를 지원하는 기술들이 진화하면서, 2019년부터 기술 영역이 세분화 되기 시작함 AI OPS 기술 영역은 빠른 속도로 확장 될 것으로 예상됨 2018 2020 30