올해 처음 오프라인으로 진행된 "한국 데이터 엔니지어 모임"에서 발표한 cloud dw와 snowflake라는 주제로 발표한 내용을 정리하여 공유함. (2022.07)
[ 발표 주제 ]
Cloud DW 기술 트렌드와 Snowflake 적용
- Modern Data Stack에서 Cloud DW의 역할
- 기존 Data Lake + DW와 무엇이 다른가?
- Data Engineer 관점에서 어떻게 사용하면 좋을까? (기능/성능/비용 측면의 장점/단점)
[ 주요 내용 ]
- 최근 많은 Data Engineer가 기존 기술 스택(Hadoop, Spark, DW 등)의 기술적/운영적 한계를 극복하기 위한 고민중.
- 특히 Cloud의 장점과 운영 및 성능을 고려한 Cloud DW(AWS Redshift, GCP BigQuery, DataBricks, Snowflake)를 고려
- 이 중 Snowflake를 실제 프로젝트에 적용한 경험과 기술적인 특징/장점/단점을 공유하고자 함.
작년부터 정부의 데이터 정책 변화와 Cloud 기반의 기술 변화 가속화로 기업의 데이터 환경에도 많은 변화가 발생하고 있고, 기업들은 이에 적응하기 위한 다양한 시도를 하고 있다.
그 중심에 cloud dw (또는 Lake house)가 위치하고 있으며, 이를 기반으로 통합 데이터 플랫폼으로의 아키텍처로 변화하고 있다. 하지만, 아직까지 기존 DW 제품과 주요 CSP(AWS, GCP, Azure)의 제품군을 다양하게 시도하고 있으나, 기대와 다르게 생각보나 낮은 성능 또는 비싼 사용료, 운영의 복잡성으로 인한 많은 시행착오를 거치고 있다.
이 상황에서 작년에 처음 검토한 snowflake의 다양한 기능들이 기업들의 고민과 문제를 상당부분 손쉽게 해결할 수 있다는 것을 확인할 수 있었고, 이를 이용하여 실제 많은 기업들에게 적용하기 위한 POC를 수행하거나, 실제 적용하는 프로젝트를 수행하게 되었다.
본 발표 내용은 이러한 경험을 기반으로 기업(그리고 실제 업무를 수행할 Data Engineer) 관점에서 snowflake가 어떻게 문제를 해결할 수 있는지 cloud dw를 도입/활용/확장 하는 단계별로 문제와 해결 방안을 중심으로 설명하였다.
https://blog.naver.com/freepsw?Redirect=Update&logNo=222815591918
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )SANG WON PARK
몇년 전부터 Data Architecture의 변화가 빠르게 진행되고 있고,
그 중 Cloud DW는 기존 Data Lake(Hadoop 기반)의 한계(성능, 비용, 운영 등)에 대한 대안으로 주목받으며,
많은 기업들이 이미 도입했거나, 도입을 검토하고 있다.
본 자료는 이러한 Cloud DW에 대해서 개념적으로 이해하고,
시장에 존재하는 다양한 Cloud DW 중에서 기업의 환경에 맞는 제품이 어떤 것인지 성능/비용 관점으로 비교했다.
- 왜기업들은 CloudDW에주목하는가?
- 시장에는어떤 제품들이 있는가?
- 우리Biz환경에서는 어떤 제품을 도입해야 하는가?
- CloudDW솔루션의 성능은?
- 기존DataLake(EMR)대비 성능은?
- 유사CloudDW(snowflake vs redshift) 대비성능은?
앞으로도 Data를 둘러싼 시장은 Cloud DW를 기반으로 ELT, Mata Mesh, Reverse ETL등 새로운 생테계가 급속하게 발전할 것이고,
이를 위한 데이터 엔지니어/데이터 아키텍트 관점의 기술적 검토와 고민이 필요할 것 같다.
https://blog.naver.com/freepsw/222654809552
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS 관리 콘솔에서 클릭 몇 번으로 ETL 작업을 생성하고 실행할 수 있습니다. 빅데이터 분석 시 다양한 데이터 소스에 대한 전처리 작업을 할 때, 별도의 데이터 처리용 서버나 인프라를 관리할 필요가 없습니다. 본 세션에서는 지난 5월 서울 리전에 출시한 Glue 서비스에 대한 자세한 소개와 함께 다양한 활용 팁을 데모와 함께 소개해 드립니다.
클라우드의 전개 유형별 특징을 살펴보고 클라우드로 전환하기 위해 고려해야 할 사항과 실제 사례를 공유합니다.
목차
1. 클라우드 세상
2. 클라우드 유형
3. 클라우드 도입 전략
4. 고객 사례
5. 요약
대상
- 클라우드에 관심이 있는 분
- 클라우드 전환을 고려하시는 분
- 잠깐 휴식을 취하고 싶은 개발자
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )SANG WON PARK
몇년 전부터 Data Architecture의 변화가 빠르게 진행되고 있고,
그 중 Cloud DW는 기존 Data Lake(Hadoop 기반)의 한계(성능, 비용, 운영 등)에 대한 대안으로 주목받으며,
많은 기업들이 이미 도입했거나, 도입을 검토하고 있다.
본 자료는 이러한 Cloud DW에 대해서 개념적으로 이해하고,
시장에 존재하는 다양한 Cloud DW 중에서 기업의 환경에 맞는 제품이 어떤 것인지 성능/비용 관점으로 비교했다.
- 왜기업들은 CloudDW에주목하는가?
- 시장에는어떤 제품들이 있는가?
- 우리Biz환경에서는 어떤 제품을 도입해야 하는가?
- CloudDW솔루션의 성능은?
- 기존DataLake(EMR)대비 성능은?
- 유사CloudDW(snowflake vs redshift) 대비성능은?
앞으로도 Data를 둘러싼 시장은 Cloud DW를 기반으로 ELT, Mata Mesh, Reverse ETL등 새로운 생테계가 급속하게 발전할 것이고,
이를 위한 데이터 엔지니어/데이터 아키텍트 관점의 기술적 검토와 고민이 필요할 것 같다.
https://blog.naver.com/freepsw/222654809552
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS 관리 콘솔에서 클릭 몇 번으로 ETL 작업을 생성하고 실행할 수 있습니다. 빅데이터 분석 시 다양한 데이터 소스에 대한 전처리 작업을 할 때, 별도의 데이터 처리용 서버나 인프라를 관리할 필요가 없습니다. 본 세션에서는 지난 5월 서울 리전에 출시한 Glue 서비스에 대한 자세한 소개와 함께 다양한 활용 팁을 데모와 함께 소개해 드립니다.
클라우드의 전개 유형별 특징을 살펴보고 클라우드로 전환하기 위해 고려해야 할 사항과 실제 사례를 공유합니다.
목차
1. 클라우드 세상
2. 클라우드 유형
3. 클라우드 도입 전략
4. 고객 사례
5. 요약
대상
- 클라우드에 관심이 있는 분
- 클라우드 전환을 고려하시는 분
- 잠깐 휴식을 취하고 싶은 개발자
데이터를 둘러싼 정책과, 기업과 기술의 진화는 빠르게 변화하고 있으며, 모든 지향점은 기업들이 다양한 데이터를 활용하여 경쟁력을 확보하고 이를 통해 AI기반의 혁신을 하고자 하는데 있다.
이 과정에서 수 많은 기업의 업무 전무가, 데이터 사이언티스트 등이 다양한 기업의 혁신을 지원할 수 있는 AI 모델을 검증하는 과정을 거치게 됩니다.
하지만, 이렇게 수 많은 AI 모델이 실제 비즈니스에 적용되기 위해서는 인프라, 및 서비스 관점의 기술이 반드시 필요하게 됩니다.
MLOps는 기업에 필요한 혁신적인 아이디어(AI Model)을 적시에 비즈니스 환경에 적용할 수 있도록 지원하는 기술 및 트렌드 입니다.
주요 내용은
- 데이터를 둘러싼 환경의 변화
- 기업의 AI Model 적용시 마주하는 현실
- MLOps가 해결 가능한 문제들
- MLOps의 영역별 주요 기술들
- MLOps 도입 시 기업의 AI 환경은 어떻게 변할까?
- AI 모델을 비즈니스 환경에 적용(배포)한다는 것은?
2021년 12월 코리아 데이터 비즈니스 트렌드(데이터산업진흥원 주최)에서 발표한 내용을 공유 가능한 부분만 정리함.
발표 영상 참고 : https://www.youtube.com/watch?v=lL-QtEzJ3WY
AWS EMR을 사용하면서 비용을 최적화하기 위해 필요한 다양한 관점의 방안을 검토하여 정리한 자료.
비용 최적화 대상은 zeppelin/jupyter notebook과 apache spark를 활용하는 서비스를 대상으로 하였으며, 해당 작업이 aws emr에서 어떻게 동작하는지 내부 구조을 파악하여 확인함.
- AWS EMR이란?
- AWS EMR의 과금 방식은?
- 어떻게 비용을 최적화 할 것인가?
- 최적의 EMR 클러스터 구성 방안
- 가성비 높은 Instance 선정 방안
- Apache Spark 성능 개선 방안
가장 중요한 것은 실행할 job의 자원사용량/성능을 모니터링하고, 이에 맞게 자원을 최적화하는 것이 필요함.
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...Amazon Web Services Korea
AWS re:Invent에서는 다양한 고객들의 요구에 맞추어 새로운 분석 및 서버리스 서비스가 대거 출시되었습니다. 본 강연에서는 새롭게 출시된 핵심 분석 기능들과 함께, 누구나 손쉽게 사용할 수 있는 AWS의 분석 서버리스와 On-demand 기능들에 대한 심층적인 정보를 확인하실 수 있습니다.
Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다
궁금한 것은 언제나 문의주세요 :)
행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다!
(2018.5 내용 추가) 현재 회사가 없으니, 제게 관심있으신 분들도 연락 환영합니다 :)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유Hyojun Jeon
NDC18에서 발표하였습니다. 현재 보고 계신 슬라이드는 1부 입니다.(총 2부)
- 1부 링크: https://goo.gl/3v4DAa
- 2부 링크: https://goo.gl/wpoZpY
(SlideShare에 슬라이드 300장 제한으로 2부로 나누어 올렸습니다. 불편하시더라도 양해 부탁드립니다.)
대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...Amazon Web Services Korea
빅데이터 분석을 위해 온프레미스 환경에서 대규모 하둡 클러스터를 운영하고 있는 고객은 매우 많습니다. 하지만 고객은 최근 관리 및 운영, 비용 등 다양한 어려움을 겪고 있으며, 이를 극복하기 위한 클라우드 전환을 적극적으로 검토하고 있습니다. 온프레미스 하둡을 클라우드 기반으로 마이그레이션 하기 위해 세워야 할 전략과 고려사항, 최적화를 위한 다양한 기법과 비용/성능 최적의 클러스터 구성 방안, 더 나아가서 TCO를 최적화하기 위한 구체적인 방안을 본 세션을 통해 소개드립니다.
Apache kafka performance(latency)_benchmark_v0.3SANG WON PARK
Apache Kafka를 이용하여 이미지 데이터를 얼마나 빠르게(with low latency) 전달 가능한지 성능 테스트.
최종 목적은 AI(ML/DL) 모델의 입력으로 대량의 실시간 영상/이미지 데이터를 전달하는 메세지 큐로 사용하기 위하여, Drone/제조공정 등의 장비에서 전송된 이미지를 얼마나 빨리 AI Model로 전달 할 수 있는지 확인하기 위함.
그래서 Kafka에서 이미지를 전송하는 간단한 테스트를 진행하였고,
이 과정에서 latency를 얼마나 줄여주는지를 확인해 보았다.(HTTP 프로토콜/Socket과 비교하여)
[현재 까지 결론]
- Apache Kafka는 대량의 요청 처리를 위한 throughtput에 최적화 된 솔루션임.
- 현재는 producer의 몇가지 옵션만 조정하여 테스트한 결과이므로,
- 잠정적인 결과이지만, kafka의 latency를 향상을 위해서는 많은 시도가 필요할 것 같음.
- 즉, 단일 요청의 latency는 확실히 느리지만,
- 대량의 처리를 기준으로 평균 latency를 비교하면 평균적인 latency는 많이 낮아짐.
Test Code : https://github.com/freepsw/kafka-latency-test
기업들은 데이터로부터 insight를 얻기 위해서 부단한 노력을 하고 있습니다. 이를 위해 조직의 데이터를 한 곳에 모아서 보관하는 Data Lake의 구축은 데이터 분석을 위한 중심으로 자리잡고 있습니다. 본 세션에서는 AWS에서 S3를 활용하여 민첩하고 비용효율적인 Data Lake를 구축하는 방법을 소개합니다. 또한 이를 기반으로 AWS의 다양한 데이터 분석 서비스와 연동하는 법을 살펴봅니다.
대상 :
빅 데이터 및 데이터 분석 담당자, AWS 기반 데이터 분석에 관심 있는 모든 분
발표자 :
문종민 솔루션즈 아키텍트, AWS
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
Deep Dive on Amazon EBS Elastic Volumes - March 2017 AWS Online Tech TalksAmazon Web Services
Amazon Elastic Block Store (Amazon EBS) provides persistent block level storage for use with Amazon EC2 instances. In this technical session, we will present and demonstrate how you can increase capacity, tune performance, and modify volume types on the fly with the latest Amazon EBS innovation, Elastic Volumes. You will learn how Elastic Volumes can significantly reduce both operational complexity and downtime enabling you to right-size your deployment and dynamically adapt as your business needs change. We will describe best practices and share tips for success throughout.
Learning Objectives:
- Learn how to increase capacity, tune performance, and modify volume types
- Learn how you can automate modifications to align with changing business needs.
- Review the different Amazon EBS volume types and receive best practices for each.
변화와 혁신을 위한 클라우드 마이그레이션 – 김진우 AWS 어카운트 매니저, 이아영 네오위즈 가버너스팀 팀장, 박주희 우아한형제들 시스템신...Amazon Web Services Korea
비즈니스 환경은 빠르게 진화하며, 고객들에게 같은 속도의 혁신을 요구하고 있습니다. 고객들은 클라우드를 통해 빠른 속도의 환경변화, Compliance, Software life cycle에 빠르게 적응하고, 더 나아가 새로운 비즈니스를 창출하고 있습니다. AWS 마이그레이션 사례를 통해 카멜레온처럼 진화하고 생존하는 방법을 알아봅니다.
데이터를 둘러싼 정책과, 기업과 기술의 진화는 빠르게 변화하고 있으며, 모든 지향점은 기업들이 다양한 데이터를 활용하여 경쟁력을 확보하고 이를 통해 AI기반의 혁신을 하고자 하는데 있다.
이 과정에서 수 많은 기업의 업무 전무가, 데이터 사이언티스트 등이 다양한 기업의 혁신을 지원할 수 있는 AI 모델을 검증하는 과정을 거치게 됩니다.
하지만, 이렇게 수 많은 AI 모델이 실제 비즈니스에 적용되기 위해서는 인프라, 및 서비스 관점의 기술이 반드시 필요하게 됩니다.
MLOps는 기업에 필요한 혁신적인 아이디어(AI Model)을 적시에 비즈니스 환경에 적용할 수 있도록 지원하는 기술 및 트렌드 입니다.
주요 내용은
- 데이터를 둘러싼 환경의 변화
- 기업의 AI Model 적용시 마주하는 현실
- MLOps가 해결 가능한 문제들
- MLOps의 영역별 주요 기술들
- MLOps 도입 시 기업의 AI 환경은 어떻게 변할까?
- AI 모델을 비즈니스 환경에 적용(배포)한다는 것은?
2021년 12월 코리아 데이터 비즈니스 트렌드(데이터산업진흥원 주최)에서 발표한 내용을 공유 가능한 부분만 정리함.
발표 영상 참고 : https://www.youtube.com/watch?v=lL-QtEzJ3WY
AWS EMR을 사용하면서 비용을 최적화하기 위해 필요한 다양한 관점의 방안을 검토하여 정리한 자료.
비용 최적화 대상은 zeppelin/jupyter notebook과 apache spark를 활용하는 서비스를 대상으로 하였으며, 해당 작업이 aws emr에서 어떻게 동작하는지 내부 구조을 파악하여 확인함.
- AWS EMR이란?
- AWS EMR의 과금 방식은?
- 어떻게 비용을 최적화 할 것인가?
- 최적의 EMR 클러스터 구성 방안
- 가성비 높은 Instance 선정 방안
- Apache Spark 성능 개선 방안
가장 중요한 것은 실행할 job의 자원사용량/성능을 모니터링하고, 이에 맞게 자원을 최적화하는 것이 필요함.
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...Amazon Web Services Korea
AWS re:Invent에서는 다양한 고객들의 요구에 맞추어 새로운 분석 및 서버리스 서비스가 대거 출시되었습니다. 본 강연에서는 새롭게 출시된 핵심 분석 기능들과 함께, 누구나 손쉽게 사용할 수 있는 AWS의 분석 서버리스와 On-demand 기능들에 대한 심층적인 정보를 확인하실 수 있습니다.
Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다
궁금한 것은 언제나 문의주세요 :)
행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다!
(2018.5 내용 추가) 현재 회사가 없으니, 제게 관심있으신 분들도 연락 환영합니다 :)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유Hyojun Jeon
NDC18에서 발표하였습니다. 현재 보고 계신 슬라이드는 1부 입니다.(총 2부)
- 1부 링크: https://goo.gl/3v4DAa
- 2부 링크: https://goo.gl/wpoZpY
(SlideShare에 슬라이드 300장 제한으로 2부로 나누어 올렸습니다. 불편하시더라도 양해 부탁드립니다.)
대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...Amazon Web Services Korea
빅데이터 분석을 위해 온프레미스 환경에서 대규모 하둡 클러스터를 운영하고 있는 고객은 매우 많습니다. 하지만 고객은 최근 관리 및 운영, 비용 등 다양한 어려움을 겪고 있으며, 이를 극복하기 위한 클라우드 전환을 적극적으로 검토하고 있습니다. 온프레미스 하둡을 클라우드 기반으로 마이그레이션 하기 위해 세워야 할 전략과 고려사항, 최적화를 위한 다양한 기법과 비용/성능 최적의 클러스터 구성 방안, 더 나아가서 TCO를 최적화하기 위한 구체적인 방안을 본 세션을 통해 소개드립니다.
Apache kafka performance(latency)_benchmark_v0.3SANG WON PARK
Apache Kafka를 이용하여 이미지 데이터를 얼마나 빠르게(with low latency) 전달 가능한지 성능 테스트.
최종 목적은 AI(ML/DL) 모델의 입력으로 대량의 실시간 영상/이미지 데이터를 전달하는 메세지 큐로 사용하기 위하여, Drone/제조공정 등의 장비에서 전송된 이미지를 얼마나 빨리 AI Model로 전달 할 수 있는지 확인하기 위함.
그래서 Kafka에서 이미지를 전송하는 간단한 테스트를 진행하였고,
이 과정에서 latency를 얼마나 줄여주는지를 확인해 보았다.(HTTP 프로토콜/Socket과 비교하여)
[현재 까지 결론]
- Apache Kafka는 대량의 요청 처리를 위한 throughtput에 최적화 된 솔루션임.
- 현재는 producer의 몇가지 옵션만 조정하여 테스트한 결과이므로,
- 잠정적인 결과이지만, kafka의 latency를 향상을 위해서는 많은 시도가 필요할 것 같음.
- 즉, 단일 요청의 latency는 확실히 느리지만,
- 대량의 처리를 기준으로 평균 latency를 비교하면 평균적인 latency는 많이 낮아짐.
Test Code : https://github.com/freepsw/kafka-latency-test
기업들은 데이터로부터 insight를 얻기 위해서 부단한 노력을 하고 있습니다. 이를 위해 조직의 데이터를 한 곳에 모아서 보관하는 Data Lake의 구축은 데이터 분석을 위한 중심으로 자리잡고 있습니다. 본 세션에서는 AWS에서 S3를 활용하여 민첩하고 비용효율적인 Data Lake를 구축하는 방법을 소개합니다. 또한 이를 기반으로 AWS의 다양한 데이터 분석 서비스와 연동하는 법을 살펴봅니다.
대상 :
빅 데이터 및 데이터 분석 담당자, AWS 기반 데이터 분석에 관심 있는 모든 분
발표자 :
문종민 솔루션즈 아키텍트, AWS
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
Deep Dive on Amazon EBS Elastic Volumes - March 2017 AWS Online Tech TalksAmazon Web Services
Amazon Elastic Block Store (Amazon EBS) provides persistent block level storage for use with Amazon EC2 instances. In this technical session, we will present and demonstrate how you can increase capacity, tune performance, and modify volume types on the fly with the latest Amazon EBS innovation, Elastic Volumes. You will learn how Elastic Volumes can significantly reduce both operational complexity and downtime enabling you to right-size your deployment and dynamically adapt as your business needs change. We will describe best practices and share tips for success throughout.
Learning Objectives:
- Learn how to increase capacity, tune performance, and modify volume types
- Learn how you can automate modifications to align with changing business needs.
- Review the different Amazon EBS volume types and receive best practices for each.
변화와 혁신을 위한 클라우드 마이그레이션 – 김진우 AWS 어카운트 매니저, 이아영 네오위즈 가버너스팀 팀장, 박주희 우아한형제들 시스템신...Amazon Web Services Korea
비즈니스 환경은 빠르게 진화하며, 고객들에게 같은 속도의 혁신을 요구하고 있습니다. 고객들은 클라우드를 통해 빠른 속도의 환경변화, Compliance, Software life cycle에 빠르게 적응하고, 더 나아가 새로운 비즈니스를 창출하고 있습니다. AWS 마이그레이션 사례를 통해 카멜레온처럼 진화하고 생존하는 방법을 알아봅니다.
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...Amazon Web Services Korea
SK Telecom의 망관리 프로젝트인 TANGO에서는 오라클을 기반으로 시스템을 구축하여 운영해 왔습니다. 하지만 늘어나는 사용자와 데이터로 인해 유연하고 비용 효율적인 인프라가 필요하게 되었고, 이에 클라우드 도입을 검토 및 실행에 옮기게 되었습니다. TANGO 프로젝트의 클라우드 도입을 위한 검토부터 준비, 실행 및 이를 통해 얻게 된 교훈과 향후 계획에 대해 소개합니다.
본 강연에서는 금융 감독원의 클라우드 이용 가이드라인에 맞추어 바로 도입 가능한 HPC, 빅데이터, 백업, VDI 등의 업무에 대하여 간단하게 소개하고 AWS 상에서 구축하기 위한 참조 아키텍쳐와 특장점 및 고객 사례에 대해 설명해 드릴 예정입니다.
연사: 정영준 솔루션 아키텍트, 아마존 웹서비스
[ 멀티클라우드, 컴퓨팅 인프라에 제약없는 서비스 생태계 (Cloud-Barista) ]
- 클라우드바리스타, 4개의 미션
- 지난 4년(1단계)과 향후 4년(2단계) 추진전략의 변화
- 클라우드바리스타의 기술 포지션
- 글로벌 3사/국내 3사, 퍼블릭 클라우드 리전 현황
- 주요 기술 스택 및 오늘의 세션
- 주요 프레임워크 관련성
- 향후 개발 기술
# 발표영상(YouTube) : https://youtu.be/dUuiwxrfhpg
------------------------------------------------------------------------------------------------
# Cloud-Barista Community Homepage : https://cloud-barista.github.io
# Cloud-Barista Community GitHub : https://github.com/cloud-barista
# Cloud-Barista YouTube channel : https://youtube.com/@cloud-barista
# Cloud-Barista SlideShare : https://cloud-barista.github.io/slideshare
Similar to Cloud DW technology trends and considerations for enterprises to apply snowflake (20)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)SANG WON PARK
2020년 데이터산업진흥원에서 발표한 자료를 일부 편집하여 공유함.
2020년 당시에 Data Platform에서 AI lifecycle를 효율적으로 지원하는 platform을 적극적으로 검토 및 설계하는 작업을 진행하였고, 이 때 검토 및 활용했던 기술들을 기업 관점에서 필요한 내용을 기준으로 정리하였다.
기업들은 전통적인 방식으로의 혁신에 한계를 체감하고 있으며, 최근 AI기반으로 성공적인 혁신(비즈니스 강화, 새로운 비즈니스로 전환 등)에 성공한 기업들을 빠르게 벤치마크 하고 있다.
이렇게 AI 기반으로 기업을 혁신하는 것은 고도화된 AI 모델의 도입으로 해결되지 않으며, 수많은 기술들의 최적화된 조합 및 활용이 필요하다.
이 자료에서는 그 중 AI모델에 핵심적인 데이터를 적시에, 고품질의 형태로, 빠르고 안정적으로 제공할 수 기술 트렌드를 소개한다.
전체 내용은
- AI기반 혁신이란?
- 혁신을 위해서는 어떤 점이 어려운가?
- 고품질 데이터 확보 기술
- 빠르게 AI 모델을 학습하는 기술
- 적시에 다양한 AI 모델을 비즈니스에 적용하는 기술
2020년 기준으로 작성된 자료라, 일부 기술 트렌드가 반영되지 않을 수 있으나 아직까지 많은 기업들이 고민하고 해결하고자 하는 영역이라 참고할 수 있을 것 같다.
이 내용을 기준으로 발표한 영상 링크 : https://www.youtube.com/watch?v=OVm4-uk59ZA
Understanding of Apache kafka metrics for monitoring SANG WON PARK
2019 kafka conference seould에서 발표한 "Apache Kafka 모니터링을 위한 Metrics 이해" 슬라이드 자료
기존 2018년 자료에서 모니터링 관점에서 중요한 metrcis를 중심으로 정리하였고, 2019년 기준으로 추가/변경된 metrics를 반영하였다.
주용 내용은
- 업무에 최적화된 apache kafka 모니터링을 하려면?
- 어떤 정보를 모니터링 해야 할까?
- 적시성 관점의 모니터링 지표 (TotalTimeMs에 대한 세부 구조 이해)
- 안정성 관점의 모니터링 지표 (데이터 유실이 없이 중단없는 서비스)
- 언제 apache kafka 클러스터를 확장해야 할까? (어떤 지표를 봐야 할까?)
위 모든 지표는 producer/broker/consumer 3가지 측면에서 검토하였다.
컨퍼런스 영상 링크 : https://www.youtube.com/watch?v=p2RGsTOCHAg
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안SANG WON PARK
Apache Kafak의 빅데이터 아키텍처에서 역할이 점차 커지고, 중요한 비중을 차지하게 되면서, 성능에 대한 고민도 늘어나고 있다.
다양한 프로젝트를 진행하면서 Apache Kafka를 모니터링 하기 위해 필요한 Metrics들을 이해하고, 이를 최적화 하기 위한 Configruation 설정을 정리해 보았다.
[Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안]
Apache Kafka 성능 모니터링에 필요한 metrics에 대해 이해하고, 4가지 관점(처리량, 지연, Durability, 가용성)에서 성능을 최적화 하는 방안을 정리함. Kafka를 구성하는 3개 모듈(Producer, Broker, Consumer)별로 성능 최적화를 위한 …
[Apache Kafka 모니터링을 위한 Metrics 이해]
Apache Kafka의 상태를 모니터링 하기 위해서는 4개(System(OS), Producer, Broker, Consumer)에서 발생하는 metrics들을 살펴봐야 한다.
이번 글에서는 JVM에서 제공하는 JMX metrics를 중심으로 producer/broker/consumer의 지표를 정리하였다.
모든 지표를 정리하진 않았고, 내 관점에서 유의미한 지표들을 중심으로 이해한 내용임
[Apache Kafka 성능 Configuration 최적화]
성능목표를 4개로 구분(Throughtput, Latency, Durability, Avalibility)하고, 각 목표에 따라 어떤 Kafka configuration의 조정을 어떻게 해야하는지 정리하였다.
튜닝한 파라미터를 적용한 후, 성능테스트를 수행하면서 추출된 Metrics를 모니터링하여 현재 업무에 최적화 되도록 최적화를 수행하는 것이 필요하다.
xgboost를 이해하기 위해서 찾아보다가 내가 궁금한 내용을 따로 정리하였으나, 역시 구체적인 수식은 아직 모르겠다.
요즘 Kaggle에서 유명한 Xgboost가 뭘까?
Ensemble중 하나인 Boosting기법?
Ensemble 유형인 Bagging과 Boosting 차이는?
왜 Ensemble이 low bias, high variance 모델인가?
Bias 와 Variance 관계는?
Boosting 기법은 어떤게 있나?
Xgboost에서 사용하는 CART 알고리즘은?
Machine Learning Foundations (a case study approach) 강의 정리SANG WON PARK
실제 비즈니스에서 많이 활용되는 사례를 중심으로 어떻게 기존 데이터를 이용하여 알고리즘을 선택하고, 학습하여, 예측모델을 구축 하는지 jupyter notebook을 이용하여 실제 코드를 이용하여 실습할 수 있다.
강의 초반에 강조하는 것 처럼, 머신러닝 알고리즘은 나중에 자세히 설명하는 과정이 따로 있고, 이번 강의는 실제 어떻게 활용하는지에 완전히 초점이 맞추어져 있어서, 알고리즘은 아주 간략한 수준으로 설명해 준다. (좀 더 구체적인 내용은 심화과정이 따로 있음)
http://blog.naver.com/freepsw/221113685916 참고
https://github.com/freepsw/coursera/tree/master/ML_Foundations/A_Case_Study 코드 샘플
Apache kafka performance(throughput) - without data loss and guaranteeing dat...SANG WON PARK
Apache Kafak의 성능이 특정환경(데이터 유실일 발생하지 않고, 데이터 전송순서를 반드시 보장)에서 어느정도 제공하는지 확인하기 위한 테스트 결과 공유
데이터 전송순서를 보장하기 위해서는 Apache Kafka cluster로 partition을 분산할 수 없게되므로, 성능향상을 위한 장점을 사용하지 못하게 된다.
이번 테스트에서는 Apache Kafka의 단위 성능, 즉 partition 1개에 대한 성능만을 측정하게 된다.
향후, partition을 증가할 경우 본 테스트의 1개 partition 단위 성능을 기준으로 예측이 가능할 것 같다.
Coursera Machine Learning (by Andrew Ng)_강의정리SANG WON PARK
단순히 공식으로 설명하지 않고, 실제 코드 및 샘플데이터를 이용하여 수식의 결과가 어떻게 적용되는지 자세하게 설명하고 있다.
처음 week1 ~ week4 까지는 김성훈 교수님의 "모두를 위한 딥러닝"에서 한번 이해했던 내용이라 좀 쉽게 진행했고, 나머지는 기초가 부족한 상황이라 다른 자료를 꽤 많이 참고하면서 학습해야 했다.
여러 도서나 강의를 이용하여 머신러닝을 학습하려고 했었는데, 이 강의만큼 나에게 맞는것은 없었던거 같다. 특히 Octave code를 이용한 실습자료는 나중에도 언제든 활용가능할 것 같다.
Week1
Linear Regression with One Variable
Linear Algebra - review
Week2
Linear Regression with Multiple Variables
Octave[incomplete]
Week3
Logistic Regression
Regularization
Week4
Neural Networks - Representation
Week5
Neural Networks - Learning
Week6
Advice for applying machine learning techniques
Machine Learning System Design
Week7
Support Vector Machines
Week8
Unsupervised Learning(Clustering)
Dimensionality Reduction
Week9
Anomaly Detection
Recommender Systems
Week10
Large Scale Machine Learning
Week11
Application Example - Photo OCR
Coursera Machine Learning by Andrew NG 강의를 들으면서, 궁금했던 내용을 중심으로 정리.
내가 궁금했던건, 데이터를 분류하는 Decision boundary를 만들때...
- 왜 가중치(W)와 decision boundary가 직교해야 하는지?
- margin은 어떻게 계산하는지?
- margin은 어떻게 최대화 할 수 있는지?
- 실제로 margin을 최대화 하는 과정의 수식은 어떤지?
- 비선형 decision boundary를 찾기 위해서 어떻게 kernel을 이용하는지?...
http://blog.naver.com/freepsw/221032379891
코드로 이해하는 Back_propagation(cs231n)SANG WON PARK
여러 샘플들을 참고하다 보니, tensorflow를 사용하지 않는 경우에는 직접 gradient를 계산하여 back propagation을 하도록 구현한 코드가 많다. 내가 직접 구현할 필요는 없더라도, 좀 더 명확하게 이해할 필요는 있을 것 같아서 cn231n note에서 제공하는 코드와 설명을 정리.
http://blog.naver.com/freepsw/220928184473
http://cs231n.github.io/neural-networks-case-study/ 참고
데이터를 작게 생성하여, 직접 코드와 생성된 데이터를 확인하면서 좀 더 직관적으로 이해하는 과정으로 정리하다보니, 코드보다 설명이 더 많다... 아직도 명확하지는 않지만 나름대로 정리는 되었다.
모두를 위한 Deep Reinforcement Learning 강의를 요약정리
http://hunkim.github.io/ml/
실습에 사용된 코드
https://github.com/freepsw/tensorflow_examples/tree/master/20.RL_by_SungKim
Cloud DW technology trends and considerations for enterprises to apply snowflake
1. Cloud DW 기술 트렌드와
Snowflake 적용
( Data Engineer 관점에서 필요한 성능/비용/운영편의성 을 중심으로… )
2022.07
freepsw 1
2. 2
기업의 데이터 플랫폼 아키텍처의 진화 흐름
데이터 자체의 변화(다양한 포맷, 데이터 사이즈 등)와 데이터 수요의 가속화로 지속적 진화
업무 DB
(OLTP)
Data Warehouse
(On-Prem)
Data Lake
Cloud
Data Warehouse
Lake House
Cloud로 동적 자원 할당
(빠른 성능과 저비용)
제한된 자원 내에
데이터 통합
비정형 데이터
대용량 데이터 분석 가능
RDBMS 기반
Data Centralization
Data
Fabric
Data
Virtuali
zation
Data
Mesh
Data De-Centralization
3. 3
Modern data stack에서 Cloud DW란?
Cloud DW의 제약없는 저장공간 & 컴퓨팅 자원을 활용하여, 통합된 데이터 환경에서 복잡한 업무 요건을 처리 가능
https://medium.com/@jordan_volz/whos-who-in-the-modern-data-stack-ecosystem-spring-2022-c45854653dc4
4. On-Prem DW Cloud DW
Cloud
Data Lake
• Oracle Exadata
• Teradata
• IBM Netezza,
• EMC Greenplum Data
Computing Appliance
• SAP Sybase IQ
• HP Vertica
Data Mart
Managed Cloud
DW
Cloud based
Self-DW
Public Cloud
DW
Cloud 사업자 제공 서비스
• AWS Redshift
• GCP BigQuery
• Azure Synaps
DW 전문 기업의 Cloud기반 서비스
• Snowflake
• GCP BigQuery omni
• Teradata Vantage
Cloud Infra에 직접 DW 구축
• Vertica
• Greenplum
• IBM DB2
Cloud 사업자 종속 Multi-Cloud 지원
Multi-Cloud + Hybrid
Cloud
제품 종속 제거
운영 편의성
인프라 및 운영 비용, 성능 해결
Snowflake
빠른 성능과 운영 복잡성 감소
Databricks (LakeHouse)
기존 DW/DataMart 영역과 Data Lake영역을 포함하여 시장을 확장 중
Cloud DW (Lake House) 기술의 트렌드
• AWS EMR
• GCP Dataproc
• Azure HDInsight
• Cloudera CDP
• Databricks
5. 5
Cloud DW를 바라보는 Data Engineer의 고민
어떤 제품을 선택할까?
초기 구성(자원 할당)은 어떻게 할까?
계속 변화하는 워크로드(사용량)는 어떻게 대응할까?
사용자가 급증하는 상황에서 어떻게 안정적으로 서비스 할까?
6. 6
Cloud DW 제품 도입 후 어떤 상황이 발생할까?
Cloud DW 도입 후, 기업에서 활용하는 단계별로 예측하기 어려운 다양한 수요(기업환경 변화 등)가 발생함.
이러한 변화를 도입된 DW에서 민첩하게 지원할 수 있는지 확인 필요
초기 구성
단계
DW 활용
단계
클러스터
확장 단계
7. 7
Cloud DW 제품 초기 구성 단계에는?
도입된 DW의 가이드에 따라 기업에 최적화된 설정 및 구성이 필요
(어떻게 기업의 향후 데이터 사이즈, 예상되는 사용자 수, 각종 이벤트 등을 고려하여 설정할 수 있을까?)
초기 구성
단계
DW 활용
단계
클러스터
확장 단계
Data Engineer
• 미래의 스토리지 용량 및 컴퓨팅 자원 산정
• 설치 편의성
- 환경 구성 소요 시간
- 최적화 설정 검토 등
• 데이터 마이그레이션 성능
• 데이터 보안 환경
8. 8
DW 제품의 설치와 설정을 최적화 하려면?
고객이 특별히 고민하지 않고도 원하는 순간에 바로 설치 가능한가?
미래의 최대/평균/최소 사용량을 예측하여, 최적의 성능과 비용 효율적인 설정이 가능한가?
( 초기에 예측한 값이 미래 시점에도 유효할까? )
9. 9
CSP의 Cloud DW를 설치 및 구성하려면 ? (1/2)
미래에 발생 가능한 분석 수요(스토리지, 분석작업, 동시사용자 등)를 미리 예측하여, 최적의 type을 선택해야 함.
10. 10
[백업] AWS Redshift에서 선택해야 할 유형은 어떤 것이 있나?
Node Type을 먼저 선택하고, 용량과 성능을 고려하여 Node Size도 직접 선택해야 함 (최적의 설정을 찾기 어려움)
기업의 환경이 변하면
또 다시 최적의 선택이 필요!
(환경 변화에 민첩한 대응이 불가)
11. 11
CSP의 Cloud DW를 설치 및 구성하려면 ? (2/2)
백업 등 기업의 환경에 적합한 추가적인 설정을 운영자가 직접 선택해야 함.
12. 12
Snowflake를 설치 및 구성하려면?
Snowflake 계정만 생성 하면 모든 구성이 완료 !!
(기업 환경 변화에 따라 언제든지 유연하게 컴퓨팅/스토리지 변경 가능)
13. 13
초기 Data Loading 시 고려사항?
설치한 Cloud DW에 기존 데이터를 빠르게 Loading하여 실 운영을 위한 준비가 필요함.
14. 14
Cloud DW 제품 활용 단계
빠르게 변하는 기업 환경에 따라 다양한 분석 수요에 따라 탄력적으로 자원 확장 필요
(최소의 비용으로 최적의 성능을 제공해야 함)
초기 구성
단계
DW 활용
단계
클러스터
확장 단계
Data Engineer
• 설치 편의성
- 환경 구성 소요 시간
- 최적화 설정 검토 등
• 데이터 마이그레이션 성능
• 데이터 보안 환경
업무 담당자
(분석가)
(BI Tools)
• 데이터 조회 성능
- Scale out / in
- Scale up / down
• 멀티 클러스터 지원 여부
• 초기 설치 및 구성 비용
• 운영 편의성 (최적화 튜닝 등)
• 데이터 공유 (중복 없는)
• 데이터 안정성 (백업, 복구)
15. 15
기업의 일시적 분석 수요 증가 시,
빠르게 확장/축소 가능한가?
외부 데이터 (100 TB 이상)를 활용하고 싶은데, 빠르게 저장(Import)이 가능한가?
20년치 데이터를 Deep Learning으로 분석하고 싶은데, 충분한 성능을 제공할까?
년 1회 발생하는 대용량 배치작업(20시간 소요)을 빠르고 안정적으로 처리 가능한가?
(DW 성능저하 없이)
16. 16
CSP Cloud DW 클러스터를 확장하려면?
다양한 사용자의 요청에 따라 운영자가 직접 클러스터 변경
(클러스터 확장 시 cluster 사용 불가)
17. 17
CSP Cloud DW 클러스터 확장/축소 시 고려사항
성능과 비용 최적화를 위한 다양한 사전/사후 작업이 필요 (운영자가 관여하여 작업 필요)
데이터 백업
(snapshot)
클러스터 확장 시간 고려
스토리지 용량 확인
Auto snapshot은
일정 기간 경과 후 자동 삭제
(데이터 유실 가능)
디스크 최적화 실행(VACUUM)하여
데이터 복제 최소화
확장된 클러스터의 스토리지 용량이
현재 클러스터의 데이터를 저장
가능해야 함
Resize 유형에 따라 클러스터 확장 시간 계산
(중요 작업 시간 고려)
Cloud DW Type 변경(scale up)은 더 많은
시간이 소요됨
“ 용량 부족 시 장애 발생” “ 중요한 백업 데이터 확보 필요” ” 클러스터 중지로 작업 불가”
18. 18
Snowflake의 클러스터 확장은?
간단한 선택으로 클러스터 즉시 확장 !!
( 처리할 데이터 용량에 따라 클러스터 사이즈만 선택 )
9가지 유형 중 원하는 Size 선택
사용하지 않으면,
자동으로 클러스터 중지
19. 19
Demo) 분석가가 DW의 여러 테이블을 분석하는 Query 실행
280억 건의 대용량 데이터를 4개 테이블과 연결하는 복잡한 Query 실행
테이블 명 Record 건수
store-sales
28,800,239,865
(280 억건)
date_dim 73,049
store 1,500
household_demographics 7200
customer_address 32,500,000
(3천 2백만 건)
280 억건
20. 20
Demo) 280억 건 데이터 조회 성능 (클러스터 성능 확장, scale-up)
X-Small 사이즈 클러스터에서 2X-Large 클러스터로 쉽게 확장하여 거의 동일한 비용으로 28배 성능 향상
Table
(TPC-DS 10 TB)
21. 21
초 단위로 사용한 만큼 비용을 지불
다른 CSP는 초단위로 DW를 생성하기 어렵거나, 미리 자원 (Slot) 을 구매한 후 사용해야 함.
오전 업무 시간 오후 업무 시간
점심시간
22. 22
안전한 데이터 보관 (Data Protection)
Time travel 기능으로 최대 90일 내 모든 시점 복구 가능
Cross-Cloud & Cross-Region Data Replication 가능
23. 23
Code(python, scala 등) 기반
대용량 데이터 분석을 지원하는가?
Snowflake의 데이터를 python으로 처리/분석하기 위한 별도 자원(Apache spark 등)이 필요한가?
Data Scientist, Data Engineer가 code(data frame)로 처리하는 로직을 지원하는가?
( 기존 pyspark, pandas 기반 데이터 처리 코드를 쉽게 재사용 할 수 있는가? )
24. 24
데이터와 어플리케이션 실행 환경을 통합
데이터가 존재 하는 공간에서 모든 작업(로직)이 실행되어, 복잡한 데이터 처리 환경이 단순해짐
25. 25
데이터 수요 증가로
분석가, 웹서비스, BI 툴 사용량 급증 시
안정적인 서비스 가능한가?
분석가 교육/실습/경연대회로 급증하는 동시 사용자의 Query 요청을 처리할 수 있나?
(평소 대비 사용자 10배 이상 증가)
BI로 구성된 Report 수 및 BI Report 조회 건수 증가 시 성능 저하 없이 처리 가능한가?
(기존 DW 자원에서 처리 가능한 동시 사용자 수는 한계가 있음)
26. 26
동시 사용자 수 증가에 따른 클러스터 자동 확장
Snowflake는 동시 사용자 증가 시, 자동으로 Cluster 를 확장 및 축소하여 최소의 비용으로 최적의 성능 제공
“ 지원 불가”
사용자 급증 시
서비스 멈춤 또는 접속 에러 발생 가능
27. 27
Snowflake의 Multi Cluster 생성 방법 (자동 확장/축소)
업무의 확장성을 고려하여 최대한 많은 동시 사용자를 처리할 수 있는 사이즈 선택 (사용해야 비용이 과금)
최대 확장 가능한 Cluster 개수 지정
(사용하지 않으면 비용 없음)
28. 28
Demo) 동시 사용자 증가 시, 자동 Cluster 확장 가능한지?
각 사용자의 Query 복잡도에 따라 동시 사용자 수를 자동으로 조정 (간단한 쿼리는 1개 클러스터로 동시에 8명 이상 처리 가능)
분석가 4명 동시 접속
(1개 Cluster 로 실행)
분석가 4명 추가 접속
(총 8명 동시 접속 시 확장)
29. 29
Cloud DW 제품 확장 단계
기업의 value chain에 속한 수 많은 협력사 및 계열사 데이터를 공유 및 융합하여 새로운 비즈니스 가치 창출 가능
초기 구성
단계
DW 활용
단계
클러스터
확장 단계
Data Engineer
• 설치 편의성
- 환경 구성 소요 시간
- 최적화 설정 검토 등
• 데이터 마이그레이션 성능
• 데이터 보안 환경
업무 담당자
(분석가)
(BI Tools)
• 데이터 조회 성능
- Scale out / in
- Scale up / down
• 멀티 클러스터 지원 여부
• 안정적인 분석 업무 수행
• 초기 설치 및 구성 비용
• 운영 편의성 (최적화 튜닝 등)
• 동적인 자원 할당 기능
• 데이터 공유 (중복 없는)
• 데이터 안정성 (백업, 복구)
• Multi CSP 단위 데이터 공유
• Multi CSP DR 구성
• 유휴 컴퓨팅 시간에 대한 비용
• 일, 주, 월, 년도 별 비용 제한 가능
• 확장 시 투자 및 인건 비용
30. 30
다른 CSP를 사용하는 계열사 또는 협력사와
DB를 쉽게 공유 할 수 있는가?
각 계열사 별로 CSP를 선정하여 각자 DB를 운영 중인 상황에서, 협업을 위해 DB를 공유하여 쉽게 분석할 수 있는가?
CSP 간 공유된 데이터의 일관성을 쉽게 유지할 수 있는가? (동기화)
31. 31
CSP간 데이터 복제 및 공유를 통한 협업 지원
CSP Cloud DW는 다른 CSP의 데이터 공유 및 협업이 불가능
“ 지원 불가”
33. 33
Snowflake Summit 2022에서 소개된 신규 기능의 의미
기업 관점에서 고민하던 목적별로 분리된 데이터 플랫폼을 통합하고, 다양한 데이터 수요를 지원하는 기능 강조
33
활용 영역 확장
(Data Engineer + Data Scientist)
Snowflake 서비스 개선
(성능, 운영 편의성)
데이터 영역 확장 & 통합
(OLTP + External Storage)
기존 python 코드를 이용하여 데이터
분석/처리 가능 (별도 Spark Cluster 불필요)
Data Product(Data + Web service) 생성 및
공유 가능 (별도 서비스 환경 불필요)
데이터 목적 별로 구성되는 데이터 솔루션
통합 가능
데이터 복제/이동 등의 복잡한 ETL 비용
절감
데이터 조회 성능 향상 (동시 처리량, Latency)
Warehouse Type 추가 (5XL, 6XL)
비용 관리 및 통제 강화 기능 제공
“ 데이터 통합으로 일관된 데이터 제공” “ 복잡한 분석 클러스터 도입 비용 절감” ” Snowflake 도입/활용 비용 절감”
34. 34
데이터 영역 확장 & 통합 (OLTP + 외부 스토리지)
기존 Snowflake는 OLAP용 Data Warehouse 용도로 특화된 용도로만 사용 가능
Data Warehouse
(OLAP)
데이터 분석가
DBMS
(OLTP)
External Storage
현재도 External Storage 조회 가능
(성능이 느리고, 편집 불가)
데이터 분석을 위한 별도 자원 필요
(Apache Spark 등)
35. 35
데이터 영역 확장 & 통합 (OLTP + 외부 스토리지)
Snowflake에서 지원하는 데이터 유형을 확장 및 통합하여, 시스템 복잡성을 줄이고 일관된 분석환경 제공 가능
Data Warehouse
(OLAP)
데이터 분석가
DBMS
(OLTP)
External Storage