AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS 관리 콘솔에서 클릭 몇 번으로 ETL 작업을 생성하고 실행할 수 있습니다. 빅데이터 분석 시 다양한 데이터 소스에 대한 전처리 작업을 할 때, 별도의 데이터 처리용 서버나 인프라를 관리할 필요가 없습니다. 본 세션에서는 지난 5월 서울 리전에 출시한 Glue 서비스에 대한 자세한 소개와 함께 다양한 활용 팁을 데모와 함께 소개해 드립니다.
AWS EMR을 사용하면서 비용을 최적화하기 위해 필요한 다양한 관점의 방안을 검토하여 정리한 자료.
비용 최적화 대상은 zeppelin/jupyter notebook과 apache spark를 활용하는 서비스를 대상으로 하였으며, 해당 작업이 aws emr에서 어떻게 동작하는지 내부 구조을 파악하여 확인함.
- AWS EMR이란?
- AWS EMR의 과금 방식은?
- 어떻게 비용을 최적화 할 것인가?
- 최적의 EMR 클러스터 구성 방안
- 가성비 높은 Instance 선정 방안
- Apache Spark 성능 개선 방안
가장 중요한 것은 실행할 job의 자원사용량/성능을 모니터링하고, 이에 맞게 자원을 최적화하는 것이 필요함.
Data Lake는 오늘날 데이터 기반에 의사 결정을 하기 위한 가장 일반적인 데이터 분석 아키텍처로 떠오르고 있습니다. 잘 설계된 Data Lake는 기업이 데이터 자산으로부터 가장 많은 비지니스 가치를 창출하도록 보장합니다. 본 세션을 통해 AWS 기반의 Data Lake 아키텍처를 소개하고, 다양한 사례를 통해 AWS 고객들은 데이터 분석 플랫폼을 어떤 방식으로 설계해서 활용하고 있는지 살펴봅니다.
다시보기 링크: https://youtu.be/mE8V9oNXdrs
AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS 관리 콘솔에서 클릭 몇 번으로 ETL 작업을 생성하고 실행할 수 있습니다. 빅데이터 분석 시 다양한 데이터 소스에 대한 전처리 작업을 할 때, 별도의 데이터 처리용 서버나 인프라를 관리할 필요가 없습니다. 본 세션에서는 지난 5월 서울 리전에 출시한 Glue 서비스에 대한 자세한 소개와 함께 다양한 활용 팁을 데모와 함께 소개해 드립니다.
AWS EMR을 사용하면서 비용을 최적화하기 위해 필요한 다양한 관점의 방안을 검토하여 정리한 자료.
비용 최적화 대상은 zeppelin/jupyter notebook과 apache spark를 활용하는 서비스를 대상으로 하였으며, 해당 작업이 aws emr에서 어떻게 동작하는지 내부 구조을 파악하여 확인함.
- AWS EMR이란?
- AWS EMR의 과금 방식은?
- 어떻게 비용을 최적화 할 것인가?
- 최적의 EMR 클러스터 구성 방안
- 가성비 높은 Instance 선정 방안
- Apache Spark 성능 개선 방안
가장 중요한 것은 실행할 job의 자원사용량/성능을 모니터링하고, 이에 맞게 자원을 최적화하는 것이 필요함.
Data Lake는 오늘날 데이터 기반에 의사 결정을 하기 위한 가장 일반적인 데이터 분석 아키텍처로 떠오르고 있습니다. 잘 설계된 Data Lake는 기업이 데이터 자산으로부터 가장 많은 비지니스 가치를 창출하도록 보장합니다. 본 세션을 통해 AWS 기반의 Data Lake 아키텍처를 소개하고, 다양한 사례를 통해 AWS 고객들은 데이터 분석 플랫폼을 어떤 방식으로 설계해서 활용하고 있는지 살펴봅니다.
다시보기 링크: https://youtu.be/mE8V9oNXdrs
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...Amazon Web Services Korea
발표영상 다시보기: https://youtu.be/hPvBst9TPlI
S3 기반의 데이터레이크에서 대량의 데이터 변환과 처리에 사용될 수 있는 가장 대표적인 솔루션이 Apache Spark 입니다. EMR 플랫폼 환경에서 쉽게 적용 가능한 Apache Spark의 성능 향상 팁을 소개합니다. 또한 데이터의 레코드 레벨 업데이트, 리소스 확장, 권한 관리 및 모니터링과 같은 다양한 데이터 워크로드 관리 최적화 방안을 함께 살펴봅니다.
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
기업들은 데이터로부터 insight를 얻기 위해서 부단한 노력을 하고 있습니다. 이를 위해 조직의 데이터를 한 곳에 모아서 보관하는 Data Lake의 구축은 데이터 분석을 위한 중심으로 자리잡고 있습니다. 본 세션에서는 AWS에서 S3를 활용하여 민첩하고 비용효율적인 Data Lake를 구축하는 방법을 소개합니다. 또한 이를 기반으로 AWS의 다양한 데이터 분석 서비스와 연동하는 법을 살펴봅니다.
대상 :
빅 데이터 및 데이터 분석 담당자, AWS 기반 데이터 분석에 관심 있는 모든 분
발표자 :
문종민 솔루션즈 아키텍트, AWS
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...Amazon Web Services Korea
AWS re:Invent에서는 다양한 고객들의 요구에 맞추어 새로운 분석 및 서버리스 서비스가 대거 출시되었습니다. 본 강연에서는 새롭게 출시된 핵심 분석 기능들과 함께, 누구나 손쉽게 사용할 수 있는 AWS의 분석 서버리스와 On-demand 기능들에 대한 심층적인 정보를 확인하실 수 있습니다.
OpenSearch는 배포형 오픈 소스 검색과 분석 제품군으로 실시간 애플리케이션 모니터링, 로그 분석 및 웹 사이트 검색과 같이 다양한 사용 사례에 사용됩니다. OpenSearch는 데이터 탐색을 쉽게 도와주는 통합 시각화 도구 OpenSearch와 함께 뛰어난 확장성을 지닌 시스템을 제공하여 대량 데이터 볼륨에 빠르게 액세스 및 응답합니다. 이 세션에서는 실제 동작 구조에 대한 설명을 바탕으로 최적화를 하기 위한 방법과 운영상에 발생할 수 있는 이슈에 대해서 알아봅니다.
Amazon SageMaker는 머신러닝 프로젝트를 위한 통합 플랫폼입니다. SageMaker의 기능 중 Amazon SageMaker Studio는 머신러닝 통합 개발환경을 제공하여, 데이터를 준비에서부터 모델을 빌드, 교육 및 배포하는 데 필요한 모든 단계를 수행할 수 있습니다. Amazon EMR은 Apache Spark, Apache Hive 및 Presto와 같은 오픈 소스 분석 프레임워크를 사용하여 대규모 분산 데이터 처리 작업, 대화형 SQL 쿼리 및 ML 애플리케이션을 실행하기 위한 빅 데이터 플랫폼입니다. 이 세션에서는 데이터 과학자와 ML 엔지니어가 ML 워크플로우에서 분산 빅 데이터 프레임워크를 쉽게 사용할 수 있도록 상호 서비스 간의 통합에 대하여 데모를 통해 알아봅니다.
An overview of Amazon Kinesis Firehose, Amazon Kinesis Analytics, and Amazon Kinesis Streams so you can quickly get started with real-time, streaming data.
Metrics-Driven Performance Tuning for AWS Glue ETL Jobs (ANT326) - AWS re:Inv...Amazon Web Services
AWS Glue provides a horizontally scalable platform for running ETL jobs against a wide variety of data sources. In this builder's session, we cover techniques for understanding and optimizing the performance of your jobs using AWS Glue job metrics. Learn how to identify bottlenecks on the driver and executors, identify and fix data skew, tune the number of DPUs, and address common memory errors.
Module1 - Amazon Personalize 중심으로 살펴보는 추천 시스템의 원리와 구축
Module 2 - 추천 시스템을 위한 데이터 분석 시스템 구축 하기
Module 3 - E-Commerce 사이트를 보다 Smart 하게 만들기 (Amazon Comprehend & Fraud Detector)
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019Amazon Web Services Korea
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용
김태현 솔루션즈 아키텍트, AWS
AWS에서는 Big Data 분석 및 처리를 위해 분석 목적에 맞는 다양한 Big Data Framework 서비스를 지원합니다. 이 세션에서는 시간이 지날수록 증가하는 데이터의 분석 및 처리를 위해 사용되는 AWS Glue와 Amazon EMR 같은 AWS Big Data Framework의 내부구조를 살펴보고 머신러닝을 포함한 다양한 분석 및 ETL을 위해 효율적으로 사용할 수 있는 방법들을 소개합니다.
[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdfChris Hoyean Song
I'm posting the slide presented at the Snowflake user group meet up.
NFT Bank has introduced DBT to rebuild and operate the entire data pipeline from scratch.
Data quality control and monitoring are critical as data is at the core of the company.
You can manage your numerous data validation tests in organized way. You can add one data validation test with just single line of yaml.
You can build the data catalog and data lineage docs if you just implement your data pipeline on top of DBT without big effort.
---
Session 1: Data Quality & Productivity
Data Quality
Data Quality Validation
Data Catalog, Lineage Documentation
DBT Introduction
Session 2: Integrate DBT with Airflow
DBT Cloud or Airflow?
Astronomer Cosmos
dbt deps
Session 3: Cost Optimization
Query Optimization
Cost Monitoring
AWS re:Invent 행사는 총 5만여명이 참여하는 전 세계 최대 클라우드 컴퓨팅 컨퍼런스입니다. 클라우드 기술의 미래를 보여 줄 수 있는 새로운 AWS 서비스와 기능이 발표되고 개발자, 비지니스 기획 및 전략가 그리고 파트너들이 새로운 클라우드 기술에 대해 논의하고 공유하는 자리입니다.
본 온라인 세미나는 AWS re:Invent에 관심이 많으시지만 기회가 여의치 않아 참석하지 못하신 분들을 위해 준비하였으며, 새로 발표된 AWS 서비스와 기능을 소개함과 아울러 향후 클라우드 아키텍터를 구성하시는데 필요한 정보를 드리고자 합니다.
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...Amazon Web Services Korea
발표영상 다시보기: https://youtu.be/hPvBst9TPlI
S3 기반의 데이터레이크에서 대량의 데이터 변환과 처리에 사용될 수 있는 가장 대표적인 솔루션이 Apache Spark 입니다. EMR 플랫폼 환경에서 쉽게 적용 가능한 Apache Spark의 성능 향상 팁을 소개합니다. 또한 데이터의 레코드 레벨 업데이트, 리소스 확장, 권한 관리 및 모니터링과 같은 다양한 데이터 워크로드 관리 최적화 방안을 함께 살펴봅니다.
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
기업들은 데이터로부터 insight를 얻기 위해서 부단한 노력을 하고 있습니다. 이를 위해 조직의 데이터를 한 곳에 모아서 보관하는 Data Lake의 구축은 데이터 분석을 위한 중심으로 자리잡고 있습니다. 본 세션에서는 AWS에서 S3를 활용하여 민첩하고 비용효율적인 Data Lake를 구축하는 방법을 소개합니다. 또한 이를 기반으로 AWS의 다양한 데이터 분석 서비스와 연동하는 법을 살펴봅니다.
대상 :
빅 데이터 및 데이터 분석 담당자, AWS 기반 데이터 분석에 관심 있는 모든 분
발표자 :
문종민 솔루션즈 아키텍트, AWS
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...Amazon Web Services Korea
AWS re:Invent에서는 다양한 고객들의 요구에 맞추어 새로운 분석 및 서버리스 서비스가 대거 출시되었습니다. 본 강연에서는 새롭게 출시된 핵심 분석 기능들과 함께, 누구나 손쉽게 사용할 수 있는 AWS의 분석 서버리스와 On-demand 기능들에 대한 심층적인 정보를 확인하실 수 있습니다.
OpenSearch는 배포형 오픈 소스 검색과 분석 제품군으로 실시간 애플리케이션 모니터링, 로그 분석 및 웹 사이트 검색과 같이 다양한 사용 사례에 사용됩니다. OpenSearch는 데이터 탐색을 쉽게 도와주는 통합 시각화 도구 OpenSearch와 함께 뛰어난 확장성을 지닌 시스템을 제공하여 대량 데이터 볼륨에 빠르게 액세스 및 응답합니다. 이 세션에서는 실제 동작 구조에 대한 설명을 바탕으로 최적화를 하기 위한 방법과 운영상에 발생할 수 있는 이슈에 대해서 알아봅니다.
Amazon SageMaker는 머신러닝 프로젝트를 위한 통합 플랫폼입니다. SageMaker의 기능 중 Amazon SageMaker Studio는 머신러닝 통합 개발환경을 제공하여, 데이터를 준비에서부터 모델을 빌드, 교육 및 배포하는 데 필요한 모든 단계를 수행할 수 있습니다. Amazon EMR은 Apache Spark, Apache Hive 및 Presto와 같은 오픈 소스 분석 프레임워크를 사용하여 대규모 분산 데이터 처리 작업, 대화형 SQL 쿼리 및 ML 애플리케이션을 실행하기 위한 빅 데이터 플랫폼입니다. 이 세션에서는 데이터 과학자와 ML 엔지니어가 ML 워크플로우에서 분산 빅 데이터 프레임워크를 쉽게 사용할 수 있도록 상호 서비스 간의 통합에 대하여 데모를 통해 알아봅니다.
An overview of Amazon Kinesis Firehose, Amazon Kinesis Analytics, and Amazon Kinesis Streams so you can quickly get started with real-time, streaming data.
Metrics-Driven Performance Tuning for AWS Glue ETL Jobs (ANT326) - AWS re:Inv...Amazon Web Services
AWS Glue provides a horizontally scalable platform for running ETL jobs against a wide variety of data sources. In this builder's session, we cover techniques for understanding and optimizing the performance of your jobs using AWS Glue job metrics. Learn how to identify bottlenecks on the driver and executors, identify and fix data skew, tune the number of DPUs, and address common memory errors.
Module1 - Amazon Personalize 중심으로 살펴보는 추천 시스템의 원리와 구축
Module 2 - 추천 시스템을 위한 데이터 분석 시스템 구축 하기
Module 3 - E-Commerce 사이트를 보다 Smart 하게 만들기 (Amazon Comprehend & Fraud Detector)
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019Amazon Web Services Korea
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용
김태현 솔루션즈 아키텍트, AWS
AWS에서는 Big Data 분석 및 처리를 위해 분석 목적에 맞는 다양한 Big Data Framework 서비스를 지원합니다. 이 세션에서는 시간이 지날수록 증가하는 데이터의 분석 및 처리를 위해 사용되는 AWS Glue와 Amazon EMR 같은 AWS Big Data Framework의 내부구조를 살펴보고 머신러닝을 포함한 다양한 분석 및 ETL을 위해 효율적으로 사용할 수 있는 방법들을 소개합니다.
[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdfChris Hoyean Song
I'm posting the slide presented at the Snowflake user group meet up.
NFT Bank has introduced DBT to rebuild and operate the entire data pipeline from scratch.
Data quality control and monitoring are critical as data is at the core of the company.
You can manage your numerous data validation tests in organized way. You can add one data validation test with just single line of yaml.
You can build the data catalog and data lineage docs if you just implement your data pipeline on top of DBT without big effort.
---
Session 1: Data Quality & Productivity
Data Quality
Data Quality Validation
Data Catalog, Lineage Documentation
DBT Introduction
Session 2: Integrate DBT with Airflow
DBT Cloud or Airflow?
Astronomer Cosmos
dbt deps
Session 3: Cost Optimization
Query Optimization
Cost Monitoring
AWS re:Invent 행사는 총 5만여명이 참여하는 전 세계 최대 클라우드 컴퓨팅 컨퍼런스입니다. 클라우드 기술의 미래를 보여 줄 수 있는 새로운 AWS 서비스와 기능이 발표되고 개발자, 비지니스 기획 및 전략가 그리고 파트너들이 새로운 클라우드 기술에 대해 논의하고 공유하는 자리입니다.
본 온라인 세미나는 AWS re:Invent에 관심이 많으시지만 기회가 여의치 않아 참석하지 못하신 분들을 위해 준비하였으며, 새로 발표된 AWS 서비스와 기능을 소개함과 아울러 향후 클라우드 아키텍터를 구성하시는데 필요한 정보를 드리고자 합니다.
[AWS & 베스핀글로벌, 바이오∙헬스케어∙제약사를 위한 세미나] AWS 101, Cloud Computing is New NormalBESPIN GLOBAL
AWS와 함께 하는 바이오 ∙ 헬스케어 ∙ 제약사를 위한 클라우드 세미나
'안전하게 클라우드로 날자'
어떻게 하면 클라우드를 통한 디지털 혁신과 비즈니스 성장을 이룰 수 있을까요?
AWS 를 통해 어떤 기업들이 혁신적인 서비스를 제공하고 있을까요?
도입 후에는 어떤 변화가 있고 어떻게 관리해야 할까요?
지난 6월 8일. AWS와 클라우드 전문가 베스핀글로벌이 바이오 · 헬스케어 · 제약 고객들만을 위해 쉽고 빠르게 클라우드를 도입할 수 있는 방법을 제시하는 세미나를 진행했습니다.
클라우드가 뭔지 궁금하지만 잘 모르겠다면, 클라우드를 도입하고는 싶지만 어디서부터 시작해야 할지 감이 오지 않으신다면, 베스핀글로벌과 상의하세요.
Backend.AI (https://backend.ai)는 클라우드 및 온-프레미스 환경에서 여러 사용자가 안전하고 효율적으로 컴퓨팅 자원을 공유할 수 있는 머신러닝에 특화된 인프라 관리 프레임워크입니다. 현재 널리 사용되고 있는 오픈소스 기술인 OpenStack, Kubernetes 등과 비교하여 어떤 특징과 차이점이 있는지 소개하고, 프레임워크의 구조와 기반 기술 및 응용 사례를 데모와 함께 소개합니다.
Similar to 분석가를 위한 Aws 기반의 digital 플랫폼 구축 (20)
2. I. AWS기반의 Digital 플랫폼 전략
II. AWS기반의 Digital 플랫폼 Architecture
1. 분석 플랫폼단순화
2. TCO를 고려한 플랫폼
3. 분석가들을 위한 편리한 Elastic Sandbox 제공
4. Multicloud서비스에 종속되지 않는
Digital 플랫폼 구축
III. AccuInsight+ Use Case
목차
3. I. AWS기반의 Digital 플랫폼 전략
분석 플랫폼
단순화
분석가들을 위한
편리한
Elastic Sandbox
제공
TCO를 고려한
플랫폼
Multicloud서비스에
종속되지 않는
Digital플랫폼
1 2 3 4
7. Batch-Processing
Engine
Real-Time
Processing Engine
데이터생성 Visualization
Data Cataloging (AWS Glue)
Data Security and Governance
Echo
IoT
rule
Amazon
Redshift*
AmazonKinesis
Firehose AmazonKinesis
Analytics
AWS DMS
Amazon
DynamoDB
Amazon
RDSS3 Data Lake
Raw Data
Store
Amazon
Pinpoint*
Analytical Sandboxes
Data
Discovery
Predictive
Modeling
Internet
Amazon API
Gateway
Data Lambda Architecture
Serving
Data Store
SNS
AmazonKinesis
Streams
Amazon ES
Amazon SageMaker
1. 분석 플랫폼단순화
II. AWS기반의 Digital 플랫폼 Architecture
8. AWS Lake Formation
Amazon QuickSight
AWS Data Pipeline
Amazon Managed
Streaming for Kafka
Amazon Athena Amazon Elasticsearch
Service
AWS Glue Amazon Redshift
Amazon Kinesis
Video Streams
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
Amazon CloudSearch Amazon EMR Amazon Kinesis
1. 분석 플랫폼단순화
II. AWS기반의 Digital 플랫폼 Architecture
AccuInsight+
Data InsightDL ModelerDHP
Batch
Pipeline
ML Modeler Real-Time
Pipeline
MCM Data Catalog
R,Python
Modeler
10. 2.TCO를 고려한 플랫폼
II. AWS기반의 Digital 플랫폼 Architecture
총소유비용 TCO(Total Cost of Ownership)란
정의 : 인프라 환경을 온프레미스 (on-premises)와 AWS에서 운영하는 경우를 비교하는 총 소유 비용 분석 (취득 및
운영 비용)
비용최적화를 위한 5가지 방법
11. 1) Compute and Storage 분리한다
IDC PERSPECTIVE
Five Benefits of Decoupling Compute and Storage for Big Data
Deployments
by Ritu Jyoti , 2017
1. CPU 와 Storage 용량의 독립적인 확장
2. 단일화된 중앙 집중 형 데이터 보관
3. Agile 어플리케이션 개발 지원
4. Hybrid cloud 구현 가능(on-premise storage 활용)
5. 단순하고 유연한 소프트웨어 관리
2.TCO를 고려한 플랫폼
II. AWS기반의 Digital 플랫폼 Architecture
Decoupling Compute and Storage 디자인의 장점은 여러 위치의 다양한 소스로부터
발생한 데이터를 유연하게 저장 가능한 저장 플랫폼을, 논리적 혹은 가상의
최적화된 환경으로 쉽고 효과적인 분석 플랫폼을 생성 가능
“Best Practices for Designing Your Data Lake”
Published: 19 October 2016, Gartner, Analyst(s): Nick Heudecker
확장성이 뛰어난 플랫폼을 구축 하기 위해서는 ”Decoupling Compute and Storage” 아키텍처가 반드시
필요합니다.
12. 2) Elastic spot instance 고려
2.TCO를 고려한 플랫폼
II. AWS기반의 Digital 플랫폼 Architecture
13. 13
Ø Compute Node 와 Data Node 를 구분해서 운영가능하다.
Ø Cluster를 종료 후에 다시 Cluster를 구성해도 기존데이터를 읽을 수 있다.
Ø HDFS의 확장에 대해서 신경을 쓰지 않아도 된다.
Ø Amazon guarantees ... 11 x 9's" durability
Ø Build elastic clusters
• Add nodes to read from Amazon S3
• Remove nodes with data safe on Amazon S3
2.TCO를 고려한 플랫폼
II. AWS기반의 Digital 플랫폼 Architecture
3) HDFS로 S3(Object Storage)를 사용했을 때의 장점
14. AccuInsight+
2.TCO를 고려한 플랫폼-(On-premise)
II. AWS기반의 Digital 플랫폼 Architecture
AccuInsight+
Data InsightDL ModelerDHP Batch
Pipeline
ML Modeler Real-Time
Pipeline
MCM Data Catalog
R,Python
Modeler
15. Data APIs
수집
Client
머신
러닝
Workflow
관리
Hadoop
Batch
RDBMS
Batch
Global
W/F
운영
관리
Container 배
포
Infra Layer
Docker Container 관리, Multi-Tenancy, MSA, 인증/권한관리, 작업관리(배치/실시간/ML/DL)
클러스터스케일관리 로그관리(Spark/MapReduce/Tensorflow), 이력관리, 데이터관리/모델관리/모델배포관리(DL)
Object
Storage
Data Lake
Amazon EMR
S3
2.TCO를 고려한 플랫폼-(Public Cloud)
Storage Compute
II. AWS기반의 Digital 플랫폼 Architecture
AccuInsight+
Data InsightDL ModelerDHP Batch
Pipeline
ML Modeler Real-Time
Pipeline
Multi-Cloud Data Catalog
R,Python
Modeler
16. INSTANCE SPEC 1달($) 1일 8시간($)
CDH
(EC2)
Edge Node
Name Node
Data Node
r5.2xlarge
r5.4xlarge
r5.2xlarge
1
2
4
4,674 X 24시간 운영
MCM
(EMR)
Master Node
Core Node
Task Node
r5.2xlarge
r5.4xlarge
r5.2xlarge
1
2
4
1,168 292 운영이 필요 없음
2.TCO를 고려한 플랫폼
TCO를 고려한 플랫폼 고객사 사례
II. AWS기반의 Digital 플랫폼 Architecture
CDH : Cloudera Hadoop
17. 3. 분석가들을 위한 편리한 Elastic Sandbox 제공
II. AWS기반의 Digital 플랫폼 Architecture
19. Analytical Sandbox는 데이터 과학자들이 새로운 가설을 개발하고 테스트하고, Mash-Up하고, 새로운 Use-Case를
형성하기 위해 데이터를 탐색하며, Use-Case를 검증하기위한 빠른 Prototype을 만들고 현실화 할 수 있는 영역
“Demystifying Data Lake Architecture”
Published: 6 July 2017, Medium, Director : Pradeep Menon
분석가들을 위한 Sandbox 제공
분석가들에게 안전한 분석 데이터와 실험적 환경을 제공하는 것이 핵심입니다.
Data Discovery
Exploratory Data Analysis
Predictive Modeling
Analytics Sandbox 역할 Elastic Analytics Sandbox
구현 개념
Data
DW SQL
분석
다양한 분석 툴
활용
Data
카탈로그
ML
3. 분석가들을 위한 편리한 Elastic Sandbox 제공
II. AWS기반의 Digital 플랫폼 Architecture
20. Data APIs
수집
Client
머신
러닝
Workflow
관리
Hadoop
Batch
RDBMS
Batch
Global
W/F
운영
관리
Container
배포
Infra Layer
Docker Container 관리, Multi-Tenancy, MSA, 인증/권한관리, 작업관리(배치/실시간/ML/DL)
클러스터스케일관리 로그관리(Spark/MapReduce), 이력관리, 데이터관리/모델관리/모델배포관리(DL)
Object
Storage
Data Lake
Amazon EMR
S3
Storage Compute
II. AWS기반의 Digital 플랫폼 Architecture
3. 분석가들을 위한 편리한 Elastic Sandbox 제공
AccuInsight+
Data InsightDL ModelerDHP Batch
Pipeline
ML Modeler Real-Time
Pipeline
Multi-Cloud Data Catalog
R,Python
Modeler
21. AWS EMR 란?
AWS에서 Apache 하둡 및 Apache Spark와 같은 빅 데이터 프레임워크 실행을 간소화하는 관리형 클러스터 플랫폼입
니다
Master Node :
클러스터를 관리
노드간에 데이터 및 작업의 분배를 조정
작업 상태를 추적하고 클러스터의 상태를 모니터링
Core Node :
Data Node , 클러스터의 HDFS에 데이터를 저장하는
노드
하나이상의 Core Node가 있어야함.
Task Node :
No HDFS , Provides compute resources
Task Node 는 Optional 이다.
3. 분석가들을 위한 편리한 Elastic Sandbox 제공
II. AWS기반의 Digital 플랫폼 Architecture
Core Task
Worker
22. 22
여러개의 Cluster 서비스에서 데이터를 읽을 수 있다.
: 다수의 분석가들이 각자 Elastic Sandbox 를 이용해서 분석을 수행한다.
S3 butket
다수의분석가를 위한 Elastic Sandbox 제공
SandBox
SandBox
Data Lake 분석가
분석가
3. 분석가들을 위한 편리한 Elastic Sandbox 제공 II. AWS기반의 Digital 플랫폼 Architecture
23. 어제 분석가가 24시간 걸린 학습이
있다고 해서 worker node 10개로 늘려서
다시 돌려 보라했어요. 그랬더니
2시간대로 끝났다고 하네요
3. 분석가들을 위한 편리한 Elastic Sandbox 제공 II. AWS기반의 Digital 플랫폼 Architecture
25. 1) Infrastructure As Code(IAC)
: 유연성이 떨어지는 스크립팅이나 수동 프로세스 대신 코드를 이용
해 시스템을 자동으로 구축, 관리, 프로비저닝 하는 IT 인프라 프로비
저닝 프로세스의 일종이다. 이에 따라 IAC를 때론 '프로그래밍이 가
능한 인프라'라고 부르기도 한다
II. AWS기반의 Digital 플랫폼 Architecture
ØAWS CloudFormation/CDK(Cloud
Development Kit)
ØAzure Resource Manager(ARM Templates)
ØTerraform — open-source IaC tool
ØGoogle Cloud Deployment Manager
ØChef — popular IaC tool
ØAnsible — popular configuration management
tool
4.Multicloud서비스에 종속되지 않는 Digital플랫폼
26. 분석가 업무담당자
Data InsightDL ModelerMCM Batch
Pipeline
ML ModelerReal-Time
Pipeline
Cloud SearchBigQL Data Catalog
R,Python
Modeler
AccuInsight+
II. AWS기반의 Digital 플랫폼 Architecture4.Multicloud서비스에 종속되지 않는 Digital플랫폼
GCP AWS Azure