기업들은 데이터로부터 insight를 얻기 위해서 부단한 노력을 하고 있습니다. 이를 위해 조직의 데이터를 한 곳에 모아서 보관하는 Data Lake의 구축은 데이터 분석을 위한 중심으로 자리잡고 있습니다. 본 세션에서는 AWS에서 S3를 활용하여 민첩하고 비용효율적인 Data Lake를 구축하는 방법을 소개합니다. 또한 이를 기반으로 AWS의 다양한 데이터 분석 서비스와 연동하는 법을 살펴봅니다.
대상 :
빅 데이터 및 데이터 분석 담당자, AWS 기반 데이터 분석에 관심 있는 모든 분
발표자 :
문종민 솔루션즈 아키텍트, AWS
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...Amazon Web Services Korea
AWS re:Invent에서는 다양한 고객들의 요구에 맞추어 새로운 분석 및 서버리스 서비스가 대거 출시되었습니다. 본 강연에서는 새롭게 출시된 핵심 분석 기능들과 함께, 누구나 손쉽게 사용할 수 있는 AWS의 분석 서버리스와 On-demand 기능들에 대한 심층적인 정보를 확인하실 수 있습니다.
OpenSearch는 배포형 오픈 소스 검색과 분석 제품군으로 실시간 애플리케이션 모니터링, 로그 분석 및 웹 사이트 검색과 같이 다양한 사용 사례에 사용됩니다. OpenSearch는 데이터 탐색을 쉽게 도와주는 통합 시각화 도구 OpenSearch와 함께 뛰어난 확장성을 지닌 시스템을 제공하여 대량 데이터 볼륨에 빠르게 액세스 및 응답합니다. 이 세션에서는 실제 동작 구조에 대한 설명을 바탕으로 최적화를 하기 위한 방법과 운영상에 발생할 수 있는 이슈에 대해서 알아봅니다.
AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS 관리 콘솔에서 클릭 몇 번으로 ETL 작업을 생성하고 실행할 수 있습니다. 빅데이터 분석 시 다양한 데이터 소스에 대한 전처리 작업을 할 때, 별도의 데이터 처리용 서버나 인프라를 관리할 필요가 없습니다. 본 세션에서는 지난 5월 서울 리전에 출시한 Glue 서비스에 대한 자세한 소개와 함께 다양한 활용 팁을 데모와 함께 소개해 드립니다.
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019Amazon Web Services Korea
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용
김태현 솔루션즈 아키텍트, AWS
AWS에서는 Big Data 분석 및 처리를 위해 분석 목적에 맞는 다양한 Big Data Framework 서비스를 지원합니다. 이 세션에서는 시간이 지날수록 증가하는 데이터의 분석 및 처리를 위해 사용되는 AWS Glue와 Amazon EMR 같은 AWS Big Data Framework의 내부구조를 살펴보고 머신러닝을 포함한 다양한 분석 및 ETL을 위해 효율적으로 사용할 수 있는 방법들을 소개합니다.
발표영상 다시보기: https://youtu.be/-45noG3dQqo
데이터의 중요성은 더이상 반복할 필요가 없이 모두가 알고 있습니다. 비지니스에서 데이터를 활용하여 혁신하고 성장하는 사례는 전세계 모든 산업에서 확인 할 수 있습니다. AWS에서는 가장 빠르고 쉽게 데이터를 수집하고 분석할 수 있는 Data Lake 아키텍쳐를 가이드하고 직접 고객이 쉽게 빌드 할수 있도록 도와드립니다. 고객이 데이터에 대한 호기심만 가지고 있다면, AWS는 데이터를 통해 원하는 정형/비정형 데이터 분석, Data Warehouse, Machine Learning, Data Science 와 같은 거의 모든 방법을 제공합니다.
이커머스 기업 쿠팡은 폭발적인 성장에 대응하기 위하여 Amazon Aurora 기반의 선택과 집중을 통해 DBA가 보다 의미 있는 일에 투자할 수 있도록 하고 있습니다. 삼성전자의 채팅플러스는 높은 수준의 가용성을 요구하는 통신 서비스의 특성에 맞게 적절한 AWS 데이터베이스를 활용하고 있습니다. 이 세션에서는 쿠팡이 Amazon Aurora를 통하여 얻은 경험 기반의 혁신 사례를 소개하며, 삼성전자에서 수 천만 명의 트래픽을 다루기 위해 Amazon DynamoDB, Amazon ElastiCache for Redis를 활용했던 경험을 공유합니다.
기업들은 데이터로부터 insight를 얻기 위해서 부단한 노력을 하고 있습니다. 이를 위해 조직의 데이터를 한 곳에 모아서 보관하는 Data Lake의 구축은 데이터 분석을 위한 중심으로 자리잡고 있습니다. 본 세션에서는 AWS에서 S3를 활용하여 민첩하고 비용효율적인 Data Lake를 구축하는 방법을 소개합니다. 또한 이를 기반으로 AWS의 다양한 데이터 분석 서비스와 연동하는 법을 살펴봅니다.
대상 :
빅 데이터 및 데이터 분석 담당자, AWS 기반 데이터 분석에 관심 있는 모든 분
발표자 :
문종민 솔루션즈 아키텍트, AWS
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...Amazon Web Services Korea
AWS re:Invent에서는 다양한 고객들의 요구에 맞추어 새로운 분석 및 서버리스 서비스가 대거 출시되었습니다. 본 강연에서는 새롭게 출시된 핵심 분석 기능들과 함께, 누구나 손쉽게 사용할 수 있는 AWS의 분석 서버리스와 On-demand 기능들에 대한 심층적인 정보를 확인하실 수 있습니다.
OpenSearch는 배포형 오픈 소스 검색과 분석 제품군으로 실시간 애플리케이션 모니터링, 로그 분석 및 웹 사이트 검색과 같이 다양한 사용 사례에 사용됩니다. OpenSearch는 데이터 탐색을 쉽게 도와주는 통합 시각화 도구 OpenSearch와 함께 뛰어난 확장성을 지닌 시스템을 제공하여 대량 데이터 볼륨에 빠르게 액세스 및 응답합니다. 이 세션에서는 실제 동작 구조에 대한 설명을 바탕으로 최적화를 하기 위한 방법과 운영상에 발생할 수 있는 이슈에 대해서 알아봅니다.
AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS 관리 콘솔에서 클릭 몇 번으로 ETL 작업을 생성하고 실행할 수 있습니다. 빅데이터 분석 시 다양한 데이터 소스에 대한 전처리 작업을 할 때, 별도의 데이터 처리용 서버나 인프라를 관리할 필요가 없습니다. 본 세션에서는 지난 5월 서울 리전에 출시한 Glue 서비스에 대한 자세한 소개와 함께 다양한 활용 팁을 데모와 함께 소개해 드립니다.
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019Amazon Web Services Korea
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용
김태현 솔루션즈 아키텍트, AWS
AWS에서는 Big Data 분석 및 처리를 위해 분석 목적에 맞는 다양한 Big Data Framework 서비스를 지원합니다. 이 세션에서는 시간이 지날수록 증가하는 데이터의 분석 및 처리를 위해 사용되는 AWS Glue와 Amazon EMR 같은 AWS Big Data Framework의 내부구조를 살펴보고 머신러닝을 포함한 다양한 분석 및 ETL을 위해 효율적으로 사용할 수 있는 방법들을 소개합니다.
발표영상 다시보기: https://youtu.be/-45noG3dQqo
데이터의 중요성은 더이상 반복할 필요가 없이 모두가 알고 있습니다. 비지니스에서 데이터를 활용하여 혁신하고 성장하는 사례는 전세계 모든 산업에서 확인 할 수 있습니다. AWS에서는 가장 빠르고 쉽게 데이터를 수집하고 분석할 수 있는 Data Lake 아키텍쳐를 가이드하고 직접 고객이 쉽게 빌드 할수 있도록 도와드립니다. 고객이 데이터에 대한 호기심만 가지고 있다면, AWS는 데이터를 통해 원하는 정형/비정형 데이터 분석, Data Warehouse, Machine Learning, Data Science 와 같은 거의 모든 방법을 제공합니다.
이커머스 기업 쿠팡은 폭발적인 성장에 대응하기 위하여 Amazon Aurora 기반의 선택과 집중을 통해 DBA가 보다 의미 있는 일에 투자할 수 있도록 하고 있습니다. 삼성전자의 채팅플러스는 높은 수준의 가용성을 요구하는 통신 서비스의 특성에 맞게 적절한 AWS 데이터베이스를 활용하고 있습니다. 이 세션에서는 쿠팡이 Amazon Aurora를 통하여 얻은 경험 기반의 혁신 사례를 소개하며, 삼성전자에서 수 천만 명의 트래픽을 다루기 위해 Amazon DynamoDB, Amazon ElastiCache for Redis를 활용했던 경험을 공유합니다.
SOCAR(쏘카)는 국내 카셰어링 시장의 약 70%를 점유하고 있는 국내 최초 모빌리티 유니콘 기업입니다. SOCAR의 AWS IoT Core를 통한 차량 데이터 수집, Amazon MSK를 활용한 스트리밍 데이터 처리, Amazon ElastiCache for Redis, Amazon DynamoDB 등의 Purpose DB를 활용한 데이터 관리, 그리고 Amazon Redshift 와 Amazon Athena를 활용한 분석까지, AWS를 기반으로 하는 Digital Native 분야 고객의 전체 Data Journey를 소개하고자 합니다.
롯데이커머스의 마이크로 서비스 아키텍처 진화와 비용 관점의 운영 노하우-나현길, 롯데이커머스 클라우드플랫폼 팀장::AWS 마이그레이션 A ...Amazon Web Services Korea
2015 년부터 진행한 실험적 퍼블릭클라우드 운영에 대한 최근 결과를 공유하며 그간 경험한 MSA Architecture 환경, Cost optimization, Operation 관련 내용을 공유합니다. 특히 대규모 운영 환경에서 경험한 다양한 관점의 경험과 비용절감에 대해 인사이트를 제공 예정입니다.
Amazon SageMaker는 머신러닝 프로젝트를 위한 통합 플랫폼입니다. SageMaker의 기능 중 Amazon SageMaker Studio는 머신러닝 통합 개발환경을 제공하여, 데이터를 준비에서부터 모델을 빌드, 교육 및 배포하는 데 필요한 모든 단계를 수행할 수 있습니다. Amazon EMR은 Apache Spark, Apache Hive 및 Presto와 같은 오픈 소스 분석 프레임워크를 사용하여 대규모 분산 데이터 처리 작업, 대화형 SQL 쿼리 및 ML 애플리케이션을 실행하기 위한 빅 데이터 플랫폼입니다. 이 세션에서는 데이터 과학자와 ML 엔지니어가 ML 워크플로우에서 분산 빅 데이터 프레임워크를 쉽게 사용할 수 있도록 상호 서비스 간의 통합에 대하여 데모를 통해 알아봅니다.
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea
기업 환경에 따라 차이는 있겠지만, 최근 대부분의 기업은 데이터 분석 환경이 구축되어 있고, 이를 기반으로 데이터를 분석하고 있습니다. 그럼에도 불구하고 현업에서는 분석하고자 하는 데이터가 없거나 변화하는 비즈니스 요건을 반영하지 못한다는 불만을 제기하고, 분석 환경을 제공하는 IT운영팀은 변화하는 비즈니스 요건에 따라 분석 환경을 적시에 제공하기 쉽지 않다는 어려움을 토로하고 있습니다. 이 해결책으로 운영시스템에 데이터베이스 형태로 존재하고 있거나, 현업의 PC에서 수작업으로 작성한 정형, 비정형 파일을 통합 관리할 수 있고, 또한 인프라 환경의 확장 및 변경을 보다 유연하게 할 수 있는 AWS Cloud 기반의 분석 환경 구축 사례를 소개하고자 합니다.
다시보기 링크: https://youtu.be/YvYfNZHMJkI
Amazon SageMaker 모델 학습 방법 소개::최영준, 솔루션즈 아키텍트 AI/ML 엑스퍼트, AWS::AWS AIML 스페셜 웨비나Amazon Web Services Korea
Amazon SageMaker Training과 Processing에 처음 입문 하고자 하는 분을 위해 동작 방식을 설명하고, 실행할 수 있는 가이드를 제공합니다.사용자는 Amazon SageMaker 노트북을 생성한 다음, 직접 정의한 별도의 GPU 또는 고성능 CPU로 구성된 학습 클러스터에서 학습 코드를 실행하여, 효율적으로 모델 학습과 데이터 전처리, 추론 결과 후처리 또는 모델 평가 등을 할 수 있도록 합니다. 추가적으로 Amazon SageMaker Experiments를 이용하여 학습 실험에 대한 구조화와 평가 메트릭 간의 비교를 체계적으로 관리하는 방법을 소개합니다.
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...Amazon Web Services Korea
LG 이노텍은 세계 시장을 선도하는 글로벌 소재·부품기업으로, Amazon Redshift 을 데이터 분석 플랫폼의 핵심 서비스로 활용하고 있습니다.지속적인 데이터 증가와 업무 확대에 따른 유연한 아키텍처 개선의 필요성에 대처하기 위해, 2022년에 AWS 에서 발표된 Redshift Serverless 를 활용한, 비용 최적화된 아키텍처 개선 과정의 실사례를 엿볼수 있는 기회가 됩니다.
데이터 분석플랫폼을 위한 데이터 전처리부터 시각화까지 한번에 보기 - 노인철 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul ...Amazon Web Services Korea
기업의 비즈니스 혁신의 기반인 데이터 분석 플랫폼은 쉽고 빠르게 구축할 수 있는 방법이 요구됩니다. 이를 위해 본 강연에서는 데이터 전처리를 코드없이 사용자 친화적 유저 인터페이스(GUI)로 수행할 수 있는 AWS Glue DataBrew , 데이터 추출, 변환 및 저장(ETL)을 위한 서버리스 서비스인 AWS Glue Studio, 데이터 카탈로그에 대한 권한통제 방법, 데이터웨어하우스 구축을 위한 Amazon Redshift 의 기술을 소개하고 대규모 데이터웨어하우스(DW) 클러스터간 데이터 공유 방법과 코드없이 기계 학습을 수행할 수 있는 기능들을 알려드립니다.
- 동영상 보기: https://www.youtube.com/watch?v=Rq4I57eqIp4
Amazon RDS 프록시는 Amazon Relational Database Service (RDS)를 위한 완전 관리형 고가용성 데이터베이스 프록시로, 애플리케이션의 확장 성, 데이터베이스 장애에 대한 탄력성 및 보안 성을 향상시킬 수 있습니다. (2020년 6월 서울 리전 출시)
Data Lake는 오늘날 데이터 기반에 의사 결정을 하기 위한 가장 일반적인 데이터 분석 아키텍처로 떠오르고 있습니다. 잘 설계된 Data Lake는 기업이 데이터 자산으로부터 가장 많은 비지니스 가치를 창출하도록 보장합니다. 본 세션을 통해 AWS 기반의 Data Lake 아키텍처를 소개하고, 다양한 사례를 통해 AWS 고객들은 데이터 분석 플랫폼을 어떤 방식으로 설계해서 활용하고 있는지 살펴봅니다.
다시보기 링크: https://youtu.be/mE8V9oNXdrs
디지털, 모바일 First의 시대를 맞아 교보생명그룹은 ‘문화와 금융을 리드하는 선도기업’이라는 슬로건 아래, 그룹 각 계열사들은 전사적인 디지털 전환을 전제로 비즈니스 혁신을 진행 중입니다. 이러한 그룹사의 디지털 혁신을 리딩하고 있는 교보정보통신에서 수행한 클라우드 마이그레이션 사례들을 통해 AWS 서비스를 활용하여 금융.보험 분야에서 어떻게 서비스 혁신을 추진하고 있는 알아봅니다.
Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021Amazon Web Services Korea
Oracle DBMS 는 국내 대기업에서 압도적으로 가장 많이 사용하는 DB 로, 이 세션에서는 Oracle DB 를 AWS 로 이관하는 방법들에 대하여 살펴보겠습니다. 환경에 따라 Oracle DB 를 이관하는 어떤 방법들이 있는지 알아보며, AWS DMS(Database Migration Service) 를 사용하여 효과적으로 이관할수 있는 방법을 소개합니다. Oracle DB 를 클라우드 환경으로 이관할 때 유의해야할 포인트들에 대해 함께 공유합니다.
아름답고 유연한 데이터 파이프라인 구축을 위한 Amazon Managed Workflow for Apache Airflow - 유다니엘 A...Amazon Web Services Korea
Apache Airflow는 복잡한 데이터 처리 파이프라인의 전체적인 프로세스를 자동화하기 위한 워크플로우 관리 플랫폼이며 오픈 소스 커뮤니티에서 활발하게 기여하고 있는 top-level 프로젝트 입니다. AWS는 최근에 Amazon Managed Workflow for Apache Airflow (MWAA) 서비스를 정식 출시하였고, 본 강연에서는 Apache Airflow 및 MWAA를 소개하고 어떻게 AWS 서비스와 연동하여 데이터 처리 워크플로우를 구축할 수 있는지 데모를 통해 알려 드립니다.
영상 다시보기: https://youtu.be/aoQOqhVtdGo
기존 온-프레미스 환경에서 운영 중인 서버들을 AWS 클라우드로 옮겨오기 위한 방법은 무엇일까요? 본 세션에서는 리눅스 서버, 윈도우 서버 그리고 VMWare 등에서 운영되는 기존 서버의 클라우드 이전 방법을 소개합니다. 이를 통해 AWS의 기업 고객이 대량 마이그레이션을 진행했는지 고객 사례도 함께 공유합니다. 뿐만 아니라 VMware on AWS 및 AWS Outpost 같은 하이브리드 옵션을 통해 클라우드 도입을 가속화 하는 신규 서비스 동향도 살펴봅니다.
Amazon Athena is a new serverless query service that makes it easy to analyze data in Amazon S3, using standard SQL. With Athena, there is no infrastructure to setup or manage, and you can start analyzing your data immediately. You don’t even need to load your data into Athena, it works directly with data stored in S3.
SOCAR(쏘카)는 국내 카셰어링 시장의 약 70%를 점유하고 있는 국내 최초 모빌리티 유니콘 기업입니다. SOCAR의 AWS IoT Core를 통한 차량 데이터 수집, Amazon MSK를 활용한 스트리밍 데이터 처리, Amazon ElastiCache for Redis, Amazon DynamoDB 등의 Purpose DB를 활용한 데이터 관리, 그리고 Amazon Redshift 와 Amazon Athena를 활용한 분석까지, AWS를 기반으로 하는 Digital Native 분야 고객의 전체 Data Journey를 소개하고자 합니다.
롯데이커머스의 마이크로 서비스 아키텍처 진화와 비용 관점의 운영 노하우-나현길, 롯데이커머스 클라우드플랫폼 팀장::AWS 마이그레이션 A ...Amazon Web Services Korea
2015 년부터 진행한 실험적 퍼블릭클라우드 운영에 대한 최근 결과를 공유하며 그간 경험한 MSA Architecture 환경, Cost optimization, Operation 관련 내용을 공유합니다. 특히 대규모 운영 환경에서 경험한 다양한 관점의 경험과 비용절감에 대해 인사이트를 제공 예정입니다.
Amazon SageMaker는 머신러닝 프로젝트를 위한 통합 플랫폼입니다. SageMaker의 기능 중 Amazon SageMaker Studio는 머신러닝 통합 개발환경을 제공하여, 데이터를 준비에서부터 모델을 빌드, 교육 및 배포하는 데 필요한 모든 단계를 수행할 수 있습니다. Amazon EMR은 Apache Spark, Apache Hive 및 Presto와 같은 오픈 소스 분석 프레임워크를 사용하여 대규모 분산 데이터 처리 작업, 대화형 SQL 쿼리 및 ML 애플리케이션을 실행하기 위한 빅 데이터 플랫폼입니다. 이 세션에서는 데이터 과학자와 ML 엔지니어가 ML 워크플로우에서 분산 빅 데이터 프레임워크를 쉽게 사용할 수 있도록 상호 서비스 간의 통합에 대하여 데모를 통해 알아봅니다.
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea
기업 환경에 따라 차이는 있겠지만, 최근 대부분의 기업은 데이터 분석 환경이 구축되어 있고, 이를 기반으로 데이터를 분석하고 있습니다. 그럼에도 불구하고 현업에서는 분석하고자 하는 데이터가 없거나 변화하는 비즈니스 요건을 반영하지 못한다는 불만을 제기하고, 분석 환경을 제공하는 IT운영팀은 변화하는 비즈니스 요건에 따라 분석 환경을 적시에 제공하기 쉽지 않다는 어려움을 토로하고 있습니다. 이 해결책으로 운영시스템에 데이터베이스 형태로 존재하고 있거나, 현업의 PC에서 수작업으로 작성한 정형, 비정형 파일을 통합 관리할 수 있고, 또한 인프라 환경의 확장 및 변경을 보다 유연하게 할 수 있는 AWS Cloud 기반의 분석 환경 구축 사례를 소개하고자 합니다.
다시보기 링크: https://youtu.be/YvYfNZHMJkI
Amazon SageMaker 모델 학습 방법 소개::최영준, 솔루션즈 아키텍트 AI/ML 엑스퍼트, AWS::AWS AIML 스페셜 웨비나Amazon Web Services Korea
Amazon SageMaker Training과 Processing에 처음 입문 하고자 하는 분을 위해 동작 방식을 설명하고, 실행할 수 있는 가이드를 제공합니다.사용자는 Amazon SageMaker 노트북을 생성한 다음, 직접 정의한 별도의 GPU 또는 고성능 CPU로 구성된 학습 클러스터에서 학습 코드를 실행하여, 효율적으로 모델 학습과 데이터 전처리, 추론 결과 후처리 또는 모델 평가 등을 할 수 있도록 합니다. 추가적으로 Amazon SageMaker Experiments를 이용하여 학습 실험에 대한 구조화와 평가 메트릭 간의 비교를 체계적으로 관리하는 방법을 소개합니다.
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...Amazon Web Services Korea
LG 이노텍은 세계 시장을 선도하는 글로벌 소재·부품기업으로, Amazon Redshift 을 데이터 분석 플랫폼의 핵심 서비스로 활용하고 있습니다.지속적인 데이터 증가와 업무 확대에 따른 유연한 아키텍처 개선의 필요성에 대처하기 위해, 2022년에 AWS 에서 발표된 Redshift Serverless 를 활용한, 비용 최적화된 아키텍처 개선 과정의 실사례를 엿볼수 있는 기회가 됩니다.
데이터 분석플랫폼을 위한 데이터 전처리부터 시각화까지 한번에 보기 - 노인철 AWS 솔루션즈 아키텍트 :: AWS Summit Seoul ...Amazon Web Services Korea
기업의 비즈니스 혁신의 기반인 데이터 분석 플랫폼은 쉽고 빠르게 구축할 수 있는 방법이 요구됩니다. 이를 위해 본 강연에서는 데이터 전처리를 코드없이 사용자 친화적 유저 인터페이스(GUI)로 수행할 수 있는 AWS Glue DataBrew , 데이터 추출, 변환 및 저장(ETL)을 위한 서버리스 서비스인 AWS Glue Studio, 데이터 카탈로그에 대한 권한통제 방법, 데이터웨어하우스 구축을 위한 Amazon Redshift 의 기술을 소개하고 대규모 데이터웨어하우스(DW) 클러스터간 데이터 공유 방법과 코드없이 기계 학습을 수행할 수 있는 기능들을 알려드립니다.
- 동영상 보기: https://www.youtube.com/watch?v=Rq4I57eqIp4
Amazon RDS 프록시는 Amazon Relational Database Service (RDS)를 위한 완전 관리형 고가용성 데이터베이스 프록시로, 애플리케이션의 확장 성, 데이터베이스 장애에 대한 탄력성 및 보안 성을 향상시킬 수 있습니다. (2020년 6월 서울 리전 출시)
Data Lake는 오늘날 데이터 기반에 의사 결정을 하기 위한 가장 일반적인 데이터 분석 아키텍처로 떠오르고 있습니다. 잘 설계된 Data Lake는 기업이 데이터 자산으로부터 가장 많은 비지니스 가치를 창출하도록 보장합니다. 본 세션을 통해 AWS 기반의 Data Lake 아키텍처를 소개하고, 다양한 사례를 통해 AWS 고객들은 데이터 분석 플랫폼을 어떤 방식으로 설계해서 활용하고 있는지 살펴봅니다.
다시보기 링크: https://youtu.be/mE8V9oNXdrs
디지털, 모바일 First의 시대를 맞아 교보생명그룹은 ‘문화와 금융을 리드하는 선도기업’이라는 슬로건 아래, 그룹 각 계열사들은 전사적인 디지털 전환을 전제로 비즈니스 혁신을 진행 중입니다. 이러한 그룹사의 디지털 혁신을 리딩하고 있는 교보정보통신에서 수행한 클라우드 마이그레이션 사례들을 통해 AWS 서비스를 활용하여 금융.보험 분야에서 어떻게 서비스 혁신을 추진하고 있는 알아봅니다.
Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021Amazon Web Services Korea
Oracle DBMS 는 국내 대기업에서 압도적으로 가장 많이 사용하는 DB 로, 이 세션에서는 Oracle DB 를 AWS 로 이관하는 방법들에 대하여 살펴보겠습니다. 환경에 따라 Oracle DB 를 이관하는 어떤 방법들이 있는지 알아보며, AWS DMS(Database Migration Service) 를 사용하여 효과적으로 이관할수 있는 방법을 소개합니다. Oracle DB 를 클라우드 환경으로 이관할 때 유의해야할 포인트들에 대해 함께 공유합니다.
아름답고 유연한 데이터 파이프라인 구축을 위한 Amazon Managed Workflow for Apache Airflow - 유다니엘 A...Amazon Web Services Korea
Apache Airflow는 복잡한 데이터 처리 파이프라인의 전체적인 프로세스를 자동화하기 위한 워크플로우 관리 플랫폼이며 오픈 소스 커뮤니티에서 활발하게 기여하고 있는 top-level 프로젝트 입니다. AWS는 최근에 Amazon Managed Workflow for Apache Airflow (MWAA) 서비스를 정식 출시하였고, 본 강연에서는 Apache Airflow 및 MWAA를 소개하고 어떻게 AWS 서비스와 연동하여 데이터 처리 워크플로우를 구축할 수 있는지 데모를 통해 알려 드립니다.
영상 다시보기: https://youtu.be/aoQOqhVtdGo
기존 온-프레미스 환경에서 운영 중인 서버들을 AWS 클라우드로 옮겨오기 위한 방법은 무엇일까요? 본 세션에서는 리눅스 서버, 윈도우 서버 그리고 VMWare 등에서 운영되는 기존 서버의 클라우드 이전 방법을 소개합니다. 이를 통해 AWS의 기업 고객이 대량 마이그레이션을 진행했는지 고객 사례도 함께 공유합니다. 뿐만 아니라 VMware on AWS 및 AWS Outpost 같은 하이브리드 옵션을 통해 클라우드 도입을 가속화 하는 신규 서비스 동향도 살펴봅니다.
Amazon Athena is a new serverless query service that makes it easy to analyze data in Amazon S3, using standard SQL. With Athena, there is no infrastructure to setup or manage, and you can start analyzing your data immediately. You don’t even need to load your data into Athena, it works directly with data stored in S3.
모바일 게임과 앱을 위한 오픈소스 게임서버 엔진 프로젝트 CloudBread 프로젝트Dae Kim
CloudBread
클라우드 기반 무료 오픈소스 프로젝트로, 모바일 게임과 모바일 앱에 최적화된 게임 서버 엔진입니다. 모든 서비스는 마이크로소프트의 클라우드 서비스인 Azure에 최적화되어 동작하며, 안정성과 확장성을 목표로 개발 중입니다.
기능
•PaaS / DaaS 서버 엔진•PaaS, DaaS 로 손쉬운 개발 및 서비스 즉시 배포
•Real Auto Scale - PaaS
•개발/테스트/배포 = 통합 환경
•서비스 규모에 따른 앱 변경 없음
글로벌 론칭 아키텍처
•글로벌 론칭+데이터 동기화
•설계 부터 클라우드에 최적화된 아키텍처 및 프레임워크로 개발
•오픈소스 프레임워크 활용 개발
보안, 관리, 기술교육
•저장/통신에 표준 암호화 기술 적용
•기본 관리자 서비스 및 커스터마이징
•분석/관리 배치 작업 추가 제작 가능
개발자 그룹
•페이스북 사용자 그룹 : https://www.facebook.com/groups/cloudBreadProject/
지원되는 모바일 & 클라이언트환경
•iOS, Android, Windows Phone, Windows 스토어앱, Xamarin, PhoneGap, Sencha 등
•Microsoft Azure Mobile Service가 지원하는 모바일 및 다양한 클라이언트 플랫폼 지원 : http://azure.microsoft.com/ko-kr/documentation/services/mobile-services/
설치
•Wiki의 튜토리얼 설치 참조
프로젝트 설명
•모바일게임과 모바일 앱에서 사용되는 사용자의 패턴과 액션을 기록해 기능들을 제공
•클라이언트 모바일 디바이스는 게임서버로 JSON 방식의 데이터를 요청하고 서버가 해당 데이터를 처리 후 응답
•약 100여개의 비즈니스 로직이 기본제공(Wiki 참조)
•클라이언트는 마이크로소프트가 오픈소스로 직접 만들어 제공하는 라이브러리를 통해 서버로 API를 호출
실행 예제와 API 리스트는 Wiki 참조
Contribute/질문/토론
•페이스북 사용자 그룹 : https://www.facebook.com/groups/cloudBreadProject/
본 강연에서는 금융 감독원의 클라우드 이용 가이드라인에 맞추어 바로 도입 가능한 HPC, 빅데이터, 백업, VDI 등의 업무에 대하여 간단하게 소개하고 AWS 상에서 구축하기 위한 참조 아키텍쳐와 특장점 및 고객 사례에 대해 설명해 드릴 예정입니다.
연사: 정영준 솔루션 아키텍트, 아마존 웹서비스
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...BESPIN GLOBAL
기존 레거시(Legacy) 시스템이 가지고 있는 변화하는 기술에 대한 빠른 대응과 비즈니스 어플리케이션 배포의 한계 등을 극복하기 위한 대안인 클라우드 도입.
클라우드 국내 도입 현황과 클라우드로 마이그레이션을 해야 하는 이유를 실제 사례를 통해 알려드립니다.
클라우드를 통해 비즈니스 혁신을 가속화하고 쉽고 정학하게 구현하실 수 있습니다.
[목차]
1. 클라우드 국내 도입 현황과 클라우드로 마이그레이션을 해야 하는 이유
2. 클라우드 마이그레이션의 기본 프로세스, 전략, 비용 절감 효과, 로드맵
3. 베스핀글로벌 구축 사례 : 오비맥주의 마이그레이션 사례 공유
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...Amazon Web Services Korea
AWS의 빅데이터 서비스들이 데이터 파이프라인 상에서 어떻게 활용 되는지와 데이터 모델링과 플랫폼 구축을 100% 내재화 하여 AWS와 함께 고객기반 서비스의 경쟁력을 강화 해나가는 고객 사례를 전해 드립니다. 국내 뷰티산업을 리딩 하고 있는 아모레퍼시픽에서 온/오프라인 고객 정보를 AWS 기반의 Data Lake로 통합 하고 고객 관점의 데이터 서비스를 출시 하는데 속도를 높이고 있는 성공 스토리를 직접 전해 드립니다.
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
Session 1. 디지털 트렌스포메이션의 핵심, 클라우드 마이그레이션 A to Z - 베스핀글로벌 이근우 위원BESPIN GLOBAL
전 세계적으로 클라우드 기반의 디지털 트랜스포메이션이 빠르게 진행되고 있음에도 불구하고, 기업에서 클라우드를 도입하고 마이그레이션 하는 과정은 여전히 어려움이 많습니다. 성공적인 마이그레이션은 클라우드로의 단순 인프라 변경에서 그치는 것이 아니라 비즈니스와 프로세스가 함께 변화할 때 완성될 수 있습니다.
그리고 그 변화의 중심에는 인공지능(AI)과 머신러닝(ML)이 있습니다. 인공지능과 머신러닝은 모든 것을 자동화하여 스스로 데이터를 분류하며 유의미한 가치를 찾아냅니다. 바로 여기에서부터 기업의 비즈니스 혁신은 시작됩니다.
클라우드로의 디지털 트랜스포메이션 전략과 인공지능/머신러닝을 활용한 비즈니스 혁신 방법 중, 어떻게 성공적으로 클라우드 마이그레이션을 할 수 있을지에 대해 이번 세션을 통해 알아보겠습니다.
Similar to AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 (20)
자연어 처리 ML모델을 활용한 이커머스 문제 해결하기 - 진현두 (카카오스타일) :: AWS Community Day Online 2021AWSKRUG - AWS한국사용자모임
이커머스에서 가장 중요한 사용자 리뷰! 사용자 리뷰 내 특정 키워드 관련 표현을 스마트하게 찾고, 하이라이팅 정보를 제공하는 ML모델 개발하여 서비스에 반영하였습니다. 복잡한 전처리와 모델링전반의 프로세스를 Amazon SageMaker + Custom Docker 로 구현 방법을 소개합니다.
자바개발자가 최대한 빠르게 서비스를 오픈하는 방법 - 최진환 (드라마앤컴퍼니) :: AWS Community Day Online 2021AWSKRUG - AWS한국사용자모임
사이드프로젝트를 진행하면서 겪은 다양한 인프라 구축 노하우를 소개합니다.왜 EKS가 아닌 Elastic Beanstalk를 사용했는지, Codepipeline을 이용한 깃헙에서 배포까지의 플로우, AWS ChatBot을 사용한 모니터링과 CodeBuild로 빌드하기 등을 소개합니다.
EKS에서 Opentelemetry로 코드실행 모니터링하기 - 신재현 (인덴트코퍼레이션) :: AWS Community Day Online...AWSKRUG - AWS한국사용자모임
EKS환경에서 Opentelemetry와 Jaeger를 활용하여 서버의 코드가 잘 동작하는지 어떤로직에서 문제가 발생했는지 모니터링 하는 방법을 알아봅니다. 마지막으로 Grafana를 이용해 쉽게 원하는 코드를 조회 하는 방법도 실습해볼 예정입니다. K8S를 모르셔도 참석할 수 있습니다.
6. 데이터 분석의 딜레마
데이터로 하고 싶은일
● 마케팅/광고 최적화, 개인화
● 고객 이탈 방지
● 원인 분석
● 매출 증대
● 성과 측정
● 트렌드 파악/예측
● 쉽고 편한 분석
이미 겪고 있거나 예상되는 문제점들
● 데이터 한군데 저장 어려움
● 다양한 데이터 포맷 정제 필요
● 일단 실험에 드는 부담
● 레거시 vs 신규 시스템
● 기술 내재화 어려움
● 채용 어려움
● 시간도 돈도 없음
● 법과 규제에 따른 데이터 활용 제약 (공유, 식별)
7. 데이터레이크 정의
참고 - https://www.samsungsds.com/global/ko/support/insights/data_lake.html
8. 데이터레이크 @AWS
● Centralized repository that allows you to
store all your structured and unstructured
data at any scale.
● From dashboards and visualizations to big
data processing, real-time analytics, and
machine learning to guide better decisions.
참고 - https://aws.amazon.com/ko/big-data/datalakes-and-analytics/what-is-a-data-lake/
9. 데이터레이크 @AWS
참고 - https://aws.amazon.com/ko/blogs/korea/build-a-data-lake-foundation-with-aws-glue-and-amazon/
10. DataOps
@Wikipedia
DataOps is an automated, process-oriented methodology, used by analytic and data teams, to
improve the quality and reduce the cycle time of data analytics.
@The DataOps Manifesto
Data Science, Data Engineering, Data Management, Big Data,
Business Intelligence, or the like, through our work we have come to value in analytics
11. DataOps 원칙
https://www.dataopsmanifesto.org/dataops-manifesto.html
1. Continually satisfy your customer - 지속적으로 고객을 만족시켜라
2. Value working analytics - 분석을 가치있게 생각하라
3. Embrace change - 변화 수용
4. It's a team sport - 다양한 역할, 기술, 도구 수용
5. Daily interactions - 매일 협력
6. Self-organize - 자기주도
7. Reduce heroism - 영웅주의를 줄여라
8. Reflect - 반성하라
9. Analytics is code - 분석은 코드다
10. Orchestrate - 결합하라
11. Make it reproducible - 재현 가능하게 만들어라
12. Disposable environments - 비용 최소화
13. Simplicity - 단순성
14. Analytics is manufacturing - 분석은 제조와 같다
15. Quality is paramount - 품질이 제일 중요
16. Monitor quality and performance - 품질 및 성능을 모니터링하라
17. Reuse - 재사용하라
18. Improve cycle times - 사이클 타임을 개선하라
12. 이상적인 DataOps
• 목표를 중심으로 스스로 조직
• No Hero, Sustainable, Scalable, Process 지향
• Data, Tool, Code, Environment 모두 장악이 필요함
• Reproducible 결과물 -> 분석 Pipeline
• Cross-Functional Team(교차기능 팀)
• Dev, Architect, Ops, Data Scientist, Data Engineer 모두 포함
• 개발자, 운영자, 데이터전문가 (3자 협업 구도)
• 데이터 중심 사고를 하는 사람들이 모여서 일을 하는 것
13. 하지만 엔터프라이즈에서는?
• 경영 환경의 변화에 따른 Data 관리 어려움
• 분산된 환경으로 인한 Data Silo 문제
• Data 기반 의사결정 문화 확산 어려움
• 사용자 별 다양한 분석 환경 부족
16. 설계 고려 사항
● No-Ops : Remove existing management (Serverless)
● GitOps : All infra, codes, and scripts are managed in immutable state
● Automation : Communications, Approvals, SRs, Issues
● 우리는 데이터가 없으니 어떤 가치를 줄 수 있을까?
17. S3 데이터레이크 @AWS
참고 - https://aws.amazon.com/ko/blogs/korea/build-a-data-lake-foundation-with-aws-glue-and-amazon/
18. 서버리스 아키텍쳐 @Woot.com
참고 - https://aws.amazon.com/ko/blogs/korea/our-data-lake-story-how-woot-com-built-a-serverless-data-lake-on-aws/
구성사례 : AWS Glue를 사용하여 완전한 서버리스 데이터 웨어하우스로 전환
23. 데이터 수집 (스트리밍)
Kinesis Data Firehose
- 스트리밍 데이터를 데이터 레이크에 로드하는 가장 쉬운 방법
참고 : https://aws.amazon.com/ko/kinesis/data-firehose/
24. 데이터 수집 (스트리밍)
Kinesis Data Firehose
- 스트리밍 데이터를 데이터 레이크에 로드하는 가장 쉬운 방법
AWS Cloud
Kinesis
Data Firehose
Transformed Data Ingest Zone
S3
Backup S3
Java Application
(Kinesis Client Library)
Sink for Apache Flume
Streaming Data
Transfer
Local File
Streaming Transfer
• Batch Size/ Interval Config
• Compression (gzip, snappy)
• Data Format Conversion (JSON to Parquet)
• Encryption – KMS integration
25. 직접 S3 전송
S3 Transfer Acceleration
- 클라이언트와 S3 버킷 사이에서 파일을 빠르고 쉽고 안전하게 장거리 전송
31. 데이터 분석
Sagemaker
- 기계 학습 모델을 빠르고 쉽게 구축, 훈련하고 배포까지 지원하는 서비스
레이블 구축 학습 및 튜닝 배포 및 관리
참고 : https://aws.amazon.com/ko/sagemaker/
32. 데이터 분석
• Jupyter 샌드박스 제공
• Lifecycle 구성 스크립트 활용하여 사전 환경 구성
• https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples
• 사용량 빌링을 위한 Cost Explorer API 연동
• Assume Role을 활용한 원격 Account 분석환경 구성
Sagemaker Jupyter 노트북 : 모델 배치/테스트/검증
33. 데이터 분석
AWS Cloud (Datalake Account)
AWS Cloud (Customer Account)
Landing S3
Glue
Data
Catalog
ECS
(Portal)
Refined S3
Private
Blockchain
Marketplace
Blockchain
API
Replication
SageMaker
API
Data
Scientist
Jupyter
Notebook
VPC
Endpoint
Provisioning
(Assume Role)
Lifecycle configuration Script
- Package Install, Update
- Idle Auto Stop
- Volume Mount
- Git Config
Sagemaker Jupyter 노트북 : 모델 배치/테스트/검증
34. 데이터 분석
① 알고리즘 선정 ② 학습 수행 ③ 모델 배포 ④ endpoint 생성 ⑤ endpoint 통해 모델 실행
40. 데이터 분석 (BI)
- SPICE(QuickSight용 인 메모리 최적화 계산 엔진) 활용하여 주기적인 업데이트
- 3rd Party BI활용 : Redshift - Tableau Server - 포털 연동
AWS Cloud
Athena
Redshift
QuickSight
Refined S3
Table Update
(Daily)
Table
SPICE
Athena Query
Update (Daily)
Tableau
Server
ECS
(Portal)
Dashboard
Dashboard
41. 데이터 포털 개발
- 서버리스 환경을 위한 ECS(Elastic Container Service) 사용
42. 데이터 포털 개발
AWS Cloud
Markdown Github
Build Deploy
Lambda
(Prevent Cold Start)
CloudWatch
Event
CloudFront
GET /docs
Portal
User
Internet
S3 (docs)
S3 (Landing)
ECS (Portal) Sagemaker
CustomerLambda@Edge
/docs
/index.html
/analy
Routing
Route 53
Admin
GithubDeveloper
Build DeployTest
ECR
43. 데이터레이크 on SK C&C
Data 서비스 Portal
Blockchain 기반 '동의관리'
Data Infra
정제 분석 시각화
Vertical P/F
(Healthcare..)
Ecosystem
Service Portal
Best-of-breed
COEUS
데이터 없는 데이터레이크 플랫폼 – SI 특화
48. 정리
• S3 중심 서버리스 아키텍처도 충분히 적용 가능
• 완전관리형 서비스만이 정답은 아님 (Challenge)
• 기존 Hadoop ecosystem 통합
• 기존 조직과의 R&R (정보보호, 개발, 인프라)
• 서버리스 컴퓨팅 자원 : EKS on Fargate 검토 (서울 리전은 언제?)