SlideShare a Scribd company logo
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
효율적인 빅데이터 분석 및 처리를 위한
Glue, EMR 활용
Taehyun Kim
Analytics Specialist SA
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
§Introduction
§Glue Internal
§Items
§ Item1: 많은 수의 작은 파일 처리
§ Item2: 작은 수의 큰 파일 처리
§ Item3: 병렬처리 최적화
§ Item4: JDBC 파티션
§ Item5: Scheduler
§ Item6: Python shell
§ Item7: Glue vs EMR
§Demo
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
약 1년 전 …
완전 관리형 서버리스 ETL(extract-transform-load) 서비스
개발자를 위해, 개발자에 의해
이미 많은 고객이 업무에 Glue를 활용 중
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue 서버리스 Data Catalog & ETL 서비스
Data Catalog
ETL Job
authoring
Discover data and
extract schema
Auto-generates
customizable ETL code
in Python and Scala
자동으로 데이터 검색 후 스키마 저장
데이터는 검색가능하고 ETL에 사용할 수 있음
사용자 정의 코드 자동 생성
ETL 작업 예약 및 실행
개방형 표준 기반으로 서버리스하면서 유연함
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data lake with AWS Glue
Amazon S3
(Raw data)
Amazon S3
(Staging
data)
Amazon S3
(Processed data)
AWS Glue Data Catalog
Crawlers Crawlers Crawlers
Data Move Data Lake Analyze
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data lake with AWS Glue
Amazon S3
(Raw data)
Amazon S3
(Staging
data)
Amazon S3
(Processed data)
AWS Glue Data Catalog
Crawlers Crawlers Crawlers
Data Move Data Lake Analyze
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue 고객
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Glue는 계속 발전 중
Metadata access
policies for AWS Glue
Data Catalog
Amazon SageMaker
notebooks
Encryption
at rest
Canada central
region
Crawler combine
compatible schemas
ETL job
metrics
Amazon DynamoDB
integration
Job delay
notification
London
region
Seoul
region
Crawler merge
new columns
Mumbai
region
Support Apache
Spark 2.2.1
ETL job
timeout
Singapore
region
Sydney
region Readers support
JSONPath expressions
New Job
Events Types
Support for
Scala scripts
Tokyo
region
Crawler CWE
notifications
XML support AWS CloudTrail
support
Amazon CloudFormation
templates
Crawler exclusion
patterns
Per-second
billing
DynamicFrame
Filter and Map
HIPAA compliance Ireland, Oregon,
Ohio region
Frankfurt
region
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Glue ETL은 언제 사용해야 할까 ?
• Scale out
• 처리해야 할 데이터 사이즈가 너무 커서 장비 한 대에서 처리 불가능할 때
• Speed up
• 장비 한 대에서 처리할 수 있으나 시간이 너무 오래 걸릴 때
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue 실행 모델
• 하나의 Driver와 다수의 Executors가 존재
Driver
Executors
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Glue 환경
• Standard
• 1 DPU(m4.xlarge)
• 4vCPU
• 16G RAM
• 2 executors
• 1 Driver
• 5G RAM
• 1 Executor
• 5G RAM
• 4 Tasks
• G.1X
• 1 Worker
• 4vCPU
• 16G RAM
• 1 executor
• 1 Driver
• 10G RAM
• 1 Executor
• 10G RAM
• 8 Tasks
• G.2X
• 1 Worker
• 8vCPU
• 32G RAM
• 1 executor
• 1 Driver
• 20G RAM
• 1 Executor
• 20G RAM
• 16 Tasks
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Glue 환경
• Glue Standard Job
• Minimum DPU: 2
• Default DPU: 10
• Ex) 10 DPU Job
• 10 node cluster
• 1 Master + 9 Core Nodes
• 18 executors
• 1 driver
• 17 executors
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Glue 환경
• Internal argument to AWS Glue
• --conf
• --debug
• --mode
• --JOB_NAME
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Glue Job 기본 Template
1. Initialize
2. Read
3. Transform data
4. Write
## Initialize
glueContext = GlueContext(SparkContext.getOrCreate())
## Create DynamicFrame and retrieve data from source
ds0 = glueContext.create_dynamic_frame.from_catalog (
database = "mysql", table_name = "customer",
transformation_ctx = "ds0")
## Implement data transformation here
ds1 = ds0 ...
## Write DynamicFrame from Catalog
ds2 = glueContext.write_dynamic_frame.from_catalog (
frame = ds1, database = "redshift",
table_name = "customer_dim",
redshift_tmp_dir = args["TempDir"],
transformation_ctx = "ds2")
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Apache Spark
Spark core: RDDs
SparkSQL
Dataframes DynamicFrames
AWS Glue ETL
Apache Spark
데이터 병렬 분산 처리 프레임워크
내결함성 내장
유연한 Interface: Scala, Java, Python, SQL, R
풍부한 eco-system: ML, Stream, Graph, Analytics, …
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Apache Spark vs AWS Glue ETL
Spark core: RDDs
SparkSQL
Dataframes DynamicFrames
AWS Glue ETL
Apache Spark
데이터 병렬 분산 처리 프레임워크
내결함성 내장
유연한 Interface: Scala, Java, Python, SQL, R
풍부한 eco-system: ML, Stream, Graph, Analytics, …
AWS Glue ETL libraries
통합: Data Catalog, Job Orchestration, Code-
Generation, Job Bookmarks, S3, RDS
ETL transforms, 다양한 connectors & formats
새로운 데이터 구조: DynamicFrames
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
DataFrames vs DynamicFrames
DataFrames
SparkSQL의 핵심 데이터 구조
구조화된 테이블과 유사:
사전에 정의된 스키마 필요
각 행은 동일한 구조를 가짐
SQL과 같은 분석에 적합
DynamicFrames
ETL dataframe과 유사
semi-structured 데이터 처리를 위해 설계,
e.g. JSON, Avro, Apache logs ...
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue transforms
toDF()
Spigot()
Filter()
Join()
ResolveChoice():
fromDF()
Unbox()
Map()
ApplyMapping():
Relationalize():
And more ….
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
성능: AWS Glue ETL
0
200
400
600
800
1000
1200
1400
1600
1800
Day Month Year
GitHub Timeline ETL Performance
DynamicFrames DataFrames
Time(sec)
Data size (# files)
24 744 8699
(lower is better)
On average: 2x 성능 향상
Configuration
10 DPUs
Apache Spark 2.1.1
Workload
JSON 에서 CSV 변환
Pull event만 제거
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
성능: 많은 수의 작은 파일 처리
0
1000
2000
3000
4000
5000
6000
7000
8000
1:2K 20:40K 40:80K 80:160K 160:320K 320:640K 640: 1280K
AWS Glue ETL small file scalability
Spark Glue
1.2 Million Files
Spark
Out-Of-Memory
>= 320: 640K files
Grouping
Time(sec)
# partitions : # files
많은 수의 작은 파일 처리
e.g. Kinesis Firehose
Vanilla Apache Spark (2.1.1) overheads
파티션을 재구성해야 함 (2-pass)
너무 많은 작업: task per file
스케줄링 및 메모리 오버헤드
AWS Glue DynamicFrames
Data Catalog와 통합
자동으로 파일 그룹화
크롤러 통계 사용
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
많은 수의 작은 파일 처리
• JSON에서 Parquet로 format 변경 job
• 128만개 JSON 파일이 640개 partition으로 구성:
part1/
file1.json
…
file2000.json
part640/
file1.json
…
file2000.json
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
많은 수의 작은 파일 처리
• SparkSQL job
data = spark.read.format("json").load("<input_location>")
data.write.format("parquet").save("<output_location>")
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
많은 수의 작은 파일 처리
• Driver 에 할당된 5G 메모리가 빠르게 소비
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
많은 수의 작은 파일 처리
• AWS Glue DynamicFrames
df = glueContext.create_dynamic_frame_from_catalog("<database>","<table>")
glueContext.write_from_options(df,"s3",{"path":"<output_location>"},"parquet")
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
많은 수의 작은 파일 처리
Driver memory remains below 50%
for the entire duration of execution.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Grouping Options
• groupFiles
• inPartition
• acrossPartition
• groupSize
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
작은 수의 큰 파일 처리
• 5개의 큰 csv 파일이 존재
• 3가지 파일 압축 형식 테스트:
• 1.6 GB gzip
• 1.3 GB bzip2
• 12.5 GB 압축 X
• CSV에서 Parquet로 포맷을 변경하는 Job 테스트
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
1.6 GB gzip 파일 처리
• 한개의 파일은 하나의 파티션으로 구성되어 5개 파티션이 존재
• Job은 실행된 지 2시간이 지나 실패
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
1.3 GB bzip2 파일 처리
• Bzip2 파일은 split 될 수 있어 104개의 task가 실행된 것을 확인할 수 있음
• Job은 약 18분 정도 걸려 정상적으로 완료
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
12.5 GB 압축되지 않은 파일 처리
• 압축되지 않은 파일은 라인 단위로 split되어 64MB 단위의 parition으로
구성됨
• Job은 약 12분 정도 걸려 정상 완료
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
작은 수의 큰 파일 처리
• 기본적으로 snappy 압축에 parquet 포맷으로 partition해서 사용하길 권장
• 그 외 압축 형식 중 선택해야 한다면 bzip2
• gzip을 사용한다면 자원을 충분히 활용할 수 있는 파일 크기로 구성되어
있는 지 확인
• AWS Glue에서는 대역폭이 문제가 되는 경우는 거의 없으므로 압축되지
않은 파일의 경우 상황에 따라 그대로 사용하는 것도 고려할 수 있음
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
병렬처리 최적화
• 크고 분할 가능한 bzip2 파일 처리.
• 10 DPU를 사용할 경우 maximum needed executors와 maximum allocated
executors에 차이가 있음을 확인.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
DPU
• 17 Executors (Maximum Allocated Executors)
• 10 DPU = 10 Node Cluster = 1 Master + 9 Core Node
• 9 Core Node = 18 Executors = 1 Driver + 17 Executors
• 27 Executors (Maximum Needed Executors)
• 1 Driver + 27 Executors = 28 Executors = 14 Core Node
• 14 Core Node + 1 Master = 15 Node Cluster = 15 DPU
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
병렬처리 최적화
• 15 DPU를 사용할 경우, active executors가 maximum needed executors에
근접해 있음을 확인
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue JDBC 파티션
• JDBC를 source로 사용하는 경우 기본 동작은 하나의 테이블은 하나의
파티션으로 읽기 수행
• AWS Glue는 데이터 적재 후 10개 미만의 파티션으로 자동으로 분할
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
JDBC 파티션 읽기
A single executor is used
for the JDBC query
Data is repartitioned for
the rest of the job.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Database table 병렬 읽기 옵션
• hashexpression – 데이터를 고르게 분포할 수 있는 Integer 값을 갖는 열.
• hashfield – 데이터를 고르게 분포할 수 있는 hashexpression 대체 열.
• hashpartitions – 병렬 읽기 쿼리 수 지정. 기본 값은 7.
• 각 옵션은 아래와 같은 Query Collection으로 변경
SELECT *
FROM <table>
WHERE <hashexpression> % <hashpartitions> = <partition>
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Database table 병렬 읽기 옵션
• 4개의 executor가 16개의 partition으로 동시에 병렬로 데이터 읽기 수행
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Database table 병렬 읽기 옵션
• Database의 커넥션 수 변화 확인
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
JDBC Query를 위한 Job Bookmark
• Job bookmark는 테이블에 ordered primary key가 존재할 때만 가능
• Update는 현재 지원하지 않음
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Glue
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Glue
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Boto3
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Jenkins with boto3
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Oozie with boto3
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Airflow with boto3
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue Python shell
A new cost-effective ETL primitive for small to
medium tasks
Python
shell 3rd party
service
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue Python shell specs
• Python 2.7 지원
• boto3, awscli, numpy, scipy, pandas, scikit-learn, PyGreSQL, …
• cold spin-up: < 20sec, VPCs 지원, 실행 시간제한 없음
• sizes: 1 DPU (16GB 사용가능), 또는 1/16 DPU (1GB 사용가능)
• pricing: DPU-hour마다 $0.44
• 최소 과금 시간 1분, 이후부터는 초 단위 과금
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue vs EMR
• 이미 On-Premise에서 사용하고 있는 Workload(Hive, Spark Streaming, Flink 등)를
AWS로 Migration 해야하는 경우
• AWS Glue는 Custom Configuration을 지원하지 않음
• Glue에서 지원하는 것 보다 더 높은 CPU와 Memory를 필요로 하는 Workload의 경우
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Next Step
• 세션 관련 엑스포 부스 안내
• AWS 빅데이터 부스 상담존
• 관련 리소스
• https://amzn.to/2UWRzdy
• 세션 관련 Getting Started 정보
• https://amzn.to/2USLuyw

More Related Content

What's hot

AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
Amazon Web Services Korea
 
AWS Lake Formation을 통한 손쉬운 데이터 레이크 구성 및 관리 - 윤석찬 :: AWS Unboxing 온라인 세미나
AWS Lake Formation을 통한 손쉬운 데이터 레이크 구성 및 관리 - 윤석찬 :: AWS Unboxing 온라인 세미나AWS Lake Formation을 통한 손쉬운 데이터 레이크 구성 및 관리 - 윤석찬 :: AWS Unboxing 온라인 세미나
AWS Lake Formation을 통한 손쉬운 데이터 레이크 구성 및 관리 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon Web Services Korea
 
Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021
Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021
Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021
Amazon Web Services Korea
 
AWS 클라우드 비용 최적화를 위한 TIP - 임성은 AWS 매니저
AWS 클라우드 비용 최적화를 위한 TIP - 임성은 AWS 매니저AWS 클라우드 비용 최적화를 위한 TIP - 임성은 AWS 매니저
AWS 클라우드 비용 최적화를 위한 TIP - 임성은 AWS 매니저
Amazon Web Services Korea
 
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...
Amazon Web Services Korea
 
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
Amazon Web Services Korea
 
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트::  AWS Summit Online Ko...EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트::  AWS Summit Online Ko...
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...
Amazon Web Services Korea
 
AWS DMS를 통한 오라클 DB 마이그레이션 방법 - AWS Summit Seoul 2017
AWS DMS를 통한 오라클 DB 마이그레이션 방법 - AWS Summit Seoul 2017AWS DMS를 통한 오라클 DB 마이그레이션 방법 - AWS Summit Seoul 2017
AWS DMS를 통한 오라클 DB 마이그레이션 방법 - AWS Summit Seoul 2017
Amazon Web Services Korea
 
AWS CLOUD 2017 - Amazon Athena 및 Glue를 통한 빠른 데이터 질의 및 처리 기능 소개 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Athena 및 Glue를 통한 빠른 데이터 질의 및 처리 기능 소개 (김상필 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Athena 및 Glue를 통한 빠른 데이터 질의 및 처리 기능 소개 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Athena 및 Glue를 통한 빠른 데이터 질의 및 처리 기능 소개 (김상필 솔루션즈 아키텍트)
Amazon Web Services Korea
 
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
Amazon Web Services Korea
 
Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교
Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교
Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교
Amazon Web Services Korea
 
Amazon DynamoDB 키 디자인 패턴
Amazon DynamoDB 키 디자인 패턴Amazon DynamoDB 키 디자인 패턴
Amazon DynamoDB 키 디자인 패턴
Amazon Web Services Korea
 
진화하는 CloudFront 의 이해와 글로벌 서비스 활용 - 안수일 시니어 솔루션즈 아키텍트, GS NEOTEK :: AWS Summit...
진화하는 CloudFront 의 이해와 글로벌 서비스 활용 - 안수일 시니어 솔루션즈 아키텍트, GS NEOTEK :: AWS Summit...진화하는 CloudFront 의 이해와 글로벌 서비스 활용 - 안수일 시니어 솔루션즈 아키텍트, GS NEOTEK :: AWS Summit...
진화하는 CloudFront 의 이해와 글로벌 서비스 활용 - 안수일 시니어 솔루션즈 아키텍트, GS NEOTEK :: AWS Summit...
Amazon Web Services Korea
 
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
Amazon Web Services Korea
 
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
Amazon Web Services Korea
 
데이터 마이그레이션 및 전송을 위한 AWS 스토리지 서비스 활용방안 - 박용선, 메가존 클라우드 매니저
데이터 마이그레이션 및 전송을 위한 AWS 스토리지 서비스 활용방안 - 박용선, 메가존 클라우드 매니저데이터 마이그레이션 및 전송을 위한 AWS 스토리지 서비스 활용방안 - 박용선, 메가존 클라우드 매니저
데이터 마이그레이션 및 전송을 위한 AWS 스토리지 서비스 활용방안 - 박용선, 메가존 클라우드 매니저
Amazon Web Services Korea
 
Amazon Aurora Deep Dive (김기완) - AWS DB Day
Amazon Aurora Deep Dive (김기완) - AWS DB DayAmazon Aurora Deep Dive (김기완) - AWS DB Day
Amazon Aurora Deep Dive (김기완) - AWS DB Day
Amazon Web Services Korea
 
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon Web Services Korea
 
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon Web Services Korea
 
OpsNow를 활용한 AWS Cloud 비용 최적화 전략
OpsNow를 활용한 AWS Cloud 비용 최적화 전략OpsNow를 활용한 AWS Cloud 비용 최적화 전략
OpsNow를 활용한 AWS Cloud 비용 최적화 전략
BESPIN GLOBAL
 

What's hot (20)

AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
 
AWS Lake Formation을 통한 손쉬운 데이터 레이크 구성 및 관리 - 윤석찬 :: AWS Unboxing 온라인 세미나
AWS Lake Formation을 통한 손쉬운 데이터 레이크 구성 및 관리 - 윤석찬 :: AWS Unboxing 온라인 세미나AWS Lake Formation을 통한 손쉬운 데이터 레이크 구성 및 관리 - 윤석찬 :: AWS Unboxing 온라인 세미나
AWS Lake Formation을 통한 손쉬운 데이터 레이크 구성 및 관리 - 윤석찬 :: AWS Unboxing 온라인 세미나
 
Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021
Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021
Oracle DB를 AWS로 이관하는 방법들 - 서호석 클라우드 사업부/컨설팅팀 이사, 영우디지탈 :: AWS Summit Seoul 2021
 
AWS 클라우드 비용 최적화를 위한 TIP - 임성은 AWS 매니저
AWS 클라우드 비용 최적화를 위한 TIP - 임성은 AWS 매니저AWS 클라우드 비용 최적화를 위한 TIP - 임성은 AWS 매니저
AWS 클라우드 비용 최적화를 위한 TIP - 임성은 AWS 매니저
 
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...
 
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)
 
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트::  AWS Summit Online Ko...EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트::  AWS Summit Online Ko...
EMR 플랫폼 기반의 Spark 워크로드 실행 최적화 방안 - 정세웅, AWS 솔루션즈 아키텍트:: AWS Summit Online Ko...
 
AWS DMS를 통한 오라클 DB 마이그레이션 방법 - AWS Summit Seoul 2017
AWS DMS를 통한 오라클 DB 마이그레이션 방법 - AWS Summit Seoul 2017AWS DMS를 통한 오라클 DB 마이그레이션 방법 - AWS Summit Seoul 2017
AWS DMS를 통한 오라클 DB 마이그레이션 방법 - AWS Summit Seoul 2017
 
AWS CLOUD 2017 - Amazon Athena 및 Glue를 통한 빠른 데이터 질의 및 처리 기능 소개 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Athena 및 Glue를 통한 빠른 데이터 질의 및 처리 기능 소개 (김상필 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Athena 및 Glue를 통한 빠른 데이터 질의 및 처리 기능 소개 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Athena 및 Glue를 통한 빠른 데이터 질의 및 처리 기능 소개 (김상필 솔루션즈 아키텍트)
 
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
 
Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교
Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교
Amazon DocumentDB vs MongoDB 의 내부 아키텍쳐 와 장단점 비교
 
Amazon DynamoDB 키 디자인 패턴
Amazon DynamoDB 키 디자인 패턴Amazon DynamoDB 키 디자인 패턴
Amazon DynamoDB 키 디자인 패턴
 
진화하는 CloudFront 의 이해와 글로벌 서비스 활용 - 안수일 시니어 솔루션즈 아키텍트, GS NEOTEK :: AWS Summit...
진화하는 CloudFront 의 이해와 글로벌 서비스 활용 - 안수일 시니어 솔루션즈 아키텍트, GS NEOTEK :: AWS Summit...진화하는 CloudFront 의 이해와 글로벌 서비스 활용 - 안수일 시니어 솔루션즈 아키텍트, GS NEOTEK :: AWS Summit...
진화하는 CloudFront 의 이해와 글로벌 서비스 활용 - 안수일 시니어 솔루션즈 아키텍트, GS NEOTEK :: AWS Summit...
 
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
AWS Control Tower를 통한 클라우드 보안 및 거버넌스 설계 - 김학민 :: AWS 클라우드 마이그레이션 온라인
 
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
 
데이터 마이그레이션 및 전송을 위한 AWS 스토리지 서비스 활용방안 - 박용선, 메가존 클라우드 매니저
데이터 마이그레이션 및 전송을 위한 AWS 스토리지 서비스 활용방안 - 박용선, 메가존 클라우드 매니저데이터 마이그레이션 및 전송을 위한 AWS 스토리지 서비스 활용방안 - 박용선, 메가존 클라우드 매니저
데이터 마이그레이션 및 전송을 위한 AWS 스토리지 서비스 활용방안 - 박용선, 메가존 클라우드 매니저
 
Amazon Aurora Deep Dive (김기완) - AWS DB Day
Amazon Aurora Deep Dive (김기완) - AWS DB DayAmazon Aurora Deep Dive (김기완) - AWS DB Day
Amazon Aurora Deep Dive (김기완) - AWS DB Day
 
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
 
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
 
OpsNow를 활용한 AWS Cloud 비용 최적화 전략
OpsNow를 활용한 AWS Cloud 비용 최적화 전략OpsNow를 활용한 AWS Cloud 비용 최적화 전략
OpsNow를 활용한 AWS Cloud 비용 최적화 전략
 

Similar to 효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019

비용 관점에서 AWS 클라우드 아키텍처 디자인하기::류한진::AWS Summit Seoul 2018
비용 관점에서 AWS 클라우드 아키텍처 디자인하기::류한진::AWS Summit Seoul 2018비용 관점에서 AWS 클라우드 아키텍처 디자인하기::류한진::AWS Summit Seoul 2018
비용 관점에서 AWS 클라우드 아키텍처 디자인하기::류한진::AWS Summit Seoul 2018Amazon Web Services Korea
 
SAP on AWS 사례로 알아보는 핵심 업무 이전 : SAP Competency 파트너사의 경험과 비젼 - 이상규 솔루션즈 아키텍트, A...
SAP on AWS 사례로 알아보는 핵심 업무 이전 : SAP Competency 파트너사의 경험과 비젼 - 이상규 솔루션즈 아키텍트, A...SAP on AWS 사례로 알아보는 핵심 업무 이전 : SAP Competency 파트너사의 경험과 비젼 - 이상규 솔루션즈 아키텍트, A...
SAP on AWS 사례로 알아보는 핵심 업무 이전 : SAP Competency 파트너사의 경험과 비젼 - 이상규 솔루션즈 아키텍트, A...
Amazon Web Services Korea
 
[Games on AWS 2019] 오전 강연 | 새로운 게임을 준비하며 아쉬웠던 2% 를 채워줄 AWS 의 서비스와 기능 업데이트 - 안...
[Games on AWS 2019] 오전 강연 | 새로운 게임을 준비하며 아쉬웠던 2% 를 채워줄 AWS 의 서비스와 기능 업데이트 - 안...[Games on AWS 2019] 오전 강연 | 새로운 게임을 준비하며 아쉬웠던 2% 를 채워줄 AWS 의 서비스와 기능 업데이트 - 안...
[Games on AWS 2019] 오전 강연 | 새로운 게임을 준비하며 아쉬웠던 2% 를 채워줄 AWS 의 서비스와 기능 업데이트 - 안...
Amazon Web Services Korea
 
AWS와 함께 하는 클라우드 컴퓨팅 - 홍민우 AWS 매니저
AWS와 함께 하는 클라우드 컴퓨팅 - 홍민우 AWS 매니저AWS와 함께 하는 클라우드 컴퓨팅 - 홍민우 AWS 매니저
AWS와 함께 하는 클라우드 컴퓨팅 - 홍민우 AWS 매니저
Amazon Web Services Korea
 
기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...
기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...
기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...
Amazon Web Services Korea
 
분석 워크로드 마이그레이션의 모든 것-김기영, AWS Analytics Specialist SA / 김성일, AWS Analytics Sp...
분석 워크로드 마이그레이션의 모든 것-김기영, AWS Analytics Specialist SA / 김성일, AWS Analytics Sp...분석 워크로드 마이그레이션의 모든 것-김기영, AWS Analytics Specialist SA / 김성일, AWS Analytics Sp...
분석 워크로드 마이그레이션의 모든 것-김기영, AWS Analytics Specialist SA / 김성일, AWS Analytics Sp...
Amazon Web Services Korea
 
AWS로 데이터 마이그레이션을 위한 방안과 옵션 - 박성훈 스토리지 스페셜리스트 테크니컬 어카운트 매니저, AWS :: AWS Summit...
AWS로 데이터 마이그레이션을 위한 방안과 옵션 - 박성훈 스토리지 스페셜리스트 테크니컬 어카운트 매니저, AWS :: AWS Summit...AWS로 데이터 마이그레이션을 위한 방안과 옵션 - 박성훈 스토리지 스페셜리스트 테크니컬 어카운트 매니저, AWS :: AWS Summit...
AWS로 데이터 마이그레이션을 위한 방안과 옵션 - 박성훈 스토리지 스페셜리스트 테크니컬 어카운트 매니저, AWS :: AWS Summit...
Amazon Web Services Korea
 
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | Aurora로 게임 데이터베이스 레벨 업! - 김병수 AWS ...
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | Aurora로 게임 데이터베이스 레벨 업! - 김병수 AWS ...[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | Aurora로 게임 데이터베이스 레벨 업! - 김병수 AWS ...
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | Aurora로 게임 데이터베이스 레벨 업! - 김병수 AWS ...
Amazon Web Services Korea
 
타 게임사의 경험으로 본 AWS 핵심 모범 사례 한방에 배우기 - 이정훈 솔루션즈 아키텍트, AWS / 김지선 테크니컬 어카운트 매니저, ...
타 게임사의 경험으로 본 AWS 핵심 모범 사례 한방에 배우기 - 이정훈 솔루션즈 아키텍트, AWS / 김지선 테크니컬 어카운트 매니저, ...타 게임사의 경험으로 본 AWS 핵심 모범 사례 한방에 배우기 - 이정훈 솔루션즈 아키텍트, AWS / 김지선 테크니컬 어카운트 매니저, ...
타 게임사의 경험으로 본 AWS 핵심 모범 사례 한방에 배우기 - 이정훈 솔루션즈 아키텍트, AWS / 김지선 테크니컬 어카운트 매니저, ...
Amazon Web Services Korea
 
빠르고 안전하게 간편한 AWS로 데이터 마이그레이션 하기::최유정 (AWS 솔루션즈아키텍트)
빠르고 안전하게 간편한 AWS로 데이터 마이그레이션 하기::최유정 (AWS 솔루션즈아키텍트)빠르고 안전하게 간편한 AWS로 데이터 마이그레이션 하기::최유정 (AWS 솔루션즈아키텍트)
빠르고 안전하게 간편한 AWS로 데이터 마이그레이션 하기::최유정 (AWS 솔루션즈아키텍트)Amazon Web Services Korea
 
AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019
AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019 AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019
AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019
AWSKRUG - AWS한국사용자모임
 
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018Amazon Web Services Korea
 
AWS Summit 2019 - GS네오텍
AWS Summit 2019 - GS네오텍AWS Summit 2019 - GS네오텍
AWS Summit 2019 - GS네오텍
GS Neotek
 
AWS Builders Online Series | AWS와 함께하는 클라우드 컴퓨팅 - 강철, AWS 어카운트 매니저
AWS Builders Online Series | AWS와 함께하는 클라우드 컴퓨팅 - 강철, AWS 어카운트 매니저AWS Builders Online Series | AWS와 함께하는 클라우드 컴퓨팅 - 강철, AWS 어카운트 매니저
AWS Builders Online Series | AWS와 함께하는 클라우드 컴퓨팅 - 강철, AWS 어카운트 매니저
Amazon Web Services Korea
 
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | 코드 기반으로 인프라 운영하기 - 박성훈 NEOWIZ 팀장,...
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | 코드 기반으로 인프라 운영하기 -  박성훈 NEOWIZ 팀장,...[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | 코드 기반으로 인프라 운영하기 -  박성훈 NEOWIZ 팀장,...
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | 코드 기반으로 인프라 운영하기 - 박성훈 NEOWIZ 팀장,...
Amazon Web Services Korea
 
AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?
AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?
AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?
Amazon Web Services Korea
 
AWS멀티리젼 서비스 활용 전략::김성수::AWS Summit Seoul 2018
AWS멀티리젼 서비스 활용 전략::김성수::AWS Summit Seoul 2018AWS멀티리젼 서비스 활용 전략::김성수::AWS Summit Seoul 2018
AWS멀티리젼 서비스 활용 전략::김성수::AWS Summit Seoul 2018Amazon Web Services Korea
 
4시간안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성 - 최지웅 부대표, 오픈소스컨설팅 :: AWS Summit Seoul 2019
4시간안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성 - 최지웅 부대표, 오픈소스컨설팅 :: AWS Summit Seoul 20194시간안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성 - 최지웅 부대표, 오픈소스컨설팅 :: AWS Summit Seoul 2019
4시간안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성 - 최지웅 부대표, 오픈소스컨설팅 :: AWS Summit Seoul 2019
Amazon Web Services Korea
 
4시간 안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성_최지웅_오픈소스컨설팅
4시간 안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성_최지웅_오픈소스컨설팅4시간 안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성_최지웅_오픈소스컨설팅
4시간 안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성_최지웅_오픈소스컨설팅
Open Source Consulting
 
강의 4. 데이터베이스:: AWSome Day Online Conference
강의 4. 데이터베이스:: AWSome Day Online Conference강의 4. 데이터베이스:: AWSome Day Online Conference
강의 4. 데이터베이스:: AWSome Day Online ConferenceAmazon Web Services Korea
 

Similar to 효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019 (20)

비용 관점에서 AWS 클라우드 아키텍처 디자인하기::류한진::AWS Summit Seoul 2018
비용 관점에서 AWS 클라우드 아키텍처 디자인하기::류한진::AWS Summit Seoul 2018비용 관점에서 AWS 클라우드 아키텍처 디자인하기::류한진::AWS Summit Seoul 2018
비용 관점에서 AWS 클라우드 아키텍처 디자인하기::류한진::AWS Summit Seoul 2018
 
SAP on AWS 사례로 알아보는 핵심 업무 이전 : SAP Competency 파트너사의 경험과 비젼 - 이상규 솔루션즈 아키텍트, A...
SAP on AWS 사례로 알아보는 핵심 업무 이전 : SAP Competency 파트너사의 경험과 비젼 - 이상규 솔루션즈 아키텍트, A...SAP on AWS 사례로 알아보는 핵심 업무 이전 : SAP Competency 파트너사의 경험과 비젼 - 이상규 솔루션즈 아키텍트, A...
SAP on AWS 사례로 알아보는 핵심 업무 이전 : SAP Competency 파트너사의 경험과 비젼 - 이상규 솔루션즈 아키텍트, A...
 
[Games on AWS 2019] 오전 강연 | 새로운 게임을 준비하며 아쉬웠던 2% 를 채워줄 AWS 의 서비스와 기능 업데이트 - 안...
[Games on AWS 2019] 오전 강연 | 새로운 게임을 준비하며 아쉬웠던 2% 를 채워줄 AWS 의 서비스와 기능 업데이트 - 안...[Games on AWS 2019] 오전 강연 | 새로운 게임을 준비하며 아쉬웠던 2% 를 채워줄 AWS 의 서비스와 기능 업데이트 - 안...
[Games on AWS 2019] 오전 강연 | 새로운 게임을 준비하며 아쉬웠던 2% 를 채워줄 AWS 의 서비스와 기능 업데이트 - 안...
 
AWS와 함께 하는 클라우드 컴퓨팅 - 홍민우 AWS 매니저
AWS와 함께 하는 클라우드 컴퓨팅 - 홍민우 AWS 매니저AWS와 함께 하는 클라우드 컴퓨팅 - 홍민우 AWS 매니저
AWS와 함께 하는 클라우드 컴퓨팅 - 홍민우 AWS 매니저
 
기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...
기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...
기술 지원 사례로 알아보는 마이그레이션 이슈 및 해결 방안 모음-김용기, AWS Storage Specialist SA / 한소영, AWS...
 
분석 워크로드 마이그레이션의 모든 것-김기영, AWS Analytics Specialist SA / 김성일, AWS Analytics Sp...
분석 워크로드 마이그레이션의 모든 것-김기영, AWS Analytics Specialist SA / 김성일, AWS Analytics Sp...분석 워크로드 마이그레이션의 모든 것-김기영, AWS Analytics Specialist SA / 김성일, AWS Analytics Sp...
분석 워크로드 마이그레이션의 모든 것-김기영, AWS Analytics Specialist SA / 김성일, AWS Analytics Sp...
 
AWS로 데이터 마이그레이션을 위한 방안과 옵션 - 박성훈 스토리지 스페셜리스트 테크니컬 어카운트 매니저, AWS :: AWS Summit...
AWS로 데이터 마이그레이션을 위한 방안과 옵션 - 박성훈 스토리지 스페셜리스트 테크니컬 어카운트 매니저, AWS :: AWS Summit...AWS로 데이터 마이그레이션을 위한 방안과 옵션 - 박성훈 스토리지 스페셜리스트 테크니컬 어카운트 매니저, AWS :: AWS Summit...
AWS로 데이터 마이그레이션을 위한 방안과 옵션 - 박성훈 스토리지 스페셜리스트 테크니컬 어카운트 매니저, AWS :: AWS Summit...
 
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | Aurora로 게임 데이터베이스 레벨 업! - 김병수 AWS ...
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | Aurora로 게임 데이터베이스 레벨 업! - 김병수 AWS ...[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | Aurora로 게임 데이터베이스 레벨 업! - 김병수 AWS ...
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | Aurora로 게임 데이터베이스 레벨 업! - 김병수 AWS ...
 
타 게임사의 경험으로 본 AWS 핵심 모범 사례 한방에 배우기 - 이정훈 솔루션즈 아키텍트, AWS / 김지선 테크니컬 어카운트 매니저, ...
타 게임사의 경험으로 본 AWS 핵심 모범 사례 한방에 배우기 - 이정훈 솔루션즈 아키텍트, AWS / 김지선 테크니컬 어카운트 매니저, ...타 게임사의 경험으로 본 AWS 핵심 모범 사례 한방에 배우기 - 이정훈 솔루션즈 아키텍트, AWS / 김지선 테크니컬 어카운트 매니저, ...
타 게임사의 경험으로 본 AWS 핵심 모범 사례 한방에 배우기 - 이정훈 솔루션즈 아키텍트, AWS / 김지선 테크니컬 어카운트 매니저, ...
 
빠르고 안전하게 간편한 AWS로 데이터 마이그레이션 하기::최유정 (AWS 솔루션즈아키텍트)
빠르고 안전하게 간편한 AWS로 데이터 마이그레이션 하기::최유정 (AWS 솔루션즈아키텍트)빠르고 안전하게 간편한 AWS로 데이터 마이그레이션 하기::최유정 (AWS 솔루션즈아키텍트)
빠르고 안전하게 간편한 AWS로 데이터 마이그레이션 하기::최유정 (AWS 솔루션즈아키텍트)
 
AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019
AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019 AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019
AWS re:Invent 2018를 통해 본 개발자들이 원하는 4가지 클라우드 동향 :: 윤석찬 - AWS Community Day 2019
 
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
 
AWS Summit 2019 - GS네오텍
AWS Summit 2019 - GS네오텍AWS Summit 2019 - GS네오텍
AWS Summit 2019 - GS네오텍
 
AWS Builders Online Series | AWS와 함께하는 클라우드 컴퓨팅 - 강철, AWS 어카운트 매니저
AWS Builders Online Series | AWS와 함께하는 클라우드 컴퓨팅 - 강철, AWS 어카운트 매니저AWS Builders Online Series | AWS와 함께하는 클라우드 컴퓨팅 - 강철, AWS 어카운트 매니저
AWS Builders Online Series | AWS와 함께하는 클라우드 컴퓨팅 - 강철, AWS 어카운트 매니저
 
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | 코드 기반으로 인프라 운영하기 - 박성훈 NEOWIZ 팀장,...
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | 코드 기반으로 인프라 운영하기 -  박성훈 NEOWIZ 팀장,...[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | 코드 기반으로 인프라 운영하기 -  박성훈 NEOWIZ 팀장,...
[Games on AWS 2019] AWS 사용자를 위한 만랩 달성 트랙 | 코드 기반으로 인프라 운영하기 - 박성훈 NEOWIZ 팀장,...
 
AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?
AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?
AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?
 
AWS멀티리젼 서비스 활용 전략::김성수::AWS Summit Seoul 2018
AWS멀티리젼 서비스 활용 전략::김성수::AWS Summit Seoul 2018AWS멀티리젼 서비스 활용 전략::김성수::AWS Summit Seoul 2018
AWS멀티리젼 서비스 활용 전략::김성수::AWS Summit Seoul 2018
 
4시간안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성 - 최지웅 부대표, 오픈소스컨설팅 :: AWS Summit Seoul 2019
4시간안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성 - 최지웅 부대표, 오픈소스컨설팅 :: AWS Summit Seoul 20194시간안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성 - 최지웅 부대표, 오픈소스컨설팅 :: AWS Summit Seoul 2019
4시간안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성 - 최지웅 부대표, 오픈소스컨설팅 :: AWS Summit Seoul 2019
 
4시간 안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성_최지웅_오픈소스컨설팅
4시간 안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성_최지웅_오픈소스컨설팅4시간 안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성_최지웅_오픈소스컨설팅
4시간 안에 끝내는 AWS 클라우드 전환 및 운영 환경 구성_최지웅_오픈소스컨설팅
 
강의 4. 데이터베이스:: AWSome Day Online Conference
강의 4. 데이터베이스:: AWSome Day Online Conference강의 4. 데이터베이스:: AWSome Day Online Conference
강의 4. 데이터베이스:: AWSome Day Online Conference
 

More from Amazon Web Services Korea

AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2
Amazon Web Services Korea
 
AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1
Amazon Web Services Korea
 
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
Amazon Web Services Korea
 
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon Web Services Korea
 
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Web Services Korea
 
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
Amazon Web Services Korea
 
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
Amazon Web Services Korea
 
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Amazon Web Services Korea
 
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon Web Services Korea
 
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Amazon Web Services Korea
 
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Web Services Korea
 
From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...
Amazon Web Services Korea
 
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
Amazon Web Services Korea
 
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon Web Services Korea
 
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
Amazon Web Services Korea
 
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
Amazon Web Services Korea
 
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
Amazon Web Services Korea
 
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
Amazon Web Services Korea
 
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
Amazon Web Services Korea
 
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
Amazon Web Services Korea
 

More from Amazon Web Services Korea (20)

AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2
 
AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1
 
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
 
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
 
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
 
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
 
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
 
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
 
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
 
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
 
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
 
From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...
 
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
 
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
 
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
 
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
 
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
 
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
 
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
 
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
 

효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019

  • 1. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 Taehyun Kim Analytics Specialist SA
  • 2. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. §Introduction §Glue Internal §Items § Item1: 많은 수의 작은 파일 처리 § Item2: 작은 수의 큰 파일 처리 § Item3: 병렬처리 최적화 § Item4: JDBC 파티션 § Item5: Scheduler § Item6: Python shell § Item7: Glue vs EMR §Demo
  • 3. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 4. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 약 1년 전 … 완전 관리형 서버리스 ETL(extract-transform-load) 서비스 개발자를 위해, 개발자에 의해 이미 많은 고객이 업무에 Glue를 활용 중
  • 5. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue 서버리스 Data Catalog & ETL 서비스 Data Catalog ETL Job authoring Discover data and extract schema Auto-generates customizable ETL code in Python and Scala 자동으로 데이터 검색 후 스키마 저장 데이터는 검색가능하고 ETL에 사용할 수 있음 사용자 정의 코드 자동 생성 ETL 작업 예약 및 실행 개방형 표준 기반으로 서버리스하면서 유연함
  • 6. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Data lake with AWS Glue Amazon S3 (Raw data) Amazon S3 (Staging data) Amazon S3 (Processed data) AWS Glue Data Catalog Crawlers Crawlers Crawlers Data Move Data Lake Analyze
  • 7. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Data lake with AWS Glue Amazon S3 (Raw data) Amazon S3 (Staging data) Amazon S3 (Processed data) AWS Glue Data Catalog Crawlers Crawlers Crawlers Data Move Data Lake Analyze
  • 8. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue 고객
  • 9. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Glue는 계속 발전 중 Metadata access policies for AWS Glue Data Catalog Amazon SageMaker notebooks Encryption at rest Canada central region Crawler combine compatible schemas ETL job metrics Amazon DynamoDB integration Job delay notification London region Seoul region Crawler merge new columns Mumbai region Support Apache Spark 2.2.1 ETL job timeout Singapore region Sydney region Readers support JSONPath expressions New Job Events Types Support for Scala scripts Tokyo region Crawler CWE notifications XML support AWS CloudTrail support Amazon CloudFormation templates Crawler exclusion patterns Per-second billing DynamicFrame Filter and Map HIPAA compliance Ireland, Oregon, Ohio region Frankfurt region
  • 10. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 11. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Glue ETL은 언제 사용해야 할까 ? • Scale out • 처리해야 할 데이터 사이즈가 너무 커서 장비 한 대에서 처리 불가능할 때 • Speed up • 장비 한 대에서 처리할 수 있으나 시간이 너무 오래 걸릴 때
  • 12. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue 실행 모델 • 하나의 Driver와 다수의 Executors가 존재 Driver Executors
  • 13. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Glue 환경 • Standard • 1 DPU(m4.xlarge) • 4vCPU • 16G RAM • 2 executors • 1 Driver • 5G RAM • 1 Executor • 5G RAM • 4 Tasks • G.1X • 1 Worker • 4vCPU • 16G RAM • 1 executor • 1 Driver • 10G RAM • 1 Executor • 10G RAM • 8 Tasks • G.2X • 1 Worker • 8vCPU • 32G RAM • 1 executor • 1 Driver • 20G RAM • 1 Executor • 20G RAM • 16 Tasks
  • 14. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Glue 환경 • Glue Standard Job • Minimum DPU: 2 • Default DPU: 10 • Ex) 10 DPU Job • 10 node cluster • 1 Master + 9 Core Nodes • 18 executors • 1 driver • 17 executors
  • 15. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Glue 환경 • Internal argument to AWS Glue • --conf • --debug • --mode • --JOB_NAME
  • 16. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Glue Job 기본 Template 1. Initialize 2. Read 3. Transform data 4. Write ## Initialize glueContext = GlueContext(SparkContext.getOrCreate()) ## Create DynamicFrame and retrieve data from source ds0 = glueContext.create_dynamic_frame.from_catalog ( database = "mysql", table_name = "customer", transformation_ctx = "ds0") ## Implement data transformation here ds1 = ds0 ... ## Write DynamicFrame from Catalog ds2 = glueContext.write_dynamic_frame.from_catalog ( frame = ds1, database = "redshift", table_name = "customer_dim", redshift_tmp_dir = args["TempDir"], transformation_ctx = "ds2")
  • 17. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Apache Spark Spark core: RDDs SparkSQL Dataframes DynamicFrames AWS Glue ETL Apache Spark 데이터 병렬 분산 처리 프레임워크 내결함성 내장 유연한 Interface: Scala, Java, Python, SQL, R 풍부한 eco-system: ML, Stream, Graph, Analytics, …
  • 18. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Apache Spark vs AWS Glue ETL Spark core: RDDs SparkSQL Dataframes DynamicFrames AWS Glue ETL Apache Spark 데이터 병렬 분산 처리 프레임워크 내결함성 내장 유연한 Interface: Scala, Java, Python, SQL, R 풍부한 eco-system: ML, Stream, Graph, Analytics, … AWS Glue ETL libraries 통합: Data Catalog, Job Orchestration, Code- Generation, Job Bookmarks, S3, RDS ETL transforms, 다양한 connectors & formats 새로운 데이터 구조: DynamicFrames
  • 19. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. DataFrames vs DynamicFrames DataFrames SparkSQL의 핵심 데이터 구조 구조화된 테이블과 유사: 사전에 정의된 스키마 필요 각 행은 동일한 구조를 가짐 SQL과 같은 분석에 적합 DynamicFrames ETL dataframe과 유사 semi-structured 데이터 처리를 위해 설계, e.g. JSON, Avro, Apache logs ...
  • 20. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue transforms toDF() Spigot() Filter() Join() ResolveChoice(): fromDF() Unbox() Map() ApplyMapping(): Relationalize(): And more ….
  • 21. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 성능: AWS Glue ETL 0 200 400 600 800 1000 1200 1400 1600 1800 Day Month Year GitHub Timeline ETL Performance DynamicFrames DataFrames Time(sec) Data size (# files) 24 744 8699 (lower is better) On average: 2x 성능 향상 Configuration 10 DPUs Apache Spark 2.1.1 Workload JSON 에서 CSV 변환 Pull event만 제거
  • 22. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 성능: 많은 수의 작은 파일 처리 0 1000 2000 3000 4000 5000 6000 7000 8000 1:2K 20:40K 40:80K 80:160K 160:320K 320:640K 640: 1280K AWS Glue ETL small file scalability Spark Glue 1.2 Million Files Spark Out-Of-Memory >= 320: 640K files Grouping Time(sec) # partitions : # files 많은 수의 작은 파일 처리 e.g. Kinesis Firehose Vanilla Apache Spark (2.1.1) overheads 파티션을 재구성해야 함 (2-pass) 너무 많은 작업: task per file 스케줄링 및 메모리 오버헤드 AWS Glue DynamicFrames Data Catalog와 통합 자동으로 파일 그룹화 크롤러 통계 사용
  • 23. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 24. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 많은 수의 작은 파일 처리 • JSON에서 Parquet로 format 변경 job • 128만개 JSON 파일이 640개 partition으로 구성: part1/ file1.json … file2000.json part640/ file1.json … file2000.json
  • 25. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 많은 수의 작은 파일 처리 • SparkSQL job data = spark.read.format("json").load("<input_location>") data.write.format("parquet").save("<output_location>")
  • 26. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 많은 수의 작은 파일 처리 • Driver 에 할당된 5G 메모리가 빠르게 소비
  • 27. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 많은 수의 작은 파일 처리 • AWS Glue DynamicFrames df = glueContext.create_dynamic_frame_from_catalog("<database>","<table>") glueContext.write_from_options(df,"s3",{"path":"<output_location>"},"parquet")
  • 28. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 많은 수의 작은 파일 처리 Driver memory remains below 50% for the entire duration of execution.
  • 29. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Grouping Options • groupFiles • inPartition • acrossPartition • groupSize
  • 30. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 31. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 작은 수의 큰 파일 처리 • 5개의 큰 csv 파일이 존재 • 3가지 파일 압축 형식 테스트: • 1.6 GB gzip • 1.3 GB bzip2 • 12.5 GB 압축 X • CSV에서 Parquet로 포맷을 변경하는 Job 테스트
  • 32. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 1.6 GB gzip 파일 처리 • 한개의 파일은 하나의 파티션으로 구성되어 5개 파티션이 존재 • Job은 실행된 지 2시간이 지나 실패
  • 33. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 1.3 GB bzip2 파일 처리 • Bzip2 파일은 split 될 수 있어 104개의 task가 실행된 것을 확인할 수 있음 • Job은 약 18분 정도 걸려 정상적으로 완료
  • 34. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 12.5 GB 압축되지 않은 파일 처리 • 압축되지 않은 파일은 라인 단위로 split되어 64MB 단위의 parition으로 구성됨 • Job은 약 12분 정도 걸려 정상 완료
  • 35. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 작은 수의 큰 파일 처리 • 기본적으로 snappy 압축에 parquet 포맷으로 partition해서 사용하길 권장 • 그 외 압축 형식 중 선택해야 한다면 bzip2 • gzip을 사용한다면 자원을 충분히 활용할 수 있는 파일 크기로 구성되어 있는 지 확인 • AWS Glue에서는 대역폭이 문제가 되는 경우는 거의 없으므로 압축되지 않은 파일의 경우 상황에 따라 그대로 사용하는 것도 고려할 수 있음
  • 36. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 37. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 병렬처리 최적화 • 크고 분할 가능한 bzip2 파일 처리. • 10 DPU를 사용할 경우 maximum needed executors와 maximum allocated executors에 차이가 있음을 확인.
  • 38. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. DPU • 17 Executors (Maximum Allocated Executors) • 10 DPU = 10 Node Cluster = 1 Master + 9 Core Node • 9 Core Node = 18 Executors = 1 Driver + 17 Executors • 27 Executors (Maximum Needed Executors) • 1 Driver + 27 Executors = 28 Executors = 14 Core Node • 14 Core Node + 1 Master = 15 Node Cluster = 15 DPU
  • 39. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 병렬처리 최적화 • 15 DPU를 사용할 경우, active executors가 maximum needed executors에 근접해 있음을 확인
  • 40. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 41. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue JDBC 파티션 • JDBC를 source로 사용하는 경우 기본 동작은 하나의 테이블은 하나의 파티션으로 읽기 수행 • AWS Glue는 데이터 적재 후 10개 미만의 파티션으로 자동으로 분할
  • 42. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. JDBC 파티션 읽기 A single executor is used for the JDBC query Data is repartitioned for the rest of the job.
  • 43. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Database table 병렬 읽기 옵션 • hashexpression – 데이터를 고르게 분포할 수 있는 Integer 값을 갖는 열. • hashfield – 데이터를 고르게 분포할 수 있는 hashexpression 대체 열. • hashpartitions – 병렬 읽기 쿼리 수 지정. 기본 값은 7. • 각 옵션은 아래와 같은 Query Collection으로 변경 SELECT * FROM <table> WHERE <hashexpression> % <hashpartitions> = <partition>
  • 44. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Database table 병렬 읽기 옵션 • 4개의 executor가 16개의 partition으로 동시에 병렬로 데이터 읽기 수행
  • 45. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Database table 병렬 읽기 옵션 • Database의 커넥션 수 변화 확인
  • 46. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. JDBC Query를 위한 Job Bookmark • Job bookmark는 테이블에 ordered primary key가 존재할 때만 가능 • Update는 현재 지원하지 않음
  • 47. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 48. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Glue
  • 49. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Glue
  • 50. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Boto3
  • 51. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Jenkins with boto3
  • 52. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Oozie with boto3
  • 53. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Airflow with boto3
  • 54. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 55. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue Python shell A new cost-effective ETL primitive for small to medium tasks Python shell 3rd party service
  • 56. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue Python shell specs • Python 2.7 지원 • boto3, awscli, numpy, scipy, pandas, scikit-learn, PyGreSQL, … • cold spin-up: < 20sec, VPCs 지원, 실행 시간제한 없음 • sizes: 1 DPU (16GB 사용가능), 또는 1/16 DPU (1GB 사용가능) • pricing: DPU-hour마다 $0.44 • 최소 과금 시간 1분, 이후부터는 초 단위 과금
  • 57. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 58. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue vs EMR • 이미 On-Premise에서 사용하고 있는 Workload(Hive, Spark Streaming, Flink 등)를 AWS로 Migration 해야하는 경우 • AWS Glue는 Custom Configuration을 지원하지 않음 • Glue에서 지원하는 것 보다 더 높은 CPU와 Memory를 필요로 하는 Workload의 경우
  • 59. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 60. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Next Step • 세션 관련 엑스포 부스 안내 • AWS 빅데이터 부스 상담존 • 관련 리소스 • https://amzn.to/2UWRzdy • 세션 관련 Getting Started 정보 • https://amzn.to/2USLuyw