5/11 AWSKRUG 의 빅데이터 스터디 발표자료
발표자 : 이성민
참고자료 :
AWS 사이트
https://aws.amazon.com/ko/big-data/
AWS Summit 2017 Seoul 참고
AWS 빅데이터 아키텍처 패턴 및 모범 사례
https://www.slideshare.net/awskorea/6-aws-bigdata-architecture-pattern-and-good-cases
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축
https://www.slideshare.net/awskorea/1-bigdata-bi-configuration
기업의 미래를 바꾸는 AI 플랫폼
[케이스 스터디를 통해 알아보는 실전 도입 전략]
Microsoft AI, Azure AI에 대한 설명과 데모를 바탕으로 AI의 이해를 도모하고 실제 사례를 통해 정확한 역할 및 필요성에 대해 살펴보겠습니다.
클라우드컨설팅-운영-관리까지 한번에!
베스핀글로벌의 클라우드팀은 깊은 지식과 전문성을 보유했습니다.
630여명 클라우드 전문가 / 1000여명 글로벌 클라우드 전문가 네트워크 / 한국, 중국, 북미, 유럽에 클라우드 전문 등
전문적이고 충분한 네트워크를 통해 글로벌 환경에도 유연하게 대응할 수 있습니다.
엔터프라이즈의 인공지능(AI)과 머신러닝(ML) 적용은 왜 어려울까요?
베스핀글로벌의 웨비나 자료를 통해서 성공적인 AI와 ML 적용 방법을 확인하세요.
[목차]
1. 디지털 트랜스포메이션의 큰 흐름
- Gartner 선정 미래를 이끌어 갈 기업
- 글로벌 금융 기업의 디지털 트랜스포메이션, 데이터를 바라보는 시각
- 빅데이터 & AI 활용 사례
2. 빅데이터 분석 시스템 도입하기
- 빅데이터 분석 시스템 미도입 이유
- 빅데이터 분석 시스템 도입 사례
3. 데이터 분석을 위한 Data Lake & Data Governance
- 데이터 분석의 한계와 Data Lake
- 클라우드 Migration
- Data Governance의 중요성
4. AI 적용하기
- Amazon AI 서비스
- 적용 사례
[AWS & 베스핀글로벌 - 스타트업, 클라우드에 날개를 달자! 세미나] Why Startup loves CloudBESPIN GLOBAL
어디서나 접근이 가능하고 쉽고 빠르게 애플리케이션을 배포하기 위해서는 클라우드가 필수입니다.
클라우드는 IT에 국한된 이슈가 아닌 비즈니스 전략적으로 선택해야하는 머스트가 되었죠.
왜냐하면 디지털 트랜스포메이션은 4차 산업혁명의 핵심이거든요.
그렇지만 이런 새로운 바람에 대해 아직 낯설고 어디서부터 시작해야할지 모르겠다면 베스핀글로벌과 함께 클라우드로의 여정을 떠나면 어떨까요?
지난 6월 28일 AWS와 베스핀글로벌 스타트없을 위한 세미나를 진행했습니다.
세계 최고의 클라우드 회사 AWS와 성공한 스타트업 선배들의 사례를 통해 여러분들께 유용한 시간이 되길 바랍니다.
클라우드가 뭔지 궁금하지만 잘 모르겠다면, 클라우드를 도입하고는 싶지만 어디서부터 시작해야 할지 감이 오지 않으신다면, 베스핀글로벌과 상의하세요.
데이터의 힘, 스타트업의 생존을 넘어 성장으로 - 김용대 사업개발 담당, AWS / 박재영 CTO, 크몽 :: AWS Summit Seou...Amazon Web Services Korea
데이터의 힘, 스타트업의 생존을 넘어 성장으로
김용대 사업개발 담당, AWS
박재영 CTO, 크몽
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다.서비스 운영 데이터에서 부터, 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다.AWS의 애널리틱스 서비스를 활용하면 매우 빠른 속도와 최소한의 비용으로, 다양한 분석 Tool들과 연동되는 Data Lake를 구축할 수 있습니다.분석 환경의 인프라 구축 및 관리에 대한 노력은 최소화하고, 데이터를 통한 가치 탐색에 더욱 집중 할 수 있도록 애널리틱스 파이프라인을 구축하시기 바랍니다.이 세션을 통해 S3, Glue, Athena, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 최적의 활용 사례를 확인 하실 수 있습니다.
기업의 미래를 바꾸는 AI 플랫폼
[케이스 스터디를 통해 알아보는 실전 도입 전략]
Microsoft AI, Azure AI에 대한 설명과 데모를 바탕으로 AI의 이해를 도모하고 실제 사례를 통해 정확한 역할 및 필요성에 대해 살펴보겠습니다.
클라우드컨설팅-운영-관리까지 한번에!
베스핀글로벌의 클라우드팀은 깊은 지식과 전문성을 보유했습니다.
630여명 클라우드 전문가 / 1000여명 글로벌 클라우드 전문가 네트워크 / 한국, 중국, 북미, 유럽에 클라우드 전문 등
전문적이고 충분한 네트워크를 통해 글로벌 환경에도 유연하게 대응할 수 있습니다.
엔터프라이즈의 인공지능(AI)과 머신러닝(ML) 적용은 왜 어려울까요?
베스핀글로벌의 웨비나 자료를 통해서 성공적인 AI와 ML 적용 방법을 확인하세요.
[목차]
1. 디지털 트랜스포메이션의 큰 흐름
- Gartner 선정 미래를 이끌어 갈 기업
- 글로벌 금융 기업의 디지털 트랜스포메이션, 데이터를 바라보는 시각
- 빅데이터 & AI 활용 사례
2. 빅데이터 분석 시스템 도입하기
- 빅데이터 분석 시스템 미도입 이유
- 빅데이터 분석 시스템 도입 사례
3. 데이터 분석을 위한 Data Lake & Data Governance
- 데이터 분석의 한계와 Data Lake
- 클라우드 Migration
- Data Governance의 중요성
4. AI 적용하기
- Amazon AI 서비스
- 적용 사례
[AWS & 베스핀글로벌 - 스타트업, 클라우드에 날개를 달자! 세미나] Why Startup loves CloudBESPIN GLOBAL
어디서나 접근이 가능하고 쉽고 빠르게 애플리케이션을 배포하기 위해서는 클라우드가 필수입니다.
클라우드는 IT에 국한된 이슈가 아닌 비즈니스 전략적으로 선택해야하는 머스트가 되었죠.
왜냐하면 디지털 트랜스포메이션은 4차 산업혁명의 핵심이거든요.
그렇지만 이런 새로운 바람에 대해 아직 낯설고 어디서부터 시작해야할지 모르겠다면 베스핀글로벌과 함께 클라우드로의 여정을 떠나면 어떨까요?
지난 6월 28일 AWS와 베스핀글로벌 스타트없을 위한 세미나를 진행했습니다.
세계 최고의 클라우드 회사 AWS와 성공한 스타트업 선배들의 사례를 통해 여러분들께 유용한 시간이 되길 바랍니다.
클라우드가 뭔지 궁금하지만 잘 모르겠다면, 클라우드를 도입하고는 싶지만 어디서부터 시작해야 할지 감이 오지 않으신다면, 베스핀글로벌과 상의하세요.
데이터의 힘, 스타트업의 생존을 넘어 성장으로 - 김용대 사업개발 담당, AWS / 박재영 CTO, 크몽 :: AWS Summit Seou...Amazon Web Services Korea
데이터의 힘, 스타트업의 생존을 넘어 성장으로
김용대 사업개발 담당, AWS
박재영 CTO, 크몽
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다.서비스 운영 데이터에서 부터, 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다.AWS의 애널리틱스 서비스를 활용하면 매우 빠른 속도와 최소한의 비용으로, 다양한 분석 Tool들과 연동되는 Data Lake를 구축할 수 있습니다.분석 환경의 인프라 구축 및 관리에 대한 노력은 최소화하고, 데이터를 통한 가치 탐색에 더욱 집중 할 수 있도록 애널리틱스 파이프라인을 구축하시기 바랍니다.이 세션을 통해 S3, Glue, Athena, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 최적의 활용 사례를 확인 하실 수 있습니다.
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...Amazon Web Services Korea
AWS의 빅데이터 서비스들이 데이터 파이프라인 상에서 어떻게 활용 되는지와 데이터 모델링과 플랫폼 구축을 100% 내재화 하여 AWS와 함께 고객기반 서비스의 경쟁력을 강화 해나가는 고객 사례를 전해 드립니다. 국내 뷰티산업을 리딩 하고 있는 아모레퍼시픽에서 온/오프라인 고객 정보를 AWS 기반의 Data Lake로 통합 하고 고객 관점의 데이터 서비스를 출시 하는데 속도를 높이고 있는 성공 스토리를 직접 전해 드립니다.
만들자! 데이터 기반의 스마트 팩토리 - 문태양 AWS 솔루션즈 아키텍트 / 배권 팀장, OCI 정보통신 :: AWS Summit Seou...Amazon Web Services Korea
제조 산업의 데이터는 내부 장치 및 장비에 담겨있기 때문에 활용되지 못하는 경우가 많습니다. AWS IoT로 산업 현장의 원격 감시 제어 데이터 (SCADA)를 수집하고 전사적 자원관리 (ERP), 제조 실행 시스템 (MES)의 데이터와 산업 현장의 데이터를 통합하여 대시보드에서 거의 실시간에 가까운 운영 메트릭을 모니터링하여 비즈니스 인사이트를 얻은 사례를 살펴봅니다.
클라우드 도입 과정에서 가장 중요하게 고려해야 할 요소는 온프레미스 인프라에 보관중인 데이터 중 클라우드로 이전할 데이터를 선정하는 것과 이 데이터를 안전하고 효율적으로 옮기는 것입니다. 이 강연에서는 클라우드로 옮겼을 때 더 잘 활용할 수 있는 데이터의 종류를 알아보고 어떤 기준으로 데이터를 골라야 하는지, 결정이 내려진 후엔 어떻게 데이터를 옮기는 것이 좋은지에 대한 여섯 가지 전략을 알아보도록 하겠습니다.
- 발표 영상: https://youtu.be/2n3w69KHQqI
원격 근무를 통한 생산성 향상 및 효율적인 교육/학습을 원하는 고객을 위해 AWS가 제공하고 있는 솔루션을 소개합니다. Amazon Workspaces(가상 데스크톱), App Streaming (고성능 SW 스트리밍), WorkDocs(문서 공유), Chime(화상회의/협업), Connect (콜센터) 등을 제공하고 있습니다. 간단한 서비스 데모와 고객 사례를 위주로 알려드립니다.
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...Amazon Web Services Korea
AWS의 빅데이터 서비스들이 데이터 파이프라인 상에서 어떻게 활용 되는지와 데이터 모델링과 플랫폼 구축을 100% 내재화 하여 AWS와 함께 고객기반 서비스의 경쟁력을 강화 해나가는 고객 사례를 전해 드립니다. 국내 뷰티산업을 리딩 하고 있는 아모레퍼시픽에서 온/오프라인 고객 정보를 AWS 기반의 Data Lake로 통합 하고 고객 관점의 데이터 서비스를 출시 하는데 속도를 높이고 있는 성공 스토리를 직접 전해 드립니다.
만들자! 데이터 기반의 스마트 팩토리 - 문태양 AWS 솔루션즈 아키텍트 / 배권 팀장, OCI 정보통신 :: AWS Summit Seou...Amazon Web Services Korea
제조 산업의 데이터는 내부 장치 및 장비에 담겨있기 때문에 활용되지 못하는 경우가 많습니다. AWS IoT로 산업 현장의 원격 감시 제어 데이터 (SCADA)를 수집하고 전사적 자원관리 (ERP), 제조 실행 시스템 (MES)의 데이터와 산업 현장의 데이터를 통합하여 대시보드에서 거의 실시간에 가까운 운영 메트릭을 모니터링하여 비즈니스 인사이트를 얻은 사례를 살펴봅니다.
클라우드 도입 과정에서 가장 중요하게 고려해야 할 요소는 온프레미스 인프라에 보관중인 데이터 중 클라우드로 이전할 데이터를 선정하는 것과 이 데이터를 안전하고 효율적으로 옮기는 것입니다. 이 강연에서는 클라우드로 옮겼을 때 더 잘 활용할 수 있는 데이터의 종류를 알아보고 어떤 기준으로 데이터를 골라야 하는지, 결정이 내려진 후엔 어떻게 데이터를 옮기는 것이 좋은지에 대한 여섯 가지 전략을 알아보도록 하겠습니다.
- 발표 영상: https://youtu.be/2n3w69KHQqI
원격 근무를 통한 생산성 향상 및 효율적인 교육/학습을 원하는 고객을 위해 AWS가 제공하고 있는 솔루션을 소개합니다. Amazon Workspaces(가상 데스크톱), App Streaming (고성능 SW 스트리밍), WorkDocs(문서 공유), Chime(화상회의/협업), Connect (콜센터) 등을 제공하고 있습니다. 간단한 서비스 데모와 고객 사례를 위주로 알려드립니다.
15. 추가 리소스: 빅 데이터 블로그 | 자습형 실습 | AWS 퍼블릭 데이터 세트 | AWS Marketplace
Amazon EMR로 하둡 클러스터를 설정 빅 데이터 솔루션을 테스트 드라이브 자습서 및 리소스
라이브러리 참조
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33. Athena EMR Redshift
SQL 지원의 쿼리
서비스
S3에 데이터 존재
바로 실행
서버리스
쿼리 수행에 따른
과금
단순 SQL 만이 아니라, 여러 배치 잡을
수행 가능 (딥 러닝 트레이닝, 파일 변환/
복사 등)
다양한 플랫폼을 사용해서 워크로드에
따라서 다양하게 구성 할 수 있음
데이터가 반드시 S3 에 있을 필요는 없
음.
서버 클러스터 존재
클러스터 시간당 과금
여러 데이터 소스에 대해 구조화된 데이
터를 집적. 전형적인 D/W 워크로드에 적
합.
서버 클러스터 존재
시간당 과금
Editor's Notes
즉각적인 가용성
대부분 빅 데이터 기술에는 대용량 서버 클러스터가 필요하며, 결과적으로 프로비저닝 및 설정 주기가 길어집니다. AWS를 이용하면 필요한 인프라를 거의 즉시 배포할 수 있습니다. 팀은 더욱 생산적이 되고 새로운 것을 시도하는 것이 수월해지며 프로젝트를 더 빨리 시작할 수 있습니다.
광범위하고 심층적인 역량
빅 데이터 워크로드는 분석하려는 데이터 자산만큼 다양합니다. 광범위하고 심층적인 플랫폼이란 사실상 어떤 빅 데이터 애플리케이션이든 구축할 수 있고, 데이터의 볼륨, 속도 및 다양성과 관계없이 모든 워크로드를 지원할 수 있는 플랫폼을 말합니다. 매년 50개 이상의 서비스와 수백 개의 기능을 추가하고 있는 AWS에서는 클라우드에서 빅 데이터를 수집, 저장, 처리, 분석 및 시각화하는 데 필요한 모든 것을 제공합니다.
신뢰 및 보안
빅 데이터는 민감한 데이터입니다. 따라서 민첩성을 잃지 않으면서 데이터 자산을 보안하고 인프라를 보호하는 것이 매우 중요합니다. AWS에서는 시설, 네트워크, 소프트웨어, 비즈니스 프로세스 전반에서 엄격한 요구 사항을 충족할 수 있는 기능을 제공합니다. 환경은 ISO 27001, FedRAMP, DoD SRG, PCI DSS와 같은 인증에 대해 지속해서 감사를 받습니다. 보증 프로그램은 HIPAA, NCSC 등을 비롯하여 20개가 넘는 표준을 준수하고 있음을 입증하도록 지원합니다.
수백 개의 파트너 및 솔루션
대규모 파트너 에코시스템은 기술의 격차를 해소하고 빅 데이터를 더 빠르게 시작하는 데 도움이 될 수 있습니다. AWS 파트너 네트워크로 이동하여 컨설팅 파트너의 도움을 받거나 전체 데이터 관리 스택의 수많은 도구 및 애플리케이션 중에서 선택하십시오.
하둡 및 Spark
Amazon EMR
몇 분 만에 완전관리형 하둡 프레임워크를 손쉽게 프로비저닝할 수 있습니다. 하둡 클러스터를 동적으로 확장하고 사용한 만큼만 비용을 지불하십시오.
Apache Spark, Apache Tez 및 Presto와 같은 인기 있는 프레임워크를 실행할 수 있습니다.
Elasticsearch
Amazon Elasticsearch Service
웹 기반 콘솔을 사용하여 몇 분 만에 Elasticsearch 클러스터를 설정 및 배포할 수 있습니다. Elasticsearch 오픈 소스 API를 사용하여 기존 Elasticsearch 애플리케이션을 원활하게 실행할 수 있습니다.
대화형 쿼리 서비스
Amazon Athena
ANSI SQL을 사용하여 Amazon S3에서 페타바이트 규모의 데이터를 손쉽게 분석할 수 있습니다. Amazon Athena를 사용하면 클러스터나 데이터 웨어하우스를 관리할 필요가 없으므로 즉시 데이터 분석을 시작할 수 있습니다. Athena로 데이터를 로드할 필요 없이 S3에 저장된 데이터를 직접 사용하면 됩니다.
Yelp에서는 수백 개의 Amazon EMR 작업을 실행하여 매일 30테라바이트 이상의 데이터를 처리합니다. Yelp에서는 Amazon EMR을 사용하여 55,000 USD의 초기 하드웨어 비용을 절약했으며, 몇 달이 아니라 며칠 만에 설치하고 실행할 수 있었습니
Amazon Kinesis Firehose
대용량의 스트리밍 데이터를 AWS로 손쉽게 로드합니다. 현재 사용하고 있는 기존 BI 도구와 대시보드를 통해 거의 실시간 빅 데이터 분석을 수행할 수 있습니다.
Amazon Kinesis Streams
스트리밍 데이터를 처리 또는 분석하는 자체 사용자 정의 애플리케이션을 구축하십시오. 시간당 테라바이트 규모의 데이터를 지속적으로 캡처 및 저장할 수 있습니다.
Amazon Kinesis Analytics
표준 SQL을 통해 스트리밍 데이터를 간편하게 분석합니다. Kinesis Analytics는 쿼리를 지속적으로 실행하는 데 필요한 모든 작업을 처리하고 요구 사항에 맞춰 자동으로 확장됩니다.
Cosmopolitan 및 Car and Driver와 같은 유명한 간행물과 텔레비전 방송국을 비롯하여 전 세계에 250개 이상의 디지털 자산을 소유한 Hearst Corporation은 Amazon Kinesis를 사용하여 실시간 통찰력을 데이터 과학자와 비즈니스 이해 관계자에게 전달합니다.
객체 스토리지
Amazon S3
Amazon S3는 개발자와 IT 팀에 크기와 관계없이 모든 데이터에 대해 안정성, 보안성 및 확장성이 뛰어난 객체 스토리지를 제공합니다.
NoSQL
Amazon DynamoDB
규모와 관계없이 일관되게 10밀리초 미만의 지연 시간이 필요한 모든 애플리케이션(모바일, 웹, 게임, 광고 기술, IoT 등)을 위한 빠르고 유연한 완전관리형 NoSQL 데이터베이스 서비스.
그래프 데이터베이스
Titan용 Amazon DynamoDB
AWS에서 방대한 규모의 그래프를 손쉽게 조작할 수 있습니다. Titan을 사용하여 그래프 데이터베이스를 구축하고, DynamoDB를 통해 빅 데이터 저장 시 성능, 확장성 및 운영 관리를 처리하십시오.
Amazon EMR에서의 HBase
Apache HBase는 일관성이 매우 뛰어난 페타바이트 규모의 오픈 소스 NoSQL 데이터베이스입니다. Apache 하둡 에코시스템과 긴밀하게 통합되므로, 빅 데이터 분석을 빠른 데이터 액세스와 결합할 수 있습니다. Amazon EMR을 사용해 관리형 HBase 클러스터를 손쉽게 생성할 수 있습니다.
Amazon Aurora
Amazon Aurora는 고성능 상용 데이터베이스의 속도와 안정성에 오픈 소스 데이터베이스의 간편성과 비용 효율성이 결합된 관계형 데이터베이스 엔진입니다. 같은 하드웨어에서 표준 MySQL을 실행했을 때보다 최대 5배의 처리량을 제공합니다.
관계형 데이터베이스
Amazon RDS
클라우드에서 관계형 데이터베이스를 손쉽게 설정, 운영 및 확장하십시오 Oracle, Microsoft SQL Server, PostgreSQL, MySQL 및 MariaDB를 비롯한 6개의 익숙한 데이터베이스 엔진 중에서 선택할 수 있습니다.
Airbnb는 숙소 소유자와 여행자를 서로 연결하여 독특한 숙소를 임대할 수 있게 해주는 커뮤니티 마켓플레이스입니다. Airbnb는 Amazon S3를 사용하여 10TB의 사진을 비롯한 정적 파일과 백업을 저장합니다. 또한, 기본 MySQL 데이터베이스를 Amazon RDS로 이전하여 데이터베이스 관리 작업에 들어가는 시간을 최소화했습니다.
데이터 웨어하우스를 몇 분 이내에 손쉽게 프로비저닝, 구성 및 배포할 수 있습니다. Amazon Redshift는 이를 관리, 모니터링 및 확장하는 데 필요한 모든 워크로드를 처리합니다. 빅 데이터를 쿼리하고 분석하는 데 연간 TB당 1,000 USD가 채 들지 않습니다. 또한, Redshift Spectrum을 사용하면 Amazon S3에 있는 엑사바이트 규모의 비정형 데이터에 대해 SQL 쿼리를 직접 실행할 수도 있습니다.
Nasdaq에서는 Amazon Redshift로 이전함으로써, 더 빠르고 풍부한 분석 및 데이터 웨어하우징 기능을 실현하고 이와 동시에 비용을 57% 절감했습니다.
데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여, 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스를 말한다. 줄여서 DW로도 불린다.
Amazon QuickSight
조직 내 모든 직원에게 풍부한 BI 기능을 제공합니다. 직원은 손쉽게 시각화를 구축하고, 임시 분석을 수행하며, 빅 데이터에서 비즈니스 통찰력을 신속하게 확보할 수 있습니다. 빠르게 고급 연산을 수행하고 시각화를 렌더링합니다.
빠르고 실행 가능한 비즈니스 통찰력을 확보하는 데 도움이 되도록, 사용자 데이터에 최적화된 최상의 시각화 구현에 대한 제안을 받을 수 있습니다.
AWS에서 제공되는 퍼블릭 데이터 세트
지역 및 환경 데이터 세트
Earth on AWS를 통해 AWS에서 제공하는 지역 데이터 사용에 대해 자세히 알아보십시오.
Landsat on AWS: Landsat 8 위성에서 생성하는 지구 상의 모든 육지에 대한 위성 이미지를 지속적으로 수집합니다.
Sentinel-2 on AWS: Sentinel-2 위성에서 생성하는 지구 상의 모든 육지에 대한 위성 이미지를 지속적으로 수집합니다.
SpaceNet on AWS: 컴퓨터 시각 알고리즘 개발 분야의 혁신을 촉진할 수 있는 상업 위성 이미지와 레이블된 교육 데이터의 코퍼스입니다.
MODIS on AWS: 미국 지질 조사국과 NASA에서 관리하는 MODIS(Moderate Resolution Imaging Spectroradiometer)의 제품을 선택할 수 있습니다.
Terrain Tiles: 기본 지형 높이를 제공하는 글로벌 데이터 세트로서, 사용 편의성을 위해 타일링되어 있으며 S3에서 제공합니다.
NAIP: 미국에서 농작물 재배 기간에 캡처한 1미터 항공 이미지입니다.
NEXRAD on AWS: NEXRAD(Next Generation Weather Radar) 네트워크의 실시간 데이터 및 아카이브 데이터입니다.
NASA NEX: NASA에서 관리하는 지구 과학 데이터 세트 모음으로, 기후 변화 프로젝션 및 지구 표면의 위성 이미지를 포함하고 있습니다.
District of Columbia LiDAR: 워싱턴 DC의 LiDAR 포인트 클라우드 데이터입니다.
EPA Risk-Screening Environmental Indicators: EPA의 RSEI(Risk-Screening Environmental Indicators) 모델의 상세한 공기 모델 결과입니다.
게놈 및 생명 과학 데이터 세트
클라우드상의 게놈에 대해 자세히 알아보십시오.
1000 Genomes Project: 인간 유전적 변이 상세 지도입니다.
TCGA on AWS: Cancer Genomics Cloud를 통해 자격이 있는 연구원에게 제공되는 TCGA(Cancer Genome Atlas)의 원시 및 처리된 유전체, 전사체 및 후생유전자 데이터입니다.
ICGC on AWS: ICGC(International Cancer Genome Consortium)를 통해 자격이 있는 연구원에게 제공되는 전체 게놈 서열 데이터입니다.
3000 Rice Genome on AWS: 3,024개 쌀 품종의 게놈 서열입니다.
Genome in a Bottle(GIAB): 임상 시험을 위해 전체 인간 게놈 서열을 번역할 수 있는 몇몇 참조 게놈입니다.
기계 학습을 위한 데이터 세트
AWS 기반 인공 지능 및 기계 학습에 대해 자세히 알아보십시오.
Common Crawl : 50억 개가 넘는 웹 페이지로 구성된 웹 크롤링 데이터 코퍼스입니다.
Amazon Bin Image Dataset: 운영 중인 Amazon 물류 센터의 제품을 설명하는 500,000개가 넘는 bin JPEG 이미지 및 관련 JSON 메타데이터 파일입니다.
GDELT: 전 세계 모든 국가의 방송, 간행물 및 웹 뉴스를 모니터링하는 2.5억 개 이상의 레코드로서 매일 업데이트됩니다.
Multimedia Commons: 오디오 기능, 시각 기능 및 주석이 포함된 동영상과 이미지 모음으로 거의 1억 개에 육박합니다.
Google Books Ngrams: Google Books n-gram 코퍼스가 포함된 데이터 세트입니다.
SpaceNet on AWS: 컴퓨터 시각 알고리즘 개발 분야의 혁신을 촉진할 수 있는 상업 위성 이미지와 레이블된 교육 데이터의 코퍼스입니다.
규제 및 통계 데이터
IRS 990 Filings on AWS: 2011년부터 현재까지 IRS에 신고된 특정 전자 990 양식의 데이터로 시스템 인식 가능한 데이터입니다.
ACS PUMS on AWS: 미국 통계국 ACS(American Community Survey) PUMS(Public Use Microdata Sample)가 RDF(Resource Description Framework) 데이터 모델을 사용하여 링크된 데이터 형식으로 제공됩니다.
스트리밍 데이터 처리는 새로운 동적 데이터가 지속적으로 생성되는 시나리오 대부분에서 유용합니다. 대다수 산업 부문과 빅 데이터 사용 사례가 이에 해당합니다. 일반적으로 기업은 최소-최대 컴퓨팅 롤링 같은 기본적인 처리와 시스템 로그 수집 등 간단한 애플리케이션으로 시작합니다. 그리고 이러한 애플리케이션이 좀 더 정교한 거의 실시간 처리로 진화하게 됩니다. 초기에는 애플리케이션이 데이터 스트림을 처리하여 간단한 보고서를 생산하고, 이에 대한 응답으로 주요 측정치가 특정 임계값을 초과할 때 경보를 내보내는 간단한 작업을 수행했습니다. 현재는 이러한 애플리케이션이 기계 학습 알고리즘을 적용하고 데이터에서 심도 있는 통찰력을 추출하는 등 더욱 정교한 형태의 데이터 분석을 수행합니다. 시간이 지나면서, 가장 인기 있는 최신 영화를 찾는 '타임 윈도우 감소' 알고리즘과 같은 스트림 및 이벤트 처리 알고리즘이 적용되어 통찰력이 강화되었습니다.
출, 변환, 적재(Extract, transform, load, ETL)는 컴퓨팅에서 데이터베이스 이용의 한 과정으로 특히 데이터 웨어하우스에서 다음을 아우른다:
동일 기종 또는 타기종의 데이터 소스로부터 데이터를 추출한다.
조회 또는 분석을 목적으로 적절한 포맷이나 구조로 데이터를 저장하기 위해 데이터를 변환한다.
최종 대상(데이터베이스, 특히 운영 데이터 스토어, 데이터 마트, 데이터 웨어하우스)으로 변환 데이터를 적재한다.