SlideShare a Scribd company logo
1 of 59
Download to read offline
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Web Services Japan K.K.
AWS で実現する
データレイクとアナリティクス
Turn data into insights
© 2020, Amazon Web Services, Inc. or its Affiliates.
⾃⼰紹介
川村 誠
Hadoop/Spark スペシャリスト
ソリューションアーキテクト
Ø データ分析系サービスを担当
Ø 好きなサービス
• Amazon EMR
• Amazon Athena
• AWS Glue
• Amazon SageMaker
© 2020, Amazon Web Services, Inc. or its Affiliates.
アジェンダ
データレイク
リファレンスアーキテクチャ
ユースケース
まとめ
© 2020, Amazon Web Services, Inc. or its Affiliates.
データレイク
© 2020, Amazon Web Services, Inc. or its Affiliates.
Challenge
プレイヤーのエンゲージメントを
理解し、プレイヤーのエンゲージ
メントに適応するために、ゲーム
クライアントやゲームサーバーか
ら取り込まれる100 PB 以上の
データ ( 1億2500万イベント/分 )
を処理し、分析する⽅法が求めら
れていました
Solution
Amazon EMR、Amazon EC2、
Amazon Kinesis を組み合わせた
Amazon S3 データレイクを採⽤
Benefits
結果、ゲームデザイナーは⼀定間
隔でフィードバック情報をデータ
から得られるようになり、ゲーム
プレイヤーのエンゲージメントを
促進するために、最⼤分間粒度で
ゲームプレイヤーの満⾜度分析を
データから得ています
Epic Games 様:
世界中にいる 2億5千万⼈以上のプレイヤーのため、
Fortnite を絶えず改善しています
© 2020, Amazon Web Services, Inc. or its Affiliates.
お客さまの共通課題︓データ活⽤による更なる価値の創出
⾶躍的な
成⻑
新たな
情報源
多様性の
増加
更に多くの
ユーザが利⽤
複数の
アプリケーションを
利⽤した分析
© 2020, Amazon Web Services, Inc. or its Affiliates.
これまでの意思決定...
OLTP
ERP CRM
LOB
エンタープライズ
データウェアハウス
ビジネス
インテリジェンス
エンタープライズデータウェアハウス中⼼
© 2020, Amazon Web Services, Inc. or its Affiliates.
データはそのモデルにフィットしない
* IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017.
データ
5年で
想像を超えるデータ量
15年
運⽤期間
データプラットフォーム
1,000倍
スケール
10倍以上
成⻑率
より多様なデータ
01100111 01100101 01110100 00100000 01100001
00100000 01101000 01101111 01100010 01100010
01111001 00001101 00001010 01100111 01100101
01110100 00100000 01100001 00100000 01101000
01101111 01100010 01100010 01111001 00001101
00001010 01100111 01100101 01110100 00100000
01100001 00100000 01101000 01101111 01100010
01100010 01111001 00001101 00001010 01100111
01100101 01110100 00100000 01100001 00100000
01101000 01101111 01100010 01100010 01111001
00001101 00001010 01100111 01100101 01110100
00100000 01100001 00100000 01101000 01101111
01100010 01100010 01111001 00001101 01100110
0000101001100111 01100101 01110100 00100000
01100001 00100000 01101000 01101111 01100010
01100010 01111001 00001101 00001010 01100111
01100101 01110100 00100000 01100001 00100000
01101000 01101111 01100010 01100010 01111001
00001101 00001010 01100111 01100101 01110100
00100000 01100001 00100000 01101000 01101111
01100010 01100010 01111001 00001101 00001010
© 2020, Amazon Web Services, Inc. or its Affiliates.
より幅広いワークロード
より多くのユーザーが
データにアクセスする
それぞれ異なる⽅法で
分析する
アナリスト
ビジネスユーザー
アプリケーション
機械学習 SQL分析
科学技術計算
リアルタイム
ストリーミング
データ
サイエンティスト
© 2020, Amazon Web Services, Inc. or its Affiliates.
データの
サイロ化 to
OLTP ERP CRM LOB
DW Silo 1
ビジネス
インテリジェンス
デバイス ウェブ センサー ソーシャル
DW Silo 2
ビジネス
インテリジェンス
機械学習
BI +
アナリティ
クス
データウェア
ハウス
データ
レイク
オープンフォーマット
セントラルカタログ
スケーラビリティ︓従来のデータ分析基盤における課題
© 2020, Amazon Web Services, Inc. or its Affiliates.
解決策︓データレイクアーキテクチャへの移⾏
従来のデータウェアハウスのアーキテクチャを拡張
あらゆるフォーマットのデータを蓄積
⾼い耐久性と可⽤性、エクサバイト規模のスケール
適切なセキュリティ & コンプライアンス、監査
多岐にわたる分析・機械学習サービスとの連携
データウェアハウス アナリティクス 機械学習
データレイク
© 2020, Amazon Web Services, Inc. or its Affiliates.
リファレンスアーキテクチャ
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存
(ストレージ + データカタログ)
© 2020, Amazon Web Services, Inc. or its Affiliates.
ラムダアーキテクチャ
• Apache Storm の開発者 Nathan Marz が 2012 年に提唱
• データ処理の流れを,全量のデータを保持し定期的な処理を⾏うバッチレイヤー
と,新しく⼊ってきたデータをストリーム処理するスピードレイヤーに分割
• 両者を組み合わせて結果を表⽰する
新しい
データ
すべての
データ
スピードレイヤー
バッチレイヤー
バッチビュー
リアルタイム
ビュー
バッチ処理
ストリーム処理
クエリの実⾏
サービングレイヤー
© 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
収集 変換 分析
収集 変換 分析
保存
© 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
分析
収集 変換 分析
保存
収集 変換
あくまでこれは原則なので,こうならない場合もある
たとえば,ストリーム処理で「収集」と「変換」だけ
して「保存」してしまい,「分析」は後からバッチで
実⾏するといったパターンなど
© 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
収集 変換 分析
収集
保存
変換 分析
バッチ処理側でも,たとえば変換と分析を同時にやっ
てしまうパターンも考えられる
もちろんコンポーネントの連携が密になるため,処理
時間の制約など,必要性に応じて選択
© 2020, Amazon Web Services, Inc. or its Affiliates.
さまざまな種類のデータ処理・分析がある
• データレイクに活⽤可能なデータを準備するための、多段 ETL
• 可視化 / 他サービス連携のための、SQL ベースのデータマート作成
• アクセスログに基づいたレコメンド
• アナリストのためのインタラクティブなデータ分析
• 離脱可能性の⾼いユーザー予測に基づくキャンペーンメール送信
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケースに応じた最適なツールの選択
なんでも完璧にできる、唯⼀の万能なツールは存在しない
Swiss Army Knife Vector: https://www.freevector.com/swiss-army-knife-vector
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存
(ストレージ + データカタログ)
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch
Service
Amazon EMR
© 2020, Amazon Web Services, Inc. or its Affiliates.
サービス選択における基本的な考え⽅
• 同時に分析するユーザー数はどのくらい増える⾒込みがあるか
• 処理対象のデータ量はどのくらいの頻度でどう増えるか
• 処理にかかる時間が⼗分短いか,⼤幅に増減する可能性があるか
• 処理内容の変更頻度がどのくらい⾼いか
• 運⽤コストとカスタマイズ性のどちらを優先するか
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
堅牢なインフラの基盤となるストレージ
従来のデータウェアハウスのアーキテクチャを拡張
(コンピューティングとストレージの分離)
あらゆるフォーマットのデータを蓄積
⾼い耐久性と可⽤性、エクサバイト規模のスケール
適切なセキュリティ & コンプライアンス、監査
(オブジェクトレベルの詳細なアクセス権限制御)
多岐にわたる分析・機械学習サービスとの連携
データウェアハウス アナリティクス 機械学習
データレイク
© 2020, Amazon Web Services, Inc. or its Affiliates.
堅牢なインフラの基盤となるストレージ
Amazon S3
✔ 99.999999999% の耐久性
✔ グローバルレプリケーションが可能
✔ コスト効率の良いストレージクラス
✔ さまざまな管理機能
✔ 暗号化・コンプライアンス
✔ 多数のパートナー製品との統合
https://aws.amazon.com/jp/s3/
© 2020, Amazon Web Services, Inc. or its Affiliates.
堅牢なインフラの基盤となるストレージ
Amazon S3 ストレージクラス
ホットデータ コールドデータ
• Active, frequently
accessed data
• Milliseconds access
• > 3 AZ
• $0.0250/GB
• Data with changing
access patterns
• Milliseconds access
• > 3 AZ
• $0.0250 to $0.0190
/GB
• Infrequently
accessed data
• Milliseconds access
• > 3 AZ
• $0.0190/GB
• Re-creatable, less
accessed data
• Milliseconds access
• 1 AZ
• $0.0152/GB
• Archive data
• Minutes or hours access
• > 3 AZ
• $0.0050/GB
S3 Standard S3 Standard-IA S3 One Zone-IA S3 Glacier
S3 Intelligent-
Tiering
S3 Glacier
Deep Archive
• Archive data
• Hours to access
• > 3 AZ
• $0.0020/GB
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis
容易にビデオ/データストリームの収集・処理・分析をリアルタイムで実現可能
分析のための、動画
ストリームのキャプ
チャ、処理、保存
データストリームを
AWSのデータストア
にロード
SQLやJava(Flink)で
データストリームを
分析可能
データストリームを
分析するカスタム
アプリケーションの
構築
Kinesis Video Streams Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics
SQL
https://aws.amazon.com/jp/kinesis/
© 2020, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis Data Streams
• ストリーム内のシャード毎に順序性を持ってデータを永続化
• 3つのアベイラビリティゾーンに強い整合性でデータを複製
• シャード数を増減することでスループットを制御
Kinesis Data Streams
エ
ン
ド
ポ
イ
ン
ト
シャード 0
シャード 1
シャード ..N
データ送信側 データ処理側
データ
レコード ストリーム
Amazon Kinesis
Consumer Library
on EC2
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
AWS Lambda
© 2020, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis Data Firehose
エ
ン
ド
ポ
イ
ン
ト
Amazon S3
Amazon Redshift
Amazon ES
Amazon S3
配信ストリーム
Amazon Redshift
配信ストリーム
データ
レコード
Splunk
Amazon Elasticsearch Service(ES)
配信ストリーム
Splunk
配信ストリーム
Amazon Kinesis
Data Analytics
Amazon Kinesis
Data Streams
• Amazon S3 / Amazon Redshift / Amazon ES / Splunk に直接データを配信
• ストリームデータをバッファリングしてまとめて出⼒
• シャードの管理は不要で無制限にスケール(上限は存在)
Kinesis Data Firehose
Amazon Kinesis
Data Analytics
Amazon Kinesis
Data Streams
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon EMR
Hadoop クラスタを数分で⽴ち上げ、API コールで簡単にスケール
S3 上のデータを読み込んでジョブを実⾏し、結果を S3 に出⼒
Spark、Hive、Presto、HBase などのミドルウェアを利⽤可能
ローコスト
EC2スポットとリザーブドインス
タンスでコストを50〜80%削減
フレキシブルな秒単位の課⾦
S3 をストレージと
して利⽤
EMRFSコネクタを使⽤し、
S3上のデータを⾼パフォーマンス
で安全に処理
最新バージョン
30⽇以内に最新のオープンソース
フレームワークに更新
フルマネージド
クラスタのセットアップ、
ノードのプロビジョニング、
クラスタのチューニングは不要
オートスケーリングも
⽤意に設定可能
簡単
https://aws.amazon.com/jp/emr/
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon EMR
コンピューティングとストレージの分離
永続的なクラスター
(Spark Streaming | Hbase)
⼀時的なクラスター : バッチジョブ
(毎晩 N 時間稼働、ノードの⾜し引き可能) External Metastore
特定処理に特化したクラスター
(必要なキャパやバージョンが異なる)
Amazon S3
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
カタログ・ETL・データ前処理
AWS Glue
データストアをクロールし、データフォー
マットの識別とスキーマをサジェストの上、
マネージドなカタログリポジトリで管理
Apache Spark / Python で ETL ジョブを実
⾏するサーバーレスエンジンのプロビジョ
ニング、設定、および、 スケーリング
ETL ジョブのビルド、保守、実⾏の作業を
⾃動化可能
⾼速起動オプション(1分未満)
ジョブに使⽤されたリソースの料⾦のみの
⽀払い
AWS Glue
Data
catalog
Serverless
Engine
Orchestration
AWS Glue
https://aws.amazon.com/jp/glue/
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena
QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
AI/ML
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Athena
クエリーごとの
課⾦
クエリー単位のデータスキャン量
に応じた課⾦体系
スキャン対象となるデータの圧縮
により、クエリ単位のコストを
30〜90%削減可能
ストレージは S3
ANSI準拠のSQL
JDBC/ODBC ドライバー
複数のフォーマット、圧縮タ
イプ、複雑な結合とデータ
タイプ
SQL
サーバレス: インフラストラク
チャーおよびアドミンは不要
Amazon QuickSightとも統合
簡単即時にクエリー
セットアップ費⽤ゼロ
S3 をポイントしてクエリを開始
サーバレスなインタラクティブ・クエリーサービス
https://aws.amazon.com/jp/athena/
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
クラウド向けに構築された初のBIサービス、セッションごとの料⾦設定
と機械学習機能(MLインサイト)を搭載
伸縮性のある
スケーリング
サーバやソフトウェアを導⼊、
管理、運⽤は不要。スモールス
タートし、10,000以上にスケー
ル可能。
使った分だけのお⽀払い
事前コスト不要
利⽤しないユーザのコスト不要
サーバレス
ダッシュボードを
数分で作成可能
単⼀のサーバーをプロ
ビジョニングせずに、
グローバルに展開
AWSとフル・インテ
グレーション
AWSデータへのセキュアで
プライベートなアクセス
AWS IAMによるS3データレイク
のパーミッションの統合
AWS Lake Formation による
カラム粒度のアクセス制御を
サポート
APIサポート
プログラムでユーザーをオンボー
ドし、コンテンツを管理
アプリに簡単に埋め込み可能
https://aws.amazon.com/jp/quicksight/
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
Enterprise Edition Pricing
https://aws.amazon.com/jp/quicksight/pricing/
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
機械学習機ベースのインサイト
専⾨家不要で使える
インサイト(洞察)機能を提供
1. MLベースの異常検知
⾃動的に異常値を発⾒し、報告
2. MLベースの予測
過去の値から将来を予測
3. ⾃動ナラティブ
分かりやすい⽂章で分析結果を提供
4. ML予測
SageMaker のモデルと連動
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
QuickSight ギャラリー
https://aws.amazon.com/jp/quicksight/gallery/
© 2020, Amazon Web Services, Inc. or its Affiliates.
インプット
クリックストリーム, 会計,
ソーシャル, 業務データなど
Amazon S3
全てのデータはデータレイクで
あるS3にロードまたは
ストリーミング
アウトプット
SQLクライアントとBIツールを接続し
て、ビジネス上の意思決定、機械学習
アルゴリズム、またはパーソナライズ
されたエクスペリエンスを実現する
新たな洞察を提供
Amazon Redshift
Redshiftは⾼性能なローカルディ
スクやAmazon S3からオープン
データフォーマットのまま直接
クエリー可能
ユースケース3: クラウド拡張されたデータウェアハウス
最もポピュラーかつ⾼速なクラウドのデータウェアハウス
© 2020, Amazon Web Services, Inc. or its Affiliates.
インプット
クリックストリーム, 会計,
ソーシャル, 業務データなど
Amazon S3
全てのデータはデータレイクで
あるS3にロードまたは
ストリーミング
アウトプット
SQLクライアントとBIツールを接続し
て、ビジネス上の意思決定、機械学習
アルゴリズム、またはパーソナライズ
されたエクスペリエンスを実現する
新たな洞察を提供
Amazon Redshift
Redshiftは⾼性能なローカルディ
スクやAmazon S3からオープン
データフォーマットのまま直接
クエリー可能
ユースケース3: クラウド拡張されたデータウェアハウス
最もポピュラーかつ⾼速なクラウドのデータウェアハウス
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift
最もポピュラーかつ⾼速なクラウドのデータウェアハウス
最も⾼速な
パフォーマンス
とスケーラビリティ
新しいインスタンスタイプ(RA3)と
ハードウェアアクセラレーション
(AQUA) を利⽤することで、
さらなる⾼速処理を実現
オンデマンドで無制限の
コンピュートリソースを追加し
無制限の同時接続を実現
低コスト
コンピュートとストレージを
分離、コスト最適化された
ワークロード
トラディショナルなDWHの
1/10のコスト($1000/TB/年)
他のクラウドDWHと⽐較して
最⼤75%のコスト削減および
予測可能なコスト
データレイクと
AWSサービスとの
統合
データウェアハウス、
データレイク、オペレーショナル
データベースにまたがる
膨⼤なデータに対する分析
様々なアナリティクスサービス
へのフェデーレテッドクエリー
を実現
セキュア
AWSグレードのセキュリティ機能
(eg. VPC, encryption with KMS,
CloudTrail)
全ての主要な認証を取得済み
(SOC, PCI, DSS, ISO,
FedRAMP, HIPPA)
https://aws.amazon.com/jp/redshift/
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift
互換性を維持しつつ⼤きく進化
© 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift
最近のアップデート
Fully managed,
secure, &
cost-effective
Performance
& scalability
Data lake &
AWS integration,
in-built analytics
NEW!
RA3 nodes
with Redshift
managed storage
NEW!
AZ64
compression
encoding
NEW!
Materialized
views
NEW!
Concurrency
scaling
NEW!
Data lake
export in
Parquet, bloom
filters, cost
controls
NEW!
Spectrum
request
accelerator
NEW!
Amazon Lake
Formation
integration
NEW!
Spatial
data support
NEW!
Pause
and resume
NEW!
New
management
console
NEW!
Auto WLM:
query priorities
NEW!
Elastic resize
and scheduler
NEW!
Stored
procedures
NEW!
Column level
access control
NEW!
Single sign-on
with Azure AD
NEW!
Auto-vacuum,
Auto-analyze &
Auto table sort
NEW!
Distribution
and sort key advisor
Federated query
across Redshift &
RDS/Aurora
NEW!
NEW!
Runtime
bloom filters
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch
Service
Amazon EMR
© 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch
Service
Amazon EMR
© 2020, Amazon Web Services, Inc. or its Affiliates.
まとめ
© 2020, Amazon Web Services, Inc. or its Affiliates.
まとめ
データレイク
データレイクに求められる要件について
リファレンスアーキテクチャ
データレイクを実現するリファレンスアーキテクチャとその考え⽅について
ユースケース
Ø ラムダアーキテクチャ事例
Ø サーバレス分析基盤
Ø データウェアハウス
© 2020, Amazon Web Services, Inc. or its Affiliates.
Thank you.

More Related Content

What's hot

What's hot (20)

20190806 AWS Black Belt Online Seminar AWS Glue
20190806 AWS Black Belt Online Seminar AWS Glue20190806 AWS Black Belt Online Seminar AWS Glue
20190806 AWS Black Belt Online Seminar AWS Glue
 
20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation 20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation
 
20190604 AWS Black Belt Online Seminar Amazon Simple Notification Service (SNS)
20190604 AWS Black Belt Online Seminar Amazon Simple Notification Service (SNS)20190604 AWS Black Belt Online Seminar Amazon Simple Notification Service (SNS)
20190604 AWS Black Belt Online Seminar Amazon Simple Notification Service (SNS)
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
 
20200721 AWS Black Belt Online Seminar AWS App Mesh
20200721 AWS Black Belt Online Seminar AWS App Mesh20200721 AWS Black Belt Online Seminar AWS App Mesh
20200721 AWS Black Belt Online Seminar AWS App Mesh
 
20190522 AWS Black Belt Online Seminar AWS Step Functions
20190522 AWS Black Belt Online Seminar AWS Step Functions20190522 AWS Black Belt Online Seminar AWS Step Functions
20190522 AWS Black Belt Online Seminar AWS Step Functions
 
20201111 AWS Black Belt Online Seminar AWS CodeStar & AWS CodePipeline
20201111 AWS Black Belt Online Seminar AWS CodeStar & AWS CodePipeline20201111 AWS Black Belt Online Seminar AWS CodeStar & AWS CodePipeline
20201111 AWS Black Belt Online Seminar AWS CodeStar & AWS CodePipeline
 
AWS Black Belt Online Seminar 2017 Amazon Kinesis
AWS Black Belt Online Seminar 2017 Amazon KinesisAWS Black Belt Online Seminar 2017 Amazon Kinesis
AWS Black Belt Online Seminar 2017 Amazon Kinesis
 
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
 
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
 
20200526 AWS Black Belt Online Seminar AWS X-Ray
20200526 AWS Black Belt Online Seminar AWS X-Ray20200526 AWS Black Belt Online Seminar AWS X-Ray
20200526 AWS Black Belt Online Seminar AWS X-Ray
 
20200331 AWS Black Belt Online Seminar AWS Elemental MediaConvert
20200331 AWS Black Belt Online Seminar AWS Elemental MediaConvert20200331 AWS Black Belt Online Seminar AWS Elemental MediaConvert
20200331 AWS Black Belt Online Seminar AWS Elemental MediaConvert
 
AWSではじめるMLOps
AWSではじめるMLOpsAWSではじめるMLOps
AWSではじめるMLOps
 
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway 20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway
 
20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier
20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier
20190220 AWS Black Belt Online Seminar Amazon S3 / Glacier
 
AWS Black Belt Online Seminar 2018 AWS Certificate Manager
AWS Black Belt Online Seminar 2018 AWS Certificate ManagerAWS Black Belt Online Seminar 2018 AWS Certificate Manager
AWS Black Belt Online Seminar 2018 AWS Certificate Manager
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
 
20191023 AWS Black Belt Online Seminar Amazon EMR
20191023 AWS Black Belt Online Seminar Amazon EMR20191023 AWS Black Belt Online Seminar Amazon EMR
20191023 AWS Black Belt Online Seminar Amazon EMR
 
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
 

Similar to Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス

Similar to Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス (20)

Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
 
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
 
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンEffective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターン
 
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
 
Serverless analytics on aws
Serverless analytics on awsServerless analytics on aws
Serverless analytics on aws
 
Gaming on aws 〜ゲームにおけるAWS最新活用術〜
Gaming on aws 〜ゲームにおけるAWS最新活用術〜Gaming on aws 〜ゲームにおけるAWS最新活用術〜
Gaming on aws 〜ゲームにおけるAWS最新活用術〜
 
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
 
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
 
20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services
 
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティスAmazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティス
 
エッジコンピューティングで実現できる活用シナリオ3選
エッジコンピューティングで実現できる活用シナリオ3選エッジコンピューティングで実現できる活用シナリオ3選
エッジコンピューティングで実現できる活用シナリオ3選
 
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
 
20201125 EC Solution Seminar Recommend
20201125 EC Solution Seminar Recommend20201125 EC Solution Seminar Recommend
20201125 EC Solution Seminar Recommend
 
IoTデザインパターン 2015 JAWS沖縄
IoTデザインパターン 2015 JAWS沖縄IoTデザインパターン 2015 JAWS沖縄
IoTデザインパターン 2015 JAWS沖縄
 
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
 
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法 ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
 
[CTC Forum 2019/10/25] 事例から学ぶ!AWS 移行でデータベースの管理・コストを削減する方法
[CTC Forum 2019/10/25] 事例から学ぶ!AWS 移行でデータベースの管理・コストを削減する方法[CTC Forum 2019/10/25] 事例から学ぶ!AWS 移行でデータベースの管理・コストを削減する方法
[CTC Forum 2019/10/25] 事例から学ぶ!AWS 移行でデータベースの管理・コストを削減する方法
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
 
AWS Black Belt Techシリーズ AWS Data Pipeline
AWS Black Belt Techシリーズ  AWS Data PipelineAWS Black Belt Techシリーズ  AWS Data Pipeline
AWS Black Belt Techシリーズ AWS Data Pipeline
 

More from Amazon Web Services Japan

More from Amazon Web Services Japan (20)

202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
 
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
 
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
 
Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022
 
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
 
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
 
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
 
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
 
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
 
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
 
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
 
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
 
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
 
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
 
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
 
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
 
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
 
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
 

Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス

  • 1. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Web Services Japan K.K. AWS で実現する データレイクとアナリティクス Turn data into insights
  • 2. © 2020, Amazon Web Services, Inc. or its Affiliates. ⾃⼰紹介 川村 誠 Hadoop/Spark スペシャリスト ソリューションアーキテクト Ø データ分析系サービスを担当 Ø 好きなサービス • Amazon EMR • Amazon Athena • AWS Glue • Amazon SageMaker
  • 3. © 2020, Amazon Web Services, Inc. or its Affiliates. アジェンダ データレイク リファレンスアーキテクチャ ユースケース まとめ
  • 4. © 2020, Amazon Web Services, Inc. or its Affiliates. データレイク
  • 5. © 2020, Amazon Web Services, Inc. or its Affiliates. Challenge プレイヤーのエンゲージメントを 理解し、プレイヤーのエンゲージ メントに適応するために、ゲーム クライアントやゲームサーバーか ら取り込まれる100 PB 以上の データ ( 1億2500万イベント/分 ) を処理し、分析する⽅法が求めら れていました Solution Amazon EMR、Amazon EC2、 Amazon Kinesis を組み合わせた Amazon S3 データレイクを採⽤ Benefits 結果、ゲームデザイナーは⼀定間 隔でフィードバック情報をデータ から得られるようになり、ゲーム プレイヤーのエンゲージメントを 促進するために、最⼤分間粒度で ゲームプレイヤーの満⾜度分析を データから得ています Epic Games 様: 世界中にいる 2億5千万⼈以上のプレイヤーのため、 Fortnite を絶えず改善しています
  • 6. © 2020, Amazon Web Services, Inc. or its Affiliates. お客さまの共通課題︓データ活⽤による更なる価値の創出 ⾶躍的な 成⻑ 新たな 情報源 多様性の 増加 更に多くの ユーザが利⽤ 複数の アプリケーションを 利⽤した分析
  • 7. © 2020, Amazon Web Services, Inc. or its Affiliates. これまでの意思決定... OLTP ERP CRM LOB エンタープライズ データウェアハウス ビジネス インテリジェンス エンタープライズデータウェアハウス中⼼
  • 8. © 2020, Amazon Web Services, Inc. or its Affiliates. データはそのモデルにフィットしない * IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017. データ 5年で 想像を超えるデータ量 15年 運⽤期間 データプラットフォーム 1,000倍 スケール 10倍以上 成⻑率 より多様なデータ 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 01100110 0000101001100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010
  • 9. © 2020, Amazon Web Services, Inc. or its Affiliates. より幅広いワークロード より多くのユーザーが データにアクセスする それぞれ異なる⽅法で 分析する アナリスト ビジネスユーザー アプリケーション 機械学習 SQL分析 科学技術計算 リアルタイム ストリーミング データ サイエンティスト
  • 10. © 2020, Amazon Web Services, Inc. or its Affiliates. データの サイロ化 to OLTP ERP CRM LOB DW Silo 1 ビジネス インテリジェンス デバイス ウェブ センサー ソーシャル DW Silo 2 ビジネス インテリジェンス 機械学習 BI + アナリティ クス データウェア ハウス データ レイク オープンフォーマット セントラルカタログ スケーラビリティ︓従来のデータ分析基盤における課題
  • 11. © 2020, Amazon Web Services, Inc. or its Affiliates. 解決策︓データレイクアーキテクチャへの移⾏ 従来のデータウェアハウスのアーキテクチャを拡張 あらゆるフォーマットのデータを蓄積 ⾼い耐久性と可⽤性、エクサバイト規模のスケール 適切なセキュリティ & コンプライアンス、監査 多岐にわたる分析・機械学習サービスとの連携 データウェアハウス アナリティクス 機械学習 データレイク
  • 12. © 2020, Amazon Web Services, Inc. or its Affiliates. リファレンスアーキテクチャ
  • 13. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存 (ストレージ + データカタログ)
  • 14. © 2020, Amazon Web Services, Inc. or its Affiliates. ラムダアーキテクチャ • Apache Storm の開発者 Nathan Marz が 2012 年に提唱 • データ処理の流れを,全量のデータを保持し定期的な処理を⾏うバッチレイヤー と,新しく⼊ってきたデータをストリーム処理するスピードレイヤーに分割 • 両者を組み合わせて結果を表⽰する 新しい データ すべての データ スピードレイヤー バッチレイヤー バッチビュー リアルタイム ビュー バッチ処理 ストリーム処理 クエリの実⾏ サービングレイヤー
  • 15. © 2020, Amazon Web Services, Inc. or its Affiliates. ストリーム処理を組み込んだデータレイクのアーキテクチャ バッチ処理バッチ処理バッチ処理 ストリーム処理 収集 変換 分析 収集 変換 分析 保存
  • 16. © 2020, Amazon Web Services, Inc. or its Affiliates. ストリーム処理を組み込んだデータレイクのアーキテクチャ バッチ処理バッチ処理バッチ処理 ストリーム処理 分析 収集 変換 分析 保存 収集 変換 あくまでこれは原則なので,こうならない場合もある たとえば,ストリーム処理で「収集」と「変換」だけ して「保存」してしまい,「分析」は後からバッチで 実⾏するといったパターンなど
  • 17. © 2020, Amazon Web Services, Inc. or its Affiliates. ストリーム処理を組み込んだデータレイクのアーキテクチャ バッチ処理バッチ処理バッチ処理 ストリーム処理 収集 変換 分析 収集 保存 変換 分析 バッチ処理側でも,たとえば変換と分析を同時にやっ てしまうパターンも考えられる もちろんコンポーネントの連携が密になるため,処理 時間の制約など,必要性に応じて選択
  • 18. © 2020, Amazon Web Services, Inc. or its Affiliates. さまざまな種類のデータ処理・分析がある • データレイクに活⽤可能なデータを準備するための、多段 ETL • 可視化 / 他サービス連携のための、SQL ベースのデータマート作成 • アクセスログに基づいたレコメンド • アナリストのためのインタラクティブなデータ分析 • 離脱可能性の⾼いユーザー予測に基づくキャンペーンメール送信
  • 19. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケースに応じた最適なツールの選択 なんでも完璧にできる、唯⼀の万能なツールは存在しない Swiss Army Knife Vector: https://www.freevector.com/swiss-army-knife-vector
  • 20. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存 (ストレージ + データカタログ)
  • 21. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存(ストレージ + データカタログ) Amazon Database Migration Service Amazon Kinesis Amazon Managed Streaming for Kafka Amazon S3 AWS Glue AWS Lake Formation AWS Glue AWS Lake Formation Amazon QuickSight Amazon Athena Amazon Redshift Amazon SageMaker Amazon Personalize Amazon Forecast Amazon Elasticsearch Service Amazon EMR
  • 22. © 2020, Amazon Web Services, Inc. or its Affiliates. サービス選択における基本的な考え⽅ • 同時に分析するユーザー数はどのくらい増える⾒込みがあるか • 処理対象のデータ量はどのくらいの頻度でどう増えるか • 処理にかかる時間が⼗分短いか,⼤幅に増減する可能性があるか • 処理内容の変更頻度がどのくらい⾼いか • 運⽤コストとカスタマイズ性のどちらを優先するか
  • 23. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース
  • 24. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 25. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 26. © 2020, Amazon Web Services, Inc. or its Affiliates. 堅牢なインフラの基盤となるストレージ 従来のデータウェアハウスのアーキテクチャを拡張 (コンピューティングとストレージの分離) あらゆるフォーマットのデータを蓄積 ⾼い耐久性と可⽤性、エクサバイト規模のスケール 適切なセキュリティ & コンプライアンス、監査 (オブジェクトレベルの詳細なアクセス権限制御) 多岐にわたる分析・機械学習サービスとの連携 データウェアハウス アナリティクス 機械学習 データレイク
  • 27. © 2020, Amazon Web Services, Inc. or its Affiliates. 堅牢なインフラの基盤となるストレージ Amazon S3 ✔ 99.999999999% の耐久性 ✔ グローバルレプリケーションが可能 ✔ コスト効率の良いストレージクラス ✔ さまざまな管理機能 ✔ 暗号化・コンプライアンス ✔ 多数のパートナー製品との統合 https://aws.amazon.com/jp/s3/
  • 28. © 2020, Amazon Web Services, Inc. or its Affiliates. 堅牢なインフラの基盤となるストレージ Amazon S3 ストレージクラス ホットデータ コールドデータ • Active, frequently accessed data • Milliseconds access • > 3 AZ • $0.0250/GB • Data with changing access patterns • Milliseconds access • > 3 AZ • $0.0250 to $0.0190 /GB • Infrequently accessed data • Milliseconds access • > 3 AZ • $0.0190/GB • Re-creatable, less accessed data • Milliseconds access • 1 AZ • $0.0152/GB • Archive data • Minutes or hours access • > 3 AZ • $0.0050/GB S3 Standard S3 Standard-IA S3 One Zone-IA S3 Glacier S3 Intelligent- Tiering S3 Glacier Deep Archive • Archive data • Hours to access • > 3 AZ • $0.0020/GB
  • 29. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 30. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 31. © 2020, Amazon Web Services, Inc. or its Affiliates. リアルタイム: Amazon Kinesis 容易にビデオ/データストリームの収集・処理・分析をリアルタイムで実現可能 分析のための、動画 ストリームのキャプ チャ、処理、保存 データストリームを AWSのデータストア にロード SQLやJava(Flink)で データストリームを 分析可能 データストリームを 分析するカスタム アプリケーションの 構築 Kinesis Video Streams Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics SQL https://aws.amazon.com/jp/kinesis/
  • 32. © 2020, Amazon Web Services, Inc. or its Affiliates. リアルタイム: Amazon Kinesis Data Streams • ストリーム内のシャード毎に順序性を持ってデータを永続化 • 3つのアベイラビリティゾーンに強い整合性でデータを複製 • シャード数を増減することでスループットを制御 Kinesis Data Streams エ ン ド ポ イ ン ト シャード 0 シャード 1 シャード ..N データ送信側 データ処理側 データ レコード ストリーム Amazon Kinesis Consumer Library on EC2 Amazon Kinesis Data Firehose Amazon Kinesis Data Analytics AWS Lambda
  • 33. © 2020, Amazon Web Services, Inc. or its Affiliates. リアルタイム: Amazon Kinesis Data Firehose エ ン ド ポ イ ン ト Amazon S3 Amazon Redshift Amazon ES Amazon S3 配信ストリーム Amazon Redshift 配信ストリーム データ レコード Splunk Amazon Elasticsearch Service(ES) 配信ストリーム Splunk 配信ストリーム Amazon Kinesis Data Analytics Amazon Kinesis Data Streams • Amazon S3 / Amazon Redshift / Amazon ES / Splunk に直接データを配信 • ストリームデータをバッファリングしてまとめて出⼒ • シャードの管理は不要で無制限にスケール(上限は存在) Kinesis Data Firehose Amazon Kinesis Data Analytics Amazon Kinesis Data Streams
  • 34. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 35. © 2020, Amazon Web Services, Inc. or its Affiliates. Game clients Game servers Launcher Game services Grafana Scoreboards API Limited raw data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR Amazon DynamoDB NEAR REAL-TIME PIPELINE BATCH PIPELINE ETL using EMR Tableau/BI Ad-hoc SQLS3 (Data lake) Amazon Kinesis APIs Databases S3 Other sources AWS 上で分析プラットフォームが稼働 Amazon S3 をデータレイクとして活⽤ Amazon Kinesis でデータを収集 Spark on Amazon EMR でリアルタイム分析 Amazon EMR で⼤規模バッチデータを処理 ユースケース1: Fortnite 事例分析パイプライン
  • 36. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon EMR Hadoop クラスタを数分で⽴ち上げ、API コールで簡単にスケール S3 上のデータを読み込んでジョブを実⾏し、結果を S3 に出⼒ Spark、Hive、Presto、HBase などのミドルウェアを利⽤可能 ローコスト EC2スポットとリザーブドインス タンスでコストを50〜80%削減 フレキシブルな秒単位の課⾦ S3 をストレージと して利⽤ EMRFSコネクタを使⽤し、 S3上のデータを⾼パフォーマンス で安全に処理 最新バージョン 30⽇以内に最新のオープンソース フレームワークに更新 フルマネージド クラスタのセットアップ、 ノードのプロビジョニング、 クラスタのチューニングは不要 オートスケーリングも ⽤意に設定可能 簡単 https://aws.amazon.com/jp/emr/
  • 37. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon EMR コンピューティングとストレージの分離 永続的なクラスター (Spark Streaming | Hbase) ⼀時的なクラスター : バッチジョブ (毎晩 N 時間稼働、ノードの⾜し引き可能) External Metastore 特定処理に特化したクラスター (必要なキャパやバージョンが異なる) Amazon S3
  • 38. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 39. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 40. © 2020, Amazon Web Services, Inc. or its Affiliates. カタログ・ETL・データ前処理 AWS Glue データストアをクロールし、データフォー マットの識別とスキーマをサジェストの上、 マネージドなカタログリポジトリで管理 Apache Spark / Python で ETL ジョブを実 ⾏するサーバーレスエンジンのプロビジョ ニング、設定、および、 スケーリング ETL ジョブのビルド、保守、実⾏の作業を ⾃動化可能 ⾼速起動オプション(1分未満) ジョブに使⽤されたリソースの料⾦のみの ⽀払い AWS Glue Data catalog Serverless Engine Orchestration AWS Glue https://aws.amazon.com/jp/glue/
  • 41. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 42. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT AI/ML デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 43. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Athena クエリーごとの 課⾦ クエリー単位のデータスキャン量 に応じた課⾦体系 スキャン対象となるデータの圧縮 により、クエリ単位のコストを 30〜90%削減可能 ストレージは S3 ANSI準拠のSQL JDBC/ODBC ドライバー 複数のフォーマット、圧縮タ イプ、複雑な結合とデータ タイプ SQL サーバレス: インフラストラク チャーおよびアドミンは不要 Amazon QuickSightとも統合 簡単即時にクエリー セットアップ費⽤ゼロ S3 をポイントしてクエリを開始 サーバレスなインタラクティブ・クエリーサービス https://aws.amazon.com/jp/athena/
  • 44. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 45. © 2020, Amazon Web Services, Inc. or its Affiliates. ユースケース2: サーバレス分析基盤 S3 データレイク AWS Glue (ETL & Data Catalog) Athena QuickSight サーバレス インフラストラクチャ、 管理者は不要 アイドルリソース に対する⽀払いは 不要 $ 可⽤性とフォールト トレランスを組み込み 使⽤量に応じてリソースを ⾃動的にスケーリング AWS IoT デバイス ウェブ センサー ソーシャル データレイク上でオンデマンドの分析を実現
  • 46. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon QuickSight クラウド向けに構築された初のBIサービス、セッションごとの料⾦設定 と機械学習機能(MLインサイト)を搭載 伸縮性のある スケーリング サーバやソフトウェアを導⼊、 管理、運⽤は不要。スモールス タートし、10,000以上にスケー ル可能。 使った分だけのお⽀払い 事前コスト不要 利⽤しないユーザのコスト不要 サーバレス ダッシュボードを 数分で作成可能 単⼀のサーバーをプロ ビジョニングせずに、 グローバルに展開 AWSとフル・インテ グレーション AWSデータへのセキュアで プライベートなアクセス AWS IAMによるS3データレイク のパーミッションの統合 AWS Lake Formation による カラム粒度のアクセス制御を サポート APIサポート プログラムでユーザーをオンボー ドし、コンテンツを管理 アプリに簡単に埋め込み可能 https://aws.amazon.com/jp/quicksight/
  • 47. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon QuickSight Enterprise Edition Pricing https://aws.amazon.com/jp/quicksight/pricing/
  • 48. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon QuickSight 機械学習機ベースのインサイト 専⾨家不要で使える インサイト(洞察)機能を提供 1. MLベースの異常検知 ⾃動的に異常値を発⾒し、報告 2. MLベースの予測 過去の値から将来を予測 3. ⾃動ナラティブ 分かりやすい⽂章で分析結果を提供 4. ML予測 SageMaker のモデルと連動
  • 49. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon QuickSight QuickSight ギャラリー https://aws.amazon.com/jp/quicksight/gallery/
  • 50. © 2020, Amazon Web Services, Inc. or its Affiliates. インプット クリックストリーム, 会計, ソーシャル, 業務データなど Amazon S3 全てのデータはデータレイクで あるS3にロードまたは ストリーミング アウトプット SQLクライアントとBIツールを接続し て、ビジネス上の意思決定、機械学習 アルゴリズム、またはパーソナライズ されたエクスペリエンスを実現する 新たな洞察を提供 Amazon Redshift Redshiftは⾼性能なローカルディ スクやAmazon S3からオープン データフォーマットのまま直接 クエリー可能 ユースケース3: クラウド拡張されたデータウェアハウス 最もポピュラーかつ⾼速なクラウドのデータウェアハウス
  • 51. © 2020, Amazon Web Services, Inc. or its Affiliates. インプット クリックストリーム, 会計, ソーシャル, 業務データなど Amazon S3 全てのデータはデータレイクで あるS3にロードまたは ストリーミング アウトプット SQLクライアントとBIツールを接続し て、ビジネス上の意思決定、機械学習 アルゴリズム、またはパーソナライズ されたエクスペリエンスを実現する 新たな洞察を提供 Amazon Redshift Redshiftは⾼性能なローカルディ スクやAmazon S3からオープン データフォーマットのまま直接 クエリー可能 ユースケース3: クラウド拡張されたデータウェアハウス 最もポピュラーかつ⾼速なクラウドのデータウェアハウス
  • 52. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Redshift 最もポピュラーかつ⾼速なクラウドのデータウェアハウス 最も⾼速な パフォーマンス とスケーラビリティ 新しいインスタンスタイプ(RA3)と ハードウェアアクセラレーション (AQUA) を利⽤することで、 さらなる⾼速処理を実現 オンデマンドで無制限の コンピュートリソースを追加し 無制限の同時接続を実現 低コスト コンピュートとストレージを 分離、コスト最適化された ワークロード トラディショナルなDWHの 1/10のコスト($1000/TB/年) 他のクラウドDWHと⽐較して 最⼤75%のコスト削減および 予測可能なコスト データレイクと AWSサービスとの 統合 データウェアハウス、 データレイク、オペレーショナル データベースにまたがる 膨⼤なデータに対する分析 様々なアナリティクスサービス へのフェデーレテッドクエリー を実現 セキュア AWSグレードのセキュリティ機能 (eg. VPC, encryption with KMS, CloudTrail) 全ての主要な認証を取得済み (SOC, PCI, DSS, ISO, FedRAMP, HIPPA) https://aws.amazon.com/jp/redshift/
  • 53. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Redshift 互換性を維持しつつ⼤きく進化
  • 54. © 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Redshift 最近のアップデート Fully managed, secure, & cost-effective Performance & scalability Data lake & AWS integration, in-built analytics NEW! RA3 nodes with Redshift managed storage NEW! AZ64 compression encoding NEW! Materialized views NEW! Concurrency scaling NEW! Data lake export in Parquet, bloom filters, cost controls NEW! Spectrum request accelerator NEW! Amazon Lake Formation integration NEW! Spatial data support NEW! Pause and resume NEW! New management console NEW! Auto WLM: query priorities NEW! Elastic resize and scheduler NEW! Stored procedures NEW! Column level access control NEW! Single sign-on with Azure AD NEW! Auto-vacuum, Auto-analyze & Auto table sort NEW! Distribution and sort key advisor Federated query across Redshift & RDS/Aurora NEW! NEW! Runtime bloom filters
  • 55. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存(ストレージ + データカタログ) Amazon Database Migration Service Amazon Kinesis Amazon Managed Streaming for Kafka Amazon S3 AWS Glue AWS Lake Formation AWS Glue AWS Lake Formation Amazon QuickSight Amazon Athena Amazon Redshift Amazon SageMaker Amazon Personalize Amazon Forecast Amazon Elasticsearch Service Amazon EMR
  • 56. © 2020, Amazon Web Services, Inc. or its Affiliates. ベーシックなデータレイクのアーキテクチャ 収集 変換 分析 保存(ストレージ + データカタログ) Amazon Database Migration Service Amazon Kinesis Amazon Managed Streaming for Kafka Amazon S3 AWS Glue AWS Lake Formation AWS Glue AWS Lake Formation Amazon QuickSight Amazon Athena Amazon Redshift Amazon SageMaker Amazon Personalize Amazon Forecast Amazon Elasticsearch Service Amazon EMR
  • 57. © 2020, Amazon Web Services, Inc. or its Affiliates. まとめ
  • 58. © 2020, Amazon Web Services, Inc. or its Affiliates. まとめ データレイク データレイクに求められる要件について リファレンスアーキテクチャ データレイクを実現するリファレンスアーキテクチャとその考え⽅について ユースケース Ø ラムダアーキテクチャ事例 Ø サーバレス分析基盤 Ø データウェアハウス
  • 59. © 2020, Amazon Web Services, Inc. or its Affiliates. Thank you.