More Related Content
Similar to Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス (20)
More from Amazon Web Services Japan (20)
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
- 1. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Web Services Japan K.K.
AWS で実現する
データレイクとアナリティクス
Turn data into insights
- 2. © 2020, Amazon Web Services, Inc. or its Affiliates.
⾃⼰紹介
川村 誠
Hadoop/Spark スペシャリスト
ソリューションアーキテクト
Ø データ分析系サービスを担当
Ø 好きなサービス
• Amazon EMR
• Amazon Athena
• AWS Glue
• Amazon SageMaker
- 3. © 2020, Amazon Web Services, Inc. or its Affiliates.
アジェンダ
データレイク
リファレンスアーキテクチャ
ユースケース
まとめ
- 5. © 2020, Amazon Web Services, Inc. or its Affiliates.
Challenge
プレイヤーのエンゲージメントを
理解し、プレイヤーのエンゲージ
メントに適応するために、ゲーム
クライアントやゲームサーバーか
ら取り込まれる100 PB 以上の
データ ( 1億2500万イベント/分 )
を処理し、分析する⽅法が求めら
れていました
Solution
Amazon EMR、Amazon EC2、
Amazon Kinesis を組み合わせた
Amazon S3 データレイクを採⽤
Benefits
結果、ゲームデザイナーは⼀定間
隔でフィードバック情報をデータ
から得られるようになり、ゲーム
プレイヤーのエンゲージメントを
促進するために、最⼤分間粒度で
ゲームプレイヤーの満⾜度分析を
データから得ています
Epic Games 様:
世界中にいる 2億5千万⼈以上のプレイヤーのため、
Fortnite を絶えず改善しています
- 6. © 2020, Amazon Web Services, Inc. or its Affiliates.
お客さまの共通課題︓データ活⽤による更なる価値の創出
⾶躍的な
成⻑
新たな
情報源
多様性の
増加
更に多くの
ユーザが利⽤
複数の
アプリケーションを
利⽤した分析
- 7. © 2020, Amazon Web Services, Inc. or its Affiliates.
これまでの意思決定...
OLTP
ERP CRM
LOB
エンタープライズ
データウェアハウス
ビジネス
インテリジェンス
エンタープライズデータウェアハウス中⼼
- 8. © 2020, Amazon Web Services, Inc. or its Affiliates.
データはそのモデルにフィットしない
* IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017.
データ
5年で
想像を超えるデータ量
15年
運⽤期間
データプラットフォーム
1,000倍
スケール
10倍以上
成⻑率
より多様なデータ
01100111 01100101 01110100 00100000 01100001
00100000 01101000 01101111 01100010 01100010
01111001 00001101 00001010 01100111 01100101
01110100 00100000 01100001 00100000 01101000
01101111 01100010 01100010 01111001 00001101
00001010 01100111 01100101 01110100 00100000
01100001 00100000 01101000 01101111 01100010
01100010 01111001 00001101 00001010 01100111
01100101 01110100 00100000 01100001 00100000
01101000 01101111 01100010 01100010 01111001
00001101 00001010 01100111 01100101 01110100
00100000 01100001 00100000 01101000 01101111
01100010 01100010 01111001 00001101 01100110
0000101001100111 01100101 01110100 00100000
01100001 00100000 01101000 01101111 01100010
01100010 01111001 00001101 00001010 01100111
01100101 01110100 00100000 01100001 00100000
01101000 01101111 01100010 01100010 01111001
00001101 00001010 01100111 01100101 01110100
00100000 01100001 00100000 01101000 01101111
01100010 01100010 01111001 00001101 00001010
- 9. © 2020, Amazon Web Services, Inc. or its Affiliates.
より幅広いワークロード
より多くのユーザーが
データにアクセスする
それぞれ異なる⽅法で
分析する
アナリスト
ビジネスユーザー
アプリケーション
機械学習 SQL分析
科学技術計算
リアルタイム
ストリーミング
データ
サイエンティスト
- 10. © 2020, Amazon Web Services, Inc. or its Affiliates.
データの
サイロ化 to
OLTP ERP CRM LOB
DW Silo 1
ビジネス
インテリジェンス
デバイス ウェブ センサー ソーシャル
DW Silo 2
ビジネス
インテリジェンス
機械学習
BI +
アナリティ
クス
データウェア
ハウス
データ
レイク
オープンフォーマット
セントラルカタログ
スケーラビリティ︓従来のデータ分析基盤における課題
- 11. © 2020, Amazon Web Services, Inc. or its Affiliates.
解決策︓データレイクアーキテクチャへの移⾏
従来のデータウェアハウスのアーキテクチャを拡張
あらゆるフォーマットのデータを蓄積
⾼い耐久性と可⽤性、エクサバイト規模のスケール
適切なセキュリティ & コンプライアンス、監査
多岐にわたる分析・機械学習サービスとの連携
データウェアハウス アナリティクス 機械学習
データレイク
- 12. © 2020, Amazon Web Services, Inc. or its Affiliates.
リファレンスアーキテクチャ
- 13. © 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存
(ストレージ + データカタログ)
- 14. © 2020, Amazon Web Services, Inc. or its Affiliates.
ラムダアーキテクチャ
• Apache Storm の開発者 Nathan Marz が 2012 年に提唱
• データ処理の流れを,全量のデータを保持し定期的な処理を⾏うバッチレイヤー
と,新しく⼊ってきたデータをストリーム処理するスピードレイヤーに分割
• 両者を組み合わせて結果を表⽰する
新しい
データ
すべての
データ
スピードレイヤー
バッチレイヤー
バッチビュー
リアルタイム
ビュー
バッチ処理
ストリーム処理
クエリの実⾏
サービングレイヤー
- 15. © 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
収集 変換 分析
収集 変換 分析
保存
- 16. © 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
分析
収集 変換 分析
保存
収集 変換
あくまでこれは原則なので,こうならない場合もある
たとえば,ストリーム処理で「収集」と「変換」だけ
して「保存」してしまい,「分析」は後からバッチで
実⾏するといったパターンなど
- 17. © 2020, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
収集 変換 分析
収集
保存
変換 分析
バッチ処理側でも,たとえば変換と分析を同時にやっ
てしまうパターンも考えられる
もちろんコンポーネントの連携が密になるため,処理
時間の制約など,必要性に応じて選択
- 18. © 2020, Amazon Web Services, Inc. or its Affiliates.
さまざまな種類のデータ処理・分析がある
• データレイクに活⽤可能なデータを準備するための、多段 ETL
• 可視化 / 他サービス連携のための、SQL ベースのデータマート作成
• アクセスログに基づいたレコメンド
• アナリストのためのインタラクティブなデータ分析
• 離脱可能性の⾼いユーザー予測に基づくキャンペーンメール送信
- 19. © 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケースに応じた最適なツールの選択
なんでも完璧にできる、唯⼀の万能なツールは存在しない
Swiss Army Knife Vector: https://www.freevector.com/swiss-army-knife-vector
- 20. © 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存
(ストレージ + データカタログ)
- 21. © 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch
Service
Amazon EMR
- 22. © 2020, Amazon Web Services, Inc. or its Affiliates.
サービス選択における基本的な考え⽅
• 同時に分析するユーザー数はどのくらい増える⾒込みがあるか
• 処理対象のデータ量はどのくらいの頻度でどう増えるか
• 処理にかかる時間が⼗分短いか,⼤幅に増減する可能性があるか
• 処理内容の変更頻度がどのくらい⾼いか
• 運⽤コストとカスタマイズ性のどちらを優先するか
- 24. © 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
- 25. © 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
- 26. © 2020, Amazon Web Services, Inc. or its Affiliates.
堅牢なインフラの基盤となるストレージ
従来のデータウェアハウスのアーキテクチャを拡張
(コンピューティングとストレージの分離)
あらゆるフォーマットのデータを蓄積
⾼い耐久性と可⽤性、エクサバイト規模のスケール
適切なセキュリティ & コンプライアンス、監査
(オブジェクトレベルの詳細なアクセス権限制御)
多岐にわたる分析・機械学習サービスとの連携
データウェアハウス アナリティクス 機械学習
データレイク
- 27. © 2020, Amazon Web Services, Inc. or its Affiliates.
堅牢なインフラの基盤となるストレージ
Amazon S3
✔ 99.999999999% の耐久性
✔ グローバルレプリケーションが可能
✔ コスト効率の良いストレージクラス
✔ さまざまな管理機能
✔ 暗号化・コンプライアンス
✔ 多数のパートナー製品との統合
https://aws.amazon.com/jp/s3/
- 28. © 2020, Amazon Web Services, Inc. or its Affiliates.
堅牢なインフラの基盤となるストレージ
Amazon S3 ストレージクラス
ホットデータ コールドデータ
• Active, frequently
accessed data
• Milliseconds access
• > 3 AZ
• $0.0250/GB
• Data with changing
access patterns
• Milliseconds access
• > 3 AZ
• $0.0250 to $0.0190
/GB
• Infrequently
accessed data
• Milliseconds access
• > 3 AZ
• $0.0190/GB
• Re-creatable, less
accessed data
• Milliseconds access
• 1 AZ
• $0.0152/GB
• Archive data
• Minutes or hours access
• > 3 AZ
• $0.0050/GB
S3 Standard S3 Standard-IA S3 One Zone-IA S3 Glacier
S3 Intelligent-
Tiering
S3 Glacier
Deep Archive
• Archive data
• Hours to access
• > 3 AZ
• $0.0020/GB
- 29. © 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
- 30. © 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
- 31. © 2020, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis
容易にビデオ/データストリームの収集・処理・分析をリアルタイムで実現可能
分析のための、動画
ストリームのキャプ
チャ、処理、保存
データストリームを
AWSのデータストア
にロード
SQLやJava(Flink)で
データストリームを
分析可能
データストリームを
分析するカスタム
アプリケーションの
構築
Kinesis Video Streams Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics
SQL
https://aws.amazon.com/jp/kinesis/
- 32. © 2020, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis Data Streams
• ストリーム内のシャード毎に順序性を持ってデータを永続化
• 3つのアベイラビリティゾーンに強い整合性でデータを複製
• シャード数を増減することでスループットを制御
Kinesis Data Streams
エ
ン
ド
ポ
イ
ン
ト
シャード 0
シャード 1
シャード ..N
データ送信側 データ処理側
データ
レコード ストリーム
Amazon Kinesis
Consumer Library
on EC2
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
AWS Lambda
- 33. © 2020, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis Data Firehose
エ
ン
ド
ポ
イ
ン
ト
Amazon S3
Amazon Redshift
Amazon ES
Amazon S3
配信ストリーム
Amazon Redshift
配信ストリーム
データ
レコード
Splunk
Amazon Elasticsearch Service(ES)
配信ストリーム
Splunk
配信ストリーム
Amazon Kinesis
Data Analytics
Amazon Kinesis
Data Streams
• Amazon S3 / Amazon Redshift / Amazon ES / Splunk に直接データを配信
• ストリームデータをバッファリングしてまとめて出⼒
• シャードの管理は不要で無制限にスケール(上限は存在)
Kinesis Data Firehose
Amazon Kinesis
Data Analytics
Amazon Kinesis
Data Streams
- 34. © 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
- 35. © 2020, Amazon Web Services, Inc. or its Affiliates.
Game
clients
Game
servers
Launcher
Game
services
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR Amazon
DynamoDB
NEAR REAL-TIME
PIPELINE
BATCH PIPELINE
ETL
using EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Amazon
Kinesis
APIs
Databases
S3
Other
sources
AWS 上で分析プラットフォームが稼働
Amazon S3 をデータレイクとして活⽤
Amazon Kinesis でデータを収集
Spark on Amazon EMR でリアルタイム分析
Amazon EMR で⼤規模バッチデータを処理
ユースケース1: Fortnite 事例分析パイプライン
- 36. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon EMR
Hadoop クラスタを数分で⽴ち上げ、API コールで簡単にスケール
S3 上のデータを読み込んでジョブを実⾏し、結果を S3 に出⼒
Spark、Hive、Presto、HBase などのミドルウェアを利⽤可能
ローコスト
EC2スポットとリザーブドインス
タンスでコストを50〜80%削減
フレキシブルな秒単位の課⾦
S3 をストレージと
して利⽤
EMRFSコネクタを使⽤し、
S3上のデータを⾼パフォーマンス
で安全に処理
最新バージョン
30⽇以内に最新のオープンソース
フレームワークに更新
フルマネージド
クラスタのセットアップ、
ノードのプロビジョニング、
クラスタのチューニングは不要
オートスケーリングも
⽤意に設定可能
簡単
https://aws.amazon.com/jp/emr/
- 37. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon EMR
コンピューティングとストレージの分離
永続的なクラスター
(Spark Streaming | Hbase)
⼀時的なクラスター : バッチジョブ
(毎晩 N 時間稼働、ノードの⾜し引き可能) External Metastore
特定処理に特化したクラスター
(必要なキャパやバージョンが異なる)
Amazon S3
- 38. © 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
- 39. © 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
- 40. © 2020, Amazon Web Services, Inc. or its Affiliates.
カタログ・ETL・データ前処理
AWS Glue
データストアをクロールし、データフォー
マットの識別とスキーマをサジェストの上、
マネージドなカタログリポジトリで管理
Apache Spark / Python で ETL ジョブを実
⾏するサーバーレスエンジンのプロビジョ
ニング、設定、および、 スケーリング
ETL ジョブのビルド、保守、実⾏の作業を
⾃動化可能
⾼速起動オプション(1分未満)
ジョブに使⽤されたリソースの料⾦のみの
⽀払い
AWS Glue
Data
catalog
Serverless
Engine
Orchestration
AWS Glue
https://aws.amazon.com/jp/glue/
- 41. © 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
- 42. © 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena
QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
AI/ML
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
- 43. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Athena
クエリーごとの
課⾦
クエリー単位のデータスキャン量
に応じた課⾦体系
スキャン対象となるデータの圧縮
により、クエリ単位のコストを
30〜90%削減可能
ストレージは S3
ANSI準拠のSQL
JDBC/ODBC ドライバー
複数のフォーマット、圧縮タ
イプ、複雑な結合とデータ
タイプ
SQL
サーバレス: インフラストラク
チャーおよびアドミンは不要
Amazon QuickSightとも統合
簡単即時にクエリー
セットアップ費⽤ゼロ
S3 をポイントしてクエリを開始
サーバレスなインタラクティブ・クエリーサービス
https://aws.amazon.com/jp/athena/
- 44. © 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
- 45. © 2020, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: サーバレス分析基盤
S3
データレイク
AWS Glue
(ETL &
Data Catalog)
Athena QuickSight
サーバレス
インフラストラクチャ、
管理者は不要
アイドルリソース
に対する⽀払いは
不要
$
可⽤性とフォールト
トレランスを組み込み
使⽤量に応じてリソースを
⾃動的にスケーリング
AWS IoT
デバイス ウェブ センサー ソーシャル
データレイク上でオンデマンドの分析を実現
- 46. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
クラウド向けに構築された初のBIサービス、セッションごとの料⾦設定
と機械学習機能(MLインサイト)を搭載
伸縮性のある
スケーリング
サーバやソフトウェアを導⼊、
管理、運⽤は不要。スモールス
タートし、10,000以上にスケー
ル可能。
使った分だけのお⽀払い
事前コスト不要
利⽤しないユーザのコスト不要
サーバレス
ダッシュボードを
数分で作成可能
単⼀のサーバーをプロ
ビジョニングせずに、
グローバルに展開
AWSとフル・インテ
グレーション
AWSデータへのセキュアで
プライベートなアクセス
AWS IAMによるS3データレイク
のパーミッションの統合
AWS Lake Formation による
カラム粒度のアクセス制御を
サポート
APIサポート
プログラムでユーザーをオンボー
ドし、コンテンツを管理
アプリに簡単に埋め込み可能
https://aws.amazon.com/jp/quicksight/
- 47. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
Enterprise Edition Pricing
https://aws.amazon.com/jp/quicksight/pricing/
- 48. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
機械学習機ベースのインサイト
専⾨家不要で使える
インサイト(洞察)機能を提供
1. MLベースの異常検知
⾃動的に異常値を発⾒し、報告
2. MLベースの予測
過去の値から将来を予測
3. ⾃動ナラティブ
分かりやすい⽂章で分析結果を提供
4. ML予測
SageMaker のモデルと連動
- 49. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon QuickSight
QuickSight ギャラリー
https://aws.amazon.com/jp/quicksight/gallery/
- 50. © 2020, Amazon Web Services, Inc. or its Affiliates.
インプット
クリックストリーム, 会計,
ソーシャル, 業務データなど
Amazon S3
全てのデータはデータレイクで
あるS3にロードまたは
ストリーミング
アウトプット
SQLクライアントとBIツールを接続し
て、ビジネス上の意思決定、機械学習
アルゴリズム、またはパーソナライズ
されたエクスペリエンスを実現する
新たな洞察を提供
Amazon Redshift
Redshiftは⾼性能なローカルディ
スクやAmazon S3からオープン
データフォーマットのまま直接
クエリー可能
ユースケース3: クラウド拡張されたデータウェアハウス
最もポピュラーかつ⾼速なクラウドのデータウェアハウス
- 51. © 2020, Amazon Web Services, Inc. or its Affiliates.
インプット
クリックストリーム, 会計,
ソーシャル, 業務データなど
Amazon S3
全てのデータはデータレイクで
あるS3にロードまたは
ストリーミング
アウトプット
SQLクライアントとBIツールを接続し
て、ビジネス上の意思決定、機械学習
アルゴリズム、またはパーソナライズ
されたエクスペリエンスを実現する
新たな洞察を提供
Amazon Redshift
Redshiftは⾼性能なローカルディ
スクやAmazon S3からオープン
データフォーマットのまま直接
クエリー可能
ユースケース3: クラウド拡張されたデータウェアハウス
最もポピュラーかつ⾼速なクラウドのデータウェアハウス
- 52. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift
最もポピュラーかつ⾼速なクラウドのデータウェアハウス
最も⾼速な
パフォーマンス
とスケーラビリティ
新しいインスタンスタイプ(RA3)と
ハードウェアアクセラレーション
(AQUA) を利⽤することで、
さらなる⾼速処理を実現
オンデマンドで無制限の
コンピュートリソースを追加し
無制限の同時接続を実現
低コスト
コンピュートとストレージを
分離、コスト最適化された
ワークロード
トラディショナルなDWHの
1/10のコスト($1000/TB/年)
他のクラウドDWHと⽐較して
最⼤75%のコスト削減および
予測可能なコスト
データレイクと
AWSサービスとの
統合
データウェアハウス、
データレイク、オペレーショナル
データベースにまたがる
膨⼤なデータに対する分析
様々なアナリティクスサービス
へのフェデーレテッドクエリー
を実現
セキュア
AWSグレードのセキュリティ機能
(eg. VPC, encryption with KMS,
CloudTrail)
全ての主要な認証を取得済み
(SOC, PCI, DSS, ISO,
FedRAMP, HIPPA)
https://aws.amazon.com/jp/redshift/
- 53. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift
互換性を維持しつつ⼤きく進化
- 54. © 2020, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift
最近のアップデート
Fully managed,
secure, &
cost-effective
Performance
& scalability
Data lake &
AWS integration,
in-built analytics
NEW!
RA3 nodes
with Redshift
managed storage
NEW!
AZ64
compression
encoding
NEW!
Materialized
views
NEW!
Concurrency
scaling
NEW!
Data lake
export in
Parquet, bloom
filters, cost
controls
NEW!
Spectrum
request
accelerator
NEW!
Amazon Lake
Formation
integration
NEW!
Spatial
data support
NEW!
Pause
and resume
NEW!
New
management
console
NEW!
Auto WLM:
query priorities
NEW!
Elastic resize
and scheduler
NEW!
Stored
procedures
NEW!
Column level
access control
NEW!
Single sign-on
with Azure AD
NEW!
Auto-vacuum,
Auto-analyze &
Auto table sort
NEW!
Distribution
and sort key advisor
Federated query
across Redshift &
RDS/Aurora
NEW!
NEW!
Runtime
bloom filters
- 55. © 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch
Service
Amazon EMR
- 56. © 2020, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch
Service
Amazon EMR
- 58. © 2020, Amazon Web Services, Inc. or its Affiliates.
まとめ
データレイク
データレイクに求められる要件について
リファレンスアーキテクチャ
データレイクを実現するリファレンスアーキテクチャとその考え⽅について
ユースケース
Ø ラムダアーキテクチャ事例
Ø サーバレス分析基盤
Ø データウェアハウス