© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Morning Session
AWSで構築するデータレイク基盤と
amazon.comでの導入事例
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
⾃⼰紹介
• 北村 聖児
• Amazon Web Service Japan K.K.
• Solution Architect
• Media & Entertainment
• 前職
• Server Side Engineer
• 好きなAWSサービス
• Amazon Connect
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
本⽇お伝えしたいこと
• データレイクとは
• AWSで構築するデータレイクのアーキテクチャ
• Amazonでのデータレイク事例
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクとは
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクとは
1. 将来、必要な時に分析できるよう明細データを捨てずに蓄積する「湖」
(2010年にJames Dixon(Pentaho CTO)がHadoop Worldで提唱)
分析要件A
別のカットでの分析不可
分析要件A
分析要件B
将来、新たなカットで分析可能
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクとは
2. 多様なフォーマットのデータをそのまま保存できるストレージ
構造化・半構造化・非構造化データ構造化データ
要件C
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクとは
3. 全てのデータを一元的に保存できる容量無制限のストレージ
(別々のストレージに保存するとサイロ化していく)
HDFS
サーバやHadoopクラスター
の管理が必要
Amazon Simples Storage
Service(S3)
サーバやインフラ管理から解放
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ゴミ溜めになるのではないか?
• データと共にメタデータを登録しないと後で活用できない
• DWH でデータ・ディクショナリがないと分析できないのと同じ
出典:https://www.amazon.co.jp/Data-Lake-Architecture-Designing-Avoiding/dp/1634621174
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクは DWH を拡張する
• データウェアハウスに加えてビッグデータ処理なども可能に
1. 明細データを捨てずに蓄積
2. 多様なフォーマットを保存可能
3. 容量無制限なため一箇所に集約
DWH
BI
OLTP ERP CRM LOB SNSデバイス Web センサー
ビッグデータ処理、リアル
タイム処理、機械学習
データレイク
+
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWSで構築するデータレイクの
アーキテクチャ
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク
半構造化/非構造化/アーカイブ
AWSのビッグデータ分析基盤︓ハイレベルアーキテクチャ
BI 機械学習
分析クエリ ビッグデータ処理 リアルタイム
ダッシュ
ボード/
警告通知
AWS Cloud
相互連携
11
Redshift
QuickSight
EMR SageMaker
Kinesis
GlueS3
Athena
データウェアハウス
構造化
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク
半構造化/非構造化/アーカイブ
データレイク
GlueS3
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
S3によるデータレイク実現のメリット
• 上限無し︓サイジング不要
• ⾼い耐久性︓99.999999999%
• 安価︓
• $0.025/GB/⽉*(スタンダード)
• $0.019/GB/⽉*(標準-低頻度アクセス)
例)10TBの保存で約2.1万円/⽉**
• APIアクセス
• 多様な⾔語にライブラリを提供
• AWS各種サービスと連携
データレイク
Amazon
EMR
(Hadoop)
Amazon
Redshift
AWS
Glue
Amazon
S3
センサーデータ 非構造化ファイル
テキストファイル
RDBMS
* 費用は2019年10月時点での東京リージョンでの価格です
** 1USドル = 110円で、標準-低頻度アクセスでの試算
Amazon
SageMaker
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon S3
データ分析
EMR Redshift
データ
バックアップ
EC2 RDS
Storage
Gateway
EBS
Redshift
ETL
CloudFront
コンテンツ変換
コンテンツ配信
Elastic
Transcoder
データ
アーカイブ
Glacier
AWSのデータレイク=Amazon S3
Athena
Amazon
Forecast
Amazon
Personalize
Amazon
Rekognition
Amazon
SageMaker
機械学習
IoT
AWS IoT
BI
QuickSight
AWS Glue
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク
半構造化/非構造化/アーカイブ
データレイク
GlueS3
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS GlueデータレイクのデータカタログとETL処理
データ
カタログ
§ AWS Glue データカタログ︓Redshift Spectrum,
Athena, EMRからS3上の半構造データにアクセスする場合
のデータカタログとして利⽤・連携可能
§ AWS Glue ETL︓分散処理でETLジョブを⾏うフルマネー
ジドでサーバーレスなサービス。コストは利⽤したリソー
ス分だけの⽀払い
ETL処理
16
データカタログとは︓データの構造(列、型など)やアクセス
⽅法を定義してあり検索などが可能
ETL処理とは︓複数のデータストア間でデータ連携する際の
取出し(Extract)、変換(Transform)、ロード(Load) 処理
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue データカタログ
テーブル構造をHiveメタストア互換
の形式で管理
• 列・プロパティ・型
• データロケーション(S3のパス)
• 更新情報 等
クローラーによる自動スキーマ推論
とデータカタログ登録
• Hiveパーティションを認識し登録を自
動化 /mydata
/year=2017
/month=11/...
17/month=12/...
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク
半構造化/非構造化/アーカイブ
AWSのビッグデータ分析基盤︓ハイレベルアーキテクチャ
BI 機械学習
分析クエリ ビッグデータ処理 リアルタイム
ダッシュ
ボード/
警告通知
AWS Cloud
相互連携
Redshift
QuickSight
EMR SageMaker
Kinesis
GlueS3
Athena
データウェアハウス
構造化
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データウェアハウス
構造化データ
Redshift
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift
特徴
• 最⼤2PBまで拡張可能
• 超並列(MPP)で、列指向型DB
エンジンによる⾼速SQL処理
• 最⼤128台まで拡張可能
• PostgreSQLとの互換性
• 使った分だけの利⽤料⾦で
従来のデータウェアハウスの
1/10のコストで実現
フルマネージドのクラウド型データウェアハウスサービス
JDBC/ODBC
Redshift
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift Spectrum
• S3上に置いたファイルを
外部テーブルとして直接
参照して⾼速分析処理
• Redshift内のデータベースの
内部テーブルと組み合わせて
SQLでクエリ可能
• 多様なファイルフォーマット
に対応
ü CSV, TSV, Parquet, ORC,
RegexSerDe 等
S3
各種データ
(CSV,Parquet等)
Spectrum層
Redshift
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク
半構造化/非構造化/アーカイブ
AWSのビッグデータ分析基盤︓ハイレベルアーキテクチャ
BI 機械学習
分析クエリ ビッグデータ処理 リアルタイム
ダッシュ
ボード/
警告通知
AWS Cloud
相互連携
Redshift
QuickSight
EMR SageMaker
Kinesis
GlueS3
Athena
データウェアハウス
構造化
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク
ビッグデータ処理
Athena EMR
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Elastic MapReduce(EMR)
Hadoop/Sparkなどの⼤規模分散処理環境のマネージドサービス
ü 簡単スタート︓数クリックでセットアップ完了
ü 低コスト︓従量課⾦、必⽤な時間だけクラスターを稼働
分散処理
フレームワーク
分散処理基盤
簡単に複製
リサイズも1クリック
Amazon
S3
Amazon
DynamoDB
Amazon
Kinesis
Amazon
EMR
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
EMRFS: S3をHDFSの様に扱う
“s3://” と指定するだけでHDFSと同様にS3にアクセス
• 計算ノードとストレージを分離できる
ü コスト⾯でもメリット⼤
• クラスタのシャットダウンが可能
ü クラスタを消してもデータをロストしない
• 複数クラスタ間でデータ共有が簡単
• データの⾼い耐久性(S3)
EMR
EMR
データレイクに直接並列でアクセスすることが可能
Amazon
S3
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Athena
• S3上のファイルにSQLを実⾏可能
• PrestoベースでANSI SQL対応
• サーバ管理、データロード不要
• ⾃動で並列クエリ実⾏
• 結果はコンソールにストリーム
(動的更新)
• 結果はS3にも保存
• スキャンしたデータ量に対する課⾦
• JDBC/ODBC経由でBIツールから
可視化
S3に保存したファイルをサーバーレスでインタラクティブに直接クエリ
26
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク
半構造化/非構造化/アーカイブ
AWSのビッグデータ分析基盤︓ハイレベルアーキテクチャ
BI 機械学習
分析クエリ ビッグデータ処理 リアルタイム
ダッシュ
ボード/
警告通知
AWS Cloud
相互連携
Redshift
QuickSight
EMR SageMaker
Kinesis
GlueS3
Athena
データウェアハウス
構造化
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクの代表的なユースケース
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
⾼速データ処理の実装理論︓ラムダ・アーキテクチャ
スピード /バッチレイヤ
29
http://lambda-architecture.net/
new
data
batch layer
speed layer
master
dataset
real-time
view
real-time
view
serving layer
batch view
batch view
query
query
全データの精度の
⾼い集計
リアルタイムに
データ処理
結果のマージ
バッチ処理の
結果を提供
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ラムダ・アーキテクチャのデータレイク実装例
Amazon S3
Amazon
DynamoDB
Devices
Sensors
AWS IoT
Amazon Kinesis
Data Streams
AWS
Greengras
s
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
Amazon Kinesis
Data Streams
データレイク
AWS
Glue
Amazon
EMR
Amazon
Redshift
Amazon
Athena
Amazon
SageMaker
スピードレイヤ
バッチレイヤ
Amazon
QuickSight
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ラムダ・アーキテクチャのデータレイク実装例
Amazon S3
Amazon
DynamoDB
Devices
Sensors
AWS IoT
Amazon Kinesis
Data Streams
AWS
Greengras
s
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
Amazon Kinesis
Data Streams
データレイク
AWS
Glue
Amazon
EMR
Amazon
Redshift
Amazon
Athena
Amazon
SageMaker
スピードレイヤ
バッチレイヤ
Amazon
QuickSight
バッチレイヤへの取込みを待たずに
リアルタイムデータを即時に活用
(速報値の表示/警告通知など)
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
セキュアなデータレイクを数⽇で構築
特徴 ( https://aws.amazon.com/jp/lake-formation/ )
❏ Amazon S3 バケットからのデータ認識・取込・クレン
ジング・カタログ化・変換が容易に可能
❏ Blueprint による容易なデータロード設定
❖ データベースデータのロード
• スナップショットデータをロードするバルクロード
• 更新データを継続的にロードするインクリメンタルロード
❖ CLB/ALB/CloudTrail ログのロード
❏ 機械学習による変換で容易に重複データを排除
❏ DataLake にアクセスする複数サービスに対し、横断的
にセキュリティポリシーを適⽤
❏ テーブル、および、カラム粒度の権限付与が可能
❏ セルフサービスアクセス化を加速するカタログ管理機能
❏ リアルタイム監査とモニタリング
価格体系
❏ Lake Formation ⾃体の利⽤は無償
❏ Lake Formation で利⽤されるサービスにかかる費⽤
のみのお⽀払い
新しいインサイトの
獲得と管理
複数サービス横断
セキュリティポリ
シー適⽤
データの認識、取込、
クレンジング、変換
AWS Lake Formation
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazonのデータレイク事例
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon のビジネスとデータ活用
Amazon Data Warehouse
• Amazon はグローバルに様々なビジネスを展開
• そこから生まれる大量のデータを分析してビジネス判断
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
多様な分析要件と大きなワークロード
80,000 ユーザー
900,000 ジョブ/日
38,000 のデータセット分析ユーザーとユース
ケースは多種多様
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon のデータウェアハウスの課題
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
“Andes” –データレイク・プロジェクト–
• Amazonの成長に合わせて
拡張可能なエコシステムを
提供
• オープンなシステムアーキ
テクチャで、多様なデータ
分析の選択肢を提供
• AWSを利用してフィードバ
ック、サービス改善に貢献
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
“Andes” 以前の DWH のアーキテクチャ
Legacy Data
Warehouse
ETLM Workflow Service
Export
Hosted Compute and Storage
Execution DAG
Data
Ingestion
Data Sources
Users
Reporting
Systems
Software
Applications
Amazon
DynamoDB
Amazon
Aurora
Amazon
Redshift
Oracle
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
“Andes” のアーキテクチャ Synchronized
Metadata, Data
Amazon
Redshift
Amazon
Redshift
AWS
Glue
AWS
Glue
Amazon
Aurora
Amazon
DynamoDB
Big Data System
Discovery Service
Synchronizers
ETLM Workflow
Service
Execution
DAG
Data
Ingestion
Hoot UI
Data Sources
Glue ETL
Orchestration
Spectrum
Andes Metadata &
Governance Service
Completion
Service
Custom EMR
Orchestration
Amazon
Kinesis
Amazon Simple Storage
Service (S3)
Amazon
EMR
Amazon
EMR
Amazon S3
LOAD
参照
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
“Andes” 完成(2018年1月移行完了)
• PBクラスの DWH を AWS に移行
• DWH に加えてビッグデータ処理も可能に
動画:https://www.youtube.com/watch?v=PitJL9vOotc
スライド:https://www.slideshare.net/AmazonWebServices/under-the-hood-how-amazon-uses-aws-services-for-analytics-at-a-massive-scale-ant206-aws-reinvent-2018
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
• 収集と後続処理が分離され、収集側がデータレイクにデータを
置くだけで良い構成
• セルフサービスを促進するために「発⾒」「登録」層を導⼊
セルフサービスを実現するための仕組み
収集 蓄積
データ
レイク
分析 可視化・
応⽤
発⾒ 登録
Discover Subscribe
セルフサービス化
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクポータルによる「発⾒」の実現
各種情報を提供
• 登録者情報
• 詳細情報(登録者が記⼊)
• スキーマ
• サポートレベル
• 評価(今後の実装)
部署やデータ
タイプによる分類
検索機能
※この図はアイデア検討時のモックアップであり、実際とは異なります
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
✔
「登録」によるセルフサービスのデータ取得
関係者との調整や開発不要
欲しいデータを発⾒したら、登録
(Subscribe)する
登録時にはデータの⾏き先を指定
(⾃部⾨のRedshiftやEMR等)
⾃動的にコピー処理やメタデータ
同期処理が構築され、定期的に
フレッシュなデータが供給される
✔
登録
(Subscribe)
Amazon
Redshift
Amazon
EMR
データ定期コピー
(バッチ)
メタデータ同期
(S3へは透過アクセス)
AWS Glue
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
「登録」モデルの実現とその効果
ユーザ調整が可能な設計
• 必要なデータ範囲や頻度を設定可能
• 独⾃のクエリを登録して、データ連携の
タイミングで⾃動実⾏
⾃動的なバリデーション(表⾏数チェック、
スキーマチェック等)
誰が何を使っているか把握できるため、データの
削除や変更時にも影響範囲が把握できるという
効果あり
INSERT INTO ..
SELECT ...
User Query
When ...
▼After data copy
ID = ABC and ...
Where
Timing
▼ Once a day :
3AM
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
⾮常に多くのお客様がデータレイク基盤をAWSに構築
10,000以上のデータレイクがAWS上で稼働
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Data Lake ハンズオンセミナーのご紹介
参考:https://aws.amazon.com/jp/blogs/news/20190405-aws-datalake-handson-seminor/
• 目黒の AWS Japan オフィスで不定期開催(無償セミナー)
• 2018年から過去9回開催、参加者は100名程度
• イベント開催予定:https://aws.amazon.com/jp/about-aws/events/
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Thank you!

[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight

  • 1.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Morning Session AWSで構築するデータレイク基盤と amazon.comでの導入事例
  • 2.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. ⾃⼰紹介 • 北村 聖児 • Amazon Web Service Japan K.K. • Solution Architect • Media & Entertainment • 前職 • Server Side Engineer • 好きなAWSサービス • Amazon Connect
  • 3.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 本⽇お伝えしたいこと • データレイクとは • AWSで構築するデータレイクのアーキテクチャ • Amazonでのデータレイク事例
  • 4.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイクとは
  • 5.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイクとは 1. 将来、必要な時に分析できるよう明細データを捨てずに蓄積する「湖」 (2010年にJames Dixon(Pentaho CTO)がHadoop Worldで提唱) 分析要件A 別のカットでの分析不可 分析要件A 分析要件B 将来、新たなカットで分析可能
  • 6.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイクとは 2. 多様なフォーマットのデータをそのまま保存できるストレージ 構造化・半構造化・非構造化データ構造化データ 要件C
  • 7.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイクとは 3. 全てのデータを一元的に保存できる容量無制限のストレージ (別々のストレージに保存するとサイロ化していく) HDFS サーバやHadoopクラスター の管理が必要 Amazon Simples Storage Service(S3) サーバやインフラ管理から解放
  • 8.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. ゴミ溜めになるのではないか? • データと共にメタデータを登録しないと後で活用できない • DWH でデータ・ディクショナリがないと分析できないのと同じ 出典:https://www.amazon.co.jp/Data-Lake-Architecture-Designing-Avoiding/dp/1634621174
  • 9.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイクは DWH を拡張する • データウェアハウスに加えてビッグデータ処理なども可能に 1. 明細データを捨てずに蓄積 2. 多様なフォーマットを保存可能 3. 容量無制限なため一箇所に集約 DWH BI OLTP ERP CRM LOB SNSデバイス Web センサー ビッグデータ処理、リアル タイム処理、機械学習 データレイク +
  • 10.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWSで構築するデータレイクの アーキテクチャ
  • 11.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイク 半構造化/非構造化/アーカイブ AWSのビッグデータ分析基盤︓ハイレベルアーキテクチャ BI 機械学習 分析クエリ ビッグデータ処理 リアルタイム ダッシュ ボード/ 警告通知 AWS Cloud 相互連携 11 Redshift QuickSight EMR SageMaker Kinesis GlueS3 Athena データウェアハウス 構造化
  • 12.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイク 半構造化/非構造化/アーカイブ データレイク GlueS3
  • 13.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. S3によるデータレイク実現のメリット • 上限無し︓サイジング不要 • ⾼い耐久性︓99.999999999% • 安価︓ • $0.025/GB/⽉*(スタンダード) • $0.019/GB/⽉*(標準-低頻度アクセス) 例)10TBの保存で約2.1万円/⽉** • APIアクセス • 多様な⾔語にライブラリを提供 • AWS各種サービスと連携 データレイク Amazon EMR (Hadoop) Amazon Redshift AWS Glue Amazon S3 センサーデータ 非構造化ファイル テキストファイル RDBMS * 費用は2019年10月時点での東京リージョンでの価格です ** 1USドル = 110円で、標準-低頻度アクセスでの試算 Amazon SageMaker
  • 14.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon S3 データ分析 EMR Redshift データ バックアップ EC2 RDS Storage Gateway EBS Redshift ETL CloudFront コンテンツ変換 コンテンツ配信 Elastic Transcoder データ アーカイブ Glacier AWSのデータレイク=Amazon S3 Athena Amazon Forecast Amazon Personalize Amazon Rekognition Amazon SageMaker 機械学習 IoT AWS IoT BI QuickSight AWS Glue
  • 15.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイク 半構造化/非構造化/アーカイブ データレイク GlueS3
  • 16.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS GlueデータレイクのデータカタログとETL処理 データ カタログ § AWS Glue データカタログ︓Redshift Spectrum, Athena, EMRからS3上の半構造データにアクセスする場合 のデータカタログとして利⽤・連携可能 § AWS Glue ETL︓分散処理でETLジョブを⾏うフルマネー ジドでサーバーレスなサービス。コストは利⽤したリソー ス分だけの⽀払い ETL処理 16 データカタログとは︓データの構造(列、型など)やアクセス ⽅法を定義してあり検索などが可能 ETL処理とは︓複数のデータストア間でデータ連携する際の 取出し(Extract)、変換(Transform)、ロード(Load) 処理
  • 17.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS Glue データカタログ テーブル構造をHiveメタストア互換 の形式で管理 • 列・プロパティ・型 • データロケーション(S3のパス) • 更新情報 等 クローラーによる自動スキーマ推論 とデータカタログ登録 • Hiveパーティションを認識し登録を自 動化 /mydata /year=2017 /month=11/... 17/month=12/...
  • 18.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイク 半構造化/非構造化/アーカイブ AWSのビッグデータ分析基盤︓ハイレベルアーキテクチャ BI 機械学習 分析クエリ ビッグデータ処理 リアルタイム ダッシュ ボード/ 警告通知 AWS Cloud 相互連携 Redshift QuickSight EMR SageMaker Kinesis GlueS3 Athena データウェアハウス 構造化
  • 19.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データウェアハウス 構造化データ Redshift
  • 20.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift 特徴 • 最⼤2PBまで拡張可能 • 超並列(MPP)で、列指向型DB エンジンによる⾼速SQL処理 • 最⼤128台まで拡張可能 • PostgreSQLとの互換性 • 使った分だけの利⽤料⾦で 従来のデータウェアハウスの 1/10のコストで実現 フルマネージドのクラウド型データウェアハウスサービス JDBC/ODBC Redshift
  • 21.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift Spectrum • S3上に置いたファイルを 外部テーブルとして直接 参照して⾼速分析処理 • Redshift内のデータベースの 内部テーブルと組み合わせて SQLでクエリ可能 • 多様なファイルフォーマット に対応 ü CSV, TSV, Parquet, ORC, RegexSerDe 等 S3 各種データ (CSV,Parquet等) Spectrum層 Redshift
  • 22.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイク 半構造化/非構造化/アーカイブ AWSのビッグデータ分析基盤︓ハイレベルアーキテクチャ BI 機械学習 分析クエリ ビッグデータ処理 リアルタイム ダッシュ ボード/ 警告通知 AWS Cloud 相互連携 Redshift QuickSight EMR SageMaker Kinesis GlueS3 Athena データウェアハウス 構造化
  • 23.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイク ビッグデータ処理 Athena EMR
  • 24.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Elastic MapReduce(EMR) Hadoop/Sparkなどの⼤規模分散処理環境のマネージドサービス ü 簡単スタート︓数クリックでセットアップ完了 ü 低コスト︓従量課⾦、必⽤な時間だけクラスターを稼働 分散処理 フレームワーク 分散処理基盤 簡単に複製 リサイズも1クリック Amazon S3 Amazon DynamoDB Amazon Kinesis Amazon EMR
  • 25.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. EMRFS: S3をHDFSの様に扱う “s3://” と指定するだけでHDFSと同様にS3にアクセス • 計算ノードとストレージを分離できる ü コスト⾯でもメリット⼤ • クラスタのシャットダウンが可能 ü クラスタを消してもデータをロストしない • 複数クラスタ間でデータ共有が簡単 • データの⾼い耐久性(S3) EMR EMR データレイクに直接並列でアクセスすることが可能 Amazon S3
  • 26.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Athena • S3上のファイルにSQLを実⾏可能 • PrestoベースでANSI SQL対応 • サーバ管理、データロード不要 • ⾃動で並列クエリ実⾏ • 結果はコンソールにストリーム (動的更新) • 結果はS3にも保存 • スキャンしたデータ量に対する課⾦ • JDBC/ODBC経由でBIツールから 可視化 S3に保存したファイルをサーバーレスでインタラクティブに直接クエリ 26
  • 27.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイク 半構造化/非構造化/アーカイブ AWSのビッグデータ分析基盤︓ハイレベルアーキテクチャ BI 機械学習 分析クエリ ビッグデータ処理 リアルタイム ダッシュ ボード/ 警告通知 AWS Cloud 相互連携 Redshift QuickSight EMR SageMaker Kinesis GlueS3 Athena データウェアハウス 構造化
  • 28.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイクの代表的なユースケース
  • 29.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. ⾼速データ処理の実装理論︓ラムダ・アーキテクチャ スピード /バッチレイヤ 29 http://lambda-architecture.net/ new data batch layer speed layer master dataset real-time view real-time view serving layer batch view batch view query query 全データの精度の ⾼い集計 リアルタイムに データ処理 結果のマージ バッチ処理の 結果を提供
  • 30.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. ラムダ・アーキテクチャのデータレイク実装例 Amazon S3 Amazon DynamoDB Devices Sensors AWS IoT Amazon Kinesis Data Streams AWS Greengras s Amazon Kinesis Data Firehose Amazon Kinesis Data Analytics Amazon Kinesis Data Streams データレイク AWS Glue Amazon EMR Amazon Redshift Amazon Athena Amazon SageMaker スピードレイヤ バッチレイヤ Amazon QuickSight
  • 31.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. ラムダ・アーキテクチャのデータレイク実装例 Amazon S3 Amazon DynamoDB Devices Sensors AWS IoT Amazon Kinesis Data Streams AWS Greengras s Amazon Kinesis Data Firehose Amazon Kinesis Data Analytics Amazon Kinesis Data Streams データレイク AWS Glue Amazon EMR Amazon Redshift Amazon Athena Amazon SageMaker スピードレイヤ バッチレイヤ Amazon QuickSight バッチレイヤへの取込みを待たずに リアルタイムデータを即時に活用 (速報値の表示/警告通知など)
  • 32.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. セキュアなデータレイクを数⽇で構築 特徴 ( https://aws.amazon.com/jp/lake-formation/ ) ❏ Amazon S3 バケットからのデータ認識・取込・クレン ジング・カタログ化・変換が容易に可能 ❏ Blueprint による容易なデータロード設定 ❖ データベースデータのロード • スナップショットデータをロードするバルクロード • 更新データを継続的にロードするインクリメンタルロード ❖ CLB/ALB/CloudTrail ログのロード ❏ 機械学習による変換で容易に重複データを排除 ❏ DataLake にアクセスする複数サービスに対し、横断的 にセキュリティポリシーを適⽤ ❏ テーブル、および、カラム粒度の権限付与が可能 ❏ セルフサービスアクセス化を加速するカタログ管理機能 ❏ リアルタイム監査とモニタリング 価格体系 ❏ Lake Formation ⾃体の利⽤は無償 ❏ Lake Formation で利⽤されるサービスにかかる費⽤ のみのお⽀払い 新しいインサイトの 獲得と管理 複数サービス横断 セキュリティポリ シー適⽤ データの認識、取込、 クレンジング、変換 AWS Lake Formation
  • 33.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazonのデータレイク事例
  • 34.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon のビジネスとデータ活用 Amazon Data Warehouse • Amazon はグローバルに様々なビジネスを展開 • そこから生まれる大量のデータを分析してビジネス判断
  • 35.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 多様な分析要件と大きなワークロード 80,000 ユーザー 900,000 ジョブ/日 38,000 のデータセット分析ユーザーとユース ケースは多種多様
  • 36.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon のデータウェアハウスの課題
  • 37.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. “Andes” –データレイク・プロジェクト– • Amazonの成長に合わせて 拡張可能なエコシステムを 提供 • オープンなシステムアーキ テクチャで、多様なデータ 分析の選択肢を提供 • AWSを利用してフィードバ ック、サービス改善に貢献
  • 38.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. “Andes” 以前の DWH のアーキテクチャ Legacy Data Warehouse ETLM Workflow Service Export Hosted Compute and Storage Execution DAG Data Ingestion Data Sources Users Reporting Systems Software Applications Amazon DynamoDB Amazon Aurora Amazon Redshift Oracle
  • 39.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. “Andes” のアーキテクチャ Synchronized Metadata, Data Amazon Redshift Amazon Redshift AWS Glue AWS Glue Amazon Aurora Amazon DynamoDB Big Data System Discovery Service Synchronizers ETLM Workflow Service Execution DAG Data Ingestion Hoot UI Data Sources Glue ETL Orchestration Spectrum Andes Metadata & Governance Service Completion Service Custom EMR Orchestration Amazon Kinesis Amazon Simple Storage Service (S3) Amazon EMR Amazon EMR Amazon S3 LOAD 参照
  • 40.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. “Andes” 完成(2018年1月移行完了) • PBクラスの DWH を AWS に移行 • DWH に加えてビッグデータ処理も可能に 動画:https://www.youtube.com/watch?v=PitJL9vOotc スライド:https://www.slideshare.net/AmazonWebServices/under-the-hood-how-amazon-uses-aws-services-for-analytics-at-a-massive-scale-ant206-aws-reinvent-2018
  • 41.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. • 収集と後続処理が分離され、収集側がデータレイクにデータを 置くだけで良い構成 • セルフサービスを促進するために「発⾒」「登録」層を導⼊ セルフサービスを実現するための仕組み 収集 蓄積 データ レイク 分析 可視化・ 応⽤ 発⾒ 登録 Discover Subscribe セルフサービス化
  • 42.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. データレイクポータルによる「発⾒」の実現 各種情報を提供 • 登録者情報 • 詳細情報(登録者が記⼊) • スキーマ • サポートレベル • 評価(今後の実装) 部署やデータ タイプによる分類 検索機能 ※この図はアイデア検討時のモックアップであり、実際とは異なります
  • 43.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. ✔ 「登録」によるセルフサービスのデータ取得 関係者との調整や開発不要 欲しいデータを発⾒したら、登録 (Subscribe)する 登録時にはデータの⾏き先を指定 (⾃部⾨のRedshiftやEMR等) ⾃動的にコピー処理やメタデータ 同期処理が構築され、定期的に フレッシュなデータが供給される ✔ 登録 (Subscribe) Amazon Redshift Amazon EMR データ定期コピー (バッチ) メタデータ同期 (S3へは透過アクセス) AWS Glue
  • 44.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 「登録」モデルの実現とその効果 ユーザ調整が可能な設計 • 必要なデータ範囲や頻度を設定可能 • 独⾃のクエリを登録して、データ連携の タイミングで⾃動実⾏ ⾃動的なバリデーション(表⾏数チェック、 スキーマチェック等) 誰が何を使っているか把握できるため、データの 削除や変更時にも影響範囲が把握できるという 効果あり INSERT INTO .. SELECT ... User Query When ... ▼After data copy ID = ABC and ... Where Timing ▼ Once a day : 3AM
  • 45.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. ⾮常に多くのお客様がデータレイク基盤をAWSに構築 10,000以上のデータレイクがAWS上で稼働
  • 46.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS Data Lake ハンズオンセミナーのご紹介 参考:https://aws.amazon.com/jp/blogs/news/20190405-aws-datalake-handson-seminor/ • 目黒の AWS Japan オフィスで不定期開催(無償セミナー) • 2018年から過去9回開催、参加者は100名程度 • イベント開催予定:https://aws.amazon.com/jp/about-aws/events/
  • 47.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Thank you!