SlideShare a Scribd company logo

20210217 AWS Black Belt Online Seminar AWS Glue DataBrew

Amazon Web Services Japan
Amazon Web Services Japan
Amazon Web Services JapanAmazon Web Services Japan

AWS公式オンラインセミナー: https://amzn.to/JPWebinar 過去資料: https://amzn.to/JPArchive

20210217 AWS Black Belt Online Seminar AWS Glue DataBrew

1 of 71
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
Junpei Ozono, Solutions Architect
2021.2.17
[AWS Black Belt Online Seminar]
AWS Glue DataBrew
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
2
AWS Black Belt Online Seminar とは
「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ
ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。
質問を投げることができます!
• 書き込んだ質問は、主催者にしか見えません
• 今後のロードマップに関するご質問は
お答えできませんのでご了承下さい
① 吹き出しをクリック
② 質問を入力
③ Sendをクリック
Twitter ハッシュタグは以下をご利用ください
#awsblackbelt
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
3
自己紹介
大薗 純平 (おおぞの じゅんぺい)
@jostandard
アマゾン ウェブ サービス ジャパン
アナリティクスソリューションアーキテクト
© 2021, Amazon Web Services, Inc. or its Affiliates.
4
内容についての注意点
• 本資料では2021 年 2 月 17 日現在のサービス内容および価格についてご説明しています。最新の情報はAWS公式
ウェブサイト(http://aws.amazon.com)にてご確認ください。
• 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、
AWS公式ウェブサイトの価格を優先とさせていただきます。
• 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。
• AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in
accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing
information included in this document is provided only as an estimate of usage charges for AWS services based
on certain information that you have provided. Monthly charges will be based on your actual use of AWS
services, and may vary from the estimates provided.
© 2021, Amazon Web Services, Inc. or its Affiliates.
5
• データ準備の課題
• AWS Glue DataBrew 概要
• AWS Glue DataBrew の使い方
• AWS Glue DataBrew のユースケース
• AWS Glue DataBrew の料金
• まとめ
本日のアジェンダ
© 2021, Amazon Web Services, Inc. or its Affiliates.
6
データ準備の課題

Recommended

202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)Amazon Web Services Japan
 
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Web Services Japan
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したことAmazon Web Services Japan
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介Amazon Web Services Japan
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことAmazon Web Services Japan
 
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチAmazon Web Services Japan
 
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介Amazon Web Services Japan
 

More Related Content

More from Amazon Web Services Japan

202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...Amazon Web Services Japan
 
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operationsAmazon Web Services Japan
 
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報Amazon Web Services Japan
 
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをなAmazon Web Services Japan
 
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPNAmazon Web Services Japan
 
AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)
AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)
AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)Amazon Web Services Japan
 
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)Amazon Web Services Japan
 
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)Amazon Web Services Japan
 
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法Amazon Web Services Japan
 
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤Amazon Web Services Japan
 
01_2021年上半期 AWS IoT サービスアップデート
01_2021年上半期 AWS IoT サービスアップデート01_2021年上半期 AWS IoT サービスアップデート
01_2021年上半期 AWS IoT サービスアップデートAmazon Web Services Japan
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Amazon Web Services Japan
 
Tealium+AWS Analytics サービスで実現する Customer Experience(CX)
Tealium+AWS Analytics サービスで実現する Customer Experience(CX)Tealium+AWS Analytics サービスで実現する Customer Experience(CX)
Tealium+AWS Analytics サービスで実現する Customer Experience(CX)Amazon Web Services Japan
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介Amazon Web Services Japan
 
AWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティスAWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティスAmazon Web Services Japan
 

More from Amazon Web Services Japan (20)

202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
 
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
 
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
 
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
 
20211109 JAWS-UG SRE keynotes
20211109 JAWS-UG SRE keynotes20211109 JAWS-UG SRE keynotes
20211109 JAWS-UG SRE keynotes
 
20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)
 
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
 
AWS の IoT 向けサービス
AWS の IoT 向けサービスAWS の IoT 向けサービス
AWS の IoT 向けサービス
 
AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)
AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)
AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)
 
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
 
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
 
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法
 
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
 
03_AWS IoTのDRを考える
03_AWS IoTのDRを考える03_AWS IoTのDRを考える
03_AWS IoTのDRを考える
 
02B_AWS IoT Core for LoRaWANのご紹介
02B_AWS IoT Core for LoRaWANのご紹介02B_AWS IoT Core for LoRaWANのご紹介
02B_AWS IoT Core for LoRaWANのご紹介
 
01_2021年上半期 AWS IoT サービスアップデート
01_2021年上半期 AWS IoT サービスアップデート01_2021年上半期 AWS IoT サービスアップデート
01_2021年上半期 AWS IoT サービスアップデート
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
 
Tealium+AWS Analytics サービスで実現する Customer Experience(CX)
Tealium+AWS Analytics サービスで実現する Customer Experience(CX)Tealium+AWS Analytics サービスで実現する Customer Experience(CX)
Tealium+AWS Analytics サービスで実現する Customer Experience(CX)
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
 
AWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティスAWS Well-Architected Security とベストプラクティス
AWS Well-Architected Security とベストプラクティス
 

20210217 AWS Black Belt Online Seminar AWS Glue DataBrew

  • 1. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive Junpei Ozono, Solutions Architect 2021.2.17 [AWS Black Belt Online Seminar] AWS Glue DataBrew
  • 2. © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2 AWS Black Belt Online Seminar とは 「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。 質問を投げることができます! • 書き込んだ質問は、主催者にしか見えません • 今後のロードマップに関するご質問は お答えできませんのでご了承下さい ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック Twitter ハッシュタグは以下をご利用ください #awsblackbelt
  • 3. © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 3 自己紹介 大薗 純平 (おおぞの じゅんぺい) @jostandard アマゾン ウェブ サービス ジャパン アナリティクスソリューションアーキテクト
  • 4. © 2021, Amazon Web Services, Inc. or its Affiliates. 4 内容についての注意点 • 本資料では2021 年 2 月 17 日現在のサービス内容および価格についてご説明しています。最新の情報はAWS公式 ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、 AWS公式ウェブサイトの価格を優先とさせていただきます。 • 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.
  • 5. © 2021, Amazon Web Services, Inc. or its Affiliates. 5 • データ準備の課題 • AWS Glue DataBrew 概要 • AWS Glue DataBrew の使い方 • AWS Glue DataBrew のユースケース • AWS Glue DataBrew の料金 • まとめ 本日のアジェンダ
  • 6. © 2021, Amazon Web Services, Inc. or its Affiliates. 6 データ準備の課題
  • 7. © 2021, Amazon Web Services, Inc. or its Affiliates. 7 データ準備 (Data prep) には複雑なタスクを伴う 抽出と ロード クリーニングと 正規化 大規模な 自動化 大規模に活用するためには複雑な ETL パイプラインの実装が必要
  • 8. © 2021, Amazon Web Services, Inc. or its Affiliates. 8 80% の時間がデータ準備に費やされている 利用ユーザーに合った適切なツールが必要
  • 9. © 2021, Amazon Web Services, Inc. or its Affiliates. 9 典型的なデータ準備における課題 時間がかかる 大規模なデータの抽出、クレンジング、正規化、ロードを マルチステップで行う必要がある 手動 繰り返しのワークフローを構築・運用するのは困難 スケールさせるには大規模コーディングが必要 大容量データの移動 組織間やシステム間での繰り返しのデータ移動が発生
  • 10. © 2021, Amazon Web Services, Inc. or its Affiliates. 10 AWS Glue DataBrew 概要
  • 11. © 2021, Amazon Web Services, Inc. or its Affiliates. 11 AWS Glue DataBrew データのクリーンアップおよび正規化を 最大 80% 高速化するビジュアルデータ準備ツール
  • 12. © 2021, Amazon Web Services, Inc. or its Affiliates. 12 データアナリストとデータサイエンティストのためのツール データのクリーン アップと正規化 250 種類以上の組み込 みの変換処理から選択 し、データの視覚化、 クリーニング、正規化 を実施 データ品質の理解 データパターンを理解し 異常を検出するために プロファイリングを行い データの品質を評価 データリネージの 視覚化 データソースと 変換手順を視覚化 してトラッキング 自動化 保存された変換手順を 使いまわしたり 自動実行する 高度なデータ準備機能をノンコーディングで利用可能
  • 13. © 2021, Amazon Web Services, Inc. or its Affiliates. 13 AWS Glue DataBrew の使い方
  • 14. © 2021, Amazon Web Services, Inc. or its Affiliates. 14 プロジェクト データセットのクリーンアップや正規化などの変換に関するステップをまとめた レシピを作成するためのワークスペース データセット AWS Glue DataBrew が接続する、フィールド (列) を持つデータの集合 レシピ データ変換ステップの一連のセット ジョブ データセットに対してレシピを適用して変換処理を行うもの (レシピジョブ) データセットの統計に関するプロファイルを作成するもの (プロファイルジョブ) AWS Glue DataBrew 用語の紹介
  • 15. © 2021, Amazon Web Services, Inc. or its Affiliates. 15 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  • 16. © 2021, Amazon Web Services, Inc. or its Affiliates. 16 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  • 17. © 2021, Amazon Web Services, Inc. or its Affiliates. 17 IAM おさらい https://www.slideshare.net/AmazonWebServicesJapan/20190129-aws-black-belt-online-seminar-aws-identity-and-access-management-iam-part1 https://www.slideshare.net/AmazonWebServicesJapan/20190130-aws-black-belt-online-seminar-aws-identity-and-access-management-aws-iam-part2 事前準備 データ変換処理の作成 ジョブの実行 ・・・ Optional top-level elements Statement Statement IAM ポリシー IAM グループ IAM ユーザー IAM ユーザー IAM ユーザー どのリソースにどの操作を許 可するか権限を定義する グループ内のユーザに対して 特定の権限を付与する ログインと特定の権限 を付与する IAM ロール 特定のユーザや AWS サービ スに対して権限を委任する
  • 18. © 2021, Amazon Web Services, Inc. or its Affiliates. 18 1. AWS Glue DataBrew の利用者が 認証に使用するための IAM ユーザー/グループ および IAM ユーザー/グループにアタッチする IAM ポリシー 2. AWS Glue DataBrew サービス自体が 他の AWS サービスにアクセスする際に使用する IAM ロール および IAM ロールにアタッチする IAM ポリシー 事前準備として必要なもの https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html
  • 19. © 2021, Amazon Web Services, Inc. or its Affiliates. 19 IAM ユーザー/グループ準備 https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html 事前準備 データ変換処理の作成 ジョブの実行 AWS Management Console AWS Command Line Interface (AWS CLI) AWS Glue DataBrew ・・・ Optional top-level elements Statement Statement IAM ポリシー IAM グループ IAM ユーザー IAM ユーザー IAM ユーザー ・・・ AWS マネージメントコンソールやコマンドラインインターフェース (CLI) から AWS Glue DataBrew に接続するための IAM ユーザー/グループを準備(作成) IAM ユーザー/グループに アタッチする必要な権限が 揃った IAM ポリシーを作成 IAM ポリシーを IAM ユーザー/グループにアタッチ 2 3 1
  • 20. © 2021, Amazon Web Services, Inc. or its Affiliates. 20 IAM ロール準備 https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html 事前準備 データ変換処理の作成 ジョブの実行 AWS Glue DataBrew ・・・ Optional top-level elements Statement Statement IAM ポリシー ・・・ AWS Glue DataBrew からアクセスが 必要な他の AWS サービスへのアクセ ス権限を定義した IAM ロールを準備 (作成) IAM ロールに アタッチする必要な権限が 揃った IAM ポリシーを作成 IAM ロール Amazon Simple Storage Service (S3) AWS Glue AWS Key Management Service (AWS KMS) 1 IAM ポリシーを IAM ロールにアタッチ 3 2
  • 21. © 2021, Amazon Web Services, Inc. or its Affiliates. 21 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  • 22. © 2021, Amazon Web Services, Inc. or its Affiliates. 22 マネージメントコンソールに AWS Glue DataBrew の操作権限を持った IAM ユーザーでアクセスしてプロジェクトを作成する プロジェクトの作成 https://docs.aws.amazon.com/databrew/latest/dg/projects.html 事前準備 データ変換処理の作成 ジョブの実行
  • 23. © 2021, Amazon Web Services, Inc. or its Affiliates. 23 プロジェクトは、特定のデータセットに対する変換ステップを定義する ”レシピ”を作成するためのワークスペース プロジェクトとは 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/projects.html
  • 24. © 2021, Amazon Web Services, Inc. or its Affiliates. 24 プロジェクト作成手順① レシピとデータセット レシピ •新しいレシピを作成 •既存のレシピを編集 •レシピからステップをインポート データセット •マイデータセット •サンプルファイル •新しいデータセット 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/projects.html
  • 25. © 2021, Amazon Web Services, Inc. or its Affiliates. 25 プロジェクト作成手順② データセットの選択 加工/変換したいデータを以下の 中から選択 •ローカルファイル •Amazon S3 上のファイル •AWS Glue データカタログ •AWS Data Exchange https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  • 26. © 2021, Amazon Web Services, Inc. or its Affiliates. 26 プロジェクト作成手順③ 行サンプリング/アクセス許可 プロジェクト内で操作するデータ セットの行数をサンプリング可能 データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 https://docs.aws.amazon.com/databrew/latest/dg/projects.html 事前準備 データ変換処理の作成 ジョブの実行 「事前準備」で IAM ロールを 作成した場合はこちらを選択
  • 27. © 2021, Amazon Web Services, Inc. or its Affiliates. 27 インプットファイルのサポートフォーマットと拡張子 サポートされるデータセット フォーマット 拡張子 (非圧縮) *1 拡張子 (圧縮) *1 CSV *2 .csv .csv.gz, .csv.snappy, .csv.lz4, .csv.bz2, .csv.deflate TSV *2 .tsv .tsv.gz, .tsv.snappy, .tsv.lz4, .tsv.bz2, .tsv.deflate Microsoft Excel ワークブック .xlsx 非サポート JSON .json .json.gz, .json.snappy, .json.lz4, .json.bz2, .json.deflate JSON lines .jsonl .jsonl.gz, .jsonl.snappy, .jsonl.lz4, .jsonl.bz2, .jsonl.deflate Apache Parquet .parquet .parquet.gz, .gz.parquet, .parquet.snappy, .snappy.parquet, .parquet.lz4, .lz4.parquet *1 DataBrew は拡張子でファイルフォーマットを判断するため、必ず上記拡張子を使用する *2 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応 https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  • 28. © 2021, Amazon Web Services, Inc. or its Affiliates. 28 Amazon S3 上の特定ファイル/フォルダを示す「S3 パス」または 正規表現を用いた「パラメータ化された S3 パス」を指定可能 例 •ある特定のファイルを指定 s3://bucket-name/inventory-data.csv •ある特定のフォルダ配下にあるすべてのファイルを指定 s3://bucket-name/folder-name/ •“2021” を名称に含むフォルダ配下にあるすべてのファイルを指定 s3://bucket-name/<.*>2021<.*>/ Amazon S3 上のデータ https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  • 29. © 2021, Amazon Web Services, Inc. or its Affiliates. 29 AWS Glue データカタログ経由で以下サービス上のデータと接続可能 •Amazon Redshift •Amazon Aurora MySQL •Amazon Aurora PostgreSQL •Amazon RDS for MySQL •Amazon RDS for PostgreSQL 他 AWS サービス上のデータ https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  • 30. © 2021, Amazon Web Services, Inc. or its Affiliates. 30 プロジェクト内でインタラクティブに変換イメージを確認しながら、 データセットに対する変換ステップのコレクションであるレシピを作成 レシピの作成 事前準備 データ変換処理の作成 ジョブの実行 1. 250 種類以上の組み込みの処理から選択 して変換ステップを作成 2. 変換ステップが確定したらレシピを発行 (2) (1) https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
  • 31. © 2021, Amazon Web Services, Inc. or its Affiliates. 31 • 作成したレシピは編集・削除でき、バージョン管理も可能 • レシピは YAML/JSON でのダウンロード, JSON のアップロードも可能 レシピの管理 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
  • 32. © 2021, Amazon Web Services, Inc. or its Affiliates. 32 代表的な変換処理
  • 33. © 2021, Amazon Web Services, Inc. or its Affiliates. 33 データのフィルタリング 事前準備 データ変換処理の作成 ジョブの実行
  • 34. © 2021, Amazon Web Services, Inc. or its Affiliates. 34 データの結合 事前準備 データ変換処理の作成 ジョブの実行
  • 35. © 2021, Amazon Web Services, Inc. or its Affiliates. 35 データの集計 事前準備 データ変換処理の作成 ジョブの実行
  • 36. © 2021, Amazon Web Services, Inc. or its Affiliates. 36 欠損値の補完 事前準備 データ変換処理の作成 ジョブの実行
  • 37. © 2021, Amazon Web Services, Inc. or its Affiliates. 37 関数を使った新たな列の作成 事前準備 データ変換処理の作成 ジョブの実行
  • 38. © 2021, Amazon Web Services, Inc. or its Affiliates. 38 複数列の統合 事前準備 データ変換処理の作成 ジョブの実行
  • 39. © 2021, Amazon Web Services, Inc. or its Affiliates. 39 フラグ値の作成 事前準備 データ変換処理の作成 ジョブの実行
  • 40. © 2021, Amazon Web Services, Inc. or its Affiliates. 40 One-hot エンコーディング 事前準備 データ変換処理の作成 ジョブの実行
  • 41. © 2021, Amazon Web Services, Inc. or its Affiliates. 41 数値データの正規化 事前準備 データ変換処理の作成 ジョブの実行
  • 42. © 2021, Amazon Web Services, Inc. or its Affiliates. 42 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  • 43. © 2021, Amazon Web Services, Inc. or its Affiliates. 43 AWS Glue DataBrew には 2 種類のジョブがある •レシピジョブ • データセットに対してレシピを適用して変換処理を行うもの •プロファイルジョブ • データセットの統計に関するプロファイルを作成するもの ジョブを実行しても対象のデータセットを書き換えることはせず、 指定した Amazon S3 上に結果を書き出す ジョブ 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 44. © 2021, Amazon Web Services, Inc. or its Affiliates. 44 レシピジョブ
  • 45. © 2021, Amazon Web Services, Inc. or its Affiliates. 45 レシピジョブの作成手順① データセットに対してレシピを適用して変換処理 ジョブタイプとして 「レシピジョブを作成」を選択 ジョブを実行する対象の •データセット •プロジェクト •レシピ を選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 46. © 2021, Amazon Web Services, Inc. or its Affiliates. 46 レシピジョブの作成手順② データセットに対してレシピを適用して変換処理 ジョブの出力結果のアウトプット ファイルフォーマットや書き出し 先の S3 プレフィックスを指定 パーティションの設定や ファイルの上書きオプション、 暗号化設定も指定することが可能 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 47. © 2021, Amazon Web Services, Inc. or its Affiliates. 47 アウトプットファイルのサポートフォーマットと拡張子 サポートされるデータセット フォーマット 拡張子 (非圧縮) 拡張子 (圧縮) CSV *1 .csv .csv.snappy, .csv.gz, .csv.lz4, csv.bz2, .csv.deflate Apache Parquet 非サポート .parquet.snappy, .parquet.gz, .parquet.lz4, .parquet.lzo AWS Glue Parquet 非サポート .glue.parquet.snappy Apache Avro .avro .avro.snappy, .avro.gz, .avro.lz4, .avro.bz2, .avro.deflate Apache Orc 非サポート .orc.snappy, .orc.lzo, .orc.zlib XML .xml .xml.snappy, .xml.gz, .xml.lz4, .xml.bz2, .xml.deflate JSON (JSON Lines format only) .json .json.snappy, .json.gz, .json.lz4, json.bz2, .json.deflate *1 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html 事前準備 データ変換処理の作成 ジョブの実行
  • 48. © 2021, Amazon Web Services, Inc. or its Affiliates. 48 レシピジョブの作成手順② データセットに対してレシピを適用して変換処理 ジョブに割り当てるノード数や タイムアウト、リトライ回数を 指定し、パフォーマンスを調整 することが可能 •ノード数はデフォルト 5, 最大 149 •1 ノード 4 vCPUs, 16GB メモリ データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html プロジェクト作成時と同じものを選択
  • 49. © 2021, Amazon Web Services, Inc. or its Affiliates. 49 データリネージ 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html データのインプットから アウトプットまでの流れを可視化 ジョブの実行状況も確認可能 各アイコンをクリックすることで 詳細情報の確認も可能
  • 50. © 2021, Amazon Web Services, Inc. or its Affiliates. 50 プロファイルジョブ
  • 51. © 2021, Amazon Web Services, Inc. or its Affiliates. 51 プロファイルジョブの作成手順① データセットの統計に関するプロファイルを作成 ジョブタイプとして 「プロファイルジョブを作成する」 を選択 ジョブを実行する対象の データセットを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 52. © 2021, Amazon Web Services, Inc. or its Affiliates. 52 プロファイルジョブの作成手順② データセットの統計に関するプロファイルを作成 データセットの サンプリング件数を指定 •全件 •件数指定 ジョブの出力結果の アウトプットファイルの 書き出し先の S3 プレフィックス を指定 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 53. © 2021, Amazon Web Services, Inc. or its Affiliates. 53 ジョブに割り当てるノード数や タイムアウト、リトライ回数を 指定し、パフォーマンスを調整 することが可能 •ノード数はデフォルト 5, 最大 149 •1 ノード 4 vCPUs, 16GB メモリ データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html プロファイルジョブの作成手順③ データセットの統計に関するプロファイルを作成 プロジェクト作成時と同じものを選択
  • 54. © 2021, Amazon Web Services, Inc. or its Affiliates. 54 データプロファイルの生成 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/datasets.html
  • 55. © 2021, Amazon Web Services, Inc. or its Affiliates. 55 AWS Glue DataBrew のユースケース
  • 56. © 2021, Amazon Web Services, Inc. or its Affiliates. 56 1. Amazon Redshift や Amazon RDS など他の AWS サービス内のデータ をアドホックに探索して整備し、BI レポーティング環境を構築する 2. 定常的に生成するデータのプロファイルチェックを自動化し通知する 3. 機械学習モデルを構築するためのデータを準備する 4. Amazon Athena にクエリして Amazon QuickSight で可視化するため のデータを準備するパイプラインをコーディングレスで構築する AWS Glue DataBrew のユースケース
  • 57. © 2021, Amazon Web Services, Inc. or its Affiliates. 57 1. BI レポーティングのためのアドホックデータ分析 Amazon Simple Storage Service (S3) AWS Glue DataBrew Amazon QuickSight S3 Output Bucket Amazon Redshift Amazon RDS Data Catalog Data Sources Amazon Simple Storage Service (S3) Local file
  • 58. © 2021, Amazon Web Services, Inc. or its Affiliates. 58 2. AWS Lambda でデータ品質ルールを設定 Amazon Simple Notification Service Amazon EventBridge Email notification AWS Lambda Amazon Simple Storage Service (S3) AWS Glue DataBrew Recurring raw data feed https://aws.amazon.com/jp/blogs/big-data/setting-up-automated-data-quality-workflows-and-alerts-using-aws-glue-databrew-and-aws-lambda/
  • 59. © 2021, Amazon Web Services, Inc. or its Affiliates. 59 3. 機械学習のためのデータ前処理 Amazon Simple Storage Service (S3) AWS Glue DataBrew JupyterLab Environment Inference S3 Output Bucket Model Training
  • 60. © 2021, Amazon Web Services, Inc. or its Affiliates. 60 JupyterLab 経由で AWS Glue DataBrew に接続可能 •AWS CLI, AWS Jupyter proxy をセットアップ •JupyterLab (v.2.2.6 以降) に aws_glue_databrew_jupyter Extension をインストール •JupyterLab から AWS Glue DataBrew の接続経路はパブリック通信となる JupyterLab Extension https://docs.aws.amazon.com/databrew/latest/dg/jupyter.html Extension インストールで JupyterLab から AWS Glue DataBrew に 直接接続できるようになる
  • 61. © 2021, Amazon Web Services, Inc. or its Affiliates. 61 4. ワークフロー内でデータ準備をオーケストレーション AWS Step Functions workflow AWS Glue DataBrew AWS Cloud Amazon Athena AWS Step Functions Amazon EventBridge AWS Glue DataBrew Amazon Simple Notification Service (Amazon SNS) Amazon Athena Amazon Athena Amazon QuickSight AWS Glue Data Catalog マーケティング チーム BI ユーザー https://aws.amazon.com/jp/blogs/big-data/orchestrating-an-aws-glue-databrew-job-and-amazon-athena-query-with-aws-step-functions/ S3 Output Bucket S3 Input Bucket
  • 62. © 2021, Amazon Web Services, Inc. or its Affiliates. 62 AWS Step Functions との連携 AWS Glue DataBrew ジョブを AWS Step Functions の ワークフローに統合可能 データのクリーニングや正規化の ステップを、分析や機械学習の ワークフローの一部として オーケストレーション可能に https://docs.aws.amazon.com/step-functions/latest/dg/connect-databrew.html
  • 63. © 2021, Amazon Web Services, Inc. or its Affiliates. 63 AWS Glue DataBrew ビジネスアナリスト データサイエンティスト リッチなビジュアルインターフェース によりデータを整形・正規化 250 以上の組み込みの変換機能 を選択し、タスクを自動化 データパターンや異常値を把握するための データプロファイル機能 大規模なデータセットを操作可能 AWS Glue Studio E T L デ ベ ロ ッ パ ー コードを記述せずに ETL ジョブを 視覚的にオーサリング コンソールから数千のジョブを監視 学習コストなしに分散処理を活用 再利用可能なコードを使った高度な変換
  • 64. © 2021, Amazon Web Services, Inc. or its Affiliates. 64 AWS Glue DataBrew の料金
  • 65. © 2021, Amazon Web Services, Inc. or its Affiliates. 65 • DataBrew ジョブ - $0.48/node/hour •ジョブの実行に使用された AWS Glue DataBrew ノードの数に基づいて 1 時間ごとの料金が発生 •デフォルトでは各ジョブに 5 ノード 割り当てられる •1 ノード 4 vCPUs, 16GB メモリ • DataBrew インタラクティブセッション - $1/30分 •DataBrew プロジェクトを開くとセッションが開始され、 未操作の時間が続いた場合自動的にサスペンド •はじめて DataBrew にアクセスする場合、最初の 40 セッションは無償 AWS Glue DataBrew の料金 https://aws.amazon.com/jp/glue/pricing/
  • 66. © 2021, Amazon Web Services, Inc. or its Affiliates. 66 まとめ
  • 67. © 2021, Amazon Web Services, Inc. or its Affiliates. 67 • AWS Glue DataBrew は、データのクリーンアップおよび正規化を 最大 80% 高速化するビジュアルデータ準備ツール • データアナリストやサイエンティストが コーディングを行うことなしに、 250 種類以上の組み込みの変換処理を使って データを分析に必要な形に簡単に整形することが可能 • アドホックなデータ探索、データの品質チェック、 機械学習モデル構築の前処理、データ分析パイプライン構築など さまざまなユースケースに活用することが可能 まとめ
  • 68. © 2021, Amazon Web Services, Inc. or its Affiliates. 68 Q&A お答えできなかったご質問については AWS Japan Blog https://aws.amazon.com/jp/blogs/news/ に 後日掲載します。
  • 69. © 2021, Amazon Web Services, Inc. or its Affiliates. 69 AWS の日本語資料の場所「AWS 資料」で検索 https://amzn.to/JPArchive
  • 70. © 2021, Amazon Web Services, Inc. or its Affiliates. 70 で[検索] AWS イベント 毎週”W-A個別技術相談会”を実施中 • AWSのソリューションアーキテクト(SA)に 対策などを相談することも可能 • 申込みはイベント告知サイトから (https://aws.amazon.com/jp/about-aws/events/) AWS Well-Architected 個別技術相談会
  • 71. © 2021, Amazon Web Services, Inc. or its Affiliates. 72 AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive ご視聴ありがとうございました