Glue DataBrewでデータをクリーニング、加工してみよう

Glue DataBrewでデータを
クリーニング、加工してみよう
2021/10/7
データアナリティクス事業本部
須藤健志

2
自己紹介
須藤健志（suto takeshi）
所属
データアナリティクス事業本部
『データ分析基盤や機械学習基盤のコンサル・構築を担当』
略歴
通信事業会社のNWエンジニア→メーカー系SIer
→クラスメソッドJoin（2020年4月）
好きなAWSサービス
AWS CDK、Glue DataBrew、SageMaker

3
アジェンダ
• はじめに
• Glue Databrewの概要
• Glue Databrewの機能と特徴
• Glue Databrewの使いどころ
• デモ
• まとめ

4
はじめに
データ分析・機械学習の前に行う
「データクレンジング」

5
はじめに
•こんなことありませんか？
• 誤記や表記ゆれがあり前処理がうまくいかない
• 重複しているデータがある、欠損値がある
• エラーが発生してデータを取り込めない

6
はじめに
データのクレンジングが必要
欠損の修正
重複データの削除
正規化・標準化
無関係なデータの削除や
マスキング

7
はじめに
しかしデータクレンジングには
時間とコストがかかる
• ワークフローの構築とその自動化
• システム間で大容量データの移動

8
Glue DataBrewとは
コードを記述せずに
データのクリーンアップおよび正規化ができる
ビジュアルデータ準備ツール
AWSマネージドサービス
（サーバレスで使える）

9
Glue DataBrewとは
主な機能
250種類以上の変換処理
• プレビューで変換前と変換後を比べながら処理を作成

10
Glue DataBrewとは
主な機能
ワークフローの自動化
• ジョブの実行をスケジューリングできる

11
Glue DataBrewとは
主な機能
データリネージの視覚化
• データが通過した様々なデータソースと変換ステップをビジュアルで確認

12
Glue DataBrewとは
主な機能
データプロファイリング
• データの相関関係や統計をわかりやすく表示

13
Glue DataBrewとは
サポートしているファイルタイプ
【入力ファイル】
• CSV
• Parquet
• Json
• Excel
【区切り文字】
• カンマ（,）
• コロン（:）
• セミコロン（:）
• パイプ（|）
• タブ（¥t）
• キャレット（^）
• バックスラッシュ（＼）
• スペース
【圧縮タイプ】
• なし
• Snappy
• Gzip
• LZ4
• Bzip2
• Deflate
• Brotli
【出力ファイル】
• CSV
• Parquet
• Glue Parquet
• AVRO
• ORC
• XML
• Json
• Tableau Hyper

14
Glue DataBrewとは
指定できるデータソース、出力先も充実してきた
【データソース】
• Amazon S3
• Amazon Redshift
• Glueデータカタログ
（S3、Redshift、RDS、Lake Formation）
• Snowflake
• その他データベース
（JDBC接続経由）
• サードパーティデータ
（AWS Data Exchange
またはAmazon AppFlow経由）
【出力先】
• Amazon S3
• Amazon Redshift
• Glueデータカタログ
（S3、Redshift、RDS 、Lake Formation ）
• Snowflake
• その他データベース
（JDBC接続経由）

15
Glue DataBrewの料金
インタラクティブセッション（1.0$/30分）
• プロジェクト画面を開くとセッション開始
• 未操作の時間が続けば自動でサスペンド
• はじめてDataBrewを使う場合、最初の40セッションは無償
ジョブ実行（0.48$/ノード/時間）
• ジョブ実行に使用されたノード数に基づいて1時間ごとに課金
• デフォルトでは各ジョブに5ノード割り当て
• 1ノード4vCPUs、16GBメモリ

16
Glue DataBrewの使いどころ
主なユースケース
• データをアドホックに探索して
BIレポートやデータマートの作成に向けた策定
• 定常的かつ簡単なデータクリーニング処理を自動化したい
• データ準備処理のためのパイプラインを
コーディングレスで構築したい

17
Glue DataBrewの使いどころ
（技術的に可能だが）DataBrewには向かないケース
• 複雑なETL処理
→実現に膨大なステップ数となるため
• 機械学習における特徴量計算
• データ分析における複数テーブルからの統計処理
→エンジニアからすればコード開発した方がラク
• データ前処理工程を1つのサーバ内で一貫して素早く処理したい
• Glue Databrewジョブの実行完了には時間がかかる
• 同じ処理をコードで実行した方が早い

18
ここから実際の画面でデモをやっていきます
内容：DataBrewプロジェクト作成〜レシピ作成〜ジョブ実行をやってみよう
使用するデータ：Titanicの機械学習用データ
（以下URLからダウンロードして、S3バケットに保存した状態からスタートします）
https://www.kaggle.com/c/titanic/data

19
まとめ
データクリーニング、正規化に使えるGlue DataBrew
• サーバレスかつコードを書かずにデータ処理のジョブを作成で
きるので構築に手間がかからない
• プレビューで変換前／後を確認しながら様々な処理ができる
• データをアドホックに探索しながらワークフローを作るのに有
用だが、複雑なETL処理の実装には向かない

Glue DataBrewでデータをクリーニング、加工してみよう

Glue DataBrewでデータをクリーニング、加工してみよう

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Glue DataBrewでデータをクリーニング、加工してみよう

Similar to Glue DataBrewでデータをクリーニング、加工してみよう (20)

Glue DataBrewでデータをクリーニング、加工してみよう

Editor's Notes